Het logo van Axxius

Wat is Hadoop?

Hadoop is een open-source softwareprogramma voor het opslaan van gegevens en het uitvoeren van toepassingen op clusters van commodity-hardware. Het biedt een enorme opslagruimte voor alle soorten gegevens, een enorme verwerkingscapaciteit en de mogelijkheid om vrijwel onbeperkte gelijktijdige taken of opdrachten uit te voeren.

Hadoop-logo

De 4 modules van Hadoop

Hadoop bestaat uit “modules”, die elk een bepaalde taak uitvoeren die van wezenlijk belang zijn voor het analyseren van grote hoeveelheden gegevens.

  • MapReduce — is vernoemd naar twee basistaken die deze module uitvoert. Dit is het uitlezen van gegevens uit een database en het formatteren van data zodat het geschikt is voor analyse (map).
  • Distributed File-System — gedistribueerd filesysteem dat toegang tot applicatiegegevens verschaft met een hoge verwerkingscapaciteit.
  • Hadoop Common —  bevat de nodige Java Archive (JAR) bestanden en scripts die nodig zijn om Hadoop op te starten. De module voorziet in de broncode en documentatie, evenals een sectie met bijdragen van verschillende projecten uit de Hadoop-community.
  • YARN — beheert de middelen van de systemen die gegevens opslaan en de analyses uitvoeren.

5 voordelen van Hadoop voor Big Data

Voor big data en analytics is Hadoop een kostenbesparer. Het verzamelen van gegevens over mensen, processen, objecten, tools, etc. is alleen nuttig als er significante trends ontstaan die, in de loop van de tijd, resulteren in betere beslissingen. Hadoop ondersteunt bij het overwinnen van de uitdaging van de gigantische hoeveelheid en omvang van big data.

  1. Schaalbaarheid — anders dan traditionele systemen die een belemmering vormen voor de opslag van gegevens, is Hadoop wel degelijk schaalbaar aangezien het in een gedistribueerde omgeving opereert.
  2. Lagere gebruikskosten — de kosten van Hadoop zijn aanzienlijk lager dan die van relationele databasesystemen, omdat het een open-source framework betreft en er geen licentie vereist is om de software aan te schaffen.
  3. Robuustheid — de gegevens en de verwerking van applicaties zijn gewaarborgd tegen uitval van hardware. Als één node uitvalt, worden opdrachten automatisch doorgestuurd naar andere nodes. Zo wordt gegarandeerd dat de gedistribueerde computer niet uitvalt. Meerdere kopieën van alle gegevens worden automatisch opgeslagen.
  4. Snelheid — het gedistribueerde filesysteem van Hadoop, de gelijktijdige verwerking en het MapReduce-model maken het mogelijk om in enkele seconden complexe query’s uit te voeren.
  5. Diversiteit van gegevens — Hadoop heeft de mogelijkheid om verschillende gegevensformaten op te slaan, zoals ongestructureerde data (bijv. video’s), semi-gestructureerde data (bijv. XML-bestanden) en gestructureerde data.