Wat is een Datalake, een Datawarehouse en een Tabular model?

Als je met Business Intelligence (BI) aan de slag gaat vliegen de IT buzzwords je om de oren. Jij wilt helemaal niks weten van de datamodellen, jij wilt informatie op je scherm waarmee je kunt analyseren. Wel verstandig om in ieder geval deze termen te kennen.

Een   Datalake  is een bron waarin ongestructureerde data wordt samengebracht. Dat is in de kern het grote verschil met een Datawarehouse. Ongestructureerd betekent ook letterlijk ongestructureerd. Bij een data lake gebeurt de opslag zonder specifieke structuur. Een bak met gegevens wordt in ruwe en originele vorm centraal opgeslagen. De kosten van opslag zijn beperkt, dus het idee er achter is, sla de data maar op, want je kunt het misschien maar nodig hebben. Zo kun je afbeeldingen opslaan, weersinformatie, geografische data, emailverkeer en eigenlijk alles wat je maar kunt verzinnen. Een grote databron tegen lage kosten die je middels een Datascientist kunt gaan ‘bevragen’. Het ongestructureerde karakter van een Datalake biedt voordelen voor datamining en machine learning. In de praktijk is het lastig om overzicht te houden.

Een   datawarehouse werkt  anders en is samengesteld uit data uit specifiek geselecteerde bronnen. Denk aan je Microsoft   Dynamics NAV  of   Microsoft Dynamics AX  systeem. Alle gegevens zijn gestructureerd en hebben een vast formaat, opgeslagen in tabellen en velden. Binnen het datawarehouse wordt data ingeladen en gestructureerd.

Beide oplossingen vergen onderhoud en brengen kosten met zich mee.

Er valt niet de zeggen dat de één een betere oplossing is dan de andere. Wat het beste is, verschilt per organisatie en is afhankelijk van het doel. Er bestaan voldoende analyse oplossingen voor zowel datawarehouses als data lakes. Heeft u vooral behoefte aan overzichtelijke en eenduidige informatie om te gebruiken voor   BI tools  en datavisualisatie, dan is een datawarehouse een voor de hand liggende keuze. Als u wilt beschikken over veel ongeordende data voor geavanceerde analyses door middel van machine learning, dan is een data lake een betere oplossing. Beide opties hoeven elkaar niet uit te sluiten. U kunt ook kiezen voor oplossingen waarbij een datawarehouse en data lake naast elkaar bestaan en beide optimaal benut worden in hun eigen specialisme.

Tot slot het   Tabular model. Hier vindt uiteindelijk de transformatie van data naar informatie plaats. Hier zijn alle definities beschikbaar en kun je binnen Power BI je analyses gaan samenstellen. Heel handig. Denk aan een draaitabel (of Pivottable) zoals je die ook wel uit Excel kent. Alleen staat deze draaitabel niet op je eigen computer maar ergens op de server of in Azure, zodat iedereen binnen de organisatie naar dezelfde data zit te kijken… mits goed gefilterd natuurlijk.   Wist je dat op onze servicedesk de meeste vragen over ontbrekende data of incomplete data te maken hebben met de filters die zijn gezet?