IT-INFRA » ARTIKELEN > 10 > DOSSIER: BIG DATA IS EEN VERZAMELBEGRIP

DOSSIER: Big data is een verzamelbegrip


Sinds enige tijd wordt in de IT-wereld over big data gesproken, maar wat verstaan we daar nu precies onder?

De hoeveelheid gegevens in de wereld groeit ongeveer volgens de Wet van Moore, dat wil zeggen een verdubbeling elke 18 maanden. Uit cijfers van EMC blijkt dat het datastuwmeer de afgelopen vijf jaar ongeveer negen keer zo groot is geworden.


De toename bestaat uit verschillende typen data, gestructureerd en ongestructureerd en in verschillende hoeveelheden. Aan de bovenkant van de range worden we geconfronteerd met een fenomeen dat in de VS gemakshalve wordt aangeduid met ‘big data’. Maar hoe groot is ‘big’ dan precies? 


IDC hanteert een definitie die niet alleen betrekking heeft op de gegevens zelf, maar ook op het gebruik dat ervan wordt gemaakt. Daardoor is big data ‘het werkgebied van een nieuwe generatie hulpmiddelen die de gebruiker in staat stellen om zinvolle informatie te halen uit grote hoeveelheden gegevens en dat op een manier die zo snel en goedkoop mogelijk is’.


Organisatieadviesbureau McKinsey heeft een uitgebreid onderzoek gedaan naar big data en de onderzoekers stellen vast dat het hier om een glijdend begrip gaat. “De definitie is afhankelijk van het moment en van de branche waarin je kijkt”, aldus de rapporteurs van McKinsey. De onderzoekers hanteren daarom een meer universele definitie: “Een hoeveelheid gegevens die de capaciteit van de gebruikelijke databases en die van de software die nodig is voor inlezen, beheer en analyse verre te boven gaat.”


Wil een bedrijf dus goed overweg kunnen met big data, dan zal er aan de hardware of software gesleuteld moeten worden. Het eerste betekent extra opslagsystemen aanschaffen, het tweede zorgt ervoor dat met de bestaande opslagcapaciteit toch gewerkt kan blijven worden. Met andere woorden: er wordt een slimme schifting gemaakt van de data, zodat alleen gegevens overblijven die echt van belang zijn.


Mensen en dingen



Door de komst van het nieuwe protocol IPv6 wordt het mogelijk om van alles en nog wat aan te sluiten op internet, wat de productie van extra gegevens alleen maar groter maakt. Bij die productie spelen zowel mensen als dingen een grote rol.


Eerst de mens. Een gemiddelde mens laat tijdens zijn dagelijkse doen en laten al een digitaal spoor na. Hij pint, checkt in bij het openbaar vervoer en zoekt op internet vanaf pc of mobiel device. Bovendien, het gaat niet alleen om onbewust achtergelaten digitale sporen. Even iets twitteren, een film uploaden naar YouTube of uitingen op een sociaal netwerk: het levert data op, die ergens bewaard moet worden. Want degene die twee jaar geleden een film op YouTube heeft gezet rekent er op dat hij dat filmpje nu nog steeds aan vrienden en bekenden kan laten zien. Net zoals iemand die twee jaar geleden een digitale banktransactie uitvoerde mag verwachten dat de gegevens daarvan nu nog reproduceerbaar zijn.


Vervolgens ‘de dingen’. Het ‘internet of things’ is een verhaal apart. Steeds meer voorwerpen krijgen een eigen aansluiting op internet en zijn langs die weg in staat om gegevens door te sturen. Dat kunnen er soms heel veel zijn. Koeien met een chip in het oor kunnen makkelijk 200 megabyte per rund aan data produceren (zie kader ‘SensOren houden de koe in de gaten’).


Structuur



Een ander aspect van big data is dat de gegevens er niet allemaal hetzelfde uitzien. Sommige data is duidelijk gestructureerd, andere juist heel ongestructureerd. Het is de kunst om gestructureerde en ongestructureerde gegevens goed met elkaar te combineren, zodat een totaalbeeld ontstaat. De software zal ervoor moeten zorgen dat dat lukt (zie kader ‘VIR’).


En die software zal gebruikt moeten worden door mensen die de juiste vragen weten te stellen voor een goed resultaat. McKinsey ziet hier een mogelijke kink in de kabel, omdat daar een schaarste aan het ontstaan is. Kijkend naar de VS is er een duidelijk tekort aan mensen die datahoeveelheden kunnen analyseren. Er zijn gewoon niet genoeg studenten die voor deze analysetaak ingezet kunnen worden. “En”, zo betogen de onderzoekers, “het is ook niet een kunstje dat je ‘even’ kunt leren. Je moet iemand hebben met een goed wiskundig inzicht en die moet vervolgens enkele jaren getraind en opgeleid worden.”


Op korte termijn is er in de VS plaats voor 1,5 miljoen mensen die de analyse van big data in hun vingers hebben. De gezamenlijke opleiders zijn in staat om per jaar zo’n 300.000 mensen met die kwalificaties af te leveren. Tot 2018 rekent McKinsey in elk geval op een kloof tussen vraag en aanbod, die geleidelijk kleiner wordt.


Het waarderen van gestructureerde data zal nog het minst grote probleem opleveren. De pijn zit bij de ongestructureerde data. Uit die berg gegevens zal de essentie moeten worden gehaald, zeker met behulp van geautomatiseerde technieken. Met de hand doorzoeken is volgens McKinsey en ook andere onderzoekers niet meer te doen, alleen al door de gigantische hoeveelheden waar het om gaat.


Ongestructureerde gegevens komen uit verschillende bronnen, denk aan blogs, sociale netwerken of het resultaat van een zoektocht op internet. Die gegevens kunnen met elkaar samenhangen en dat zal tijdens de analyse moeten blijken.

Meer of minder 
privacy

Big data zorgt bij veel mensen voor een ongemakkelijk gevoel, omdat ze het idee hebben dat ‘alles wordt vastgelegd in databases’. Aan de andere kant zorgt de grootte van de verzamelde hoeveelheden gegevens ook weer voor een veilig gevoel. Het idee bestaat dat de bestanden dermate groot zijn dat niemand in staat is een bepaalde tekst of foto te vinden. En daarom zetten mensen van alles en nog wat op internet, zonder zich veel om de privacy te bekommeren.


“Toegegeven”, zegt Hans Timmerman, CTO van EMC Nederland, “je kunt opgaan in de massa, maar het is wel zo dat de analysetools ook steeds gehaaider worden. Het vinden van een bepaalde foto zal steeds makkelijker worden en soms kunnen mensen dat onprettig vinden.”


Wanneer het doordringt dat zaken die op internet staan binnen een mum van tijd gevonden kunnen worden, soms ook op diverse plaatsen, dan zullen mensen minder scheutig zijn om hun privégegevens te uploaden. Er zijn wat dit betreft niet veel regels en soms spreken die regels elkaar tegen. Een voorbeeld: stel dat iemand een klokkenluiders­procedure begint in zijn bedrijf en daar spijt van krijgt. “Dan mogen alle documenten die op die actie betrekking hebben, vernietigd worden, als het maar binnen de termijn van drie maanden na de start gebeurt. Maar dan wordt het moeilijk, want volgens richtlijnen als Sarbanes-Oxley mogen bestanden zoals e-mails helemaal niet gewist worden”, zegt Timmerman.

SensOren houden de koe in de gaten

Een voorbeeld van sensortechniek van eigen bodem is de SensOor, een product van Agis Automatisering uit Harmelen. Het systeem werkt met een chip in het oor van de koe, die in staat is allerlei vitale gegevens te meten. De data wordt doorgezonden naar een centraal punt, de CowManager, zodat de boer zijn veestapel in de gaten kan houden. De CowManager draait op pc, smartphone of tablet. Het systeem houdt bijvoorbeeld de temperatuur bij als het beest gekalfd heeft. Met de hand de temperatuur opnemen is een tijdrovende klus; de chip kan het veel sneller. 


Als we niet oppassen dan gaat het te snel, zodat veel te veel meetgegevens worden opgewekt die allemaal geanalyseerd moeten worden. Experts hebben berekend dat een enkele koe tijdens haar leven goed is voor 200 megabyte aan data.

VIR

De firma VIR e-Care Solutions uit Arnhem heeft een applicatie ontwikkeld voor het bijhouden van patiëntgegevens. Aanvankelijk alleen voor de revalidatiezorg, maar later ook voor andere sectoren. De gegevens die per patiënt worden opgeslagen zijn zowel gestructureerd als ongestructureerd. Zo kan een behandelaar op een schematische tekening van een lichaamsdeel aankruisen waar bijvoorbeeld een breuk zit. Maar het dossier van een patiënt kan ook informatie in vrije tekst bevatten, opgeschreven door artsen of verpleegkundigen.


“Per patiënt kan het gaan om grote aantallen formulieren met gegevens, zeg tussen de 1000 en 1500 stuks. Als een nieuwe arts zo’n dossier zou moeten doorwerken dan kost dat veel tijd. We zochten dus naar een manier om de grote hoeveelheden data terug te brengen naar een kleiner en handzaam formaat”, zegt Stéphany van Dijk, woordvoerder van VIR.


Koolwaaij: “Er wordt een tekstanalyse gemaakt waarbij veelvoorkomende woorden worden aangemerkt, rekening houdend met de context waarin ze staan. Uiteraard worden algemene termen zoals ‘ja’, ‘nee’ en lidwoorden uitgefilterd, om een werkbaar resultaat te krijgen. Na de analyse door I-Know ontstaat een beknopte samenvatting, die een behandelaar snel kan doorlezen om een goed beeld te krijgen van de patiënt.”

Richard Keijzer

Keijzer is redacteur van Automatisering Gids.




Bookmark and Share

Geef uw mening Er zijn nog geen stemmen uitgebracht

Reacties op dit artikel


Melding:
Er zijn nog geen reacties op dit artikel geplaatst!

Zelf reageren


Uw naam:
Uw e-mailadres:
Uw reactie:
  Stuur mij e-mail wanneer er een nieuwe reactie is geplaatst

Voer de code van de afbeelding hierboven in: (Let op: is hoofdlettergevoelig)
Vul alle velden in en klik op de "Reactie versturen"-button.
 
Er staan momenteel geen items op de NGN agenda.
ga naar de volledige agenda