Grote spelers hebben hun oog op de big data-mijnenveld

Discussie –

0

Discussie –

0

Tegenwoordig wordt er in IT-kringen veel gepraat over big data. Nee, het is geen nieuw fenomeen dat de wereld verovert. Het gaat ook niet over data die zo enorm zijn geworden dat de aarde ze niet meer kan bevatten. Het gaat meer om een supergrote interesse in gigantische hoeveelheden data die van traditionele fysieke opslagapparaten naar cloudfaciliteiten (en -opslag) worden verplaatst.

Wanneer wordt data eigenlijk “big data”? Dat is nog niet helemaal duidelijk. Een artikel dat ik online las, zegt dat big data een term is die nog steeds aan het “ontwikkelen” is. De term wordt gebruikt om een buitengewone hoeveelheid gestructureerde, minder gestructureerde en volledig ongestructureerde data te beschrijven die mogelijk kan worden gedolven voor waardevolle informatie, want dit is niet zomaar data – het is bedrijfs data. Big data zou deze kenmerken hebben: volume (een enorm groot volume), verscheidenheid aan datatypen (SQL/MySQL/NoSQL/XML datasets, multimedia, SMS, foto’s, platte tekst, enz.), en snelheid waarmee deze data wordt verwerkt.

Kwalificeert een terabyte (een biljoen bytes) aan data als big data? Niet echt. Big data gaat over petabytes (biljarden) en exabytes (triljarden). Dat is pas echt groot, zou ik zeggen.

Jarenlang is veel van ‘s werelds data opgeslagen in relationele databases, die zijn ontworpen volgens een vastgesteld “schema” en daarom zeer gestructureerd zijn. Maar de laatste tijd is er een snelle toevloed van data die ofwel een “schema on the fly” architectuur volgen of helemaal geen schema hebben (structuurloos) en deze dragen bij aan de vorming van een massaal datamijnenveld.

Bedrijven moeten de data delven om er waarde uit te halen, en dit is niet alleen extreem duur, maar ook buitengewoon tijdrovend. Er moeten nieuwe manieren van opslag en analyse worden verkend die niet zozeer afhankelijk zijn van datakwaliteit of RDBMS (relationele databasemanagementsystemen). Enkele nieuwe methoden die worden overwogen zijn: het combineren van uitgebreide metadata met onverwerkte data in een enorme datapool, het computersysteem leren de eigenschappen van de verwerkte data te herkennen, en het gebruik van kunstmatige intelligentie software om herhaalbare datapatronen te vinden en te analyseren. Grote spelers (degenen met de big data) hopen de oplossing te vinden in het veelbesproken cloudplatform.

Ongeacht het platform dat wordt gebruikt voor big data, zal er een overeenkomstige toename zijn in de vraag naar hooggeschoolde computer-/systeemingenieurs om de vereiste infrastructuur te implementeren en ervoor te zorgen dat deze werkt zoals verwacht. Daarnaast zullen er meer datawetenschappers nodig zijn om het “vuile werk” te doen van het delven van data in het mijnenveld en deze om te zetten in winstgevende bedrijfsinformatie.

Marco Tiggelaar

– Founder of ICT Shift & FuseCP.
– More then 20 years of experience with Windows high availability and Microsoft Exchange.
– More then 20 years of experience with Linux and Unix.
– Open source enthusiast and a large contributor for multiple large Open Source projects.

My current main focus of attention is Geo-Clustering and BGP Routing.

0 reacties

Misschien vind je dit ook leuk