Big Data in de cloud, wat zijn de mogelijkheden?

Big Data op de server of Big Data in de cloud? In elke organisatie is er wel sprake van een vorm van Big Data verzameling. Een stukje analytische software voor het achterhalen van een Root Cause Analyse, meten wat het succes is van de laatste marketingactiviteit of mailing, of wellicht wordt er getest met een Hadoop of Enterprise search applicatie. Grote kans dat er op een server binnen uw organisatie Big Data–achtige software staat geïnstalleerd waarmee iemand aan het werk is.

Tegenwoordig biedt bijna elke “Big Data” softwareleverancier wel een cloudapplicatie of abonnementsvorm, dit is een heuse trend geworden. In dit artikel ga ik hier verder op in en kunt u een overzicht verwachten van de, in mijn ogen, beste Big Data applicaties die in de cloud zijn af te sluiten.

Big Data, wat is dit ook al weer?

De voortdurende toename van data en gedetailleerdheid van gegevens die zijn vastgelegd door organisaties, wordt momenteel versneld door nieuwe inzichten vanuit social media, Internet of Things (IoT) en multimedia. Dit alles blijft er de komende jaren nog wel voor zorgen dat er een blijvende dan wel versnelde stroom van gestructureerde en ongestructureerde data beschikbaar komt. Dit geheel noemen wij big data. Big data wordt gekenmerkt door drie aspecten:

  1. de gegevens zijn talrijk,
  2. de gegevens kunnen niet (gemakkelijk) worden onderverdeeld in reguliere relationele databases, en
  3. de gegevens worden gegenereerd, opgeslagen en dienen snel te worden verwerkt.

Keuze voor een platform

Big data zorgt er momenteel voor dat we grote transformaties zien binnen de gezondheidszorg, wetenschap, techniek, financiële sector en uiteindelijk ook in onze samenleving. De vooruitgang in zowel de opslag van gegevens als verwerkende technologieën, zorgen ervoor dat organisaties anders met hun data zullen omgaan. Onder andere de snelheid waarmee de nieuwe gegevens worden gegenereerd is onthutsend en zorgt tegelijkertijd voor vernieuwde inzichten. Deze veranderingen de baas blijven is een behoorlijke uitdaging voor onderzoekers en IT-afdelingen. Met name doordat IT-budgetten krimpen en er tekorten (kunnen) ontstaan aan computerkracht of opslagcapaciteit. Door voor Big Data in de cloud te kiezen, is groei en schaalbaarheid wel mogelijk tegen minimale voorinvestering of abonnementsgelden.Big Data classification

Big Data in de cloud

Cloud computing is een van de belangrijkste verschuivingen in de moderne ICT, die met name voor zakelijke toepassingen is uitgegroeid tot een krachtige, flexibele en schaalbare infrastructuur. Mits bij de juiste provider afgesloten, profiteert u van alle voordelen van de cloud: gevirtualiseerde resources, parallelle dataverwerking, de state-of-the-art beveiliging en data-integratiemogelijkheden die u in een handomdraai toevoegt. Een ander belangrijk aspect van cloud computing is het optimaliseren van de kosten en leveren van efficiënt beheer en goede controle op gebruikerstoegang.

Big Data cloudplatformen

Er zijn vele cloudleveranciers zoals Bluemix (IBM) en Azure (Microsoft) die een volledige omgeving bare-metal kunnen opleveren. Handig voor het migreren van uw huidige big data test- en acceptatie-omgevingen, of om de big data oplossingen te installeren. Omdat de installatie van de producten handmatig door uzelf gedaan moet worden, net zoals op uw on-premises omgevingen, spreken we hier over een andere vorm van “Big Data in de cloud”. Binnen Azure is het overigens wel mogelijk om enkele Big Data plug-ins in een handomdraai te installeren. Voorbeelden hiervan zijn Elastic search, Cloudera, de koppeling met Tableau Online en Splunk.

Op dit zijn moment zijn Machine Learning, Enterprise Search en Analytics populaire onderwerpen in het Big Data landschap en daar kunt u in het volgende alinea’s meer over lezen: het beste uit de cloud!

ELK stack

Elastic Stack Big Data in de cloudElastic search is een bijzonder krachtige opensource zoekintelligentie die gestructureerde en ongestructureerde gegevens bruikbaar maakt. Hierdoor kunt u intelligenter zoeken, meer waarde creëren of nieuwe dienstverleningen baseren op logging en analytics. Elastic is in staat om u met Elastic search, Logstash, Kibana (kort genoemd de ELK-stack) een compleet Big Data cloudplatform te bieden dat met maar één doel ontworpen is: alle gegevensbronnen van elke bron te nemen en in real-time te doorzoeken, te analyseren en te visualiseren.

Dit Big Data platform is nu volledig beschikbaar in de cloud en kunt u gedurende 14 dagen gratis uitproberen. Elastic maakt gebruik van AWS (Amazon)

Tableau Analytics

Tableau Big Data software beschikbaar in de cloudWilt u eenvoudig en snel visualisaties ontwikkelen om tot betere inzichten of rapportages te komen waarmee u indruk maakt? Kijk dan eens naar Tableau. Tableau Software zorgt voor inzicht in (en visualisatie van) uw Big Data en is beschikbaar in de cloud. Op dit moment is Tableau bijzonder populair vanwege het gebruiksgemak (Click-Click-and-you-go) en het interessante licentiemodel.

U kunt Tableau gratis proberen, of u kunt gebruikmaken van de Reader versie.

Splunk

Splunk security van Big DataApplicaties, servers en tegenwoordig nog veel meer IoT-devices binnen uw IT-infrastructuur genereren een continue stroom aan waardevolle data. Met Splunk kunt u met deze, voor het oog haast onzichtbare, data snel tot duidelijke inzichten komen voor security trends, aanvallen van buitenaf en binnenuit(!). Maar ook voor IT-infrastructuurbeheer en Root Cause Analyses.

Gegevens staan vaak verspreid over de verschillende afdelingssilo’s met elk hun eigen data warehouse. Splunk indexeert data van elke applicatie, server of IoT-device en stelt u onafhankelijk van het type bron of dataformaat in staat om vanaf één locatie in realtime te zoeken, te analyseren en de samenhang te onderzoeken. Meer informatie over Splunk kunt u hier vinden.

Cloudera

Cloudera, gestructureerde en ongestructureerde Big Data in de cloudEr zijn verschillende Hadoop distributies, waarvan Cloudera er één is, die op dit moment volledig vanuit de cloud te leveren zijn. In Cloudera’s Hadoop kunt u zowel uw gestructureerde (relationele database-omgeving) als nieuwe ongestructureerde data laten samenkomen.

U bouwt dan als het ware een compleet nieuwe Big Data (warehouse) omgeving waar u met verschillende talen, tooling en applicaties kunt gaan zoeken om tot nieuwe inzichten en analyses te komen. Hier is meer informatie te vinden over Cloudera. Cloudera draait naar keuze op AWS, Google Cloud Platform of Azure.

Overige oplossingen

Naast de hierboven genoemde producten zijn er uiteraard (veel) meer oplossingen waarover wij u kunnen adviseren. Neem hiervoor contact met mij op.

Samenvatting

In dit artikel heb ik enkele software-oplossingen de revue laten passeren die op dit moment bijzonder populair zijn in de markt vanwege hun kracht, eenvoud of voordelige licentie-/abonnement modellen. Voor open source producten geldt doorgaans dat deze zo te downloaden en te gebruiken zijn. Extra functionaliteiten – vaak in de vorm van plug-ins – vallen in de regel onder jaarlijkse abonnementsvorm.

Alle genoemde software-oplossingen zijn uiteraard ook on-premise binnen uw eigen datacenter te gebruiken. Cloud is een mogelijkheid, maar absoluut geen verplichting. Houdt u wel in gedachten dat uw Big Data omgeving behoorlijk snel kan groeien qua benodigde processorkracht of opslagcapaciteit. Met Big Data in de cloud hoeft u hier geen investeringen te doen en betaalt u voor gebruik. Wilt u opschalen? Dat kan dit binnen enkele minuten. En zijn enkele databronnen later toch niet meer nodig, dan schaalt u gemakkelijk ook weer af. Uiteraard tegen lagere kosten.

Meer informatie en advies nodig?

Heeft u interesse in een van de genoemde Big Data cloud-oplossingen, dan kunt u de prijzen wellicht online vinden. Ik adviseer u echter om contact met ons op te nemen. Voor sommige oplossingen zijn de kosten lastig of niet te vinden en wij hebben hier inzicht in. Daarnaast kunnen wij u direct van het juiste advies voorzien en kunt u alle vragen stellen.

Dat geldt ook voor oplossingen die ik niet heb benoemd zoals van Spark, Redhat, SynerScope, HortonWorks, MapR en IBM Qradar. Neem direct contact met mij op via remco.toele@comparex.nl of telefonisch via 06-30418249. Ik zie graag uw bericht tegemoet.

Neem contact op

Remco Toele

Remco Toele

Solution Advisor Big Data & Analytics

Deel deze pagina