Máš BigData? Uka!

Pojem "BigData" jede na Twitteru celkem dlouho. V ČR o BigData už mluvil Patrik Zandl (zde) i Petr Koubský (zde), což je neklamné znamení, že to brzo dorazí k mojí mámě do práce. Asi poslední seriózní médium, kde se o "BigData" ještě nepsalo je Kunratický zpravodaj (fakt!). 

Nejčastější přístup, který lidi při prezentaci "BigData" tématu volí, jsou infografiky o tom, jak moc dat lidstvo produkuje. Infografiky jsou pěkný, ale objem dat není BigData. Pojďme si to říct úplně bez obalu: 

Vaše firemní databáze, registr vozidel ČR ani data o všech bankovních transakcích nejsou BigData!

Pokud jste někoho slyšeli o BigData mluvit a nabízet na to nějaké řešení, je vysoce pravděpodobný, že nikdy žádný velký data neviděl. 

Kde jsou ty BigData?

Opravdový BigData problémy řeší třeba v CERNu, kde HW z experimentu CMS, ALICE, ATLAS a LHC sbírá data z 600 milionů kolizí za vteřinu. Na zakázku navržená a ultra rychlá elektronika v takto vyprodukovaných datech vybere 0.01% dat a zbytek zahodí. Takto šíleně redukovaná data tečou pořád neskutečnou rychlostí 100GB/s do farmy serverů s 15.000 procesory, které z toho dál vyberou 1% dat, které se posílají do Tier 0 datacentra, kde dalších 73.000 procesorů dělá datové agregace a předzpracování. Data se teprve poté dál distribuují k vědecké analýze do Tier 1 a Tier 2 datacenter, kterých je celkem 151 po celém světě. 

Až vám někdo bude zasvědceně vyprávět příběhy o BigData, vzpomeňte si na CERN. 

Je totiž velmi pravděpodobné, že jediné co potřebujete vyřešit je zpracování, uložení a analýzu "normálních" dat. Normální data mohou být složitá, fragmentovaná, částečně uložená v různých volatilních systémech a mohou se v čase různě měnit, pořád ale platí, že to pro vás nejlíp na světě odbaví GoodData, která jako jediný non-mastodont (vedle MS a Oracle) vendor disponuje řešením na celý životní cyklus dat (ETL framework, data warehouse, logická business vrstva, analytický backend a prezenční vrstva (to jsou ty grafy, které jediné vidí uživatel)).

Kde se Hadoop vzal?

Zpracovat, uložit a analyzovat objemná data nebylo vždycky snadné. Vzpomínáte si na dobu kdy nejlepší disk byl 160GB SCSI 15k otáček za vteřinu, o kolmém zápisu na plotny se začínalo mluvit, 4GB RAM byl luxus a 1GBit/s síťová karta byla používaná jen v serverech FBI? Procesory neměly více jader a virtualizace si pomalu nacházela cestu z pokojíčků Geeků do datacenter? Tak to byla doba, kdy Google vydal white paper o MapReduce technologii, která umožňovala jednoduché zpracování dat na velkých počtech počítačů.

Chytrým to pomalu dochází - co by se stalo, kdyby tehdy byly lacině k dispozici stovky GB RAM, SSD disky, desítky jader procesorů s mnoha GHz výkonu, naprosto normálně síťe s kapacitou mnoha GB/s? A co sloupcové a in-memory databáze s variabilní kompresí?

(bottom line: transformace dat v Keboola Connection spouštíme v serverech s 244GB RAM, 83GHz, 240GB SSD a stojí nás to $0.34/hodinu)

Myslím, že by tehdá místo MapReduce řešili jiný koncept. Hadoop je dneska totiž něco jako Wankel engine - postavte si ho vedle elektromotoru z Tesla Model S a pochopíte, jak zoufale se dneska Hadoop musí cítit vedle moderních databází.

Přesto to ale frčí! Proč?

Protože je to dobrej business! Firmy obecně chtějí slyšet, že mají BigData a že řeší BigData problém. Dělá jim to dobře. Kdo nemá "BigData" je out! Tohle je zacyklený kolečko ze kterýho není cesta ven. Někdo si musí nejdřív rozbít pusu... Jelikož se za investice do BigData nevyhazuje, bude to muset přijít odjinud. 

Mám následující hypotézu:

  1. Firmy chtějí zpracovávat velká data, protože si myslí, že díky tomu budou schopny predikovat a na tom vydělají obrovské množství peněz. 
  2. Náklady na takovou predikci jsou ale v praxi zásadně vyšší než uskutečnitelný zisk.
  3. Protože na rozdíl od fyziky nemáme chování zákazníků popsané pár diferenciálníma rovnicema, musí většina predikcí stát na nekonečném numerickém iterování bordelu v datech.
  4. Tohle iterování je pomalé, špatně se mu mění vstupní parametry a hraniční podmínky - díky tomu to má zatím spíš sporné výsledky.
  5. Nakonec stejně zvítězí chytrost a rychlost nad přesností. Pokud ModGen na šíleném železe udělá za 3 dny o 6% lepší výsledek než Mikiho jednoduchý binární strom na notebooku za 17 vteřin, je singularita ještě daleko :)

Resume:

  • nemáte BigData!
  • nepotkali jste nikoho, kdo by BigData problémy opravdu řešil
  • je sexy o BigData vyprávět - proto klidně říkejte, že vás to trápí
  • potřebujete se ale hlavně zbavit Excelu a ne stavět Hadoop cluster
  • používejte hlavu!
  • díky zpracování dat máte VYDĚLÁVAT peníze, né si honit triko na konferencích!

Tohle je úplně čerstvá věc. Velká gratulace! GoodData získala ocenění, které de-facto říká, že GoodData je nejlepší řešení na to, jak vydělat peníze na trhu s daty. Tuněním Hadoopu a psaním MapReduce scriptů totiž naše existující zákazníky nepředhodníte! Dobrá zpráva je, že máme ještě v Cloudu pár volných míst. Autobus odjíždí každé ráno v 9:00 z Florence, tak koukejte nastoupit :)


Při psaní jsem poslouchal Brukev od Martina Halamíčka.