Data Hackathon v NODE5

Tak máme za sebou hackathon v Node5, zaměřený na data. S nápadem podobnou akci zorganizovat přišel Petr Ocásek a nás v Keboole nemusel vůbec přemlouvat - hned jsme byli pro. Cílem akce bylo dát dohromady lidi, kteří si chtějí zkusit různé technologie a v příjemném prostředí Node5 si jen tak pohrát.

Ze mě se stal samozvaný fundraiser - GoodData.com jsem nabídl, že mají unikátní šanci přispět hotovostí pěkně na dřevo a že jim za to nabízíme jen dobrej pocit a nulovou propagaci, protože by pak Lukáš Hudeček akci prohlásil za komerční a zničil nás nájemní hustosazbou Node5. Jarda Gergič z GoodData bez mrknutí oka otevřel peněženku a vysloužil si tím náš nehynoucí respekt. My jsme ještě přihodili 7k. Chvilku to vypadalo, že se za takovouhle datařskou akci postaví ještě StartupYard, ale nakonec z toho sešlo, asi protože budou daně nebo co a kluci teď šetří každou korunu :)

Pátek

V Node5 bylo natřískáno! FB event sliboval 85 lidí, nakonec dorazili všichni kromě Pavla Čurdy, který dal přednost gauč surfingu v Brně :)

Večer byl o prezentacích, jídle a networkingu. Telegraficky:

  • Jan Hřivňák z Futurelytics; nevím co říkal, protože jsem u toho usnul (den předtím jsme měli v Keboole náročnej mejdan :)
  • Štěpán Bechyňský ukazoval Excel a nějakej add-on, kterej mu vyhodil tunu errorů. Všichni se začali smát - to mě probudilo! Nakonec to rozběhl a vypadalo to docela super - data o měření hluku a vibracích na dálnici D11, zobrazený v mapě
  • já jsem měl říct něco o BigQuery, Redshiftu a Vertice. Myslím, že se potvrdilo, že nejsem lev salónů, zvlášť po mejdanech :)
  • Štěpán Bechyňský pak ještě ukazoval různý mikropočítače - vypadalo to dost surově hackersky 
  • Adam Herout z Click2Stream ukazoval možnosti počítačového vidění - jsem na baru, neodnáším si z toho nic > to mě trochu mrzí, vypadalo to super
  • Dva kluci z Ataccama.com tam pak ukazovali blejskavý sales prezentace svýho hadoop řešení; míň self-promo, chce se mi říct...

Zbytek pátku byl pak ve znamení skvělého jídla od Gazdinka a kecání s lidma. Vzhledem k mojí únavě z předchozího mejdanu jsem zaparkoval v pytli, kde mě našel Martin Podval a Štefan Pacinda

Pracují v HP na projektu, který umí simulovat pokročilé SOAP/REST/whatever systémy - takové hustoadvanced Apiary.io. Ještě s Ondrou Popelkou jsme spolu asi hodinu povídali o GoodData, HP, jejich projektu a Vertice. 

Sobota

Vyrážíme na 9:00 do Node5. Pavel a Ondra spí u mě (bydlím nově za rohem). Ráno je ve znamení vykopnutí skutečné práce. 

Kebooláci se rozdělují mezi “naše” svěřence - Click2Stream a Twisto. Začínám rychlovysvětlením, proč je pro ně GoodData super - nakonec před všema lidma, protože je o to docela zájem. Jdu na dřeň a atakuju interní programátory, co míchaj chartové knihovny a vlastní SQL dotazy na data. Ukazuju “report explain” a rozvoj MAQL na SQL + vypichuju API. Nevím jak se to chytlo, ale jsme na hackathonu, ne? :) Dotazy jsou jen k realtime datům - s tím se vypořádávám protidotazem, zda je potřeba z realtime měřiče teploty vody v reaktoru dělat Month-to-Date a drillovat do toho. Chvilku řešíme rozdíl mezi BI a reportingem. 

Twisto a Click2Stream se přesouvá do menší místnosti, kde se bavíme o business kritériích jejich projektů, povídáme o tom, jak se do GoodData data dostanou a co s nima bude nutné předem udělat. 

Na tuhle diskusi se nabalí další lidi a já začínám mít z celé akce moc příjemný pocit.

Twisto

Tým twisto má připravená data v docela dobré kvalitě a přináší si existující reporting. Tomáš Trnka celý GoodData projekt vykopne za 60 minut.

V tu chvíli do toho už kluci klikají o 106. Velmi rychle se koukají například na

  • dynamiku fakturací
  • upomínky po zákaznících
  • profit share s e-shopama
  • podíl zaplacených a nezaplacených faktur

... všechno pěkně filtrovatelné časem, typem zboží či skupinama zákazníků. Po obědě už běží domů, za ně hotovo (trochu škoda, mohli jsme kutit další věci).

Click2Stream

Tým Click2Stream do hackování dat nastoupil s vervou a velmi masivně. Všechny svoje firemní data otevřeli a pustili k nim každého kdo měl zájem. Odměnou jim za to byl tým, do kterého se přidal z venku například Adam Mika, Michal Procházka a Jan Panoch. Společně jsme pak drtili GoodData v asi osmičlenném seskupení - spolehlivě největší stolní hnízdo na celém hackathonu.

Celý den byl ve znamení validace dat, žhavých diskusí o rozdílu price vs total price nebo o referenční integritě dat na vstupu. Odměnou za vynaložené úsilí je seznam zlepšení do jejich produktu; například nemazat v DB kamery, které jsou vypnuté, protože jsou k nim v účetnictví historické transakce. 

Ke konci dne jsem se ještě bavil s klukama ze sinfin.cz, kteří dělali mapování pohybu po Node5 pomocí BT4 zařízení. Vypadá to super, hned mi hlava brousí k našim klientům - určitě spolu něco upečeme! 

Node5 jsme opouštěli lehce po 23:00. Petr Ocásek tam spí na gauči, aby ráno brzo otevřel holkám co dovezou snídani - respekt! Já si domů tentokrát přivádím Tomáše Trnku a 2 staroprameny. 

Alena z nás musí být nadšená :-))

Neděle

Před snídaní v Node5 je nutné se doma řádně nasnídat. Páreček od Dolejších a čerstvá vajíčka nám dělají základ na dopolední sprintování za počítačem. Několik prvních hodin to v Node5 vypadá, že náš tým Click2Stream+Keboola je jedinej, kdo přijde pracovat - ostatní osamělé hackery totálně válcujeme “na počet”. Kolem 11 se to ale dost srovnává a Node5 hučí jako v úle.

Dopoledne trávím laděním modelu a transformací. Tomáš Trnka obíhá stul a radí s MAQL metrikama a kurzama v Keboola Academy. C2S tým je ale bystrý jako nikdo jiný, v poledne jsou z nich ostřílený borci a do projektu sázejí pohledy na 

  • expirující plány v nejbližších 30 dnech
  • revenue share po streamovacích plánech
  • nárůst zákazníků
  • poměr orders vs refunds
  • % placených kamer co nemají zaplé automatické obnovení plánu
  • chargebacks
  • CLV zákazníka, apod

Dělá mi dobře, když vidím, jak jim to jde. 

Roman Staněk by měl radost - roste jim tu nová generace Haplíků /* internal joke */ :-)

Vyhlášení

Hlasovalo se v průběhu prezentací pomocí http://sli.do. Výsledky: 

  1. sinfin.cz a jejich bluetooth monitoring lidí - kluci rozmístili po Node5 BT4 beacony a sbírali pomocí dobrovolníků data o pohybu v prostoru. Výsledky jsou super! Trápí je usínání aplikace v iPhone, ale věřím že to zlomí (cc Lukáš Foldyna)
  2. daty.cz a vizualizace vazeb mezi firmama - Adam Kurzok nám ukázal, že kluci z Mitonu maj větší assety než kluci z Credo Ventures :-)
  3. Futurelytics a data o kriminalitě - celou sobotu je trápilo získání čistších dat než původně měli, pak je v Google BigQuery pročistili a upravili a na jejich instanci v AWS nad tím provedli K-means segmentaci. Výsledky dali do Excelu. Tomáš Trnka jim nabídl, že jim to hodí do GoodData, což využili a GoodData dashboard ukázali. Vypadalo to dost dobře!

Překvapením na závěr byl pak opět Tomáš Trnka, který si od kluků z Futurelytics vzal jejich data a vedle jejich GoodData projektu si udělal ještě druhý, na kterém nám prezentoval, že se dle údajů v datech rozhodně nevyplatí 

  • Braní rukojmích
  • Nedovolená výroba a držení radioaktivního a jaderného materiálu
  • Vojenské trestné činy
  • Výtržnictví - útoky na záchranáře

... jelikož jsou ve ~100% případů vyřešené

a naopak můžeme dost lehkovážně páchat

  • Krádeže leteckých zásilek
  • Sdělení nepravdivé informace, která může ohrozit bezpečnost nebo provoz vzdušného dopravního prostředku za letu
  • Padělání a pozměňování peněz
  • Manipulace s kurzem investičních nástrojů
  • Nesplnění oznamovací povinnosti v daňovém řízení

... jelikož jsou objasněné v ~0% případů

Na úplný závěr jsme (Kebooláci) dostali od Click2Stream prasečí nohu - epický! 

Díky moc, nebejt tam kamery, asi vás obejmu :)

Ende

Hackathon byl super! Rád bych poděkoval Petrovi Ocáskovi, že celé tohle dítko vymyslel a porodil. Jídlo od Gazdinka.cz, lidi co se tam sešli, prostor Node5, vymyšlené nápady - jedním dechem paráda. Na závěr jen doufám, že nejpozdějc do roka bude další kolo! :) 

Kdo dočetl až sem, tady jsou blogposty a fotky ostatních, pokud víte o dalších, pište do komentářů, prosím.


5 responses
Jo tak prasečí noha to byla! Já koukal z poslední řady a tipoval koňskou hlavu :) just kidding, pěkná akce to byla a díky za sepsání!
Mitoni nemají větší assety (ty bych taky teda jednou rád porovnal) -> jako spíše že mají více "viditelných" firem, thats all :)
Prezentace Ataccamy byla jednou z nejhodnotnejsi veci co jsem si z hackatonu odnesl. Kdyz sledujete online tlachani tak mate pocit ze big data jsou jen bublina ale tohle realny setkani ukazalo ze big data use casy existuji a jsou bezny - viz zpracovani dat kazdy den trvajici 12 hodin ktere MapReduce dostal na 4 hodiny.
Michale, ale to co tam ukazovali, nemelo s BigDatama nic společného. To že jim něco trvá 12 hodin ještě neznamená, že je to "BigData". Navíc pokles z 12 hodin na 4 není úplně tak super. Dost možná by to mohlo trvat 40 minut a stát 5x méně (http://nerds.airbnb.com/redshift-performance-cost/).
Co je to "Haplíků"? Chci to vědět když jsem za to byl označen...:)