Enterprise Data Hackathon - měsíc poté

“Čau Padáku! Neuděláme hackathon s datama ze spořky?” zeptal se mě před 3/4 rokem na ulici Pavel Doležal. Nejdřív jsem si myslel, že mu hráblo. "Spořka? To myslíš tu spořku, co spravuje vkladní knížky a tečou přes ni důchody?”… A pak jsem poznal kovboje Jirku, co hackuje s Android telefonama bezkontaktní karty a v mezičase staví banku zevnitř na hlavu. Tím začala několikaměsíční jízda na horské dráze.

Proč to děláme popsal Pavel tady (baví nás to / chceme sami zkusit nové věci a poznat zajímavé lidi / ukazuje to místnímu trhu kam se žene cloud+data). 

Já už teď jen zaznamenám, co nás všechno u toho potkalo...

Fáze 0 - potřebujeme data

Hackathon má být o datech, takže potřebujeme zajímavý data - a protože si s tím má každý hrát, musí být veřejně k dispozici. Na startu jsme si naťukli Českou spořitelnu, T-Mobile, Geewu a Seznam. Nakonec jsme měli data od 8 místních firem, každý dataset něčím specifický. 

Dodneška vzpomínám na den, kdy mi Pavel volal, jestli bych nezašel do 'spořky' a nepobavil se tam s lidma o tom, jaký vlastně data chceme. "Uf - vůbec nevím, omg, to bude ostuda.” 

Na boso v sandálech a potrhaným tričku jsem se ocitl v zasedačce s partou v botech z krokodýlí kůže. Sebrali mi mobil, zapli rušičky a pustili se do mě… Na konci dne jsem ale neležel zalitej v betonu na dně Vltavy, ale měl nový kámoše, co kopali za stejnou věc a jen řešili, jak to celé udělat, aby to dávalo všem smysl.


Kamkoli jsme následně vlezli (teda asi kromě T-Mobile :) jsme našli pro hackathon nadšený lidi, schopný interně vyjednat zázraky. Všem patří můj velký dík za odvahu a vytrvalost. Jsou to hrdinové hackathonu, bez nich by to nešlo!

Fáze 1 - potřebujeme technologie

Volám Jardu Gergiče z GoodData. “Hele, Jardo, mám tady další hackathon. Potřeboval bych pro všechny účastníky přístup ke GoodData technologii, k tomu někoho od vás, kdo udělá 5 min prezentaci a pak bude celej víkend hrát “taťku”, kterej pomůže/poradí/odblokuje/úsměvem rozzáří. Jo a taky by nám bodly nějaký peníze na jídlo”. Jardovi trvá asi 100ms aby se vším nadšeně souhlasil. Wow! 

Jdu dál - Radovan Janeček mi dává kontakt do HP, Jana Žižková do SASu. Filip Hráček nám pomáhá s Google Cloudem, Pavel Kordík s RapidMinerem a ModGenem. S každým mluvíme stejně - úvodní technická prezentace, pro každého účastníka neomezený přístup k vaší technologii a mentora po celou dobu. Když to dává smysl, říkáme si o peníze, protože je jasné, že to z lístků nezaplatíme. Všechno chceme od partnerů zadarmo - nikomu ze speakerů neplatíme ani korunu, ale nakrmit 120 lidí bude něco stát.

Az na pár vyjímek máme obrovskou podporu od vendorů. Někdy to sice skřípe - třeba zkontaktovat SAP nebo DataSift zůstane nerozlousklým oříškem a Amazon na nás kašle, protože jsme pro ně divný týpci z Čečny někde na východě. Marketing Google se probral až když to celé proběhlo :) 


Fáze 2 - potřebujeme střechu nad hlavou

Volba je jasná - věříme že přijde aspoň 40 lidí a doufáme že dorazí tak 20 čumilů - volíme teda TechSquare, protože je šance, že se tam líp vejdeme. Petra Hubačová a její tým nám v průběhu času postupně vytrhává asi 300 trnů z paty.


TSQ holky za nás postupně zařídí jídlo, sprchy, spaní, posílí konektivitu a pořeší každičký detail akce, od survival balíčků po plánky a faq/how-to. Jak jde čas, je nám jasný, že bez nich bysme tohle nedali!

Fáze 3 - potřebujeme lidi

Akci na eventbrite.com jsme spustili uprostřed noci a jen ji dali na Facebook. Prvních 10 lístků bylo zadarmo, dalších 15 bylo s volitelným vstupným... do 20 hodin jsme měli 50 prodaných lístků. Museli jsme začít omezovat tempo prodeje - zvedali jsme cenu, která se na konci zaparkovala na skoro $90 za lístek! Holky z TechSquare nám dali limit 120 lidí - víc se tam prý pohodlně nevejde. Na konci jsme měli 194 prodaných lístků (bacha při nastavování ceny - ke každému lístku je potřeba vystavit fakturu a zaplatit DPH).


Den D

Na páteční večer hackathonu nám dorazilo neuvěřitelných 176 lidí - totálně to nechápeme a s Pavlem se schováváme v kuchyni a polykáme antidepresiva :)  

Večer začíná prezentací technologií: Jirka Tobolka za GoodData, Pavel Kordík za RapidMiner a ModGen, Filip Hráček za Google BigQuery, Ondřej Popelka za Vertica+R, Jan Pospíšil za MS Azure ML (v té chvíli ještě veřejně nedostupné), Martin Veselý za SAP HANA, Lukáš Eštvanc za Inventoro a Alaksandr Aliashkevich za Shards.io. Francisco Martin pak ukazuje BigML přes YouTube, Scott Van Boeyen ukazuje Semantria a Alon Bartur má video prezentaci Trifacta.com.

V půl deváté je večeře a po ní spouštíme prezentace dat (videa za odkazem): Petr Martinec za Seznam, Miroslav Červený za Geewa, Eduard Kučera za Avast, Pavel Vaněček za Českou Spořitelnu, Michal Illich za Flowreader, Patrick Zandl za Energomonitor a Karel Tušek za 1188. Všechny data byly navíc předem v náhledech v GitHubu. Ostrá data jsme distribuovali pomocí CDN77 (Díky Zdeněk Cenda za unlimited použití zadarmo - nakonec to bylo víc než jen užitečné => skrz CDN distribuujeme týmům ad-hoc generované náhledy dat a různě upravené formáty) a na jejich přípravě trávil mnoho hodin dobrovolním Michal Bláha, bez kterého bysme nespali o pár nocí víc.

Po konci prezentací následovalo rozstřelení do týmů. Limitujeme lidi na max 15 skupin(témat). Po prvních rozpacích se nám plní tabule dvanácti projektama a začíná noční švanda :)


Veškerou komunikaci řešíme přes slack.com. V noci z pátka na sobotu jede na plný kotel asi 70 lidí. Bylo vidět, že pražáci odešli domů a vrací se ráno. V sobotu krmíme na obědě necelou stovku a v neděli odpoledne se držíme zase na cca 70+ aktivních účastnících.



Výsledky

Do neděle se nám probojovalo 12 týmů. Všichni si ošahali technologie i data, naučili se spoustu věcí a potkali super lidi, naladěné na stejnou notu. Záměrně jsme nevypsali žádnou cenu - nechtěli jsme “soutěžit pro prachy”, ale vytvořit prostředí kde je zábava a dobrá nálada. Doufám, že se nám to povedlo! Odměnu pro "nejlepší" tým jsme ale měli samozřejmě připravenou. Neoficiální první cenu dostal tým pracující s datama 1188, primárně za kompaktnost a rozsah jejich “data story”. Vítěz od nás dostal prasečí nohu, tak doufám, že na všechny došlo :)

nedělní videa: DOPLNIT

Peníze

Celé jsme to dělali pro zábavu - design hackathonu byl “všechno narvem do akce”. Čekali jsme příjem tak 50.000,- Kč na jídlo a co nám zbyde z lístků, dáme za pronájem TechSquare. 

Povedlo se nám nakonec sehnat dost peněz:


Aktuálně evidované náklady:


a rozpis největší položky do TechSquare:


Finálně hospodaříme s přebytkem téměř 55.000,- Kč. Jen co nám dorazí poslední peníze, co jsou na cestě, uzavřeme účetnictví hackathonu a odneseme “zisk” holkám do TechSquare, aby z toho dotovaly jiné zajímavé akce, kterým se nepovede získat si dostatek financí. 

Lessons Learned

Je to mnohem těžší zorganizovat, než jsme si představovali. Veliké stěstí bylo, že nám všechno kolem techniky, lidí, prostoru, jídla, apod. pořešily holky z TechSquare a my se mohli soustředit na data, speakery, peníze, technologie a jiné vylomeniny. I tak to byl téměř 1/2 roku de-facto denního zařizování, přemýšlení, domlouvání, lobování. Ale stálo to za to!

V pondělí po akci jsme se sešli v Můjšálekkávy.cz a začali psát dokument “Lessons Learned”, kam jsme za čerstva chtěli zapsat dojmy, nápady a připomínky. Přišlo nám super to dát public a tak jsem tweetli link k editaci dokumentu. Během 10 minut tam bylo skoro 50 lidí, kteří nám pomáhali dokument doplňovat.


Tady je výsledek: https://docs.google.com/document/d/16XeI-vNM107_ZS4RxTow8EFPgoSLQ8o4InkK-nI6fr0/edit?usp=sharing

Budeme moc rádi za jakékoliv další připomínky! Tady je náš soupis "Echoes", kam jsme "komprimovaně" dali všechno k sobě, včetně odpovědí z feedback formuláře (který nám zodpověděla asi 1/4 lidí): https://docs.google.com/document/d/1WI1peS0trglMSSG2hKLXxjrEzVW47Gipgcyl3nk0cfc/edit?usp=sharing

Linky

Sdílený “tech info” dokument: https://docs.google.com/a/keboola.com/document/d/1E4DxTQM9KDgr0HTj_45HYc_3W5fBUHwfRSSkNPI4u6A/edit?usp=sharing
Fotky z instagramu: http://www.vyvolej.to/hackathonbi

Jirka Tobolka: http://jirtob.tumblr.com/post/100491594852/enterprise-data-hackathon-den-pote
Radek Tomášek: http://blog.tomasrad.cz/post/100453502646/enterprise-hackathon-bi-powered-by-keboola

1188&CartoDB: https://github.com/MicTech/hackathonBI
Flowreader & Semantia: https://github.com/iki/hack-bi-flow

Článek na CzechCrunch: http://www.czechcrunch.cz/2014/09/jedna-z-nejlepsich-akci-roku-se-blizi-enterprise-data-hackathon-v-praze/
Článek na Lupě: http://www.lupa.cz/clanky/enterprise-data-hackathon-2014/
Článek na iHned před: http://tech.ihned.cz/c1-62955380-enterprise-data-hackathon-vydoluj-z-firemnich-dat-co-muzes
Článek na iHned po: http://archiv.ihned.cz/c1-62973980-enterprise-data-hackathon-od-technologickeho-bizaru-az-po-seriozni-vyzkum



TODO: prezentace, videa z neděle


GoodData SF Hackathon, duben 2014

10.-11. dubna 2014 jsme jeli do San Francisco na hackathon, pořádaný v kanclech GoodData, zaměřený na používání jejich nových SDKček. Za 7 měsíců jsem si nenašel čas to sepsat, tak snad bez větších zkratek teď. Po dobu hackathonu jsme měli v Praze i San Francisco dropcam.com kamery - v textu jsou bez kontextu 2 timelapse videa.

Akce to byla super! Účastnilo se jí asi milion lidí z GoodData, jedna jejich externí firma (saama.com), co jim pomáhá s implementacema a my. Hackathon se pořádal paralelně v Praze a SF. Tomáš Trnka a já jsme jeli spolu s Lumírem Kajnarem a Martinem Karáskem z Prahy. Z Kanady dorazil Ondra Hlaváček, Adam Hu a Ling. Největší oběť pak udělal Jakub Nešetřil, když nám nabídl spaní u něj v garáži a nakonec nám dal 2 super pokoje!  


Hacking 

Na hackathon jsme dorazili pozdě (Uber zklamal! :), ale svižně jsme udělali 2 týmy - jeden v SF a druhý v Praze, kde bylo 6 Kebooláků (Martin Matějka, Jakub Matějka, Martin Halamíček, Tomáš Kačur, Erik Žigo a Miro Čillík). 

Keboola Tentacle

Pražský tým makal na projektu, který jsme nazvali “Keboola Tentacle” a měl za úkol analyzovat vztahy v objektech v GoodData projektu, s časovou závislostí. Prakticky to denně olizuje GoodData projekt, archivuje všechny definice datasetů, metrik, reportů a dashboardů a sleduje jejich vztahy. Je pak snadné ukázat na sloupeček s čísly a Tentacle poví, v jaké metrice/reportu/dashboardu je sloupeček použitý. Pokud se tedy něco změní v datech, je snadné říct, jaký to má dopad na ostrý projekt. Vedle toho to umí říct co se stalo, zatímco jsem byl na dovolené. Celé je to postavené nad API, vyrábí to repozitář json objektů, které jsou uložené v S3, zpracovávají se v Elasticsearch a nad nima je AngularJS aplikace na prohlížení.

Keboola Tentacle, jak jsme jej měli na hackathonu, je k vidění tady.


Klikněte si na zelené “entries” - ukáže se seznam sloupečků v datasetu a všech metrik, reportů a dashboardů. U sloupečků je vidět, jestli je to Attribut (A) nebo Fact (F) a kolikrát někde figuruje.


Kliknutím na sloupček “part_in_month” se zvýrazní kde všude daný sloupec figuruje. Tyhle pohledy jde kroutit mezi sebou. K olizování GoodData projektu je použité GoodData Ruby SDK, což koukám, že se dneska jmenuje GoodData Automation SDK - sakra, kam na tyhle rádoby trendy jména choděj :-)

S touhle věcí kluci z pražskýho týmu vyhráli třetí cenu ($500), což je super úspěch!

Syntetizované Objekty

Tomáš Trnka, Adam Hu a Ondra Hlaváček pak v San Fran kanclu kutili projekt, kterej ani nemá název, ale je podle mě hyper cool, jen nikdo nepochopil, co to dělá, protože to vypadalo jako když klonujeme hotový dashboardy normálníma GoodData funkcema. 


O co jde? Měl jsem hypotézu, že bez ohledu na model dat, pokud chci udělat graf, co ukazuje “Client Lifetime Value”, stačí mi vědět, co je klient a kde je vyjádřený “value” - pak prostě sečtu value podle klienta a mám to. Pokud to nepůjde, je blbě model, ale to není věc, kterou potřebuju v tenhle moment řešit. 

Adam a Tomáš udělali drobný generický Salesforce BI projekt, ze kterého posléze vzali definice metrik, reportů a dashboardů a všechno co se vztahovalo k datům, nahradili nějakým klíčovým slovem (místo ID sloupce pro “revenue” by v definici třeba "%%REV_COLUMN%%”). 

Ondra mezitím udělal js aplikaci, napsanou v GoodData JavaScript SDK, která mu umožňuje otagovat přímo v GoodData sloupečky. Aplikace se de-facto ptá na pár otázek typu “vyber sloupec, kde je datum založení objednávky” nebo “označ ID, které určuje zákazníka” nebo “jaký typ transakce znamená, že je zaplaceno?". Takhle získané informace strká přímo do GoodData projektu, aby nad nima následně vygeneroval z šablon metriky, grafy a dashbaordy. 

Na první pohled to vypadá, že do prázdného projektu strčíme hotový dashboard, ale celý trik je v “rozhovoru” s uživatelem, kde úplně obecně odpovídá na otázky, ze kterých pak syntetizujeme úplně unikátní projekt (vždy v závislosti na modelu dat). 

Udělat tuhle věc byl mega výkon, protože GoodData JS SDK, které jsme chtěli použít k autorizaci a abstrakci od GD, nepočítá (minimálně tehdá - možná se to od té doby posunulo), že by běželo kdekoliv jinde než přímo na serverech GoodData. My jediní jsme neměli to co ostatní - kompletní přístup k testovací infrastruktuře. Takže pro nás bylo nemyslitelné třeba udělat v rámci hackathonu nový druh grafu, co se prezentuje přímo v projektu. Díky tomu jsme třeba jen 8 hodin řešili, jak to celé rozjet, aby se dalo začít programovat. Cejtil jsem to jako docela silný handicap, ale s ohledem přes rameno to samozřejmě nevadilo :) Nutno podotknout, že se o nás kluci hodně dobře starali a snažili se nám to pomoct rozběhnout!

První místo (a $3000) na hackathonu vyhrál Petr Cvengroš s nevím kým. Udělali super interaktivní LDM vizualizaci, u které je jen velká škoda, že ji dodnes nedostali do produktu a leží zahrabaná v prostředí “Labs / Apps” o kterém nikdo moc neví :(

Výstupy z hackathonu zvalidovaly nějaké koncepty, které teď zpracováváme - o tom snad časem.

Lessons learned:

  • jedna "modrá pilulka" Martina Karáska = spíš celej let
  • AT&T pořád používá 1000 let starý v.35 kabely
  • v GoodData kanclu je zakázaný instalovat vlastní kamery (porušeno!)
  • v GoodData kanclu nesmíme bejt sami bez dozoru (porušeno! dozor usnul :)

  • v noci maká jen Ondra Hlaváček, pak já, pak indové ze Saama.com; nejvíc to flákaj kmenový zaměstnanci a čínská delegace z Keboola :-)

  • po GD kanclu na wc jen na koloběžce, nad ránem součastně i na skejtu
  • Karásek a Trnka jsou teplý => musej mít Corvette :)
  • když v noci opilej Petr Olmer říká: “tady bydlí Svára” a zvoní na zvonky, tak vyběhne pes a budou po vás střílet
  • když se acebook snaží, jde v SF koupit i bryndza - a pak pan Tully z Apiary vysmrkne halušky!

Pár fotek tady

Odkazy:

Pokud víte o jiných článcích, prosím do komentářů, rád to aktualizuju.


Guest post: Proč Enterprise Data Hackathon?

Spousta lidí se mě ptá, proč jsme se do toho pustili a přes půl roku jsme se zasekli na tom, že běháme jak trotli po firmách, vymejšlíme jak to udělat, aby to security povolila, jak přesvědčit vedení ve firmách, že je to super nápad a že se musí změnit a inovovat, jinak zemřou, a že prostě nejsme v Silicon Valley, aby mohli mít tisíc nejchytřejších lidí z dané oblasti na světě, a že se to prostě musí dělat jinak…že se musí otevřít a crowd sourcovat…

Pravdou je, že nás to baví. Baví nás to proto, že vidíme v každodenní práci Kebooly, jak data mění lidi a firmy, jak Demokratizace dat pomáhá posouvat firmy dopředu a vydělávat peníze. Vždycky se snažíme, aby každý dolar, který klient utratí, se mu několikanásobně vrátil, a to v době řádu týdnů a ne roků. No, a tím, že děláme s daty, je naše práce krásně viditelná a měřitelná. Čísla nelžou.

Začátkem roku jsme s Keboolou chodili do velkých, klasických firem, částečně proto, že jsme chtěli, a částečně i díky mému předchozímu angažmá s netmailem a Google Cloudem, kde prostě již nějaké kontakty byly a lidi data zajímala.

Zjistili jsme fakt zajímavou věc. Zjistili jsme, že i když ve velkých firmách pracují šampóni, co mají boty z krokodýlí kůže, kapesníček sladěnej s košilkou a jsou bezvadně vyfitkovaní (ano, takoví lidé fakt existují a vím, z pohledu z vnitra těch firem je těžké si to představit. Ale kdyby bylo třeba, juknětě na Václava a je to prostě tam :)), tak to prostě nejsou ti samí manažeři, jako byli před deseti lety. Kupodivu to jsou super vzdělaní lidé, s obrovskou praxí v zahraničí, kteří fakt chtějí ve svých firmách dělat super věci a být na ně hrdí. Jen prostě mají občas problém to vrcholnému managementu ukázat. Moje teorie je, že je to tím, že nemají parťáky na straně dodavatelů. Každý dodavatel, když vleze do obří firmy, se posere, přestane být sám sebou a začne se podřizovat systému, o kterém si myslí, “že tak je.”

My jsme začali do těch firem chodit proto, že jsme chtěli. Nic nás nenutilo. Zajímali nás prostě ty lidi a jejich problémy. Necpali jsme jim “zázračný model, který teď vyřeší všechny problémy” a jen za mrzkých 30MKč.

Naopak, snažili jsme se, a snažíme, pochopit, jak operují a co je trápí. Zároveň si validovat naši teorii Demokratizace dat a demystifikovat BI. Myslíme si, že je to prosté. Každý má mít svá data neustále k dispozici a moci si sám, levně a hned odpovídat na datové dotazy. Třeba tak, že když chci vědět, jakej produkt mám naložit do kontejneru, který zítra vyplouvá z Šanghaje, a je tam jedna volná paleta, tak se sám podívám na trendy v reklamě, objednávky v kategoriích, četnost stížností a počet vratek. Spočítám si skutečnou hodnotu produktu a během 5 minut odpovím.

No prostě, viděli jsme úplně stejné lidi, kteří čtou stejné weby jako my či vy a kteří chtějí inovovat a chápou, že jedinou cestou je to vytáhnout ven a “olizovat si mozky” s ostatníma. 

A tak jsme se s nima spojili a uvidíme. 

Celý je to jeden velkej experiment a já upřímně obdivuji ty naše parťáky ve firmách. Jak ty, kterým se to podařilo a prošlapali celou korporátní byrokracií, tak i ty, kteří se fakt snažili, ale prostě se to zatím neseběhlo ve správný čas:)

No, a když jsme měli přislíbená data, tak teprve začalo hračkářství.  “Já bych si chtěl vyzkoušet forecast.io.” ”No, tak jim napiš, ne?” hmm…a oni odpověděli, že ano. Zajímavé…a co když zkusíme API x…to už je velký hráč…ANO…pak se samo ozvalo HP, a že nám půjčí Verticu a Autonomy. No, a tady nám teda vážně vzrostlo drzé čelo a řekli jsme si, že když už, tak už, a šli jsme za SAS a SAPem a pár dalšíma obříma enterprise hráčema a ukázalo se, že vlastně všichni chtěj a připraví nám Cloudové instance na víkend.

Takže SUPER !!!!

Jukněte na webík http://enterprise.hackathon.bi  a přijďte se zapojit 17.10. a uvidíme, jaká to bude sranda.

Jo a followujte nas  @hackathonBI 

Cus :)

Pavel