Zánět středního ucha - objevil jsem Ameriku

Včera jsme si s Káčou dali její pátý píchání ucha. Dřív jsem se snažil najít nějakej "zázrak" (aka babskou radu), kterým jí od píchání uchránit. Získal jsem nepřeberný množství triků od cibule na tisíc způsobů, česneku na stovky způsobů, teplýho/studenýho, kapání lihu do ucha, apod. Imho to nikdy nefunguje (resp. občas jo, ale příčina uzdravení je nejspíš jiná - jako s homeopatikama :).

Když jsem to googlil jsem našel 'miliardu' popisků, co sedí na (nejspíš dost nepřesný) info z Krčský pohotovosti (příklad): děti maj tvar lebky tak, že Eustachova trubice z nosu do ucha vede moc vodorovně a rýma jim tam prostě "víc" zatejká. Předcházejte tomu smrkáním a podložte hlavu při spaní polštářem.

Naše včerejší píchání ucha proběhlo prvně u doktorky a ne na noční pohotovosti v nemocnici, kde na nic nemaj čas a náladu. A doktorka mi řekla, že pravej důvod není vteklá rýma do ucha, ale to že se ve středním uchu normálně tvoří kapalina a při rýmě Eustachova trubice (stejně jako jiný sliznice) oteče a u dětí se často úplně uzavře. Dospělý maj trubici širší (nejde o její sklon) a při otoku se neuzavře = kapalina z ucha dál odtejká. Čím širší trubice, tím lepší potápěč :)

Řešení zánětu ucha? Dávejte při rýmě antihistaminika (dětskej fenistil, claritine, etc.) a mělo by to bejt cajk. A druhej #protip? Při smrkání nestisknout kapesníkem úplně nos - jak se do něj dítě smrknutím opře, zvedne se mu tlak v zadní části nosohltanu a může to pomoct dostat přetlakem nudle do ucha. Takže profi smrkání vypadá jako řešení druhý pravděpodobný příčiny vzniku zánětu středního ucha, hned vedle otoku sliznic.


Témata za březen 2015 (1/2)

2.3. - Gartner vyhodnocoval cloud providery podle toho jak jsou vybaveni pro poskytování služeb ve 4 oblastech: application development, batch computing, cloud-native applications a general business applications. První je Amazon AWS (93.6% možných bodů), druhý je Google (72%), třetí je Microsoft (70.4%) a čtvrtý je Rackspace (69.8%). IBM, HP, GoGrid, VMware a spol se pak na první čtyřku dívají z hluboké propasti. Zdroj tady. Trochu nefér úsudek by mohl znít, že AWS je dneska nejlepší cloud.

3.3. - Elasticsearch (vynikající nástroj na zpracování nestrukturovaných dat) oznámil partnerství s Google Compute Engine - je tak možné ho spustit téměř jedním kliknutím. Zdroj tady. Kdo si chce Elasticsearch pustit jinde než v Google Cloudu, měl by asi začít s Karmihocookbookem”. FRESH NEWS: Elasticsearch koupil jednoho z nejlepších poskytovatelů SaaS Elasticsearch (http://found.no) a společně se přejmenovali na Elastic.

4.3. - RefinePro jde ven z privátní bety. Více tady. Nejzajímavější na tom proč mít RefinePro (aka OpenRefine) v cloudu, je možnost spolupráce více lidí - viz http://refinepro.com/blog/refine-multi-user/

4.3. - IBM koupilo AlchemyAPI, mojí oblíbenou službu na NLP (zdroj), a zařadili jí do portfolia IBM Watson. Díky tomu jsem se na Watsona prvně podíval a musím říct že docela super. Zajímavé například je, že umějí vzít váš text a přeformulovat ho podle toho, kdo je audiencí. Všechno je zatím zadarmo (beta), kromě detekce osobnostních vlastností (příklad).

6.3. - Vladimír Makovský a Hynek Vychodil (briskat.com) se začali bavit s investorama. Kluci spolu postavili databázi, která je dělaná na mraky konkurentních dotazů co moc nejdou cachovat. Co vím, tak Hynek v Insight Strategy (to Roman Staněk koupil, přejmenoval na GoodData a ohnul tomu kormidlo směrem do cloudu) spolu s Michalem Dovrtělem navrhl MAQL a LDM jako spojující prvek mnoha dimenzionálních dat. Kluci s Briskat.com vylezli z kraje roku (http://padak.keboola.com/13-temat-za-leden-2015), o tom proč je MAQL v GoodData to podstatné, jsem psal víc tady.

10.3. - Dali jsme si u Marca Raisera na chatě první "devel offsite”. Škoda že nedorazil Najloš a Kachna - můžeme jim to říkat 100x, a stejně se na nás vyprdnou :) Pivo teklo proudem a viděli jsme podvodní bagr v Berounce!

11.3. - Spolu s Czechitas jsme spustili registraci na první DataGirls, event kde chceme holky učit BI. Máme 40 míst, Pavel Doležal vyrobil eventbrite se 100 lístkama. Rozebráno to bylo za 3 hodiny. Teď jsem dost napjatej, jaký to bude. Celý to plánujeme jako šňůru vzdělávacích akcí, postupně i mimo ČR (asi kolem těch našich čtyř kanclů, roztaženejch přes 16 časových zón - nad Keboolou slunce nezapadá :-)

11.3. - Plácli jsme si s Elenou Shubik na vzájemné spolupráci. Ladit si to budeme následující 3 měsíce. Elena má za úkol nám začít stavět mezinárodní prodej. Nejbližší téma je samozřejmě UK, kde se spojí s Martinem Lepkou v našem UK kanclu. Moc se na to těším, budou určitě hvězdná dvojka!

11.3. - GoodData pustila na veřejnost, že má první patent - zatím se mi nepovedlo odhalit, v čem je jeho mazanost. Na GoodData je podle mě zajímavé úplně něco jiného (koncept LDM a MAQL jazyka a ROLAP algebry). Přijde mi, že jak jejich sales, tak jejich produkťáci si to neuvědomují - tak jsem zvědavej, kudy to nasměrujou dál. Kluci jízlivě říkaj, že takovýhle patenty začneš tvořit když chceš opticky dělat firmu cennější = exit strategie?

12.3. - Připravujeme pár nových “writerů”, které umožní posílat data do další skupiny BI nástrojů. Díky decentnímu lobby od Jany ze Singapore to vypadá, že dostaneme na testování SAS. Jde nám hlavně o SAS Visual Analytics a SAS Visual Statistics. Podle všeho SAS vyladil cenovou politiku a je v tomhle směru konkureceschopný s Tableau (už podporujeme). Vedle toho připravujeme zapojení Information Builderu, který se hodí hlavně tam kde je hodně dat (obecně čím víc dat, tím víc $$$ u cloud BI řešení) - takže odhaduju sweet spot Information Builderu někde kolem 100+GB k analýze, případně kde je rozpočet $150k na první rok. SAS, Tableau i Information Builder zaujímají celkem fajn místo v letošním Magic Quardantu pro BI:

13.3. - V pátek jsem měl schůzku s Jirkou Žaloudkem a Lukášem Puchrikem z CleverMaps. Pokud to exekutivně dotáhneme, budeme umožňovat jedním kliknutím všem (co u nás mají alespoň vzdáleně data vhodná k retail analytice) spustit CleverMaps. Poprvé jsme se bavili v létě 2014 a to co udělali od té doby za pokrok je úchvatné. Moc stojím o to, aby se povedlo dotáhnout! Tenhle typ (vizuální) analýzy chce každej větší e-shop a každej kdo má víc než jednu trafiku a alespoň elementární podnikatelský ambice. Jirka říkal, že je na dosah možnost si definovat vlastní metriky v polygonech v mapě, takže "podíl slevy na nápojích vs slevy na pečivu, podle velikosti zadlužení obyvatel v daným regionu" je na dosah. CleverMaps má dneska zajímavé mapové podklady v ČR a UK, na dalších krajinách makají.

Telegraficky:
  • v kanclu v Singapore mají první podepsanou smlouvu a asi 4 dost zajímavé příležitosti. Stále platí, že hledáme někoho lehce technicky zaměřeného (nebojí se ovládat REST klienta, umí SQL a zvládne se naučit základy R + mu to pálí, není línej a kope víc za úspěch klienta než sebe), kdo by se v Praze vytrénoval a odjel tam alespoň na 2 roky pracovat.
  • spustili jsme Google Drive Writer (Miro Čilík backend, Tomáč Kačur UI). Kromě toho že je teď možné zapojit lidi do ručního čistění (data se nasypou do Google Drive, lidi je nějak upravují a z jiného sheetu se tahají extraktorem zpět - super třeba pro unifikaci číselníků), může si tam kdokoliv sypat data jakoby do archivu (klidně co den to vlastní export do nějakého adresáře - Google Drive stojí $9 za 1TB) a nebo tímhle způsobem budeme moct poslat Tableau Data Extract (aka TDE) soubory komukoliv přímo na desktop. Podporujeme zápis do Sheetu a nebo do souboru.
  • Kachna udělal na jeho Generic Extraktoru extraktor na GetStat.com a Linkdex.com
  • Pavel s Milanem v Seattle docela zabodovali v Tableau kanclech. Je super, že tam je někdo, kdo požívá foťák, jinak by tyhle momentky zarostly pavučinama :-)
  • vypadá to, že do 3 let už konečně spustíme novej web - škoda že jsme to nestihli dneska, je 30 let výročí .com domén. První doména se jmenovala Symbolics.com! Více k narozeninám .com domén tady.
  • Poměrně zajímavá úvaha, tvrdící že Time-To-Value je nejdůležitější SaaS metrika. Argumenty jako že "switching costs are rapidly approaching zero" mě dost berou za srdce. Všechny produkty/služby by měly podporovat ukončení subscribce tak, aby klient necítil žádný "vendor lock-in". Věřím, že pak nikdy neodejdou (pokud vendor nezačne produk kurvit).
  • sháníme člověka, co má zkušenosti s větší automatizací Amazon AWS

RefinePro

Příští týden přejde RefinePro z private beta do public beta režimu. Mám to štěstí a testuju to od začátku - pokud jste milovník starého Google Refine a posléze OpenRefine, pak by vás to mohlo zajímat.

RefinePro je de-facto hostovaný OpenRefine (= výhody například ve sdílené práci). Záhy po uvolnění privátní bety bude první měsíc zadarmo s možností roztažení na 1/2 roku za $100 (nechci slevu zadarmo?).

Jsem zvědavý, kam se to dostane. Takový Data Wrangler ze Stanfordu se konvertoval do Trifacta (4min ukázka pro náš Enterprise Data Hackathon je tady) a osobně jsem z toho mírně rozpačitej, když vidím rozdíl mezi tím "za co to Trifacta marketing prodává" a "co to opravdu umí".

Tak držím RefinePro palce!!

Naše AWS bebíčka

Amazon AWS nepomáhá v optimalizaci útraty. Pokud máme rezervaci serveru a k ní není žádné využití, není snadné se to dozvědět. Stejně tak není snadné získat kvalitní přehled o útratě (kolik za co). Pro detailní billing si platíme službu https://cloudability.com/ (zkoušel jsem ještě CloudHealth), ale stejně nám to nepomůže správně bidovat SPOT instance nebo optimalizovat útratu. Většina jejich doporučení na změny v infrastruktuře nefunguje. 

Dneska máme v produkcním prostředí (VPC v us-east) denní traffic lehce přes 2.5TB. Aktuálně nám "to" jede na 28 serverech (plus databázové backendy (RDS+Redshifty)), disky dávaj zhruba 300M I/O operací za den a letošní nejzatíženější den si vzal 11.03% CPU (letošní denní průměr 7.96%). Paradoxně vlastně samotný výkon není pro nás asi tolik podstaný. 

HR Okénko:

Pomalu koketujeme s myšlenkou, že by se nám hodil nějaký AWS admin, který by nám pomohl zamést náš nepořádek a připravit infrastrukturu na roztažení do Evropy a Asie (používáme CloudFormation). Jedem devOps, takže programátoři dneska plně přistupují k serverům. Baví-li vás Amazon API, umíte spravovat template v CloudFormation, víte co je MTU, jak funguje source routing, subnety a DNS, pak zbývá jen překypovat zájmem o nás samotné :) 

12 témat za únor 2015

Moje únorové "top" highlighty v pracovním prostředí, bez zpráv o nových klientech.

Zahájili jsme kolonizaci velmi potenciálního regionu - od února funguje "Keboola Singapore Pte Ltd.”. Ještě tak 5~6 kanclů po světě a plány na globální gauč-surfing ve vlastních kancelářích je hotov! :) Náš "asijský startup" vede Jana Žižková, která má BI (a data obecně) v genech. Doteď nechápu, jak se nám povedlo ji zaujmout a nadchnout pro naše plány. Jsem pyšnej! V Singapuru stavíme plnohodnotnou údernou jednotku - kdyby měl někdo zájem dát si v Praze 3~4 měsíční trénink a v průběhu něj se kvalifikovat na přesun do Singapuru, hlašte se na petr@keboola.com. Zajímají nás jen chytrý lidi, co tam chtějí jít na delší dobu >18 měsíců (žádná letní dovolená).


Dali jsme se dohromady s excelentním Tableau partnerem, firmou Billigence. Jejich domovská krajina je Austrálie, kde sídlí na adrese "10 Help Street, Sydney" - což je nejvíc top ulice, když chcete dát najevo, že jsou vaši zákazníci to nejdůležitější, co máte :) Pro Billigence slouží Keboola Connection jako Data framework, DWH a staging layer pro cloudové zdroje dat určených k analýze. Pro nás je podobný vztah doslova požehnáním, protože není nikdo lepší, kdo by nám dal správný feedback na naše konektory pro Tableau. 


Spustili jsme další transformační backend v jazyce R. Bez nadsázky se dá říct, že každý zajímavý algoritmus má svojí reprezentaci v R. A jelikož je R jedním z nejrozšířenějších statistických nástrojů, nemohl dlouhodobě chybět. Možnosti, které to našim klientům dává, jsou téměř nekonečné. Rád teď leaknu, že připravujeme podporu Shiny frameworku, ve kterém běží hodně mocné aplikace pracující s daty. Samozřejmě máme před sebou ještě velké zlepšování okolní "R infrastruktury", ale věřím, že udržíme tempo! Tady proběhlo naše oficiální oznámení. UPDATE: Dal to dohromady Najloš, kterej se možná cejtí fakt uraženej, že jsem na něj jakoby zapoměl. Taky mu myslím s R pomáhal Odin, kterej se zatím uraženej asi necejtí, ale radši to sem napíšu. Teď jako čekám smršť potenciálně ukřivděnejch lidí, tak sem nalinkuju http://padak.keboola.com/dalsi-rok-za-mnou kde píšu že jsou všichni super. Snad to stačí :-)


3rd party app - náš transformační backend s R běží v Dockeru. Tady je náš Docker Hub a tady jsou zdrojáky našeho “demo dockeru” - a když už to takhle máme, je nasnadě, aby nám kdokoliv třetí dodal svojí “aplikaci / business nástroje” stejným způsobem. Mimochodem, Microsoft spustil Docker v Azure před pár dny do public beta a Amazon to rozjíždí v AWS jako Elastic Container Service, zatímco CoreOS řekl, že to je crap, a jede si svůj vlastní kontejner. No a u nás máme první dvě vlašťovky našich 3rd Docker aplikací: Yottly.com a Geneea.com. Yottly za náma poslal Vojta Roček - soustředí se na využití machine learning nástrojů v ecommerce. Geneea.com jsou zase experti na Natural language processing - tedy schopnost strojově popsat význam textu. Pro lepší představu co umí "stroje ovládající NLP" si pusťte AlchemyAPI demo - ve výsledcích si klikněte na “Relations” a pak na nějakou vybranou větu. Čeho všeho jde s pomocí NLP v našem prostředí docílit je totální úlet! Takové nejlépe dostupné API pro NLP jsou již zmíněné AlchemyAPI, Semantria a nebo IDOLonDemand (jádro HP Autonomy).


Erik zmigroval naší klíčovou komponentu (Orchestrátor) do kompletně asynchronního režimu. Trvalo nám to věčnost, ale proběhlo to téměř bez problémů a teď díky backendu v Elasticsearch můžeme začít dělat věci jako “notifikuj mě, pokud nějaký job běží o 20% déle, než je průměr za posledních 30 spuštění”. 

Když už o tom píšu - hodil by se nám na občasné konzultace někdo, kdo má zkušenosti s Elasticsearch - potřebujeme rady, abysme neimplementovali nějaké anti-patterny. Elasticsearch sám nabízí pouze support od 20kEUR na rok, což je pro nás lehce overkill...


Po skoro 3 měsíční pauze jsme obnovili testování Snowflake.net, který se chystáme zapojit jako další backend na uložení dat. Snowflake je naprostý úlet co se týče výkonu. Poslední, co nám zbývalo otestovat, jsou věci jako monitoring, provisioning, apod. 3 měsíce jsme čekali na nějaké dodělávky od Snowflake - teď je to hotové a já napjatě čekám, co z toho bude :)


Odin vykopnul K-Means segmentaci jako “Recept" běžící v Keboola Connection. Nejlepší popis K-Means, co jsem v poslední době našel, je tady. Pomocí K-Means můžete automaticky najít segmenty v datech, které od nás dostanete jako "další sloupeček", a k němu nákresy binárních stromů, abyste si mohli udělat představu, jak "stroj" k segmentu došel.


Marc udělal “Recept”, který dělá analýzu nákupního košíku. Řekne vám to, že když je v košíku tlačenka, bude tam z 73% i pivo a že se tahle kombinace vyskytuje v 64% všech objednávek, apod. Úplně se nabízí zkoumat profit těchle kombinací a případně je nabízet společně “v akci”. Případně řešit, jestli pochopíme návyky skupiny lidí, co si kupují tlačenku bez piva, apod. 


Milan domluvil se Zendeskem zapnutí Zendesk Insights (jo, jako správný socky si platíme nejlevnější tarif, ve kterém to normálně není :) - a tak jsem skočil do GoodData projektu se Zendesk datama a podíval se, jak na tom jsem. Od zavedení Zendesku jsem hlavní jouda L1 support týmu. Brutálně mě to 2. rokem otravuje, ale fakt, že každý ticket dostanu do mobilu a zároveň jich velkou část přímo odbavím, mě udržuje ve stavu, kdy mě nejde interně nabullshitovat, jak je něco super cool, zatímco nám zákazníci píšou, jaký s tím maj problémy. Je mi jasný, že to trvale nepůjde, ale doufám, že to vydržím dělat co nejdýl! Přísné tempo, kdy jsem prvních 6 měsíců zavíral skoro 60% všech ticketů, je dávno pryč, nicméně posledního 1/2 roku útočím na 40%, což je pořád dost a jsem na to pyšnej :)


Naše kanadská parta se hodně angažuje v ekosystému Zendesk.com. Velkou roli v tom hraje náš “školící" produkt Keboola Academy. Tady a tady Zendesk probírá, jak důležité je se daty kolem “customer care” zaobírat. 


Pavel Doležal je na tripu po US a mimo jiné zašel na Tableau Konferenci

Tableau 9 server je úplně jiný svět, má své specifické zákazníky, myslím že se to super doplňuje s GoodData. Oznámené novinky jsou nicméně hodně přísné - do detailů se nepustím a raději to nechám někomu fundovanějšímu :)


GoodData získala zlato za "best Customer Support Department of the Year" - je to určitě zasloužené. Jejich support je opravdu skvělý! Velké gratulace a respekt - určitě to nebylo zadarmo!

13 témat za leden 2015

Moje lednové "top" highlighty v pracovním prostředí (že Tereza řekla včera ráno smysluplnou větu sem asi dávat nebudu, co? :)

Briskat.com Hynek Vychodil a Vladimír Makovský spustili interaktivní analytickou databázi MIA DB, která vypadá hodně perspektivně. Tady je demo a tady blogují. Hynek a Vladimír mají solidní track record na poli DB backendů a práce s datama. Jsem na to moc zvědavej a mohutně držím palce! 

Vertica se konečně přesunula do cloudu jako "Vertica on demand". Od ledna je možné si pronajmout tuhle analytickou databázi přímo od HP. Vertica mi tu figuruje ve dvou postech (první, druhý) a speciálně komentáře pod tím prvním stojí za pozornost.

KBC stats - za leden 2015 k nám přiteklo v 1.19M requestech 3.94TB dat. 

Keboola London - v tichosti “otevíráme” UK trh a prostřednictvím Martina Lepky máme od února full-time prezenci v Londýně. 

GoodData “Insights as a Service” - masivně oznámená novinka, co mi zaplavila všechny kanály. Jsem zvědavej, jak to bude dál - od spousty super věcí časem ztratili záběr (JS API třeba). Pokud “analytický designer” budou držet na špici, vydají nějaký popis metadat, aby mohl kdokoliv definovat “co” se dá s daty dělat a propojí ho víc se zbytkem GoodData, bude to super. Vypadá to velmi slibně, byť mě “air wars marketing” trochu tahá za uši :) Zároveň se obávám jedný věci - že potenciální odklon od MAQL vezme GoodData to co je na nich dobrý - za okny totiž číhá svět plný těhle tahacích klikátek, kde právě absence "AQE" z nich dělá hračky pro šašky. Držím palce a těším se na to!

Medio Interactive naskočilo na naší 'juchůů' vlnu a pustilo se do pokročilých analýz. My jim po pečlivém zaučení dáváme statut “Keboola Certified Partner”. 

Tady je k vidění záznam z jejich prvního webináře, vedeného Honzou Tichým. Časem ho snad přemluvím k rozhovoru, celebritu jednu! :-) Medio je, mimochodem, jediná schůdná cesta jak se u nás dostat ke Google AdWords datům, pokud nemáte vlastní Google Developer Token!

Breezy začalo programovat komponenty do Keboola Connection! Seznámili jsme se s nima jako s partou co technicky stála za projektem Gorila Mobil. Dneska pro naši platformu dělají konvertor z Excelu do CSV, extraktor z iTunes a podle posledních informací je uhání Vojta Roček z Rockaway, aby pro ně udělali nástroj na zpracování mandatorních filtrů do GoodData. Breezy k nám dává svoje aplikace zapouzdřené v Docker.com a pokud to klapne jak má, budeme z nich mít prvního “Keboola Certified Developer”!

Microsoft Power BI (http://www.powerbi.com/) je od konce ledna k dispozici zadarmo. Co nám to na Enterprise Data Hackathonu ukazovali kluci z Bits2s Intelligent Technologies, vypadá to hodně dobře. Myslím že to má potenciál zahýbat s trhem, zvlášť při integraci s MS Azure, kde je dost pěkných nástrojů na zpracování dat (Azure Machine Learning, např.).

UPDATE: Tak PowerBI ještě chvilku kartama míchat asi nebude :-)

Keboola Meetup - proběhl náš první MeetUp pro zákazníky. Brzo budou fotky a videa! Klobouk dolů před lidma co tam vystoupili a pustili nás všechny do svých obyváků. Například papírnictví McPen, projekt našeho partnera Ascoria.cz, tam naživo ukázal svoje dashboardy, všechny čísla, apod. Respekt!

Na wiki.keboola.com od začátku roku veřejně dumpujeme poznámky, návody, postřehy a dokumentaci. Teším se až tam začnou sypat non-Keboola lidi svoje znalosti!

Wishlist zapli jsme veřejný Trello board, ve kterém může kdokoliv hlasovat pro návrhy, co máme dodělat. Je to ideální studnice inspirace pro naší konkurenci :) a cesta jak naši zákazníci natlačí vývojářům vlastní potřeby/představ. Popsané je to na našem "Statusu".

Partneři nám přebírají klienty - na tohle jsem čekal 2 roky! Je to signál živého a fungujícího ekosystému. Doufám ve víc podobných situací - je jasné že my sami budeme nejlepší primárně v podpoře našeho "data frameworku” Keboola Connection a koncovou péči o zákazníka, včetně vysoké vertikální znalosti, musí převzít někdo lepší než jsme my.

Docker se zabydluje v Keboole - což znamená že kdokoliv může svojí business logiku (machine learning algoritmy, R aplikace, apod.) zabalit a nechat nad datama našich klientů monetizovat. Do budoucna budeme nejlepší místo na vydělávání peněz pomocí chytrých aplikací. Něco jako podtitulek Enterprise Data Hackathonu "Real data, from real enterprises, great tools, lots of fun!”. Zbývá dotáhnout jak propojit našeho klienta a 3rd aplikaci a značně vylepšit naší schopnost datům automaticky porozumět (<<HR okénko!). #realData #realMoney

Proč je UberPOP super?

Sednete si do TAXI, řeknete kam chcete a pak nastane ticho. Nebo se otočíte na řidiče a zeptáte se "Tak co, jak to dneska jezdí?" nebo "Co děláte zajímavého?". Odpověď je nasnadě: "Řídím taxi, vole!". Oproti tomu UberPOP vás posadí do auta, který řídí někdo víc pro zábavu než pro prachy. 

Chvíli před vánocema jedu z Bonvivant's baru UberPOPem s naším belgickým kolegou Filipem. Apka v mobilu mi přiřadí Stefana - asi ukrajinec, říkám si. Když Filip vystoupí u hotelu a nechá mě se Stefanem samotného, přijde na řadu ticho-přetínající otázka: "Tak co? Jak to jde? Co děláte zajímavého?"... A Stefan rozplétá příběh, kterým vás nejspíš standardní taxikář v KurýrTAXI neobohatí.

Stefan je Ir, v ČR je 22 let. Učí na vysoké škole sportovní management a vedle toho má svůj startup RedCrox, kde se sází na profesionální sportovní utkání. Sází se tak, že přijdete s účtenkou na 2500,- Kč od Bati (jen příklad), Stefan vám automaticky připíše kredit 2500,- Kč a ten si u něj prosázíte. Můžete vyhrát prachy zpět - pak máte boty zadarmo - nebo můžete všechno prohrát. Fór je v tom, že prohrajete prachy, co jste už utratili. Nic neriskujete. Stefan žije z revshare (z účtenek, které vykáže) od firem, se kterejma má smlouvu. Nejde teda sázet hodnotu každé účtenky, ale jen účtenky z obchodu, se kterým má Stefan smlouvu.

Stefan sám na sebe kouká jako na megaobchoďák, má smlouvu s ~300 značkama/výrobcema, jejichž vertikály mezi sebou nikdy nemíchá (takže pokud má smlouvu s Baťou, nebude ji dělat s Deichmannem). Firmy co má nasmlouvané v ČR jsou k vidění tady.

Pokud chce někdo na RedCrox gambleřit, musí nakupovat "ve Stefanově obchoďáku". Nevím jak mu to sviští v ČR, ale říkal, že před časem zapojil španělskou taxislužbu co trpí 40% úbytkem zákazníků. Chvíli poté jim díky RedCrox vyskočily čísla o 7%, což je super!

Web RedCrox je hnusnej, ale Stefanův business model se mi moc líbí!

Jaký jsou příběhy vašich UberPOPařů?

Vánoční týden v "našich" číslech

Po delší době jsem si našel čas podívat se co se v našem "data frameworku" Keboola Connection odehrává. 

V týdnu 22.12.2014 - 28.12.2014 to vypadalo následovně:

  • naši klienti nebo interní extraktory k nám 303.502x poslali celkem 739GB dat (data nejsou žádné logy nebo kynuté soubory, jde z 99% o tabulky s obchodníma informacema)
  • průměrný objem jednoho importu byl 2.5MB a měl kadenci cca 1x2vteřiny
  • za stejné období jsme zpracováním dat (extrakce, transformace, obohacování, apod.) tavili procesory po dobu 3.5 milionu vteřin (cca 5.5 dne práce za den skutečného času)
  • pracovních jobů v té době bylo 9559 (cca průměrně 6.1 minuty na jeden job)

Štědrý den na objemu dat neměl viditelný vliv - roboti evidentně neslaví a klientské systémy hrnou data pod parou, svátek nesvátek.

Ty samá čísla za aktuálních 24 hodin (2014-12-29 21:00 až 2014-12-30 21:00):

  • počet importů (poslání dat): 46132
  • objem poslaných dat: 136GB
  • průměr na jeden import: 3MB
  • doba práce: 616k vteřin (7.1 dne)
  • počet pracovních jobů: 1409 (7.2 minuty na job)

Za posledních 30 dní máme 3.37TB přijatých dat. Tak schválně kdy dáme 100TB za měsíc? :)

P.S. Dřív jsem občas na Facebook šoup nějaké číslo. Psal jsem třeba, že za den odmakáme 110 dní práce, což obsahovalo i čekání než GoodData zpracuje náma poslaná data. Dneska to ve statistikách čistím na náma opravdu odvedenou aktivitu.

Další rok za mnou

Od mýho posledního "narozeninovýho" postu uběhl další rok - včera měl můj GoodData účet 5. narozeniny.

V jednu ráno mi zvoní mobil a volá kurýr z DámeJídlo, že má pro mě překvapení - od Pavla Doležala dorazil šampus. Sice mám horečku a jedu hodně sólo party v posteli, ale trochu dojatej jsem! 

Za ten uplynulej rok nebyl den, kdy by se mi nechtělo do práce a největší zásluhu na tom maj lidi v Keboole, bez kterejch bych dělal v TESCO na pokladně. Díky!

Vhodný moment se ohlédnout za uplynulým rokem. Bez chronologického pořadí:

  • Začali jsme mluvit s kýmkoliv kdo má potřebu analyzovat data - už primárně neprodáváme GoodData, ale pomáháme připravit data k analýze. Komukoliv, i kdyby si chtěl kreslit vlastní grafy v highcharts.com - hrajeme pro klienta a kopeme za jeho analytiky.
  • Do Keboola Connection zabudováváme další a další cesty, jak dostat data do jakéhokoliv BI. Vedle GoodData podporujeme dneska Tableau a Chartio a plánujeme zapojit podporu pro Birst, RJMetrics a Anaplan. Rád bych tam brzo měl i SAS. Pokud si něco umí sáhnout do DB, CSV z disku nebo z URL, dodáme tomu data už dnes.
  • V tichosti jsme spustili "Aplikace", které zatím obsahují naší juvenilní komponentu "LuckyGuess" a transformační šablony, zrychlující denní práci. V budoucnu bysme rádi podporovali de-facto cokoliv, co přináší uživatelům/analytikům přidanou hodnotu tím, že "nějak" analyzuje data. Pokud někdo dovede dodat analytickou aplikaci v Dockeru, jsme nejlepší místo na její monetizaci - my máme výpočetní výkon, klienti mají u nás svoje data... Stačí to spojit. Dneska náš LuckyGuess používá primárně R a umí základní věci jako poznat vztahy mezi tabulkama, poznat datové typy, najít závislosti mezi sloupečkama ("rekni mi, které výdaje mi přinášejí nejvíce zákazníků") a nebo umí hledat seasonalitu v nákupních zvycích, čímž vám tipuje, kdy konkrétní zákazník znovu nakoupí (a vy za ním pošlete 2 dny předem obchodníka). Na dalších aplikacích makáme!
  • Vrátil se nám po 2 letech z Japonska Marc Raiser. Když odjížděl za neodolatelnou nabídkou do Fujitsu Mission Critical Systems Ltd. (zpracovávat data z průmyslových zařízení a nad nima dělat A.I.), říkali jsme ze srandy, že tam jeden na stáž. Máme ho zpět a přidává se k vývoji LuckyGuess komponent!
  • Pomalu finišujeme masivní přepis do kompletně asynchronního chování. Dává nám to neomezený výkon v horizontálním škálování.
  • Martin Karásek nám namaloval nový design našeho UI. Už nebudeme jen holý Bootstrap! Při implementaci Martinova designu zároveň děláme nový koncept UI, kdy je vše jen jako SPA aplikace, která jako klient volá naše API. Kdokoliv (typicky náš partner) si to může vzít, přebarvit, přejmenovat a provozovat u sebe - takový easy whitelabeling). Sneak peek UI pro Transformace:

  • Zorganizovali jsme první Enterprise Data Hackathon
  • Trháme od sebe produktovou a servisní část firmy; kluci co dělají Keboola Connection už nemají žádného přímého zákazníka - vše se dělá přes partnery, kterých je aktuálně 7. Partnerem je někdo cizí, kdo má v datech svůj vlastní business a od nás si kupuje technologii. Za poslední měsíc za náma přišli sami od sebe 4 další firmy.
  • S Milanem jsme přibrali Pavla Doležala - je náš třetinový společník a má za úkol kopat za rozšiřování partnerské sítě. 
  • Odešel Vojta Roček a vydal se vlastní "BI" cestou. Dneska je zaparkovaný v Rockaway kde "formátuje" lidi, aby správně přemýšleli o datech. Keboola Connection tam podle všeho prorůstá všemi směry.
  • Máme hotový extraktor-framework - prostředí ve kterém třetí strany mohou psát extraktory na data. Nám samotným zabere napojení na nové API asi 1/2 dne.
  • Finišujeme aplikaci, co umí načíst Apiary Blueprint a tím se naučit ošahávat jakékoliv API, které má v Apiary dokumentaci.
  • Připravujeme "schémata" - možnost pojmenovat data standardní nomenklaturou. Taková "datová ontologie". Díky tomu bude možné psát chytřejší Aplikace, protože roboti budou rozumět významu dat.
  • Uvádíme do života TAGy - formu dialogu mezi váma, náma a datama. Stačí dát sloupečku v datech tag "location" a lusknutím prstu dostanete ke každé adrese data o počasí. Když řeknete že je nějaký sloupeček "currency" obratem vám data přepočítáme do zvoleného kurzu. Atd...
  • Stále je nás cca 25 - svižně rosteme, aniž k tomu potřebujeme další a další lidi.
  • Pro Zendesk jsem udělali online kurzy na Zendesk Insights
  • V Kanadě jsme se přestěhovali do nového kanclu
  • Publikujeme co nejvíc věcí jako opensource. Pokud to dává smysl, chceme to i zadarmo provozovat. Konvertor JSON2CSV je první vlaštovka (více zde). Líbilo by se mi, kdybysme ještě časem zadarmo provozovali nejvíc trendy extraktory.


Enterprise Data Hackathon - měsíc poté

“Čau Padáku! Neuděláme hackathon s datama ze spořky?” zeptal se mě před 3/4 rokem na ulici Pavel Doležal. Nejdřív jsem si myslel, že mu hráblo. "Spořka? To myslíš tu spořku, co spravuje vkladní knížky a tečou přes ni důchody?”… A pak jsem poznal kovboje Jirku, co hackuje s Android telefonama bezkontaktní karty a v mezičase staví banku zevnitř na hlavu. Tím začala několikaměsíční jízda na horské dráze.

Proč to děláme popsal Pavel tady (baví nás to / chceme sami zkusit nové věci a poznat zajímavé lidi / ukazuje to místnímu trhu kam se žene cloud+data). 

Já už teď jen zaznamenám, co nás všechno u toho potkalo...

Fáze 0 - potřebujeme data

Hackathon má být o datech, takže potřebujeme zajímavý data - a protože si s tím má každý hrát, musí být veřejně k dispozici. Na startu jsme si naťukli Českou spořitelnu, T-Mobile, Geewu a Seznam. Nakonec jsme měli data od 8 místních firem, každý dataset něčím specifický. 

Dodneška vzpomínám na den, kdy mi Pavel volal, jestli bych nezašel do 'spořky' a nepobavil se tam s lidma o tom, jaký vlastně data chceme. "Uf - vůbec nevím, omg, to bude ostuda.” 

Na boso v sandálech a potrhaným tričku jsem se ocitl v zasedačce s partou v botech z krokodýlí kůže. Sebrali mi mobil, zapli rušičky a pustili se do mě… Na konci dne jsem ale neležel zalitej v betonu na dně Vltavy, ale měl nový kámoše, co kopali za stejnou věc a jen řešili, jak to celé udělat, aby to dávalo všem smysl.


Kamkoli jsme následně vlezli (teda asi kromě T-Mobile :) jsme našli pro hackathon nadšený lidi, schopný interně vyjednat zázraky. Všem patří můj velký dík za odvahu a vytrvalost. Jsou to hrdinové hackathonu, bez nich by to nešlo!

Fáze 1 - potřebujeme technologie

Volám Jardu Gergiče z GoodData. “Hele, Jardo, mám tady další hackathon. Potřeboval bych pro všechny účastníky přístup ke GoodData technologii, k tomu někoho od vás, kdo udělá 5 min prezentaci a pak bude celej víkend hrát “taťku”, kterej pomůže/poradí/odblokuje/úsměvem rozzáří. Jo a taky by nám bodly nějaký peníze na jídlo”. Jardovi trvá asi 100ms aby se vším nadšeně souhlasil. Wow! 

Jdu dál - Radovan Janeček mi dává kontakt do HP, Jana Žižková do SASu. Filip Hráček nám pomáhá s Google Cloudem, Pavel Kordík s RapidMinerem a ModGenem. S každým mluvíme stejně - úvodní technická prezentace, pro každého účastníka neomezený přístup k vaší technologii a mentora po celou dobu. Když to dává smysl, říkáme si o peníze, protože je jasné, že to z lístků nezaplatíme. Všechno chceme od partnerů zadarmo - nikomu ze speakerů neplatíme ani korunu, ale nakrmit 120 lidí bude něco stát.

Az na pár vyjímek máme obrovskou podporu od vendorů. Někdy to sice skřípe - třeba zkontaktovat SAP nebo DataSift zůstane nerozlousklým oříškem a Amazon na nás kašle, protože jsme pro ně divný týpci z Čečny někde na východě. Marketing Google se probral až když to celé proběhlo :) 


Fáze 2 - potřebujeme střechu nad hlavou

Volba je jasná - věříme že přijde aspoň 40 lidí a doufáme že dorazí tak 20 čumilů - volíme teda TechSquare, protože je šance, že se tam líp vejdeme. Petra Hubačová a její tým nám v průběhu času postupně vytrhává asi 300 trnů z paty.


TSQ holky za nás postupně zařídí jídlo, sprchy, spaní, posílí konektivitu a pořeší každičký detail akce, od survival balíčků po plánky a faq/how-to. Jak jde čas, je nám jasný, že bez nich bysme tohle nedali!

Fáze 3 - potřebujeme lidi

Akci na eventbrite.com jsme spustili uprostřed noci a jen ji dali na Facebook. Prvních 10 lístků bylo zadarmo, dalších 15 bylo s volitelným vstupným... do 20 hodin jsme měli 50 prodaných lístků. Museli jsme začít omezovat tempo prodeje - zvedali jsme cenu, která se na konci zaparkovala na skoro $90 za lístek! Holky z TechSquare nám dali limit 120 lidí - víc se tam prý pohodlně nevejde. Na konci jsme měli 194 prodaných lístků (bacha při nastavování ceny - ke každému lístku je potřeba vystavit fakturu a zaplatit DPH).


Den D

Na páteční večer hackathonu nám dorazilo neuvěřitelných 176 lidí - totálně to nechápeme a s Pavlem se schováváme v kuchyni a polykáme antidepresiva :)  

Večer začíná prezentací technologií: Jirka Tobolka za GoodData, Pavel Kordík za RapidMiner a ModGen, Filip Hráček za Google BigQuery, Ondřej Popelka za Vertica+R, Jan Pospíšil za MS Azure ML (v té chvíli ještě veřejně nedostupné), Martin Veselý za SAP HANA, Lukáš Eštvanc za Inventoro a Alaksandr Aliashkevich za Shards.io. Francisco Martin pak ukazuje BigML přes YouTube, Scott Van Boeyen ukazuje Semantria a Alon Bartur má video prezentaci Trifacta.com.

V půl deváté je večeře a po ní spouštíme prezentace dat (videa za odkazem): Petr Martinec za Seznam, Miroslav Červený za Geewa, Eduard Kučera za Avast, Pavel Vaněček za Českou Spořitelnu, Michal Illich za Flowreader, Patrick Zandl za Energomonitor a Karel Tušek za 1188. Všechny data byly navíc předem v náhledech v GitHubu. Ostrá data jsme distribuovali pomocí CDN77 (Díky Zdeněk Cenda za unlimited použití zadarmo - nakonec to bylo víc než jen užitečné => skrz CDN distribuujeme týmům ad-hoc generované náhledy dat a různě upravené formáty) a na jejich přípravě trávil mnoho hodin dobrovolním Michal Bláha, bez kterého bysme nespali o pár nocí víc.

Po konci prezentací následovalo rozstřelení do týmů. Limitujeme lidi na max 15 skupin(témat). Po prvních rozpacích se nám plní tabule dvanácti projektama a začíná noční švanda :)


Veškerou komunikaci řešíme přes slack.com. V noci z pátka na sobotu jede na plný kotel asi 70 lidí. Bylo vidět, že pražáci odešli domů a vrací se ráno. V sobotu krmíme na obědě necelou stovku a v neděli odpoledne se držíme zase na cca 70+ aktivních účastnících.



Výsledky

Do neděle se nám probojovalo 12 týmů. Všichni si ošahali technologie i data, naučili se spoustu věcí a potkali super lidi, naladěné na stejnou notu. Záměrně jsme nevypsali žádnou cenu - nechtěli jsme “soutěžit pro prachy”, ale vytvořit prostředí kde je zábava a dobrá nálada. Doufám, že se nám to povedlo! Odměnu pro "nejlepší" tým jsme ale měli samozřejmě připravenou. Neoficiální první cenu dostal tým pracující s datama 1188, primárně za kompaktnost a rozsah jejich “data story”. Vítěz od nás dostal prasečí nohu, tak doufám, že na všechny došlo :)

nedělní videa: DOPLNIT

Peníze

Celé jsme to dělali pro zábavu - design hackathonu byl “všechno narvem do akce”. Čekali jsme příjem tak 50.000,- Kč na jídlo a co nám zbyde z lístků, dáme za pronájem TechSquare. 

Povedlo se nám nakonec sehnat dost peněz:


Aktuálně evidované náklady:


a rozpis největší položky do TechSquare:


Finálně hospodaříme s přebytkem téměř 55.000,- Kč. Jen co nám dorazí poslední peníze, co jsou na cestě, uzavřeme účetnictví hackathonu a odneseme “zisk” holkám do TechSquare, aby z toho dotovaly jiné zajímavé akce, kterým se nepovede získat si dostatek financí. 

Lessons Learned

Je to mnohem těžší zorganizovat, než jsme si představovali. Veliké stěstí bylo, že nám všechno kolem techniky, lidí, prostoru, jídla, apod. pořešily holky z TechSquare a my se mohli soustředit na data, speakery, peníze, technologie a jiné vylomeniny. I tak to byl téměř 1/2 roku de-facto denního zařizování, přemýšlení, domlouvání, lobování. Ale stálo to za to!

V pondělí po akci jsme se sešli v Můjšálekkávy.cz a začali psát dokument “Lessons Learned”, kam jsme za čerstva chtěli zapsat dojmy, nápady a připomínky. Přišlo nám super to dát public a tak jsem tweetli link k editaci dokumentu. Během 10 minut tam bylo skoro 50 lidí, kteří nám pomáhali dokument doplňovat.


Tady je výsledek: https://docs.google.com/document/d/16XeI-vNM107_ZS4RxTow8EFPgoSLQ8o4InkK-nI6fr0/edit?usp=sharing

Budeme moc rádi za jakékoliv další připomínky! Tady je náš soupis "Echoes", kam jsme "komprimovaně" dali všechno k sobě, včetně odpovědí z feedback formuláře (který nám zodpověděla asi 1/4 lidí): https://docs.google.com/document/d/1WI1peS0trglMSSG2hKLXxjrEzVW47Gipgcyl3nk0cfc/edit?usp=sharing

Linky

Sdílený “tech info” dokument: https://docs.google.com/a/keboola.com/document/d/1E4DxTQM9KDgr0HTj_45HYc_3W5fBUHwfRSSkNPI4u6A/edit?usp=sharing
Fotky z instagramu: http://www.vyvolej.to/hackathonbi

Jirka Tobolka: http://jirtob.tumblr.com/post/100491594852/enterprise-data-hackathon-den-pote
Radek Tomášek: http://blog.tomasrad.cz/post/100453502646/enterprise-hackathon-bi-powered-by-keboola

1188&CartoDB: https://github.com/MicTech/hackathonBI
Flowreader & Semantia: https://github.com/iki/hack-bi-flow

Článek na CzechCrunch: http://www.czechcrunch.cz/2014/09/jedna-z-nejlepsich-akci-roku-se-blizi-enterprise-data-hackathon-v-praze/
Článek na Lupě: http://www.lupa.cz/clanky/enterprise-data-hackathon-2014/
Článek na iHned před: http://tech.ihned.cz/c1-62955380-enterprise-data-hackathon-vydoluj-z-firemnich-dat-co-muzes
Článek na iHned po: http://archiv.ihned.cz/c1-62973980-enterprise-data-hackathon-od-technologickeho-bizaru-az-po-seriozni-vyzkum



TODO: prezentace, videa z neděle