Témata za březen 2015 (1/2)

2.3. - Gartner vyhodnocoval cloud providery podle toho jak jsou vybaveni pro poskytování služeb ve 4 oblastech: application development, batch computing, cloud-native applications a general business applications. První je Amazon AWS (93.6% možných bodů), druhý je Google (72%), třetí je Microsoft (70.4%) a čtvrtý je Rackspace (69.8%). IBM, HP, GoGrid, VMware a spol se pak na první čtyřku dívají z hluboké propasti. Zdroj tady. Trochu nefér úsudek by mohl znít, že AWS je dneska nejlepší cloud.

3.3. - Elasticsearch (vynikající nástroj na zpracování nestrukturovaných dat) oznámil partnerství s Google Compute Engine - je tak možné ho spustit téměř jedním kliknutím. Zdroj tady. Kdo si chce Elasticsearch pustit jinde než v Google Cloudu, měl by asi začít s Karmihocookbookem”. FRESH NEWS: Elasticsearch koupil jednoho z nejlepších poskytovatelů SaaS Elasticsearch (http://found.no) a společně se přejmenovali na Elastic.

4.3. - RefinePro jde ven z privátní bety. Více tady. Nejzajímavější na tom proč mít RefinePro (aka OpenRefine) v cloudu, je možnost spolupráce více lidí - viz http://refinepro.com/blog/refine-multi-user/

4.3. - IBM koupilo AlchemyAPI, mojí oblíbenou službu na NLP (zdroj), a zařadili jí do portfolia IBM Watson. Díky tomu jsem se na Watsona prvně podíval a musím říct že docela super. Zajímavé například je, že umějí vzít váš text a přeformulovat ho podle toho, kdo je audiencí. Všechno je zatím zadarmo (beta), kromě detekce osobnostních vlastností (příklad).

6.3. - Vladimír Makovský a Hynek Vychodil (briskat.com) se začali bavit s investorama. Kluci spolu postavili databázi, která je dělaná na mraky konkurentních dotazů co moc nejdou cachovat. Co vím, tak Hynek v Insight Strategy (to Roman Staněk koupil, přejmenoval na GoodData a ohnul tomu kormidlo směrem do cloudu) spolu s Michalem Dovrtělem navrhl MAQL a LDM jako spojující prvek mnoha dimenzionálních dat. Kluci s Briskat.com vylezli z kraje roku (http://padak.keboola.com/13-temat-za-leden-2015), o tom proč je MAQL v GoodData to podstatné, jsem psal víc tady.

10.3. - Dali jsme si u Marca Raisera na chatě první "devel offsite”. Škoda že nedorazil Najloš a Kachna - můžeme jim to říkat 100x, a stejně se na nás vyprdnou :) Pivo teklo proudem a viděli jsme podvodní bagr v Berounce!

11.3. - Spolu s Czechitas jsme spustili registraci na první DataGirls, event kde chceme holky učit BI. Máme 40 míst, Pavel Doležal vyrobil eventbrite se 100 lístkama. Rozebráno to bylo za 3 hodiny. Teď jsem dost napjatej, jaký to bude. Celý to plánujeme jako šňůru vzdělávacích akcí, postupně i mimo ČR (asi kolem těch našich čtyř kanclů, roztaženejch přes 16 časových zón - nad Keboolou slunce nezapadá :-)

11.3. - Plácli jsme si s Elenou Shubik na vzájemné spolupráci. Ladit si to budeme následující 3 měsíce. Elena má za úkol nám začít stavět mezinárodní prodej. Nejbližší téma je samozřejmě UK, kde se spojí s Martinem Lepkou v našem UK kanclu. Moc se na to těším, budou určitě hvězdná dvojka!

11.3. - GoodData pustila na veřejnost, že má první patent - zatím se mi nepovedlo odhalit, v čem je jeho mazanost. Na GoodData je podle mě zajímavé úplně něco jiného (koncept LDM a MAQL jazyka a ROLAP algebry). Přijde mi, že jak jejich sales, tak jejich produkťáci si to neuvědomují - tak jsem zvědavej, kudy to nasměrujou dál. Kluci jízlivě říkaj, že takovýhle patenty začneš tvořit když chceš opticky dělat firmu cennější = exit strategie?

12.3. - Připravujeme pár nových “writerů”, které umožní posílat data do další skupiny BI nástrojů. Díky decentnímu lobby od Jany ze Singapore to vypadá, že dostaneme na testování SAS. Jde nám hlavně o SAS Visual Analytics a SAS Visual Statistics. Podle všeho SAS vyladil cenovou politiku a je v tomhle směru konkureceschopný s Tableau (už podporujeme). Vedle toho připravujeme zapojení Information Builderu, který se hodí hlavně tam kde je hodně dat (obecně čím víc dat, tím víc $$$ u cloud BI řešení) - takže odhaduju sweet spot Information Builderu někde kolem 100+GB k analýze, případně kde je rozpočet $150k na první rok. SAS, Tableau i Information Builder zaujímají celkem fajn místo v letošním Magic Quardantu pro BI:

13.3. - V pátek jsem měl schůzku s Jirkou Žaloudkem a Lukášem Puchrikem z CleverMaps. Pokud to exekutivně dotáhneme, budeme umožňovat jedním kliknutím všem (co u nás mají alespoň vzdáleně data vhodná k retail analytice) spustit CleverMaps. Poprvé jsme se bavili v létě 2014 a to co udělali od té doby za pokrok je úchvatné. Moc stojím o to, aby se povedlo dotáhnout! Tenhle typ (vizuální) analýzy chce každej větší e-shop a každej kdo má víc než jednu trafiku a alespoň elementární podnikatelský ambice. Jirka říkal, že je na dosah možnost si definovat vlastní metriky v polygonech v mapě, takže "podíl slevy na nápojích vs slevy na pečivu, podle velikosti zadlužení obyvatel v daným regionu" je na dosah. CleverMaps má dneska zajímavé mapové podklady v ČR a UK, na dalších krajinách makají.

Telegraficky:
  • v kanclu v Singapore mají první podepsanou smlouvu a asi 4 dost zajímavé příležitosti. Stále platí, že hledáme někoho lehce technicky zaměřeného (nebojí se ovládat REST klienta, umí SQL a zvládne se naučit základy R + mu to pálí, není línej a kope víc za úspěch klienta než sebe), kdo by se v Praze vytrénoval a odjel tam alespoň na 2 roky pracovat.
  • spustili jsme Google Drive Writer (Miro Čilík backend, Tomáč Kačur UI). Kromě toho že je teď možné zapojit lidi do ručního čistění (data se nasypou do Google Drive, lidi je nějak upravují a z jiného sheetu se tahají extraktorem zpět - super třeba pro unifikaci číselníků), může si tam kdokoliv sypat data jakoby do archivu (klidně co den to vlastní export do nějakého adresáře - Google Drive stojí $9 za 1TB) a nebo tímhle způsobem budeme moct poslat Tableau Data Extract (aka TDE) soubory komukoliv přímo na desktop. Podporujeme zápis do Sheetu a nebo do souboru.
  • Kachna udělal na jeho Generic Extraktoru extraktor na GetStat.com a Linkdex.com
  • Pavel s Milanem v Seattle docela zabodovali v Tableau kanclech. Je super, že tam je někdo, kdo požívá foťák, jinak by tyhle momentky zarostly pavučinama :-)
  • vypadá to, že do 3 let už konečně spustíme novej web - škoda že jsme to nestihli dneska, je 30 let výročí .com domén. První doména se jmenovala Symbolics.com! Více k narozeninám .com domén tady.
  • Poměrně zajímavá úvaha, tvrdící že Time-To-Value je nejdůležitější SaaS metrika. Argumenty jako že "switching costs are rapidly approaching zero" mě dost berou za srdce. Všechny produkty/služby by měly podporovat ukončení subscribce tak, aby klient necítil žádný "vendor lock-in". Věřím, že pak nikdy neodejdou (pokud vendor nezačne produk kurvit).
  • sháníme člověka, co má zkušenosti s větší automatizací Amazon AWS

12 témat za únor 2015

Moje únorové "top" highlighty v pracovním prostředí, bez zpráv o nových klientech.

Zahájili jsme kolonizaci velmi potenciálního regionu - od února funguje "Keboola Singapore Pte Ltd.”. Ještě tak 5~6 kanclů po světě a plány na globální gauč-surfing ve vlastních kancelářích je hotov! :) Náš "asijský startup" vede Jana Žižková, která má BI (a data obecně) v genech. Doteď nechápu, jak se nám povedlo ji zaujmout a nadchnout pro naše plány. Jsem pyšnej! V Singapuru stavíme plnohodnotnou údernou jednotku - kdyby měl někdo zájem dát si v Praze 3~4 měsíční trénink a v průběhu něj se kvalifikovat na přesun do Singapuru, hlašte se na petr@keboola.com. Zajímají nás jen chytrý lidi, co tam chtějí jít na delší dobu >18 měsíců (žádná letní dovolená).


Dali jsme se dohromady s excelentním Tableau partnerem, firmou Billigence. Jejich domovská krajina je Austrálie, kde sídlí na adrese "10 Help Street, Sydney" - což je nejvíc top ulice, když chcete dát najevo, že jsou vaši zákazníci to nejdůležitější, co máte :) Pro Billigence slouží Keboola Connection jako Data framework, DWH a staging layer pro cloudové zdroje dat určených k analýze. Pro nás je podobný vztah doslova požehnáním, protože není nikdo lepší, kdo by nám dal správný feedback na naše konektory pro Tableau. 


Spustili jsme další transformační backend v jazyce R. Bez nadsázky se dá říct, že každý zajímavý algoritmus má svojí reprezentaci v R. A jelikož je R jedním z nejrozšířenějších statistických nástrojů, nemohl dlouhodobě chybět. Možnosti, které to našim klientům dává, jsou téměř nekonečné. Rád teď leaknu, že připravujeme podporu Shiny frameworku, ve kterém běží hodně mocné aplikace pracující s daty. Samozřejmě máme před sebou ještě velké zlepšování okolní "R infrastruktury", ale věřím, že udržíme tempo! Tady proběhlo naše oficiální oznámení. UPDATE: Dal to dohromady Najloš, kterej se možná cejtí fakt uraženej, že jsem na něj jakoby zapoměl. Taky mu myslím s R pomáhal Odin, kterej se zatím uraženej asi necejtí, ale radši to sem napíšu. Teď jako čekám smršť potenciálně ukřivděnejch lidí, tak sem nalinkuju http://padak.keboola.com/dalsi-rok-za-mnou kde píšu že jsou všichni super. Snad to stačí :-)


3rd party app - náš transformační backend s R běží v Dockeru. Tady je náš Docker Hub a tady jsou zdrojáky našeho “demo dockeru” - a když už to takhle máme, je nasnadě, aby nám kdokoliv třetí dodal svojí “aplikaci / business nástroje” stejným způsobem. Mimochodem, Microsoft spustil Docker v Azure před pár dny do public beta a Amazon to rozjíždí v AWS jako Elastic Container Service, zatímco CoreOS řekl, že to je crap, a jede si svůj vlastní kontejner. No a u nás máme první dvě vlašťovky našich 3rd Docker aplikací: Yottly.com a Geneea.com. Yottly za náma poslal Vojta Roček - soustředí se na využití machine learning nástrojů v ecommerce. Geneea.com jsou zase experti na Natural language processing - tedy schopnost strojově popsat význam textu. Pro lepší představu co umí "stroje ovládající NLP" si pusťte AlchemyAPI demo - ve výsledcích si klikněte na “Relations” a pak na nějakou vybranou větu. Čeho všeho jde s pomocí NLP v našem prostředí docílit je totální úlet! Takové nejlépe dostupné API pro NLP jsou již zmíněné AlchemyAPI, Semantria a nebo IDOLonDemand (jádro HP Autonomy).


Erik zmigroval naší klíčovou komponentu (Orchestrátor) do kompletně asynchronního režimu. Trvalo nám to věčnost, ale proběhlo to téměř bez problémů a teď díky backendu v Elasticsearch můžeme začít dělat věci jako “notifikuj mě, pokud nějaký job běží o 20% déle, než je průměr za posledních 30 spuštění”. 

Když už o tom píšu - hodil by se nám na občasné konzultace někdo, kdo má zkušenosti s Elasticsearch - potřebujeme rady, abysme neimplementovali nějaké anti-patterny. Elasticsearch sám nabízí pouze support od 20kEUR na rok, což je pro nás lehce overkill...


Po skoro 3 měsíční pauze jsme obnovili testování Snowflake.net, který se chystáme zapojit jako další backend na uložení dat. Snowflake je naprostý úlet co se týče výkonu. Poslední, co nám zbývalo otestovat, jsou věci jako monitoring, provisioning, apod. 3 měsíce jsme čekali na nějaké dodělávky od Snowflake - teď je to hotové a já napjatě čekám, co z toho bude :)


Odin vykopnul K-Means segmentaci jako “Recept" běžící v Keboola Connection. Nejlepší popis K-Means, co jsem v poslední době našel, je tady. Pomocí K-Means můžete automaticky najít segmenty v datech, které od nás dostanete jako "další sloupeček", a k němu nákresy binárních stromů, abyste si mohli udělat představu, jak "stroj" k segmentu došel.


Marc udělal “Recept”, který dělá analýzu nákupního košíku. Řekne vám to, že když je v košíku tlačenka, bude tam z 73% i pivo a že se tahle kombinace vyskytuje v 64% všech objednávek, apod. Úplně se nabízí zkoumat profit těchle kombinací a případně je nabízet společně “v akci”. Případně řešit, jestli pochopíme návyky skupiny lidí, co si kupují tlačenku bez piva, apod. 


Milan domluvil se Zendeskem zapnutí Zendesk Insights (jo, jako správný socky si platíme nejlevnější tarif, ve kterém to normálně není :) - a tak jsem skočil do GoodData projektu se Zendesk datama a podíval se, jak na tom jsem. Od zavedení Zendesku jsem hlavní jouda L1 support týmu. Brutálně mě to 2. rokem otravuje, ale fakt, že každý ticket dostanu do mobilu a zároveň jich velkou část přímo odbavím, mě udržuje ve stavu, kdy mě nejde interně nabullshitovat, jak je něco super cool, zatímco nám zákazníci píšou, jaký s tím maj problémy. Je mi jasný, že to trvale nepůjde, ale doufám, že to vydržím dělat co nejdýl! Přísné tempo, kdy jsem prvních 6 měsíců zavíral skoro 60% všech ticketů, je dávno pryč, nicméně posledního 1/2 roku útočím na 40%, což je pořád dost a jsem na to pyšnej :)


Naše kanadská parta se hodně angažuje v ekosystému Zendesk.com. Velkou roli v tom hraje náš “školící" produkt Keboola Academy. Tady a tady Zendesk probírá, jak důležité je se daty kolem “customer care” zaobírat. 


Pavel Doležal je na tripu po US a mimo jiné zašel na Tableau Konferenci

Tableau 9 server je úplně jiný svět, má své specifické zákazníky, myslím že se to super doplňuje s GoodData. Oznámené novinky jsou nicméně hodně přísné - do detailů se nepustím a raději to nechám někomu fundovanějšímu :)


GoodData získala zlato za "best Customer Support Department of the Year" - je to určitě zasloužené. Jejich support je opravdu skvělý! Velké gratulace a respekt - určitě to nebylo zadarmo!

13 témat za leden 2015

Moje lednové "top" highlighty v pracovním prostředí (že Tereza řekla včera ráno smysluplnou větu sem asi dávat nebudu, co? :)

Briskat.com Hynek Vychodil a Vladimír Makovský spustili interaktivní analytickou databázi MIA DB, která vypadá hodně perspektivně. Tady je demo a tady blogují. Hynek a Vladimír mají solidní track record na poli DB backendů a práce s datama. Jsem na to moc zvědavej a mohutně držím palce! 

Vertica se konečně přesunula do cloudu jako "Vertica on demand". Od ledna je možné si pronajmout tuhle analytickou databázi přímo od HP. Vertica mi tu figuruje ve dvou postech (první, druhý) a speciálně komentáře pod tím prvním stojí za pozornost.

KBC stats - za leden 2015 k nám přiteklo v 1.19M requestech 3.94TB dat. 

Keboola London - v tichosti “otevíráme” UK trh a prostřednictvím Martina Lepky máme od února full-time prezenci v Londýně. 

GoodData “Insights as a Service” - masivně oznámená novinka, co mi zaplavila všechny kanály. Jsem zvědavej, jak to bude dál - od spousty super věcí časem ztratili záběr (JS API třeba). Pokud “analytický designer” budou držet na špici, vydají nějaký popis metadat, aby mohl kdokoliv definovat “co” se dá s daty dělat a propojí ho víc se zbytkem GoodData, bude to super. Vypadá to velmi slibně, byť mě “air wars marketing” trochu tahá za uši :) Zároveň se obávám jedný věci - že potenciální odklon od MAQL vezme GoodData to co je na nich dobrý - za okny totiž číhá svět plný těhle tahacích klikátek, kde právě absence "AQE" z nich dělá hračky pro šašky. Držím palce a těším se na to!

Medio Interactive naskočilo na naší 'juchůů' vlnu a pustilo se do pokročilých analýz. My jim po pečlivém zaučení dáváme statut “Keboola Certified Partner”. 

Tady je k vidění záznam z jejich prvního webináře, vedeného Honzou Tichým. Časem ho snad přemluvím k rozhovoru, celebritu jednu! :-) Medio je, mimochodem, jediná schůdná cesta jak se u nás dostat ke Google AdWords datům, pokud nemáte vlastní Google Developer Token!

Breezy začalo programovat komponenty do Keboola Connection! Seznámili jsme se s nima jako s partou co technicky stála za projektem Gorila Mobil. Dneska pro naši platformu dělají konvertor z Excelu do CSV, extraktor z iTunes a podle posledních informací je uhání Vojta Roček z Rockaway, aby pro ně udělali nástroj na zpracování mandatorních filtrů do GoodData. Breezy k nám dává svoje aplikace zapouzdřené v Docker.com a pokud to klapne jak má, budeme z nich mít prvního “Keboola Certified Developer”!

Microsoft Power BI (http://www.powerbi.com/) je od konce ledna k dispozici zadarmo. Co nám to na Enterprise Data Hackathonu ukazovali kluci z Bits2s Intelligent Technologies, vypadá to hodně dobře. Myslím že to má potenciál zahýbat s trhem, zvlášť při integraci s MS Azure, kde je dost pěkných nástrojů na zpracování dat (Azure Machine Learning, např.).

UPDATE: Tak PowerBI ještě chvilku kartama míchat asi nebude :-)

Keboola Meetup - proběhl náš první MeetUp pro zákazníky. Brzo budou fotky a videa! Klobouk dolů před lidma co tam vystoupili a pustili nás všechny do svých obyváků. Například papírnictví McPen, projekt našeho partnera Ascoria.cz, tam naživo ukázal svoje dashboardy, všechny čísla, apod. Respekt!

Na wiki.keboola.com od začátku roku veřejně dumpujeme poznámky, návody, postřehy a dokumentaci. Teším se až tam začnou sypat non-Keboola lidi svoje znalosti!

Wishlist zapli jsme veřejný Trello board, ve kterém může kdokoliv hlasovat pro návrhy, co máme dodělat. Je to ideální studnice inspirace pro naší konkurenci :) a cesta jak naši zákazníci natlačí vývojářům vlastní potřeby/představ. Popsané je to na našem "Statusu".

Partneři nám přebírají klienty - na tohle jsem čekal 2 roky! Je to signál živého a fungujícího ekosystému. Doufám ve víc podobných situací - je jasné že my sami budeme nejlepší primárně v podpoře našeho "data frameworku” Keboola Connection a koncovou péči o zákazníka, včetně vysoké vertikální znalosti, musí převzít někdo lepší než jsme my.

Docker se zabydluje v Keboole - což znamená že kdokoliv může svojí business logiku (machine learning algoritmy, R aplikace, apod.) zabalit a nechat nad datama našich klientů monetizovat. Do budoucna budeme nejlepší místo na vydělávání peněz pomocí chytrých aplikací. Něco jako podtitulek Enterprise Data Hackathonu "Real data, from real enterprises, great tools, lots of fun!”. Zbývá dotáhnout jak propojit našeho klienta a 3rd aplikaci a značně vylepšit naší schopnost datům automaticky porozumět (<<HR okénko!). #realData #realMoney

Vánoční týden v "našich" číslech

Po delší době jsem si našel čas podívat se co se v našem "data frameworku" Keboola Connection odehrává. 

V týdnu 22.12.2014 - 28.12.2014 to vypadalo následovně:

  • naši klienti nebo interní extraktory k nám 303.502x poslali celkem 739GB dat (data nejsou žádné logy nebo kynuté soubory, jde z 99% o tabulky s obchodníma informacema)
  • průměrný objem jednoho importu byl 2.5MB a měl kadenci cca 1x2vteřiny
  • za stejné období jsme zpracováním dat (extrakce, transformace, obohacování, apod.) tavili procesory po dobu 3.5 milionu vteřin (cca 5.5 dne práce za den skutečného času)
  • pracovních jobů v té době bylo 9559 (cca průměrně 6.1 minuty na jeden job)

Štědrý den na objemu dat neměl viditelný vliv - roboti evidentně neslaví a klientské systémy hrnou data pod parou, svátek nesvátek.

Ty samá čísla za aktuálních 24 hodin (2014-12-29 21:00 až 2014-12-30 21:00):

  • počet importů (poslání dat): 46132
  • objem poslaných dat: 136GB
  • průměr na jeden import: 3MB
  • doba práce: 616k vteřin (7.1 dne)
  • počet pracovních jobů: 1409 (7.2 minuty na job)

Za posledních 30 dní máme 3.37TB přijatých dat. Tak schválně kdy dáme 100TB za měsíc? :)

P.S. Dřív jsem občas na Facebook šoup nějaké číslo. Psal jsem třeba, že za den odmakáme 110 dní práce, což obsahovalo i čekání než GoodData zpracuje náma poslaná data. Dneska to ve statistikách čistím na náma opravdu odvedenou aktivitu.