Data orgasmus, Miloš Endrle a StartupYard 2013

Skoro přesně před rokem mě Jarda Gergic seznámil s Milošem Endrlem. Do Miloše jsem se zamiloval "na první dobrou". Dodnes vzpomínám jak mě zaujalo jejich hackování Google Analytics, aby z nich získávali agregované eventy z her. Pokud mě pamět neklame, vypálili tím trochu rybník Kontagentu, který se tehdá nějak specializoval na "gaming analytics". 

Minulý pátek mě zatáhl Miloš do novýho Geewa kanclu. Povídali jsme si o jejich krutopřísný infrastruktuře zpracovávající stovky milionů eventů v reálném čase!

Poslouchat Miloše je něco jako bavit se s Michalem Buzkem ze Seznamu - oba mají nadání koukat na surový data, mluvit o jejich transformacích a přitom ale ve stejnou chvíli přemýšlet o hodnotě informací, které z toho vypadnou. S lehkou nadsázkou jde říct, že povídání si o jejich dashboardech je takový "data orgasmus".

Miloš je mentorem ve StartupYardu. Tam potkal "šílenost" HowDoI, za kterou stojí Lukáš Haraga. Miloš Lukášovi jeho startup asi dost disassembloval, aby to pak spolu poskládali znovu. Myslím, že se zadařilo...

Aircharts.co

Ten samý pátek do Geewa kanclu dorazil Lukáš a asi 2 hodiny jsme si spolu povídali o jejich pivotu. Lukášův startup se teď nově jmenuje Air Charts a má za cíl prezentovat (business) informace ve správnou chvíli na správném místě. 

Mají hotový prototyp, který v reálném čase nasává data z Google Analytics a ze sociálních sítí. Tyhle "traffic" data mashuje a výsledky ukazuje na webu v takové transparentní vrstvě - přesně to co potřebujete vědět, přesně tam kde to má být. 

Z toho se ještě na zadek neposadíte, ale představte si, že jste nákupčí v Alza.cz a na webu vidíte u konkrétní sekce (třeba brašny na notebooky) kolik se za posledních 7 dní utratilo za Sklik kampaně, jaký byly cíle v Google Analytics a kolik lidí vrátilo zboží do 14 dnů. Tyhle vratky pak můžete řezat podle nějakých behaviorálních parametrů vztažených k Sklik leadům. To je  kruciální vlastnost - bezešvá integrace analytiky (externí a interní data) pro obchodníky a marketéry, prezentovaná "jakoby mimoděk".

Úspěch Aircharts bude podle mě spočívat v tom, jak dobře se jim podaří celou věc domyslet a nepřekombinovat. Na takto odlehčeném dashboardu nesmí být bordel. Přirovnal bych to ke kokpitu F-22 Raptor za $350M - když je potřeba střílet, nezajímáte se o objem metanu v prdech odsátých z vaší sedačky... (pokorně předpokládám, že letadlo za takový prachy umí odsávat prdy)

Zajímavé bude sledovat, co na to lokální CZ investoři. Mám tak nějak nepodložený pocit, že většinou neumějí pustit kačku, aniž má projekt zákazníkem zvalidované MVP. Skromně bych tady konstatoval, že jakmile to kluci zvalidují, nebude snadné se jim vetřít do přízně. Proč? Protože:

Při psaní jsem poslouchal 112 od Martina Halamíčka. Potěší mě, když mi tweetnete tipy na další hudbu!

Máš BigData? Uka!

Pojem "BigData" jede na Twitteru celkem dlouho. V ČR o BigData už mluvil Patrik Zandl (zde) i Petr Koubský (zde), což je neklamné znamení, že to brzo dorazí k mojí mámě do práce. Asi poslední seriózní médium, kde se o "BigData" ještě nepsalo je Kunratický zpravodaj (fakt!). 

Nejčastější přístup, který lidi při prezentaci "BigData" tématu volí, jsou infografiky o tom, jak moc dat lidstvo produkuje. Infografiky jsou pěkný, ale objem dat není BigData. Pojďme si to říct úplně bez obalu: 

Vaše firemní databáze, registr vozidel ČR ani data o všech bankovních transakcích nejsou BigData!

Pokud jste někoho slyšeli o BigData mluvit a nabízet na to nějaké řešení, je vysoce pravděpodobný, že nikdy žádný velký data neviděl. 

Kde jsou ty BigData?

Opravdový BigData problémy řeší třeba v CERNu, kde HW z experimentu CMS, ALICE, ATLAS a LHC sbírá data z 600 milionů kolizí za vteřinu. Na zakázku navržená a ultra rychlá elektronika v takto vyprodukovaných datech vybere 0.01% dat a zbytek zahodí. Takto šíleně redukovaná data tečou pořád neskutečnou rychlostí 100GB/s do farmy serverů s 15.000 procesory, které z toho dál vyberou 1% dat, které se posílají do Tier 0 datacentra, kde dalších 73.000 procesorů dělá datové agregace a předzpracování. Data se teprve poté dál distribuují k vědecké analýze do Tier 1 a Tier 2 datacenter, kterých je celkem 151 po celém světě. 

Až vám někdo bude zasvědceně vyprávět příběhy o BigData, vzpomeňte si na CERN. 

Je totiž velmi pravděpodobné, že jediné co potřebujete vyřešit je zpracování, uložení a analýzu "normálních" dat. Normální data mohou být složitá, fragmentovaná, částečně uložená v různých volatilních systémech a mohou se v čase různě měnit, pořád ale platí, že to pro vás nejlíp na světě odbaví GoodData, která jako jediný non-mastodont (vedle MS a Oracle) vendor disponuje řešením na celý životní cyklus dat (ETL framework, data warehouse, logická business vrstva, analytický backend a prezenční vrstva (to jsou ty grafy, které jediné vidí uživatel)).

Kde se Hadoop vzal?

Zpracovat, uložit a analyzovat objemná data nebylo vždycky snadné. Vzpomínáte si na dobu kdy nejlepší disk byl 160GB SCSI 15k otáček za vteřinu, o kolmém zápisu na plotny se začínalo mluvit, 4GB RAM byl luxus a 1GBit/s síťová karta byla používaná jen v serverech FBI? Procesory neměly více jader a virtualizace si pomalu nacházela cestu z pokojíčků Geeků do datacenter? Tak to byla doba, kdy Google vydal white paper o MapReduce technologii, která umožňovala jednoduché zpracování dat na velkých počtech počítačů.

Chytrým to pomalu dochází - co by se stalo, kdyby tehdy byly lacině k dispozici stovky GB RAM, SSD disky, desítky jader procesorů s mnoha GHz výkonu, naprosto normálně síťe s kapacitou mnoha GB/s? A co sloupcové a in-memory databáze s variabilní kompresí?

(bottom line: transformace dat v Keboola Connection spouštíme v serverech s 244GB RAM, 83GHz, 240GB SSD a stojí nás to $0.34/hodinu)

Myslím, že by tehdá místo MapReduce řešili jiný koncept. Hadoop je dneska totiž něco jako Wankel engine - postavte si ho vedle elektromotoru z Tesla Model S a pochopíte, jak zoufale se dneska Hadoop musí cítit vedle moderních databází.

Přesto to ale frčí! Proč?

Protože je to dobrej business! Firmy obecně chtějí slyšet, že mají BigData a že řeší BigData problém. Dělá jim to dobře. Kdo nemá "BigData" je out! Tohle je zacyklený kolečko ze kterýho není cesta ven. Někdo si musí nejdřív rozbít pusu... Jelikož se za investice do BigData nevyhazuje, bude to muset přijít odjinud. 

Mám následující hypotézu:

  1. Firmy chtějí zpracovávat velká data, protože si myslí, že díky tomu budou schopny predikovat a na tom vydělají obrovské množství peněz. 
  2. Náklady na takovou predikci jsou ale v praxi zásadně vyšší než uskutečnitelný zisk.
  3. Protože na rozdíl od fyziky nemáme chování zákazníků popsané pár diferenciálníma rovnicema, musí většina predikcí stát na nekonečném numerickém iterování bordelu v datech.
  4. Tohle iterování je pomalé, špatně se mu mění vstupní parametry a hraniční podmínky - díky tomu to má zatím spíš sporné výsledky.
  5. Nakonec stejně zvítězí chytrost a rychlost nad přesností. Pokud ModGen na šíleném železe udělá za 3 dny o 6% lepší výsledek než Mikiho jednoduchý binární strom na notebooku za 17 vteřin, je singularita ještě daleko :)

Resume:

  • nemáte BigData!
  • nepotkali jste nikoho, kdo by BigData problémy opravdu řešil
  • je sexy o BigData vyprávět - proto klidně říkejte, že vás to trápí
  • potřebujete se ale hlavně zbavit Excelu a ne stavět Hadoop cluster
  • používejte hlavu!
  • díky zpracování dat máte VYDĚLÁVAT peníze, né si honit triko na konferencích!

Tohle je úplně čerstvá věc. Velká gratulace! GoodData získala ocenění, které de-facto říká, že GoodData je nejlepší řešení na to, jak vydělat peníze na trhu s daty. Tuněním Hadoopu a psaním MapReduce scriptů totiž naše existující zákazníky nepředhodníte! Dobrá zpráva je, že máme ještě v Cloudu pár volných míst. Autobus odjíždí každé ráno v 9:00 z Florence, tak koukejte nastoupit :)


Při psaní jsem poslouchal Brukev od Martina Halamíčka.

Největší účetní skandál z roku 2011

Největší účetní skandál z roku 2011 dorazil i na české billboardy:

18. srpna 2011 koupilo HP firmu Autonomy (wiki) za 11.3 miliardy USD. O rok později odepsalo 8.8 miliardy USD z hodnoty Autonomy a označilo to jako účetní skandál (zdroj).

Přesto všechno je Autonomy hodně zajímavá firma. Jejich hlavní technologie se jmenuje "Intelligent Data Operating Layer" (IDOL) a používá se na porozumění nestrukturovaného textu. Autonomy je díky tomu jedím z průkopníků tzv. "Meaning Based Computingu" (MBC).

Mnoho lidí to neví, ale v ČR používá Autonomy firma Capta Works, která nad tím postavila řešení, jenž Wunderman (resp. KBMG) prodává jako WLIP. Loni jsem na SMS řekl (12:45), že WLIP je lepší než Ataxo Social Insider - tak teď víte proč: Autonomy backend je ten hlavní důvod. 


Čím je GoodData výjimečná?

Dnešní doba je přesycená daty. Vyprávět o datech začíná být tak sexy, že si na tom každý druhý staví kariéru. Dokonce i v ČR pár semi-expertů převlíklo kabáty a začalo mluvit o BigData (v horším případě na tohle téma dokonce pořádají konference). Já si tohle téma schovám na pozdější  blogpost, ve kterém to "hadoop nadšení" trochu posadím nohama na zem.

Data...

Lidi chtějí znát víc informací o prostředí ve kterém se pohybují. Pomáhá jim to lépe se rozhodovat, což většinou vede ke konkurenční výhodě. Obecně platí, že k dobrému rozhodování potřebujeme kombinaci tří věci: správné vstupní parametry (informace/data), selský rozum / zkušenost a špetku štěstí. Blbec bude dál blbej, "štěstí" se v ČR dá občas koupit, ale hrozí že vás zavřou za uplácení. A tak nejvíce ovlivnitelná složka úspěchu zůstávají informace. Na "hřišti" kde se pohybuju si pod správnou informací představte odpovědi na ty nejzvídavější otázky, co vás napadnou.

Předpokládám, že každý z vás ví, kolik má na svém osobním účtě v bance k dispozici peněz. Většina taky bude vědět, kolik asi peněz měsíčně utratí. Méně z vás bude přesně vědět, za co ty peníze utrácí. Ještě menší skupina lidí bude znát strukturu všech kafíček, zmrzlin, vín, obědů, atd. (říkáme tomu "long tail"). Skoro bych se vsadil, že nikdo neví, jaký je jeho osobní meziroční trend ve skladbě nákladů takovéhoto longtailu. Asi namítnete, že vás to nezajímá. Pokud jste ale firma, která chce uspět, neobejdete se bez podobných informací. Co se osobního života týče, je podle mě největší magor Stephen Wolfram, který si od roku 1990 měří téměř všechno. Jen o žmolcích z pupku zatím nepíše téměř nic (na rozdíl od Grahama Barkera :)

Protože po zprávách v TV večer nedávají "executive summary" z vašeho účetnictví, crm, google analytics a social sítí, jste nakonec nuceni si budovat různé varianty reportů a dashboardů sami.

Zkusím tu sesumírovat nástroje o kterých vím, že jsou k dispozici, ale nakonec vám řeknu, že je to všechno jen taková plynová pistolka a kdo chce pořádnej data gun, musí sáhnout po GoodData. Abych byl fér, budu se snažit i trochu argumentovat :)

Excel

Excel je dnes na každém rohu. Je dobrý pomocník, ale dost lidí má podivnou tendenci dělat ze sebe Excel Inženýry, což je nejvíc nebezpečná odbornost, na jakou můžete narazit. Takový Excel Inženýr často končí u kontingenční tabulky a vzorečku SUMIF(). Přitom má na sebe navázané "zpracování firemních dat" a snad nevědomky se stává brzdou pokroku. Největší rizika reportingu v Excelu podle mě jsou následující:

  1. v excelech se drží primární data, ze kterých se reporty dělají, tyto data do excelů někdo někdy naimportoval - špatně/draze se to aktualizuje
  2. excely mají tendenci putovat "korporátníma outlookama", díky čemuž vznikají různé verze; často se hodí YDT % o kousek změnit, případně se snadno stane, že vedlejší oddělení má stejný excel, ale s jinými čísly - sráží to důvěru v reporty a umožňuje to snadno zkreslit realitu
  3. složitější věci je nutné chtít po reportovacím oddělení (jen oni umějí aktualizovat data - viz bod 1.), kde odborníci na excel vyrábějí odpovědi na business otázky, kterým né vždy rozumí - často se stává, že ad-hoc odpovědi na vaše ad-hoc hypotézy vznikají dlouhé dny (nastává vyhoření zadavatele)
  4. do excelů se kombinacema ručních operací a maker co vyrobil "ten co tu už nedělá" vnáší chyby, díky kterým kolabuje kosmír!!

Je asi jasné, že excelový reporting by měl končit na úrovni živnostníka. Efektivně s ním nejde dělat nic seriozního. Můžete si být jistý, že excely co jsou na "zetku" (síťový disk přece!) obsahují chyby, nejsou aktuální a byly vyrobeny lidma, kterým to někdo zadal, takže věděli prd o podstatě dat, které do toho VLOOKUPu zapojili. Excel Inženýr většinou nemá v genech dělat "data discovery" a i kdyby na něco zajímavého narazil, asi si toho nevšimne. Co je v danou chvíli správná informace poznáte nejlépe vy sami (a excel opravdu není to, co byste měli v roce 2013 ovládat na úrovni VBS maker a dirty hacků)! 

Vizualizace

Dnešní trh je přesycený nástroji, které mají za cíl pomoct vizualizovat nějakou business informaci. Pod tím si představte třeba počet objednávek za dnešní den, čistou marži za poslední hodinu, průměrný zisk na jednoho uživatele, aj. V drtivé většině případů to funguje tak, že si u sebe tuhle "informaci" spočítáte a přes nějaké rozhraní to automaticky posíláte dané službě, která se stará o prezentování dané metriky. Příkladem takových služeb může být například Mixpanel, KissMetrics, StatHat, GeckoBoard nebo třeba KlipFolio. Výhoda oproti Excelu je hlavně v tom, že se reporty a dashboardy dají snadno automatizovat a následně sdílet. Sdílení informací je dost podceňované! Příkladem takto vizualizované informace může být počet datových transformací, které jsou v minutové granularitě spouštěny v našem staging layeru:

Z takovýchto reportů si poskládáte Dashboardy a chvíli budete mít dobrý pocit. Problém nastane v momentě, kdy zjistíte, že každé rozšíření takového dashboardu vyžaduje tím složitější zásah od vašich programátorů, čím složitější jsou vaše otázky. Pokud děláte v B2C a máte transakční data, můžete si být jistý, že klinickou smrtí této formy reportingu bude například otázka na počet zákazníků v čase, co utratili alespoň o 20% více než je průměrná objednávka za minulý kvartál a zároveň mají společné to, že prvně tento měsíc koupili produkt "ABC". Pokud by to náhodou vaši programátoři zvládli implementovat, prostřelí si hlavu, pokud jim k tomu doplníte, že chcete jen denní počty TOP 10 zákazníků z každého velkoměsta, kteří splňují předchozí pravidlo. V případě, že máte jen trochu "víc" transakcí, bude to znamenat překopat existující DB na vaší straně a časem to 100% zkolabuje. I pokud to budete držet vší silou při životě, můžete si být jistý, že díky tomu zadek konkurenci nenatrhnete (nulová flexibilita - nebudete schopný ani zlehka točit "analytickým kormidlem", jak bude kolem vás pivotovat trh).

Je možné, že podobné otázky na vaše podnikání nemáte a netrápí vás to. Krutá pravda ale je, že vaše konkurence se na to ptá už teď a vy na to budete muset nějak zareagovat...

Pseudo BI

Excel ani vizualizační nástroje nemají většinou žádný sofistikovaný backend. Podobně jsou na tom služby typu Domo nebo Jolicharts. Na první pohled vypadají super sexy, uvnitř je to ale převlečený soubor vizualizačních nástrojů, občas obalených trochou statistických funkcí, které většinout nepoužijete. Společným jmenovatelem je absence nějakého jazyka, pomocí kterého byste mohli vykročit z přednastavených dashboardů a začít podobné služby implementovat tak, aby vám byly opravdu k užitku. 

Jedinou jejich výhodou je, že se rychle implementují. Bohužel to tím končí a po krátkém opojení přijde vystřízlivění. Pokud jste jen trochu náročnější, nemáte tady šanci na spokojený život. 

Low Level přístup

Existují služby, které vám umožní nahrát data a klást dotazy. Nejvíc "hot" je dneska podle mě Google BigQuery. Pro nás v Keboole je to ohromný pomocník při transformacích dat, denormalizaci a JOINech obrovských tabulek. Pro vás bude sloužit skvěle, pokud vám bude připadat jako dobrý nápad psát tohle:

abyste získali tohle:

Asi je jasné, že pokud se neživíte jako SQL konzultant a nemáte ambice vyrábět vlastní analytickou službu, bude lepší, když tenhle přístup necháte nerdům a budete ladit vlastní business :) 

Cloud BI

Pokud vygooglíte "cloud BI", vrátí vám Google jména jako BirstGoodData, IndiceeJaspersoftMicrostrategyPentaho, aj. (pokud máte mezi výsledkama Zoho Reports, zacyklil se asi vesmír, protože tohle by mělo zůstat v Asii :).

Z mnoha směrů je zřejmé, že "Cloud" hýbe dnešním světem. V ČR je nejčastější obavou při střetu s tímto pojmem strach o data a pocit, že "moje IT" zvládne něco lépe než daný vendor. Pokud trpíte stejnou obavou, vězte, že v případě jakýchkoliv problémů, které v Cloudu mohou nastat, makají nejlepší lidi co na týhle planetě jsou, aby všechno zase šlapalo jako hodinky. Hezky to shrnul Dave Girouard v tomto článku (shodou okolností zároveň board member GoodData). 

Kromě Microstrategy, která Cloud nejspíš objevila dneska dopoledne, jsou výše uvedené značky v Cloudu poměrně zavedené. Pod pokličkou skrývají ale různá překvapení. Pentaho vyžaduje velmi technické znalosti k tomu, aby jej bylo možné ždímat na plný kotel, Jaspersoft je Excel na webu, který se slušně řečeno moc nepovedl, Indicee by si přála hrát první ligu, ale vím minimálně o jednom velkém zákazníkovi z Vancouveru, který po roce snahy naimplmentovat jejich řešení přešel na GoodData, Birst v době kdy jsem jej zkoušel byl celý ve flashi a ani přes velkou snahu jsem to pořádně nepochopil :(

Jak jsem na začátku řekl, všechno kromě GoodData stojí za prd. Důvodů je hned několik:

  1. GoodData má silný jazyk pro definice metrik. Díky tomuto jazyku je možné, aby kdokoliv tvořil reporty, byť budou sebesložitější. To že se reporty pouze "neklikají" je víc než podstatné - dává vám to flexibilitu, kterou budete potřebovat v boji o první místa s vaší konkurencí. Pokud GoodData uspokojí Tomáše Čupra (ex-Slevomat, DámeJídlo.cz), můžete si být jistý, že bude vyhovovat i vám. Na první pohled možná složité konstrukty, se rychle naučíte v Keboola Academy.
  2. GoodData, na rozdíl od své konkurence, disponuje fundamentálně navrženým API rozhraním, díky kterému firmy jako Keboola dokážou celou analytickou platformu ohnout tak, aby hrála první housle ve vašem prostředí. Bezešvá integrace do jiných informačních systémů, white-labeling, single-sign-on nebo framework pro datové extrakce a transformace znamenají, že při implementaci neexistují kompromisy.
  3. GoodData nejsou jen reporty ve webovém prohlížeči, ale celý soubor abstraktně oddělených funkčních vrstev (fyzickým modelem reprezentujícím data počínaje až logickým modelem reprezentujícím business vztahy konče), díky kterým implementace neobsahuje věci jako "průzkum proveditelnosti", "technická specifikace", apod. GoodData se implementuje ve srovnání s konkurencí ohromnou rychlostí (žádné "projekty na dlouhé měsíce").
  4. GoodData má v Brně fantomasovu laboratoř, kde probíhá R&D jehož výstupem jsou inovace, které nevím, jestli můžu dneska veřejně říct. Nicméně s klidným svědomím můžu konstatovat, že se z toho ostatní brzo poserou. Určitě to sem zavčas doplním!

Suma sumárum, kvalitu GoodDaty dokazuje mj. i spousta napojení, včetně třeba Zendesk.com (největší služba pro podporu zákazníků na světě). Schopnost podobné ohebnosti je podle mě úplně nejpodstatnější esencí pro budoucí úspěch. Kdokoliv z vás si může pronajmout nejvýkonější servery, navrhnout super-cool UI, naprogramovat konkrétní statistické funkce (nebo si je třeba půjčit od Google BigQuery), ale v dohledné době nikdo nepřijde s uceleným konceptem, který dává smysl a je použitelný pro malé dashboardíky (máme klienta co v GoodData kouká na pár dat z Facebook Insights) i gigantické projekty s šestimístným $ rozpočtem jen na úvodní fáze implementace. 

GoodData Rocks! 

Howg!

P.S. Zvědavci si mohou pustit veřejné video, kterým otvíráme v Keboola Academy úvodní Business User kurz:


Business User One Star Intro from Keboola Academy on Vimeo.


UPDATE: kupón na 70% slevu pro Keboola Academy (kurzy Business User 1 a Business User 2), platný do konce května 2013 pro prvních 10 lidí: 72b0eb8ede337dcefce2 

GoodData Bootstrap

V Keboole (kromě Keboola Academy a vývoje nástroje na rapid (GoodData) project development) řešíme našim klientům jednu základní otázku: "Jak vydělat víc peněz?". Dnešní svět se točí kolem dat a tak i my, líný kluci, na to jdeme přes data. 

Největší dobrodružství pak začíná na úplném začátku, kdy je potřeba pochopit souvislosti a dát si dohromady obrázek o tom, co klient dělá, protože bez toho nepochopíme jeho data.  

Tady je Vojta v momentě kdy jeho mozek olizuje business vazby nového projektu. Často je to kruciální moment - pokud "to" nesepne, čeká ho následujícíc týdny dost peklo :)

Doporučené čtení: Co vlastně děláme v Keboole?


Letenky do Kanady

V červenci jedeme celá rodina na 2 měsíce do Kanady. Je to poprvé, kdy poletíme i s Terezou (bude jí necelých 5 měsíců) a poprvé, kdy budeme za Káču platit plnou cenu letenky. Tyhle 2 faktory dělají z cesty potenciálně dost drahej a vyčerpávající zážitek. V Kanadě jsou ale spousty pěknejch věcí, včetně kanadskýho kanclu Kebooly, tak nám nezbejvá než zatnout zuby a nějak to dát :-)

Dneska jsem chvíli hledal letenky. Prolezl jsem český weby (pelikan.cz, kralovna.cz, letuska.cz) i cizí weby (orbitz.com, kayak.com, travelocity.com) i přímo některý letecký společnosti (airtransat.com, klm.com). Při skladbě dva dospělý, jedno dítě a jedno mimino jsem narazil na rozptyl ceny od 60.000,- Kč (letuška.cz) až po 102.000,- Kč (klm.com) pro economy třídu. Zkouším i typy kámošů na facebooku, ale protože nemám moc prostor nad tím trávit hodiny, tak jsem zkusil Flightfox.com

Mělo by to fungovat tak, že vložíte poptávku po letenkách a nabídnete cenu (v mém připadě $49), kterou dáte za nalezení nejvhodnější kombinace. Kdokoliv pak může jít a snažit se vám požadovaný let najít. Jsem zvědavej, jak to dopadne, mají na to 24 hodin. 

Zatím mám nabídku, co kopíruje let co jsem našel na Orbitz.com, jen je o $51 levnější. Doufám, že u toho nezůstane, jinak jsem si za $49 "koupil" výhodnější let o $51 - to by mě doma asi nepochválili :)

Keboola Academy

Dneska jsme spustili Keboola Academy.

Pracujeme na tom prakticky od listopadu 2012, kdy jsem na předchůdci dnešní Akademie začal zaučovat Tomáše, který k nám akorát nastoupil do Kebooly. Tehdy jsem pro něj vyráběl hodně hrubý projekt v GoodData.com, ve kterém se měl naučit všechny triky. Navíc bylo skvělé, že to pak Milan obratem použil pro kluky co nastupovali do kanclu v Kanadě.

Celá Keboola Academy dává obrovský smysl firmám, které používají GoodData.com a potřebují, aby jejich zaměstnanci ovládali všechny finesy které tam jsou. Pokud to lidi ve firmách neovládají, zásadně to snižuje potenciál celého řešení. No a naše ambice je tohle řešit. Je to vedle Keboola Connection a práce našich analytiků takový třetí pilíř v našem podnikání. 

Jsem zvědavej, jak se to chytí u klientů. Adam, Jakub, Miro a Tomáš na tom odvedli obrovský kus práce a posunuli to celé přesně tam, kde by to podle mě mělo být. Jediný možný vstup je s použitím Linkedin účtu, platí se přes Stripe, školní projekty dostane člověk téměř na počkání a loguje jej do toho skvělý Single Sign On mechanismus GoodData - celé je to díky tomu co možná nejvíc bezešvé. 

Po úspěšném dokončení konkrétního kurzu pak Keboola Academy přes LinkedIn API doručí patřičný "badge" přímo do vašeho profilu.

Pokud mi napíšete, rád vám dám kupón s 50% slevou, výměnou za feedback. 

Update: Zapoměl jsem poděkovat Martinovi za design a hromadě dalších lidí, kteří nám dělali například beta testing.

Týdenní digest novinek v Keboola Connection #3

Transformation UI

Indexy

Je možné v Input Mappingu říct, jak mají být data v Transformační DB indexovaná. 

Účel: zjednodušit transformaci samotnou, aby nemusela obsahovat SQL ALTERy. Transformation API podporuje indexy přes více sloupců, používejte je! :)


Datové typy

V Input mappingu je možné říct, jak má vypadat tabulka v transformační databázi. Je nutné znát přesné datové typy daného DB backendu! Transformační API pro nás strukturu databáze připraví.

Účel: Není nutné do samotných tranformací přenášet SQL příkazy, které ALTERují cílové tabulky. Je to celé přehlednější a otevírá to možnosti, kdy jedny data máme v transformační DB v různé struktuře (ID může jednou být VARCHAR a jindy UNSIGNED INTEGER). Transformace samotná pak obsahuje jen SQL QUERY, které “přidávají hodnotu”, nikoliv technicky upravují prostředí, aby se dalo dané hodnoty dosáhnout.


Input Optional

Při načítání vstupní tabulky je možné říct, že není nutné, aby existovala.

Účel: Pokud potřebujeme někam odložit data spočítaná v jednom běhu transformace a později je načíst (například při počítání snapshotů a generovnání FULL outputu), je potřeba zajistit, že při první iteraci transformace vstupní tabulka neexistuje (ještě ji transformace nevytvořila). To jak se to bude chovat je nutné pořešit v samotném SQL.


Sandbox

Postupně budeme rušit “sandbox” tak jak jej znáte. Nově bude sandbox fungovat pouze nad konkrétní transformací nebo skupinou transformací. V úplném začátku tvorby projektu si sandbox vyrobíte tak, že jednoduše založíte novou transformaci, dáte jít Input Mapping a pak z ní vyrobíte Sandbox. Sandbox transformace je de-facto normální spuštění ve speciálním módu (Dry-Run / Prepare). Jedna verze pouze připraví prostředí pro aplikaci vašeho SQL (nebo testování SQL), druhá verze navíc aplikuje SQL query, ale nezapíše výstupy zpět do Storage API. V průběhu vyrobení transformačního sandboxu vám Transformační API vyrobí SQL DB a dá k ní vaše vlastní jméno a heslo. V takto vyrobené DB vám data vydrží do dalšího spuštění sandoxu nebo transformace pod vaší vlastním tokenem. Vesnicky řečeno, co token, to právo na jednu databázi (budeme asi rozšiřovat na 2).

Účel: Nemuset lidem vytvářet sandbox credentials a sandbox databáze. O všechno se teď stará naše Provisioning API, které přiděluje transformační databáze ad-hoc. Aktuálně jsou sandboxy a transformace deployovány na cr1.8xlarge serveru.


Filtrování řádků na neexistující hodnoty

Filtrování řádků nově umožňuje negace. Je možné například z tabulky s 40M řádků, plné neregistrovaných úživatelů, vytáhnout pouze ty, co nemají prázdný email.

Účel: Zrychlit a zjednodušit přípravu transformačního prostředí.


Transformation API

Performance Monitoring

Transformační API nově loguje veškeré časy a vyrábí komplexní report v GoodData, který používáme na optimalizaci a validaci celého vákonu KBC. V blízké době budou tyto data dostupná v bucketu sys.logs v každém projektu. 


Orchestrator 2.0

Nový orchestrátor je k dispozici od minulého týdne v produkční verzi ve všech projektech.

Možnost zrušit čekající job

V orchestrátoru jsou vidět naplánované joby, čekající na spuštění. Tyto “waiting” stavy jde zrušit, dřiv než proběhnou.

Účel: Cpt. Obvious :)


Více notifikačních emailů

Chybové notifikace je možné posílat na více než jeden email. Do vstupního pole se zadávají další emaily oddělené čárkou.

Účel: Cpt. Obvious :)


Keboola Academy

Na adrese https://academy.keboola.com/ spouštíme tento týden (konečně!:) Online školení zaměřené na GoodData uživatele. Akademie je zaměřená na role Business User, Report Master a Solution Architect

Všechny kurzy jsou “hands-on”, doplněné perfektníma videotutoriálama. V obsahu kurzů jsou promítnuté stovky hodin našich zkušeností. Makáme na tom od konce prosince 2012, doufám, že budeme moct vaše LinkedIn profily brzo ocenit badgema! 

Účel: Zvýšit hodnotu GoodData projektu. Čím víc lidí u klienta GoodData ovládá, tím lépe je využita investice do celého BI projektu. 


Konec

-Petr