Dnešní doba je přesycená daty. Vyprávět o datech začíná být tak sexy, že si na tom každý druhý staví kariéru. Dokonce i v ČR pár semi-expertů převlíklo kabáty a začalo mluvit o BigData (v horším případě na tohle téma dokonce pořádají konference). Já si tohle téma schovám na pozdější blogpost, ve kterém to "hadoop nadšení" trochu posadím nohama na zem.
Lidi chtějí znát víc informací o prostředí ve kterém se pohybují. Pomáhá jim to lépe se rozhodovat, což většinou vede ke konkurenční výhodě. Obecně platí, že k dobrému rozhodování potřebujeme kombinaci tří věci: správné vstupní parametry (informace/data), selský rozum / zkušenost a špetku štěstí. Blbec bude dál blbej, "štěstí" se v ČR dá občas koupit, ale hrozí že vás zavřou za uplácení. A tak nejvíce ovlivnitelná složka úspěchu zůstávají informace. Na "hřišti" kde se pohybuju si pod správnou informací představte odpovědi na ty nejzvídavější otázky, co vás napadnou.
Předpokládám, že každý z vás ví, kolik má na svém osobním účtě v bance k dispozici peněz. Většina taky bude vědět, kolik asi peněz měsíčně utratí. Méně z vás bude přesně vědět, za co ty peníze utrácí. Ještě menší skupina lidí bude znát strukturu všech kafíček, zmrzlin, vín, obědů, atd. (říkáme tomu "long tail"). Skoro bych se vsadil, že nikdo neví, jaký je jeho osobní meziroční trend ve skladbě nákladů takovéhoto longtailu. Asi namítnete, že vás to nezajímá. Pokud jste ale firma, která chce uspět, neobejdete se bez podobných informací. Co se osobního života týče, je podle mě největší magor Stephen Wolfram, který si od roku 1990 měří téměř všechno. Jen o žmolcích z pupku zatím nepíše téměř nic (na rozdíl od Grahama Barkera :)
Protože po zprávách v TV večer nedávají "executive summary" z vašeho účetnictví, crm, google analytics a social sítí, jste nakonec nuceni si budovat různé varianty reportů a dashboardů sami.
Zkusím tu sesumírovat nástroje o kterých vím, že jsou k dispozici, ale nakonec vám řeknu, že je to všechno jen taková plynová pistolka a kdo chce pořádnej data gun, musí sáhnout po GoodData. Abych byl fér, budu se snažit i trochu argumentovat :)
Excel
Excel je dnes na každém rohu. Je dobrý pomocník, ale dost lidí má podivnou tendenci dělat ze sebe Excel Inženýry, což je nejvíc nebezpečná odbornost, na jakou můžete narazit. Takový Excel Inženýr často končí u kontingenční tabulky a vzorečku SUMIF(). Přitom má na sebe navázané "zpracování firemních dat" a snad nevědomky se stává brzdou pokroku. Největší rizika reportingu v Excelu podle mě jsou následující:
- v excelech se drží primární data, ze kterých se reporty dělají, tyto data do excelů někdo někdy naimportoval - špatně/draze se to aktualizuje
- excely mají tendenci putovat "korporátníma outlookama", díky čemuž vznikají různé verze; často se hodí YDT % o kousek změnit, případně se snadno stane, že vedlejší oddělení má stejný excel, ale s jinými čísly - sráží to důvěru v reporty a umožňuje to snadno zkreslit realitu
- složitější věci je nutné chtít po reportovacím oddělení (jen oni umějí aktualizovat data - viz bod 1.), kde odborníci na excel vyrábějí odpovědi na business otázky, kterým né vždy rozumí - často se stává, že ad-hoc odpovědi na vaše ad-hoc hypotézy vznikají dlouhé dny (nastává vyhoření zadavatele)
- do excelů se kombinacema ručních operací a maker co vyrobil "ten co tu už nedělá" vnáší chyby, díky kterým kolabuje kosmír!!
Je asi jasné, že excelový reporting by měl končit na úrovni živnostníka. Efektivně s ním nejde dělat nic seriozního. Můžete si být jistý, že excely co jsou na "zetku" (síťový disk přece!) obsahují chyby, nejsou aktuální a byly vyrobeny lidma, kterým to někdo zadal, takže věděli prd o podstatě dat, které do toho VLOOKUPu zapojili. Excel Inženýr většinou nemá v genech dělat "data discovery" a i kdyby na něco zajímavého narazil, asi si toho nevšimne. Co je v danou chvíli správná informace poznáte nejlépe vy sami (a excel opravdu není to, co byste měli v roce 2013 ovládat na úrovni VBS maker a dirty hacků)!
Vizualizace
Dnešní trh je přesycený nástroji, které mají za cíl pomoct vizualizovat nějakou business informaci. Pod tím si představte třeba počet objednávek za dnešní den, čistou marži za poslední hodinu, průměrný zisk na jednoho uživatele, aj. V drtivé většině případů to funguje tak, že si u sebe tuhle "informaci" spočítáte a přes nějaké rozhraní to automaticky posíláte dané službě, která se stará o prezentování dané metriky. Příkladem takových služeb může být například Mixpanel, KissMetrics, StatHat, GeckoBoard nebo třeba KlipFolio. Výhoda oproti Excelu je hlavně v tom, že se reporty a dashboardy dají snadno automatizovat a následně sdílet. Sdílení informací je dost podceňované! Příkladem takto vizualizované informace může být počet datových transformací, které jsou v minutové granularitě spouštěny v našem staging layeru:
Z takovýchto reportů si poskládáte Dashboardy a chvíli budete mít dobrý pocit. Problém nastane v momentě, kdy zjistíte, že každé rozšíření takového dashboardu vyžaduje tím složitější zásah od vašich programátorů, čím složitější jsou vaše otázky. Pokud děláte v B2C a máte transakční data, můžete si být jistý, že klinickou smrtí této formy reportingu bude například otázka na počet zákazníků v čase, co utratili alespoň o 20% více než je průměrná objednávka za minulý kvartál a zároveň mají společné to, že prvně tento měsíc koupili produkt "ABC". Pokud by to náhodou vaši programátoři zvládli implementovat, prostřelí si hlavu, pokud jim k tomu doplníte, že chcete jen denní počty TOP 10 zákazníků z každého velkoměsta, kteří splňují předchozí pravidlo. V případě, že máte jen trochu "víc" transakcí, bude to znamenat překopat existující DB na vaší straně a časem to 100% zkolabuje. I pokud to budete držet vší silou při životě, můžete si být jistý, že díky tomu zadek konkurenci nenatrhnete (nulová flexibilita - nebudete schopný ani zlehka točit "analytickým kormidlem", jak bude kolem vás pivotovat trh).
Je možné, že podobné otázky na vaše podnikání nemáte a netrápí vás to. Krutá pravda ale je, že vaše konkurence se na to ptá už teď a vy na to budete muset nějak zareagovat...
Pseudo BI
Excel ani vizualizační nástroje nemají většinou žádný sofistikovaný backend. Podobně jsou na tom služby typu Domo nebo Jolicharts. Na první pohled vypadají super sexy, uvnitř je to ale převlečený soubor vizualizačních nástrojů, občas obalených trochou statistických funkcí, které většinout nepoužijete. Společným jmenovatelem je absence nějakého jazyka, pomocí kterého byste mohli vykročit z přednastavených dashboardů a začít podobné služby implementovat tak, aby vám byly opravdu k užitku.
Jedinou jejich výhodou je, že se rychle implementují. Bohužel to tím končí a po krátkém opojení přijde vystřízlivění. Pokud jste jen trochu náročnější, nemáte tady šanci na spokojený život.
Low Level přístup
Existují služby, které vám umožní nahrát data a klást dotazy. Nejvíc "hot" je dneska podle mě Google BigQuery. Pro nás v Keboole je to ohromný pomocník při transformacích dat, denormalizaci a JOINech obrovských tabulek. Pro vás bude sloužit skvěle, pokud vám bude připadat jako dobrý nápad psát tohle:
abyste získali tohle:
Asi je jasné, že pokud se neživíte jako SQL konzultant a nemáte ambice vyrábět vlastní analytickou službu, bude lepší, když tenhle přístup necháte nerdům a budete ladit vlastní business :)
Cloud BI
Pokud vygooglíte "cloud BI", vrátí vám Google jména jako Birst, GoodData, Indicee, Jaspersoft, Microstrategy, Pentaho, aj. (pokud máte mezi výsledkama Zoho Reports, zacyklil se asi vesmír, protože tohle by mělo zůstat v Asii :).
Z mnoha směrů je zřejmé, že "Cloud" hýbe dnešním světem. V ČR je nejčastější obavou při střetu s tímto pojmem strach o data a pocit, že "moje IT" zvládne něco lépe než daný vendor. Pokud trpíte stejnou obavou, vězte, že v případě jakýchkoliv problémů, které v Cloudu mohou nastat, makají nejlepší lidi co na týhle planetě jsou, aby všechno zase šlapalo jako hodinky. Hezky to shrnul Dave Girouard v tomto článku (shodou okolností zároveň board member GoodData).
Kromě Microstrategy, která Cloud nejspíš objevila dneska dopoledne, jsou výše uvedené značky v Cloudu poměrně zavedené. Pod pokličkou skrývají ale různá překvapení. Pentaho vyžaduje velmi technické znalosti k tomu, aby jej bylo možné ždímat na plný kotel, Jaspersoft je Excel na webu, který se slušně řečeno moc nepovedl, Indicee by si přála hrát první ligu, ale vím minimálně o jednom velkém zákazníkovi z Vancouveru, který po roce snahy naimplmentovat jejich řešení přešel na GoodData, Birst v době kdy jsem jej zkoušel byl celý ve flashi a ani přes velkou snahu jsem to pořádně nepochopil :(
Jak jsem na začátku řekl, všechno kromě GoodData stojí za prd. Důvodů je hned několik:
- GoodData má silný jazyk pro definice metrik. Díky tomuto jazyku je možné, aby kdokoliv tvořil reporty, byť budou sebesložitější. To že se reporty pouze "neklikají" je víc než podstatné - dává vám to flexibilitu, kterou budete potřebovat v boji o první místa s vaší konkurencí. Pokud GoodData uspokojí Tomáše Čupra (ex-Slevomat, DámeJídlo.cz), můžete si být jistý, že bude vyhovovat i vám. Na první pohled možná složité konstrukty, se rychle naučíte v Keboola Academy.
- GoodData, na rozdíl od své konkurence, disponuje fundamentálně navrženým API rozhraním, díky kterému firmy jako Keboola dokážou celou analytickou platformu ohnout tak, aby hrála první housle ve vašem prostředí. Bezešvá integrace do jiných informačních systémů, white-labeling, single-sign-on nebo framework pro datové extrakce a transformace znamenají, že při implementaci neexistují kompromisy.
- GoodData nejsou jen reporty ve webovém prohlížeči, ale celý soubor abstraktně oddělených funkčních vrstev (fyzickým modelem reprezentujícím data počínaje až logickým modelem reprezentujícím business vztahy konče), díky kterým implementace neobsahuje věci jako "průzkum proveditelnosti", "technická specifikace", apod. GoodData se implementuje ve srovnání s konkurencí ohromnou rychlostí (žádné "projekty na dlouhé měsíce").
- GoodData má v Brně fantomasovu laboratoř, kde probíhá R&D jehož výstupem jsou inovace, které nevím, jestli můžu dneska veřejně říct. Nicméně s klidným svědomím můžu konstatovat, že se z toho ostatní brzo poserou. Určitě to sem zavčas doplním!
Suma sumárum, kvalitu GoodDaty dokazuje mj. i spousta napojení, včetně třeba Zendesk.com (největší služba pro podporu zákazníků na světě). Schopnost podobné ohebnosti je podle mě úplně nejpodstatnější esencí pro budoucí úspěch. Kdokoliv z vás si může pronajmout nejvýkonější servery, navrhnout super-cool UI, naprogramovat konkrétní statistické funkce (nebo si je třeba půjčit od Google BigQuery), ale v dohledné době nikdo nepřijde s uceleným konceptem, který dává smysl a je použitelný pro malé dashboardíky (máme klienta co v GoodData kouká na pár dat z Facebook Insights) i gigantické projekty s šestimístným $ rozpočtem jen na úvodní fáze implementace.
GoodData Rocks!
Howg!
P.S. Zvědavci si mohou pustit veřejné video, kterým otvíráme v Keboola Academy úvodní Business User kurz:
Business User One Star Intro from Keboola Academy on Vimeo.
UPDATE: kupón na 70% slevu pro Keboola Academy (kurzy Business User 1 a Business User 2), platný do konce května 2013 pro prvních 10 lidí: 72b0eb8ede337dcefce2