Zeman & Pražský Majdan

Facebookem se šíří zděšení ze Zemanova slovníku. Zbytečný brečet nad rozlitým mlékem...

Místo resharů prezidentských vulgarismů skočte o víkendu na Staromák, kde jede akce Pražský Majdan. Mimo jiné tam můžete podepsat petici proti Zemanovi ("Zeman - putinova loutka") - přijde mi to jako vkusné vyjádření odporu, když volby jsou daleko. Jasný, prdelní lízačku v čínský televizi (záznam na youtube, článek na novinky.cz) nebo jiný jeho vesnický manýry to úplně nekompenzuje, ale lepší než fňukat po sociálních sítích, kde zemanova držka soupeří o emoce s uřezanejma hlavama a opuštěným kanárkem v Dalasu.

Jsem hrdej na Erika, kterej tam každý víkend pomáháním vyjadřuje odpor proti tomu co my ostatní zvládáme jen kritizovat z tepla obyváků. O solidaritě s jeho kámošema už vůbec nemluvím... Klobouk dolů, vydržel jsem tam hodinu a solidně jsem mrznul. 

Tady si můžete přečíst o čem Pražský Majdan je. "Jak pomoci Majdanu" najdete tady.

Google BigQuery workshop s Felipe Hoffa

Včera odpoledne pod taktovkou Felipe Hoffa proběhl workshop na téma “Google BigQuery”. Sešlo se tam asi 15 lidí, které na CZ trhu BigQuery láká. Felipe, jako Google Developer Advocate stručně proskákal historii zpracování velkých dat v Google - počínaje MapReduce v roce 2004, přes white paper Dremelu, konče dnešním BigQuery.

Je evidentní, že do toho Google masivně šlape a nechává konkurenci pěkných pár let za sebou. Pro běžného smrtelníka je BigQuery nejdostupnějším nástrojem na zpracování velkých dat na trhu, přičemž Felipe zmínil usecase australského telco operátora Telstra, který v BigQuery zpracovává logy, ze kterých extrahuje eventy - což do té byl schopen dělat pouze nad 1% svých dat.


Jedenáct věcí, co stojí za vypíchnutí:
  • Nová cenová politka - jak objem zpracovaných dat, tak samotné úložiště masivně zlevnilo 

  • Vysvětlení, jak fungují JOIN EACH a GROUP EACH BY (Shuffler nody zpětnovazebně zapojují zpracovaná data zpět na Leaf nody) 

  • Možnost v reálném čase dělat dotazy na data, která se do BigQuery streamují. Limit na stream je 100.000 řádků / sec proti jedné tabulce. Google to řeší oddělením streamovaných dat od standardně naloadovaných CSV/JSON (které se musejí přeparsovat pro sloupcové uložení) 
  • Překvapila me nativní podpora pro dělání kartézských součinů. Nevím proč, ale jsem zvyklý, že se jim chce člověk vyhnout. BigQuery má na to nově CROSS JOIN. 
  • Konektory k BigQuery. Co si nejsem jistý, jestli spojení BigQuery a Hadoopu implikuje kopírování dat “pryč” nebo se MapReduce joby spouští přímo v BQ. Super mi přijde, že v případě že si platíte Google Analytics Premium, můžete traffic data exportovat v jejich nejnižší granularitě do BigQuery a dotazovat se jich jako SQL databáze. 

  • BigQuery bude brzo podporovat uživatelské funkce, napsané v Javascriptu!
  • Felipe aktivně skáče kolem Reddit skupiny, kam dává cokoliv zajímavého kolem něj projde. Jiný jeho kámoš provozuje http://bigqueri.es/, kde jsou příklady dotazů a sample data. 
  • Pěkný příklad korelace: Které letiště umí lépe předpovědět lety z NY 

SELECT a.departure_state, b.departure_state, corr(a.avg, b.avg) corr, COUNT(*) c FROM (SELECT date, departure_state, AVG(departure_delay) avg , COUNT(*) c FROM [bigquery-samples:airline_ontime_data.flights] WHERE departure_state = 'NY' GROUP BY 1,2 HAVING c > 5 ) a JOIN (SELECT DATE(DATE_ADD(timestamp(date), 1, 'DAY')) date, departure_state , AVG(departure_delay) avg, COUNT(*) c FROM [bigquery-samples:airline_ontime_data.flights] GROUP BY 1,2 HAVING c > 5  ) b ON a.date=b.date GROUP EACH BY 1, 2 HAVING c > 5 ORDER BY corr DESC; 

  • Existuje projekt http://gdeltproject.org/, který od roku 1979 denně mapuje všechny země na světě (broadcastované zprávy, tištěné média, online deníky,…). Sleduje tak vztahy ve společnosti (s podporou 100 jazyků). V BigQuery je jako public dataset o objemu 90GB. Dataset najdete tady: https://bigquery.cloud.google.com/table/gdelt-bq:full.events. Je skvěle anotovaný a výborně se hodí na hraní. Tady je příklad, který ukazuje rok za rokem vztahy čechů a okolních států, podle zaznamenaných událostí: 

SELECT Year, Actor1Name, Actor2Name, c FROM  (SELECT Actor1Name, Actor2Name, Year, COUNT(*) c, RANK() OVER(PARTITION BY YEAR ORDER BY c DESC) rank FROM (SELECT REGEXP_REPLACE(Actor1Name, "CZECH REPUBLIC", "CZECH") Actor1Name, REGEXP_REPLACE(Actor2Name, "CZECH REPUBLIC", "CZECH") Actor2Name,  Year FROM [gdelt-bq:full.events] WHERE Actor1Name < Actor2Name), (SELECT REGEXP_REPLACE(Actor2Name, "CZECH REPUBLIC", "CZECH") Actor1Name, REGEXP_REPLACE(Actor1Name, "CZECH REPUBLIC", "CZECH") Actor2Name, Year FROM [gdelt-bq:full.events] WHERE Actor1Name > Actor2Name), WHERE Actor1Name IS NOT null AND Actor2Name IS NOT null AND (REGEXP_MATCH(Actor1Name+Actor2Name, 'CZECH')) AND Actor1Name != Actor2Name GROUP EACH BY 1, 2, 3 HAVING c > 100) WHERE rank=1 ORDER BY Year;

  • Existuje rozšíření do Chrome, které umožnuje výsledky rychle vykreslit do grafů, počítá cenu dotazu, konvertuje timestampy, apod. 
  • V kanclu Google jsou na záchodě kartáčky na zuby 

Na závěr se nejaktivnější účastníci z Netmailu vyfotili 

a rozproudila se diskuse. V podvečer měl pak Felipe přednášku na FELu. Na to, že akorát přiletěl a měl jetlag, je dost hustej! :-)

Většina lidí bude jednou bez práce

Na Šumavě, kousek od Modravy směrem na Antýgl, je parkoviště, kde postavili parkovací automat do staré dřevěné budky, ve které ještě nedávno sedával člověk, vybírající parkovné.

Tahle budka, ve které elektronický automat doslova zasedl židli "dědovi z vedlejší vesnice", na mě křičí jediné: inovace vede k záhubě existujících obchodních modelů. Nemá cenu bojovat za snižování nezaměstnanosti, protože nezaměstnanost bude normální. Nebude práce, převezmou ji stroje. Lidi budou dělat jen tam, kde jiný lidi chtějí potkávat lidi (baristi v kavárně budou ještě chvilku v bezpečí :-) a nebo kde ještě není dost efektivní nasadit techniku. Zhroutí se existující model, ve kterém získáváme za práci peníze, které utrácíme za cizí práci. 

Dva modely, stojící na předpokladu, že práce opravdu není, všichni jen konzumují: Pracují roboti, kteří potřebují jen energii, tu vyrábí elektrárny ve kterých pracují opět jen roboti. Roboti se porouchávají, ale opravují/vyměňují je opět jen roboti. Pro lidi zbyla jen "zábava". Produkce potravin, distribuce zboží, doprava lidí, školní systém (co se bude učit když nebude profesní uplatnění?), zdravotnictví, 99% zábavy, atd... všechno zajišťují roboti. Lidi jsou jen od toho, aby měli kámoše, s nima se bavili, množili se, atd... (omfg!).

  1. každý vlastní jednoho či více robotů, kteří makají za něho samého, tihle roboti vydělávají peníze pro svého majitele; stávající ekonomické modely de-facto fungují bez zásadních úprav - jen za kždého maká technické alter ego.
  2. roboti patří státu na jehož území operují, jakoby za ně nikdo neplatí, systém je samosvorný (jediný vstupní prvek je energie a materiál). Obchoduje se primárně se surovinama typu chemické prvky a "endemitní" potraviny (mořské ryby se dál musí vozit do vnitrozemí). Lidi objektivně nemají kde získávat peníze - nemakaj - ale přetrvává potřeba "za něco si kupovat zboží a služby". Státy za tímhle účelem primárně přerozdělují "kredity" (peníze?), na kterých vznikne paralelní ekonomika - něco jako gambling. Lidi budou v téhle paralelní ekonomice dělat voloviny a za ně si měnit kredity. Tohle bude prostor, kde vynikne podnikavost, která v primární robo-ekonomice bude zabitá (nemůžu vyniknout jako šikovnej stavbyvedoucí, protože tohle pracovní místo neexistuje). Svět jak ho známe, bude z makroekonomického hlediska nefunkční. 

Co se stane s duševním vlastnictvím? Jak na tom bude majitel licence na tyhle roboty? 

Ponaučení: každá práce musí buď produkovat šťastné lidi (baristi) a nebo směřovat k ničení jiných pracovních míst (inovátoři robotů). Kdo svojí prací neprodukuje (alespoň nepřímo) nezaměstnané, je v tomhle světě ohrožený (hlídač parkoviště, pokladní v TESCO).


The Stoveman

V Keboole se potkáváme se spoustou firem, které se musí (obrazně řečeno) svléknout do naha, abysme jim mohli pomoct s jejich daty. Pokud na začátku nepochopíme princip na jakém zákazník vydělává peníze, je zbytek naší práce na tenkém ledě. Tímhle způsobem se dostáváme ke spoustě podnikatelských "příběhů".

Nedávno jsem narazil na The Paradigm Project, který se zabývá prodejem kamen do Afriky. Ve skutečnosti jde o kamna na vaření - takže spíš sporáky - ale "kamna v Africe" zní trošku šílenějc :) Podstatné na tom sporáku je, že je na dřevo a je hodně účinný.

Proč v Africe někdo kupuje právě tyhle sporáky? Odpověď je jednoduchá: pokud je sporák účinný, spotřebuje méně dřeva, takže kdo na něm vaří, tráví méně času sbíráním klacků. Účinný sporák šetří čas (peníze) při obstarávání paliva, produkuje méně splodin (meně respiračních problémů = lepší zdraví = peníze) a snižuje počet pokácených stromů.

Dobročinný projekt z kategorie "stavíme školu pro děti"? To si ale neřekli lidi co to tlačí dopředu a vymysleli kolem toho super business model. 

Dobře fungující sporák má menší splodiny než otevřený oheň. Pokud si to necháte spočítat a auditovat, můžete prohlásit, že vaše aktivita snižuje emise CO2 a tím začít generovat karbonové ofsety. Tyhle offsety se dají prodat firmám, které produkují nadměrné množství emisí. Je to docela bizzare business, kolem kterého se točí nejvyfešákovanější konzultanti typu PwC. Mrkněte se na téma "carbon asset management". Existují docela úchylný negativní příklady, kdy třeba čínská firma vyrábějící chladiva vygenerovala $500M v carbon offsetech tím, že instalovala spalovací zařízení za $5M. Takhle velký profit vede k rozšiřování továren jen za účelem generování offsetů, což podrejvá celej systém a trochu to vypadá jako nápad z českýho parlamentu :-)

Naštěstí Africký offsety tímhle moc netrpí. The Paradigm Project sporáky prodává hodně levně (pár dolarů), má síť obchodníků, kteří používají CRM systém komunikující přes SMSky (Afrika = mizerná infrastruktura), prodej pod cenou kompenzuje příjem z offsetů a dotacema od veřejnosti (víc o modelu).

Osobně se mi to moc líbí! Máte nějaký tipy na jiné business modely, které nejsou úplně běžné a prvoplánovité?

"The Stoveman" trailer:


Mapy

Mapování okolí patří mezi základní lidské potřeby. Co je zmapované, působí bezpečně. Mapa nám popisuje souvislosti světa, který nás obklopuje, bez mapy nejde najít cestu v neznámém prostředí. Mapa je life-saver!

BC

Mapy se ryly do kamene, uhlem do vydělané kůže nebo třeba později kreslili tuší do papyru. Díky mapám se dokážeme orientovat v prostředí, ve kterém se pohybujeme. 

Potřeba mapovat okolí byla v lidech od pradávna. Pokud nebylo možné mapu nakreslit, hledali jiné formy, jak ji zaznamenat. 

Úplně nejstarší snahu zmapovat svět jsem našel u australských domorodců, kteří přišli z Afriky do Asie kolem roku 70.000 před Kristem a z Asie pak do Austrálie kolem roku 50.000 před Kristem. Aboriginals věřili, že svět byl na počátku plochý. Tuto dobu nazývali "sněním". Podle nich se v této ploché krajině začali vynořovat mýtické bytosti, které dovedli krajinu přeměňovat zpěvem. Písně formovaly prostředí a daly vzniknout dnešní podobě světa. 


Mýty byly pro domorodce inspirací; sami začali písně používat k orientaci v krajině, písně byly jejich mapou. Zpívali o krajině, o tom kde je voda, bažina, údolí - ve slokách popisovali cestu. Zpěvem vytyčené cesty nazývali "songlines". Pokud někdo chtěl jít přes sedmero kopců a sedmero údolí, stačilo se našrotit 4 denní písničku a pak ji precizně za pochodu zpívat :)

AD

Zakreslené mapy byly dlouhou dobu hodně srandovní. Většinou je dělal nějaký umělec, který prostě nakreslil, co viděl. Taková mapa nebyla úplně vhodná k seriózní orientaci, a kdo se na ni spolehl, často se ztratil a nikdy ho už nikdo neviděl.


Změna přišla ve Francii po roce 1663 za vlády Ludvíka XIV. 

Francie v té době byla rozdělena na spousty regionů, které měly každý vlastní dialekt a samosprávu. Ludvík XIV. tehdy rozjel úctyhodný projekt - zmapovat celou zemi

Na tento nelehký úkol najal může jménem César-François Cassini de Thury. Cassini byl první, kdo při kreslení map uplatnil znalosti z astronomie a hlavně dovedl správně změřit zeměpisnou délku. 19 let pak trvalo, než Cassini se svým týmem zakreslil přesný tvar francouzského pobřeží. 


Když byly hranice Francie hotové a ukázali je králi, byl zděšen! Francie podle Cassiniho měla dramaticky jiný tvar pobřeží a byla o 20% menší než na všech předchozích mapách. Nicméně Cassini pracoval ve francouzské akademii věd a jeho mapa byla opravdu pečlivě zpracovaná. Ludvík ji právem považoval za to nejlepší, co může mít.

Když bylo hotové pobřeží, pustil se Cassini do mapování vnitřního území. Jediná tehdy dostupná metoda jak sestavit mapu, byla triangulace. Cassini celou zemi rozdělil na malé trojúhelníky, jejichž základny přesně změřili 4m pravítkem a zbylá ramena dopočítali přes úhly spolu svírající.  

Při měření základny každého trojúhelníku bylo nutné srovnat povrch do absolutní roviny. Byla to mravenčí práce! Obrovská ambice, která ale transformovala celou zemi. 

Do té doby byla Francie kolekcí regionů s vlastní identitou, stovky dialektů, lokálních zájmů, aj. Mapováním se tyhle regiony dávaly pomalu dohromady na jednu mapu. Práci na mapě oddali svoje životy 4 generace rodiny Cassiniů. Hotovo to měli v roce 1789, za vlády Ludvíka XVI. Celá práce trvala 126 let!


Mapa byla revolučním počinem. Všechny listy mapy měly jednotné symboly, popisky, jazyk pařížské francouzštiny - vše bylo standardizováno, napříč celou mapou. Byla to mapa pro Krále! Mapa, která centralizovala podobu Francie a umožnila mnoho různých regionů spojit do jednoho obrazu francouzského národa. Lidé se mohli identifikovat skrz jednu mapu - poprvé se tak umocnila jejich identita.

Po revoluci byla mapa základem pro administrativní změny Francie. Na základě Cassiniho mapy vznikly nové administrativní regiony, které jsou používané dodnes.

Mapy provázejí lidstvo po desítky tisíc let. Neobejde se bez nich jakékoliv plánování či strategické rozhodování. 


"Happy Mapping", ať už to bude o čemkoliv!

Legenda:

  • mapované území = firma
  • regiony s vlastní identitou = finance o patro nahoře, IT ve sklepě, sales ve vedlejší budově
  • mapa = GoodData dashboard
  • orientace v prostoru = BI

A teď si to přečteme ještě jednou v novém kontextu :)


(fotky: wikipedia a creative common z http://www.flickr.com/photos/wien/5907435455/)

Data orgasmus, Miloš Endrle a StartupYard 2013

Skoro přesně před rokem mě Jarda Gergic seznámil s Milošem Endrlem. Do Miloše jsem se zamiloval "na první dobrou". Dodnes vzpomínám jak mě zaujalo jejich hackování Google Analytics, aby z nich získávali agregované eventy z her. Pokud mě pamět neklame, vypálili tím trochu rybník Kontagentu, který se tehdá nějak specializoval na "gaming analytics". 

Minulý pátek mě zatáhl Miloš do novýho Geewa kanclu. Povídali jsme si o jejich krutopřísný infrastruktuře zpracovávající stovky milionů eventů v reálném čase!

Poslouchat Miloše je něco jako bavit se s Michalem Buzkem ze Seznamu - oba mají nadání koukat na surový data, mluvit o jejich transformacích a přitom ale ve stejnou chvíli přemýšlet o hodnotě informací, které z toho vypadnou. S lehkou nadsázkou jde říct, že povídání si o jejich dashboardech je takový "data orgasmus".

Miloš je mentorem ve StartupYardu. Tam potkal "šílenost" HowDoI, za kterou stojí Lukáš Haraga. Miloš Lukášovi jeho startup asi dost disassembloval, aby to pak spolu poskládali znovu. Myslím, že se zadařilo...

Aircharts.co

Ten samý pátek do Geewa kanclu dorazil Lukáš a asi 2 hodiny jsme si spolu povídali o jejich pivotu. Lukášův startup se teď nově jmenuje Air Charts a má za cíl prezentovat (business) informace ve správnou chvíli na správném místě. 

Mají hotový prototyp, který v reálném čase nasává data z Google Analytics a ze sociálních sítí. Tyhle "traffic" data mashuje a výsledky ukazuje na webu v takové transparentní vrstvě - přesně to co potřebujete vědět, přesně tam kde to má být. 

Z toho se ještě na zadek neposadíte, ale představte si, že jste nákupčí v Alza.cz a na webu vidíte u konkrétní sekce (třeba brašny na notebooky) kolik se za posledních 7 dní utratilo za Sklik kampaně, jaký byly cíle v Google Analytics a kolik lidí vrátilo zboží do 14 dnů. Tyhle vratky pak můžete řezat podle nějakých behaviorálních parametrů vztažených k Sklik leadům. To je  kruciální vlastnost - bezešvá integrace analytiky (externí a interní data) pro obchodníky a marketéry, prezentovaná "jakoby mimoděk".

Úspěch Aircharts bude podle mě spočívat v tom, jak dobře se jim podaří celou věc domyslet a nepřekombinovat. Na takto odlehčeném dashboardu nesmí být bordel. Přirovnal bych to ke kokpitu F-22 Raptor za $350M - když je potřeba střílet, nezajímáte se o objem metanu v prdech odsátých z vaší sedačky... (pokorně předpokládám, že letadlo za takový prachy umí odsávat prdy)

Zajímavé bude sledovat, co na to lokální CZ investoři. Mám tak nějak nepodložený pocit, že většinou neumějí pustit kačku, aniž má projekt zákazníkem zvalidované MVP. Skromně bych tady konstatoval, že jakmile to kluci zvalidují, nebude snadné se jim vetřít do přízně. Proč? Protože:

Při psaní jsem poslouchal 112 od Martina Halamíčka. Potěší mě, když mi tweetnete tipy na další hudbu!

Největší účetní skandál z roku 2011

Největší účetní skandál z roku 2011 dorazil i na české billboardy:

18. srpna 2011 koupilo HP firmu Autonomy (wiki) za 11.3 miliardy USD. O rok později odepsalo 8.8 miliardy USD z hodnoty Autonomy a označilo to jako účetní skandál (zdroj).

Přesto všechno je Autonomy hodně zajímavá firma. Jejich hlavní technologie se jmenuje "Intelligent Data Operating Layer" (IDOL) a používá se na porozumění nestrukturovaného textu. Autonomy je díky tomu jedím z průkopníků tzv. "Meaning Based Computingu" (MBC).

Mnoho lidí to neví, ale v ČR používá Autonomy firma Capta Works, která nad tím postavila řešení, jenž Wunderman (resp. KBMG) prodává jako WLIP. Loni jsem na SMS řekl (12:45), že WLIP je lepší než Ataxo Social Insider - tak teď víte proč: Autonomy backend je ten hlavní důvod.