Trocha čísel z backendu

Kouk jsem se dneska na to, kolik dat držíme a zpracováváme v Keboola Connection. Nejsou to žádný ultra objemy, ale když si uvědomíme, že jsou to primárně čistý obchodní informace našich klientů (transakce a číselníky), je to docela dost. Nepočítám do toho náma vygenerovaný logy a eventy, popisující provozní parametry, ani zálohy a podobné věci. 

Vzal jsem v úvahu období od začátku minulého měsíce do včerejška, čísla jsou vždy agregovaná za jeden konkrétní nejaktivnější den:

  • Počet operací proti Storage API: 37.689
  • Objem přijatých dat: 26.5 GB
  • Objem odeslaných dat: 33.5 GB
  • Čas strávený obohacováním dat: 1.992.890 sec (23 dní!)

A ještě 3 celkové statistiky k dnešnímu dni:

  • Celkový objem držených (živých) dat: 1.3TB 
  • Počet všech řádků : 6 miliard
  • 5 nejčastějších chyb v API: 
    • nesedící struktura dat při importu od klienta
    • validace obsahu tabulky
    • nepovolený přístup
    • překročený počet povolených indexů
    • cílová tabulka nenalezena

A stupínek vítězů pro technologie, které se na tom podílí?

  1. místo určitě stále zastávají Amazon RDS (MySQL) servery
  2. místo nově zabral Amazon Redshift
  3. místo zabírají (měřeno přes palec) Google BigQuery, HP Vertica + R a Amazon CloudSeach

Minulý týden jsme ale měli "IT party" s Karlem Minaříkem a myslím, že Amazon CloudSearch brzo vystřídá ElasticSearch. V kostech cítím, že v tom leží budoucnost. Tlak na co největší rychlost a JSON všude kam se podíváš - trend je jasnej :-)

HR okénko:

Sháním někoho se zkušeností s AWS Data Pipeline a/nebo AWS SWF. Pokud nikdo takový neexistuje :), hledám nadšence, co si s tím pro Keboolu zaexperimentuje. Kontakt nejlépe v komentářích nebo emailem na petr@keboola.com.