Kouk jsem se dneska na to, kolik dat držíme a zpracováváme v Keboola Connection. Nejsou to žádný ultra objemy, ale když si uvědomíme, že jsou to primárně čistý obchodní informace našich klientů (transakce a číselníky), je to docela dost. Nepočítám do toho náma vygenerovaný logy a eventy, popisující provozní parametry, ani zálohy a podobné věci.
Vzal jsem v úvahu období od začátku minulého měsíce do včerejška, čísla jsou vždy agregovaná za jeden konkrétní nejaktivnější den:
- Počet operací proti Storage API: 37.689
- Objem přijatých dat: 26.5 GB
- Objem odeslaných dat: 33.5 GB
- Čas strávený obohacováním dat: 1.992.890 sec (23 dní!)
A ještě 3 celkové statistiky k dnešnímu dni:
- Celkový objem držených (živých) dat: 1.3TB
- Počet všech řádků : 6 miliard
- 5 nejčastějších chyb v API:
- nesedící struktura dat při importu od klienta
- validace obsahu tabulky
- nepovolený přístup
- překročený počet povolených indexů
- cílová tabulka nenalezena
A stupínek vítězů pro technologie, které se na tom podílí?
- místo určitě stále zastávají Amazon RDS (MySQL) servery
- místo nově zabral Amazon Redshift
- místo zabírají (měřeno přes palec) Google BigQuery, HP Vertica + R a Amazon CloudSeach
Minulý týden jsme ale měli "IT party" s Karlem Minaříkem a myslím, že Amazon CloudSearch brzo vystřídá ElasticSearch. V kostech cítím, že v tom leží budoucnost. Tlak na co největší rychlost a JSON všude kam se podíváš - trend je jasnej :-)
HR okénko:
Sháním někoho se zkušeností s AWS Data Pipeline a/nebo AWS SWF. Pokud nikdo takový neexistuje :), hledám nadšence, co si s tím pro Keboolu zaexperimentuje. Kontakt nejlépe v komentářích nebo emailem na petr@keboola.com.