Wybieranie hurtowni danych dużych

W dzisiejszych czasach wyzwaniem było stworzenie hurtowni danych do przechowywania i przetwarzania ogromnej ilości danych. Szacowana kwota to ponad 7 miliardów wydarzeń dziennie. Dane powinny być przechowywane przez 7 dni. Średni rozmiar wydarzenia to ~ 0,5 - 1 Kb. Musimy przetworzyć dane na:Wybieranie hurtowni danych dużych

generowanie raportów;
modele pociągów.

Obecnie jestem oceny:

Google BigQuery
Redshift
Stratio + Cassandra + AWS + EMR + EBS
Cloudera + AWS

Więc Zainteresowany:

rozwiązanie używać wewnątrz firmy (ram, setup, bazy danych, ilość węzłów, itp)
jakieś przykłady realne koszty/porównanie jeśli to możliwe
złożoność zarządzania (devops)

Źródło

2016-05-24 Yuli Reiri

Pytania dotyczące ** profesjonalnej administrowania infrastrukturą związaną z serwerem lub siecią ** nie dotyczą tematu przepełnienia stosu, chyba że dotyczą bezpośrednio narzędzi programujących lub programistycznych. Możesz uzyskać pomoc w [Błąd serwera] (http://serverfault.com/tour). –

@MoralesBatovski to nie jest, temat jest większy i obejmuje rozwiązania programowe i frameworki takie jak z firmy Stratio i Cloudera. A bigquery jest elastyczny i działa tylko poprzez API ... –

zbyt szeroki i offtopic. –

Używamy BigQuery, plusy:

SQL, kolumna oparte
obsługuje dane JSON w kolumnach -> zaleta, niestrukturalnych
Bardzo tani 1 Petabajt około 21 000 USD miesięcznie.
zarządzane usługi przez Google, nie ma devops
100 000 wierszy/sekundę zdolność połykanie
patrz slajd #24 z połączonego prezentacji

Więcej przypadków użycia i architektury można znaleźć: http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup

Źródło

2016-05-24 12:46:03 Pentium10

wszelkie minusy znalezione na podstawie twojego doświadczenia? –

Brak profesjonalnej obsługi, dziwne błędy interfejsu API, wymagają bardzo zaawansowanych programistów SQL, ale jest to zabawne. – Pentium10

Niedawno napisał to podsumowanie na podstawie serii Mark Lit porównującej BigQuery, Spark, Hive, Presto, ElasticSearch, AWS Redshift, AWS EMR i Google Dataproc:

https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison

Podsumowanie Podsumowując:

samego zestawu danych (1 mld wierszy), te same pytania, wiele technologii i konfiguracje.
BigQuery był najszybszy do uruchomienia zapytań: 2 sekundy.
Domyślnie BigQuery był szybki: nie było potrzeby optymalizacji ani wstępnego przetwarzania danych. 1 miliard wierszy załadowano w ciągu 25 minut, a dane były gotowe do zapytania.
Inne rozwiązania zajęły godziny, aby załadować dane (przy znacznych kosztach) i były wielokrotnie wolniejsze niż BigQuery.

Jednak najlepszym testem porównawczym, jaki można uzyskać, jest to, że: próba gry BigQuery powinna być szybka i łatwa. Następnie spróbuj znaleźć inną platformę, która wczytuje dane tak szybko, zapyta je szybko lub zbliża się do ceny. Mark próbował i to były jego odkrycia.

Źródło

2016-05-25 04:44:51

dzięki dobry post –

Wybieranie hurtowni danych dużych

Odpowiedz

Powiązane problemy