Mamy klienta BI, który generuje około 40 milionów wierszy każdego miesiąca w swoich tabelach baz danych sprzedaży, generowanych z ich transakcji sprzedaży. Chcą zbudować Sales Data Mart z historycznymi danymi z 5 lat, co oznacza, że ta tabela faktów będzie potencjalnie zawierać około 240 milionów wierszy. (40 x 12 miesięcy x 5 lat)Jak poradzić sobie z tabelą danych i tabel danych BIG DATA? (240 milionów wierszy)
To jest dobrze uporządkowane dane.
Po raz pierwszy skonfrontowałem się z tą ilością danych, co zajęło mi przeanalizowanie pionowych narzędzi baz danych, takich jak Inforbright i inne. Ale wciąż z tego rodzaju oprogramowaniem proste zapytanie wymagałoby bardzo, bardzo długiego czasu działania.
Zajęło mi to przyjrzenie się Hadoopowi, ale po przeczytaniu kilku artykułów doszedłem do wniosku, że Hadoop nie jest najlepszą opcją (nawet z Hive) do stworzenia tabeli faktów, ponieważ w moim rozumieniu ma działać z niestrukturalnymi dane.
Moje pytanie brzmi: Jaki byłby najlepszy sposób na zbudowanie tego wyzwania? , Czy nie szukam odpowiedniej technologii? Jakie byłyby najlepsze czasy odpowiedzi na zapytania, jakie mogłem uzyskać w tak dużym zestawieniu faktów? ..lub Stawiam czoła prawdziwej ścianie tutaj i jedyną opcją jest zbudowanie zagregowanych tabel?
Jakie są Twoje wymagania? Co chcesz zrobić z danymi (szczegółowo!)? – usr
Chcemy zrobić analizę typu OLAP: Na przykład: Jakie są 10 najlepiej sprzedających się produktów w ciągu 5 lat?, 10 najlepszych marek ... i oczywiście bardziej uporządkowanych z większą liczbą zmiennych, takich jak ... Jakie są 5 najlepszych produktów? marki sprzedawane w ciągu 5 lat między klientami w wieku od 20 do 30 lat w USA? –
Dzięki, to było pomocne. Jak duże są dane na dysku w GB? Domyślam się, że to standardowy schemat gwiazdowy? I jakie są wymagania dotyczące długości zapytań (sekundy, minuty, godziny)? – usr