2012-03-24 25 views
5

Buduję system do analizy dużych ilości danych finansowych dotyczących cen papierów wartościowych. Dużym wyzwaniem w tym przypadku jest ustalenie, jaka metoda przechowywania danych ma zostać wykorzystana, biorąc pod uwagę, że dane będą miały wartość 10 terrabajtów. Będzie wiele zapytań dotyczących danych, takich jak średnie, obliczanie odchyleń standardowych i sum filtrowanych przez wiele kolumn, takich jak cena, czas, objętość itd. Dołączone oświadczenia nie są wymagane, ale byłoby miło mieć je.Przechowywanie danych do analizy finansowej

W tej chwili szukam edycji społeczności infobright, monetdb i greenplum dla celów oceny. Wydają się świetne, ale dla bardziej zaawansowanych funkcji niektóre z nich są wymagane, nie są dostępne w niektórych z tych wydań (przy użyciu wielu serwerów, instrukcji wstawiania/aktualizowania itp.).

Jakie rozwiązania można zastosować w tej sytuacji, a korzyści zapewniają alternatywę? Bycie efektywnym kosztowo jest dużym plusem. Jeśli będę musiał zapłacić za rozwiązanie do hurtowni danych, zrobię to, ale wolałbym tego uniknąć i wziąć ścieżkę do edycji open source/community, jeśli to możliwe.

+1

Rzeczywiste (pseudosobne) sumy, średnie, stddevs - nawet po odfiltrowaniu - nie stanowią wyszukiwania danych. Są po prostu ** statystykami **. –

+1

Eksploracja danych to odkrywanie nowych informacji ze zbioru danych. Statystyki są narzędziem wspomagającym ten proces. Nie sądzę, aby taki nacisk na terminologię był korzystny, a jeśli będziemy się o to spierać, nic nie osiągniemy.To tak, jak ja mówię, że nie zgadzam się z twoim postem, ponieważ błędnie ustawiłeś statystyki jako "statystykę" - niepotrzebny nacisk kładzie się na kwestie techniczne. Moim celem jest wykorzystanie tej bazy danych do odkrywania nowych informacji. Ponadto rozwiązania do hurtowni danych są budowane z myślą o eksploracji danych. W związku z tym koncepcja eksploracji danych ma zastosowanie tutaj. – user396404

+0

Jednakże zgadzam się z tobą, że "baza danych" jest prawdopodobnie lepszym tagiem dla tego postu. – user396404

Odpowiedz

1

Infobright zapewnia szybką wydajność zapytań bez strojenia, bez projekcji i bez indeksy na dużych wolumenach danych. Podczas ładowania danych widziałem przypadki, w których 80 TB danych na godzinę może się załadować, ponad 12 000 wstawek na sekundę.

Jak to działa?

  1. Kolumna Orientacja vs Orientacja Row
  2. paczek danych plus Kompresja średnio 20: 1
  3. Wiedza Siatka - Sub sekund odpowiedź na zapytania
  4. granulowany, wbudowany na szczycie architektury mysql

Proponuję, aby rozważyć rozważenie licencjonowania dla przedsiębiorstw, ale z pewnością można ocenić wydanie społeczności i przetestować skuteczność i ładowanie danych przed nią.

Zastrzeżenie: autor jest powiązany z Infobright.

1

Myślę, że każda z wymienionych baz danych zrobi to, czego potrzebujesz. Jeśli masz do czynienia z wartością 10 TB danych, uzyskanie licencji korporacyjnej na uruchomienie w klastrze MPP prawdopodobnie będzie dobrym sposobem na zaoszczędzenie czasu. Ponadto, jeśli ten plik DW będzie wykonywać ważne przetwarzanie dla Twojej organizacji, posiadanie licencji oznacza uzyskanie wsparcia od dostawcy, co jest ważne dla wielu firm. YMMV.

Ważniejszym pytaniem będzie, jak będą wyglądać stawki za twoje dane? W przypadku systemu finansowego, myślę, że duża część tego równania powinna polegać na możliwości ładowania nowych danych do systemu przy jednoczesnym kontynuowaniu normalnego przetwarzania.

Jestem zaznajomiony z Greenplum tylko z listy kandydatów, ale wiem, że dobrze radzi sobie z ładowaniem dużych ilości danych w krótkim czasie. GP ma także wiele wbudowanych funkcji statystycznych i analitycznych, które możesz uruchamiać natywnie wewnątrz DB, w tym wbudowane funkcje SQL, MADLib, R, itp.

Powiązane problemy