Buduję system do analizy dużych ilości danych finansowych dotyczących cen papierów wartościowych. Dużym wyzwaniem w tym przypadku jest ustalenie, jaka metoda przechowywania danych ma zostać wykorzystana, biorąc pod uwagę, że dane będą miały wartość 10 terrabajtów. Będzie wiele zapytań dotyczących danych, takich jak średnie, obliczanie odchyleń standardowych i sum filtrowanych przez wiele kolumn, takich jak cena, czas, objętość itd. Dołączone oświadczenia nie są wymagane, ale byłoby miło mieć je.Przechowywanie danych do analizy finansowej
W tej chwili szukam edycji społeczności infobright, monetdb i greenplum dla celów oceny. Wydają się świetne, ale dla bardziej zaawansowanych funkcji niektóre z nich są wymagane, nie są dostępne w niektórych z tych wydań (przy użyciu wielu serwerów, instrukcji wstawiania/aktualizowania itp.).
Jakie rozwiązania można zastosować w tej sytuacji, a korzyści zapewniają alternatywę? Bycie efektywnym kosztowo jest dużym plusem. Jeśli będę musiał zapłacić za rozwiązanie do hurtowni danych, zrobię to, ale wolałbym tego uniknąć i wziąć ścieżkę do edycji open source/community, jeśli to możliwe.
Rzeczywiste (pseudosobne) sumy, średnie, stddevs - nawet po odfiltrowaniu - nie stanowią wyszukiwania danych. Są po prostu ** statystykami **. –
Eksploracja danych to odkrywanie nowych informacji ze zbioru danych. Statystyki są narzędziem wspomagającym ten proces. Nie sądzę, aby taki nacisk na terminologię był korzystny, a jeśli będziemy się o to spierać, nic nie osiągniemy.To tak, jak ja mówię, że nie zgadzam się z twoim postem, ponieważ błędnie ustawiłeś statystyki jako "statystykę" - niepotrzebny nacisk kładzie się na kwestie techniczne. Moim celem jest wykorzystanie tej bazy danych do odkrywania nowych informacji. Ponadto rozwiązania do hurtowni danych są budowane z myślą o eksploracji danych. W związku z tym koncepcja eksploracji danych ma zastosowanie tutaj. – user396404
Jednakże zgadzam się z tobą, że "baza danych" jest prawdopodobnie lepszym tagiem dla tego postu. – user396404