Każda skalowalna baza danych OLAP (skala aplikacji internetowej)?

Mam aplikację, która wymaga analiz dla różnych poziomów agregacji, i to jest obciążenie OLAP. Chcę też dość często aktualizować swoją bazę danych.Każda skalowalna baza danych OLAP (skala aplikacji internetowej)?

przykład, o to co moja zmiana wygląda (schemat wygląda tak: raz, dest, źródłowy adres IP, przeglądarka -> wizyty)

(15:00-1-2-2010, www.stackoverflow.com, 128.19.1.1, safari) --> 105 

(15:00-1-2-2010, www.stackoverflow.com, 128.19.2.1, firefox) --> 110 

... 

(15:00-1-5-2010, www.cnn.com, 128.19.5.1, firefox) --> 110

A potem chcę zapytać, co jest całkowitą wizyta www .stackoverflow.com z przeglądarki Firefox w zeszłym miesiącu.

Rozumiem, że system Vertica może to zrobić w stosunkowo niedrogi sposób (wydajność i skalowalność są rozsądne, ale prawdopodobnie nie kosztują kosztów). Mam tu dwa pytania.

1) Czy istnieje produkt o otwartym kodzie źródłowym, na którym mogę oprzeć, aby rozwiązać ten problem? W szczególności, jak dobrze działa system Mondrian? (skalowalność i wydajność) 2) Czy istnieje rozwiązanie bazowe HBase lub Hypertable (oczywiście, nagi HBase/Hypertable nie może tego zrobić) do tego? - ale jeśli istnieje projekt oparty na HBase/Hypertable, skalowalność prawdopodobnie nie będzie kwestią IMO)?

Dzięki!

Źródło

2010-01-16 charlie111

Jaka jest twoja oczekiwana ilość danych? 1 milion odsłon dziennie? 10 milionów? –

Możesz pobrać bezpłatną wersję (wydanie z pojedynczym węzłem) bazy danych greenplum. Nie próbowałem tego sam, ale myślę/przypuszczam, że to potężna bestia. Przeczytaj tutaj: http://www.dbms2.com/2009/10/19/greenplum-free-single-node-edition/

Inną opcją jest MongoDB, jest szybka i bezpłatna i możesz pisać funkcje MapReduce za pomocą JavaScriptu do wykonywania analiz.

Moja reputacja tutaj jest niska, aby dodać hiperłącze do mongodb, więc musisz google. Mogę dodać tylko jeden hiperlink na jeden post.

Źródło

2010-01-16 01:16:50 AABBCCDD

greenplum nie jest bezpłatny – charlie111

Edycja z jednym węzłem jest bezpłatna. – AABBCCDD

Aby wyjaśnić: ekspert Greenneum jest "wolny jak w piwie". Nie musisz za to płacić, ale istnieją ograniczenia licencyjne dotyczące rozmiaru i liczby serwerów, na których można je wdrożyć, a kod źródłowy nie jest publikowany publicznie. – goodside

Celem zohmg project jest rozwiązanie tego problemu za pomocą Hadoop i HBase.

Źródło

2010-01-17 04:49:56

Facebook zbudował także Hive na szczycie Hadoop. Całkiem proste w obsłudze - rozsądny interfejs API zapytań.

http://mirror.facebook.net/facebook/hive/

Źródło

2010-01-19 07:21:50 stephbu

Czy Twój model danych bardziej skomplikowane niż to? Jeśli tak nie jest, być może warto napisać dla niego niestandardowy kod. Wtedy możesz naprawdę dostroić to do swoich danych. Prawdziwe produkty muszą cechować się dużą elastycznością, wymagają wielu kompleksów, aby to osiągnąć, i cierpią z tego powodu.

Twoje pytanie nie jest jasne pod jednym względem: kiedy mówisz o skalowalności, co masz na myśli? Czy gromadzisz dane z wielu stron, ale masz ograniczoną liczbę użytkowników zapytań, czy też masz wielu użytkowników? Ta sytuacja prowadzi do znacznie innego modelu.

Źródło

2010-01-26 22:06:25

Nie widzę tutaj modelu danych. Oryginalny post chce znaleźć rozwiązanie obliczeń wstępnych (kraty prostopadłościane) na bazie Hbase i inne. Mówisz o Mapreduce, która rozszerza działanie Hive, ale zasadniczo jest to przetwarzanie wsadowe –

Nie, Mówię o pisaniu kodu i korzystaniu z plików płaskich.W zależności od modelu danych i liczby podmiotów oczywiście. –

Każda skalowalna baza danych OLAP (skala aplikacji internetowej)?

Odpowiedz

Powiązane problemy