2010-01-16 11 views
10

Mam aplikację, która wymaga analiz dla różnych poziomów agregacji, i to jest obciążenie OLAP. Chcę też dość często aktualizować swoją bazę danych.Każda skalowalna baza danych OLAP (skala aplikacji internetowej)?

przykład, o to co moja zmiana wygląda (schemat wygląda tak: raz, dest, źródłowy adres IP, przeglądarka -> wizyty)

(15:00-1-2-2010, www.stackoverflow.com, 128.19.1.1, safari) --> 105 

(15:00-1-2-2010, www.stackoverflow.com, 128.19.2.1, firefox) --> 110 

... 

(15:00-1-5-2010, www.cnn.com, 128.19.5.1, firefox) --> 110 

A potem chcę zapytać, co jest całkowitą wizyta www .stackoverflow.com z przeglądarki Firefox w zeszłym miesiącu.

Rozumiem, że system Vertica może to zrobić w stosunkowo niedrogi sposób (wydajność i skalowalność są rozsądne, ale prawdopodobnie nie kosztują kosztów). Mam tu dwa pytania.

1) Czy istnieje produkt o otwartym kodzie źródłowym, na którym mogę oprzeć, aby rozwiązać ten problem? W szczególności, jak dobrze działa system Mondrian? (skalowalność i wydajność) 2) Czy istnieje rozwiązanie bazowe HBase lub Hypertable (oczywiście, nagi HBase/Hypertable nie może tego zrobić) do tego? - ale jeśli istnieje projekt oparty na HBase/Hypertable, skalowalność prawdopodobnie nie będzie kwestią IMO)?

Dzięki!

+0

Jaka jest twoja oczekiwana ilość danych? 1 milion odsłon dziennie? 10 milionów? –

Odpowiedz

2

Możesz pobrać bezpłatną wersję (wydanie z pojedynczym węzłem) bazy danych greenplum. Nie próbowałem tego sam, ale myślę/przypuszczam, że to potężna bestia. Przeczytaj tutaj: http://www.dbms2.com/2009/10/19/greenplum-free-single-node-edition/

Inną opcją jest MongoDB, jest szybka i bezpłatna i możesz pisać funkcje MapReduce za pomocą JavaScriptu do wykonywania analiz.

Moja reputacja tutaj jest niska, aby dodać hiperłącze do mongodb, więc musisz google. Mogę dodać tylko jeden hiperlink na jeden post.

+0

greenplum nie jest bezpłatny – charlie111

+0

Edycja z jednym węzłem jest bezpłatna. – AABBCCDD

+0

Aby wyjaśnić: ekspert Greenneum jest "wolny jak w piwie". Nie musisz za to płacić, ale istnieją ograniczenia licencyjne dotyczące rozmiaru i liczby serwerów, na których można je wdrożyć, a kod źródłowy nie jest publikowany publicznie. – goodside

2

Celem zohmg project jest rozwiązanie tego problemu za pomocą Hadoop i HBase.

0

Czy Twój model danych bardziej skomplikowane niż to? Jeśli tak nie jest, być może warto napisać dla niego niestandardowy kod. Wtedy możesz naprawdę dostroić to do swoich danych. Prawdziwe produkty muszą cechować się dużą elastycznością, wymagają wielu kompleksów, aby to osiągnąć, i cierpią z tego powodu.

Twoje pytanie nie jest jasne pod jednym względem: kiedy mówisz o skalowalności, co masz na myśli? Czy gromadzisz dane z wielu stron, ale masz ograniczoną liczbę użytkowników zapytań, czy też masz wielu użytkowników? Ta sytuacja prowadzi do znacznie innego modelu.

+0

Nie widzę tutaj modelu danych. Oryginalny post chce znaleźć rozwiązanie obliczeń wstępnych (kraty prostopadłościane) na bazie Hbase i inne. Mówisz o Mapreduce, która rozszerza działanie Hive, ale zasadniczo jest to przetwarzanie wsadowe –

+0

Nie, Mówię o pisaniu kodu i korzystaniu z plików płaskich.W zależności od modelu danych i liczby podmiotów oczywiście. –