Muszę napisać zadanie MapReduce, które pobiera wszystkie wiersze w danym zakresie dat (powiedzmy ostatni miesiąc). Byłby to chwyt z "My Row Key" z Datą. Ale Moje częste zapytania Hbase są na wartościach początkowych klucza.Jak skutecznie skanować linie HBase
Klucz mojego rzędu to dokładnie A | B | C | 20120121 | D. Gdzie kombinacja A/B/C wraz z datą (w formacie YearMonthDay) tworzy niepowtarzalny identyfikator rzędu.
Moje tabele Hbase mogą mieć kilka milionów wierszy. Czy mój Mapper powinien odczytać całą tabelę i przefiltrować każdy wiersz, jeśli mieści się w podanym zakresie dat, czy Skan/Filtr może pomóc w radzeniu sobie z tą sytuacją?
Czy ktoś mógłby zasugerować (lub fragment kodu) sposób skutecznego radzenia sobie z tą sytuacją?
Dzięki -Panks
Dlaczego nie skopiujesz zawartości tabeli do nowej z kluczem uporządkowanym i zgarniesz starą? – Mario
@Mario co jeśli tabela ma tryliona klawiszy? I musi to często robić? – markg