6

Przepraszam, jeśli zostało to już zadane (wiem bardzo mało na temat hurtowni danych i jeszcze nie opanowałem słów kluczowych).Agregacja danych - codzienny skrypt SQL a hurtownia danych

Mam tabelę, która rośnie o więcej niż 100 000 wierszy dziennie, każdy wiersz ma znacznik czasu i wiele informacji o produkcie (wymiary, waga, kolor itp.). Poszczególne dane mogą być przydatne przez mniej więcej miesiąc po tym okresie, interesują nas tylko agregacje. Mam dedykowane oprogramowanie, które pozwala na bardziej szczegółową wizualizację poszczególnych wierszy i głównie wykorzystuje PowerPivot do moich potrzeb raportowania.

Mogę wymyślić zapytanie SQL, które będzie codziennie wypełniać nową tabelę: W której będę miał wiersz dla każdej godziny/pozycji/partii i będę podsumowywać informacje (suma/średnia/stddev/etc.)

W ciągu jednego dnia mój skrypt będzie gotowy i będę mógł używać powerpivot na tym nowym stole. Wszystko to w czasie, gdy czuję się komfortowo: zwykły stary SQL.

Z kilku informacji, które zebrałem czytając o DataWarehouse i BI, to, co zaraz zrobię, brzmi bardzo podobnie do tworzenia wymiarów i faktów. Moje pytanie brzmi więc: czy warto dalej badać w tym kierunku (BI), albo ponieważ mój problem jest stosunkowo prosty, lepiej byłoby zostać w relacyjnej bazie danych.

N.B. Raporty, które są tworzone, są zwykle łączone z inną bazą danych w celu uzyskania bardziej znaczących informacji. Zadanie bardzo dobrze wykonane przez Powerpivot.

Odpowiedz

3

Datawarehouses są zwykle wdrażane w relacyjnych bazach danych, więc twoje dotychczasowe umiejętności będą nadal przydatne.

Biorąc pod uwagę, że wyraziły zainteresowanie w tabeli podejścia wymiar/fakt do hurtowni danych, księgi kanoniczne dotyczące tego podejścia są zwykle uważane za:

  • Toolkit Data Warehouse (Kimball, Ross)
  • Lifecycle Data Warehouse Toolkit (Kimball, Ross, Thornthwaite, Mundy, Becker)

(dawny ma więcej naciskiem technicznym, natomiast drugi podchodzi do tematu z szerszej perspektywy zarządzania cyklem życia.)

Wdrażanie DWH może być czasochłonne, więc warto kontynuować istniejące podejście, nawet jeśli zdecydujesz się na zbudowanie DWH.

+0

Gdybym mógł zaakceptować wszystkie odpowiedzi, zrobiłbym to, ponieważ wszyscy przedstawili różne aspekty, które pomogły mi podjąć decyzję (pozwala na razie zachować prostotę). Ale odkąd ten wskazywał mi na więcej czytania, pójdę dalej i zaakceptuję to. Dzięki – Benoittr

1

Najbardziej skuteczne rozwiązania to te, które są proste, adekwatne do istniejących potrzeb i pozostają w dostępnych zestawach umiejętności.

Zgadzam się, że to podejście sprawdza się w przypadku Twojej sytuacji, jeśli dostarcza raportów i informacji, których potrzebujesz, to znaczy, że warto je rozpocząć. Jeśli potrzebujesz bardziej złożonej funkcjonalności później, możesz przejść do bardziej złożonego BI

2

Dobra wiadomość: wygląda na to, że masz już hurtownię danych. "Hurtownia danych" jest terminem bardzo ogólnym, bez prawdziwej definicji formalnej - oznacza praktycznie wszystko, czego chcesz.

Powszechnie przyjęte cechy są: magazyny

  • danych nie działają na bazach operacyjnych
  • hurtowni danych Schematy są zoptymalizowane pod kątem zapytań, a nie za „postać normalna” zgodnie
  • magazyny danych są wypełniane przez Procedury "Extract, Transform, Load" (ETL).

Wygląda na to, że już to robisz. Jeśli nie ma wymagań biznesowych do zmiany, zostawiłbym go takim, jaki jest. Jeśli Twoi użytkownicy biznesowi proszą o tworzenie własnych zapytań, używając różnych poziomów agregacji, filtrowania lub granularitu, najlepszym rozwiązaniem może być schemat gwiazdowy.

Powiązane problemy