2016-02-15 23 views
6

Ludzie, firma, w której pracuję, ma kilka baz danych MySQL na temat AWS (Amazon RDS). Tworzymy POC z BigQuery, a obecnie badam to, jak powielić bazy do BigQuery (istniejące rejestry i nowe w przyszłości). Moje wątpliwości to:Synchronizacja Amazon RDS z Google BigQuery

  • Jak skopiować tabele i wiersze MySQL do BigQuery. Czy jest na to jakieś narzędzie (czytam o usłudze migracji bazy danych Amazon)? Czy powinienem zreplikować do Google Cloud SQL, a następnie eksportować do BigQuery?
  • Jak powielić przyszłe rejestry? Czy możliwe jest utworzenie zadania wewnątrz MySQL w celu wysłania nowych rejestrów po wcześniej ustalonej liczbie? Na przykład, po wstawieniu 1000 nowych wierszy (lub upłynięciu czasu), niektóre zdarzenia są "wyzwalane", a nowe rejestry są kopiowane do Cloud SQL/BigQuery?

Mój początkowy pomysł to zrzucić pierwotną bazę, załadować ją do drugiej i użyć skryptu, aby wysłuchać nowych rejestrów i wysłać je do nowej bazy.

Czy wyjaśniłem to poprawnie? Czy to zrozumiałe?

+0

Używam xplenty do podstawowego odzwierciedlenia tabel od mysql AWS RDS do BQ. Xplenty może upuścić i odtworzyć tabele. Musisz za to zapłacić, ale jest bardzo szybki i łatwy. Przydałaby się możliwość zapisania się do szlaku, aby użyć go nawet do poc. W pewnym sensie to zrobiłem i nadal go używam, więc skupię się bardziej na bardziej użytecznych rzeczach, takich jak to, w jaki sposób używam danych w BQ. Może to być szybkie rozwiązanie, jeśli dosłownie robisz to i musisz być szybki. – andrewm4894

Odpowiedz

1

Będziesz musiał użyć jednego z narzędzi ETL, które mają integrację z MySQL i BigQuery, aby wykonać początkowy transfer danych i skopiować kolejne zmiany do BigQuery. Spójrz na listę dostępnych narzędzi [1]

Możesz również zaimplementować własne narzędzie, rozwijając proces, który wyodrębni dane z mySQL do pliku CSV, a następnie załaduje ten plik do BigQuery za pomocą importu danych [2] ]

[1] https://cloud.google.com/bigquery/third-party-tools

[2] https://cloud.google.com/bigquery/loading-data-into-bigquery

2

oprócz tego, co powiedział Vadim, można spróbować:

  • mysqldump do plików CSV do S3 (wierzę, że pozwala RDS)
  • run "gsutil" narzędzia Google Cloud Storage, aby skopiować dane z S3 do GCS
  • Run "FILE.CSV obciążenia bq", aby załadować plik do BigQuery

Interesują mnie twoje wrażenia, więc możesz mnie wysłać do mnie na osobności.

Powiązane problemy