Po prostu zaczynam od nauki Hadoop i zastanawiam się, co następuje: załóżmy, że mam kilka dużych tabel produkcyjnych MySQL, które chcę analizować.Ciągnięcie danych z MySQL do Hadoop
- Wydaje się, że muszę zrzucić wszystkie tabele do plików tekstowych, w celu dostosowania ich do systemu plików Hadoop - jest to prawidłowe, czy jest jakiś sposób, że Hive lub świnia czy cokolwiek może uzyskać dostęp do danych bezpośrednio z MySQL?
- Jeśli zrzucam wszystkie tabele produkcyjne do plików tekstowych, czy muszę się martwić o wpływ na wydajność produkcji podczas zrzutu? (Czy zależy to od tego, jakiego silnika pamięci używają tabele i co mam zrobić?)
- Czy lepiej jest zrzucić każdą tabelę do pojedynczego pliku lub podzielić tabelę na 64 MB (lub cokolwiek innego, co mój blok ma) akta?
+1 dla SQOOP ref –