Moje lokalne urządzenie nie ma instalacji hdfs. Chcę pobrać pliki ze zdalnego klastra hdfs. Jaki jest najlepszy sposób, aby to osiągnąć? Czy muszę get
pliki z hdfs do jednego z maszyn klastra fs, a następnie użyć ssh, aby je odzyskać? Chcę móc to zrobić programowo poprzez wypowiedzenie skryptu bash.Pobieranie plików ze zdalnego HDFS
Odpowiedz
Oto kroki:
- Upewnij się, że łączność pomiędzy hostem a gromady docelowej
- Konfiguracja hosta jako klient, trzeba zainstalować kompatybilne pliki binarne Hadoop. Również twój host musi być uruchomiony przy użyciu tego samego systemu operacyjnego.
- Upewnij się, że te same pliki konfiguracyjne (core-site.xml, HDFS-site.xml)
- można uruchomić komendę
hadoop fs -get
aby pobrać pliki bezpośrednio
Ponadto istnieją alternatywy
- Jeśli skonfigurowano Webhdfs/httpFS, możesz faktycznie pobierać pliki za pomocą curl lub nawet przeglądarki. Możesz napisać scrashpy bash jeśli skonfigurujesz Webhdfs.
Jeśli Twój komputer nie może mieć zainstalowanych plików binarnych Hadoop jako klienta, możesz użyć poniższych instrukcji.
- umożliwić hasło mniej logowanie z hosta do jednego węzła w klastrze
- polecenie uruchomienia
ssh <user>@<host> "hadoop fs -get <hdfs_path> <os_path>"
- następnie polecenie scp do kopiowania plików
- można mieć powyżej 2 komendy w jednym skrypcie
Następne pytanie. W jaki sposób [httpFS] (https://hadoop.apache.org/docs/r2.6.0/hadoop-hdfs-httpfs/index.html) porównuje się do rozwiązania "klienta hadoop fs -get" pod względem wydajności? –
httpFS i webhdfs są takie same. Możesz pobrać za jego pomocą, nie ma potrzeby stosowania plików binarnych. –
co jeśli chodzi o wydajność? Czy szybsze jest używanie plików binarnych zamiast korzystania z httpFS? może powinienem zacząć kolejny wątek –
- 1. Pobieranie plików ze zdalnego serwera IPython?
- 2. Pobieranie PHP ze zdalnego serwera przez sftp
- 3. Dostęp HDFS ze zdalnego hosta poprzez Java API, uwierzytelnianie użytkownika
- 4. Obserwator plików HDFS
- 5. Jak wstrzymać i wznowić pobieranie ze zdalnego serwera na SDCard
- 6. aktualizowanie tabeli zewnętrznej Hive ze zmianami HDFS
- 7. Mongodump ze zdalnego serwera
- 8. mysqldump ze zdalnego serwera
- 9. mysqldump ze zdalnego hosta
- 10. Uzyskiwanie plików i Lista folderów ze zdalnego serwera w PHP
- 11. Pobieranie zdjęć ze złomowaniem
- 12. Pobieranie plików z OpenFileDialog?
- 13. Pobieranie plików w Androidzie
- 14. Jak śledzić pobieranie plików?
- 15. Jquery pobieranie plików ($ .fileDownload)
- 16. Opcje odczytu dużych plików (czysty tekst, xml, json, csv) z hdfs w RStudio ze SparkR 1.5
- 17. Git: Jak zarchiwizować bezpośrednio ze zdalnego repozytorium?
- 18. Wyciąganie szablonów icanhaz ze zdalnego serwera
- 19. Git: pobranie określonego obiektu ze zdalnego
- 20. Jak uzyskać zmienne wyjście ze zdalnego pssession
- 21. Uzyskaj pojedynczy plik ze zdalnego repozytorium rutera
- 22. nie można odczytać ze zdalnego repozytorium
- 23. pip: ciągnięcie aktualizacje ze zdalnego repozytorium git
- 24. Pobieranie plików za pomocą FtpWebRequest
- 25. Pobieranie plików za pomocą Java
- 26. Pobieranie plików z serwera php
- 27. Zredukowany współczynnik replikacji HDFS
- 28. Kopiowanie dużych plików przy użyciu pulpitu zdalnego
- 29. Pobieranie/pobieranie części bardzo dużego repozytorium?
- 30. Folder kopii dystrybucyjnych ze zdalnego serwera w czystym PHP
Wypróbuj DistCp: https://hadoop.apache.org/docs/r1.2.1/distcp.html –