Chcę przechodzić przez wszystkie pliki tekstowe w katalogu Hadoop i liczyć wszystkie wystąpienia słowa "błąd". Czy istnieje sposób na zrobienie hadoop fs -ls /users/ubuntu/
, aby wyświetlić listę wszystkich plików w katalogu za pomocą interfejsu API Apache Spark Scala?Używanie Sparka do wyświetlania wszystkich plików w katalogu HDFS Hadoop?
z danego first example kontekst iskra wydaje się tylko dostęp do plików indywidualnie przez coś podobnego:
val file = spark.textFile("hdfs://target_load_file.txt")
W moim problemem, nie wiem ile, ani nazwy plików w folderze HDFS uprzednio . Patrzyłem na spark context docs, ale nie mogłem znaleźć tego rodzaju funkcji.
Co jeśli chcę zgłosić nazwę pliku, w którym wystąpił błąd? –
Użyj 'sc.wholeTextFiles'. Zobacz http://stackoverflow.com/questions/29521665/how-to-map-filenames-to-rdd-using-sc-textfiles3n-bucket-csv dla prawie tego pytania. –