Próbuję odczytać pliki z katalogu zawierającego wiele podkatalogów. Dane są w S3 i próbuję to zrobić:odczytuje pliki rekurencyjnie z podkatalogów z iskrą z s3 lub lokalnego systemu plików
val rdd =sc.newAPIHadoopFile(data_loc,
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.io.NullWritable])
to nie działa.
Doceń pomoc
próbowałeś po prostu używając 'textfile (" s3n: ///* ")'? –
Tak, próbowałem tego, nie działa – venuktan
Proszę napisać przykład jak zagnieżdżone są katalogi. Prawdopodobnie istnieje rozwiązanie obejmujące proste symbole wieloznaczne, takie jak: 's3n: // bucket/*/*/*'. –