Czy można odczytać pliki PDF/audio/wideo (dane niestrukturalne) za pomocą Apache Spark? Na przykład mam tysiące faktur pdf i chcę odczytywać dane od nich i wykonywać na nich analizy. Jakie kroki należy podjąć, aby przetworzyć niestrukturalne dane?Czy można odczytać pliki PDF/audio/wideo (dane niestrukturalne) za pomocą Apache Spark?
5
A
Odpowiedz
6
Tak, jest. Użyj pliku sparkContext.binaryFiles
, aby załadować pliki w formacie binarnym, a następnie użyj wartości map
, aby odwzorować wartość na inny format - na przykład przeanalizuj plik binarny za pomocą Apache Tika lub Apache POI.
Pseudokod:
val rawFile = sparkContext.binaryFiles(...
val ready = rawFile.map (here parsing with other framework
Co ważne, parsowanie muszą być wykonane z innych ram jak wspomniano wcześniej w mojej odpowiedzi. Mapa otrzyma jako argument InputStream
Powiązane problemy
- 1. Czy można odczytać dane EXIF za pomocą R?
- 2. odczytać plik Excela za pomocą Apache POI
- 3. Jak odczytać pliki epub za pomocą javascript
- 4. jak odczytać wartość wszystkich komórek za pomocą Apache POI?
- 5. Czy można przestawić dane za pomocą LINQ?
- 6. Czy mogę poprawnie odczytać dane binarne za pomocą XDomainRequest?
- 7. Czy można odczytać pliki cookie innych podmiotów?
- 8. Klasyfikuj dane za pomocą Apache Mahout
- 9. Czy można odczytać dane MongoDB, przetworzyć je za pomocą Hadoop i wyprowadzić do RDBS (MySQL)?
- 10. Apache Spark vs Apache Spark 2
- 11. Czy można odczytać pliki FTP bez pisania ich za pomocą Pythona?
- 12. Jak odczytać dane z portu COM za pomocą pliku wsadowego?
- 13. Partycjonowanie za pomocą Spark Graphframes
- 14. Czy można odczytać dane z arkusza Excela w Pythonie za pomocą Xlsxwriter? Jeśli tak to jak?
- 15. Elasticsearch + wydajność Apache Spark
- 16. Apache Spark vs Apache Ignite
- 17. Apache Spark vs. Apache Storm
- 18. Jak załadować dane z zapisanego pliku za pomocą Spark
- 19. Mnożenie macierzy w Apache Spark
- 20. Apache Drill kontra Spark
- 21. Apache Spark ALS Rekomendacja
- 22. Jak odczytać pliki xls i xlsx za pomocą C#
- 23. Czy można usunąć niektóre dane postu za pomocą modułu HttpModule?
- 24. Za pomocą PySerial można czekać na dane?
- 25. Zalecenia Apache Spark ALS podejście
- 26. Równość DataFrame w Apache Spark
- 27. Uboczny Argumenty Apache Spark
- 28. Jak odczytać dane z programu Excel za pomocą z PHPExcel
- 29. Jak odczytać dane z pliku Excel za pomocą C#?
- 30. Jak odczytać dane GET z adresu URL za pomocą JavaScript?
Wyszukiwanie "czytania iskry" pdf http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- mniej niż 50 linii kodu/ –
Zalecenia dotyczące zasobów zewnętrznych poza tematem dla StackOverflow. Odpowiedziałem przy pomocy przepływu pracy, szczegółów, które musisz sam wdrożyć –