Mam witrynę internetową, na której użytkownicy przesyłają dokumenty w formacie .doc i .pdf. Używam Sphinx do przeszukiwania pełnego tekstu w mojej bazie danych SQL (MySQL). Jaki jest najlepszy sposób indeksowania tych formatów plików za pomocą Sphinx?Indeksowanie dokumentów programu Word i plików PDF za pomocą Sphinx
10
A
Odpowiedz
6
Niestety, Sphinx nie może bezpośrednio indeksować tych typów plików. Musisz zaimportować tekstową zawartość do bazy danych lub do an XML format that Sphinx can understand.
9
Metoda, której używam, to pdf2text i antywojenny. Korzystam z obu tych metod, aby zrzucić zawartość plików pdf i dokumentów tekstowych do bazy danych. Stamtąd łatwo jest czołgać się z Sfinksem.
+0
Korzystam z tej samej metody jak ty i dla mnie działającej. – Johny
1
Czy ktoś użył Tika do indeksowania innych typów dokumentów, podobnie jak wtyczka SOLR? Apache Tika
Niektóre linki:
Powiązane problemy
- 1. Edytowanie dokumentów Microsoft Word programowo
- 2. dynamiczne indeksowanie dokumentów awk
- 3. Indeksowanie i wyszukiwanie plików Python
- 4. Jak przekonwertować plik PDF na program Word za pomocą programu Acrobat SDK?
- 5. Generowanie plików PDF za pomocą PHP
- 6. Tworzenie plików PDF za pomocą django (wkhtmltopdf)
- 7. otwarcie wielu dokumentów PDF za pomocą pliku wsadowego
- 8. Tworzenie nowego pliku PDF poprzez scalanie dokumentów PDF za pomocą TCPDF
- 9. Dodawanie dokumentów MS Office do pliku PDF za pomocą Apache PDFBox
- 10. Podgląd plików PDF i PowerPoint za pomocą Silverlight/Flash
- 11. Aktualizowanie plików XML za pomocą programu PowerShell
- 12. Tworzenie plików programu Excel za pomocą C#
- 13. Tworzenie i edycja dokumentów MS-Word na serwerze Linux?
- 14. Łączenie plików za pomocą programu PowerShell
- 15. R eps eksport i import do programu Word 2010
- 16. Jak programowo konwertować dokumenty programu Word i Excel do formatu PDF?
- 17. Otwieranie i modyfikowanie dokumentu programu Word
- 18. Scalanie dwóch dokumentów JSON za pomocą Jacksona
- 19. Generowanie dokumentów tekstowych za pomocą PHP
- 20. Przeczytaj pdf za pomocą iText
- 21. Czy mogę czytać dokumenty PDF lub Word Docs za pomocą Node.js?
- 22. Programowo konwertuj Word (docx) na PDF
- 23. Jak uzyskać indeksowanie elementów za pomocą javascript
- 24. Łączenie plików PDF i zachowanie rozszerzonych funkcji w Acrobat Reader
- 25. Indeksowanie za pomocą sortowanych zestawów Redis
- 26. Wykonywanie programu Word Mail Merge
- 27. Indeksowanie za pomocą maskowanych tablic w numpy
- 28. Wyszukiwanie w SharePoint nie indeksowanie zawartości bibliotek dokumentów
- 29. połączyć wiele plików pdf w Linuksie za pomocą skryptu?
- 30. generowanie dokumentów PDF w ASP.NET
Polecam jednej metody nad drugą? –
Zależy od języka używanego po stronie serwera. Jeśli chodzi o Ruby/Rails, wiem, że wszystkie biblioteki nie obsługują XML po wyjęciu z pudełka, chyba że budujesz system od zera (zamiast, powiedzmy, używając ActiveRecord). Więc użyłbym bazy danych. W przeciwnym razie zależy to od Ciebie. Jeśli nie używasz Ruby, sprawdź, jakie biblioteki są dostępne dla Twojego wybranego języka, zobacz, co mogą/nie mogą zrobić. – pat