Mam plik PDF (kilkaset). Nie mają odpowiedniej struktury ani nie mają określonych pól. Wszystko, co mają, to dużo tekstu.Jak indeksować pliki PDF i wyszukiwać słowa kluczowe?
Próbuję zrobić:
indeksować pliki PDF i szukać niektórych słów kluczowych w stosunku do indeksu. Jestem zainteresowany znalezieniem, jeśli to konkretne słowo kluczowe jest w dokumencie PDF, a jeśli tak, chcę wiersz, w którym znaleźć słowo kluczowe. Jeśli szukałem hasła "Google" w dokumencie PDF z tym określeniem, chciałbym zobaczyć "Google to świetna wyszukiwarka", czyli wiersz w pliku PDF.
Jak postanowiłem zrobić:
użyć SOLR lub Whoosh ale SOLR szuka dobre dla wbudowanej obsługi PDF. Wolę kodować w Pythonie, a Sunburst to opakowanie na SOLR, które lubię. Przykładowy projekt przykładowy SOLR ma jakiś plik schematu oparty na porównaniu cenowym. Teraz nie jestem pewien, czy mogę użyć SOLR, aby odpowiedzieć na mój problem.
Co proponujesz? Wszelkie dane wejściowe są doceniane.
Czy proponujesz indeksować każdy plik PDF za pomocą każdego wyrazu lub wyrażenia, które on zawiera? Jeśli nie, w jaki sposób wygenerujesz listę słów kluczowych? – smci
Mam faktycznie listę słów kluczowych. Chcę zindeksować całą treść w pliku PDF, a następnie uruchomić wyszukiwanie według tego indeksu za pomocą moich słów kluczowych. – ThinkCode