2009-07-30 17 views

Odpowiedz

6

Niestety, Sphinx nie może bezpośrednio indeksować tych typów plików. Musisz zaimportować tekstową zawartość do bazy danych lub do an XML format that Sphinx can understand.

+0

Polecam jednej metody nad drugą? –

+0

Zależy od języka używanego po stronie serwera. Jeśli chodzi o Ruby/Rails, wiem, że wszystkie biblioteki nie obsługują XML po wyjęciu z pudełka, chyba że budujesz system od zera (zamiast, powiedzmy, używając ActiveRecord). Więc użyłbym bazy danych. W przeciwnym razie zależy to od Ciebie. Jeśli nie używasz Ruby, sprawdź, jakie biblioteki są dostępne dla Twojego wybranego języka, zobacz, co mogą/nie mogą zrobić. – pat

9

Metoda, której używam, to pdf2text i antywojenny. Korzystam z obu tych metod, aby zrzucić zawartość plików pdf i dokumentów tekstowych do bazy danych. Stamtąd łatwo jest czołgać się z Sfinksem.

+0

Korzystam z tej samej metody jak ty i dla mnie działającej. – Johny

Powiązane problemy