Mam duże pliki wyłączania (hdf), które muszę włączyć, aby umożliwić wyszukiwanie. W przypadku Javy używam do tego Lucene, ponieważ jest to mechanizm indeksowania plików i dokumentów. Nie wiem, jaki byłby jednak odpowiednik pytona.Indeksowanie i wyszukiwanie plików Python
Czy ktoś może polecić bibliotekę, której powinienem użyć do indeksowania dużej kolekcji plików w celu szybkiego wyszukiwania? Czy jest to preferowany sposób na samodzielne toczenie?
Spojrzałem na pylucene i lupy, ale oba projekty wydają się raczej nieaktywne i nieobsługiwane, więc nie jestem pewien, czy powinien na nich polegać.
Uwagi końcowe: Woosh i PyLucene wydaje się obiecujące, ale nadal jest woosh alfa, więc nie jestem pewien, czy chcę polegać na nim, a ja mam problemy z kompilacją PyLucene, i nie istnieją żadne rzeczywiste uwalnia od niego. Po tym, jak spojrzałem trochę bardziej na dane, były to głównie liczby i domyślne ciągi tekstowe, więc teraz silnik indeksujący mi nie pomoże. Mam nadzieję, że te biblioteki ustabilizują się, a później odwiedzający znajdą dla nich jakiś pożytek.
Mogę dobrze odczytać pliki hdf5 za pomocą obiektów pytliwych, wystarczy znaleźć odpowiednie narzędzie do indeksowania informacji, które wypakowuję. – Staale
Mam niewielkie doświadczenie w tej dziedzinie. Ponieważ możesz już czytać pliki hd5, myślę, że pyIndexer może ci pomóc. Mam niewielkie doświadczenie w tej dziedzinie i mam nadzieję, że twój projekt dobrze się sprawdzi. – batbrat