Pobrałem plik tytułów artykułów z Wikipedii zawierający nazwę każdego artykułu w Wikipedii. Muszę wyszukać wszystkie tytuły artykułów, które mogą pasować do siebie. Na przykład, mogę mieć słowo "hokej", ale artykuł z Wikipedii na temat hokeja, którego bym chciał, to "Ice_hockey". To powinno być również wyszukiwanie niewrażliwe na wielkość liter.Najbardziej efektywny sposób wyszukiwania częściowych dopasowań ciągów w dużym pliku ciągów (python)
Używam Pythona, i czy istnieje bardziej wydajny sposób niż po prostu przeszukiwanie linii po linii? Będę to robić najlepiej jak 500 lub 1000 razy na minutę. Jeśli linia po linii jest moją jedyną opcją, czy są jakieś optymalizacje, które mogę zrobić w tym zakresie?
Myślę, że w pliku znajduje się kilka milionów wierszy.
Wszelkie pomysły?
Dzięki.
Proszę wyświetlić oczekiwane dane wejściowe. W jakim formacie znajduje się ten plik? nie rób ludzi, którzy chcą pomóc ci pobrać plik dla siebie. – aaronasterling
to tylko prosty plik tekstowy z każdym tytułem w osobnej linii – apexdodge