Musimy zaprojektować system, który pozwoli użytkownikom wyszukiwać według różnych słów kluczowych w dużych tekstach, a także, w przyszłości, tworzyć podstawowe raporty dotyczące częstotliwości tego słowa kluczowego we wszystkich artykułach Kropka.zaprojektować bardzo dużą bazę danych do wyszukiwania tekstu
Będziemy mieć:
- około 200.000 artykułów dodawane każdego dnia
- każdy tekst artykuł jest o 2kB
- artykuły są przechowywane przez 6 miesięcy
Aby to zrobić, doszliśmy z następującym rozwiązaniem:
- stworzenie repozytorium SOLR do przechowywania artykułów
- używać bazy danych MySQL do przechowywania artykułu Dodatkowe informacje
system wyszuka SOLR za pomocą słów kluczowych, a następnie będzie spojrzeć na wyniki w MySQL, aby pobrać dodatkowe informacje.
Czy to byłoby dobre podejście?
Jeśli większość wyszukiwań dotyczy tylko artykułów dodanych w ostatnim miesiącu, czy byłoby dobrze zachować dwie bazy danych, jedną z artykułami dodanymi w ostatnim miesiącu dla większości wyszukiwań, a drugą ze wszystkimi artykułami?
Jeśli masz jakieś wskazówki/wskazówki, jak to poprawić, byłoby to bardzo cenne.
Z góry dziękuję!
Możesz również zajrzeć pod http://stackoverflow.com/questions/9181566/full-text- searching-and-python/9182118 –