Próbuję użyć biblioteki java boilerpipe, aby wyodrębnić artykuły z zestawu stron internetowych. Działa doskonale w przypadku tekstów w języku angielskim, ale w przypadku tekstu ze znakami specjalnymi, na przykład ze znakami akcentującymi (historia), znaki specjalne nie są pobierane poprawnie. Myślę, że to jest problem z kodowaniem.Używanie bojówki do wypakowywania nieanglojęzycznych artykułów
W opisie potoku bojlerowego jest napisane: "Jeśli wypiszesz tekst w języku innym niż angielski, być może będziesz musiał zmienić niektóre parametry", a następnie odnosi się do paper. Nie znalazłem rozwiązania w tym dokumencie.
Moje pytanie brzmi, czy są jakieś parametry podczas używania bojlera, w którym mogę określić kodowanie? Czy jest jakiś sposób, aby przejść i uzyskać poprawny tekst?
Jak używam biblioteki: (pierwsza próba na podstawie URL):
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
(drugi na kod źródłowy HTLM)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);
Dziękuję za odpowiedź. Przykro mi, że teraz zwracam na to uwagę, ale utknąłem w innym projekcie. Próbowałem wydrukować enconding, który został ustawiony na zmiennej cs po tym fragmencie kodu, a wynikiem był zawsze ISO-8859-1. Próbowałem również wymusić kodowanie na UTF-8, ale nie otrzymałem lepszych wyników. Problem musi występować w jednej z konwersji, w dokumencie HTMLDocument, w dokumencie tekstowym itp. Mam jednak problem z wydrukowaniem ich treści tekstowej. Jakieś pomysły? Dzięki jeszcze raz. –
Andrei, miałeś rację. Próbowałem bardzo skomplikować, ale ostatecznie było to bardzo proste rozwiązanie. Jeszcze raz dziękuję, przepraszam, nie mogłem ci jeszcze pomóc. –