Używam Nutch do przeszukiwania stron internetowych i chcę parsować określone sekcje stron html przeszukiwanych przez Nutch. Na przykład:Jak analizować zawartość znajdującą się w określonych znacznikach HTML za pomocą wtyczki Nutch?
<h><title> title to search </title></h>
<div id="abc">
content to search
</div>
<div class="efg">
other content to search
</div>
Chcę parsować element div o id = "abc" i class = "efg" i tak dalej.
Wiem, że muszę utworzyć wtyczkę do niestandardowego analizowania, ponieważ wtyczka htmlparser dostarczana przez Nutch usuwa wszystkie znaczniki html, css i javascript i pozostawia tylko treść tekstową. Odniosłem się do tego bloga http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html, ale znalazłem, że jest to do parsowania z tagiem html, podczas gdy ja chcę analizować znaczniki html z atrybutem o określonej wartości. Zauważyłem, że Jericho został wymieniony jako przydatny do analizy specyficznych znaczników html, ale mógłbym znaleźć dowolny przykład wtyczki Nutch powiązanej z Jericho.
Potrzebuję wskazówek, jak opracować strategię parsowania stron html na podstawie tagów z atrybutem o określonej wartości.
Kiedy próbowałem powyższy przykład w "extractors.xml", a następnie Nutch nie będzie indeksować do Solr. Jeśli działa po usunięciu DOWOLNEGO JEDNEGO elementu ''. wtyczka nie akceptuje wielu elementów ''? –
Ta wtyczka nie działa dla najnowszych wersji Nutch, czyli wersji 2.X – horro