2013-07-31 9 views
6

Używam Nutch do przeszukiwania stron internetowych i chcę parsować określone sekcje stron html przeszukiwanych przez Nutch. Na przykład:Jak analizować zawartość znajdującą się w określonych znacznikach HTML za pomocą wtyczki Nutch?

<h><title> title to search </title></h> 
    <div id="abc"> 
     content to search 
    </div> 
    <div class="efg"> 
     other content to search 
    </div> 

Chcę parsować element div o id = "abc" i class = "efg" i tak dalej.

Wiem, że muszę utworzyć wtyczkę do niestandardowego analizowania, ponieważ wtyczka htmlparser dostarczana przez Nutch usuwa wszystkie znaczniki html, css i javascript i pozostawia tylko treść tekstową. Odniosłem się do tego bloga http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html, ale znalazłem, że jest to do parsowania z tagiem html, podczas gdy ja chcę analizować znaczniki html z atrybutem o określonej wartości. Zauważyłem, że Jericho został wymieniony jako przydatny do analizy specyficznych znaczników html, ale mógłbym znaleźć dowolny przykład wtyczki Nutch powiązanej z Jericho.

Potrzebuję wskazówek, jak opracować strategię parsowania stron html na podstawie tagów z atrybutem o określonej wartości.

Odpowiedz

5

Możesz użyć tej wtyczki, aby wyodrębnić dane ze stron na podstawie reguł CSS:

https://github.com/BayanGroup/nutch-custom-search

W przykładzie, można skonfigurować go w ten sposób:

<config> 
    <fields> 
     <field name="custom_content" /> 
    </fields> 
    <documents> 
     <document url=".+" engine="css"> 
      <extract-to field="custom_content"> 
       <text> 
        <expr value="#abc" /> 
       </text> 
       <text> 
        <expr value=".efg" /> 
       </text> 
      </extract-to> 
     </document> 
    </documents> 
</config> 
+0

Kiedy próbowałem powyższy przykład w "extractors.xml", a następnie Nutch nie będzie indeksować do Solr. Jeśli działa po usunięciu DOWOLNEGO JEDNEGO elementu ''. wtyczka nie akceptuje wielu elementów ''? –

+0

Ta wtyczka nie działa dla najnowszych wersji Nutch, czyli wersji 2.X – horro

Powiązane problemy