Jak wykryć główny tag artykułu, np. Clipper Evernote, który zrobił

Kiedy próbowałem z Evernote clipper extension, widzę bardzo przydatną funkcję. Kiedy kliknąłem na "artykuł", daje mi to naprawdę poprawną główną treść strony. Niech zobaczyć wynik, gdy użyłem Evernote Clipper ze strony https://developer.chrome.com/extensions/api_index extract article in a page Jak wykryć główny tag artykułu, np. Clipper Evernote, który zrobił

spojrzałem w głównym artykule, że pole Evernote się w kilku stron, artykuł jest rzeczywiście pochodzących z pierwszego tagu artykułu. Jednak clipper evernote nadal działa dobrze, ponieważ strony nie używają tego rodzaju tagów.

Zastanawiam się, w jaki sposób stroiciel Evernote może to zrobić? Czy istnieje wsparcie biblioteki js do wykrywania głównego znacznika zawierającego główną treść stron. Czy możesz dać mi kilka rad, aby to zrobić.

Z góry dziękuję!

Źródło

2014-07-21 yelliver

Z mojej wiedzy nie ma uniwersalnej biblioteki js do tego. Maszynka Evernote używa własnej metody wyodrębniania "interesujących" treści ze strony internetowej. Możesz uzyskać dostęp do kodu maszynki Evernote, aby spróbować zrozumieć proces.

na moim Mac, ścieżka do rozszerzenia Chrome:

~/Library/Application Support/Google/Chrome/default/Extensions/pioclpoplcdbaefihamjohnefbikjilc/6.2_0/

Oto kolejny narzędzie, które działa całkiem tak samo: https://www.readability.com/

można również sprawdzić ten wątek: What algorithm does Readability use for extracting text from URLs?

lub poszukać na google dla terminów takich jak „zawartości extractio n js lib 'na przykład. (Znalazłem ten jeden: https://github.com/hatena/extract-content-javascript)

nadzieję, że to pomaga

Źródło

2014-07-21 08:46:52

Dziękujemy za suggession. Zajmuję się projektem "Czytelność" – yelliver

Jak wykryć główny tag artykułu, np. Clipper Evernote, który zrobił

Odpowiedz

Powiązane problemy