Używam biblioteki feedparser w Pythonie do pobierania wiadomości z lokalnej gazety (moim zamiarem jest przetwarzanie w języku naturalnym za pośrednictwem tego korpusu) i chciałbym móc odzyskać wiele z przeszłości wpisy z kanału RSS.Feedparser - odzyskaj stare wiadomości z Czytnika Google
Nie jestem bardzo zaznajomiony z kwestiami technicznymi RSS, ale myślę, że to powinno być możliwe (widzę, że np. Google Reader i Feedly mogą to robić "na żądanie", gdy przesuwam pasek przewijania).
Kiedy należy wykonać następujące czynności:
import feedparser
url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
title = post.title
mam tylko kilkanaście wpisów lub więcej. Myślałem o setkach. Może wszystkie wpisy w ostatnim miesiącu, jeśli to możliwe. Czy można to zrobić tylko z feedparserem?
Mam zamiar pobrać z kanału RSS tylko link do nowości i przeanalizować całą stronę za pomocą BeautifulSoup, aby uzyskać żądany tekst. Alternatywnym rozwiązaniem byłoby przeszukiwacz śledzący wszystkie lokalne linki na stronie, aby uzyskać wiele aktualności, ale na razie tego chcę uniknąć.
-
Jednym z rozwiązań, które pojawiły się do korzystania z pamięci podręcznej Google Reader RSS:
Jednak aby uzyskać dostęp do tego muszę się zalogować do Google Reader. Ktoś wie, jak to zrobić z Pythona? (Naprawdę nie wiem nic na temat sieci, zwykle tylko marnuję rachunkiem numerycznym).
Jeszcze raz dziękuję Bartek. Myślę, że teraz rozumiem to lepiej. Czyli RSS jest po prostu plikiem xml przechowywanym na serwerze? Miałem zły obraz na ten temat ... myślałem, że to rodzaj "protokołu", aby uzyskać kanał tekstowy. Jeszcze raz dziękuję. –