Jak wyodrębnić adresy URL ze strony HTML w Pythonie

Muszę napisać robota sieciowego w Pythonie. Nie wiem, jak przeanalizować stronę i wyodrębnić adresy URL z HTML. Gdzie powinienem pójść i uczyć się pisać taki program?Jak wyodrębnić adresy URL ze strony HTML w Pythonie

Innymi słowy, czy istnieje prosty program python, który może być używany jako szablon dla ogólnego robota sieciowego? Najlepiej byłoby, gdyby korzystano z modułów, które są stosunkowo proste w użyciu i powinny zawierać wiele komentarzy, aby opisać, co robi każda linia kodu.

Źródło

2013-03-20 user2189704

Sprawdź przykładowy kod poniżej. Skrypt wyodrębnia kod HTML strony internetowej (tutaj strona główna Pythona) i wyodrębnia wszystkie linki na tej stronie. Mam nadzieję że to pomoże.

#!/usr/bin/env python 

import requests 
from BeautifulSoup import BeautifulSoup 

url = "http://www.python.org" 
response = requests.get(url) 
# parse html 
page = str(BeautifulSoup(response.content)) 


def getURL(page): 
    """ 

    :param page: html of web page (here: Python home page) 
    :return: urls in that page 
    """ 
    start_link = page.find("a href") 
    if start_link == -1: 
     return None, 0 
    start_quote = page.find('"', start_link) 
    end_quote = page.find('"', start_quote + 1) 
    url = page[start_quote + 1: end_quote] 
    return url, end_quote 

while True: 
    url, n = getURL(page) 
    page = page[n:] 
    if url: 
     print url 
    else: 
     break

wyjściowa:

/ 
#left-hand-navigation 
#content-body 
/search 
/about/ 
/news/ 
/doc/ 
/download/ 
/getit/ 
/community/ 
/psf/ 
http://docs.python.org/devguide/ 
/about/help/ 
http://pypi.python.org/pypi 
/download/releases/2.7.3/ 
http://docs.python.org/2/ 
/ftp/python/2.7.3/python-2.7.3.msi 
/ftp/python/2.7.3/Python-2.7.3.tar.bz2 
/download/releases/3.3.0/ 
http://docs.python.org/3/ 
/ftp/python/3.3.0/python-3.3.0.msi 
/ftp/python/3.3.0/Python-3.3.0.tar.bz2 
/community/jobs/ 
/community/merchandise/ 
/psf/donations/ 
http://wiki.python.org/moin/Languages 
http://wiki.python.org/moin/Languages 
http://www.google.com/calendar/ical/b6v58qvojllt0i6ql654r1vh00%40group.calendar.google.com/public/basic.ics 
http://www.google.com/calendar/ical/j7gov1cmnqr9tvg14k621j7t5c%40group.calendar.google.com/public/basic.ics 
http://pycon.org/#calendar 
http://www.google.com/calendar/ical/3haig2m9msslkpf2tn1h56nn9g%40group.calendar.google.com/public/basic.ics 
http://pycon.org/#calendar 
http://www.psfmember.org

...

Źródło

2013-03-20 07:24:34 Shankar

Z analizowania stron, sprawdź moduł BeautifulSoup. Jest prosty w użyciu i umożliwia analizowanie stron za pomocą HTML. Można wyodrębnić adresy URL z HTML po prostu wykonując str.find('a')

Don't use regular expressions for parsing HTML

Źródło

2013-03-20 07:27:00 TerryA

Można użyć beautifulsoup. Postępuj zgodnie z dokumentacją i sprawdź, jakie są Twoje wymagania. Dokumentacja zawiera również fragmenty kodów, aby dowiedzieć się, jak wyodrębnić adresy URL.

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html_doc) 

soup.find_all('a') # Finds all hrefs from the html doc.

Źródło

2013-03-20 07:28:27

import sys 
import re 
import urllib2 
import urlparse 
tocrawl = set(["http://www.facebook.com/"]) 
crawled = set([]) 
keywordregex = re.compile('<meta\sname=["\']keywords["\']\scontent=["\'](.*?)["\']\s/>') 
linkregex = re.compile('<a\s*href=[\'|"](.*?)[\'"].*?>') 

while 1: 
    try: 
     crawling = tocrawl.pop() 
     print crawling 
    except KeyError: 
     raise StopIteration 
    url = urlparse.urlparse(crawling) 
    try: 
     response = urllib2.urlopen(crawling) 
    except: 
     continue 
    msg = response.read() 
    startPos = msg.find('<title>') 
    if startPos != -1: 
     endPos = msg.find('</title>', startPos+7) 
     if endPos != -1: 
      title = msg[startPos+7:endPos] 
      print title 
    keywordlist = keywordregex.findall(msg) 
    if len(keywordlist) > 0: 
     keywordlist = keywordlist[0] 
     keywordlist = keywordlist.split(", ") 
     print keywordlist 
    links = linkregex.findall(msg) 
    crawled.add(crawling) 
    for link in (links.pop(0) for _ in xrange(len(links))): 
     if link.startswith('/'): 
      link = 'http://' + url[1] + link 
     elif link.startswith('#'): 
      link = 'http://' + url[1] + url[2] + link 
     elif not link.startswith('http'): 
      link = 'http://' + url[1] + '/' + link 
     if link not in crawled: 
      tocrawl.add(link)

odniesione do: Python Web Crawler in Less Than 50 Lines (powolny lub nie działa, nie ładuje dla mnie)

Źródło

2013-03-20 08:07:00 Scy

Można użyć BeautifulSoup jak również stwierdził, że wiele. Może analizować HTML, XML itp. Aby zobaczyć niektóre z jego funkcji, zobacz here.

przykład:

import urllib2 
from bs4 import BeautifulSoup 
url = 'http://www.google.co.in/' 

conn = urllib2.urlopen(url) 
html = conn.read() 

soup = BeautifulSoup(html) 
links = soup.find_all('a') 

for tag in links: 
    link = tag.get('href',None) 
    if link is not None: 
     print link

Źródło

2013-03-20 08:08:59 pradyunsg

Jak wyodrębnić adresy URL ze strony HTML w Pythonie

Odpowiedz

Powiązane problemy