Program do zdrapywania obrazów w Pythonie nie działa zgodnie z przeznaczeniem

Mój kod zwraca tylko pusty ciąg i nie mam pojęcia dlaczego.Program do zdrapywania obrazów w Pythonie nie działa zgodnie z przeznaczeniem

import urllib2 

def getImage(url): 
    page = urllib2.urlopen(url) 
    page = page.read() #Gives HTML to parse 

    start = page.find('<a img=') 
    end = page.find('>', start) 

    img = page[start:end] 

return img

Zwróci tylko pierwszy znaleziony obraz, więc nie jest to bardzo dobry skrobak obrazu; powiedział, moim głównym celem jest znalezienie obrazu. Nie jestem w stanie.

Źródło

2012-10-17 user1753520

Artykuł na skriningu ekranu z rubinem: http://www.igvita.com/2007/02/04/ruby-screen-scraper-in-60-seconds/ To nie jest skrobanie zdjęć, ale jest dobrym artykułem i może pomóc.

Źródło

2012-10-17 14:57:12

Wyodrębnianie informacji o obrazie w ten sposób nie jest dobrym pomysłem. Istnieje severaly lepsze opcje, w zależności od swojej wiedzy i motywacji, aby dowiedzieć się czegoś nowego:

http://scrapy.org/ jest bardzo dobre ramy dla pobierania danych ze stron internetowych. Wygląda na to, że jesteś początkującym, może trochę przesadzić.
Dowiedz wyrażeń regularnych aby wyodrębnić informacje: http://docs.python.org/library/re.html i Learning Regular Expressions
Zastosowanie http://www.crummy.com/software/BeautifulSoup/ do analizowania danych z wyniku page.read().

Źródło

2012-10-17 14:59:57 Achim

wiedząc jak używać regex jest przydatna umiejętność, ale to nie jest „lepszym rozwiązaniem” dla sieci skrobanie w jakikolwiek sposób. – root

Należy użyć biblioteki dla tego i istnieje kilka tam, ale aby odpowiedzieć na pytanie, zmieniając kod pokazał nam ...

Twoim problemem jest to, że starają się znaleźć obrazy , ale obrazy nie używają znacznika <a ...>. Używają tagu <img ...>. Oto przykład:

<img src="smiley.gif" alt="Smiley face" height="42" width="42">

Co należy zrobić, to zmienić linię start = page.find('<a img=') do start = page.find('<img ') tak:

def getImage(url): 
    page = urllib2.urlopen(url) 
    page = page.read() #Gives HTML to parse 

    start = page.find('<img ') 
    end = page.find('>', start) 

    img = page[start:end+1] 
    return img

Źródło

2012-10-17 15:00:10 bohney

Po prostu wypróbowałem moją sugerowaną funkcję 'getImage' na stronie http://yahoo.com i otrzymałem:' Yahoo! UK ' – bohney

Rozważ użycie BeautifulSoup do analizowania kodu HTML:

from BeautifulSoup import BeautifulSoup 
import urllib 
url = 'http://www.google.com' 
html = urllib.urlopen(url).read() 
soup = BeautifulSoup(html) 
for img in soup.findAll('img'): 
    print img['src']

Źródło

2012-10-17 15:04:10 tehmisvh

Niektóre instrukcje to może być pomocne:

Użyj Google Chrome. Ustaw mysz nad obrazem i kliknij prawym przyciskiem myszy. Wybierz "Sprawdź element". Otworzy się sekcja, w której będziesz mógł zobaczyć html w pobliżu obrazu.

pomocą Piękne Soup do analizowania html:

from BeautifulSoup import BeautifulSoup 

request = urllib2.Request(url) 
response = urllib2.urlopen(request) 
html = response.read() 
soap = BeautifulSoap(html) 
imgs = soup.findAll("img") 
items = [] 
for img in imgs: 
    print img['src'] #print the image location 
    items.append(img['src']) #store the locations for downloading later

Źródło

2012-10-17 15:08:30 martincho

Program do zdrapywania obrazów w Pythonie nie działa zgodnie z przeznaczeniem

Odpowiedz

Powiązane problemy