W jaki sposób analizować ciąg znaków HTML dla znaczników obrazów, aby uzyskać informacje o SRC?

Obecnie używam .Net WebBrowser.Document.Images(), aby to zrobić. Wymaga to załadowania dokumentu przez Webrowser. Jest brudny i zajmuje zasoby.W jaki sposób analizować ciąg znaków HTML dla znaczników obrazów, aby uzyskać informacje o SRC?

Zgodnie z this question XPath jest lepszy niż wyrażenie regularne.

Ktoś wie, jak to zrobić w języku C#?

Źródło

2008-09-26 Roberto Bonini

Jeżeli ciąg wejściowy jest zgodna z XHTML można traktować to jako xml, załaduj go do XmlDocument i wykonaj XPath magii :) Ale to nie zawsze jest prawdą.

przeciwnym razie można spróbować tej funkcji, która zwróci wszystkie linki graficzne z HtmlSource:

public List<Uri> FetchLinksFromSource(string htmlSource) 
{ 
    List<Uri> links = new List<Uri>(); 
    string regexImgSrc = @"<img[^>]*?src\s*=\s*[""']?([^'"" >]+?)[ '""][^>]*?>"; 
    MatchCollection matchesImgSrc = Regex.Matches(htmlSource, regexImgSrc, RegexOptions.IgnoreCase | RegexOptions.Singleline); 
    foreach (Match m in matchesImgSrc) 
    { 
     string href = m.Groups[1].Value; 
     links.Add(new Uri(href)); 
    } 
    return links; 
}

I można go używać tak:

HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://www.example.com"); 
request.Credentials = System.Net.CredentialCache.DefaultCredentials; 
HttpWebResponse response = (HttpWebResponse)request.GetResponse(); 
if (response.StatusCode == HttpStatusCode.OK) 
{ 
    using(StreamReader sr = new StreamReader(response.GetResponseStream())) 
    { 
     List<Uri> links = FetchLinksFromSource(sr.ReadToEnd()); 
    } 
}

Źródło

2008-09-26 11:32:43 mathieu

Dzięki za to, waliłem głową o mój własny regex! –

'([^ '" "] +?)' Nie działa, jeśli href zawiera spacje! – Ahmad

Linia 'using (StreamReader sr = new StreamReader (response.GetResponseStream()) nie ma dodatkowego nawiasu zamykającego: – Kaitlyn

-3

Jeśli to ważne xhtml, można to zrobić:

XmlDocument doc = new XmlDocument(); 
doc.LoadXml(html); 
XmlNodeList results = doc.SelectNodes("//img/@src");

Źródło

2008-09-26 11:26:43 Khoth

Powodzenia ładowanie 90% stron tam w XmlDocument :) –

html Już próbowałem. HTML nie jest prawidłowym kodem XML. I w ten sposób zgłasza wyjątek. –

@RobertoBonini jesteś ekspertem! – Snickbrack

Jeśli wszystko czego potrzebujesz to obrazy chciałbym po prostu użyć wyrażenia regularnego. Coś jak to powinno załatwić sprawę:

Regex rg = new Regex(@"<img.*?src=""(.*?)""", RegexOptions.IgnoreCase);

Źródło

2008-09-26 11:27:07 rslite

Duży problem z dowolnym parsowania HTML jest "dobrze uformowana" część. Widziałeś już ten bzdurny HTML - ile z tego jest naprawdę dobrze uformowanych? Potrzebowałem czegoś podobnego - przeanalizuj wszystkie linki w dokumencie (w moim przypadku) zaktualizuj je za pomocą przepisanego linku. Znalazłem kod Html Agility Pack na CodePlex. Skałuje (i obsługuje zniekształcony HTML).

Oto urywek dla iteracji przez łącza w dokumencie:

HtmlDocument doc = new HtmlDocument(); 
doc.Load(@"C:\Sample.HTM"); 
HtmlNodeCollection linkNodes = doc.DocumentNode.SelectNodes("//a/@href"); 

Content match = null; 

// Run only if there are links in the document. 
if (linkNodes != null) 
{ 
    foreach (HtmlNode linkNode in linkNodes) 
    { 
     HtmlAttribute attrib = linkNode.Attributes["href"]; 
     // Do whatever else you need here 
    } 
}

Original Blog Post

Źródło

2008-09-26 20:19:37

Co to jest" Content "? –

W jaki sposób analizować ciąg znaków HTML dla znaczników obrazów, aby uzyskać informacje o SRC?

Odpowiedz

Powiązane problemy