To doprowadza mnie do szału, zmagałem się z tym przez wiele godzin. Każda pomoc byłaby bardzo cenna.Używanie lxml do parsowania nazwanego HTML?
Używam PyQuery 1.2.9 (która jest zbudowana na bazie lxml
) do skrobania this URL. Chcę tylko uzyskać listę wszystkich linków w sekcji .linkoutlist
.
To jest mój wniosek w całości:
response = requests.get('http://www.ncbi.nlm.nih.gov/pubmed/?term=The%20cost-effectiveness%20of%20mirtazapine%20versus%20paroxetine%20in%20treating%20people%20with%20depression%20in%20primary%20care')
doc = pq(response.content)
links = doc('#maincontent .linkoutlist a')
print links
Ale zwraca pustą tablicę. Jeśli używam tej kwerendy Zamiast:
links = doc('#maincontent .linkoutlist')
Potem dostać to z powrotem to HTML:
<div xmlns="http://www.w3.org/1999/xhtml" xmlns:xi="http://www.w3.org/2001/XInclude" class="linkoutlist">
<h4>Full Text Sources</h4>
<ul>
<li><a title="Full text at publisher's site" href="http://meta.wkhealth.com/pt/pt-core/template-journal/lwwgateway/media/landingpage.htm?issn=0268-1315&volume=19&issue=3&spage=125" ref="itool=Abstract&PrId=3159&uid=15107654&db=pubmed&log$=linkoutlink&nlmid=8609061" target="_blank">Lippincott Williams & Wilkins</a></li>
<li><a href="http://ovidsp.ovid.com/ovidweb.cgi?T=JS&PAGE=linkout&SEARCH=15107654.ui" ref="itool=Abstract&PrId=3682&uid=15107654&db=pubmed&log$=linkoutlink&nlmid=8609061" target="_blank">Ovid Technologies, Inc.</a></li>
</ul>
<h4>Other Literature Sources</h4>
...
</div>
Więc selektory rodziców zwracają HTML z dużą ilością <a>
tagów. Wygląda to również na prawidłowy HTML.
Więcej eksperymentów ujawnia, że lxml nie podoba się atrybutowi xmlns
na początku elementu div, z jakiegoś powodu.
Jak mogę zignorować to w lxml i po prostu parsować jak zwykły HTML?
UPDATE: Próba ns_clean
, nadal nie:
parser = etree.XMLParser(ns_clean=True)
tree = etree.parse(StringIO(response.content), parser)
sel = CSSSelector('#maincontent .rprt_all a')
print sel(tree)
T pasuje tak bardzo. Ciekawe, czy możesz mi powiedzieć, dlaczego widziałem ten obszar nazw dołączony do elementu div? Nie ma go w źródle strony. – Richard
@Richard świetne pytanie, które sprawiło, że myślę, że przestrzenie nazw zostały wstawione przez pyquery, ponieważ próbowałem parsować zawartość z parserem xml, podczas gdy potrzebne było to zrobić przez parser html, zobacz aktualizację. Nadzieja, która pomaga. – alecxe
@alexce aha! Dziękuję za wyjaśnienie. – Richard