Załóżmy, że istnieją pewne fragmenty HTML, takich jak:Jak uzyskać innerHTML węzła za pomocą selektora scrapy?
<a>
text in a
<b>text in b</b>
<c>text in c</c>
</a>
<a>
<b>text in b</b>
text in a
<c>text in c</c>
</a>
w którym chcę, aby wyodrębnić tekst wewnątrz znacznika, ale z wyłączeniem tych tagów zachowując swój tekst, na przykład, zawartość chcę wyodrębnić powyżej byłoby jak „tekst w tekście w b tekście c "i" tekście w tekście b in tekstu inc ". Teraz mogłem uzyskać węzły za pomocą funkcji selektora css() Selectora, a następnie w jaki sposób mogłem kontynuować te węzły, aby uzyskać to, czego chcę? Każdy pomysł byłby doceniony, dziękuję!
To jest wielki, ale udało mi się zrobić to przez sel.css („A”) wyciąg(), a następnie przy użyciu regex wykluczyć. te znaczniki html – kuixiong
@kuixiong Świetnie! Zauważ, że parsowanie kodu HTML za pomocą wyrażenia regularnego ogólnie [nie jest uważane za dobrą praktykę] (http://stackoverflow.com/q/590747/390819). Jeśli kontrolujesz ten kod HTML i jest on dość prosty, użyj polecenia regex. W przeciwnym razie rozważ korzystanie z wyspecjalizowanych narzędzi. – GolfWolf