Jak upewnić się, że funkcja re.findall() zatrzymuje się we właściwym miejscu?

a='<title>aaa</title><title>aaa2</title><title>aaa3</title>' 
import re 
re.findall(r'<(title)>(.*)<(/title)>', a)

Wynikiem jest:

[('title', 'aaa</title><title>aaa2</title><title>aaa3', '/title')]

Jeśli kiedykolwiek zaprojektował robota, żeby mnie tytuły stron internetowych, mogę skończyć z czymś takim raczej niż tytuł strony internetowej.

Moje pytanie brzmi: w jaki sposób ograniczyć findall do pojedynczego <title></title>?

2013-07-20 Anonymous

Można użyć BeautifulSoup do analizowania HTML zamiast Regex – Achrome

http://stackoverflow.com/a/1732454/193892 –

re.findall(r'<(title)>(.*?)<(/title)>', a)

Dodaj ? po *, więc będzie nie chciwi.

2013-07-20 19:16:32 zhangyangyu

Zastosowanie re.search zamiast re.findall jeśli tylko chcesz jeden mecz:

>>> s = '<title>aaa</title><title>aaa2</title><title>aaa3</title>' 
>>> import re 
>>> re.search('<title>(.*?)</title>', s).group(1) 
'aaa'

Jeśli chciałeś wszystkie znaczniki, wówczas należy rozważyć zmianę to być non-chciwy (tj - .*?):

print re.findall(r'<title>(.*?)</title>', s) 
# ['aaa', 'aaa2', 'aaa3']

Ale naprawdę rozważ użycie BeautifulSoup lub lxml lub podobnego do parsowania HTML.

2013-07-20 19:16:56

To prawda, że za pomocą regexen do analizowania HTML lub XML jest zazwyczaj zły pomysł. –

Użyj non-chciwy przeszukiwanie zamiast:

r'<(title)>(.*?)<(/title)>'

Pytanie znak mówi dopasować jak kilka znaków, jak to możliwe. Teraz twój findall() zwróci każdy z pożądanych rezultatów.

2013-07-20 19:21:59

To będzie dużo łatwiejsze przy użyciu modułu BeautifulSoup.

2014-05-21 08:55:03 Codengine

Odpowiedz