python: jak znaleźć kolejne pary liter według regex?

Chcę znaleźć słowa, które mają kolejne pary liter za pomocą wyrażenia regularnego. Znam tylko dla jednej pary z rzędu, jak zoo (oo), puzzle (zz), aranżacja (rr), można to osiągnąć przez '(\w){2}'. Ale jak opython: jak znaleźć kolejne pary liter według regex?

dwoma kolejnymi parami: komisja (ttee)
trzech kolejnych parach księgowy (ookkee)

edit:

'(\w){2}' jest rzeczywiście źle , znajduje dwie dowolne litery zamiast podwójnej pary liter.
Moim zamiarem jest znaleźć słów, które mają pary liter, a nie pary.
"Kolejny" oznacza, że nie ma innej litery między parami liter.

Źródło

2013-07-10 Chuntao Lu

możliwe duplikat [Wróć na rozmowę z podwójnymi kolejnymi literami] (http://stackoverflow.com/ pytania/9593622/return-words-with-double-konsekute-letters) – ChrisGuest

'\ w {2}' odnosi się tylko do dwóch liter, 'ab', 'cc' są zarówno OK. – zhangyangyu

faktycznie, '(\ w) {2}' dopasowuje dowolne 2 kolejne litery, pasujące lub nie. Dopasuje "zo" do "zoo". –

Można użyć tego wzoru:

[a-z]*([a-z])\1([a-z])\2[a-z]*

pomysł jest użyć odwołania wstecznego \1 i \2, które odnoszą się do grup przechwytywania.

Pamiętaj, że (\w){2} dopasowuje dwa znaki słowne, ale nie to samo.

Źródło

2013-07-10 00:48:54

To działa! Aby znaleźć słowa z trzech kolejnych par liter, wyrażenie regularne będzie miało postać "[az] * ([az]) \ 1 ([az]) \ 2 [az] * ([az]) \ 3 [az] *", ale nie tylko znajduje ** księgowego **, ale także ** zieleń **, która łamie regułę "z rzędu". Jak tego uniknąć? –

@Teacode: nie dla trzech musisz napisać: '[a-z] * ([a-z]) \ 1 ([a-z]) \ 2 ([a-z]) \ 3 [a-z] *' –

Masz rację! Dziękuję Ci. Wstydź się za mój błąd, jestem totalnym początkującym z regex. –

Zastosowanie re.finditer

>>> [m.group() for m in re.finditer(r'((\w)\2)+', 'zoo')] 
['oo'] 
>>> [m.group() for m in re.finditer(r'((\w)\2)+', 'arrange')] 
['rr'] 
>>> [m.group() for m in re.finditer(r'((\w)\2)+', 'committee')] 
['mm', 'ttee'] 
>>> [m.group() for m in re.finditer(r'((\w)\2)+', 'bookkeeper')] 
['ookkee']

Sprawdź, czy ciąg zawierać kolejne pary:

>>> bool(re.search(r'((\w)\2){2}', 'zoo')) 
False 
>>> bool(re.search(r'((\w)\2){2}', 'arrange')) 
False 
>>> bool(re.search(r'((\w)\2){2}', 'committee')) 
True 
>>> bool(re.search(r'((\w)\2){2}', 'bookkeeper')) 
True

Można również użyć następujących, przechwytywanie (?:) wersja:

(?:(\w)\1){2}

Źródło

2013-07-10 00:54:08 falsetru

Myślę, że moje pytanie było źle sformułowane. Zamiast znajdować pary liter od słowa, to co naprawdę chcę zrobić, to znaleźć słowa (z listy słów), które mają kolejne pary liter. –

@Teacode, zaktualizowałem kod. – falsetru

Dziękuję. Teraz rozumiem. '((\ w) \ 2) {3}' jest równoważne '(\ w) \ 1 (\ w) \ 2 (\ w) \ 3' i bardziej eleganckiemu! –

Bo wspomniałem, że chcesz przetestować z listy, odpowiedziałem jako taki. Korzystanie falsetru za odpowiedź:

newlist = [] 

for word in list: 
    if [m.group() for m in re.finditer(r'((\w)\2)+', word)] != []: 
    newlist.append(word) 

print newlist

Źródło

2013-07-10 04:27:04 tekknolagi

Do wykrywania 2- lub-More kolejnymi literami regex staje: (\w)\1+

Źródło

2014-07-23 11:08:02 ankostis

python: jak znaleźć kolejne pary liter według regex?

Odpowiedz

Powiązane problemy