Usuwanie wszystkich nieliczbowych znaków z napisów w języku Python

Jak usunąć wszystkie znaki nieliczbowe z łańcucha znaków w Pythonie?Usuwanie wszystkich nieliczbowych znaków z napisów w języku Python

Źródło

2009-08-08 grizzley

Możliwy duplikat: http://stackoverflow.com/questions/947776/strip-all-non-numeric-characters-except-for-from-a-string-in-python – ChristopheD

153

>>> import re 
>>> re.sub("[^0-9]", "", "sdkjh987978asd098as0980a98sd") 
'987978098098098'

Źródło

2009-08-08 17:25:21

+61

które mogłyby być re.sub (r "\ D", "", "sdkjh987978asd098as0980a98sd") – newacct

Nie jestem pewien, czy jest to najbardziej skuteczny sposób, ale:

>>> ''.join(c for c in "abc123def456" if c.isdigit()) 
'123456'

''.join część znaczy połączyć wszystkie wynikowe znaki razem bez żadnych znaków pomiędzy nimi. Reszta to zrozumienie listy, gdzie (jak można się domyślać) bierzemy tylko części łańcucha, które pasują do warunku isdigit.

Źródło

2009-08-08 17:16:55

To robi przeciwieństwo. Myślę, że masz na myśli "not c.isdigit()" –

Usuń wszystkie nieliczbowe == zachowaj tylko cyfry. –

Podoba mi się, że to podejście nie wymaga wciągania, dla tej prostej funkcji. – triunenature

Najszybszy podejście, jeśli trzeba wykonać więcej niż jednego lub dwóch takich operacji usuwania (lub nawet tylko jeden, ale na bardzo długi ciąg -!), Ma polegać na metodzie łańcuchów translate, mimo że nie potrzebują prep:

>>> import string 
>>> allchars = ''.join(chr(i) for i in xrange(256)) 
>>> identity = string.maketrans('', '') 
>>> nondigits = allchars.translate(identity, string.digits) 
>>> s = 'abc123def456' 
>>> s.translate(identity, nondigits) 
'123456'

Sposób translate jest inna i może odrobinę prostsze prostsze w użyciu, na Unicode, niż jest na ciągi bajtów, btw:

>>> unondig = dict.fromkeys(xrange(65536)) 
>>> for x in string.digits: del unondig[ord(x)] 
... 
>>> s = u'abc123def456' 
>>> s.translate(unondig) 
u'123456'

Możesz chcieć użyć klasy odwzorowania, a nie faktycznego dicta, szczególnie jeśli Twój ciąg znaków Unicode może zawierać znaki o bardzo wysokich wartościach (co spowodowałoby, że dict byłby zbyt duży ;-). Na przykład:

>>> class keeponly(object): 
... def __init__(self, keep): 
...  self.keep = set(ord(c) for c in keep) 
... def __getitem__(self, key): 
...  if key in self.keep: 
...  return key 
...  return None 
... 
>>> s.translate(keeponly(string.digits)) 
u'123456' 
>>>

Źródło

2009-08-08 17:35:59

(1) Nie koduj liczb magicznych; s/65536/sys.maxunicode/(2) Dict jest bezwarunkowo "przesadnie duży", ponieważ wejście "może potencjalnie" zawierać wpisy '(sys.maxunicode - number_of_non_numeric_chars)'. (3) rozważ, czy string.digits może być niewystarczające, co prowadzi do potrzeby złamania modułu unicodedata (4), rozważając re.sub (r '(? U) \ D +', u '', text) dla prostoty i potencjału prędkość. –

ten powinien działać na smyczki i obiektów Unicode:

# python <3.0 
def only_numerics(seq): 
    return filter(type(seq).isdigit, seq) 

# python ≥3.0 
def only_numerics(seq): 
    seq_type= type(seq) 
    return seq_type().join(filter(seq_type.isdigit, seq))

Źródło

2009-09-07 03:01:27 tzot

i tylko w python 2.x – SilentGhost

Dziękuję za przypomnienie, SilentGhost. – tzot

Masz backbash, ale SO nie pozwoli mi tego naprawić. –

Wystarczy dodać inną opcję do mieszanki, istnieje kilka przydatnych stałe w module string. Choć są one bardziej przydatne w innych przypadkach, można je tutaj wykorzystać.

>>> from string import digits 
>>> ''.join(c for c in "abc123def456" if c in digits) 
'123456'

Istnieje kilka stałe w module, w tym:

ascii_letters (abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ)
hexdigits (abcdefABCDEF)

Jeśli używasz tych stałych mocno, to może warto je ukryć na frozenset. Umożliwia to wyszukiwanie O (1), a nie O (n), gdzie n jest długością stałej oryginalnych ciągów.

>>> digits = frozenset(digits) 
>>> ''.join(c for c in "abc123def456" if c in digits) 
'123456'

Źródło

2012-09-07 10:37:03

'' .join (c dla c w "abc123def456" jeśli c.isdigit()) działa w moim pythonie 3.4 –

-6

user = (input): 
print ("hello")

Źródło

2017-08-18 09:54:27 GEVANS8

Usuwanie wszystkich nieliczbowych znaków z napisów w języku Python

Odpowiedz

Powiązane problemy