numpy.unique z rzędu zachował

['b','b','b','a','a','c','c']

numpy.unique dajenumpy.unique z rzędu zachował

['a','b','c']

Jak mogę dostać oryginalny porządek zachowany

['b','a','c']

Wielkie odpowiedziami. Dodatkowe pytanie. Dlaczego żadna z tych metod nie działa z tym zestawem danych? http://www.uploadmb.com/dw.php?id=1364341573 Oto pytanie numpy sort wierd behavior

Źródło

2013-03-26 siamii

unique() jest powolny, O (nlog (n)), ale można to zrobić poprzez następujący kod:

import numpy as np 
a = np.array(['b','a','b','b','d','a','a','c','c']) 
_, idx = np.unique(a, return_index=True) 
print a[np.sort(idx)]

wyjściowa:

['b' 'a' 'd' 'c']

Pandas.unique() jest znacznie szybsze na duże tablica O (N):

import pandas as pd 

a = np.random.randint(0, 1000, 10000) 
%timeit np.unique(a) 
%timeit pd.unique(a) 

1000 loops, best of 3: 644 us per loop 
10000 loops, best of 3: 144 us per loop

Źródło

2013-03-26 12:50:33 HYRY

Złożoność 'O (N)' nie jest nigdzie wymieniana, a zatem jest jedynie szczegółem implementacji. Dokumentacja po prostu stwierdza, że jest * znacznie szybsza niż "numpy.unique" *, ale może to po prostu oznaczać, że ma mniejsze stałe lub złożoność może być pomiędzy liniowym a NlogN. – Bakuriu

Jest to wspomniane tutaj: http://www.slideshare.net/fullscreen/wesm/a-look-at-pandas-design-and-development/41 – HYRY

Jak zachowałbyś porządek z 'pandas.unique()'? O ile mogę powiedzieć, nie pozwala żadnych parametrów. –

a = ['b','b','b','a','a','c','c'] 
[a[i] for i in sorted(np.unique(a, return_index=True)[1])]

Źródło

2013-03-26 12:44:43 YXD

To tylko wolniejsza wersja zaakceptowanej odpowiedzi – Eric

Użyj funkcji return_index z np.unique. To zwraca indeksy, w których elementy pojawiły się po raz pierwszy na wejściu. Następnie te indeksy są argsort.

>>> u, ind = np.unique(['b','b','b','a','a','c','c'], return_index=True) 
>>> u[np.argsort(ind)] 
array(['b', 'a', 'c'], 
     dtype='|S1')

Źródło

2013-03-26 12:49:35

Jeśli próbujesz usunąć powielania i tak już klasyfikowane iterable można użyć itertools.groupby funkcję:

>>> from itertools import groupby 
>>> a = ['b','b','b','a','a','c','c'] 
>>> [x[0] for x in groupby(a)] 
['b', 'a', 'c']

To działa bardziej jak polecenia UNIX „uniq”, ponieważ zakłada, że lista jest już posortowana. Podczas próby go na niesegregowanych listy otrzymasz coś takiego:

>>> b = ['b','b','b','a','a','c','c','a','a'] 
>>> [x[0] for x in groupby(b)] 
['b', 'a', 'c', 'a']

Źródło

2013-03-26 12:54:47

Prawie przez cały czas problemy z 'numpy' są rozwiązywane szybciej niż" numpy ", a czyste rozwiązania Pythona będą powolne, ponieważ' numpy' jest wyspecjalizowany. – jamylak

Jeśli chcesz usunąć powtarzające się wpisy, jak narzędzia Unix uniq, jest to rozwiązanie:

def uniq(seq): 
    """ 
    Like Unix tool uniq. Removes repeated entries. 
    :param seq: numpy.array 
    :return: seq 
    """ 
    diffs = np.ones_like(seq) 
    diffs[1:] = seq[1:] - seq[:-1] 
    idx = diffs.nonzero() 
    return seq[idx]

Źródło

2015-07-10 13:40:45 Albert

Działa to tylko dla liczb. Użyj '! =' Zamiast '-' – Eric

numpy.unique z rzędu zachował

Odpowiedz

Powiązane problemy