przyspieszyć niestandardowe funkcje agregujące

Mam bardzo prostą konfigurację: dane rynkowe (kleszcze) w Pandy dataframe df tak:przyspieszyć niestandardowe funkcje agregujące

index period ask bid 
00:00:00.126 42125 112.118 112.117 
00:00:00.228 42125 112.120 112.117 
00:00:00.329 42125 112.121 112.120 
00:00:00.380 42125 112.123 112.120 
00:00:00.432 42125 112.124 112.121 
00:00:00.535 41126 112.124 112.121 
00:00:00.586 41126 112.122 112.121 
00:00:00.687 41126 112.124 112.121 
00:00:01.198 41126 112.124 112.120 
00:00:01.737 41126 112.124 112.121 
00:00:02.243 41126 112.123 112.121

Teraz używam pandas.groupy okresów kruszywa

g=df.groupby('period')

Łatwo jest uzyskać ceny minimalne i maksymalne według okresu, np

import numpy as np 
res=g.agg({'ask': [np.amax, np.amin]})

Jest to również stosunkowo szybki. Teraz chcę również pierwszą i ostatnią cenę za okres. Tu zaczyna się kłopot. Oczywiście, że mogę:

res=g.agg({'ask': lambda x: x[0]})

i to działa, ale jest strasznie powolne dla dużych zbiorów danych. Zasadniczo, obciążenie połączenia dla wywołania funkcji w Pythonie jest po prostu ogromne.

Czy ktoś wie o funkcji numpy analogicznej do np.amax, która zwróci pierwszy lub ostatni element grupy? Nie mogłem go znaleźć. iloc [0] nie rozwiązuje problemu, ponieważ jest metodą obiektu, a zatem nie mogę go przekazać jako funkcji g.agg, ponieważ nie mam obiektu na tym etapie (to jest to, lambda jest potrzebna).

Teraz nie jestem leniwy, a ja próbowałem zrobić to za siebie, używając cythonu.

import numpy as np 
cimport numpy as np 

cpdef double first(np.ndarray array_series): 
    return array_series[0]

Ale pandy nie zaakceptuje to jako funkcję agregacji, ponieważ przechodzi pd.core.series-Object raczej niż np.ndarray. (Nieważne, jedno pochodzi od drugiego, kompilator tego nie rozpoznaje).

Czy ktoś wie, jak napisać funkcję cythonową, która akceptuje serię pand bez kosztu rozmowy Pythona?

Źródło

2015-10-30 user5507059

Czy próbowałeś 'df.groupby ('Okres') w pierwszej kolejności.() 'i' df.groupby ('okres'). last() '? – EdChum

Dzięki, to dobra wskazówka. Działa, ale nie mogę przekazać funkcji first() do g.agg (...), czy mogę? Chciałbym to lepiej, ponieważ chciałbym zastosować wiele różnych funkcji agregacji naraz (amin, amax, first, ...). Będzie to obejście, aby go użyć, a następnie ręcznie zestawić mój ostateczny zestaw danych, jak sądzę. – user5507059

Tak, możesz, zobacz moją odpowiedź – EdChum

IIUC wtedy można zrobić first i last:

In [270]: 
g=df.groupby('period') 
res=g.agg({'ask': [np.amax, np.amin, 'first', 'last']}) 
res 

Out[270]: 
      ask       
      amax  amin first  last 
period          
41126 112.124 112.122 112.124 112.123 
42125 112.124 112.118 112.118 112.124

Źródło

2015-10-30 13:20:00 EdChum

Jesteś niesamowity. Dziękuję Ci!! – user5507059

Ale idę o krok dalej. Co jeśli chcę niestandardową niestandardową funkcję agregacji. Czy mogę ją cytonizować? – user5507059

prawdopodobnie, ale nie jestem ekspertem od cythonu – EdChum

Alternatywą jest po prostu resample i używać OHLC (open=first,close=last,high=max,low=min)

In [56]: df = DataFrame({'A' : np.arange(10), 'B' : pd.date_range('20130101',periods=5).tolist()*2}) 

In [57]: df 
Out[57]: 
    A   B 
0 0 2013-01-01 
1 1 2013-01-02 
2 2 2013-01-03 
3 3 2013-01-04 
4 4 2013-01-05 
5 5 2013-01-01 
6 6 2013-01-02 
7 7 2013-01-03 
8 8 2013-01-04 
9 9 2013-01-05 

In [58]: df.set_index('B').resample('D',how='ohlc') 
Out[58]: 
       A    
      open high low close 
B        
2013-01-01 0 5 0  5 
2013-01-02 1 6 1  6 
2013-01-03 2 7 2  7 
2013-01-04 3 8 3  8 
2013-01-05 4 9 4  9

Źródło

2015-10-30 14:16:33 Jeff

przyspieszyć niestandardowe funkcje agregujące

Odpowiedz

Powiązane problemy