2015-06-26 15 views
6

Próbuję dowiedzieć się, jak zastosować funkcję lambda do wielu ramek danych jednocześnie, bez wcześniejszego scalania ramek danych razem. Pracuję z dużymi zbiorami danych (> 60MM rekordów) i muszę zachować szczególną ostrożność przy zarządzaniu pamięcią.Pandy: Zastosowanie Lambdy do wielu ramek danych

Mam nadzieję, że istnieje sposób zastosowania lambda tylko do podstawowych ramek danych, aby uniknąć kosztu łączenia ich najpierw, a następnie upuścić tę pośrednią ramkę danych z pamięci, zanim przejdę do następnego kroku. proces.

Mam doświadczenie unikania problemów z pamięcią przy użyciu opartych na HDF5 ramek danych, ale wolę najpierw spróbować czegoś innego.

Podałem problem z zabawkami, aby pokazać, o czym mówię.

import numpy as np 
import pandas as pd 

# Here's an arbitrary function to use with lambda 
def someFunction(input1, input2, input3, input4): 
    theSum = input1 + input2 
    theAverage = (input1 + input2 + input3 + input4)/4 
    theProduct = input2 * input3 * input4 
    return pd.Series({'Sum' : theSum, 'Average' : theAverage, 'Product' : theProduct}) 

# Cook up some dummy dataframes 
df1 = pd.DataFrame(np.random.randn(6,2),columns=list('AB')) 
df2 = pd.DataFrame(np.random.randn(6,1),columns=list('C')) 
df3 = pd.DataFrame(np.random.randn(6,1),columns=list('D')) 

# Currently, I merge the dataframes together and then apply the lambda function 
dfConsolodated = pd.concat([df1, df2, df3], axis=1) 

# This works just fine, but merging the dataframes seems like an extra step 
dfResults = dfConsolodated.apply(lambda x: someFunction(x['A'], x['B'], x['C'], x['D']), axis = 1) 

# I want to avoid the concat completely in order to be more efficient with memory. I am hoping for something like this: 
# I am COMPLETELY making this syntax up for conceptual purposes, my apologies. 
dfResultsWithoutConcat = [df1, df2, df3].apply(lambda x: someFunction(df1['A'], df1['B'], df2['C'], df3['D']), axis = 1) 
+1

trudno zrozumieć, czy to jest warte odpowiadając jako bieżącego problemu można rozwiązać bez przykładania lambda i złączenie, można wyjaśnić, co naprawdę jesteś ** ** chce osiągnąć – EdChum

+0

w moim przykładzie kodu zacznę z trzema ramkami danych [df1, df2, df3]. Następnie potrzebuję utworzyć pośrednią ramkę danych o nazwie dfConsolodated, która jest po prostu trzema podstawowymi ramkami danych, które są ze sobą połączone. Jest to w porządku z problemem z zabawkami, ale kiedy operuję ponad 60 milionów rekordów na ramkę danych, mogę bardzo szybko zwiększyć pamięć za pomocą tabeli dfConsolodated. Prawdziwym celem jest oszczędzanie zasobów systemowych poprzez unikanie konkatycji w pierwszej kolejności. – jtrowbridge

+0

Czy wszystkie ramki DataFrames mają taki sam kształt? – Alexander

Odpowiedz

1

Jedną z opcji byłoby jawnie tworzyć pożądane agregacji:

theSum = df1.A + df1.B 
theAverage = (df1.A + df1.B + df2.C + df3.D)/4. 
theProduct = df1.B * df2.C * df3.D 
theResult = pd.concat([theSum, theAverage, theProduct]) 
theResult.columns = ['Sum', 'Average', 'Product'] 

Inną możliwością jest użycie query, ale to naprawdę zależy od przypadku użycia i jak zamierzają gromadzić dane. Oto przykład na dokumenty, które mogą być dla Ciebie odpowiednie.

map(lambda frame: frame.query(expr), [df, df2]) 
+0

Działa to w przykładzie, ponieważ matematyka w moim przykładzie jest prosta. W rzeczywistości używam bardziej wyrafinowanego modelu statystycznego, który wykorzystuje pewną integrację numeryczną. Nie sądzę, żebym mógł uciec z jawnym tworzeniem agregacji. Ze względu na złożoność modelu, myślę, że utknąłem z przekazywaniem danych do argumentów funkcji. – jtrowbridge

+0

Powinienem wspomnieć, że pomysł zapytania jest warty zaglądania, dzięki za pomysł, że dam mu wir. Wracając do mojego pierwotnego pytania, czy możliwe jest użycie lambda na wielu, indywidualnych, ramkach danych? – jtrowbridge

+0

Zauważyłem, że jesteś facetem finansów. W rzeczywistości tworzę dużą ramkę danych, która składa się z szeregów czasowych dziennych pozycji opcji i wyceniam je poprzez europejski model czarnych schodów, aby uzyskać cenę i wszystkich typowych greków. Następnie obliczam codzienne przypisywanie P & L przez Greków, aby uzyskać dzienne szeregi czasowe P & L przypisane wszystkim istotnym wrażeniom. Nie mogę uruchomić BS, jawnie tworząc agregacje, o których wspomniałeś wcześniej. – jtrowbridge

0

Wiem, że to pytanie jest trochę stare, ale oto sposób, w jaki wymyśliłem. To nie jest miłe, ale działa.

Podstawową ideą jest zapytanie o drugą ramkę danych wewnątrz zastosowanej funkcji. Używając nazwy przekazanej serii, możesz zidentyfikować kolumnę/indeks i użyć go do pobrania potrzebnej wartości z innych ramek danych.

def func(x, other): 
    other_value = other.loc[x.name] 
    return your_actual_method(x, other_value) 

result = df1.apply(lambda x: func(x, df2)) 
Powiązane problemy