Próbuję dowiedzieć się, jak zastosować funkcję lambda do wielu ramek danych jednocześnie, bez wcześniejszego scalania ramek danych razem. Pracuję z dużymi zbiorami danych (> 60MM rekordów) i muszę zachować szczególną ostrożność przy zarządzaniu pamięcią.Pandy: Zastosowanie Lambdy do wielu ramek danych
Mam nadzieję, że istnieje sposób zastosowania lambda tylko do podstawowych ramek danych, aby uniknąć kosztu łączenia ich najpierw, a następnie upuścić tę pośrednią ramkę danych z pamięci, zanim przejdę do następnego kroku. proces.
Mam doświadczenie unikania problemów z pamięcią przy użyciu opartych na HDF5 ramek danych, ale wolę najpierw spróbować czegoś innego.
Podałem problem z zabawkami, aby pokazać, o czym mówię.
import numpy as np
import pandas as pd
# Here's an arbitrary function to use with lambda
def someFunction(input1, input2, input3, input4):
theSum = input1 + input2
theAverage = (input1 + input2 + input3 + input4)/4
theProduct = input2 * input3 * input4
return pd.Series({'Sum' : theSum, 'Average' : theAverage, 'Product' : theProduct})
# Cook up some dummy dataframes
df1 = pd.DataFrame(np.random.randn(6,2),columns=list('AB'))
df2 = pd.DataFrame(np.random.randn(6,1),columns=list('C'))
df3 = pd.DataFrame(np.random.randn(6,1),columns=list('D'))
# Currently, I merge the dataframes together and then apply the lambda function
dfConsolodated = pd.concat([df1, df2, df3], axis=1)
# This works just fine, but merging the dataframes seems like an extra step
dfResults = dfConsolodated.apply(lambda x: someFunction(x['A'], x['B'], x['C'], x['D']), axis = 1)
# I want to avoid the concat completely in order to be more efficient with memory. I am hoping for something like this:
# I am COMPLETELY making this syntax up for conceptual purposes, my apologies.
dfResultsWithoutConcat = [df1, df2, df3].apply(lambda x: someFunction(df1['A'], df1['B'], df2['C'], df3['D']), axis = 1)
trudno zrozumieć, czy to jest warte odpowiadając jako bieżącego problemu można rozwiązać bez przykładania lambda i złączenie, można wyjaśnić, co naprawdę jesteś ** ** chce osiągnąć – EdChum
w moim przykładzie kodu zacznę z trzema ramkami danych [df1, df2, df3]. Następnie potrzebuję utworzyć pośrednią ramkę danych o nazwie dfConsolodated, która jest po prostu trzema podstawowymi ramkami danych, które są ze sobą połączone. Jest to w porządku z problemem z zabawkami, ale kiedy operuję ponad 60 milionów rekordów na ramkę danych, mogę bardzo szybko zwiększyć pamięć za pomocą tabeli dfConsolodated. Prawdziwym celem jest oszczędzanie zasobów systemowych poprzez unikanie konkatycji w pierwszej kolejności. – jtrowbridge
Czy wszystkie ramki DataFrames mają taki sam kształt? – Alexander