Pandy: Zastosowanie Lambdy do wielu ramek danych

Próbuję dowiedzieć się, jak zastosować funkcję lambda do wielu ramek danych jednocześnie, bez wcześniejszego scalania ramek danych razem. Pracuję z dużymi zbiorami danych (> 60MM rekordów) i muszę zachować szczególną ostrożność przy zarządzaniu pamięcią.Pandy: Zastosowanie Lambdy do wielu ramek danych

Mam nadzieję, że istnieje sposób zastosowania lambda tylko do podstawowych ramek danych, aby uniknąć kosztu łączenia ich najpierw, a następnie upuścić tę pośrednią ramkę danych z pamięci, zanim przejdę do następnego kroku. proces.

Mam doświadczenie unikania problemów z pamięcią przy użyciu opartych na HDF5 ramek danych, ale wolę najpierw spróbować czegoś innego.

Podałem problem z zabawkami, aby pokazać, o czym mówię.

import numpy as np 
import pandas as pd 

# Here's an arbitrary function to use with lambda 
def someFunction(input1, input2, input3, input4): 
    theSum = input1 + input2 
    theAverage = (input1 + input2 + input3 + input4)/4 
    theProduct = input2 * input3 * input4 
    return pd.Series({'Sum' : theSum, 'Average' : theAverage, 'Product' : theProduct}) 

# Cook up some dummy dataframes 
df1 = pd.DataFrame(np.random.randn(6,2),columns=list('AB')) 
df2 = pd.DataFrame(np.random.randn(6,1),columns=list('C')) 
df3 = pd.DataFrame(np.random.randn(6,1),columns=list('D')) 

# Currently, I merge the dataframes together and then apply the lambda function 
dfConsolodated = pd.concat([df1, df2, df3], axis=1) 

# This works just fine, but merging the dataframes seems like an extra step 
dfResults = dfConsolodated.apply(lambda x: someFunction(x['A'], x['B'], x['C'], x['D']), axis = 1) 

# I want to avoid the concat completely in order to be more efficient with memory. I am hoping for something like this: 
# I am COMPLETELY making this syntax up for conceptual purposes, my apologies. 
dfResultsWithoutConcat = [df1, df2, df3].apply(lambda x: someFunction(df1['A'], df1['B'], df2['C'], df3['D']), axis = 1)

Źródło

2015-06-26 jtrowbridge

trudno zrozumieć, czy to jest warte odpowiadając jako bieżącego problemu można rozwiązać bez przykładania lambda i złączenie, można wyjaśnić, co naprawdę jesteś ** ** chce osiągnąć – EdChum

w moim przykładzie kodu zacznę z trzema ramkami danych [df1, df2, df3]. Następnie potrzebuję utworzyć pośrednią ramkę danych o nazwie dfConsolodated, która jest po prostu trzema podstawowymi ramkami danych, które są ze sobą połączone. Jest to w porządku z problemem z zabawkami, ale kiedy operuję ponad 60 milionów rekordów na ramkę danych, mogę bardzo szybko zwiększyć pamięć za pomocą tabeli dfConsolodated. Prawdziwym celem jest oszczędzanie zasobów systemowych poprzez unikanie konkatycji w pierwszej kolejności. – jtrowbridge

Czy wszystkie ramki DataFrames mają taki sam kształt? – Alexander

Jedną z opcji byłoby jawnie tworzyć pożądane agregacji:

theSum = df1.A + df1.B 
theAverage = (df1.A + df1.B + df2.C + df3.D)/4. 
theProduct = df1.B * df2.C * df3.D 
theResult = pd.concat([theSum, theAverage, theProduct]) 
theResult.columns = ['Sum', 'Average', 'Product']

Inną możliwością jest użycie query, ale to naprawdę zależy od przypadku użycia i jak zamierzają gromadzić dane. Oto przykład na dokumenty, które mogą być dla Ciebie odpowiednie.

map(lambda frame: frame.query(expr), [df, df2])

Źródło

2015-06-26 16:52:00 Alexander

Działa to w przykładzie, ponieważ matematyka w moim przykładzie jest prosta. W rzeczywistości używam bardziej wyrafinowanego modelu statystycznego, który wykorzystuje pewną integrację numeryczną. Nie sądzę, żebym mógł uciec z jawnym tworzeniem agregacji. Ze względu na złożoność modelu, myślę, że utknąłem z przekazywaniem danych do argumentów funkcji. – jtrowbridge

Powinienem wspomnieć, że pomysł zapytania jest warty zaglądania, dzięki za pomysł, że dam mu wir. Wracając do mojego pierwotnego pytania, czy możliwe jest użycie lambda na wielu, indywidualnych, ramkach danych? – jtrowbridge

Zauważyłem, że jesteś facetem finansów. W rzeczywistości tworzę dużą ramkę danych, która składa się z szeregów czasowych dziennych pozycji opcji i wyceniam je poprzez europejski model czarnych schodów, aby uzyskać cenę i wszystkich typowych greków. Następnie obliczam codzienne przypisywanie P & L przez Greków, aby uzyskać dzienne szeregi czasowe P & L przypisane wszystkim istotnym wrażeniom. Nie mogę uruchomić BS, jawnie tworząc agregacje, o których wspomniałeś wcześniej. – jtrowbridge

Wiem, że to pytanie jest trochę stare, ale oto sposób, w jaki wymyśliłem. To nie jest miłe, ale działa.

Podstawową ideą jest zapytanie o drugą ramkę danych wewnątrz zastosowanej funkcji. Używając nazwy przekazanej serii, możesz zidentyfikować kolumnę/indeks i użyć go do pobrania potrzebnej wartości z innych ramek danych.

def func(x, other): 
    other_value = other.loc[x.name] 
    return your_actual_method(x, other_value) 

result = df1.apply(lambda x: func(x, df2))

Źródło

2017-11-21 16:12:57 arthaigo

Pandy: Zastosowanie Lambdy do wielu ramek danych

Odpowiedz

Powiązane problemy