klasyfikując serię do nowej kolumny w pandach

Chcę móc pobierać obecny zestaw danych wypełniony przez ints i klasyfikować je według określonych kryteriów. Tabela wygląda mniej więcej tak:klasyfikując serię do nowej kolumny w pandach

[in]> df = pd.DataFrame({'A':[0,2,3,2,0,0],'B': [1,0,2,0,0,0],'C': [0,0,1,0,1,0]}) 
[out]> 
    A B C 
0 0 1 0 
1 2 0 0 
2 3 2 1 
3 2 0 0 
4 0 0 1 
5 0 0 0

Chciałbym sklasyfikować je w osobnej kolumnie według ciągów. Będąc bardziej zaznajomionym z R, próbowałem utworzyć nową kolumnę z regułami w definicji tej kolumny. Następnie podjąłem próbę z .ix i lambdas, które spowodowały błędy typu (między seriami &). Mam wrażenie, że jest to dość proste pytanie. Chociaż po to zupełnie nie tak, tu jest logika z próby 1:

df['D']=(
if ((df['A'] > 0) & (df['B'] == 0) & df['C']==0): 
    return "c1"; 
elif ((df['A'] == 0) & ((df['B'] > 0) | df['C'] >0)): 
    return "c2"; 
else: 
    return "c3";)

dla ostatecznego wyniku:

A B C  D 
0 0 1 0 "c2" 
1 2 0 0 "c1" 
2 3 2 1 "c3" 
3 2 0 0 "c1" 
4 0 0 1 "c2" 
5 0 0 0 "c3"

Jeśli ktoś może mi pomóc rysunek to byłoby bardzo doceniane.

Źródło

2013-03-07 stites

Potrafię wymyślić dwa sposoby. Pierwszym z nich jest napisać funkcję klasyfikatora i następnie .apply row-wise:

>>> import pandas as pd 
>>> df = pd.DataFrame({'A':[0,2,3,2,0,0],'B': [1,0,2,0,0,0],'C': [0,0,1,0,1,0]}) 
>>> 
>>> def classifier(row): 
...   if row["A"] > 0 and row["B"] == 0 and row["C"] == 0: 
...     return "c1" 
...   elif row["A"] == 0 and (row["B"] > 0 or row["C"] > 0): 
...     return "c2" 
...   else: 
...     return "c3" 
...  
>>> df["D"] = df.apply(classifier, axis=1) 
>>> df 
    A B C D 
0 0 1 0 c2 
1 2 0 0 c1 
2 3 2 1 c3 
3 2 0 0 c1 
4 0 0 1 c2 
5 0 0 0 c3

a drugi jest wykorzystanie zaawansowanego indeksowania:

>>> df = pd.DataFrame({'A':[0,2,3,2,0,0],'B': [1,0,2,0,0,0],'C': [0,0,1,0,1,0]}) 
>>> df["D"] = "c3" 
>>> df["D"][(df["A"] > 0) & (df["B"] == 0) & (df["C"] == 0)] = "c1" 
>>> df["D"][(df["A"] == 0) & ((df["B"] > 0) | (df["C"] > 0))] = "c2" 
>>> df 
    A B C D 
0 0 1 0 c2 
1 2 0 0 c1 
2 3 2 1 c3 
3 2 0 0 c1 
4 0 0 1 c2 
5 0 0 0 c3

Który z nich jest bardziej przejrzyste zależy od sytuacji. Zwykle im bardziej złożona jest logika, tym bardziej prawdopodobne jest, że zawinę ją w funkcję, którą mogę następnie udokumentować i przetestować.

Źródło

2013-03-07 20:53:56 DSM

Głosuję za metodą 2 tylko dla czytelności. –

klasyfikując serię do nowej kolumny w pandach

Odpowiedz

Powiązane problemy