Jak znaleźć kolumny, które zawierają żadnej wartości NaN w Pandy dataframe (Python)

Biorąc pod uwagę dataframe pandy zawierającego (być może) NaN Wartości rozrzucone tu i tam:Jak znaleźć kolumny, które zawierają żadnej wartości NaN w Pandy dataframe (Python)

pytanie: w jaki sposób określić, które kolumny zawierają wartości NaN ? W szczególności, czy mogę uzyskać listę nazw kolumn zawierających NaN?

Dziękuję

Źródło

2016-03-25 denvar

UPDATE: użyciu Pandy 0.22.0

Nowsze wersje Pandy mają nowe metody 'DataFrame.isna()' i 'DataFrame.notna()'

In [71]: df 
Out[71]: 
    a b c 
0 NaN 7.0 0 
1 0.0 NaN 4 
2 2.0 NaN 4 
3 1.0 7.0 0 
4 1.0 3.0 9 
5 7.0 4.0 9 
6 2.0 6.0 9 
7 9.0 6.0 4 
8 3.0 0.0 9 
9 9.0 0.0 1 

In [72]: df.isna().any() 
Out[72]: 
a  True 
b  True 
c False 
dtype: bool

lista kolumn:

In [74]: df.columns[df.isna().any()].tolist() 
Out[74]: ['a', 'b']

wybrać te kolumny (zawierające co najmniej jeden NaN wartości):

In [73]: df.loc[:, df.isna().any()] 
Out[73]: 
    a b 
0 NaN 7.0 
1 0.0 NaN 
2 2.0 NaN 
3 1.0 7.0 
4 1.0 3.0 
5 7.0 4.0 
6 2.0 6.0 
7 9.0 6.0 
8 3.0 0.0 
9 9.0 0.0

odpowiedź OLD:

spróbuje użyć isnull():

In [97]: df 
Out[97]: 
    a b c 
0 NaN 7.0 0 
1 0.0 NaN 4 
2 2.0 NaN 4 
3 1.0 7.0 0 
4 1.0 3.0 9 
5 7.0 4.0 9 
6 2.0 6.0 9 
7 9.0 6.0 4 
8 3.0 0.0 9 
9 9.0 0.0 1 

In [98]: pd.isnull(df).sum() > 0 
Out[98]: 
a  True 
b  True 
c False 
dtype: bool

lub @root proponowanych bardziej przejrzysta wersja:

In [5]: df.isnull().any() 
Out[5]: 
a  True 
b  True 
c False 
dtype: bool 

In [7]: df.columns[df.isnull().any()].tolist() 
Out[7]: ['a', 'b']

wybrać podzbiór - wszystkie kolumny zawierające co najmniej jeden NaN wartość:

In [31]: df.loc[:, df.isnull().any()] 
Out[31]: 
    a b 
0 NaN 7.0 
1 0.0 NaN 
2 2.0 NaN 
3 1.0 7.0 
4 1.0 3.0 
5 7.0 4.0 
6 2.0 6.0 
7 9.0 6.0 
8 3.0 0.0 
9 9.0 0.0

Źródło

2016-03-25 18:54:05 MaxU

Dzięki za odpowiedź! Szukam uzyskać listę nazw kolumn (odpowiednio zaktualizowałem moje pytanie), czy wiesz jak? – denvar

już w odpowiedzi ln [7] powyżej –

Witam @AzizAlto, tak, odpowiedź została zaktualizowana po aktualizacji mojego własnego pytania. – denvar

Można użyć df.isnull().sum(). Pokazuje wszystkie kolumny i całkowite wartości NaN każdego elementu.

Źródło

2017-11-21 17:18:55 Matheus

Jak znaleźć kolumny, które zawierają żadnej wartości NaN w Pandy dataframe (Python)

Odpowiedz

Powiązane problemy