Pandy, Zliczanie pojedynczej wartości w kolumnie ramki danych

Używając pand, chciałbym policzyć konkretną wartość w kolumnie. Wiem, że użycie df.somecolumn.ravel() da mi wszystkie unikalne wartości i ich liczba.Ale jak uzyskać liczbę określonej wartości.Pandy, Zliczanie pojedynczej wartości w kolumnie ramki danych

Pożądany:

To get count of 1. 

    In[6]:df.somecalulation(1) 
    Out[6]: 5 

    To get count of 2. 

    In[6]:df.somecalulation(2) 
    Out[6]: 3

Źródło

2016-03-17 Randhawa

Czy jesteś optymistą zing to dla wielu zapytań lub dla małego (lub pojedynczego) zapytania? –

Pojedyncze małe zapytanie. – Randhawa

zobacz odpowiedź, a następnie. –

Można spróbować value_counts:

df = df['col'].value_counts().reset_index() 
df.columns = ['col', 'count'] 
print df 
    col count 
0 1  5 
1 2  3

EDIT:

print (df['col'] == 1).sum() 
5

Lub:

def somecalulation(x): 
    return (df['col'] == x).sum() 

print somecalulation(1) 
5 
print somecalulation(2) 
3

Lub:

ser = df['col'].value_counts() 

def somecalulation(s, x): 
    return s[x] 

print somecalulation(ser, 1) 
5 
print somecalulation(ser, 2) 
3

EDIT2:

Jeśli potrzebujesz czegoś naprawdę szybki, użyj numpy.in1d:

import pandas as pd 
import numpy as np 

a = pd.Series([1, 1, 1, 1, 2, 2]) 

#for testing len(a) = 6000 
a = pd.concat([a]*1000).reset_index(drop=True) 

print np.in1d(a,1).sum() 
4000 
print (a == 1).sum() 
4000 
print np.sum(a==1) 
4000

Timings:

len(a)=6:

In [131]: %timeit np.in1d(a,1).sum() 
The slowest run took 9.17 times longer than the fastest. This could mean that an intermediate result is being cached 
10000 loops, best of 3: 29.9 µs per loop 

In [132]: %timeit np.sum(a == 1) 
10000 loops, best of 3: 196 µs per loop 

In [133]: %timeit (a == 1).sum() 
1000 loops, best of 3: 180 µs per loop

len(a)=6000:

In [135]: %timeit np.in1d(a,1).sum() 
The slowest run took 7.29 times longer than the fastest. This could mean that an intermediate result is being cached 
10000 loops, best of 3: 48.5 µs per loop 

In [136]: %timeit np.sum(a == 1) 
The slowest run took 5.23 times longer than the fastest. This could mean that an intermediate result is being cached 
1000 loops, best of 3: 273 µs per loop 

In [137]: %timeit (a == 1).sum() 
1000 loops, best of 3: 271 µs per loop

Źródło

2016-03-17 17:39:53 jezrael

Przepraszamy, wystąpił błąd. Zmodyfikowaliśmy go. Teraz to zobacz. – Randhawa

Jeśli potrzebujesz zliczyć pojedynczy element, 'np.in1d' jest szybszy jako akceptujący rozwiązanie. Zobacz edit2 i timing. Dziękuję Ci. – jezrael

Zażycie powrót value_counts, można wyszukać go dla wielu wartości:

import pandas as pd 

a = pd.Series([1, 1, 1, 1, 2, 2]) 
counts = a.value_counts() 
>>> counts[1], counts[2] 
(4, 2)

jednak liczyć tylko jeden element, to byłoby szybsze użycie

import numpy as np 
np.sum(a == 1)

Źródło

2016-03-17 17:44:20

Pandy, Zliczanie pojedynczej wartości w kolumnie ramki danych

Odpowiedz

Powiązane problemy