Mam zestaw danych, z którego chcę działki numer kluczy za unikalnym identyfikatorem liczą (x = unique_id_count, y = key_count) i jestem próbuje nauczyć się korzystać z pandas
.Działka klucz liczyć na unikalną wartość Count w pand
W tym przypadku:
unique_ids 1 = klucz 2 count
unique_ids 2 = Klucz count 1
from pandas import *
key_items = ("a", "a", "a", "a", "a", "b", "b", "b", "b", "b", "c", "c", "c")
id_data = ("X", "X", "X", "X", "X", "X", "X", "Y", "Y", "Y", "X", "X", "X")
df = DataFrame({'keys': key_items, 'ids': id_data})
udało mi się pomiesza dane do tego, co chcę, wyciągając dane z ramki danych i ją zrestrukturyzować, a także przebudować nową ramkę danych. W tym przypadku to chyba lepiej zrobić to w Pythonie bez pand ...
unique_values = defaultdict(list)
for items in df.itertuples(index=False):
key = items[1]
v = items[0]
unique_values[key].append(v)
unique_values_count = {}
for k, values in unique_values.iteritems():
unique_values_count[k] = [len(set(values))]
# reformat for plotting
key_col = ("a", "b", "c")
id_col = [unique_values_count[k][0] for k in key_col]
df2 = DataFrame({"keys":key_col, "unique_id_count": id_col})
df2.groupby("unique_id_count").size().plot(kind="bar")
Czy istnieje lepszy sposób to zrobić bardziej bezpośrednio z początkową dataframe?
ten można uprościć nieco: 's' można obliczyć bez lambdas korzystających pandy' nunique' funkcję tak: ' s = df.groupby ("klucze"). agg (Series.nunique) ' – mjul