Zdobądź indeks kolumny z nazwy kolumny w pand Pythona

W R, gdy trzeba pobrać indeks kolumny na podstawie nazwy kolumny można zrobićZdobądź indeks kolumny z nazwy kolumny w pand Pythona

idx <- which(names(my_data)==my_colum_name)

Czy istnieje sposób, aby zrobić to samo z pandy dataframes ?

Źródło

2012-10-22 ak3nat0n

117

Oczywiście, można użyć .get_loc():

In [45]: df = DataFrame({"pear": [1,2,3], "apple": [2,3,4], "orange": [3,4,5]}) 

In [46]: df.columns 
Out[46]: Index([apple, orange, pear], dtype=object) 

In [47]: df.columns.get_loc("pear") 
Out[47]: 2

choć szczerze mówiąc nie trzeba często ten sam. Zwykle dostęp po nazwie robi to, co chcę (df["pear"], df[["apple", "orange"]], lub może df.columns.isin(["orange", "pear"])), chociaż zdecydowanie mogę zobaczyć przypadki, w których chcesz numer indeksu. Rozwiązanie

Źródło

2012-10-23 00:06:36 DSM

Numer kolumny jest przydatny, gdy używany jest operator '.iloc', w którym należy przekazywać tylko liczby całkowite dla obu wierszy i kolumn. – abe

Lub przy użyciu bibliotek, które chcą przekonwertować DF na tablicę numpy i indeksy kolumn z określonymi funkcjami. Na przykład CatBoost chce listę indeksów cech kategorycznych. –

Potrzebowałem tego podczas dodawania formatowania warunkowego po utworzeniu arkuszy roboczych za pomocą ExcelWriter. Muszę odwoływać się do kolumn (i komórek) według ich współrzędnych Excela. – Alejandro

DSM działa, ale jeśli chciałeś bezpośredni odpowiednik which można zrobić (df.columns == name).nonzero()

Źródło

2012-10-23 18:27:34

To ma sens. Dzięki! – ak3nat0n

Kiedy może być patrząc na znalezienie wielu kolumnę zapałki, vectorized rozwiązanie wykorzystujące searchsorted method mogą być wykorzystane. Tak więc, z df jako dataframe i query_cols jak nazwy kolumn, aby być przeszukiwane, implementacja byłaby -

def column_index(df, query_cols): 
    cols = df.columns.values 
    sidx = np.argsort(cols) 
    return sidx[np.searchsorted(cols,query_cols,sorter=sidx)]

Sample Run -

In [162]: df 
Out[162]: 
    apple banana pear orange peach 
0  8  3  4  4  2 
1  4  4  3  0  1 
2  1  2  6  8  1 

In [163]: column_index(df, ['peach', 'banana', 'apple']) 
Out[163]: array([4, 1, 0])

Źródło

2016-07-20 19:37:26 Divakar

Oto rozwiązanie przez listowego. cols lista kolumn, aby uzyskać indeks:

[df.columns.get_loc(c) for c in df.columns if c in cols]

Źródło

2017-09-09 08:20:46 snovik

Ponieważ 'cols' ma mniej elementów niż' df.columns', robi 'dla c in cols, jeśli c in df' będzie szybszy. – EOL

W przypadku, gdy chcesz nazwę kolumny z położenia kolumny (na odwrót od kwestii PO), można użyć:

>>> df.columns.get_values()[location]

Stosując @DSM Przykład:

>>> df = DataFrame({"pear": [1,2,3], "apple": [2,3,4], "orange": [3,4,5]}) 

>>> df.columns 

Index(['apple', 'orange', 'pear'], dtype='object') 

>>> df.columns.get_values()[1] 

'orange'

inny sposób:

df.iloc[:,1].name

Źródło

2018-03-02 11:35:52 athraa

Zdobądź indeks kolumny z nazwy kolumny w pand Pythona

Odpowiedz

Powiązane problemy