Mam pandas DataFrame z duplikatami wartości dla zestawu kolumn. NpJak zidentyfikować pierwsze wystąpienie duplikatów wierszy w Pandonie Pythona DataFrame
df = pd.DataFrame({'Column1': {0: 1, 1: 2, 2: 3}, 'Column2': {0: 'ABC', 1: 'XYZ', 2: 'ABC'}, 'Column3': {0: 'DEF', 1: 'DEF', 2: 'DEF'}, 'Column4': {0: 10, 1: 40, 2: 10})
In [2]: df
Out[2]:
Column1 Column2 Column3 Column4 is_duplicated dup_index
0 1 ABC DEF 10 False 0
1 2 XYZ DEF 40 False 1
2 3 ABC DEF 10 True 0
rząd (1) i (3) są takie same. Zasadniczo wiersz (3) jest duplikatem wiersza (1).
szukam następujące dane wyjściowe:
Is_Duplicate
zawierający czy wiersz jest duplikatem lub nie [może być dokonane za pomocą „kopiowane” metody na kolumnach dataframe (Kolumna2, kolumna3 i Column4)]
Dup_Index
oryginalny indeks duplikatu wiersza.
In [3]: df
Out[3]:
Column1 Column2 Column3 Column4 Is_Duplicate Dup_Index
0 1 ABC DEF 10 False 0
1 2 XYZ DEF 40 False 1
2 3 ABC DEF 10 True 0
Jak masz swój DF1? –
@RutgerKassies dobre pytanie! Tęskniłem trochę ... –
Dzięki, bardzo eleganckie rozwiązanie. –