Chcę przeczytać w bardzo dużym csv (nie można otworzyć w programie Excel i łatwo edytować), ale gdzieś w okolicach 100 000-ego wiersza znajduje się wiersz z jedną dodatkową kolumną powodującą awarię programu. Ten wiersz jest błędny, więc potrzebuję sposobu, aby zignorować fakt, że była to dodatkowa kolumna. Istnieje około 50 kolumn, więc kodowanie na twardym dysku nagłówków i używanie nazw lub zestawów nie jest preferowane. Będę też mógł napotkać ten problem w innych CSV i chcę ogólnego rozwiązania. Nie mogłem znaleźć nic w read_csv niestety. Kod jest tak proste, jak to:Pandas dataframe read_csv na złe dane
def loadCSV(filePath):
dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000)
datakeys = dataframe.keys();
return dataframe, datakeys
Potrzebujesz 'error_bad_lines = False' aby pominąć błędne dane – EdChum