Poniżej zamieszczam przykłady z książki Python do analizy danych. Konkretnie, baza danych wyborów z 2012 r. Z rozdziału 9. Dane znajdują się w dużym pliku csv, rozdzielonym przecinkiem. Ale każda linia pliku ma dodatkowy końcowy separator, który wydaje się mylić pandas.read_csv
.python pandy - ograniczanie końcowe myli read_csv
Traktuje dodatkowy ogranicznik jakby tam dodatkowa kolumna. Jest więc jeszcze jedna kolumna, niż wymagają nagłówki. Następnie pandas.read_csv
przyjmuje pierwszą kolumnę jako etykiety wiersza. Ogólny efekt jest taki, że kolumny i nagłówki nie są już wyrównane - pierwsza kolumna staje się etykietami wierszy, druga kolumna jest nazwana przez pierwszy nagłówek itd.
To dość denerwujące. Każdy pomysł, jak powiedzieć pandas.read_csv
zrobić dobrze? Nie mogłem go znaleźć.
Wielka książka, BTW.
Dobrze wiedzieć, że istnieje repozytorium github dla książki. Dzięki, Wes. – edwardw
Po prostu powiedziałem, że ten problem występuje w innych lokalizacjach; Właśnie pobrałem niektóre dane pogodowe z witryny NOAA Climate, a koniec każdego pliku CSV zawiera dodatkowy przecinek. Wymyśliłem to samo obejście wymienione powyżej. To denerwujące i zajęło mi trochę czasu, aby dowiedzieć się, dlaczego read_csv() nie działa. – user2072880