Muszę wyczyścić plik danych wejściowych w python. Z powodu błędu literowego pole danych może mieć łańcuchy zamiast liczb. Chciałbym zidentyfikować wszystkie pola, które są ciągiem znaków i wypełnić je NaN za pomocą pand. Chciałbym również zarejestrować indeks tych pól.czyszczenie dużych danych przy użyciu python
Jednym z najprostszych sposobów jest przechodzenie przez każde pole i sprawdzanie, czy jest to liczba, czy nie, ale to zajmuje dużo czasu, jeśli dane są duże.
Mój plik CSV zawiera dane podobne do poniższej tabeli:
Country Count Sales
USA 1 65000
UK 3 4000
IND 8 g
SPA 3 9000
NTH 5 80000
.... Załóżmy, że mam 60.000 takich wierszy danych.
Idealnie chciałbym wskazać, że wiersz IND ma nieprawidłową wartość w kolumnie SALES. Wszelkie sugestie, jak to zrobić skutecznie?
Pętla na pliku z '60000' rzędach naprawdę nie powinno brać bardzo długo. Wydaje mi się, że czas spędzony z tą metodą byłby mało zauważalny. Czy możesz pokazać, co próbujesz, a także testy porównawcze, pokazujące, że naprawdę jest to znaczące obciążenie dla Twojego komputera? – mgilson
Jeśli zajmuje to więcej czasu, użyj modułu wieloprocesorowego, ale to naprawdę nie powinno zająć więcej niż kilka sekund, oczywiście w zależności od liczby linii, które chcesz edytować. – sean