Potrzebuję utworzyć ramkę danych przy użyciu danych przechowywanych w pliku. Do tego chcę użyć metody read_csv
. Jednak separator nie jest bardzo regularny. Niektóre kolumny są oddzielone tabulatorami (\t
), inne są oddzielone spacjami. Co więcej, niektóre kolumny mogą być oddzielone 2 lub 3 lub więcej spacjami lub nawet kombinacją spacji i tabulacji (na przykład 3 spacje, dwie tabulatory i 1 spacja).Jak uczynić separator w read_csv bardziej elastyczną białą spacją?
Czy istnieje sposób, aby powiedzieć pandom, aby traktować te pliki poprawnie?
Nawiasem mówiąc, nie mam tego problemu, jeśli używam Pythona. Używam:
for line in file(file_name):
fld = line.split()
I działa idealnie. Nie ma znaczenia, czy między polami są 2 lub 3 spacje. Nawet kombinacje spacji i zakładek nie powodują żadnych problemów. Czy pandy mogą zrobić to samo?
Możesz także użyć 'skipinitialspace' aby pominąć początkową przestrzeń – jarondl