Jestem nowy w pandach i to jest moje pierwsze pytanie na stackoverflow, próbuję zrobić kilka analiz z pandami.Tworzenie pandy DataFrame z wielu dyktafonów
Mam kilka plików tekstowych z rekordami danych, które chcę przetworzyć. Każda linia pliku odpowiada rekordowi, które pola są w stałym miejscu i mają długość ustalonej liczby znaków. Istnieją różne rodzaje rekordów w tym samym pliku, wszystkie rekordy dzielą pierwsze pole, które są dwoma znakami w zależności od typu rekordu. Jako przykład:
Some file:
01Jhon Smith 555-1234
03Cow Bos primigenius taurus 00401
01Jannette Jhonson 00100000000
...
field start length
type 1 2 *common to all records, example: 01 = person, 03 = animal
name 3 10
surname 13 10
phone 23 8
credit 31 11
fill of spaces
Piszę niektóre kodu do konwersji jednego rekordu do słownika:
person1 = {'type': 01, 'name': = 'Jhon', 'surname': = 'Smith', 'phone': '555-1234'}
person2 = {'type': 01, 'name': 'Jannette', 'surname': 'Jhonson', 'credit': 1000000.00}
animal1 = {'type': 03, 'cname': 'cow', 'sciname': 'Bos....', 'legs': 4, 'tails': 1 }
Jeśli pole jest puste (wypełnione spacjami) tam nie będzie w słowniku) .
Ze wszystkimi rekordami jednego rodzaju chcę utworzyć pandas DataFrame z kluczami dyktowanymi jako nazwami kolumn, spróbuj z pandas.DataFrame.from_dict() bez powodzenia.
I tu pojawia się moje pytanie: czy można to zrobić z pandami, więc klucze dyktowane stają się nazwami kolumn? Czy jest jakaś inna standardowa metoda radzenia sobie z tego rodzaju plikami?
Dziękuję, _list of_ dicts jest kluczem. Pliki są setkami skompresowanego gbip Mbs i nieskompresowanych Gb, więc odczyta się wiersz po linii i dołącza do odpowiedniej ramki DataFrame. – tinproject