W tej chwili piszę trochę kodu Pythona, aby poradzić sobie z ogromnymi plikami twitter. Te pliki są tak duże, że nie mieszczą się w pamięci. Aby z nimi pracować, mam w zasadzie dwie możliwości.Efektywność czytania linii po linii w Pythonie
Mogę podzielić pliki na mniejsze pliki, które zmieszczą się w pamięci.
Mogłem przetworzyć duży plik wiersz po wierszu, więc nigdy nie muszę dopasowywać całego pliku do pamięci naraz. Wolałbym to drugie ze względu na łatwość wdrożenia.
Zastanawiam się jednak, czy szybciej jest odczytać w całym pliku do pamięci, a następnie manipulować nim stamtąd. Wydaje się, że powolne byłoby ciągłe czytanie pliku po linii z dysku. Ale znowu nie w pełni rozumiem, jak te procesy działają w Pythonie. Czy ktoś wie, czy odczytanie linii po linii spowoduje, że mój kod będzie wolniejszy, niż gdybym przeczytał cały plik w pamięci i po prostu nim manipulował?
Dlaczego nie spróbować czytać wiersz po linii i zobaczyć? Jeśli ci się uda, to jest świetne i nie jest tak, że zmiana go będzie trudna. –
to zawsze zależy od tego, jak masywny jest "masywny". – Shep
Miejmy nadzieję, że przydatna odpowiedź: http://stackoverflow.com/a/8717312/416626 – urschrei