Mam dokument tekstowy z 32 artykułami w nim i chcę zobaczyć datę każdego artykułu. Zauważyłem, że data pojawia się w piątym wierszu każdego artykułu. Do tej pory mam podzielić tekst do 32 artykułów przy użyciu:Lista dat w tekście
import re
sections = []
current = []
with open("Aberdeen2005.txt") as f:
for line in f:
if re.search(r"(?i)\d+ of \d+ DOCUMENTS", line):
sections.append("".join(current))
current = [line]
else:
current.append(line)
print(len(sections))
będę chciał stworzyć listę zawierającą datę dla każdego artykułu, miesiąc i tylko roku:
Jak można zauważyć, , data pojawia się w formacie z powyższego zdjęcia, ale czasami nie ma dnia, np Czwartek.
Wszelkie pomysły?
poważaniem,
Andres
Ps. Oto kolejny przykład na 16 dokumentu:
Jak wyglądałby kod? –
Podczas próby wstawienia pojawia się błąd dotyczący kart i spacji. Mimo to pomysł jest fantastyczny, wielkie dzięki! –
Nie ma za co! Trudno powiedzieć dokładnie, jak wygląda formatowanie liniowe z obrazu, więc jeśli możesz dodać do swojego pytania faktyczne pierwsze 5 linii z artykułu, które mogą pomóc. Czym dokładnie jest błąd? –