Moi dataframes zawiera jedno pole, które jest data i wydaje się w formie łańcucha, jako przykładPySpark: filtrowania DataFrame przez pola daty w przedziale gdzie data jest ciąg
'2015-07-02T11:22:21.050Z'
muszę filtrować DataFrame na data uzyskania tylko zapisów w ostatnim tygodniu. Więc starałem podejście mapie, gdzie przerabiałem daty ciągów do obiektów datetime z strptime:
def map_to_datetime(row):
format_string = '%Y-%m-%dT%H:%M:%S.%fZ'
row.date = datetime.strptime(row.date, format_string)
df = df.map(map_to_datetime)
a następnie chciałbym zastosować filtr jako
df.filter(lambda row:
row.date >= (datetime.today() - timedelta(days=7)))
udaje mi się dostać pracę mapowania ale filtr kończy się niepowodzeniem z możliwością filtrowania w sposób, który działa lub czy powinienem zmienić podejście i jak?