Mam dwie kolumny timestamp w ramce danych, które chciałbym uzyskać różnicę minutową lub, alternatywnie, różnicę godzinową. Obecnie jestem w stanie uzyskać różnicę dzień, z zaokrągleniem, wykonującSchemat iskrzenia: DateDiff dwóch kolumn według godziny lub minuty
val df2 = df1.withColumn("time", datediff(df1("ts1"), df1("ts2")))
Jednak, kiedy spojrzał na stronie doc https://issues.apache.org/jira/browse/SPARK-8185 nie widać żadnych dodatkowych parametrów, aby zmienić jednostkę. Czy ich funkcja powinna być inna?
Moje rozwiązanie będzie obliczyć różnicę dla każdego wiersza w DataFrame. Dokładniej opisz, czy jest z tym jakiś problem. Ponadto, dla twojego rozwiązania, uważam, że lepiej byłoby unikać wyrażeń łańcuchowych (trudniej je przetestować i bardziej podatnych na błędy): 'val df2 = df1.select ((unix_timestamp (ts1) - unix_timestamp (ts2))/3600D)' . –