Jak liczyć wystąpienia każdej odrębnej wartości w kolumnie?

edf.select("x").distinct.show() pokazuje różne wartości, które są obecne w kolumnie x z edf DataFrame.Jak liczyć wystąpienia każdej odrębnej wartości w kolumnie?

Czy istnieje skuteczna metoda pokazująca liczbę wystąpień tych odrębnych wartości w ramce danych? (Liczą się dla każdej odrębnej wartości)

Źródło

2016-06-21 Adurthi Ashwin Swarup

countDistinct jest prawdopodobnie pierwszym wyborem:

import org.apache.spark.sql.functions.countDistinct 

df.agg(countDistinct("some_column"))

Jeśli prędkość jest ważniejsza niż dokładność można rozważyć approxCountDistinct:

import org.apache.spark.sql.functions.approx_count_distinct 

df.agg(approxCountDistinct("some_column"))

Aby uzyskać wartości i liczby :

df.groupBy("some_column").count()

W języku SQL (spark-sql):

SELECT COUNT(DISTINCT some_column) FROM df

SELECT approx_count_distinct(some_column) FROM df

Źródło

2016-06-21 16:14:20 zero323

df.select("some_column").distinct.count

Źródło

2016-12-13 06:03:31

Czy to powiedzieć, jak rachubę każdej odrębnej wartości? Myślę, że to by powiedzieć, że masz wartości X, nie, że Val1 ma A, Val2 ma B, .. ValX ma C? –

Jak liczyć wystąpienia każdej odrębnej wartości w kolumnie?

Odpowiedz

Powiązane problemy