Chcę użyć funkcji pyspark.mllib.stat.Statistics.corr
do obliczenia korelacji między dwiema kolumnami obiektu pyspark.sql.dataframe.DataFrame
. Funkcja corr
oczekuje pobrania obiektów rdd
z Vectors
. Jak przetłumaczyć kolumnę obiektu df['some_name']
na rdd
obiektu Vectors.dense
?Korelacja komputerowa Pyspark
5
A
Odpowiedz
5
Nie powinno być takiej potrzeby. Dla liczbowa, którą można obliczyć korelację bezpośrednio za pomocą DataFrameStatFunctions.corr
:
df1 = sc.parallelize([(0.0, 1.0), (1.0, 0.0)]).toDF(["x", "y"])
df1.stat.corr("x", "y")
# -1.0
inaczej można użyć VectorAssembler
:
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=df.columns, outputCol="features")
assembler.transform(df).select("features").flatMap(lambda x: x)
1
Ok I zdobione:
v1 = df.flatMap(lambda x: Vectors.dense(x[col_idx_1]))
v2 = df.flatMap(lambda x: Vectors.dense(x[col_idx_2]))
Powiązane problemy
- 1. Korelacja IComMethodEvents
- 2. Ważona korelacja Pearsona?
- 3. Korelacja wartości varchar
- 4. Korelacja między dwoma wektorami?
- 5. Grafika komputerowa: matematyka do kodu
- 6. Pełnoekranowa aplikacja komputerowa z QML
- 7. Korelacja między kolumnami w DataFrame
- 8. Rejestrowanie PySpark?
- 9. Komputerowa wizja, wykrywanie dróg, od czego zacząć?
- 10. Windows 10 Powiadomienia o toastach Aplikacja komputerowa
- 11. Natywna aplikacja komputerowa Angular 2 (bez Electron)
- 12. Pakiet html, js, css jako aplikacja komputerowa
- 13. Scipy: korelacja odległości jest większa niż 1
- 14. Scipy: Korelacja Pearsona zawsze wraca 1
- 15. Import modułu importującego PySpark
- 16. Eksplodować w PySpark
- 17. Łączy dwa dataframes PySpark
- 18. takeOrdered malejąco Pyspark
- 19. Running nosetests for pyspark
- 20. PySpark wierszami funkcją składu
- 21. Nie można uruchomić pyspark
- 22. Pivot wiele kolumn - pyspark
- 23. Pyspark: shuffle RDD
- 24. filtrowanie Kolumna w PySpark
- 25. PySpark groupByKey powrocie pyspark.resultiterable.ResultIterable
- 26. Jak działa funkcja Pyspark mapPartitions?
- 27. Jak ustawić spark.sql.parquet.output.committer.class w pyspark
- 28. matryca pyspark ze zmiennych binarnych
- 29. Utwórz profil PySpark dla IPython
- 30. Pyspark StructType nie jest zdefiniowany
Obsługuje tylko Pearson. – VJune