9

Jak mogę obliczyć matrycę korelacji krzyżowej Pearsona z dużego zbioru danych (> 10 TB), być może w sposób rozproszony? Sugerowana będzie każda skuteczna sugestia dotycząca rozproszonego algorytmu.Obliczanie macierzy międzyoperacyjnej macierzy korelacji krzyżowej

zmiana: Czytam realizacji apache zapłonowej mlib korelacji

Pearson Computaation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala 
Covariance Computation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala 

ale dla mnie to wygląda jak wszystkie obliczenia dzieje się w jednym węźle i nie jest dystrybuowany w prawdziwym tego słowa znaczeniu.

Proszę włożyć tu trochę światła. Próbowałem też wykonanie go na 3 węzłów klastra zapłonowej i poniżej zrzut ekranu:

Entire Computation timeline One the task details

Jak widać od 2 zdjęcia, które dane są zatrzymał się w jednym węźle, a następnie obliczenie jest wykonywana. Czy jestem tutaj?

Odpowiedz

5

Na początek spójrz na this, aby sprawdzić, czy wszystko idzie dobrze. Możesz następnie odwołać się do dowolnej z tych implementacji: MPI/OpenMP: Agomezl lub Meismyles, MapReduce: Vangjee lub Seawolf42. Przed kontynuowaniem warto również przeczytać this. Inna uwaga: James's thesis dostarcza trochę wskazówek, jeśli interesuje cię obliczanie korelacji, które są odporne na wartości odstające.

+0

Dzięki za wskazanie mi pracy The James. Byłoby wspaniale, gdybyś mógł odpowiedzieć na to: http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –

+0

James thesis mówi o obliczeniach kowariancji Maronny i kwadrantu, ale nie mogłem w stanie zrozumieć te 2 algorytmy, Czy znasz jakieś łącze, gdzie wyjaśniono te 2 algorytmy. –

Powiązane problemy