Istnieje kilka opcji, aby uzyskać dostęp do biblioteki R w Spark:Korzystanie R w Apache Spark
- bezpośrednio korzystające sparkr
- używając powiązań językowych jak rpy2 lub
rscala
- użyciu autonomicznego usługi jak opencpu
Wygląda na to, że SparkR jest dość ograniczony, OpenCPU wymaga utrzymywania dodatkowej usługi, a powiązania mogą mieć sta kwestia bility. Czy jest coś szczególnego w architekturze Sparka, które sprawia, że używanie dowolnego rozwiązania nie jest łatwe.
Czy masz jakieś doświadczenia z integracją R i Spark, którymi możesz się podzielić?
Czy uważasz, że OpenCPU nie jest dobrą opcją? –
@CafeFeed Nie mam z tym doświadczenia. – lgautier