2014-10-02 9 views
19

Mam proste wiersz:Konwersja prosty jeden liniowy ciąg RDD w Spark

line = "Hello, world" 

chciałbym, aby przekształcić go do RDD z tylko jednego elementu. Próbowałem

sc.parallelize(line) 

Ale to dostać:

sc.parallelize(line).collect() 
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd'] 

pomysłów?

Odpowiedz

22

spróbować użyć listy jako parametru.

sc.parallelize(List(line)).collect() 

zwraca

res1: Array[String] = Array(hello,world) 
+5

Faktycznie, używając sc.parallelize ([linia]) zbieranie() pracował. – poiuytrez

+0

w moim env (scala 2.10.3 spark-1.0.0) sc.parallelize ([line]). Collect() nie działa – michaeltang

+0

Zapomniałem określić, że używam Pythona API. – poiuytrez

Powiązane problemy