8
Mam RDD, które tworzę poprzez załadowanie pliku tekstowego i jego wstępne przetwarzanie. Nie chcę go zbierać i zapisywać na dysku lub w pamięci (całe dane), ale chcę przekazać go do innej funkcji w pythonie, która zużywa dane jeden po drugim w formie iterowalnej.Konwertuj RDD na iterowalny: PySpark?
Jak to jest możliwe?
data = sc.textFile('file.txt').map(lambda x: some_func(x))
an_iterable = data. ## what should I do here to make it give me one element at a time?
def model1(an_iterable):
for i in an_iterable:
do_that(i)
model(an_iterable)