2016-12-15 58 views
5

I chcę, aby dowiedzieć się, co wszystkie pozycje df, które nie są w DF1, także pozycje DF1 ale nie w dfPyspark „PipelinedRDD” ma atrybut „Show”

df =sc.parallelize([1,2,3,4 ,5 ,6,7,8,9]) 
    df1=sc.parallelize([4 ,5 ,6,7,8,9,10]) 
    df2 = df.subtract(df1) 
    df2.show() 
    df3 = df1.subtract(df) 
    df3.show() 

Wystarczy chcieć aby sprawdzić wynik, aby zobaczyć, czy dobrze rozumiem funkcję. Ale dostałem ten błąd Obiekt "PipelinedRDD" nie ma atrybutu "pokaż" jakiejkolwiek sugestii?

Odpowiedz

7
print(df2.take(10)) 

df.show() jest tylko dla zapłonowej DataFrame

-1

Drukuje się, że jest to RDD i że typ jest PipelinedRDD nie lista wartości jak moglibyśmy expect.That dlatego, że nie przeprowadziliśmy jeszcze działamy, przeprowadziliśmy tylko transformację.

Spróbuj zrobić

df3.count() 

wtedy można zrobić

df3.show() 
+1

to nie działa, ponieważ DF3 jest RDD, a nie dataframe. – David

Powiązane problemy