2015-06-29 16 views
16

Używam Spark 1.3.1.Wyświetlanie zawartości kolumny Dataframe Spark

Próbuję wyświetlić wartości kolumny słupka danych Spark w języku Python. Dzięki ramce danych Spark mogę wykonać df.collect(), aby wyświetlić zawartość ramki danych, ale nie ma takiej metody dla kolumny danych szarego Sparka, jak najlepiej widać. Na przykład ramka danych df zawiera na przykład kolumnę o nazwie 'zip_code'. Więc mogę zrobić df['zip_code'] i zmienia się w typ pyspark.sql.dataframe.Column, ale nie mogę znaleźć sposobu, aby wyświetlić wartości w df['zip_code'].

Odpowiedz

18

Można uzyskać dostęp do bazowego RDD i mapę nad nim

df.rdd.map(lambda r: r.zip_code).collect() 

Można również użyć select jeśli nie przeszkadza wyniki zapakowane stosując obiekty:

df.select('zip_code').collect() 

Wreszcie, jeśli chcesz po prostu w celu sprawdzenia zawartości wystarczy metoda:

df.select('zip_code').show() 
+0

Pytanie **, o którym tu mowa, nie jest, _ "Jak wyświetlić zawartość ** ramki danych **, ale tylko jedną kolumnę tego?" _, Ale raczej _ "Biorąc pod uwagę obiekt typ ** Kolumna ** i brak obiektów typu ** Dataframe **, jak mogę wyświetlić zawartość tej ** kolumny **? _ –

+1

@JordanPilat Nie. 'Kolumna' nie jest związana z żadną realizacją To nic więcej niż symbol – zero323

+1

Dobra odpowiedź! Aby wyjaśnić, 'Kolumna' nie zawiera żadnych danych sama w sobie i reprezentuje tylko serię _0 lub więcej_ transformacji kolumn _1 lub więcej_ specyficznych' DataFrame'. Dlatego nie ma sensu odwoływać się do niego poza kontekstem 'DataFrame', z którego został utworzony.Tak, prawda? –

-1

Aby wyświetlić pełną zawartość:

df.select("raw").take(1).foreach(println) 

(show pokaże przegląd).

Powiązane problemy