Łączenie dwóch DataFrame w Spark SQL i wybieranie kolumn tylko jednego

Mam dwa DataFrames w Spark SQL (D1 i D2).Łączenie dwóch DataFrame w Spark SQL i wybieranie kolumn tylko jednego

Próbuję wewnętrzna przyłączyć oboje D1.join(D2, "some column") i odzyskać dane tylko D1, nie kompletne dane ustawione.

Zarówno D1, jak i D2 mają te same kolumny.

Czy ktoś mógłby mi w tym pomóc?

Używam Spark 1.6.

Źródło

2016-08-02 Avi

Powiedzmy, że chcesz dołączyć do kolumny "id". Następnie można napisać:

val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
import sqlContext.implicits._  
d1.as("d1").join(d2.as("d2"), $"d1.id" === $"d2.id").select($"d1.*")

Źródło

2016-08-02 13:08:40 cheseaux

Cześć, to odpowiedź pomaga. Mam głupie pytanie. Co oznacza znak $? Dostaję błąd, gdy próbuję napisać znak $ w moim kodzie. – Avi

Jest to alternatywny sposób dostępu do kolumn DataFrame, jak wyjaśniono [tutaj] (https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/Column.html), ale musisz zaimportować pakiet implicits (edytowałem swoją odpowiedź) – cheseaux

Cóż, istnieje również opcja łączenia "leftsemi". Zawiera wiersze z lewego stołu, które mają pasujący wiersz po prawej stronie. Nie trzeba też deduplikować, ponieważ pasujące wiersze są uwzględniane tylko raz. – user238607

jako alternatywne odpowiedzi, można również wykonać następujące czynności bez dodawania aliasów:

d1.join(d2, d1("id") === d2("id")) 
    .select(d1.columns.map(c => d1(c)): _*)

Źródło

2018-01-30 11:12:05 nsanglar

Łączenie dwóch DataFrame w Spark SQL i wybieranie kolumn tylko jednego

Odpowiedz

Powiązane problemy