Mam dwa DataFrames w Spark SQL (D1 i D2).Łączenie dwóch DataFrame w Spark SQL i wybieranie kolumn tylko jednego
Próbuję wewnętrzna przyłączyć oboje D1.join(D2, "some column")
i odzyskać dane tylko D1, nie kompletne dane ustawione.
Zarówno D1, jak i D2 mają te same kolumny.
Czy ktoś mógłby mi w tym pomóc?
Używam Spark 1.6.
Cześć, to odpowiedź pomaga. Mam głupie pytanie. Co oznacza znak $? Dostaję błąd, gdy próbuję napisać znak $ w moim kodzie. – Avi
Jest to alternatywny sposób dostępu do kolumn DataFrame, jak wyjaśniono [tutaj] (https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/Column.html), ale musisz zaimportować pakiet implicits (edytowałem swoją odpowiedź) – cheseaux
Cóż, istnieje również opcja łączenia "leftsemi". Zawiera wiersze z lewego stołu, które mają pasujący wiersz po prawej stronie. Nie trzeba też deduplikować, ponieważ pasujące wiersze są uwzględniane tylko raz. – user238607