Próbuję utworzyć DataFrame
przy użyciu RDD
.Utwórz DataFrame z wartością pustą dla kilku kolumn
Pierwszy Tworzę RDD
za pomocą poniższego kodu -
val account = sc.parallelize(Seq(
(1, null, 2,"F"),
(2, 2, 4, "F"),
(3, 3, 6, "N"),
(4,null,8,"F")))
To działa bez zarzutu -
konto: org.apache.spark.rdd.RDD [(int, int, dowolny łańcuch)] = ParallelCollectionRDD [0] w parallelize na: 27
ale podczas próby utworzenia DataFrame
z RDD
za pomocą poniższego kodu
account.toDF("ACCT_ID", "M_CD", "C_CD","IND")
otrzymuję poniżej błędu
java.lang.UnsupportedOperationException: schema dla typu Dowolna nie obsługiwane
analizowałem że gdy kładę null
wartości w Seq
to tylko dostałem błąd.
Czy istnieje sposób na dodanie wartości pustej?
użycie '(1, null: Integer, 2, "F")' – dk14