Próbuję utworzyć pustą ramkę danych w Spark (Pyspark).Jak utworzyć pustą ramkę DataFrame? Dlaczego "ValueError: RDD jest pusty"?
Używam podobnego podejścia do omawianego tutaj enter link description here, ale to nie działa.
To jest mój kod
df = sqlContext.createDataFrame(sc.emptyRDD(), schema)
Jest to błąd
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 404, in createDataFrame
rdd, schema = self._createFromRDD(data, schema, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 285, in _createFromRDD
struct = self._inferSchema(rdd, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 229, in _inferSchema
first = rdd.first()
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1320, in first
raise ValueError("RDD is empty")
ValueError: RDD is empty
mógłbyś podać jakieś źródło udowodnienia tego twierdzenia? –
Wygląda na to, że nie jest to konieczne. Po prostu przyjrzeliśmy się informacjom API dla createDataFrame i pokazuje domyślne schematy dla none, więc powinien istnieć sposób na stworzenie ramek danych bez schematu: https://spark.apache.org/docs/latest/api/ python/pyspark.sql.html –