Spark: equivelant z zipwithindex w dataframe

Zakładając Mam następujący dataframe:Spark: equivelant z zipwithindex w dataframe

dummy_data = [('a',1),('b',25),('c',3),('d',8),('e',1)] 
df = sc.parallelize(dummy_data).toDF(['letter','number'])

i chcę utworzyć następujący dataframe:

[('a',0),('b',2),('c',1),('d',3),('e',0)]

Co mogę zrobić, to przekształcić go rdd i używać zipWithIndex funkcję i po dołączyć wyniki:

convertDF = (df.select('number') 
       .distinct() 
       .rdd 
       .zipWithIndex() 
       .map(lambda x:(x[0].number,x[1])) 
       .toDF(['old','new'])) 


finalDF = (df 
      .join(convertDF,df.number == convertDF.old) 
      .select(df.letter,convertDF.new))

Czy istnieje funkcja podobna do zipWIthIndex w ramkach danych? Czy istnieje inny skuteczniejszy sposób wykonania tego zadania?

Źródło

2016-08-20 Mpizos Dimitris

http://stackoverflow.com/q/32760888/1560062 – zero323

Proszę sprawdzić https://issues.apache.org/jira/browse/SPARK-23074 dla tego bezpośredniego parzystości funkcjonalności w ramkach danych. Upvote, że jira, jeśli jesteś zainteresowany, aby zobaczyć to w pewnym momencie w Spark.

Oto obejście chociaż w PySpark:

def dfZipWithIndex (df, offset=1, colName="rowId"): 
    ''' 
     Enumerates dataframe rows is native order, like rdd.ZipWithIndex(), but on a dataframe 
     and preserves a schema 

     :param df: source dataframe 
     :param offset: adjustment to zipWithIndex()'s index 
     :param colName: name of the index column 
    ''' 

    new_schema = StructType(
        [StructField(colName,LongType(),True)]  # new added field in front 
        + df.schema.fields       # previous schema 
       ) 

    zipped_rdd = df.rdd.zipWithIndex() 

    new_rdd = zipped_rdd.map(lambda (row,rowId): ([rowId +offset] + list(row))) 

    return spark.createDataFrame(new_rdd, new_schema)

To również dostępny w abalon opakowaniu.

Źródło

2018-01-15 18:34:27 Tagar

Spark: equivelant z zipwithindex w dataframe

Odpowiedz

Powiązane problemy