2017-10-29 33 views
6

Co to jest opcja włączenia indeksowania z iskry?Jak używać indeksów Spark ORC?

  df 
      .write() 
      .option("mode", "DROPMALFORMED") 
      .option("compression", "snappy") 
      .mode("overwrite") 
      .format("orc") 
      .option("index", "user_id") 
      .save(...); 

Robię się .option("index", uid), co musiałbym tam umieścić do kolumny indeksu „user_id” od orka.

Odpowiedz

2

Wypróbowałeś: ?

df 
     .write() 
     .option("mode", "DROPMALFORMED") 
     .option("compression", "snappy") 
     .mode("overwrite") 
     .format("orc") 
     .partitionBy("user_id") 
     .save(...) 
+0

Myślę, że partitionBy utworzy nowy plik na użytkownika, zamiast tworzyć indeks. Ale jesteś tylko tym, który odpowiedział, więc daję ci nagrodę. – ForeverConfused

+0

@ForeverConfused badam na ten temat. Damy ci wkrótce znać. – Achyuth

+0

@Achyuth, czy znalazłeś jakieś podejście do stworzenia indeksu w pliku ORC? Nic nie znalazłem do dzisiaj. Wydaje mi się, że jedynym sposobem na wykorzystanie indeksu w pliku ORC jest użycie Hive. Proszę mnie poprawić, jeśli jest źle. Dzięki! –

Powiązane problemy