Jak używać indeksów Spark ORC?

Co to jest opcja włączenia indeksowania z iskry?Jak używać indeksów Spark ORC?

  df 
      .write() 
      .option("mode", "DROPMALFORMED") 
      .option("compression", "snappy") 
      .mode("overwrite") 
      .format("orc") 
      .option("index", "user_id") 
      .save(...);

Robię się .option("index", uid), co musiałbym tam umieścić do kolumny indeksu „user_id” od orka.

Źródło

2017-10-29 ForeverConfused

Wypróbowałeś: ?

df 
     .write() 
     .option("mode", "DROPMALFORMED") 
     .option("compression", "snappy") 
     .mode("overwrite") 
     .format("orc") 
     .partitionBy("user_id") 
     .save(...)

Źródło

2017-11-08 18:08:57

Myślę, że partitionBy utworzy nowy plik na użytkownika, zamiast tworzyć indeks. Ale jesteś tylko tym, który odpowiedział, więc daję ci nagrodę. – ForeverConfused

@ForeverConfused badam na ten temat. Damy ci wkrótce znać. – Achyuth

@Achyuth, czy znalazłeś jakieś podejście do stworzenia indeksu w pliku ORC? Nic nie znalazłem do dzisiaj. Wydaje mi się, że jedynym sposobem na wykorzystanie indeksu w pliku ORC jest użycie Hive. Proszę mnie poprawić, jeśli jest źle. Dzięki! –

Jak używać indeksów Spark ORC?

Odpowiedz

Powiązane problemy