Aktualizowanie wartości w pliku parkietu apache

Mam dość mocny plik parkietu, w którym muszę zmienić wartości dla jednej z kolumn. Jednym ze sposobów na zrobienie tego byłoby zaktualizowanie tych wartości w źródłowych plikach tekstowych i odtworzenie pliku parkietu, ale zastanawiam się, czy istnieje tańsze i ogólnie łatwiejsze do rozwiązania rozwiązanie.Aktualizowanie wartości w pliku parkietu apache

Źródło

2015-03-03 marcin_koss

Nie. Musisz ponownie utworzyć plik. –

@DanOsipov Dzięki. Zakładam, że to ograniczenie wynika z zastosowania różnych algorytmów kompresji, w których nie byłoby łatwo zaktualizować wartości kolumn. –

Powiedziałbym, że jest to o wiele bardziej fundamentalne pytanie, niż pytanie dotyczące parkietu. W świecie dużych ilości danych, w których często używa się parkietu, niezmienność jest czymś, na czym chcielibyście zadbać. Z tej perspektywy chciałbyś załadować dane, przekształcić je, a następnie zapisać ponownie. Można rozważyć tylko zapisanie kolumn, które są potrzebne, co czyni je bardziej wydajnymi, ponieważ jest to format kolumnowy. –

Zacznijmy od podstaw

parkiet Jeżeli fileformat ale musi być zapisany w systemie.
Czy dołączono obsługę Parquet. ?
Czy plik FileSystem (HDFS) zezwala na dołączanie do pliku.
Nawet jeśli wszystkie są prawdziwe czy ramy pracy (Spark) jest w stanie obsłużyć dołączyć

odpowiada:

parkiet parquet.hadoop.ParquetFileWriter obsługuje tylko tworzyć i nadpisać ale nie append tryb. (Nie jestem pewien, ale może się to zmienić w innej realizacji, projekt parkiet ma wsparcie dopisuje)
HDFS HDFS pozwala na dołączanie plików z użyciem (własność dfs.support.append)
Spark ramy nie obsługuje dołączanie do istniejących pliki parkietowe.

https://issues.apache.org/jira/browse/SPARK-18199

Proszę przejść

http://bytepadding.com/big-data/spark/read-write-parquet-files-using-spark/

http://bytepadding.com/linux/understanding-basics-of-filesystem/

w celu uzyskania szczegółowego zrozumienia.

Źródło

2017-03-25 11:27:31 KrazyGautam

Dzięki za szczegółową odpowiedź i podstawowe informacje. to jest pomocne – Keith

Musisz ponownie utworzyć plik, to jest sposób Hadoop. Zwłaszcza jeśli plik jest skompresowany.

Innym podejściem (bardzo powszechnym w dużych danych) jest wykonanie aktualizacji w innym pliku Parkietu (lub ORC), a następnie JOIN/UNION w czasie zapytania.

Źródło

2017-06-12 08:59:33

Aktualizowanie wartości w pliku parkietu apache

Odpowiedz

Powiązane problemy