Spark SQL - różnica między formatami kompresji gzip vs snappy vs lzo

Próbuję użyć Spark SQL do napisania pliku parquet.Spark SQL - różnica między formatami kompresji gzip vs snappy vs lzo

Domyślnie Spark SQL obsługuje gzip, ale obsługuje również inne formaty kompresji, takie jak snappy i lzo.

Jaka jest różnica między tymi formatami kompresji i która z nich najlepiej jest pracować z ładowaniem Hive.

Źródło

2016-03-04 Shankar

Wydaje się, że domyślnie używa Spark "żwawy", a nie "gzip". Przynajmniej to widzę na s3: pliki utworzone za pomocą łańcucha "snappy" jako część ich nazwy. – bashan

@bashan: ostatnie wersje iskry zmieniły domyślny format na snappy, do 1.6.1 widzę domyślny format kompresji parkietowej to gzip. – Shankar

Po prostu wypróbuj je na swoich danych.

Lzo i Snappy to szybkie kompresory i bardzo szybkie dekompresory, ale z mniejszą kompresją, w porównaniu z gzipem, który kompresuje się lepiej, ale jest nieco wolniejszy.

Źródło

2016-03-04 07:44:40

Używaj Snappy, jeśli potrafisz wykorzystać większe użycie dysku, aby uzyskać korzyści związane z wydajnością (niższy CPU + Splittable).

Kiedy Spark przełączane z GZIP do sztuczki domyślnie jest to rozumowanie:

Na podstawie naszych badań, gzip dekompresji jest bardzo powolna (< 100MB/s), podejmowania zapytań dekompresja związana. Snappy może rozpakować na poziomie ~ 500MB/s na jednym rdzeniu.

Snappy:

Schowek: Wysoka
CPU Usage: Niski
rozszczepialnego: Tak (1)

GZIP:

Schowek: Średni
CPU Usage: Średni
rozszczepialnego: nr

1) http://boristyukin.com/is-snappy-compressed-parquet-file-splittable/

Źródło

2017-05-30 03:18:22 Garren

Spark SQL - różnica między formatami kompresji gzip vs snappy vs lzo

Odpowiedz

Powiązane problemy