Mam skrypt Apache Spark działający w Google Compute Engine, który na potrzeby wypuszczenia Google Cloud Storage. Mam ponad 300 częściowych plików 00XXX w folderze Cloud Storage. Chciałbym je połączyć.Scalanie ponad 32 plików w Google Cloud Storage
Próbowałem:
[email protected]:~$ gsutil compose gs://mybucket/data/* gs://mybucket/myfile.csv
Ale mam ten błąd:
CommandException: "compose" called with too many component objects. Limit is 32.
jakieś pomysły roztworu do scalić wszystkie pliki tezy części?
Podziel pliki na porcje zawierające 32 pliki. Scalaj każdy indywidualnie. Zaczynając od plików N, będziesz mieć teraz pliki N/32. powtarzać. Jeśli masz wystarczająco dużo pamięci, możesz to zrobić za pomocą linii podrzędnych i nie będziesz musiał za każdym razem czytać/zapisywać na dysku. –