OSTATNIA EDYCJA
Dla każdego, mającego ten problem, odpowiedź jest prostsza: here.
EDIT 2
zdałem sobie sprawę po pierwszej edycji, że jest nieco bardziej zawiła, więc oto nowa edycja dla każdego, o które mogą się przydać w przyszłości.
Problem polega na tym, że Spark nie dostarcza już katalogu ec2 w ramach oficjalnej dystrybucji. Jeśli przyzwyczaiłeś się do tego, że w ten sposób kręcą się Twoje niezależne klastry, to jest to problem.
Rozwiązanie jest proste:
- Pobierz oficjalnego katalogu EC2 jak wyszczególniono w Spark 2.0.0 dokumentacji.
- Jeśli po prostu skopiujesz katalog do swojego Sparka 2.0.0 i uruchomisz plik wykonywalny
spark-ec2
, aby naśladować sposób działania Sparka 1. *, będziesz mógł normalnie spinować swój klaster. Ale kiedy się z nim zapoznasz, zrozumiesz, że żaden z plików binarnych już tam nie jest.
- Po zaksięgowaniu klastra (jak zwykle w przypadku
spark-ec2
pobranego w kroku 1), musisz mieć lokalny katalog zawierający Spark 2.0.0 do wzorca swojego nowo utworzonego klastra. Gdy to zrobisz, możesz normalnie wykonywać zadania.
Naprawdę proste, ale wydaje mi się, że dokumenty Sparka mogą być jasne o tym dla nas wszystkich norm.
EDIT: To było w rzeczywistości, co trzeba zrobić. Dla każdego, kto ma to samo pytanie: pobierz katalog EC2 z AMPLab, jak sugeruje Spark, umieść ten folder w lokalnym reżimie Spark-2.0.0 i jak zwykle zapisz skrypty. Najwyraźniej odłączyli tylko katalog w celach konserwacyjnych, ale logika jest wciąż taka sama. Byłoby miło mieć kilka słów na ten temat w dokumentach Sparka.
Próbowałem następujące: sklonowany katalogu z linku AMPLab iskra-EC2-oddział-1.6 do mojego katalogu zapłonie 2.0.0 i próbował uruchomić klaster ze zwykłym poleceniem ./ec2/spark-ec2
. Może tego właśnie chcą, żebyśmy zrobili?
Uruchomiłem mały 16-węzłowy klaster. Widzę to na desce rozdzielczej AWS, ale terminal zatrzymał drukowanie zwykłego błędu SSH w przeszłości ... prawie dwie godziny.
Warning: SSH connection error. (This could be temporary.) Host: ec2-54-165-25-18.compute-1.amazonaws.com SSH return code: 255 SSH output: ssh: connect to host ec2-54-165-25-18.compute-1.amazonaws.com port 22: Connection refused
zaktualizuje jeśli znajdę coś pożytecznego.
Przejdź do katalogu ec2 oznacza katalog, w którym pobrano Apache Spark z github. – error2007s
@ error2007s Problem polega na tym, że nie ma katalogu ec2 w Spark 2.0.0. Instrukcje podane w łączu UC Berkeley AMPLab są bardzo niejasne. – xv70