2016-07-27 15 views
6

Wraz z wydaniem Spark 2.0 dzisiaj one usunięte natywne wsparcie dla uruchamiania iskry klastra EC2 na AWS: skrypt EC2Jak uruchomić Spark 2.0 na EC2

https://spark.apache.org/releases/spark-release-2-0-0.html#removals-behavior-changes-and-deprecations

Spark został całkowicie przeniesiony do zewnętrznego repozytorium gospodarzem przez UC Berkeley AMPLab

na stronie AMPLab gitHub obejmuje czynności:

https://github.com/amplab/spark-ec2/tree/branch-2.0#launching-a-cluster

Przejdź do katalogu EC2 w wersji Apache Spark ty pobrane.

Problem polega na tym, że w wersji 2.0 nie ma folderu ec2. Ktoś wie, w jaki sposób mogę uruchomić klaster Spark 2.0 w EC2?

Z góry dziękuję.

+0

Przejdź do katalogu ec2 oznacza katalog, w którym pobrano Apache Spark z github. – error2007s

+2

@ error2007s Problem polega na tym, że nie ma katalogu ec2 w Spark 2.0.0. Instrukcje podane w łączu UC Berkeley AMPLab są bardzo niejasne. – xv70

Odpowiedz

6

OSTATNIA EDYCJA

Dla każdego, mającego ten problem, odpowiedź jest prostsza: here.

EDIT 2

zdałem sobie sprawę po pierwszej edycji, że jest nieco bardziej zawiła, więc oto nowa edycja dla każdego, o które mogą się przydać w przyszłości.

Problem polega na tym, że Spark nie dostarcza już katalogu ec2 w ramach oficjalnej dystrybucji. Jeśli przyzwyczaiłeś się do tego, że w ten sposób kręcą się Twoje niezależne klastry, to jest to problem.

Rozwiązanie jest proste:

  1. Pobierz oficjalnego katalogu EC2 jak wyszczególniono w Spark 2.0.0 dokumentacji.
  2. Jeśli po prostu skopiujesz katalog do swojego Sparka 2.0.0 i uruchomisz plik wykonywalny spark-ec2, aby naśladować sposób działania Sparka 1. *, będziesz mógł normalnie spinować swój klaster. Ale kiedy się z nim zapoznasz, zrozumiesz, że żaden z plików binarnych już tam nie jest.
  3. Po zaksięgowaniu klastra (jak zwykle w przypadku spark-ec2 pobranego w kroku 1), musisz mieć lokalny katalog zawierający Spark 2.0.0 do wzorca swojego nowo utworzonego klastra. Gdy to zrobisz, możesz normalnie wykonywać zadania.

Naprawdę proste, ale wydaje mi się, że dokumenty Sparka mogą być jasne o tym dla nas wszystkich norm.


EDIT: To było w rzeczywistości, co trzeba zrobić. Dla każdego, kto ma to samo pytanie: pobierz katalog EC2 z AMPLab, jak sugeruje Spark, umieść ten folder w lokalnym reżimie Spark-2.0.0 i jak zwykle zapisz skrypty. Najwyraźniej odłączyli tylko katalog w celach konserwacyjnych, ale logika jest wciąż taka sama. Byłoby miło mieć kilka słów na ten temat w dokumentach Sparka.


Próbowałem następujące: sklonowany katalogu z linku AMPLab iskra-EC2-oddział-1.6 do mojego katalogu zapłonie 2.0.0 i próbował uruchomić klaster ze zwykłym poleceniem ./ec2/spark-ec2. Może tego właśnie chcą, żebyśmy zrobili?

Uruchomiłem mały 16-węzłowy klaster. Widzę to na desce rozdzielczej AWS, ale terminal zatrzymał drukowanie zwykłego błędu SSH w przeszłości ... prawie dwie godziny.

Warning: SSH connection error. (This could be temporary.) Host: ec2-54-165-25-18.compute-1.amazonaws.com SSH return code: 255 SSH output: ssh: connect to host ec2-54-165-25-18.compute-1.amazonaws.com port 22: Connection refused

zaktualizuje jeśli znajdę coś pożytecznego.

+0

Zrobiłem to, co zasugerowałeś z tą różnicą, że użyłem https://github.com/amplab/spark-ec2/tree/branch-2.0. Dzięki. –

+0

To jest takie mylące. Nie ma katalogu 'ec2' w żadnej gałęzi,' branch-1.6' lub 'branch-2.0'. Czy poprzedni katalog 'ec2' jest teraz katalogiem ** root ** https://github.com/amplab/spark-ec2/tree/branch-2.0? –

+0

Po prostu dodano https://github.com/amplab/spark-ec2/issues/89. Miejmy nadzieję, że wkrótce się naprawi. –

1

Będziesz musiał pobrać wszystkie źródła z here. Zauważ, że dostarczyłem oddział Github 2.0. Instrukcje dotyczące uruchamiania można znaleźć na poprzednim linku, a here to blog, który napisałem na ten temat, co może uprościć Twoje życie.

Mam nadzieję, że udało mi się pomóc! :)

Powiązane problemy