2016-10-17 11 views

Odpowiedz

6

wierzę, że PySpark nie korzysta z żadnych form pamięci współdzielonej podzielić zmienne broadcast pomiędzy pracownikami.

W systemach uniksowych nadawane są zmienne are loaded w głównej funkcji urządzenia roboczego, która jest nazywana tylko demonem after forking, więc nie jest dostępny z nadrzędnej przestrzeni procesowej.

Jeśli chcesz zmniejszyć ślad dużych zmiennych bez korzystania z usługi zewnętrznej, polecam używanie obiektów z mapą pamięci. W ten sposób można efektywnie wykorzystać na przykład NumPy arrays.

W przeciwieństwie do aplikacji natywnych (JVM) program Spark rzeczywiście udostępnia współrzędne rozgłaszania między wieloma wątkami executora w JVM pojedynczego executora.

Powiązane problemy