pyspark Czy procesy pythonowe na węźle executora udostępniają zmienne rozgłoszeniowe w pamięci RAM?

Mam węzeł, który ma 24 rdzenie i 124 GB pamięci RAM w mojej grupie spark. Kiedy ustawię pole spark.executor.memory na 4g, a następnie wyemituje zmienną, która zajmuje 3.5gb do przechowywania w pamięci RAM, czy rdzenie zbiorowo przechowują 24 kopie tej zmiennej? Lub jedną kopię?pyspark Czy procesy pythonowe na węźle executora udostępniają zmienne rozgłoszeniowe w pamięci RAM?

Używam pyspark - v1.6.2

Źródło

2016-10-17 ThatDataGuy

wierzę, że PySpark nie korzysta z żadnych form pamięci współdzielonej podzielić zmienne broadcast pomiędzy pracownikami.

W systemach uniksowych nadawane są zmienne are loaded w głównej funkcji urządzenia roboczego, która jest nazywana tylko demonem after forking, więc nie jest dostępny z nadrzędnej przestrzeni procesowej.

Jeśli chcesz zmniejszyć ślad dużych zmiennych bez korzystania z usługi zewnętrznej, polecam używanie obiektów z mapą pamięci. W ten sposób można efektywnie wykorzystać na przykład NumPy arrays.

W przeciwieństwie do aplikacji natywnych (JVM) program Spark rzeczywiście udostępnia współrzędne rozgłaszania między wieloma wątkami executora w JVM pojedynczego executora.

Źródło

2016-10-17 12:56:47 user6910411

pyspark Czy procesy pythonowe na węźle executora udostępniają zmienne rozgłoszeniowe w pamięci RAM?

Odpowiedz

Powiązane problemy