Załóżmy, że mam listę ciągów znaków. Filtruję je i zbieram wynik do sterownika. Jednak rzeczy są dystrybuowane, a każdy RDD ma swoją własną część oryginalnej listy. W jaki sposób Spark osiąga ostateczną uporządkowaną kolejność, czy łączy wyniki?W jaki sposób Spark osiąga kolejność sortowania?
6
A
Odpowiedz
3
sortowanie iskrowej wielofazowym procesem, który wymaga tasowanie:
- wejście RDD jest próbkowany i próbka ta jest wykorzystywana do obliczania granic dla każdej strefy wyjścia (
sample
następniecollect
) - wejście RDD wymieszano stosując
rangePartitioner
z granicami obliczone w etapie pierwszym (partitionBy
) - każda strefa z drugiego etapu są sortowane lokalnie (
mapPartitions
)
Po zebraniu danych pozostaje pozostawienie porządku określonego przez partycjonera.
Powyższe kroki są wyraźnie widoczne w ciąg debugowania:
scala> val rdd = sc.parallelize(Seq(4, 2, 5, 3, 1))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at ...
scala> rdd.sortBy(identity).toDebugString
res1: String =
(6) MapPartitionsRDD[10] at sortBy at <console>:24 [] // Sort partitions
| ShuffledRDD[9] at sortBy at <console>:24 [] // Shuffle
+-(8) MapPartitionsRDD[6] at sortBy at <console>:24 [] // Pre-shuffle steps
| ParallelCollectionRDD[0] at parallelize at <console>:21 [] // Parallelize
Powiązane problemy
- 1. W jaki sposób Facebook osiąga nieskończone przewijanie?
- 2. Jak zapisać kolejność sortowania?
- 3. MySQL: kolejność sortowania "POKAŻ TABELE"
- 4. jqGrid domyślna kolejność sortowania?
- 5. W jaki sposób serwis Apple.com osiąga progresywne ładowanie jpeg?
- 6. W jaki sposób MEF określa kolejność importu?
- 7. LXML - sortowanie znaczników Kolejność sortowania
- 8. Jaki jest najskuteczniejszy sposób sortowania NSSet?
- 9. Jak wskazać kolejność sortowania w Roxygen2?
- 10. Warunkowa kolejność sortowania "orderby" w LINQ
- 11. Jawnie określić kolejność sortowania dla zapytania mysql?
- 12. args4j: w "użytkowaniu" sposób ręcznego sortowania opcji?
- 13. Java For-Each Loop: Kolejność sortowania
- 14. Projekcje Grails ignorujące kolejność sortowania z MongoDB
- 15. kolejność sortowania boost :: weak_ptr after expiring?
- 16. NSFetchedResultsController - inna kolejność sortowania niż nazwa sekcji
- 17. Kolejność MYSQL według sortowania rosnącego i malejącego.
- 18. elasticsearch określić kolejność sortowania za pomocą kwerendy
- 19. Jaki jest najbardziej elegancki sposób sortowania bąbelkowego w F #?
- 20. Jaki jest najlepszy sposób odwrócenia sortowania w scala?
- 21. W jaki sposób można znaleźć dolną granicę sortowania macierzy?
- 22. W jaki sposób Apache Spark wie o węzłach danych HDFS?
- 23. W jaki sposób firma Spark wysyła zamknięcia do pracowników?
- 24. W jaki sposób Spark decyduje, jak podzielić partycję RDD?
- 25. W jaki sposób MSTest określa kolejność uruchamiania metod testowych?
- 26. Coredata i NSOrderedSet - w jaki sposób zdefiniowano kolejność zestawu?
- 27. Jaki jest najszybszy sposób sortowania wielu lokalizacji na odległość?
- 28. W jaki sposób osiąga się 64-bitową matematykę na 32-bitowym komputerze?
- 29. Jaki jest najczystszy sposób sortowania wyników zapytania "opisz tabelę"?
- 30. Jaki jest najczystszy sposób sortowania plus uniq na liście Pythona?