Załóżmy, że mam rdd z 3000 wierszy. Pierwsze 2000 wierszy ma klasę 1, a ostatnie 1000 wierszy klasy2. RDD jest podzielony na partycje na 100 partycji.Jak Sparks RDD.randomSplit faktycznie dzieli RDD
Dzwoniąc RDD.randomSplit(0.8,0.2)
Czy funkcja również przetasować RDD? Nasz podział dzieli się na próbkę 20% w sposób ciągły od rdd? Czy może wybrać losowo 20% partycji?
Idealnie wynikowy podział ma taki sam rozkład klas, jak oryginalny RDD. (To jest 2: 1)
Dzięki