Próbuję użyć funkcji takeSample()
w Spark, a parametry są - dane, liczba próbek do pobrania i nasiona. Ale nie chcę używać nasion. Za każdym razem chcę mieć inną odpowiedź. Nie jestem w stanie wymyślić, jak to zrobić. Próbowałem użyć System.nanoTime
jako wartości początkowej, ale spowodowało błąd, ponieważ myślę, że typ danych nie pasuje. Czy jest jakaś inna funkcja podobna do takeSample()
, która może być używana bez nasion? Czy istnieje inna implementacja, której mogę użyć z takeSample()
, aby za każdym razem uzyskać inny wynik.Funkcja takeSample() w Spark
6
A
Odpowiedz
7
System.nanoTime
jest typu long
, ziarno oczekiwane przez takeSample
jest typu Int
. Dlatego powinien działać takeSample(..., System.nanoTime.toInt)
.
1
System.nanoTime
zwraca Long, natomiast takeSample oczekuje wartości Int.
Możesz podać scala.util.Random.nextInt
jako wartość początkową do funkcji takeSample.
1
Od wersji 1.0.0 Sparka parametr seed
jest opcjonalny. Zobacz https://issues.apache.org/jira/browse/SPARK-1438.
Powiązane problemy
- 1. Funkcja Spark Build Custom, zdefiniowana przez użytkownika funkcja
- 2. Jak działa funkcja agregacji Spark - działa funkcja aggregateByKey?
- 3. funkcja agregacji Zliczanie użycia z groupBy w Spark
- 4. Dlaczego funkcja Spark działa gorzej podczas korzystania z serializacji Kryo?
- 5. Obsługa gzip w Spark
- 6. losowanie warstwowe w Spark
- 7. Spłaszczanie wierszy w Spark
- 8. Przetwarzanie XML w Spark
- 9. Apache Spark vs Apache Spark 2
- 10. Spark Kontekst nie jest tworzony automatycznie w Scala Spark Shell
- 11. Spark: equivelant z zipwithindex w dataframe
- 12. Domyślny układ partycji w Spark
- 13. kwerenda aktualizująca w Spark SQL
- 14. Korzystanie R w Apache Spark
- 15. Jak działa createOrReplaceTempView w Spark?
- 16. sprzężenia i cogroup w Spark
- 17. Równość DataFrame w Apache Spark
- 18. Mnożenie macierzy w Apache Spark
- 19. W Spark: MatrixFactorizationModel.scala „recommendProductsForUsers” funkcja zajmuje bardzo dużo czasu, aby zakończyć
- 20. Równość klasy Case w Apache Spark
- 21. Spark RDD - Mapowanie z dodatkowymi argumentami
- 22. Przetwarzanie w kolejnoś ci w Spark Streaming
- 23. Jak zbudować Spark ze źródeł ze strony Download Spark?
- 24. Jak stopić Spark DataFrame?
- 25. Spark Yarn Architecture
- 26. Spark RDD's - jak działają
- 27. Elasticsearch + wydajność Apache Spark
- 28. Dlaczego transformacja sortBy wyzwala zadanie Spark?
- 29. Spark-submit ClassNotFound wyjątek
- 30. Spark wymuszając log4j
W scala '.toInt' powinno być preferowane przez' .intValue' –
@ RégisJean-Gilles Dzięki, poprawione. –