Chcę wykonać niektóre preprocessing na moje dane i chcę upuścić wiersze, które są rzadkie (dla niektórych wartości progowych).Jak upuszczać wiersze ze zbyt dużą liczbą wartości NULL?
Na przykład mam tabeli ramek danych z 10 funkcji i mam wiersz z 8 wartości null, a następnie chcę upuścić go.
Znalazłem kilka powiązanych tematów, ale nie mogę znaleźć żadnych przydatnych informacji do mojego celu.
stackoverflow.com/questions/3473778/count-number-of-nulls-in-a-row
Przykłady jak w linku powyżej nie będą działać dla mnie, ponieważ chcę, aby to zrobić wstępne przetwarzanie automatycznie. Nie mogę zapisać nazw kolumn i zrobić coś odpowiednio.
Czy jest to tak, aby wykonać tę operację usuwania bez używania nazw kolumn w Apache Spark ze scala?
Mogę to zrobić bez konwersji na RDD. Czekaj. –