Strumień danych strumieniowych przetwarza dane w mikropartiach.Udostępnianie danych strumieniowych w iskrze między partiami
Każde dane przedziału są przetwarzane równolegle przy użyciu RDD bez udostępniania danych między każdym interwałem.
Ale mój przypadek użycia musi dzielić dane między interwałami.
Rozważmy przykład Network WordCount, który daje liczbę wszystkich słów otrzymanych w tym przedziale.
Jak utworzyć następującą liczbę słów?
względna liczba dla słowa „Hadoop” i „iskry” z poprzedniego przedziału liczyć
Normal słowo liczyć wszystkich innych słów.
Uwaga: UpdateStateByKey wykonuje przetwarzanie stanowe, ale dotyczy to każdego rekordu, a nie poszczególnych rekordów.
Tak, UpdateStateByKey nie pasuje do tego wymogu.
Aktualizacja:
Rozważmy następujący przykład
Interval-1
Wejście:
Sample Input with Hadoop and Spark on Hadoop
wyjściowa:
hadoop 2
sample 1
input 1
with 1
and 1
spark 1
on 1
Interval-2
Wejście:
Another Sample Input with Hadoop and Spark on Hadoop and another hadoop another spark spark
wyjściowa:
another 3
hadoop 1
spark 2
and 2
sample 1
input 1
with 1
on 1
Objaśnienie:
Pierwszy interwał daje normalną liczbę słów wszystkich słów.
2. W przedziale Hadoop wystąpił 3 razy, ale wyjściowy powinien wynosić 1 (3-2)
zapłonowa wystąpił 3 razy, ale wyjściowy powinien wynosić od 2 (3-1)
Dla wszystkich innych słów powinien dać normalną liczbę słów.
więc podczas przetwarzania danych 2nd odstęp, to powinien mieć 1st przedział za liczby słów Hadoop i iskry
To jest prosty przykład z rysunku.
W rzeczywistych przypadkach pola, które wymagają udostępniania danych, są częścią elementu RDD (RDD), a ogromna liczba wartości musi być śledzona.
tj. W tym przykładzie, podobnie jak słowa hasłowe i iskry, należy śledzić blisko 100k słów kluczowych.
Podobne usecases Apache Burza:
Proszę wyjaśnić „względną liczbę dla słów«Hadoop»i«iskry»z poprzedniego przedziału count”. Nie wahaj się sformalizować definicji wprowadzając zmienne i formułę. Możesz również podać przykład. – huitseeker
Odfiltruj niechciane i zaktualizujKluczKeyKey? –
dodany przykład .. –