W przypadku przesyłania strumieniowego metodą Spark jest możliwe (i obowiązkowe, jeśli zamierzasz używać operacji stanowych), aby ustawić StreamingContext
do wykonywania punktów kontrolnych w niezawodne miejsce do przechowywania danych (S3, HDFS, ...) (I):Punkty kontrolne przesyłania strumieniowego iskry dla DStreams
- Metadane
DStream
rodowód
Jak opisano here, aby ustawić przechowywanie danych wyjściowych trzeba zadzwonić yourSparkStreamingCtx.checkpoint(datastoreURL)
Z drugiej strony można ustawić interwały punktów kontrolnych linii dla każdego DataStream
, dzwoniąc pod numer checkpoint(timeInterval)
. W zasadzie zaleca się, aby ustawić lineage kontrolnego przedziału od 5 do 10 razy przedział przesuwając DataStream
„s
dstream.checkpoint (CheckpointInterval). Zazwyczaj interwał kontrolny wynoszący od 5 do 10 przedziałów ślizgowych strumienia DStream jest dobrym ustawieniem na próbę .
Moje pytanie brzmi:
Kiedy kontekst strumieniowych została skonfigurowana do wykonywania punktów kontrolnych i nie ds.checkpoint(interval)
nazywa, to linia punktów kontrolnych włączona dla wszystkich strumieni danych z domyślnym checkpointInterval
równej batchInterval
? Czy przeciwnie, tylko sprawdzanie punktów metadanych, co jest włączone?
Jak można powiedzieć, że w Streaming domyślnie punktów kontrolnych jest włączone?Wiem, że pamięta on dane i ich rodowód, ale domyślnie nie widzę włączonego punktu kontrolnego ... co oznacza, że jeśli twój sterownik się nie powiedzie lub jakiś węzeł przestanie działać, możesz utracić dane znajdujące się w tym węźle pod warunkiem, że nie będzie replikacji (przy użyciu "_2" z StorageLevel.). – Sumit
@Sumit Nie powiedziałem tego w ogóle. Pytałem, czy po włączeniu punktu kontrolnego przez wywołanie 'strmCtx.checkpoint (" hdfs: // ... ")' włącza także wszystkie punkty kontrolne strumieni danych z interwałem aktualizacji równym przedziałowi wsadowemu kontekstu. –
Punkt kontrolny jest włączony dla całego kontekstu strumieniowego, więc wszystkie strumienie utworzone z tego samego kontekstu będą czerpały korzyści z punktu kontrolnego. – Sumit