Elasticsearch usuń duplikaty

Niektóre rekordy są duplikowane w moim indeksie identyfikowanym przez pole numeryczne recordid.Elasticsearch usuń duplikaty

Istnieje zapytanie "usuń za zapytaniem" w "Elastycznym wyszukiwaniu", czy mogę go użyć do usunięcia jednego z duplikatów?

Lub inny sposób, aby to osiągnąć?

Źródło

2014-07-19 FUD

Elasticsearch zaleca "use(ing) the scroll/scan API to find all matching ids and then issue a bulk request to delete them".

** Edytowane

Źródło

2014-11-10 23:00:14 Andy

Nie można użyć [rozmiar] podczas korzystania z metody delete_by_query – Trent

@Trent good call. Zaktualizowano bieżącą rekomendacją dotyczącą wykonywania dużych operacji usuwania. – Andy

Pierwszym wyzwaniem będzie identyfikacja duplikatów dokumentów. W tym celu należy uruchomić agregację terminów w polach definiujących wyjątkowość dokumentu. Na drugim poziomie agregacji użyj top_hits, aby uzyskać identyfikator dokumentu. Gdy już tam będziesz, otrzymasz identyfikator dokumentów z duplikatami.

Teraz możesz bezpiecznie je usunąć, korzystając z funkcji Bulk API.

Możesz przeczytać o innych metodach wykrywania i usuwania duplikatów dokumentów here.

Źródło

2015-12-10 00:59:13

Tak, można znaleźć powielony dokument z kwerendy agregacji:

curl -XPOST http://localhost:9200/your_index/_search -d ' 
{ 
    "size": 0, 
    "aggs": { 
    "duplicateCount": { 
     "terms": { 
     "field": "recordid", 
     "min_doc_count": 2, 
     "size": 10 
     }, 
     "aggs": { 
     "duplicateDocuments": { 
      "top_hits": { 
      "size": 10 
      } 
     } 
     } 
    } 
    } 
}'

następnie usunąć zduplikowane dokumenty najlepiej przy użyciu kwerendy luzem. Zajrzyj pod numer es-deduplicator, aby uzyskać automatyczne usuwanie duplikatów (uwaga: jestem autorem tego skryptu).

UWAGA: Do pobrania Zapytanie zbiorcze może być bardzo kosztowne i może spowodować awarię węzłów (w przypadku, gdy indeks jest zbyt duży, a liczba węzłów danych zbyt mała).

Źródło

2017-03-28 15:31:50 Tombart

Wystąpił błąd braku pamięci, czy możemy dodać zakres dat, aby uzyskać duplikaty z określonego zakresu dat? –

@JeevaN Tak, możemy to wypróbować, chociaż nie jestem pewien, czy pomoże to w przypadku naprawdę dużych indeksów. Zachęcamy do złożenia PR. Jaka jest twoja konfiguracja (rozmiar indeksu, liczba kwalifikowanych węzłów nadrzędnych i liczba węzłów danych)? Czy podzielisz indeksy np. w dzień? – Tombart

Elasticsearch usuń duplikaty

Odpowiedz

Powiązane problemy