Tak, można znaleźć powielony dokument z kwerendy agregacji:
curl -XPOST http://localhost:9200/your_index/_search -d '
{
"size": 0,
"aggs": {
"duplicateCount": {
"terms": {
"field": "recordid",
"min_doc_count": 2,
"size": 10
},
"aggs": {
"duplicateDocuments": {
"top_hits": {
"size": 10
}
}
}
}
}
}'
następnie usunąć zduplikowane dokumenty najlepiej przy użyciu kwerendy luzem. Zajrzyj pod numer es-deduplicator, aby uzyskać automatyczne usuwanie duplikatów (uwaga: jestem autorem tego skryptu).
UWAGA: Do pobrania Zapytanie zbiorcze może być bardzo kosztowne i może spowodować awarię węzłów (w przypadku, gdy indeks jest zbyt duży, a liczba węzłów danych zbyt mała).
Nie można użyć [rozmiar] podczas korzystania z metody delete_by_query – Trent
@Trent good call. Zaktualizowano bieżącą rekomendacją dotyczącą wykonywania dużych operacji usuwania. – Andy