Czy istnieje algorytm ważonego pobierania próbek w zbiorniku

Czy istnieje algorytm wykonywania próbkowania w zbiorniku, gdy punkty w strumieniu danych mają powiązane wagi?Czy istnieje algorytm ważonego pobierania próbek w zbiorniku

Źródło

2013-06-14 Budhapest

Zbyt szeroki? Myślę, że pytanie wymaga bardzo specyficznego algorytmu. –

Całkowicie zgadzam się z @ JuanA.Navarro - pytanie jest bardzo przydatne do przetwarzania strumieniowego lub równoległego i powinno zostać ponownie otwarte (jego odpowiedź jest również bardzo dobra, BTW). –

Algorytm Pavlos Efraimidis i Pawła Spirakis dokładnie rozwiązuje ten problem. Oryginalny papier z pełnymi dowodami jest publikowany pod tytułem "Ważone losowe pobieranie próbek ze zbiornikiem" w Information Processing Letters 2006, ale można znaleźć proste podsumowanie here.

Algorytm działa w następujący sposób. Po pierwsze, należy zauważyć, że innym sposobem rozwiązania nieważonego próbkowania zbiorników jest przypisanie każdemu elementowi losowego identyfikatora R od 0 do 1 i przyrostowe (powiedzmy za pomocą sterty) śledzenie najwyższych wartości k. Teraz spójrzmy na wersję ważoną, powiedzmy, że i-ten element ma wagę w_i. Następnie modyfikujemy algorytm, wybierając ID i-tego elementu na R^(1/w_i), gdzie R jest równomiernie rozłożone w (0,1).

Kolejny artykuł mówiący o tym algorytmie to this one autorstwa Cloudera.

Źródło

2013-08-16 21:30:22 had00b

I jedna liniowa implementacja python: 'heapq.nlargest (k, items, key = element lambdy: math.pow (random.random(), 1/weight (item)))' –

Czy można to zrobić z wymianą ? – eleanora

@eleanora Nie ma sensu robić tego z zamiennikiem, ponieważ istnieje metoda aliasu, musisz najpierw utworzyć tabelę, która zajmuje O (n) czas, a następnie każdy wybór to O (1). Alias nie zachowuje jednak złożoności środowiska wykonawczego przy wyborze, chyba że użyje się go z zamiennikiem. – snb

Możesz wypróbować algorytm A-ES od this paper of S. Efraimidis. Kod jest bardzo prosty i bardzo wydajny.

Nadzieja to pomaga,

Benoit

Źródło

2013-07-18 13:09:22 bmat06

Czy istnieje algorytm ważonego pobierania próbek w zbiorniku

Odpowiedz

Powiązane problemy