Jakie są niektóre z czynników, które należy wziąć pod uwagę przy wyborze indeksu podobieństwa. W jakich przypadkach odległość Euklidesa jest większa niż Pearsona i odwrotnie?Jak sprawdzić, kiedy należy użyć określonego rodzaju wskaźnika podobieństwa? Odległość euklidesowa a korelacja Pearsona
Odpowiedz
Korelacja jest niezależna od jednostki; jeśli wyskalujesz jeden z obiektów dziesięć razy, otrzymasz różne odległości euklidesowe i te same odległości korelacji. Dlatego metryki korelacji są doskonałe, gdy chcemy zmierzyć odległość między takimi obiektami, jak geny zdefiniowane przez ich profile ekspresji.
Często stosuje się korelację absolutną lub kwadratową jako metrykę odległości, ponieważ jesteśmy bardziej zainteresowani siłą związku niż jego znakiem.
Korelacja jest jednak odpowiednia tylko dla wysoce wymiarowych danych; nie ma sensu obliczać go dla dwu- lub trójwymiarowych punktów danych.
Należy również zauważyć, że "odległość Pearsona" to ważony typ odległości euklidesowej, a nie "odległość korelacji" przy użyciu współczynnika korelacji Pearsona.
To naprawdę zależy od scenariusza aplikacji, który masz pod ręką. Krótko mówiąc, jeśli masz do czynienia z danymi, w których istotna jest różnica wartości atrybutów w wartościach atrybutów, przejdź do odległości euklidesowej. Jeśli szukasz trendu lub podobieństwa kształtu, to idź z korelacją. Zauważ też, że jeśli wykonasz normalizację z-score w każdym obiekcie, odległość euklidesowa zachowuje się podobnie do współczynnika korelacji Pearsona. Pearson nie jest wrażliwy na liniowe transformacje danych. Istnieją inne typy współczynników korelacji, które uwzględniają tylko szeregi wartości, będąc niewrażliwe na transformacje liniowe i nieliniowe. Zwróć uwagę, że zwykłe użycie korelacji jako niepodobieństwa to 1 - korelacja, która nie respektuje wszystkich reguł dla odległości metrycznej.
Istnieją pewne badania, w którym miarą bliskości wybrać na konkretnej aplikacji, na przykład:
Pablo A. Jaśkowiak Ricardo JGB Campello, Ivan G. Costa Filho, „Środki zbliżeniowe do klastrowania Gene Expression mikromacierzy danych: Metodologia walidacji i analiza porównawcza "Transakcje IEEE/ACM w zakresie biologii obliczeniowej i bioinformatyki" 99, nie. PrePrints, p. 1,, 2013,
- 1. Ważona korelacja Pearsona?
- 2. Scipy: Korelacja Pearsona zawsze wraca 1
- 3. Kiedy należy użyć mmap
- 4. Odległość euklidesowa między dwoma n-wymiarowymi wektorami
- 5. Kiedy należy użyć sqlalchemy back_populates?
- 6. Kiedy i gdzie należy użyć WCF
- 7. Kiedy należy użyć const i do tego?
- 8. Kiedy należy użyć & do wywołania podprogramu Perl?
- 9. Kiedy należy użyć _.bindAll() w Backbone.js?
- 10. django - kiedy należy użyć media_root lub static_root?
- 11. Kiedy należy użyć przypisania w Objective c?
- 12. Kątomierz, kiedy należy go użyć() po kliknięciu()
- 13. Java URLConnection - Kiedy należy użyć metody connect()?
- 14. Kiedy należy użyć make_heap vs. Priority Queue?
- 15. Zdecyduj, kiedy należy użyć ConfigureAwait (fałsz)
- 16. Jak sprawdzić, czy liczba należy do określonego zakresu w Pythonie?
- 17. usuwanie bufora za pomocą innego rodzaju wskaźnika?
- 18. C++ - kiedy powinienem użyć elementu wskaźnika w klasie
- 19. Kiedy należy korzystać i kiedy należy importować w Aurelia?
- 20. Kiedy należy używać _aligned_malloc()?
- 21. Co to jest __declspec i kiedy należy go użyć?
- 22. Kiedy używać wskaźnika do wskaźnika w C++?
- 23. Kiedy należy używać ConcurrentSkipListMap?
- 24. Kiedy należy używać JCR i kiedy należy używać JPA/RDBMS?
- 25. Co robi atrybut "typ_widzialności" Clanga i kiedy należy go użyć?
- 26. Kiedy należy utworzyć nową gałąź?
- 27. Czy mogę podać przykład, kiedy należy użyć UIElement.UpdateLayout()?
- 28. Kiedy należy użyć Environment.Exit, aby zakończyć aplikację konsoli?
- 29. Kiedy należy użyć bloku http w pliku konfiguracyjnym nginx?
- 30. Kiedy należy użyć kręgosłupa? Widok w porównaniu z kręgosłupem.Marionette.ItemView?