Odpowiedz

12

Korelacja jest niezależna od jednostki; jeśli wyskalujesz jeden z obiektów dziesięć razy, otrzymasz różne odległości euklidesowe i te same odległości korelacji. Dlatego metryki korelacji są doskonałe, gdy chcemy zmierzyć odległość między takimi obiektami, jak geny zdefiniowane przez ich profile ekspresji.

Często stosuje się korelację absolutną lub kwadratową jako metrykę odległości, ponieważ jesteśmy bardziej zainteresowani siłą związku niż jego znakiem.

Korelacja jest jednak odpowiednia tylko dla wysoce wymiarowych danych; nie ma sensu obliczać go dla dwu- lub trójwymiarowych punktów danych.

Należy również zauważyć, że "odległość Pearsona" to ważony typ odległości euklidesowej, a nie "odległość korelacji" przy użyciu współczynnika korelacji Pearsona.

5

To naprawdę zależy od scenariusza aplikacji, który masz pod ręką. Krótko mówiąc, jeśli masz do czynienia z danymi, w których istotna jest różnica wartości atrybutów w wartościach atrybutów, przejdź do odległości euklidesowej. Jeśli szukasz trendu lub podobieństwa kształtu, to idź z korelacją. Zauważ też, że jeśli wykonasz normalizację z-score w każdym obiekcie, odległość euklidesowa zachowuje się podobnie do współczynnika korelacji Pearsona. Pearson nie jest wrażliwy na liniowe transformacje danych. Istnieją inne typy współczynników korelacji, które uwzględniają tylko szeregi wartości, będąc niewrażliwe na transformacje liniowe i nieliniowe. Zwróć uwagę, że zwykłe użycie korelacji jako niepodobieństwa to 1 - korelacja, która nie respektuje wszystkich reguł dla odległości metrycznej.

Istnieją pewne badania, w którym miarą bliskości wybrać na konkretnej aplikacji, na przykład:

Pablo A. Jaśkowiak Ricardo JGB Campello, Ivan G. Costa Filho, „Środki zbliżeniowe do klastrowania Gene Expression mikromacierzy danych: Metodologia walidacji i analiza porównawcza "Transakcje IEEE/ACM w zakresie biologii obliczeniowej i bioinformatyki" 99, nie. PrePrints, p. 1,, 2013,

Powiązane problemy