Nie, nie jest możliwe ogólnie. Może to być możliwe w niektórych szczególnych przypadkach.
Biorąc x₁, x₂ ... chcesz znaleźć y = a₁x₁ + a₂x₂ + ... + c tak, że wszystkie korelacje między Y i X są większe niż jakiegoś docelowego R. Ponieważ korelacja jest
Corr(y, xi) = Cov(y, xi)/Sqrt[ Var(y) * Var(xi) ]
Twój ograniczeniem jest
Cov(y, xi)/Sqrt[ Var(y) * Var(xi) ] > R
które można przekształcić do
Cov(y, xi)² > R² * Var(y) * Var(xi)
i to musi być prawdziwe dla wszystkich.
Rozważmy prosty przypadek, w którym są tylko dwie kolumny x₁ i x₂, i dalej zakładamy, że oba mają średnią zero (więc możesz zignorować stałą c) i wariancję 1, i że są one nieskorelowane. W tym przypadku y = a₁x₁ + a₂x₂ i kowariancji i wariancje są
Cov(y, x₁) = a₁
Cov(y, x₂) = a₂
Var(x₁) = 1
Var(x₂) = 1
Var(y) = (a₁)² + (a₂)²
więc trzeba jednocześnie spełniać
(a₁)² > R² * ((a₁)² + (a₂)²)
(a₂)² > R² * ((a₁)² + (a₂)²)
Dodanie tych nierówności razem, otrzymasz
(a₁)² + (a₂)² > 2 * R² * ((a₁)² + (a₂)²)
co oznacza, Żeby zadowolić obie nierówności, musisz mieć R < Sqrt (1/2) (przez anulowanie wspólnych czynników po obu stronach nierówności). Tak więc najlepsze, co można zrobić w tym prostym przypadku, to wybrać a₁ = a₂ (dokładna wartość nie ma znaczenia, o ile są równe) i obie korelacje Corr (y, a₁) i Corr (y, a₂) będzie równa 0.707. W tym przypadku nie można uzyskać korelacji wyższej niż ta między y i wszystkimi znakami x jednocześnie.
dla bardziej ogólnym przypadku z n
kolumn (z których każdy ma oznaczać zero, wariancji 1 i zero korelacja między kolumnami) nie można jednocześnie osiągnąć korelacji większy niż 1/sqrt(n)
(jak wskazano w komentarzach przez @kazemakase).
Ogólnie rzecz biorąc, im więcej zmiennych niezależnych, tym niższa korelacja, jaką można uzyskać między yi x. Również (chociaż nie wspominałem o tym powyżej) korelacje między materią x. Jeśli są one ogólnie dodatnio skorelowane, będziesz w stanie osiągnąć wyższą korelację celu między y i x. Jeśli są one ogólnie nieskorelowane lub ujemnie skorelowane, będziesz w stanie uzyskać jedynie niskie korelacje między Y i X.
Na pierwszy rzut oka wygląda to na optymalizację opartą na multiplikatorze Lagrange, ale istnieją aspekty tego pytania, które nie są dla mnie jasne. Czy możesz to wyjaśnić, szczególnie w odniesieniu do sposobu powiązania modelu i danych? Możesz mieć więcej szczęścia z tym na stronie matematyki, ale wróć tutaj z wszelkimi problemami napotkanymi podczas implementacji. – Bathsheba
Osobiście uważam za dziwne robić to, co chcesz robić. Aby uzyskać dodatkową pomoc dotyczącą pytań związanych ze statystyką/uczeniem maszynowym, ludzie z http://stats.stackexchange.com/ chętnie Ci pomogą. – Ruben
@Ruben "Uważam, że to dziwne, co chcesz robić" - podejrzewam, że te dokładne słowa zostały użyte do próby zamknięcia wielu rozsądnych pomysłów w przeszłości! –