2016-08-31 19 views
7

W jaki sposób działka.lm() określa, które punkty są wartościami odstającymi (tj., Co wskazuje na etykietę) dla wykresu szczątkowego kontra dopasowanego? Jedyną rzeczą, którą znalazłem w documentation to:W jaki sposób dział.lm() określa wartości odstające dla wykresu szczątkowego kontra dopasowanego?

Szczegóły

sub.caption-domyślnie funkcja call-jest pokazany jako podtytule (pod tytułem osi x) na każdej działce gdy działki znajdują się na oddzielnych stronach lub jako podtytuł na marginesie zewnętrznym (jeśli istnieje), gdy istnieje wiele wykresów na stronę.

Wykres "Scale-Location", zwany także "Spread-Location" lub "S-L", pobiera pierwiastek kwadratowy z bezwzględnych wartości resztowych w celu zmniejszenia skośności (sqrt (| E |)) jest dużo mniej wypaczony niż | E | dla zerowej średniej E Gaussa).

Wykres "S-L", wykres Q-Q i wykres resztkowo-lewarowy, używa wystandaryzowanych reszt, które mają identyczną wariancję (pod hipotezą). Są one podane jako R [i]/(s * sqrt (1 - h.ii)), gdzie h.ii są przekątnymi wpisami macierzy kapeluszowej, wpływem() $ kapelusz (patrz także kapelusz), a gdzie pozostałe Wykres dźwigni wykorzystuje standaryzowane reszty Pearsona (residuals.glm (type = "pearson")) dla R [i].

Wykres resztkowego dźwigni pokazuje kontury o równej odległości Cooka, dla wartości cook.levels (domyślnie 0,5 i 1) i pomija przypadki z dźwignią z ostrzeżeniem. Jeśli dźwignie są stałe (jak zwykle ma to miejsce w przypadku zrównoważonej sytuacji), wykres wykorzystuje kombinacje poziomów czynnikowych zamiast dźwigni dla osi x. (Poziomy współczynników są uporządkowane według średniej dopasowanej wartości.)

Wykres Cooka w zależności od dźwigni/(1-dźwigni), kontury standaryzowanych reszt, które są równe wielkości, są liniami przechodzącymi przez punkt początkowy. Linie konturowe są oznaczone wartościami magnitudowymi.

Ale nie mówi nic o tym, jak wygenerowano wykresy resztek i dopasowanych działek oraz w jaki sposób wybiera punkty do oznaczenia.

Aktualizacja: odpowiedź Zheyuan Li sugeruje, że sposób szczątkowy vs wyposażonej działce etykiet punktów jest naprawdę, po prostu patrząc na 3 punkty z największych reszt. Dokładnie o to chodzi. Można to wykazać za pomocą następującego "ekstremalnego" przykładu.

x = c(1,2,3,4,5,6) 
y = c(2,4,6,8,10,12) 
foo = data.frame(x,y) 
model = lm(y ~ x, data = foo) 

enter image description here

+0

@ZheyuanLi Dzięki. Widziałem to w dokumentacji i zastanawiałem się, dlaczego nie mamy opcji takiej jak "id.n = ALL". Ma to sens teraz. – 3x89g2

Odpowiedz

12

one zlokalizować największe bezwzględne 3 standaryzowanych reszt. Rozważmy następujący przykład:

fit <- lm(dist ~ speed, cars) 
plot(fit, which = 1) 

enter image description here

r <- rstandard(fit) ## get standardised residuals 
order(abs(r), decreasing = TRUE)[1:3] 
# [1] 49 23 35 
Powiązane problemy