2010-06-18 13 views
24

że ma dodać zmienną (kolumna) do dataframe (df), zawierające w każdym rzędzie do maksymalnej wartości tego rzędzie na 2 do 26 kolumny.Dodać zmienną ramki danych zawierającej wartość maksymalną każdego rzędu

Na pierwszym rzędzie, kod byłoby:

df$max[1] <- max(df[1,2:26]) 

szukam sposobu na uogólnienia, że ​​dla wierszy od 1 do 865. Jeśli dam:

df$max[1:865] <- max(df[1:865, 2:26]) 

otrzymuję całkowite maksimum we wszystkich wierszach dla zmiennej df$max.

Odpowiedz

29

Można użyć apply. Na przykład:

df[, "max"] <- apply(df[, 2:26], 1, max) 

Oto prosty przykład:

> df <- data.frame(a=1:50, b=rnorm(50), c=rpois(50, 10)) 
> df$max <- apply(df, 1, max) 
> head(df, 2) 
    a   b c max 
1 1 1.3527115 9 9 
2 2 -0.6469987 20 20 
> tail(df, 2) 
    a   b c max 
49 49 -1.4796887 10 49 
50 50 0.1600679 13 50 
+1

co jeśli chcę nazwę kolumny max dla każdego wiersza .. na przykład df $ max [1] = c – syllogismos

+1

co jeśli muszę dodać na.rm = TRUE? – KillerSnail

23

wersja Vectorized z pmax:

df$max <- do.call(pmax, df[2:26]) 
+1

+1 Zapomniałem o funkcji pmax. – Shane

+0

Wielkie dzięki za to. –

0

Innym niezwykle szybka metoda jest połączenie ekstrakcji matrycy [ z max.col, która zwraca wektor indeksujący pozycję kolumny maksymalnej wartości w każdym wierszu.

df$max <- df[2:26][cbind(seq_len(nrow(df)), max.col(df[2:26]))] 

cbind tworzy matrycę indeksowanie położenia maksymalnej wartości dla każdego rzędu i [ wykorzystuje go wyodrębnić tej wartości.


Zróbmy analizę porównawczą.

# data.frame with 1000 observations and 26 variables 
set.seed(1234) 
df <- data.frame(id=paste0(letters[-1], 1:40), matrix(rnorm(25000L, 5L, 10L), 1000L)) 

dodać również funkcję rowMaxs z pakietu matrixStats do mieszanki.

library(matrixStats) 
library(microbenchmark) 

microbenchmark(apply=apply(df[, 2:26], 1, max), 
       pmax=do.call(pmax, df[2:26]), 
       max.colSub=df[2:26][cbind(seq_len(nrow(df)), max.col(df[2:26]))], 
       rowMaxs=rowMaxs(as.matrix(df[2:26]))) 
Unit: microseconds 
     expr  min  lq  mean median  uq  max neval cld 
     apply 1610.540 1786.5905 2193.5334 1863.5680 1990.4380 6915.999 100 c 
     pmax 354.382 364.6455 380.1720 373.3405 385.4580 567.923 100 a 
    max.colSub 604.416 651.7430 822.6015 664.7155 681.2510 3086.512 100 b 
    rowMaxs 243.762 264.0040 320.2350 277.9750 290.5190 2328.712 100 a 

więc rowMaxs jest zwycięża następnie pmax a następnie max.col z ekstrakcji matrycy i apply na tylnym końcu opakowania.

Z data.frame z 10000 wierszy i kolumn 26, mamy podobną historię:

set.seed(1234) 
df <- data.frame(id=paste0(letters[-1], 1:400), matrix(rnorm(250000L, 5L, 10L), 10000L)) 

Powyższy kod zwraca

Unit: milliseconds 
     expr  min  lq  mean median  uq  max neval cld 
     apply 15.193361 18.299830 21.737516 20.337880 21.774793 99.44836 100 c 
     pmax 3.060853 3.101481 3.156630 3.137545 3.191430 3.54182 100 a 
max.colSub 3.338828 3.642603 7.051700 3.992708 6.336531 84.43119 100 b 
    rowMaxs 1.244184 1.322302 2.675281 1.508474 1.638053 79.28054 100 a 
Powiązane problemy