2013-04-15 11 views
11

Mam 3 ramki danych (wiersze: strony, kolumny: nazwa gatunku) liczebności gatunków w obrębie witryn. Numery wierszy są identyczne, ale numery kolumn różnią się, ponieważ nie wszystkie gatunki występują we wszystkich trzech ramkach danych. Chciałbym połączyć je w jedną ramkę danych z sumami liczebności identycznych gatunków. Na przykład:Łączenie danych.ramki sumujące wartości identycznych kolumn w R

data.frame1

 Sp1 Sp2 Sp3 Sp4 
site1 1 2 3 1 
site2 0 2 0 1 
site3 1 1 1 1 

data.frame2

 Sp1 Sp2 Sp4 
site1 0 1 2 
site2 1 2 0 
site3 1 1 1 

data.frame3

 Sp1 Sp2 Sp5 Sp6 
site1 0 1 1 1  
site2 1 1 1 5 
site3 2 0 0 0 

Co chcę mieć to coś w rodzaju:

 Sp1 Sp2 Sp3 Sp4 Sp5 Sp6 
site1 1 4 3 3 1 1 
site2 2 5 0 1 1 5 
site3 4 2 1 2 0 0 

Sądzę, że musiałbym pracować z łączeniem, ale jak dotąd moje próby nie przyniosły mi tego, czego chcę.

Każda pomoc jest doceniana.

+0

Może "kruszywo" jest lepsze niż "scalanie"? –

Odpowiedz

18

użyję plyr „s rbind.fill tak:

pp <- cbind(names=c(rownames(df1), rownames(df2), rownames(df3)), 
         rbind.fill(list(df1, df2, df3))) 

# names Sp1 Sp2 Sp3 Sp4 Sp5 Sp6 
# 1 site1 1 2 3 1 NA NA 
# 2 site2 0 2 0 1 NA NA 
# 3 site3 1 1 1 1 NA NA 
# 4 site1 0 1 NA 2 NA NA 
# 5 site2 1 2 NA 0 NA NA 
# 6 site3 1 1 NA 1 NA NA 
# 7 site1 0 1 NA NA 1 1 
# 8 site2 1 1 NA NA 1 5 
# 9 site3 2 0 NA NA 0 0 

Następnie agregat z plyr'sddply następująco:

ddply(pp, .(names), function(x) colSums(x[,-1], na.rm = TRUE)) 
# names Sp1 Sp2 Sp3 Sp4 Sp5 Sp6 
# 1 site1 1 4 3 3 1 1 
# 2 site2 2 5 0 1 1 5 
# 3 site3 4 2 1 2 0 0 
+3

Miałem rozwiązanie na uwadze i obiecuję, że nie było tak elegancko. +1 –

+0

działało idealnie! niestety nie można głosować :( – eugenego

+0

@eugenego Możesz zaznaczyć znacznik obok rozwiązania, które najlepiej odpowiada na pytanie. –

2

Alternatywą Arun za odpowiedź: stworzyć 'szablon' tablica ze wszystkimi kolumnami, których będziesz potrzebować:

Rgames> bbar<-data.frame('one'=rep(0,3),'two'=rep(0,3),'three'=rep(0,3)) 
Rgames> bbar 
    one two three 
1 0 0 0 
2 0 0 0 
3 0 0 0 

Następnie, biorąc pod uwagę każdej z ramek danych jak

Rgames> bar1<-data.frame('one'=c(1,2,3),'two'=c(4,5,6)) 
Rgames> bar1 
    one two 
1 1 4 
2 2 5 
3 3 6 

Utwórz rozszerzoną dataframe:

Rgames> newbar1<-bbar 
Rgames> for (jj in names(bar)) newbar1[[jj]]<-bar[[jj]] 
Rgames> newbar1 
    one two three 
1 1 4 0 
2 2 5 0 
3 3 6 0 

Następnie sumują wszystkie takich rozszerzonych ramek danych. Nieporęczny, ale prosty.

6

Inną alternatywą jest użycie melt/cast z reshape2. Oto naiwny przykład:

df1 <- read.table(header=T, text=" 
    Sp1 Sp2 Sp3 Sp4 
    site1 1 2 3 1 
    site2 0 2 0 1 
    site3 1 1 1 1") 

df2 <- read.table(header=T, text=" 
     Sp1 Sp2 Sp4 
site1 0 1 2 
site2 1 2 0 
site3 1 1 1") 

df3 <- read.table(header=T, text=" 
     Sp1 Sp2 Sp5 Sp6 
site1 0 1 1 1  
site2 1 1 1 5 
site3 2 0 0 0") 

df1$site <- rownames(df1) 
df2$site <- rownames(df2) 
df3$site <- rownames(df3) 

DF <- rbind(melt(df1,id="site"),melt(df2,id="site"),melt(df3,id="site")) 
dcast(data=DF,formula=site ~ variable,fun.aggregate=sum) 

    site Sp1 Sp2 Sp3 Sp4 Sp5 Sp6 
1 site1 1 4 3 3 1 1 
2 site2 2 5 0 1 1 5 
3 site3 4 2 1 2 0 0 

W skrócie, używamy oznaczenie strony jako dodatkowej zmiennej i konwertować każdą dataframe do długiego formatu, a następnie połączenie ich w jeden dataframe. Ta ostatnia zawiera wszystkie wartości w długim formacie. Z dcast tworzymy potrzebną ramkę danych, strony są w rzędach (lewa strona formuły), zmienne są w kolumnach (prawa strona formuły). Funkcja sumy jest używana dla zmiennych, dla których wytwarzane jest wiele komórek.

Oczywiście kod można rozszerzyć na bardziej ogólny przypadek za pomocą pętli lub * zastosować funkcje.

5

Dodanie do dostępnych opcji, tutaj są jeszcze dwa, które wiążą się z podstawą R.

Pierwsza opcja: Szeroki agregacja (w pewnym sensie)

temp <- cbind(df1, df2, df3) 
temp 
#  Sp1 Sp2 Sp3 Sp4 Sp1 Sp2 Sp4 Sp1 Sp2 Sp5 Sp6 
# site1 1 2 3 1 0 1 2 0 1 1 1 
# site2 0 2 0 1 1 2 0 1 1 1 5 
# site3 1 1 1 1 1 1 1 2 0 0 0 
sapply(unique(colnames(temp)), 
     function(x) rowSums(temp[, colnames(temp) == x, drop = FALSE])) 
#  Sp1 Sp2 Sp3 Sp4 Sp5 Sp6 
# site1 1 4 3 3 1 1 
# site2 2 5 0 1 1 5 
# site3 4 2 1 2 0 0 

Druga opcja: pół szerokości do długości do szerokości

Koncepcyjnie jest to podobne do Maxim. Odpowiedź K: Uzyskaj dane w długiej formie, co znacznie ułatwia manipulowanie przedmiotami:

> temp1 <- t(cbind(df1, df2, df3)) 
> # You'll get a warning in the next step 
> # Safe to ignore though... 
> temp2 <- data.frame(var = rownames(temp), stack(data.frame(temp))) 
Warning message: 
In data.row.names(row.names, rowsi, i) : 
    some row.names duplicated: 5,6,7,8,9 --> row.names NOT used 
> xtabs(values ~ ind + var, temp2) 
     var 
ind  Sp1 Sp2 Sp3 Sp4 Sp5 Sp6 
    site1 1 4 3 3 1 1 
    site2 2 5 0 1 1 5 
    site3 4 2 1 2 0 0