Konfigurowanie zewnętrznego źródła danych dla Elastic MapReduce

Chcemy użyć Amazon Elastic MapReduce na górze naszego obecnego DB (używamy Cassandra na EC2). Patrząc na FAQ w serwisie Amazon EMR, powinno być możliwe: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Konfigurowanie zewnętrznego źródła danych dla Elastic MapReduce

Jednak podczas tworzenia nowego przepływu pracy możemy skonfigurować wiadro S3 tylko jako źródło danych wejściowych.

Jakieś pomysły/próbki, jak to zrobić?

Dzięki!

P.S .: Widziałem to pytanie How to use external data with Elastic MapReduce, ale odpowiedzi tak naprawdę nie wyjaśniają, jak to zrobić/skonfigurować, po prostu, że jest to możliwe.

Spróbuj użyć scp skopiować pliki na przykład EMR:

my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file

(lub użyć ftp lub wget lub curl lub cokolwiek innego chcesz)

następnie zalogować się do instancji EMR z ssh i załadować je do hadoop:

my-desktop-box$ ssh my-emr-node 
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file

2013-03-27 05:53:33 Christopher

Jak przetwarzasz dane? EMR jest właśnie zarządzany hadoop. Nadal musisz napisać jakiś proces.

Jeśli piszesz zadanie Hadoop Mapreduce, to piszesz java i możesz użyć Cassandra apis, aby uzyskać do niego dostęp.

Jeśli chcesz użyć czegoś podobnego do ula, musisz napisać moduł obsługi magazynu Hive, aby użyć danych wspartych przez Cassandrę.

2013-06-24 05:46:22 prestomation

Odpowiedz