Chcemy użyć Amazon Elastic MapReduce na górze naszego obecnego DB (używamy Cassandra na EC2). Patrząc na FAQ w serwisie Amazon EMR, powinno być możliwe: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Konfigurowanie zewnętrznego źródła danych dla Elastic MapReduce
Jednak podczas tworzenia nowego przepływu pracy możemy skonfigurować wiadro S3 tylko jako źródło danych wejściowych.
Jakieś pomysły/próbki, jak to zrobić?
Dzięki!
P.S .: Widziałem to pytanie How to use external data with Elastic MapReduce, ale odpowiedzi tak naprawdę nie wyjaśniają, jak to zrobić/skonfigurować, po prostu, że jest to możliwe.