Mam trochę doświadczenia z Apache Spark i Spark-SQL. Ostatnio znalazłem projekt Apache Drill. Czy możesz opisać mi, jakie są najważniejsze zalety/różnice między nimi? Przeczytałem już Fast Hadoop Analytics (Cloudera Impala vs Spark/Shark vs Apache Drill) , ale ten temat nadal jest dla mnie niejasny.Apache Drill kontra Spark
9
A
Odpowiedz
17
Oto artykuł natknąłem który omawia niektóre z technologii SQL: http://www.zdnet.com/article/sql-and-hadoop-its-complicated/
Wiertarka różni się zasadniczo zarówno doświadczenia użytkownika i architektury. Na przykład:
- Drill to bezpłatny silnik zapytań bez schematów. Na przykład możesz wskazać go w katalogu plików dzienników JSON lub Parquet (w lokalnym polu, udziale NFS, S3, HDFS, MapR-FS itd.) I uruchomić zapytanie. Nie trzeba ładować danych, tworzyć schematów i zarządzać nimi ani wstępnie przetwarzać danych.
- Drill korzysta wewnętrznie z modelu dokumentu JSON, który pozwala mu przesyłać dane o dowolnej strukturze. Wiele nowoczesnych danych jest złożonych, co oznacza, że rekord może zawierać zagnieżdżone struktury i tablice, a nazwy pól mogą w rzeczywistości kodować wartości takie jak znaczniki czasu lub adresy URL stron internetowych. Wiertarka pozwala zwykłym narzędziom BI bezproblemowo działać na takich danych, bez konieczności wcześniejszego spłaszczenia danych.
- Wiertarka działa z wieloma nierelacyjnymi magazynami danych, w tym Hadoop, bazami danych NoSQL (MongoDB, HBase) i pamięcią masową w chmurze. Dodatkowe datastore zostaną dodane.
Wiertło 1.0 zostało właśnie wydane (19 maja 2015 r.). Możesz go łatwo pobrać na laptopa i grać z nim bez żadnej infrastruktury (Hadoop, NoSQL itp.).
Powiązane problemy
- 1. Integracja Spark SQL i Apache Drill poprzez JDBC
- 2. Połączenie Apache Drill przez Javę
- 3. Java lub C++ API dla Apache Drill
- 4. Apache Spark vs Apache Spark 2
- 5. Apache Flink kontra Twitter Heron?
- 6. Apache Spark vs Apache Ignite
- 7. Apache Spark vs. Apache Storm
- 8. Apache Jena kontra Apache Marmotta
- 9. Elasticsearch + wydajność Apache Spark
- 10. Uboczny Argumenty Apache Spark
- 11. Apache Spark ALS Rekomendacja
- 12. Apache Helix kontra YARN
- 13. Apache-ssl kontra mod_ssl
- 14. Zalecenia Apache Spark ALS podejście
- 15. Konfiguracja portów sieciowych Apache Spark
- 16. Apache Spark GraphX podłączone komponenty
- 17. Korzystanie R w Apache Spark
- 18. Równość DataFrame w Apache Spark
- 19. Błąd Apache Spark podczas startu
- 20. Apache Spark - MlLib - Filtrowanie grupowe
- 21. Apache Spark na EC2 "Zabity"
- 22. Mnożenie macierzy w Apache Spark
- 23. Apache + mod_wsgi kontra nginx + gunicorn
- 24. Jakie są różnice między Apache Spark i Apache Apex?
- 25. Apache wdrażanie aplikacji Spark najlepsze praktyki
- 26. Strumień wyjściowy Apache Spark w Pythonie
- 27. Apache Spark Dołącza do przykładu z Javą
- 28. Używanie reduceByKey w Apache Spark (Scala)
- 29. Czytanie ładnych plików json w Apache Spark
- 30. Równość klasy Case w Apache Spark
http://www.javacodegeeks.com/2015/12/apache-spark-vs-apache-drill.html – TechDog