Łączenie ze Spark/pyspark do PostgreSQL

Zainstalowałem Sparka na komputerze z systemem Windows i chcę go użyć przez Spyder. Po rozwiązaniu problemów podstawy wydają się działać:Łączenie ze Spark/pyspark do PostgreSQL

import os 

os.environ["SPARK_HOME"] = "D:\Analytics\Spark\spark-1.4.0-bin-hadoop2.6" 

from pyspark import SparkContext, SparkConf 
from pyspark.sql import SQLContext 

spark_config = SparkConf().setMaster("local[8]") 
sc = SparkContext(conf=spark_config) 
sqlContext = SQLContext(sc) 

textFile = sc.textFile("D:\\Analytics\\Spark\\spark-1.4.0-bin-hadoop2.6\\README.md") 
textFile.count() 
textFile.filter(lambda line: "Spark" in line).count() 

sc.stop()

To działa zgodnie z oczekiwaniami. Chcę teraz połączyć się z bazą danych Postgres9.3 uruchomioną na tym samym serwerze. Pobrałem sterownik JDBC stąd here i umieściłem go w folderze D: \ Analytics \ Spark \ spark_jars. Ja wtedy utworzony nowy plik D: \ Analytics \ Spark \ iskra-1.4.0-bin-hadoop2.6 \ conf \ zapłonie defaults.conf zawierający ten wiersz:

spark.driver.extraClassPath  'D:\\Analytics\\Spark\\spark_jars\\postgresql-9.3-1103.jdbc41.jar'

ja prowadził poniższy kod, aby przetestować połączenie

import os 

os.environ["SPARK_HOME"] = "D:\Analytics\Spark\spark-1.4.0-bin-hadoop2.6" 

from pyspark import SparkContext, SparkConf 
from pyspark.sql import SQLContext 

spark_config = SparkConf().setMaster("local[8]") 
sc = SparkContext(conf=spark_config) 
sqlContext = SQLContext(sc) 

df = (sqlContext 
    .load(source="jdbc", 
      url="jdbc:postgresql://[hostname]/[database]?user=[username]&password=[password]", 
      dbtable="pubs") 
) 
sc.stop()

Ale otrzymuję następujący błąd:

Py4JJavaError: An error occurred while calling o22.load. 
: java.sql.SQLException: No suitable driver found for  jdbc:postgresql://uklonana01/stonegate?user=analytics&password=pMOe8jyd 
at java.sql.DriverManager.getConnection(Unknown Source) 
at java.sql.DriverManager.getConnection(Unknown Source) 
at org.apache.spark.sql.jdbc.JDBCRDD$.resolveTable(JDBCRDD.scala:118) 
at org.apache.spark.sql.jdbc.JDBCRelation.<init>(JDBCRelation.scala:128) 
at org.apache.spark.sql.jdbc.DefaultSource.createRelation(JDBCRelation.scala:113) 
at org.apache.spark.sql.sources.ResolvedDataSource$.apply(ddl.scala:265) 
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:114) 
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source) 
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) 
at java.lang.reflect.Method.invoke(Unknown Source) 
at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231) 
at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:379) 
at py4j.Gateway.invoke(Gateway.java:259) 
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133) 
at py4j.commands.CallCommand.execute(CallCommand.java:79) 
at py4j.GatewayConnection.run(GatewayConnection.java:207) 
at java.lang.Thread.run(Unknown Source)

Jak mogę sprawdzić, czy mam pobrać właściwy plik .jar lub gdzie indziej błąd może pochodzić z?

Źródło

2015-06-19 phildeutsch

Próbowałem postgresql-9.3-1103.jdbc41.jar i sporo innych plików JAR. Próbowałem też dodać '# s.environ [" SPARK_CLASSPATH "] =" D: \\ Analytics \\ Spark \\ spark_jars \\ * "' ale to daje błąd 'Py4JJavaError: Wystąpił błąd podczas wywoływania None.org.apache .spark.api.java.JavaSparkContext. : org.apache.spark.SparkException: Znaleziono zarówno spark.driver.extraClassPath, jak i SPARK_CLASSPATH. Używaj tylko tych pierwszych. "Co oznacza, że powyższa wersja powinna działać. – phildeutsch

Usuń zapłonie defaults.conf i dodać SPARK_CLASSPATH do środowiska systemu w Pythonie tak:

os.environ["SPARK_CLASSPATH"] = 'PATH\\TO\\postgresql-9.3-1101.jdbc41.jar'

Źródło

2015-06-19 16:23:33 phildeutsch

Próbowałem zmienną środowiskową SPARK_CLASSPATH ale to nie działa z Spark 1.6.

Inne odpowiedzi z postów takich jak poniżej sugerowały dodanie argumentów polecenia pyspark i to działa.

Not able to connect to postgres using jdbc in pyspark shell

Apache Spark : JDBC connection not working

pyspark --conf spark.executor.extraClassPath=<jdbc.jar> --driver-class-path <jdbc.jar> --jars <jdbc.jar> --master <master-URL>

Źródło

2016-02-04 18:14:50 Sheng

Łączenie ze Spark/pyspark do PostgreSQL

Odpowiedz

Powiązane problemy