Konfiguracja i konfiguracja JanusGraph dla klastra Spark i Cassandra

Używam JanusGraph (0.1.0) ze Spark (1.6.1) na jednej maszynie. Zrobiłem moją konfigurację zgodnie z opisem here. Podczas uzyskiwania dostępu do wykresu na konsoli gremlin za pomocą SparkGraphComputer, jest on zawsze pusty. Nie mogę znaleźć żadnego błędu w logach, to tylko pusty wykres.Konfiguracja i konfiguracja JanusGraph dla klastra Spark i Cassandra

Czy ktoś używa JanusGraph ze Spark i może udostępniać swoją konfigurację i właściwości?

Korzystanie z JanusGraph, otrzymuję Output spodziewanych:

gremlin> graph=JanusGraphFactory.open('conf/test.properties') 
==>standardjanusgraph[cassandrathrift:[127.0.0.1]] 
gremlin> g=graph.traversal() 
==>graphtraversalsource[standardjanusgraph[cassandrathrift:[127.0.0.1]], standard] 
gremlin> g.V().count() 
14:26:10 WARN org.janusgraph.graphdb.transaction.StandardJanusGraphTx - Query requires iterating over all vertices [()]. For better performance, use indexes 
==>1000001 
gremlin>

Używanie HadoopGraph z Spark jako GraphComputer wykres jest pusty:

gremlin> graph=GraphFactory.open('conf/test.properties') 
==>hadoopgraph[cassandrainputformat->gryooutputformat] 
gremlin> g=graph.traversal().withComputer(SparkGraphComputer) 
==>graphtraversalsource[hadoopgraph[cassandrainputformat->gryooutputformat], sparkgraphcomputer] 
gremlin> g.V().count() 
      ==>0==============================================> (14 + 1)/15]

Moi conf/test.properties:

# 
# Hadoop Graph Configuration 
# 
gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph 
gremlin.hadoop.graphInputFormat=org.janusgraph.hadoop.formats.cassandra.CassandraInputFormat 
gremlin.hadoop.graphOutputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoOutputFormat 
gremlin.hadoop.memoryOutputFormat=org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat 
gremlin.hadoop.memoryOutputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoOutputFormat 

gremlin.hadoop.deriveMemory=false 
gremlin.hadoop.jarsInDistributedCache=true 
gremlin.hadoop.inputLocation=none 
gremlin.hadoop.outputLocation=output 

# 
# Titan Cassandra InputFormat configuration 
# 
janusgraphmr.ioformat.conf.storage.backend=cassandrathrift 
janusgraphmr.ioformat.conf.storage.hostname=127.0.0.1 
janusgraphmr.ioformat.conf.storage.keyspace=janusgraph 
storage.backend=cassandrathrift 
storage.hostname=127.0.0.1 
storage.keyspace=janusgraph 

# 
# Apache Cassandra InputFormat configuration 
# 
cassandra.input.partitioner.class=org.apache.cassandra.dht.Murmur3Partitioner 
cassandra.input.keyspace=janusgraph 
cassandra.input.predicate=0c00020b0001000000000b000200000000020003000800047fffffff0000 
cassandra.input.columnfamily=edgestore 
cassandra.range.batch.size=2147483647 

# 
# SparkGraphComputer Configuration 
# 
spark.master=spark://127.0.0.1:7077 
spark.serializer=org.apache.spark.serializer.KryoSerializer 
spark.executor.memory=100g 

gremlin.spark.persistContext=true 
gremlin.hadoop.defaultGraphComputer=org.apache.tinkerpop.gremlin.spark.process.computer.SparkGraphComputer

HDFS wydaje się być poprawnie skonfigurowany zgodnie z opisem here:

gremlin> hdfs 
==>storage[DFS[DFSClient[clientName=DFSClient_NONMAPREDUCE_178390072_1, ugi=cassandra (auth:SIMPLE)]]]

Źródło

2017-05-05 Felix Hill

Spróbuj ustalania tych właściwości:

janusgraphmr.ioformat.conf.storage.keyspace=janusgraph 
storage.keyspace=janusgraph

Replace with:

janusgraphmr.ioformat.conf.storage.cassandra.keyspace=janusgraph 
storage.cassandra.keyspace=janusgraph

Domyślna nazwa KEYSPACE jest janusgraph, więc mimo błędów w nazwach własności, I don” Sądzimy, że zaobserwowałbyś ten problem, chyba że załadowałeś dane przy użyciu innej nazwy obszaru klawiatury. Ta ostatnia właściwość jest opisana w . Należy również uważać na to open issue, aby ulepszyć dokumentację do wykorzystania w Hadoop-Graph.

Źródło

2017-05-16 05:42:41

Konfiguracja i konfiguracja JanusGraph dla klastra Spark i Cassandra

Odpowiedz

Powiązane problemy