2012-06-22 11 views
6

zacząłem używając nutch i wszystko było w porządku, dopóki nie napotkał wyjątek IOException,Crawling użyciu nutch ... Pokazuje IOException

$ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4 
cygpath: can't convert empty path 
solrUrl is not set, indexing will be skipped... 
crawl started in: myCrawl 
rootUrlDir = urls 
threads = 10 
depth = 2 
solrUrl=null 
topN = 4 
Injector: starting at 2012-06-23 03:37:51 
Injector: crawlDb: myCrawl/crawldb 
Injector: urlDir: urls 
Injector: Converting injected urls to crawl db entries. 
Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Rahul\mapred\staging\Rahul255889423\.staging to 0700 
    at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:682) 
    at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:655) 
    at  org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509) 
    at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344) 
    at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189) 
    at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850) 
    at java.security.AccessController.doPrivileged(Native Method) 
    at javax.security.auth.Subject.doAs(Subject.java:415) 
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083) 
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) 
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824) 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:217) 
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 

@jeffery --- zmiany wersji nutch wersji n wystąpił nowy problem, który jest poza moim zakresem zrozumienia .... plzz pomóc ....

$ ./nutch crawl urls -dir myCrawl -depth 4 -topN 5 
cygpath: can't convert empty path 
solrUrl is not set, indexing will be skipped... 
crawl started in: myCrawl 
root UrlDir = urls 
threads = 10 
depth = 4 
solrUrl=null 
topN = 5 
Injector: starting at 2012-06-23 22:30:28 
Injector: crawlDb: myCrawl/crawldb 
Injector: urlDir: urls 
Injector: Converting injected urls to crawl db entries. 
Exception in thread "main" java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:217) 
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:127) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55) 

czym problem ten tym ???

+0

Którą wersję Nutch/Hadoop używasz? – Jeffrey

+0

Nutch-1.5 Solr-3.5 –

+0

Nie wiem, co to za mak. Jestem kompletnym noobem przy użyciu Nutch. :( –

Odpowiedz

0

Wpadłem na ten problem kilka dni temu. Nowsze wersje Hadoop mają problemy z interakcją z Windows. Możesz przełączyć się na platformę * nix (co prawdopodobnie powinieneś zrobić, prawie cała obsługa Nutch jest przeznaczona dla użytkowników * nix) lub obniżyć wersję Nutch. Najnowsza wersja Nutch, którą znalazłem w systemie Windows Server 2008, to 1.2.

+0

thnx za informacje .... jeśli obniżę wersję do wersji 1.2 pod oknami, czy będzie to jakiś rodzaj ograniczeń w porównaniu do pracy w środowisku linuxowym przy użyciu najnowszej wersji nutch ??? –

+0

@prafulbagai Nie będziesz mieć żadnej z nowych funkcji. Wszystkie oficjalne samouczki są nastawione na 1,5, więc mogą występować pewne rozbieżności. Nadal będziesz mógł indeksować, analizować i indeksować, więc w zależności od rodzaju twoich potrzeb może być w porządku. – Jeffrey

+0

Thnx Jeffery !!!! Postaram się, abyś był polecony !!! 1 ostatnie pytanie .. To może brzmieć trochę głupio, ale jeśli chcę przejrzeć kod źródłowy Nutch n, spersonalizuj go, gdzie mogę go odczytać ??? –

Powiązane problemy