Chcę utworzyć przeszukiwacz sieciowy, który rozpoczyna się od adresu URL źródłowego, a następnie przemierza 100 stron HTML, które znajduje należące do tej samej domeny co adres URL źródłowej, a także przechowuje rekord adresów URL z pominięciem duplikatów. Napisałem następujące informacje, ale wartość $ url_count nie wydaje się być inkrementowana, a pobierane adresy URL zawierają łącza nawet z innych domen. Jak rozwiązać ten problem? Tutaj wstawiłem stackoverflow.com jako mój początkowy adres URL.Przeszukiwacz sieci WWW używający perl
use strict;
use warnings;
use LWP::Simple;
use LWP::UserAgent;
use HTTP::Request;
use HTTP::Response;
##open file to store links
open my $file1,">>", ("extracted_links.txt");
select($file1);
##starting URL
my @urls = 'http://stackoverflow.com/';
my $browser = LWP::UserAgent->new('IE 6');
$browser->timeout(10);
my %visited;
my $url_count = 0;
while (@urls)
{
my $url = shift @urls;
if (exists $visited{$url}) ##check if URL already exists
{
next;
}
else
{
$url_count++;
}
my $request = HTTP::Request->new(GET => $url);
my $response = $browser->request($request);
if ($response->is_error())
{
printf "%s\n", $response->status_line;
}
else
{
my $contents = $response->content();
$visited{$url} = 1;
@lines = split(/\n/,$contents);
foreach $line(@lines)
{
$line =~ [email protected](((http\:\/\/)|(www\.))([a-z]|[A-Z]|[0-9]|[/.]|[~]|[-_]|[()])*[^'">])@g;
print "$1\n";
push @urls, $$line[2];
}
sleep 60;
if ($visited{$url} == 100)
{
last;
}
}
}
close $file1;
Zobacz ten link, aby uzyskać nazwę domeny głównej powiązań i porównać go do domeny głównej swojej początkowej URL: http://stackoverflow.com/questions/15627892/perl-regex-grab-everyting- do/15628401 # 15628401 – imran
Skoro zamierzasz wyodrębniać adresy URL i linki, zacznij korzystać z WWW :: Mechanize, która dba o wiele z twojej harówki. –
Nie mogę tego użyć, ponieważ mam uruchamiać kody na serwerze, który nie ma tego pakietu i nie mam uprawnień do ich zainstalowania. – user2154731