Chciałbym połączyć sugestię Sklivvza z co najmniej inspekcją tagów tytułowych i, jeśli to możliwe, rekordami Whois.
Jeśli przeanalizujesz informację o prawach autorskich na stackoverflow.com, albo skończysz na "stackoverflow.com" lub "stackoverflow.com LLC" i to jest trochę nieistotne.
W przykładzie maxmind.com, jeśli przeanalizujesz informację prawną "Copyright © 2009 MaxMind, Inc." możesz skończyć z "MaxMind" lub "MaxMind, Inc.", jeśli połączysz się z tagiem tytułu "Geolokalizacja i Zapobieganie oszustwom online z MaxMind", jedynym słowem, które pojawia się w obu miejscach jest MaxMind.
Również domeny.com łamie nazwę domeny w słowach (każdy może go zmienić chociaż), można analizować tę stronę i chwycić „prawdziwe” imię i nazwisko, kilka przykładów:
http://whois.domaintools.com/maxmind.com = Max Mind
http://whois.domaintools.com/dabbledb.com = Dabble Db
http://whois.domaintools.com/domaintools.com = Domain Tools
http://whois.domaintools.com/stackoverflow.com = Stack Overflow
http://whois.domaintools.com/joelonsoftware.com = Joel On Software
aboutus.org może być również bardzo dobre referencje kiedy dostępny :
http://aboutus.org/maxmind.com = MaxMind LLC
http://aboutus.org/dabbledb.com = ...
http://aboutus.org/domaintools.com = DomainTools.com
http://aboutus.org/stackoverflow.com = Stack Overflow AG
http://aboutus.org/joelonsoftware.com = Fog Creek Software Inc.
Dzięki za sugestię dotyczącą symbolu praw autorskich! Myślę, że powinno to działać w większości przypadków. Każda firma prowadząca prawdziwy biznes zdecydowanie doda to na swojej stronie internetowej. ! –
Byłoby wspaniale, gdybyś mógł nas poinformować, czy zadziałało! =) – Sklivvz
pewnie! Mam zamiar zhackować jakiś kod dziś wieczorem i uruchomić go na danych testowych składających się z kilkuset stron internetowych, aby zobaczyć wynik. –