2011-01-02 10 views
13

Tworzę wyszukiwarkę (do nauki) i chcę wiedzieć, w jaki sposób Google rozpoznaje treści dla dorosłych i obrazy za pomocą funkcji Bezpieczne wyszukiwanie (http://en.wikipedia.org/wiki/Safesearch).W jaki sposób Google rozpoznaje treści dla dorosłych dzięki funkcji bezpiecznego wyszukiwania?

Język programu nie ma znaczenia, chcę poznać tylko podejście do ogólnego języka programu.

+0

Kto głosuje, aby zamknąć to za zbyt lokalne? Jak to jest zbyt zlokalizowane? – marcog

+0

Jeśli język nie ma znaczenia, dlaczego oznaczono to za pomocą dwóch znaczników języka? – sbi

+0

@sbi: * może * to są jego ulubione języki. Chciałbym je powtórzyć, ale wolę czekanie na jego akcję;) –

Odpowiedz

14

Jeśli zasady dotyczące filtra treści wpadną w ręce osób próbujących uzyskać tę zawartość za pośrednictwem filtra, filtr stanie się nieskuteczny.

Wyobrażam sobie, że zasady Google (1) nie są publicznie dostępne i (2) często się zmieniają.

To powiedziawszy, zaczynając od małej czarnej listy dorosłych stron i następujących wychodzących linków (i/lub znajdowania stron z linkami do witryn umieszczonych na czarnej liście) prawdopodobnie znajduje się ogromna liczba witryn dla dorosłych. Ale w żadnym wypadku nie chciałbyś, oprócz tego, przetwarzać tekstu i algorytmów rozpoznawania obrazu.

UWAGA: Popularna teoria mówi, że dostawcy treści dla dorosłych płacą ludziom za zadawanie pytań na stackoverflow.com, dzięki czemu Jon Skeet i Marc Gravell będą mieli mniej czasu na zaktualizowanie filtrów SafeSearch. Łatwo jednak wykazać, że Jon i Marc odpowiadają na pytania w tak wysokim tempie, że taka strategia nie byłaby opłacalna ekonomicznie.

+2

** Następne pytanie: ** Jaki algorytm okazał się przydatny w generowaniu pytań o stackoverflow, na które odpowiedzą Jon Skeet i Marc Gravell? – Xeoncross

+1

@Xoncross: Ich strony profilowe pokazują, że zastosowanie jednego z tagów 'C#', '.net',' java' i 'linq' prawdopodobnie zadziała. Korzystanie z więcej niż jednego z tych tagów może przynieść jeszcze lepsze wyniki lub może spowodować włamanie do komputera i włączenie go do chmury internetowej Google. Używaj na własne ryzyko. –

2

Założę się, że to bardzo skomplikowane.

Być może z tekstem filtrują strony zawierające więcej niż n lub n% powiązanych słów.

I z obrazami, może oni patrzą na nazwę pliku i otaczający go tekst na stronie, na której znajduje się każde zdjęcie, i filtrują je, jeśli są pełne dorosłych słów. Mogą również skanować obrazy, szukając cielistych odcieni i nagich ludzi.

3

Odpowiedź Bena jest poprawna we wszystkich punktach, ale chciałbym dodać moje rozważania.

Informacje o rozpoznawaniu obrazu: z dużym zestawem zdjęć można łatwo zidentyfikować obiekty, takie jak nagie piersi, penisy i takie w nich, za pomocą rozpoznawania wzoru.

Wszystkie algorytmy sztucznej inteligencji mają jednak słabe punkty. Możesz doświadczyć, że pewien procent twoich obrazów, w zależności od jakości użytego klasyfikatora, jest błędnie zaklasyfikowany.

Następnie należy zastosować inne kryteria niż przetwarzanie obrazu. Kryteria Google na pewno nie są publiczne, ale warto wziąć pod uwagę tagi ICRA do oznaczania w sposób niezależny pewnych materiałów jako materiału dla dorosłych, przetwarzania tekstu i linków o numerach od między domenami. Gdybym był twórcą Safesearch, przyjąłbym następujący wzorzec: witryny dla dorosłych często wymieniają linki, więc na wykresach linków między grupami witryn dla dorosłych znajdziesz wiele skrzyżowań.

Kładzenie to wszystko razem, to dobre podejście klasyfikacja wykorzystuje kilka mniejsze kryteria, zabicie je w celu określenia, czy dany obraz jest dorosły obraz czy nie.

2

Prawdopodobnie w podobny sposób jak filtrowanie spamu.

Pierwszym krokiem jest utworzenie zestawu szkoleniowego opartego na znanych witrynach dla dorosłych i wyodrębnienie z nich funkcji.Mogą to być słowa kluczowe, kolory używane w obrazach, struktura nazw domen, informacje o whois, cokolwiek. Wszystko, co może w jakiś sposób różnić się w przypadku treści dla dorosłych w porównaniu z treściami innymi niż dla dorosłych.

Następnym krokiem jest zastosowanie do tego jakiegoś modelu statystycznego. Modele Bayesa wydają się działać dobrze w przypadku spamu, ale nie w przypadku treści dla dorosłych.

Support vector machines Wygląda na to, że pasuje, ale jest to o wiele bardziej skomplikowane i sam nie jestem do końca obeznany.

Powiązane problemy