URL normalization (lub URL kanonicznej) jest to proces, w którym adresy są zmodyfikowane, a znormalizowane w spójny sposób. Celem procesu normalizacji jest przekształcenie adresu URL w znormalizowany lub kanoniczny adres URL, aby możliwe było sprawdzenie, czy dwa syntaktycznie różne adresy URL są równoważne.Jak normalizować URL w Javie?
Strategie obejmują dodawanie ukośnych ukośników, https => http, itd. Strona Wikipedia zawiera wiele list.
Masz ulubioną metodę robienia tego w Javie? Być może biblioteka (Nutch?), Ale jestem otwarty. Mniejsza i mniejsza liczba zależności jest lepsza.
Na razie coś podam i sprawdzę to pytanie.
EDYCJA: Chcę agresywnie znormalizować, aby liczyć adresy URL tak samo, jeśli odnoszą się do tej samej treści. Na przykład ignoruję parametry utm_source, utm_medium, utm_campaign. Na przykład ignoruję poddomeny, jeśli tytuł jest taki sam.
Dobra! Jednak dla mnie to nie wystarczy. Pierwszą rzeczą, którą pomogłem było podanie następujących parametrów: utm_source, utm_medium, utm_campaign.Znajdują się one na wielu adresach URL w dziale, ale ich usunięcie pozostawia te adresy semantycznie takie same dla celów analizy, do których treści się odnoszą. – dfrankow
@dfrankow To niekoniecznie musi być prawda. Nie ma nic, co mogłoby powstrzymać witrynę przed wyświetlaniem różnych treści na podstawie tych parametrów. –
Oczywiście, ale praktycznie rzecz biorąc, są one używane przez niektóre pakiety marketingowe (Google Analytics?) Do śledzenia kampanii, więc prawdopodobnie nie będą się różnić. – dfrankow