2013-04-05 15 views
51

Używam Githuba do przechowywania tekstu jednej z moich stron internetowych, ale problemem jest indeksowanie przez Google tekstu w Githubie. Tak więc ten sam tekst pojawi się zarówno na mojej stronie, jak i na Github. na przykład this search Najlepsze trafienie to moja strona. Drugie trafienie to repozytorium Githuba.Jak zatrzymać indeksowanie mojego repozytorium Github przez Google

Nie mam nic przeciwko temu, że ludzie widzą źródła, ale nie chcę, żeby Google je indeksował (i może karać za duplikowanie treści). Czy istnieje sposób, aby poza zatrzymaniem prywatnego repozytorium nakazać Google przerwanie indeksowania to?

Co stanie się w przypadku Github Pages? Są to witryny, w których źródło znajduje się w repozytorium Github. Czy mają ten sam problem z duplikacją?

Podejmij this search najlepszych najbardziej trafionych kontaktów do the Marpa site, ale nie widzę source wymienionych w wynikach wyszukiwania. W jaki sposób?

+7

Patrząc na robots.txt z Github, widzę plamy w oddziale głównym są dozwolone, ale wszystkie inne gałęzie są wyłączone . To jest prawdopodobnie wytłumaczenie, że zawartość Marpy nie jest indeksowana. Może więc, jeśli użyję innej gałęzi i usunę gałąź główną z repozytorium, indeksowanie zostanie zatrzymane. – szabgab

+0

[podsumowania dyrektyw robots.txt] [1] [1] (http://antezeta.com/news/avoid-search-engine-indexing) –

Odpowiedz

65

Plik z GitHub https://github.com/robots.txt umożliwia indeksowanie na bąble na „master” oddział, ale ogranicza wszelkie inne oddziały. Więc jeśli nie masz oddziału "głównego", Google nie powinien indeksować twoich stron.

Jak usunąć „kapitan” Branża:

W swoim klonie utworzyć nowy oddział - nazwijmy go „głównym” i przesunąć go do GitHub

git checkout -b main 
git push -u origin main 

Na GitHub zmienić domyślną gałąź (zobaczyć w sekcji Ustawienia repozytorium) lub tutaj https://github.com/blog/421-pick-your-default-branch

Następnie wyjąć główny oddział z klonu i od GitHub:

git branch -d master 
git push origin :master 

Uzyskaj inne osoby, które mogły już rozwidlić twoje repozytorium, aby zrobić to samo.

Ewentualnie, jeśli chcesz wesprzeć finansowo GitHub, można przejść prywatny https://help.github.com/articles/making-a-public-repository-private

+2

Dzięki. Postępowałem zgodnie z instrukcjami, ale zrobiłem to bezpośrednio z github.com. – Gabriel

+1

Interesujące. Usunąłem gałąź główną dla moich repozytoriów Github z powodów higienicznych, nie zdając sobie sprawy, że miałoby to niezły efekt uboczny. –

+0

Jak zachować prawidłowe wyświetlanie stron Githuba, jeśli nie ma głównej gałęzi? – Bevan

-5

Krótki awnser. Tak, możesz za pomocą pliku robots.txt.

Jeśli chcesz uniemożliwić Googlebotowi indeksowanie treści w Twojej witrynie, masz wiele opcji, w tym użycie pliku robots.txt w celu zablokowania dostępu do plików i katalogów na serwerze.

Potrzebujesz pliku robots.txt, tylko jeśli witryna zawiera treści, których nie chcesz indeksować w wyszukiwarkach. Jeśli chcesz, aby wyszukiwarki indeksowały wszystko w Twojej witrynie, nie potrzebujesz pliku robots.txt (nawet pustego).

Chociaż Google nie będzie indeksować zawartości stron zablokowanych przez plik robots.txt, możemy nadal indeksować adresy URL, jeśli znajdziemy je na innych stronach w Internecie. W rezultacie adres URL strony i potencjalnie inne publicznie dostępne informacje, takie jak tekst zakotwiczony w linkach do witryny lub tytuł z Open Directory Project (www.dmoz.org), mogą pojawiać się w wynikach wyszukiwania Google.

Źródła:

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=93708 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

+9

Plik robots.txt musi znajdować się w katalogu głównym witryny strona i nie mam dostępu do zapisu do http://github.com/robots.txt Indeksowanie może być ograniczone również w nagłówku HTML, ale nie sądzę, żebym mógł zmienić strony generowane przez Github dla mojego kodu źródłowego . – szabgab

+0

Jeśli ktoś chce zablokować roboty na swoich stronach GitHub: Osoby korzystające z GitHub Pages mogą dodać plik robots.txt do swojego repozytorium Strony użytkownika i użyć go do sterowania robotami na wszystkich wbudowanych stronach (username.github.io/*). Nie mogą jednak ukryć źródła swojej strony użytkownika, ponieważ musi ona znajdować się w '' master'''. W przypadku repozytoriów projektów, '' master''' można usunąć, a do stron GitHub można użyć innego oddziału. Żadne z powyższych nie dotyczy OP, ponieważ szabgab mówi, że nie używa Github Pages. – olavimmanuel

0

Jeśli chcesz trzymać się gałęzi głównej nie wydaje się być odwrotnie przy użyciu prywatnych repo (a upsellingu konto GitHub) lub za pomocą innej usługi, które oferuje prywatny repos za darmo jak Bitbucket.

+0

Już (około godzinę temu) usunąłem gałąź "master", a teraz mam "główną" gałąź, ale zastanawiam się, czy to wystarczy? – szabgab

+1

Jak pokazuje program robots.txt w GitHubs, powinno wystarczyć. https://github.com/robots.txt – iltempo

Powiązane problemy