"Plik robots.txt nie blokuje indeksowania w google"

26 sie 2012, 11:17

W końcu są dowody na to, że wpis w pliku robots.txt nie blokuje przed indeksowaniem przez Google. Matt Cutts na jednej z konferencji wspomniał, ze Google pracuje nad sposobem publikowania dokumentów zablokowanych w pliku robots.txt.
Barry Schwartz z Seroundtable.com znalazł wynik wyszukiwania z plikiem, który zablokował w robots.txt i teoretycznie nie powinien być indeksowany przez robota Google.
Oto dowód:

Co z tego wynika?
Aby skutecznie zablokować indeksowanie przez Google należy wstawić noindex i nofollow w nagłówku dokumentu.
Plik robots.txt blokuje wyświetlanie treści dokumentu w wynikach Google, jednak pokazuje pełny adres URL czego nie życzą sobie właściciele witryn.
Niby drobiazg, ale znaczący.
A to aktualne info od Google na temat pliku robots.txt:

„Plik robots.txt ogranicza dostęp do Twojej witryny robotom indeksującym internet na potrzeby wyszukiwarek. Przed pobraniem strony witryny roboty sprawdzają, czy w witrynie jest plik robots.txt i czy blokuje on dostęp do niektórych stron…
Google nie będzie pobierać ani indeksować zawartości stron zablokowanych w pliku robots.txt, ale może indeksować te URL-e, jeśli zostaną znalezione na innych stronach w sieci. W związku z tym URL takiej strony oraz prawdopodobnie również inne powszechnie dostępne informacje, np. teksty kotwicy w linkach do witryny lub tytuł z katalogu Open Directory Project, mogą zostać wyświetlone w wynikach wyszukiwania Google.”

Zatem jeśli do naszego zablokowanego dokumentu znajdą się linki gdzieś w sieci – Google wyświetli w wynikach co najmniej adres URL, ale może również dołożyć TITLE z tekstem anchora odnośnika lub wpisem z Dmoza.
Jakie będą tego efekty? Jeśli chcemy zablokować indeksowanie istniejącego dokumentu w sieci (do którego prowadza linki) nie wystarczy go zablokować w pliku robots.txt.

Źródło: http://www.cezzy.pl/plik-robots-txt-blo...em-google/

Co ciekawe dopowiem.
Mam jedną stronę która jest zamknięta, nigdy nie chciałem aby Google czy inna wyszukiwarka ją indeksowała, w head dodałem meta no-robots&no-follow i jeszcze dodatkowo robots.txt, a Google i tak zaindeksował jeden rekord z tej strony (bez infromacji, tylko URL), więc cytat:

Aby skutecznie zablokować indeksowanie przez Google należy wstawić noindex i nofollow w nagłówku dokumentu.

Jest moim zdaniem nieprawdziwy.

22 paź 2013, 17:46

Plik robots.txt ma za zadanie zablokować wyświetlanie podstron w wyszukiwarce. Nie blokuje zatem indeksowania.

22 paź 2013, 19:03

StartCV napisał/a:
Nie blokuje zatem indeksowania.

Właśnie według tego co napisałeś powinno być odwrotnie.

StartCV napisał/a:
ma za zadanie zablokować wyświetlanie podstron w wyszukiwarce.

Generalnie założenie robots.txt było od początku takie aby zablokować strony które nie mają się pojawiać w wyszukiwarce, przykładowo linki z identyfikatorem sesji albo panelu administracyjnego.

Witaj!

"Plik robots.txt nie blokuje indeksowania w google"

"Plik robots.txt nie blokuje indeksowania w google"

Re: "Plik robots.txt nie blokuje indeksowania w google"

Re: "Plik robots.txt nie blokuje indeksowania w google"

Kto jest online