W końcu są dowody na to, że wpis w pliku robots.txt nie blokuje przed indeksowaniem przez Google. Matt Cutts na jednej z konferencji wspomniał, ze Google pracuje nad sposobem publikowania dokumentów zablokowanych w pliku robots.txt.
Barry Schwartz z Seroundtable.com znalazł wynik wyszukiwania z plikiem, który zablokował w robots.txt i teoretycznie nie powinien być indeksowany przez robota Google.
Oto dowód:
Co z tego wynika?
Aby skutecznie zablokować indeksowanie przez Google należy wstawić noindex i nofollow w nagłówku dokumentu.
Plik robots.txt blokuje wyświetlanie treści dokumentu w wynikach Google, jednak pokazuje pełny adres URL czego nie życzą sobie właściciele witryn.
Niby drobiazg, ale znaczący.
A to aktualne info od Google na temat pliku robots.txt:
„Plik robots.txt ogranicza dostęp do Twojej witryny robotom indeksującym internet na potrzeby wyszukiwarek. Przed pobraniem strony witryny roboty sprawdzają, czy w witrynie jest plik robots.txt i czy blokuje on dostęp do niektórych stron…
Google nie będzie pobierać ani indeksować zawartości stron zablokowanych w pliku robots.txt, ale może indeksować te URL-e, jeśli zostaną znalezione na innych stronach w sieci. W związku z tym URL takiej strony oraz prawdopodobnie również inne powszechnie dostępne informacje, np. teksty kotwicy w linkach do witryny lub tytuł z katalogu Open Directory Project, mogą zostać wyświetlone w wynikach wyszukiwania Google.”
Zatem jeśli do naszego zablokowanego dokumentu znajdą się linki gdzieś w sieci – Google wyświetli w wynikach co najmniej adres URL, ale może również dołożyć TITLE z tekstem anchora odnośnika lub wpisem z Dmoza.
Jakie będą tego efekty? Jeśli chcemy zablokować indeksowanie istniejącego dokumentu w sieci (do którego prowadza linki) nie wystarczy go zablokować w pliku robots.txt.
Źródło: http://www.cezzy.pl/plik-robots-txt-blo...em-google/
Co ciekawe dopowiem.
Mam jedną stronę która jest zamknięta, nigdy nie chciałem aby Google czy inna wyszukiwarka ją indeksowała, w head dodałem meta no-robots&no-follow i jeszcze dodatkowo robots.txt, a Google i tak zaindeksował jeden rekord z tej strony (bez infromacji, tylko URL), więc cytat:
Aby skutecznie zablokować indeksowanie przez Google należy wstawić noindex i nofollow w nagłówku dokumentu.
Jest moim zdaniem nieprawdziwy.