Ile Google wie o Tobie : robots.txt

Zawsze uważałem, że webmasterzy używają tych plików robots.txt jako mechanizmu zabezpieczającego. Webmasterzy umieszczają plik w katalogu głównym swojej domeny, takim jak www.domain.com/robots.txt, aby przekazać instrukcje robotom internetowym. Dobrze zachowujące się roboty, takie jak Googlebot, sprawdzają istnienie pliku i postępują zgodnie z instrukcjami. Googlebot używa dwóch podstawowych reguł: klienta użytkownika i zakazu dostępu. User-Agent określa nazwę robota, a Disallow określa pliki lub katalogi, których dotyczy reguła. Możliwe użycie pliku robots.txt to zażądanie, aby pewne pliki nie zostały dodane do indeksu Google. Oto prosty przykład:

User-agent : Googleboot

Disallow : /

Oto zasady, które mają zastosowanie do Googlebota; żądaniem jest zablokowanie mu dostępu do całej witryny.  / służy do określenia katalogu najwyższego poziomu i wszystkich znajdujących się poniżej. Aby pliki działały, muszą być czytelne dla odwiedzających. Rozważ dłuższy przykład zawierający fragmenty strony www.whitehouse.gov:

Disallow: / history / africanamerican / text

Disallow: / historia / sztuka / prace europejskie / tekst

Disallow: / history / eeobtour / images / text

Disallow: / history / firstladies / photoessay / LadyBird / text

Disallow: / historia / teren / ogród / fotoreportaże / wiosna / tekst

Disallow: / history / ground / kids / kidsgarden / text

Disallow: / history / hispanicheritage / text

Disallow: / historia / życie / tekst

Disallow: / historia / fotoreportaże / sala dyplomatyczna / tekst

Disallow: / historia / prezydenci / tekst

Disallow: / historia / quiz / walentynki / tekst

Innym popularnym sposobem przekazywania instrukcji robotom internetowym jest użycie tagu HTML <META>. Umieszczając go w sekcji nagłówka strony internetowej, webmasterzy mogą określić, czy strona ma być indeksowana i czy webbot powinien podążać za zawartymi w niej linkami. Poniżej znajduje się fragment strony internetowej, który instruuje roboty, aby nie podążały za linkami i nie indeksowały treści.

Zawsze uważałem, że webmasterzy używają tych plików robots.txt jako mechanizmu zabezpieczającego. Webmasterzy umieszczają plik w katalogu głównym swojej domeny, takim jak www.domain.com/robots.txt, aby przekazać instrukcje robotom internetowym. Dobrze zachowujące się roboty, takie jak Googlebot, sprawdzają istnienie pliku i postępują zgodnie z instrukcjami. Googlebot używa dwóch podstawowych reguł: klienta użytkownika i zakazu dostępu. User-Agent określa nazwę robota, a Disallow określa pliki lub katalogi, których dotyczy reguła. Możliwe użycie pliku robots.txt to zażądanie, aby pewne pliki nie zostały dodane do indeksu Google. Oto prosty przykład:

User-agent : Googleboot

Disallow : /

Oto zasady, które mają zastosowanie do Googlebota; żądaniem jest zablokowanie mu dostępu do całej witryny.  / służy do określenia katalogu najwyższego poziomu i wszystkich znajdujących się poniżej. Aby pliki działały, muszą być czytelne dla odwiedzających. Rozważ dłuższy przykład zawierający fragmenty strony www.whitehouse.gov:

Disallow: / history / africanamerican / text

Disallow: / historia / sztuka / prace europejskie / tekst

Disallow: / history / eeobtour / images / text

Disallow: / history / firstladies / photoessay / LadyBird / text

Disallow: / historia / teren / ogród / fotoreportaże / wiosna / tekst

Disallow: / history / ground / kids / kidsgarden / text

Disallow: / history / hispanicheritage / text

Disallow: / historia / życie / tekst

Disallow: / historia / fotoreportaże / sala dyplomatyczna / tekst

Disallow: / historia / prezydenci / tekst

Disallow: / historia / quiz / walentynki / tekst

Innym popularnym sposobem przekazywania instrukcji robotom internetowym jest użycie tagu HTML <META>. Umieszczając go w sekcji nagłówka strony internetowej, webmasterzy mogą określić, czy strona ma być indeksowana i czy webbot powinien podążać za zawartymi w niej linkami. Poniżej znajduje się fragment strony internetowej, który instruuje roboty, aby nie podążały za linkami i nie indeksowały treści.

Ciekawym przykładem wykorzystania tagów webbotów jest kontrowersja wokół korzystania z linków Wikipedii w celu sztucznego zwiększenia pozycji indeksu wyszukiwania Google. Osoby, które chcą poprawić swój ranking wyszukiwania, dodawałyby do swoich witryn fałszywe linki ze stron Wikipedii. Boty wyszukiwania indeksowałyby te linki, a ponieważ znajdowały się w popularnej witrynie Wikipedii, strona docelowa uzyskałaby wzrost w rankingu. W 2007 roku Wikipedia ogłosiła, że ​​wszystkie linki wychodzące będą zawierały tag nofollow, próbując zakończyć tę praktykę. [14] Plik  robots.txt i znacznik HTML nie są mechanizmami kontroli dostępu – to znaczy nie należy na nich polegać, aby uniemożliwić dostęp do poufnych informacji. (Najlepszym sposobem, aby to zrobić, jest nigdy nie umieszczać informacji w sieci na pierwszym miejscu). Nic nie może powstrzymać robota internetowego przed całkowitym zignorowaniem tych instrukcji. Ponadto, ponieważ plik jest publicznie czytelny, lista katalogów i plików w pliku robots.txt może nawet wyróżnić wrażliwe obszary dla atakującego.

Uwaga

Zawsze myślałem, że byłoby interesujące stworzyć wyszukiwarkę, która indeksuje tylko pliki i katalogi w robots.txt z ograniczeniami w plikach oraz te z tagami Robots <META>.

Zarówno plik robots.txt, jak i znacznik Robots <META> są stosunkowo gruboziarnistymi technologiami. Napędzani przez wydawców gazet, magazynów, internetowych baz danych, książek i czasopism, rośnie ruch na rzecz bardziej precyzyjnych standardów w celu lepszej kontroli dostępu i wykorzystania ich własności intelektualnej. Jednym z takich inicjatyw jest protokół ACAP (Automated Content Access Protocol) 

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *