Ile Google wie o Tobie : Ślady Googlebota

Aktywność Googlebota jest widoczna w dziennikach serwerów internetowych, które odwiedza. Poniżej znajduje się przykładowy wpis dziennika z mojego serwera internetowego rumint.org pokazujący wizytę Googlebota.

Pierwsze pole to adres IP, czyli serwer, na którym działa Googlebot (66.249.67.207). Na razie zakładam, że ten adres faktycznie należy do Google, ale zweryfikujemy to założenie w sekcji „Podszywanie się pod Googlebota” w dalszej części. Następne pole to data i godzina wizyty ( )

Googlebot użył polecenia HTTP GET do zażądania pliku robots.txt. Mój serwer internetowy zwrócił kod błędu HTTP (404) wskazujący, że plik jest niedostępny i zwrócił stronę błędu

1695 bajtów. Ostatnim polem jest pole agenta użytkownika HTTP, które jest nazwą agenta oprogramowania, który wysłał żądanie. W przypadku tradycyjnych przeglądarek internetowych można zobaczyć programy użytkownika, takie jak „Mozilla / 5.0 (Windows; U; Windows NT 5.1; de; rv: 1.8.1.9) Gecko / 20071025 Firefox / 2.0.0.9”, „Mozilla / 5.0 (X11; U; Linux x86_64; en-US; rv: 1.8.1.10) Gecko / 20071126 Ubuntu / 7.10 (gutsy) Firefox / 2.0.0.10 ”i„ Mozilla / 4.0 (kompatybilny; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727). ” W tym przypadku agentem oprogramowania jest Googlebot w wersji 2.1. [10] Zwróć uwagę, że pole zawiera również link do informacji o bocie dla zainteresowanych webmasterów, „http://www.google.com/bot.html”. Pole klienta użytkownika jest łatwe do sfałszowania. Więcej informacji na ten temat omówię w sekcji „Podszywanie się pod Googlebota” w dalszej części.

Googlebot najpierw sprawdził, czy istnieje plik robots.txt, czyli lokalizacja, w której webmasterzy mogą zostawiać instrukcje dotyczące odwiedzania robotów internetowych. Nie używam pliku, więc mój serwer internetowy zwrócił kod stanu 404 (nie znaleziono pliku). W przypadku braku wskazówek dla webmasterów Googlebot wysłał kolejne 24 żądania. Następnym żądaniem była próba uzyskania listy wszystkich plików w katalogu /publications. Z punktu widzenia bota wyszukiwarki, uzyskanie listy wszystkich plików w katalogu jest bardzo sensowne, ponieważ może wtedy zażądać każdego pliku, nie tracąc żadnego. Jednak wielu webmasterów, w tym ja, blokuje te żądania (stąd odpowiedź 403 [zabroniona]), ponieważ takie wpisy mogą dostarczyć odwiedzającemu informacje, których mogliby nie chcieć mieć. Następnie Googlebot przechodzi do żądania poszczególnych plików PDF (.pdf), PowerPoint (.ppt) i Microsoft (.doc). Co zaskakujące, te żądania nie mają widocznej kolejności, niektóre zostały pobrane bezpośrednio (te z kodem statusu), a inne były używane z warunkiem. W protokole HTTP warunek jest używany do sprawdzenia, czy plik został zmieniony (kod stanu 304 [Nie zmodyfikowano]). Przypuszczalnie Google ma już kopię tych plików. Gdyby pliki uległy zmianie, Googlebot pobrałby bieżący plik. Użycie warunku pomaga zapobiegać marnotrawstwu przetwarzania i przepustowości, zarówno na serwerze internetowym, jak i przez webbota, które towarzyszą niepotrzebnemu pobieraniu plików. Bez informacji wewnętrznych Googlebot jest trochę zagadką. Odwiedza się w pozornie przypadkowych momentach i pobiera pozornie przypadkowe pliki. (Dwa dni po tym przykładzie Googlebot odwiedził i pobrał główną stronę HTML (index.html) oraz dwa pliki tekstowe [.txt], a następnie w lewo). Zachowanie Googlebota jest przedmiotem wielu debat ze strony optymalizatorów wyszukiwarek i mistrzów sieci. Możesz znaleźć fora czatów SEO (http://forums.seochat.com/) jako przydatną stronę do odwiedzenia w celu uzyskania najnowszych analiz i spekulacji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *