Roboty internetowe, czasami nazywane robotami sieciowymi lub pająkami sieciowymi, to programy komputerowe, które zbierają informacje z sieci. Współpracują z serwerami przy użyciu popularnych protokołów, takich jak HTTP i SMTP. Na wiele sposobów zbierają te same informacje, które ludzie mogliby zebrać, ale tylko wielokrotnie szybciej. Boty nie są magiczne; działają w taki sam sposób, jak przeglądarka internetowa lub klient poczty e-mail, ale bez konieczności ciągłej interwencji człowieka. Wyciągając ludzi z pętli, roboty internetowe mogą nieustannie przeglądać strony pobierania, odczytywać wiadomości e-mail i zbierać informacje w imieniu swojego pana. Boty internetowe podnoszą interesującą kwestię dotyczącą czasu życia informacji: wszelkie informacje publikowane w sieci należy traktować jako ujawnione na zawsze. Wystarczy odwiedzić Internet Wayback Machine, który archiwizuje ponad 85 miliardów migawek stron internetowych zebranych od 1996 roku. Automatyczny skrypt robota Google, Googlebot, jest kluczowym składnikiem wysokiej jakości wyników wyszukiwania Google. Regularnie odwiedzając miliony stron internetowych, Google może określić ich zawartość i wszelkie zmiany, które nastąpiły. Googlebot prawie na pewno odwiedzi większość wszystkiego, co jest publikowane w publicznym internecie. Wcześniejsze rozdziały skupiały się na informacjach podawanych przez użytkowników podczas korzystania z narzędzi i usług Google. Googlebot jest inny; gromadzi tylko informacje opublikowane w publicznie dostępnej sieci. To powiedziawszy, ten zapas informacji jest bezprecedensowy w historii ludzkości. Korzystając z Internetu, ludzie nieustannie ujawniają poufne informacje o sobie, swoich znajomych, wrogach i pracodawcach. W kręgach maniaków nierzadko można usłyszeć, jak ktoś zauważa nieodpowiednie posty, które opublikowali w systemie dyskusyjnym Usenet wiele lat temu, oraz ich dalsze istnienie w archiwach online. Dzisiejsze pokolenie słyszę te same komentarze na temat postów na YouTube, MySpace i Facebooku. Firmy stoją w obliczu tej samej bitwy; wydaje się, że co tydzień pojawia się inna historia o firmie publikującej poufne dokumenty w Internecie. Niestety, gdy te ujawnienia są podawane do wiadomości publicznej, są dostępne dla wszystkich; można bezpiecznie założyć, że zostały one zapisane w jakiejś formie. Wystarczy zapytać AOL o zbiór danych wyszukiwania; Broward County na Florydzie, o zapisach hrabstwa; lub dowolnego hakera Google o lukach w zabezpieczeniach znalezionych w Internecie. Niezależnie od tego, czy każda strona jest w oczywisty sposób wrażliwa, czy po prostu wygląda nieszkodliwie, sieć internetowa stanowi bogate uzupełnienie ujawnień w cztery oczy omawianych wcześniej w książce. Ze względu na jej stale zmieniający się charakter określenie rozmiaru publicznie dostępnej sieci jest trudne, ale zawiera ona ponad 19 miliardów pojedynczych stron internetowych, 1,6 miliarda obrazów oraz 50 milionów plików audio i wideo. Googlebot gromadzi te elementy i przekazuje wyniki. do Google w celu przetwarzania, eksploracji danych i dalszej analizy. Te publiczne ujawnienia można następnie połączyć z profilami utworzonymi na podstawie ujawnień informacji w Internecie zebranych za pomocą innych narzędzi online, takich jak wyszukiwanie i poczta e-mail. Myślę o Googlebocie jako o najlepszym narzędziu rozpoznawczym, dzięki jego wszechobecności, szybkości i względnej niewidzialności. Webmasterzy oczekują, że Googlebot będzie odwiedzał i pobierał informacje z ich witryn. W tym rozdziale omówiono sposób działania Googlebota i zbadano ślady, które pozostawia w dziennikach serwera internetowego. Co być może ważniejsze, w rozdziale omówiono zagrożenia związane z Googlebotem i innymi podobnymi robotami internetowymi, w tym rodzaje informacji, które mogą znaleźć, w jaki sposób mogą głęboko spajać się z dużymi witrynami internetowymi, w jaki sposób można je niewłaściwie wykorzystać lub sfałszować oraz w jaki sposób gromadzone informacje mogą być powiązane z innymi formami aktywności online
Jak działa Googlebot
Wewnętrzne działanie Googlebota jest zastrzeżone i dlatego nie jest publicznie dostępne. Jednak podstawowe działanie Googlebota można znaleźć w kilku opublikowanych przez Google dokumentach na ten temat [5], a także na forach dla webmasterów i optymalizacji wyszukiwarek. Googlebot mówi po HTTP; żąda stron internetowych, obrazów i dokumentów; i dostarcza dane do wewnętrznych procesorów i baz danych. W wielu przypadkach Google przechowuje kopie tych obiektów i udostępnia ich kopię przechowywaną w pamięci podręcznej, lokalnie obsługiwaną, jako część wyników wyszukiwania zwracanych, gdy użytkownik wysyła zapytanie. Podobnie Google udostępnia niektóre typy plików (na przykład .pdf) w formacie HTML. Wersje w formacie HTML są obsługiwane przez Google i mogą być dostępne online nawet po ściągnięciu oryginalnej treści.Google używa linków wyodrębnionych ze stron internetowych zbieranych przez Googlebota, aby pomóc określić ranking stron internetowych w wynikach wyszukiwania. Ten proces jest podstawą algorytmu rankingu stron internetowych Google. Kluczową ideą jest to, że strony internetowe, które zawierają linki do danej strony, zasadniczo „głosują”, że strona docelowa jest warta odwiedzenia. Im bardziej „ważna” jest strona z linkiem, tym silniejszy głos. Innymi słowy, jeśli witryna internetowa The New York Times prowadzi do strony, liczy się to bardziej niż link z osobistej strony Boba. Chociaż ta koncepcja jest dość prosta, była ona motorem wysokiej jakości wyników wyszukiwania Google i późniejszego sukcesu.
Uwaga: pełne działanie algorytmu rankingu stron internetowych Google jest ściśle strzeżoną tajemnicą, ale możesz przeczytać przełomowy artykuł „Ranking cytowań PageRank: Bringing Order to the Web”, który jest dostępny online.
Wiele spekulacji na forach dla webmasterów dotyczy odmian Googlebota. Google nie udziela oficjalnej odpowiedzi, ale poinformowani obserwatorzy uważają, że istnieją co najmniej dwa główne typy: Googlebot (znany również jako Deepbot), który odwiedza rzadziej, ale głębiej, oraz Freshbot, który często odwiedza witryny o stale zmieniającej się zawartości, np. witryna z wiadomościami.
Uwaga: jeśli chcesz dowiedzieć się więcej o działaniu robotów internetowych, w tym o tym, jak pisać własne, zobacz: Webboty, pająki i skrobaki: przewodnik po programowaniu agentów internetowych z PHP / CURL autorstwa Michaela Schrenka