Ile Google wie o Tobie : Ryzyko związane z Googlebotem i jego kuzynami

Podstawowe ryzyko Googlebota i im podobnych wynika z umieszczania poufnych informacji w Internecie, niezależnie od tego, czy robisz to osobiście, współpracownik czy osoba trzecia. Chociaż możesz dokładnie przemyśleć, co publikujesz osobiście, nie masz wpływu na to, aby uniemożliwić innym umieszczanie wrażliwych elementów w Internecie. Gdy Googlebot kopiuje plik, nie ma możliwości cofnięcia ujawnienia. Nawet jeśli plik nigdy nie pojawia się na liście wyników wyszukiwania Google, przekazałeś go Google. Wewnętrzna pamięć podręczna dokumentów Google prawdopodobnie znacznie przewyższa część, którą firma udostępnia publicznie. W publicznie dostępnej sieci próba ukrycia treści internetowych przed firmami wyszukującymi jest daremna. Nawet jeśli webmaster nie połączył treści, może to zrobić ktoś lub coś innego. Serwery internetowe mogą udostępniać listy całych katalogów robots.txt, pliki mogą być ignorowane, link do treści może pojawić się w Gmailu, użytkownik może zasugerować link do Google (www.google.com/addurl/) lub ktoś może przeglądać listy nowo utworzonych domen internetowych. Ponadto istnieją również spekulacje, że niektóre przeglądarki internetowe i / lub paski narzędzi ujawniają odwiedzane linki stronom trzecim. Krótko mówiąc, próba ukrycia publicznie dostępnych informacji przed Googlebotem i innymi robotami to zły pomysł.

Podszywanie się pod Googlebota

Boty są powszechne w sieci; w istocie ukrywają się na widoku. Webmasterzy spodziewają się wielu wpisów w swoich dziennikach – w rzeczywistości często projektują swoje witryny tak, aby zwiększyć prawdopodobieństwo odwiedzin i zwiększyć pozycję w wyszukiwarkach. Większość botów zachowuje się enigmatycznie i pojawia się w pozornie przypadkowych momentach, pobierając pozornie przypadkowe pliki. Ich wewnętrzna praca jest ściśle skrywaną tajemnicą firmy. Jednocześnie boty pobierają większą część sieci i mogą określić, kiedy pliki są aktualizowane, które strony zawierają linki do innych stron, a nawet czy serwery (lub poszczególne usługi) nie działają. Nie mogę wymyślić lepszej techniki rozpoznania. Co gorsza, firmy zewnętrzne mogą podawać się za Googlebota. Bez większego nakładu pracy osoba atakująca mogłaby zbudować bota, który wygląda jak Googlebot (głównym polem do fałszowania jest pole klienta użytkownika HTTP). Możesz spróbować podszywać się . Smart IT Consulting (www.smart-it-consulting.com) ma stronę, która umożliwia odwiedzanie stron internetowych udających Googlebota lub kilka innych robotów internetowych. Pod postacią Googlebota osoba atakująca może zbierać informacje, nie podnosząc żadnych czerwone flagi.  Podstawowym środkiem zaradczym przed spoofingiem webbotów jest zweryfikowanie adresu IP bota. Niektóre wyszukiwarki publikują adresy IP swoich botów, ale Google nie (oficjalne informacje o Googlebocie są bardzo skąpe). Jednak, znalezienie właściciela adresu IP jest proste. W dziennikach serwera WWW we wcześniejszej części rozdziału odwiedzający podający się za Googlebota pochodził z adresu IP 66.249.67.207. Korzystając z odwrotnego wyszukiwania adresu IP (www.arin.net/whois/), mogę potwierdzić, że Google jest właścicielem adresu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *