Głównym zagrożeniem, jakie stanowi Googlebot, jest jego rola jako odkurzacza praktycznie wszystkich publicznie dostępnych informacji w Internecie. W wielu przypadkach osoby fizyczne mogą nie zdawać sobie sprawy, że przechowywane przez nie informacje znajdują się w „Internecie” lub że mogą być dostępne publicznie. Wiele Googlebotów tworzy stronę po stronie, zbierając zarówno nieszkodliwe, jak i poufne informacje, które ludzie umieścili w Internecie. Termin spining oznacza pobranie strony internetowej i skorzystanie z linków na niej zawartych, powtarzanie tego procesu do momentu zebrania żądanej ilości informacji. To jest sedno działania robotów internetowych wyszukiwania. Indywidualnie każda strona może zawierać raczej nieszkodliwe informacje, ale gdy proces jest wykonywany wielokrotnie, mogą pojawić się problemy. Suma zebranych informacji może wiele ujawnić. Rozważ następujące:
* Firma Dell opublikowała specyfikację przyszłych laptopów Dell na publicznie dostępnych serwerach. Googlebot odwiedził witrynę i pobrał dokumenty, a Google udostępniło je za pośrednictwem swojej wyszukiwarki. Nawet po usunięciu dokumentów przez firmę Dell z Internetu były one nadal dostępne za pośrednictwem funkcji pamięci podręcznej Google.
* Drexel University College of Medicine umieścił w Internecie bazę danych pacjentów zawierającą 5500 wpisów. Zawierała adresy, numery telefonów i szczegółowe opisy chorób i metod leczenia.
* Google naciska na stany, aby otworzyły swoje dane i umieściły je online, zawarcie umów z Arizoną, Kalifornią, Utah i Wirginią.
* Blogerzy wojskowi opublikowali w Internecie wrażliwe informacje operacyjne, co skłoniło armię amerykańską do zmuszenia żołnierzy do zaprzestania publikowania postów na blogu bez konieczności informowania ich przełożonych o treści. Milblogging.com obecnie śledzi 1864 blogów wojskowych w 34 krajach.
* Użytkownicy Facebooka i MySpace nieustannie publikują w Internecie poufne informacje. Weźmy pod uwagę stażystę z banku, który poprosił o opuszczenie pracy z powodu
„Pogotowie rodzinne” i zamiast tego uczestniczył w przyjęciu, umieszczając zdjęcia z imprezy na swojej stronie na Facebooku. W innym przypadku właściciel firmy konsultingowej sprawdził stronę na Facebooku obiecującej osoby ubiegającej się o pracę. Odkryła, że strona kandydata zawierała wyraźne zdjęcia i komentarze dotyczące seksualnych ucieczek ucznia, picia i palenia marihuany, a także komentarze przyjaciół.
* Europejska firma programistyczna SAP uznawana za konkurenta Witryna internetowa obsługi klienta Oracle, wykorzystująca nabyte dane logowania klienta i wyodrębnione tysiące zastrzeżonych, chronionych prawem autorskim materiałów, które Oracle opracowało dla własnych klientów pomocy technicznej. Oracle pozwał SAP w odpowiedzi.
Te przykłady pokazują, jakie informacje wrażliwe ludzie będą umieszczać w Internecie. Gdy to zrobią, tracą kontrolę nad informacjami i mogą z łatwością zostać zaindeksowane przez Googlebota.