Ile Google wie o Tobie : Ujawnienia dotyczące tłumaczeń językowych

W większości przypadków komunikacja między ludźmi odbywa się między stronami używającymi tego samego języka. Kiedy języki się różnią, strony zazwyczaj zwracają się do tłumaczy języków. Jednak ze względu na niedawny postęp w tłumaczeniu maszynowym tłumacze-ludzie stają się coraz bardziej przestarzali. Być może najlepiej znane z usługi Babel Fish Translation firmy AltaVista (http://babelfish.altavista.com/), tłumaczenie maszynowe staje się dokładniejsze, zyskuje akceptację i jest bezpośrednio zintegrowane z samymi aplikacjami komunikacyjnymi. Na przykład Google udostępnił swoją usługę tłumaczenia maszynowego bezpośrednio z Gmaila i Google Talk. Dostęp do usługi uzyskuje się poprzez komunikację z „chat-botem”, który tłumaczy tekst i wysyła tłumaczenie jako odpowiedź. Usługa jest również dostępna za pośrednictwem klienta Google Talk dla BlackBerry. Google oferuje bezpłatną usługę tłumaczenia w ramach listy wyników wyszukiwania. Chociaż bezpłatne tłumaczenie na żądanie jest potężną pomocą w ułatwianiu komunikacji, poleganie na osobie trzeciej zamiast samodzielnej aplikacji na jej komputerze osobistym ujawnia treść wiadomości potencjalnie niezaufanej stronie trzeciej.

Konwergencja

Poczta elektroniczna, komunikatory internetowe i inne technologie komunikacyjne nie są już niezależnymi aplikacjami. Obecnie istnieje trend w kierunku skonsolidowanych portali komunikacyjnych, w których wiele form komunikacji jest zintegrowanych w jednej aplikacji. Konsolidacja tych aplikacji tworzy pojedynczy punkt awarii: jedna wykorzystana luka w zabezpieczeniach lub zakończone powodzeniem wezwanie do sądu ujawni całą komunikację użytkownika. Omówiliśmy już połączenie Google Talk i Gmaila. Innym przykładem jest skromna książka adresowa. Comcast niedawno ogłosił uniwersalną książkę adresową z rozszerzeniem następujące ogłoszenie: Wspaniała wiadomość! Teraz jest proste rozwiązanie umożliwiające dostęp do wszystkich informacji kontaktowych i kalendarza. Uniwersalna książka adresowa firmy Comcast ułatwia przechowywanie wszystkich kontaktów i kalendarzy – z kont e-mail, komputera i telefonu komórkowego – w jednym wygodnym [sic] miejscu. Prosta, prosta w obsłudze i dostępna z dowolnego miejsca – to jedyna książka adresowa, jakiej kiedykolwiek będziesz potrzebować. Z tą wygodą wiąże się duże ryzyko. Scentralizowana książka adresowa gromadzi adresy służbowe i osobiste w sieci społecznościowej użytkownika. Ponadto usługa Comcast umożliwia użytkownikowi wysyłanie ogłoszeń o urodzinach (ujawniających urodziny znajomych) i wysyłanie kartek elektronicznych, które informują dostawcę internetowego o specjalnych wydarzeniach i sile linków na wykresie społecznościowym użytkownika. Ponadto narzędzie zachęca użytkowników do umieszczania wszystkich kont e-mail, w tym kont na komputerze osobistym i telefonie komórkowym, w jednym „wygodnym” miejscu, tworząc cel, na którym będą się opłacać osoby z legalnym lub nielegalnym dostępem. Ponieważ usługa jest dostępna „z dowolnego miejsca”, istnieje możliwość zdalnego ataku. Powiązane reklamy stwierdzają, że uniwersalna książka adresowa to „jedyna książka adresowa, jakiej będziesz kiedykolwiek potrzebować – na całe życie!” Zachęca to użytkownika do korzystania z usługi i polegania na niej przez wiele lat; w przypadku naruszenia bezpieczeństwa usługa ujawniłaby nie tylko bieżącą sieć społecznościową użytkownika, ale także jego ewoluującą sieć przez długi czas. Wreszcie usługa ogłasza, że ​​użytkownicy nigdy nie stracą swoich danych, ponieważ kontakty są zapisywane online. Oznacza to, że archiwa historyczne mogą podlegać wezwaniu do sądu lub że osoba atakująca mogłaby uzyskać dostęp. W 2007 roku wymieniony kontakt Gmaila okazał się podatny na ujawnienie złośliwym witrynom internetowym.

Ostrzeżenie

Wielu użytkowników nieumyślnie wpisuje identyfikator użytkownika i hasło innej usługi online, próbując zalogować się do swojej poczty e-mail. Jedyną ochroną jest wiara, jaką pokładasz w firmie, aby nie wykorzystywać ujawnionych informacji.

Powstające sieci społecznościowe

W przeciwieństwie do działań internetowych, takich jak wyszukiwanie lub mapowanie, komunikacja za pośrednictwem poczty e-mail, tekstu, głosu i wideo jest łatwiejsza do przypisania do poszczególnych użytkowników. Dostarczenie każdej wiadomości wymaga podania informacji adresowych – adresów, które często są unikalne dla użytkowników, takich jak adresy e-mail i numery telefonów. Numery telefonów oznaczają rekordy rozliczeniowe, które można prześledzić wstecz do rzeczywistych tożsamości użytkowników. Adresy e-mail są zwykle używane przez pojedyncze osoby, a nie są udostępniane grupom użytkowników. Wiele internetowych usług poczty elektronicznej zawiera pole X-Originating-IP w nagłówku każdej wiadomości e-mail, co umożliwia bezpośrednie powiązanie wiadomości e-mail z adresem IP przeglądarki używanej do tworzenia i wysyłania wiadomości e-mail. Taka wyjątkowość umożliwia każdemu, kto potrafi przechwytywać komunikaty, szybkie tworzenie wykresów społecznościowych użytkownika  Znajomość sieci społecznościowych jest cenna, ponieważ wraz z profilami użytkowników firmy internetowe wykorzystują sieci społecznościowe do generowania przychodów z reklam. Sieci społecznościowe mogą pojawiać się nawet bez interakcji z Twojej strony. Nawet prosta czynność polegająca na odebraniu wiadomości e-mail tworzy połączenie między nadawcą a odbiorcą, coś poza twoją kontrolą. Nawet wiadomości e-mail przefiltrowane przez firmę online nadal tworzą łącze. Może to zabrzmieć trochę melodramatycznie, ale za każdym razem, gdy stary znajomy kontaktuje się z Tobą z konta poczty internetowej, część Twojej prywatności umiera.

Ostrzeżenie

Monitorowanie i analiza sieci społecznościowych pozwala dostawcom komunikacji wydedukować zjawiska społeczne w skali globalnej. Podmiot, taki jak dostawca usług internetowych lub bezpłatny dostawca poczty e-mail, który ma dostęp do wszystkich lub niektórych wiadomości użytkownika mogą z łatwością stworzyć mapę każdego komunikującego się podmiotu. W niektórych przypadkach, na przykład w przypadku przesłanych dalej wiadomości e-mail, każda wiadomość zawiera wiele wiadomości (i informacji adresowych), które można wykorzystać do szybszego rozwoju sieci komunikacyjnej. Ponadto w przypadku przesłanych dalej wiadomości e-mail inicjator może mieć niewielką wiedzę na temat ostatecznego przeznaczenia wiadomości. Biorąc pod uwagę, że miliony wiadomości e-mail, rozmów telefonicznych i wiadomości tekstowych przechodzą przez stosunkowo niewielką liczbę dostawców usług, analiza w skali globalnej jest możliwa przy użyciu obecnej technologii i prawdopodobnie ma miejsce teraz. Zarówno Google, jak i Yahoo! mają aktywne plany przekształcenia swoich systemów poczty e-mail w sieci społecznościowe w oparciu o to, jak często użytkownik wymienia e-maile i wiadomości tekstowe z innymi użytkownikami. Brad Garlinghouse, starszy wiceprezes ds. Komunikacji i społeczności w Yahoo !, przedstawia przydatne informacje: dzisiejsza skrzynka odbiorcza jest tym, co ludzie wysyłają, a nie tym, co chcesz zobaczyć. Możemy powiedzieć: „Oto wiadomości od osób, na których najbardziej Ci zależy”. Ekscytujące jest to, że wiele z tych informacji już istnieje w naszej sieci, ale są one uśpione. Rzeczywiście ekscytujące i obarczone ryzykiem. Fakt, że firmy internetowe mogą budować i analizować twoją sieć społecznościową na podstawie twoich wiadomości, a także określać „ludzi, na których najbardziej Ci zależy”, jest niepokojący na wielu poziomach. Nie widzę powodu, dla którego takie firmy nie mogą określać tych samych spostrzeżeń na poziomie korporacyjnym lub nawet państwowym

Analiza komputerowa komunikacji

Komputery mogą z łatwością analizować komunikację cyfrową, w przeciwieństwie do starszych technologii analogowych, takich jak te stosowane w większości przewodowych sieci telefonicznych i nadawczych radiowych. Tradycyjnie ludzie, którzy rozumieli język docelowy, analizowali komunikację. To podejście nie daje się dobrze skalować do milionów wiadomości przesyłanych w Internecie. Jednak obróbka maszynowa może teraz obsłużyć większość obciążenia. Trzy główne typy elektronicznej komunikacji międzyludzkiej, uporządkowane według stopnia trudności przetwarzania, to tekst, dźwięk i wideo. Tekst jest w formacie, który komputery mogą łatwo przetwarzać za pomocą prostego dopasowywania słów kluczowych i zaawansowanego przetwarzania języka naturalnego. Jak na ironię, gdy użytkownicy oznaczają swoje wiadomości, być może za pomocą Gmaila, aby pomóc im w wyszukiwaniu, ustalaniu priorytetów i filtrowaniu wiadomości e-mail, dodają ważne informacje semantyczne, które ułatwiają przetwarzanie maszynowe. Takie znaczniki dokonywane przez indywidualnych użytkowników są sercem sieci w postaci HTML i głównym powodem, dla którego wyszukiwarki działają tak dobrze.

Ostrzeżenie

Postępy w sztucznej inteligencji budzą kolejne obawy dotyczące bezpieczeństwa. Komputery coraz częściej są w stanie naśladować ludzi komunikujących się za pośrednictwem czatu online i zachęcać do ujawniania poufnych informacji. Niektóre boty nawet realistycznie „flirtują” na internetowych forach randkowych i przechwytują dane osobowe. Dźwięk stanowi bardziej złożony problem w analizie maszyn. Komunikację audio należy zazwyczaj przetłumaczyć na tekst przed przetworzeniem, ale problem ten został w dużej mierze rozwiązany. Narzędzia takie jak Dragon Naturally Speaking zapewniają do 99% dokładności, a nawet zawierają zoptymalizowane warianty medyczne i prawne. Jednak oprogramowanie do rozpoznawania mowy obciąża procesor i nie radzi sobie z analizą tysięcy lub milionów jednoczesnych komunikatów, bez zasobów na poziomie poszczególnych państw. Ostatecznie przetwarzanie głosu na dużą skalę będzie możliwe wraz ze wzrostem szybkości procesora i poprawą algorytmów. Wideo zawiera informacje wizualne, które są trudne do wydobycia przez maszyny, ale istnieją udane podejścia do maszynowego przetwarzania obrazów. To powiedziawszy, pełna analiza obrazu] leży poza zasięgiem dzisiejszej technologii. Całkowicie zautomatyzowany publiczny test Turinga w celu rozróżnienia komputerów i ludzi (CAPTCHA) ilustruje problem. Wymyślone przez Luisa von Ahna z Carnegie Mellon University, CAPTCHA to specjalnie skonstruowane obrazy, które zwykle zawierają tekst. Są zaprojektowane tak, aby były łatwe zrozumiałe dla ludzi, ale bardzo trudne do zrozumienia dla maszyn. CAPTCHA są często używane przez usługi online, takie jak Ticketmaster (www.ticketmaster.com) i Gmail, aby zapobiec automatycznemu zakupowi biletów i rejestracji konta e-mail. Innymi słowy, CAPTCHA mają na celu ochronę czegoś wartościowego przed automatyczną eksploatacją. Ponieważ CAPTCHA pełnią tę rolę strażnika, są nieustannie atakowane i służą jako katalizator technologii przetwarzania obrazu. Z biegiem czasu osoby atakujące opracowują skuteczne ataki, podobnie jak w 2008 r. Przeciwko Gmailowi ​​CAPTCHA. Obecnie trwa analiza komputerowa komunikacji, wykorzystująca uczenie maszynowe i technologie przetwarzania języka naturalnego. Świetnym przykładem jest Gmail Google, który według Google wyświetla „reklamy tekstowe i powiązane linki, które mogą okazać się przydatne i interesujące”. Ale inne przykłady obejmują analizę wiadomości e-mail pod kątem filtrowania spamu, tłumaczenia języków i ochrony antywirusowej. Należy pamiętać, że są to powszechnie uznane zastosowania maszynowego przetwarzania komunikacji. Można bezpiecznie założyć, że wiele innych zastosowań nigdy nie zostanie otwarcie omawianych. Należy pamiętać, że te usługi tworzą również niepokojący paradygmat, że analiza komputerowa komunikacji nie jest wyszukiwaniem, niebezpiecznym precedensem prawnym

Podsumowanie

W poprzednich rozdziałach omówiono ryzyko związane z poszukiwaniami i ślad, który zostawiamy za sobą, który można wykorzystać do jednoznacznej identyfikacji nas. W tym rozdziale przedstawiono zagrożenia związane z podstawowymi formami komunikacji online: pocztą elektroniczną, wiadomościami tekstowymi, komunikatorami internetowymi, głosem i wideo – wszystkimi domenami, w których Google odgrywa wiodącą rolę. Komunikacja mówi firmom internetowym, z którymi się kontaktujemy, jak wyglądamy, jak brzmimy, z kim jesteśmy związani społecznie i zawodowo, a także o rzeczywistej treści samych wiadomości, zarówno przyziemnych, jak i niezwykle wrażliwych. Ponieważ komunikacja online wymaga unikalnych cech, takich jak numery telefonów, zarejestrowane konta użytkowników i adresy e-mail. Wszystkie te aspekty mogą być agregowane i łączone zarówno z naszą działalnością wyszukiwania, jak i danymi zebranymi z niezliczonych innych narzędzi dostępnych online.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *