Etyka i Dane (C)


Szara linia

Stałem w sali w kształcie amfiteatru, prezentując wyniki z najnowszego modelu uczenia maszynowego, który wdrożyliśmy. Zoptymalizowałoby ceny w sklepie internetowym, który korzystał z nowości w nauce o danych, aby zwiększyć przychody. Podniosłem głowę i spojrzałem na mojego oskarżyciela. Do tej pory odnieśliśmy niewielki sukces i proponowaliśmy nowy miernik do pomiaru wpływu na przyszłość. Uniknęliśmy większości typowych zawirowań politycznych, które występują w większych firmach, utrzymując stosunkowo płaską organizację, zarówno pod względem hierarchii, jak i działania. Osoby z dobrymi pomysłami, które przyniosły rezultaty, konsekwentnie miały możliwość podejmowania decyzji i własnego strategicznego kierunku. Jedną z wad tej struktury jest zdolność ludzi o różnych programach do zakłócania postępów innych. Tak było w tym dniu, ponieważ lider zespołu marketingowego (który miał za zadanie zwiększać popyt i walczył o to) wyraził wątpliwości co do proponowanej przez nas miary. Oskarżyli mój zespół i mnie o "wprowadzanie w błąd" organizacji, pokazując wyniki takimi, jakimi byliśmy. Większość obecnych na sali nie była nastawiona ilościowo i nie widziała tego ataku, jakim był: manewrem politycznym, mającym na celu umieszczenie jednej grupy wyżej kosztem drugiej. Jako czytelnik możesz zareagować kwestionując szczegóły (jest ich wiele, a historia jest długa) i przypuszczać, że być może intencje zostały źle zinterpretowane (mogły być). Możemy dyskutować o dokładności lub zamiarach każdego z zaangażowanych graczy, ale chodzi o to, że są to gracze (prawdziwi ludzie) w korporacyjnych bitwach, które widzimy obecnie we wszystkich firmach, w których klienci, ich dane oraz ich działania i zachowania są używane jako broń, aby uzyskać przewagę konkurencyjną nad kolegami z firmy, wewnętrzną lub zewnętrzną. Widzieliśmy początek regulacji rządowych wraz z wejściem w życie unijnego RODO i podobnych środków na całym świecie, ale co z korporacyjnymi murami? Kiedy naciskasz na wyniki (zwiększone przychody, zmniejszone koszty lub inne wgląd w strategię biznesową) i stoisz przed surowymi karami, jeśli wyniki nie zostaną osiągnięte (wpływ rocznej premii, pensja, kwalifikowalność do awansu itp.), Jakie dźwignie osiągną ludzie dla? Jesteśmy teraz w środowisku, w którym widoczne są działania i strategie tylko pod algorytmami / modelami / sztucznymi inteligencjami, które projektanci / architekci mogą zrozumieć lub nie. Niedawno mówiono o tym, jak Google wpłynął na niezerową liczbę wyborców, przemówienie, które dotarło nawet do Senatu na przesłuchanie. Czy ten wynik może pochodzić od dyrektora zarządzającego, który żąda wyników, a obywatele korporacji dostarczają współczynniki klikalności, wyświetlenia stron i / lub informacje pochodzące z manipulowania wynikami wyszukiwania klientów? Jeśli tak, to kto podejmuje decyzję o przekroczeniu granicy między legalną kampanią a wtrącaniem się w wybory? Czy to pracownicy dążą do osiągania wyników, ryzykując utratę awansu / premii / pracy?

Etyka i Dane (XCIX)


Etyka, sztuczna inteligencja i funkcja audytu w sprawozdawczości finansowej

Sztuczna inteligencja szeroko odnosi się do technologii, które sprawiają, że maszyny są "inteligentne". Sztuczna inteligencja uwolniła wiele praktycznych zastosowań, które mogą usprawnić proces podejmowania decyzji. Sztuczna inteligencja jest zasilana przez algorytmy, a algorytmy są napędzane przez duże ilości danych. Pytania etyczne w systemie SI są następujące: (1) czy dane są wiarygodne? (2) czy możemy ufać, że dane dostarczają informacji potrzebnych do podejmowania decyzji zarządczych? (3) w jaki sposób audytorzy mogą ocenić dane dostarczane przez system? We wrześniu 2019 roku Genesys opublikował raport z badań, w którym stwierdzono, że 21% ankietowanych pracowników wyraziło obawę, że ich firmy mogą wykorzystywać sztuczną inteligencję w nieetyczny sposób. Dlatego niezależny audyt jest niezbędny, aby stwierdzić, że dane rzetelnie przedstawiają informacje finansowe i wyniki działalności, które są kluczowe dla oceny wyników organizacji. Bez rzetelnego audytu praktycznie niemożliwe jest stwierdzenie, że na danych wytwarzanych przez systemy AI mogą polegać użytkownicy sprawozdań finansowych, które są kluczowym składnikiem zaufania do tych danych. Innymi słowy, dane muszą informować o tym, co mają raportować, i muszą być bezstronne. Audyt jest podstawową funkcją organizacji, ale większość z nich ma charakter rutynowy. Badanie informacji finansowych pozwala na wykorzystanie technologii do analizy dużych zbiorów danych i podjęcia decyzji, na których obszarach badania należy się skoncentrować oraz w jaki sposób najlepiej zebrać dane potrzebne do zapewnienia, że badanie spełnia standardy zawodowe i etyczne. Firmy księgowe eksperymentują z systemami sztucznej inteligencji, w których maszyny wykraczają poza wykonywanie rutynowych zadań i informują o podstawowych procesach decyzyjnych. Sztuczna inteligencja ma wiele konsekwencji dla etyki organizacyjnej, w tym audyt wewnętrzny, kontrolę wewnętrzną nad sprawozdawczością finansową oraz rolę audytorów zewnętrznych. Ponadto mogą wystąpić niezamierzone konsekwencje w odniesieniu do możliwości oszustwa w systemach SI, które należy rozumieć w połączeniu ze skutecznym audytem. Księgowi i audytorzy powinni być odpowiednio przeszkoleni do dokonywania takich ocen. To, czego brakuje w dzisiejszych dyskusjach na temat sztucznej inteligencji na arenie księgowości i audytu, to jasne zrozumienie, na czym polegają kwestie etyczne w systemie sztucznej inteligencji i jak najlepiej je rozwiązać. Oto dziesięć obszarów, które budzą obawy:

•  W jaki sposób organizacja może ustanowić odpowiedzialność i nadzór poprzez systemy ładu korporacyjnego w środowisku sztucznej inteligencji?
•  W jaki sposób korzystanie z systemu sztucznej inteligencji wpływa na rolę i obowiązki dyrektora finansowego w odniesieniu do certyfikacji sprawozdań finansowych zgodnie z sekcją 302 ustawy Sarbanes-Oxley (SOX) z 2002 r.?
•  Jaka jest rola i obowiązki systemu kontroli wewnętrznej nad sprawozdawczością finansową w środowisku AI?
•  Co kierownictwo musi zrobić, aby ocenić, czy kontrole wewnętrzne w systemie sztucznej inteligencji działają zgodnie z przeznaczeniem, co jest wymogiem zgodnie z sekcją 404 SOX?
•  Jakie są możliwe zagrożenia dla obiektywizmu i integralności w środowisku sztucznej inteligencji i jakie zabezpieczenia ograniczają te zagrożenia i usprawniają funkcję audytu zewnętrznego?
•  Jakie jest ryzyko, że systemy SI mogą zostać wykorzystane do promowania programu zarządzania, który może obejmować zawodowe i / lub fałszywe sprawozdania finansowe?
•  Jeśli istnieje znaczące ryzyko, w jaki sposób można chronić integralność sprawozdań finansowych?
•  Jakie jest ryzyko, że sztuczna inteligencja ograniczy prawa do danych lub prywatność osób i społeczności i jak można nim zarządzać?
•  Jaka jest rola i obowiązki komitetu audytu w środowisku AI?
•  Czy powinien istnieć oddzielny komitet ds. Etyki sztucznej inteligencji, aby zapewnić, że kultura korporacyjna wspiera etyczne podejmowanie decyzji w kwestiach związanych ze sztuczną inteligencją?

Wyzwania związane z księgowością, audytem i sprawozdawczością finansową w środowisku sztucznej inteligencji są poważne. Jednym ze sposobów ich scharakteryzowania jest podkreślenie potrzeby przejrzystości, rozliczalności i uczciwości. Innym jest zaufanie, ale weryfikacja.

Etyka i Dane (XCVIII)


Przygotować się lub nie przygotować na burzę

W sierpniu 2005 r. pracowałem w grupie analitycznej dużego sprzedawcy artykułów wyposażenia wnętrz z siedzibą w Północnej Karolinie, a mój ojciec i jego żona mieszkali w Nowym Orleanie. Kiedy huragan Katrina uderzył na południowy wschód, mogłem zobaczyć i ocenić zniszczenia z osobistego, zawodowego i analitycznego punktu widzenia. Rozmowy z rodziną, moje osobiste doświadczenia z wolontariatem i wizyty w rejonie Nowego Orleanu po burzy nadały mojej pracy większe znaczenie, dodając imiona i twarze do wyników. Pamiętałem widoki, dźwięki i zapachy, kiedy wróciłem do swojej kostki i analizowałem dane, aby uchwycić ogromny wpływ Katriny na nasz biznes. Ponadto zacząłem się zastanawiać, co my jako firma i analitycy moglibyśmy zrobić, aby być lepiej przygotowanym w przyszłości. Przed burzą i zaraz po tym, jak huragan dotarł na ląd, trendy biznesowe były typowe, a nasze zespoły ratunkowe reagowały zgodnie z protokołami. Analizowaliśmy, które sklepy zostały dotknięte i określaliśmy ilościowo utraconą sprzedaż według działów. Wyjątkowość Katriny polegała na tym, że burza nie ustąpiła po tym, jak po raz pierwszy wylądowała na Florydzie. Zamiast tego zyskał siłę w Zatoce, a następnie uderzył w Nowy Orlean, a fala sztormowa spowodowała upadek wałów przeciwpowodziowych. Ilość ziemi, majątku i ludzi doświadczających szkód i zniszczeń rosła wykładniczo. Pracownicy i klienci stracili domy i dobytek. Sklepy były zamknięte lub miały ograniczone godziny pracy z powodu uszkodzeń budynku, utraty zapasów, przerywanego zasilania, braku personelu, utraty wsparcia miejskiego i ograniczeń w uzupełnianiu zapasów. Ta sytuacja była najgorszym scenariuszem. Przed Katriną stworzyliśmy najlepszą w swojej klasie bazę danych, która obsługuje modele predykcyjne wzorców zakupów, podobieństwa produktów, sezonowości, regionalności i prognoz sprzedaży. Mój zespół był naprawdę w czołówce analiz detalicznych. Teraz mieliśmy za zadanie określić, jakie dane należy wykluczyć z naszych istniejących procesów, aby reszta firmy mogła działać normalnie. Jednocześnie zdaliśmy sobie sprawę, że mamy prawdziwy skarb na wyciągnięcie ręki. Wykluczonych danych nie można użyć do przewidywania normalnej działalności; Można go jednak użyć do określenia kluczowych produktów i nowych wzorców, które pojawią się w bazie danych, zapewniając poradnik dotyczący tego, jak nasza firma ewoluuje w czasie burzy. Krótko mówiąc, huragan Katrina dał naukowcom zajmującym się danymi okazję do przeanalizowania epickiego zakłócenia w świecie handlu detalicznego i zidentyfikowania, kiedy ustaliła się nowa norma. Zdaję sobie sprawę, że analizowanie "ewolucji burzy" to robienie ogromnego dzbanka lemoniady; był to jednak bardzo ekscytujący czas i projekt. Zacząłem tworzyć "pasma", które identyfikowały poziom zniszczenia w milach od centrum burzy na zewnątrz, aby określić linię normalności. Z biegiem czasu każdy zespół osiągnął nową normę. Po czterech do pięciu latach stworzyliśmy zbiór danych, który powstał raz w życiu - ale co mogliśmy z nim zrobić? Możliwe zastosowania:

•  Udostępnić społeczeństwu listę przedmiotów służących do zabezpieczenia i ochrony mienia na wypadek katastrofy.
•  Stwórz "mobilne" sklepy, które są w zasadzie 18-kołowymi pojazdami z wbudowanym punktem sprzedaży i wyposażonymi w najbardziej potrzebne artykuły natychmiast po przejściu burzy.
•  Jako gest dobrej woli, wypełnij puste ciężarówki tekturą i "wyczyść" śmieci ze sklepów, ponieważ usuwanie śmieci jest często zawieszane w tych czasach, dodatkowo obciążając działalność sprzedawcy.
•  Opracuj podręcznik i dostosuj ten proces do stosowania metody, biorąc pod uwagę różne rodzaje katastrof, regionalność i sezonowość.
•  Zintegruj dane z dostępnymi danymi pogodowymi i stwórz studia przypadków dla studentów, ponieważ to wydarzenie pięknie ilustruje ewolucję danych i jak musisz być tak zwinny, jak to, co analizujesz, aby być skutecznym.
•  Udoskonalenie obecnych protokołów dla lokalizacji na obszarach podatnych na katastrofy.
•  Przedstaw metody stosowane do izolowania wpływu burzy i nadal prognozuj prognozy biznesowe w celu optymalizacji oczekiwanego "nowego normalnego" - popytu po gwałtownym wzroście, ale nie do utrzymania ... Bądź ostrożny, ponieważ możesz modelować zapotrzebowanie na dodatkowe lokalizacje, nie będą się dobrze rozwijać, gdy obszar się ożywi.

Natknęliśmy się na pytanie dotyczące budżetu korporacyjnego, czy nadal przechwytywać i analizować ten "dar danych", kosztem jego zachowania i utrzymania. Biorąc pod uwagę, że zdarzenia te są rzadkie, trudne do przewidzenia, a jeszcze trudniejsze do podjęcia szybkich działań, podjęto decyzję o umożliwieniu danych w naturalny sposób wycofywania się z bazy danych, korzystając z istniejących zasad przechowywania danych. Zastanawiam się, czy ten zestaw danych można było wykorzystać do poprawy gotowości na burze, ratowania życia i mienia oraz usprawnienia logistyki na wypadek katastrof, ponieważ wydaje się, że potężne burze nie są dziś tak rzadkie.

Etyka i Dane (XCVII)


Losowy wybór na Harvardzie?

Etyka w algorytmach to obecnie popularny temat. Zwykle rozmowa koncentruje się na możliwym niezamierzonym uprzedzeniu algorytmu statystycznego lub uczenia maszynowego oraz szkodach, jakie może on wyrządzić, gdy jest używany do wybierania, oceniania, oceniania lub rangowania ludzi. Na przykład algorytm oceny zdolności kredytowej może zawierać predyktor, który jest silnie skorelowany z rasą, co może skutkować decyzjami o uprzedzeniach rasowych. Są jednak przypadki przeciwne. Stosowanie uznaniowego ludzkiego osądu przy przyjmowaniu studentów na wysoce selektywne uniwersytety jest pełne kontrowersji i zarzutów o uprzedzenia. Oto propozycja prostej techniki selekcji statystycznej, aby zapewnić różnorodność przy jednoczesnym uniknięciu błędu systematycznego. Najlepiej ilustruje to Uniwersytet Harvarda i sprawa sądowa, która przyniosła rozgłos procesowi rekrutacji na uniwersytet. "Kolekcja dzieł sztuki, która mogłaby pojawić się na naszej drodze…" Przy 19 odrzuceniach na każdą akceptację, wejście na Harvard może wydawać się strzałem w księżyc. Rodzinna kolekcja dzieł sztuki była jedną z zalet studentów ubiegających się o przyjęcie na Harvard. Nie jest tajemnicą, że darczyńcy lub potencjalni darczyńcy mają przewagę, jeśli chodzi o dostanie się ich dzieci na Harvard, Princeton lub którykolwiek z setek uniwersytetów. Mimo to niezwykłe było ujrzenie prawdziwej prawdy w otwartym - wzmianka o "kolekcji sztuki" pojawiła się w e-mailu od dyrektora ds. Rekrutacji na Harvardzie, który został upubliczniony w procesie wytoczonym przez Amerykanów pochodzenia azjatyckiego, którzy twierdzili, że Harvard jest dyskryminowany. Duże darowizny to tylko jedna szybka droga do Harvardu. Oczywiście lekkoatletyka to inna sprawa. Pochodzenie z terenów wiejskich pomaga. Funkcjonariusze ds. Przyjęć mają znaczną swobodę uznania, z której znaczną część korzystają w służbie różnorodności etnicznej. Ale przechylenie skali na korzyść jednej grupy etnicznej nieuchronnie stawia ją przeciwko innej, a pogoń za różnorodnością, jak obecnie praktykowana, jest wprost przeciwna prawnym zakazom dyskryminacji.

Inny sposób

Harvard i podobne instytucje opierają się na ludzkim osądzie, faworyzując jedną grupę nad drugą, co może sprawić, że będą bezbronni przed zarzutami uprzedzeń. Prosty pomysł może uwolnić Harvard od tej afirmatywnej akcji, jednocześnie promując różnorodność: wybieraj uczniów drogą losowej loterii, znanej od czasu techniki statystycznej eliminującej uprzedzenia i zapewniającej równą reprezentację. Można ustalić minimalny próg kwalifikacji, a pulą mogą być ci kandydaci, których uznano za zdolnych do odniesienia sukcesu w nauce. Zgodnie z dowodami z procesu, duża liczba wnioskodawców - znacznie większa niż liczba przyjętych - spełnia ten standard (dzieci absolwentów i dawców są przyjmowane po sześciokrotnej stawce normalnej, a Harvard twierdzi, że dobrze im się to udaje). Preferencje dotyczące dziedzictwa, lekkoatletyki itp. Mogłyby zostać utrzymane, ale jeśli byłyby zbyt duże, mogłyby zagrozić postrzeganej ważności tej sugerowanej nowej metody. Kluczowe ulepszenie zapewni różnorodność pod każdym względem, nie tylko rasowym: wybierz kod pocztowy z każdego numeru w zależności od populacji. Kandydaci, których rodzice mają pieniądze i motywują swoje dzieci do wzbogacania zajęć przedszkolnych, aby zwiększyć ich szanse na przyjęcie, nie będą już mieli przewagi. W losowaniu warstwowym populacja, z której należy pobrać próbkę, jest dzielona na warstwy, aby ułatwić odpowiednią reprezentację grup interesów. Jak będzie działać stratyfikacja geograficzna?

Losowy wybór ze stratyfikacją geograficzną

Nowy algorytm przyjęć może działać w ten sposób:

1. Podziel kraj na równe strefy zaludnienia (używając kodów pocztowych dla celów argumentacji).
2. Ustal, ilu kandydatów zostanie przyjętych, i równo podziel zasiłek między strefy.
3. Ustal minimalne kwalifikacje (używając kryteriów numerycznych, takich jak wyniki SAT i średnie ocen).
4. Wybierz równą liczbę kandydatów z każdego obszaru, wybierając losowo spośród osób powyżej progu kwalifikacji i pozostających w ramach dodatku strefowego. W jaki sposób zapewni to różnorodność? W obecnym systemie opartym na osądach Harvard bierze pod uwagę cechy osobiste i społeczne inne niż czysta inteligencja - udział w zajęciach pozalekcyjnych, angażująca osobowość, występy w wywiadzie i tak dalej. Studenci z zamożnych podmiejskich dzielnic pochłaniają więcej tego etosu i atmosfery związanej z uczelniami niż ci z biedniejszych obszarów, zarówno miejskich, jak i wiejskich, gdzie chodzenie na studia nie jest normą. Jeśli Harvard wybierze losowo ze wszystkich stref geograficznych w zależności od populacji, z pewnością skończy się to zróżnicowanym gronem studentów, ponieważ będzie musiał "kopać głębiej" w strefach, w których droga do college′u nie jest tak dobrze wydeptana.

Harvard i jego rówieśnicy mają wyjątkowe możliwości wypróbowania tego eksperymentu:

•  Mogą sobie pozwolić na ryzyko potencjalnego zmniejszenia pokrewieństwa absolwentów i pieniędzy (sam dochód z funduszu Princeton pozwoliłby uniwersytetowi zapewnić bezpłatne czesne każdemu studentowi, z dużą ilością pozostałych).
•  Ich reputacja jest tak dobrze ugruntowana, że nie muszą już opierać się na osiągnięciach "super-uczniów".
•  Pula dobrze wykwalifikowanych kandydatów jest tak ogromna w stosunku do przyjęć, że obniżenie paska przyjęć na niektórych obszarach geograficznych nadal będzie skutkować w pełni wykwalifikowanymi kandydatami.
•  Jako uczelnie prywatne, Harvard i jego rówieśnicy nie muszą martwić się o politycznie mianowanych regentów lub wtrącanie się do ustawodawstwa stanowego.
A co najlepsze, rozsądny plan próbkowania warstwowego oparty na mapie uwolni Harvard i jego rówieśników z prawnego i politycznego powiązania akcji afirmatywnej. Nie ma nic niewłaściwego w selekcji, w której czynnikiem jest geografia (w przeciwieństwie do rasy czy pochodzenia etnicznego). Co więcej, zmniejszenie roli elitarnych instytucji w pielęgnowaniu i zwiększaniu rzekomo nieodłącznych różnic zasług między jednostkami będzie również miało zbawienny efekt demokratyzujący.

Losowy wybór na Harvardzie?

Etyka w algorytmach to obecnie popularny te

Etyka i Dane (XCVI)


100% konwersji: utopia czy dystopia?

To był jasny dzień w handlu detalicznym, a konwersje po raz kolejny uderzyły w 100%. Marketing po raz kolejny dostarczył hiperpersonalizowane oferty. Oferty te były nie tylko unikalne dla każdego indywidualnego klienta, ale także uwarunkowane specyficznym nastawieniem każdego klienta w momencie ich dostarczenia. Po otrzymaniu każdej oferty każdy klient zareagował identycznie: "Przyjmę". Merchandising miał pod ręką idealną ilość zapasów w każdym sklepie i centrum logistycznym. Czyli niezależnie od tego, gdzie klient chciał sfinalizować transakcję, produkt był w magazynie. Dodatkowe koszty wysyłki związane z realizacją produktów, których nie ma w magazynie, należą do przeszłości. Nadmiar zapasów, luzów i zwrotów nie istniały. Dział IT usunął z witryny sekcję odpraw, a operacje sklepowe wyeliminowały godziny pracy związane z redliningiem i zwrotami. Każda transakcja była produktywna, a koszty operacyjne nigdy nie były niższe. Planowanie i analizy finansowe kontynuowały swój rekord doskonałej dokładności prognoz, ponieważ precyzyjnie określały cele dotyczące jednostek, marży i przychodów. Ceny akcji poszybowały w górę, a cele dotyczące rekompensat motywacyjnych zostały przekroczone. Główny analityk był dumny z ilości danych klientów zebranych i przechowywanych z transakcji, lojalności i mediów społecznościowych ... a także z nowej funkcji analizy wideo, która wykorzystywała rozpoznawanie twarzy do śledzenia wizyt, czasu przebywania i nastrojów klientów w sklep. Informacje te zasilały zaawansowane modele uczenia maszynowego, które mogły dokładnie przewidywać, co kupi każdy klient, za jaką cenę, jakim kanałem i kiedy. Było zadziwiająco dokładne. Powtarzający się chaos poniedziałkowych poranków należał już do przeszłości. Liderzy spędzali czas na kreatywnym opracowywaniu planów na przyszłe sezony, zamiast szukać przyczyny braku oczekiwań w sprzedaży. Ceny były konkurencyjne, agresywne i doskonale pokonały konkurencję i zapewniały zyskowne marże. A co z klientami? Czy byli szczęśliwi? To zależy od tego, którego klienta zapytałeś. Pierwszy klient był zachwycony. - Znają mnie - czasami lepiej niż ja siebie - powiedziała. "Wszystko, co mi oferują, działa. Jest to zawsze cena, którą uważam za uczciwą, a oni zawsze mają mój rozmiar na magazynie. Kolory i wygląd idealnie pasują do mojej istniejącej garderoby i mojego stylu. W rzeczywistości niedawno opublikowałem komentarz, że potrzebuję nowych butów, kiedy pokazali mi idealną parę! " Krzyknęła nawet: "To utopia!" Drugi klient był wściekły i sceptyczny. "Nie podoba mi się, ile moich informacji śledzą. Przy każdym zakupie muszę podać swój adres e-mail lub numer telefonu. Śledzą mnie nawet wtedy, gdy przeglądam witrynę. Wygląda nawet na to, że śledzą moją aktywność w mediach społecznościowych i rozmowy - skąd inaczej mieliby wiedzieć, o czym rozmawiałem wczoraj z małżonkiem i wysłać mi ofertę w tej sprawie dzisiaj? I kto wie, co robią ze wszystkimi moimi informacjami lub komu je sprzedają! " Narzekała: "To dystopia!" A co ze sprzedawcą? Czy to było skuteczne? Czy to było etyczne? To znowu zależy od tego, kogo zapytałeś. Dla tych z Was, którzy identyfikują się z oceną któregokolwiek z klientów, wasze opinie są prawdopodobnie ustalone. Ale dla tych, którzy jeszcze nie zdecydowali, warto rozważyć. Rozwój technicznych możliwości gromadzenia, śledzenia i analizowania danych demograficznych, transakcyjnych i behawioralnych klientów podnosi poprzeczkę oczekiwań dotyczących wydajności sprzedawców detalicznych. Sprzedawca detaliczny nie może już wprowadzać na rynek produktu, który nie odpowiada w pełni klientowi - w odpowiednim rozmiarze, cenie i stylu. A jeśli oczekiwania co do wydajności wzrosną, przetrwają tylko najlepsi sprzedawcy, a poziom obsługi i jakości, której doświadczają klienci, również wzrosną. Czy detaliści powinni być zobowiązani do uzyskania zgody każdego klienta, aby wykorzystać ich informacje? Takie postępowanie z pewnością zwiększyłoby koszty i spowodowałoby znaczną nieefektywność w zakresie terminowości i skuteczności ich modeli analitycznych, a także prawdopodobnie zmniejszyłoby dokładność tych modeli. A jeśli tak się stanie, być może stracą zarówno sprzedawcy, jak i klienci. Ale jeśli sprzedawcy detaliczni skutecznie gromadzą, śledzą, analizują i chronią te dane, klienci wygrywają. Zamiast scenariusza przypominającego dystopię z wielkim cierpieniem lub niesprawiedliwością, klienci doświadczyliby bardziej idealnego stanu mniejszej liczby ofert, większej trafności, oraz lepsze produkty, usługi i jakość. Chociaż 100% konwersji ostatecznie nie jest praktyczne ani możliwe do osiągnięcia, dążenie do tego celu może przynieść najbliższe pozory idealnego, utopijnego doświadczenia zarówno dla klienta, jak i dla sprzedawcy.

Etyka i Dane (XCV)


Spojrzenie dożywotniego analityka marketingowego na prywatność danych konsumentów

W dzisiejszym środowisku biznesowym coraz więcej firm przyjmuje praktyki biznesowe zorientowane na klienta. Według ekspertów ds. Marketingu i doświadczeń klientów, Dona Peppersa i Marthy Rogers, autorów książki Managing Customer Experience and Relationships (Wiley), firma zorientowana na klienta zapewnia, że klient znajduje się w centrum filozofii, operacji i pomysłów firmy. Z mojej perspektywy te zorientowane na klienta praktyki przynoszą korzyści zarówno konsumentom, jak i firmom. Konsumenci czerpią korzyści z tego, że firmy konfigurują procesy w celu wysłuchania ich potrzeb oraz korzystają z analiz i podejść opartych na wglądach, aby modyfikować swoje operacje biznesowe, aby poprawić ogólne wrażenia klientów. Firmy czerpią korzyści z wdrażania praktyk zorientowanych na klienta, budując zaufanie konsumentów, wartość i lojalność wobec marki oraz zdobywając więcej zwolenników konsumentów. Ponownie zacytuję Dona Peppers i Marthę Rogers, aby podkreślić niektóre z podstawowych cech firm zorientowanych na klienta:

•  Współpracują z klientami.
•  Wykorzystują komunikację interaktywną do określenia indywidualnych potrzeb.
•  Odróżniają od siebie klientów, aby wchodzić w interakcje z konsumentami w bardziej odpowiedni i zindywidualizowany sposób.

U podstaw tych podstawowych cech zorientowania na klienta leży kluczowy temat / temat: prywatność danych konsumentów. Dane konsumentów i informacje zwrotne wynikające z interaktywnej komunikacji z konsumentami są paliwem, które umożliwia firmom przyjmowanie i wdrażanie innowacyjnych praktyk zorientowanych na klienta. Bez tych danych firmy są ślepe na ciągle zmieniające się zachowania, preferencje i potrzeby konsumentów. Dlatego niezwykle ważne jest, aby wszystkie firmy, zorientowane na klienta lub inne, stosowały praktyki gromadzenia danych konsumenckich, które zachęcają konsumentów do ciągłego przepływu danych o klientach do firm. Praktyki dotyczące gromadzenia i wykorzystywania danych muszą być całkowicie przejrzyste dla konsumentów. Praktyki te muszą chronić przed naruszeniami danych i zapewniać konsumentom większą kontrolę nad tym, jakie dane osobowe są gromadzone, przechowywane, wykorzystywane i udostępniane przez przedsiębiorstwa. Bez tego będzie więcej przypadków, takich jak niewłaściwe wykorzystanie danych członków Facebooka przez Cambridge Analytica w kampaniach politycznych, które nadal podważają zaufanie konsumentów i pogłębiają Ponadto, bliżej domu, w styczniu 2020 r. Weszła w życie ustawa California Consumer Privacy Act, zapewniająca mieszkańcom Kalifornii większą kontrolę nad danymi osobowymi, które są gromadzone i wykorzystywane przez firmy. To pokazuje, że jeśli amerykańskie firmy nie mogą samoregulować odpowiedzialnych praktyk gromadzenia i wykorzystywania danych konsumentów, to agencje stanowe i federalne ostatecznie zrobią to za nich. Regulowana ochrona danych może być dla konsumentów trochę obosiecznym mieczem. Z pewnością zapewnia spokój, wiedząc, że obowiązują i są egzekwowane lepsze praktyki w zakresie ochrony danych. Jeśli jednak przepisy będą zbyt uciążliwe i restrykcyjne, firmy szybko zaczną tracić zdolność do pozostawania w kontakcie z zachowaniami, potrzebami i głosem konsumenta, co utrudni wdrażanie zorientowanych na klienta praktyk biznesowych, które przynoszą korzyści wszystkim konsumentom. . Jako osoba, która od 30 lat zajmuje się marketingiem i analizą danych, rozumiem wartość, jaką odpowiedzialne gromadzenie i analiza danych może zapewnić zarówno konsumentom, jak i firmom. Nadszedł czas, aby wszystkie firmy dokonały oceny swoich własnych zasad ochrony danych i korzystania z nich oraz w razie potrzeby dokonały zmian, abyśmy mogli zacząć odzyskiwać zaufanie konsumentów.ustawa California Consumer Privacy Act, zapewniająca mieszkańcom Kalifornii większą kontrolę nad danymi osobowymi, które są gromadzone i wykorzystywane przez firmy. To pokazuje, że jeśli amerykańskie firmy nie mogą samoregulować odpowiedzialnych praktyk gromadzenia i wykorzystywania danych konsumentów, to agencje stanowe i federalne ostatecznie zrobią to za nich. Regulowana ochrona danych może być dla konsumentów trochę obosiecznym mieczem. Z pewnością zapewnia spokój, wiedząc, że obowiązują i są egzekwowane lepsze praktyki w zakresie ochrony danych. Jeśli jednak przepisy będą zbyt uciążliwe i restrykcyjne, firmy szybko zaczną tracić zdolność do pozostawania w kontakcie z zachowaniami, potrzebami i głosem konsumenta, co utrudni wdrażanie zorientowanych na klienta praktyk biznesowych, które przynoszą korzyści wszystkim konsumentom. . Jako osoba, która od 30 lat zajmuje się marketingiem i analizą danych, rozumiem wartość, jaką odpowiedzialne gromadzenie i analiza danych może zapewnić zarówno konsumentom, jak i firmom. Nadszedł czas, aby wszystkie firmy dokonały oceny swoich własnych zasad ochrony danych i korzystania z nich oraz w razie potrzeby dokonały zmian, abyśmy mogli zacząć odzyskiwać zaufanie konsumentów.

Etyka i Dane (XCIV)


Fundacja Nieuchronnych Praw dla LAWS

Postępy w technologii sztucznej inteligencji doprowadziły do uzasadnionych wezwań do zakazania śmiercionośnych autonomicznych systemów broni (LAWS). Rządy na całym świecie odpowiadają na te wezwania ciszą. Kiedy stawką są kraje, metody rządzenia i życie, przywódcy uciekają się do ekstremalnych metod, aby zapewnić przetrwanie i chronić swoich obywateli. W przyszłości działań wojennych zdolność LAWS do szybkiego oceniania i zwalczania celów da decydującą przewagę krajowi, który posiada najbardziej zaawansowaną technologię i chęć jej użycia. W wojnie dominuje technologia niezbędna do zwycięstwa. Biorąc pod uwagę te surowe realia, jakiego stopnia pewności wymagają maszyny AI, aby autonomicznie atakować cele? Poniżej przedstawiono metodologię, której mogą używać praktycy, aby dyktować, jak dużą swobodę należy dać autonomicznym systemom w podejmowaniu lub informowaniu o ważnych decyzjach.

Metodologia przewidywania wyników (PEM)

Model wytrenowany na jednym zestawie danych i przetestowany na oddzielnym zestawie danych ma bazową metrykę dokładności, która może nie być reprezentatywna dla rzeczywistych scenariuszy. PEM jest przeznaczony do testowania LAWS w sposób reprezentatywny dla rzeczywistych scenariuszy i powinien służyć jako podstawa do testowania wymagań, które LAWS musi spełnić, zanim zostaną wdrożone w celu podjęcia niezależnych decyzji. Podobnie jak lekarz, który osiąga doskonałe oceny w trakcie studiów medycznych, musi nadal ukończyć staż, tak samo LAWS powinno przejść rygorystyczny okres próbny. PEM składa się z dwóch komponentów: środowiska testowego (TE) i miernika dokładności wyjściowej (OAM). TE został zaprojektowany tak, aby naśladować rzeczywiste scenariusze. Na przykład LAWS zbudowane w celu identyfikacji artylerii wroga można przetestować w TE zawierającym przyjazny i wrogi sprzęt, manekiny testowe i inne nie wrogie obiekty artyleryjskie. Wykonywanie PRAWA w zakresie poprawnej identyfikacji celów to OAM. Dodatkowo, szkolenie LAWS w TE musi zostać wdrożone w podobnym środowisku, gdy angażuje się w podejmowanie decyzji. Na przykład LAWS wykonujący PEM na pustynnym TE musi zostać wdrożony w środowisku pustynnym po ukończeniu PEM. Gdyby te same PRAWA zostały wdrożone w środowisku zalesionym po PEM, mogłoby to zmniejszyć dokładność z powodu odchyleń środowiskowych, co wymaga ponownej oceny wydajności.

Wydajność LAWS podczas PEM

Rozważmy scenariusz, w którym artyleria identyfikacyjna LAWS poddawana PEM uzyskała OAM 99,9%; na 1000 obiektów system poprawnie zidentyfikował 999 jako artylerię wroga lub nie jako artylerię wroga. Wymaganie od LAWS zaangażowania w ustandaryzowane PEM daje naukowcom zajmującym się danymi możliwość zidentyfikowania i określenia mocnych i słabych stron LAWS w zakresie identyfikacji oraz określenia, jak dobrze LAWS musi działać, zanim zostanie wdrożony. W tym scenariuszu LAWS działa z dokładnością 99,9%, ale myli artylerię sojuszniczą z artylerią wroga w 1% przypadków. Według jakich standardów zamieszanie na poziomie 0,1% warunkuje pomyślne zakończenie PEM? Czy PRAWO powinno zostać wdrożone, kiedy może popełnić bratobójstwo? A co, jeśli te same PRAWA nieprawidłowo zidentyfikowały artylerię wroga jako czołgi wroga w 1% przypadków? Czy to jest bardziej akceptowalne? Być może dokładność tego samego PRAWA przewyższa dokładność ludzi. Czy można wdrożyć? Odpowiedzi na te pytania pokrywają się z obecnymi prawami wojennymi i poziomem działań wojennych krajów, w których są zaangażowane. Na przykład w wojnie totalnej standardy PEM mogą być niższe, ponieważ potencjalne straty uboczne są równoważone przez liczbę ofiar śmiertelnych w wyniku kontynuacji działań wojennych. W scenariuszach walki z terroryzmem być może wymóg PEM OAM i warunki TE są znacznie wyższe lub PRAWA są całkowicie zakazane, ponieważ ryzyko nawet małej nieścisłości może mieć daleko idące skutki strategiczne. PEM to podejście, które daje krajom możliwość tworzenia polityk zapewniających stosowanie PRAWA tak etycznie, jak to tylko możliwe.

PEM: ciągłe i cykliczne

PEM wymaga dodatkowych egzekwowalnych standardów do wdrożenia w skali międzynarodowej. Ponadto PEM określa tylko, czy LAWS są początkowo wdrażalne. PRAWA muszą być regularnie monitorowane, aby zapewnić ciągłą dokładność, lub można je "zdjąć z linii" i ponownie przetestować za pomocą PEM. PRAWA, które przeszły przekwalifikowanie modelu, muszą również ponownie uzyskać certyfikat w ramach PEM przed wdrożeniem, aby zapewnić ciągłość działania.

Rozszerzenia do PEM

PEM ma zastosowanie do różnych ustawień. Ponieważ systemy SI w dalszym ciągu wchodzą i ulepszają życie, wskaźniki sukcesu w całym cyklu życia systemów SI muszą zapewniać ich działanie w oparciu o zamiar ich wykorzystania.

Etyka i Dane (XCIII)


Paradoks etycznego paradoksu

Etyka w zakresie danych i analityki to krytyczna dziedzina, która na szczęście zyskuje coraz większą uwagę. Od firm zajmujących się agregacją danych, które wielokrotnie demonstrują lekceważenie swoich obowiązków związanych z zarządzaniem danymi, aby osiągnąć cele firmy, po metodologie pandemiczne, które naruszają prywatność jednostki dla większego dobra społecznego, paradoksy etyczne są pozornie wszędzie. Niektóre firmy technologiczne poważnie rozważyły koncepcję danych i etyki analitycznej. Inni organizują publiczny pokaz tworzenia rady ds. Etyki danych, tylko po to, aby naruszyć artykuły własnego kodeksu etyki danych przy tworzeniu tej rady. Istnieje kilka publicznych przykładów wytyczających ścieżkę dla etyki danych i analityki. Wygląda na to, że wszyscy dorośli opuścili pokój. Aby być uczciwym, organizacje często stają przed wyborami etycznymi, które w świadomości liderów mogą być postrzegane jako etyczne paradoksy. Ale czy tak jest? Rozważmy prosty przykład: na początku lutego skarbnik kościoła otrzymuje od proboszcza prośbę o znaczną darowiznę. Jako warunek przyjęcia prezentu proboszcz prosi skarbnika, w imieniu ofiarodawcy, o datowanie listu oficjalnie uznającego podarunek na grudzień poprzedniego roku. W obliczu konfrontacji pastor powiedział, że postrzega to jako dylemat etyczny. Wybór padł między większymi funduszami dla kościoła na dobrą pracę a zgodnością z prawem ofiarodawcy, który ma niższy rachunek podatkowy, ponieważ każdy "sfałszował" termin. Nie jest to paradoks etyczny, chociaż pastor sam siebie o tym przekonał. Nie jest to wybór między dwiema diametralnie przeciwstawnymi etycznie właściwymi decyzjami. Tak, fundusze pomogłyby kościołowi. Jednak przyjęcie prezentu, bez względu na to, jak bardzo nam się nie podoba IRS, było wyraźnym naruszeniem kodeksu podatkowego. W rzeczywistości, gdyby został odkryty (i biorąc pod uwagę papierowy ślad, byłoby to łatwe), mogłoby to skutkować karami, w tym utratą statusu organizacji non-profit przez kościół. Te same typy fałszywych paradoksów etycznych codziennie spotykają liderów biznesu. W zdecydowanej większości przypadków podejmowana jest właściwa decyzja. Ale jest zbyt wiele przykładów, w których myślenie jest zagmatwane, a decydenci tworzą paradoks, który nie istnieje. Przykłady rzeczywistych wyzwań etycznych obejmują:

•  Płatnik opieki zdrowotnej ustanawia funkcję wnoszenia wkładu w społeczność naukową na podstawie swojej księgi biznesowej. Jedno z badań zdecydowanie sugeruje, że wyższe wyniki CAP (pomiar satysfakcji klienta z planu zdrowotnego NCQA [National Committee for Quality Assurance]) są bezpośrednio związane z członkami o wyższym obciążeniu ryzykiem (wyższy wskaźnik odpowiedzi i bezpośrednia korelacja wyższego zadowolenia z częstszym opieka zdrowotna). Tak więc badania nie są publikowane, co pozwala uniknąć publicznej kontroli wysokiej oceny satysfakcji tego planu.
•  Projekt realizowany przez organizację zdrowotną pobiera dane konsumentów do modeli, które oceniają ryzyko pacjenta na podstawie jego nawyków zakupowych. Może to być przykład danych wykorzystywanych dla dobra - lekarza posiadającego informacje, których może użyć, aby pomóc w kierowaniu opieką nad pacjentem na podstawie zakupów żywności. Jednak te same informacje, jeśli zostaną zebrane przez plan zdrowotny, mogą zostać wykorzystane do dostosowania przyszłych składek, a nawet wyceny produktu poza zasięgiem tego członka / grupy, aby plan zdrowotny pozbył się klientów o wyższym ryzyku.
•  W celu poprawy miary HEDIS związanej z astmą, w planie zdrowotnym rozpoczyna się program dla wszystkich sklasyfikowanych w mianowniku HEDIS (osoby sklasyfikowane jako osoby z astmą zgodnie z definicjami NCQA) w celu uzyskania określonego leku (kontrolera), mimo bez wątpienia wielu członków było fałszywie pozytywnych w wyniku zakwestionowanej metodologii. Obawy dotyczące wyników wyższej jakości spowodowały, że podjęto wysiłek, w tym te, które były fałszywie pozytywne, z uzasadnieniem, że niepotrzebna recepta "nie zaszkodzi im".
To wszystko są stosunkowo proste przykłady …a paradoks wcale nie jest paradoksem. Jest to wybór pomiędzy własnym interesem, mętnym jako "dobra rzecz do zrobienia dla organizacji", a pozornie oczywistym etycznym kierunkiem działania. Jeśli organizacje borykają się dziś z tymi wyborami, wyzwania, jakie stwarza sztuczna inteligencja, sprawiają, że jest to znacznie bardziej złożona rozmowa. Jak zauważył Yuval Noah Harari: "Ludzie są zawsze dużo lepsi w wymyślaniu narzędzi, niż w mądrym używaniu ich".

Nie należy tego spisywać jako tyrady kogoś jadącego na moralnie wysokim koniu. To jest podstawowa sprawa. Etyczne postępowanie jest kamieniem węgielnym cywilizowanego społeczeństwa, zarówno pod względem zawodowym, jak i osobistym. Jednak dziś etyka jest atakowana wszędzie, a fałsz jest przedstawiany jako "fakty", aby odwrócić uwagę i osiągnąć to, co niektórzy uważają za "większe dobro". Posiadanie etycznego kodeksu postępowania, który jest starannie zintegrowany z psychiką organizacji, to świetny początek w zwalczaniu tych fałszywych paradoksów. Wszyscy możemy zrobić lepiej …

Etyka i Dane (XCII)


Kiedy odmawiać danych

Jezioro danych ze wszystkimi informacjami, które można było zebrać (zarówno w przedsiębiorstwie, jak i poza nim), aby uzyskać 360-stopniowy widok klienta (do celów marketingowych). i do innych celów). Byłby to ogromny zbiór danych zawierający dane klientów, dane dotyczące sprzedaży konsorcjalnej, informacje o koszyku, dane marketingowe (promocyjne), dane demograficzne (z US Census Bureau), sklep ,lokalizacje, pogoda i tak dalej. To jezioro danych zawierałoby informacje o tym, kto (kupujący), co (produkt), gdzie (lokalizacja), kiedy (czas), jak (typ transakcji) i dlaczego (dane zewnętrzne, takie jak pogoda, giełda, dochody w lokalizacjach sklepów itp.). Jego głównym zastosowaniem byłaby obsługa wizualizacji wewnątrz Data CAFÉ (Collaborative Analytics Facility for the Enterprise). Data CAFÉ została zaprojektowana tak, aby kadra kierownicza mogła wejść do tego pomieszczenia z dziewięcioma (9) dużymi ekranami wyświetlającymi informacje i podejmować krytyczne decyzje biznesowe w czasie rzeczywistym (np. Sprzedaż w Czarny piątek na wschodnim wybrzeżu umożliwiła kierownictwu zmianę dystrybucji w górach i na zachodzie. Strefy czasowe wybrzeża na podstawie transmisji na żywo). Wewnątrz Data CAFE dzielilibyśmy dane na kawałki, aby wizualizacje można było tworzyć za pomocą filtrów (określonego sklepu, stanu, regionu itp.), A następnie po prostu przenosząc ten widok na inny ekran lub wymiar (np. do produktu), dyrektor mógł zobaczyć, czy coś jest trendem lokalnym, czy większym. Ukuliśmy termin "Wizualizacje Archimedesa" (ponieważ Archimedes był uważany za jednego z czołowych naukowców w klasycznej starożytności). Wyobraź sobie, że możesz wizualizować informacje dla określonej lokalizacji (sklepu), a następnie przejść do następnej wyższej grupy (rynek lokalny, stan, oddział), a na końcu do globalnej. Teraz zastanów się, że szukałeś tych filtrów i że możesz łatwo przenieść te filtry na inny monitor z kiedy (czas) lub kto (konsument) lub co (produkt). Dyrektorzy mogliby znaleźć własne trendy w oparciu o swoje doświadczenie rynkowe, a także mieliby przewagę decyzji opartych na danych. Gdy integracja danych zaczęła dojrzewać, szybko dowiedzieliśmy się, że te informacje można wykorzystać do znalezienia bardzo wrażliwych informacji o osobie lub gospodarstwie domowym, a konkretnie o tym, co sąsiad kupuje w naszych sklepach. Zostało to natychmiast rozpoznane jako problem, jeśli chodzi o etykę danych, ponieważ inżynierowie danych i naukowcy danych mieli otrzymać dostęp do zbioru danych w celu analizy. Może to szybko przekształcić się w zobowiązanie bez pewnych form kontroli na jeziorze danych. Aby rozwiązać ten problem, zdecydowaliśmy się stworzyć zestaw reguł, które ograniczyłyby zwrot zbiorów danych z zapytań kierowanych do jeziora danych:

•  Żadne zapytanie nie byłoby dozwolone, które zwróciło mniej niż 30 wyników (ponieważ na Środkowym Zachodzie małe miasta mogą mieć populację 10 osób, a zatem zestaw wyników może być deterministyczny).
•  Żadne zapytanie nie będzie dozwolone na podstawie nazwy, adresu, numeru telefonu ani żadnych innych danych osobowych (PII), takich jak identyfikator lojalnościowy, adres IP itp.
•  Nie byłoby obsługiwane żadne zapytanie, które śledziłoby dane lub wzorce unikalnej osoby lub gospodarstwa domowego (aby zapobiec omijaniu ograniczonego ograniczenia zestawu wyników).
•  Wszystkie zapytania byłyby zapisywane, abyśmy w przypadku stwierdzenia naruszeń etycznych mogli w przyszłości je zatrzymać podczas omawiania z właścicielem zapytania przyczyny tego typu przesłuchania (w przypadku, gdy był prawdziwy powód, ale zestaw wyników był uznane za nieodpowiednie).

W miarę upływu czasu byliśmy bardzo zaskoczeni, gdy dowiedzieliśmy się, że podjęto wiele prób uzyskania dostępu do danych osób, a niektóre stosowały bardzo innowacyjne podejścia, w tym wielopoziomowe zapytania i połączone zestawy wyników. Nie rozumieliśmy, dlaczego tak się dzieje, ponieważ od samego początku byliśmy bardzo pewni, że to jezioro danych zostanie wykorzystane do znalezienia trendów i określenia, jak ulepszyć koszyki kupujących. Jak się okazało, po zbadaniu sprawy odkryliśmy, że wiele prób było faktycznymi błędami popełnionymi w projekcie zapytania, co skutkowało niewielkimi zestawami wyników. Okazało się, że bardzo nieliczne były zamierzone, a stało się to po przejrzeniu całej populacji podejrzanych zapytań. Zaobserwowaliśmy, że inżynierowie danych i naukowcy działali głównie etycznie i nie było to zaskoczeniem, ponieważ kultura korporacji opierała się na zaufaniu i osobistej odpowiedzialności. Z tego jeziora danych nauczyliśmy się wielu rzeczy, w tym następujących interesujących obserwacji (dostarczonych wyłącznie dla przyjemności oglądania):

•  W wózkach sklepowych najczęściej znajdowano owoce (banany, truskawki), benzynę, wodę, chleb i kurczaki z rożna.
•  Kupujących można było podzielić na różne kategorie, ale ich zachowania związane z przeglądaniem były podobne.
•  Wpływ złej pogody na zakupy zaprzecza założeniu, że spowoduje większą sprzedaż w tym okresie.
•  Umieszczanie towarów w widocznych lokalizacjach zwiększyłoby ich sprzedaż marginalnie.
•  Kupujący szukaliby produktów na wyprzedaży zamiast wyborów własnych marek.

Etyka i Dane (XCI)


Aby zwalczać uprzedzenia w przewidywaniu polityki, sprawiedliwość nie może być daltonistą

Modele przewidujące przestępczość znajdują się w grzęzawisku skazanym na kontrowersje, ponieważ same nie są w stanie urzeczywistnić równości rasowej. Jest to problem nierozwiązywalny ze swej istoty. Okazuje się, że chociaż takie modele skutecznie oflagowują (tj. przypisują większe prawdopodobieństwo) zarówno oskarżonym czarnym, jak i białym z jednakową precyzją, w wyniku tego częściej również fałszywie oflagowują oskarżonych czarnych niż białych. Jednak pomimo tej pozornie paradoksalnej sytuacji, jesteśmy świadkami bezprecedensowej okazji do promowania sprawiedliwości społecznej poprzez obrócenie predykcyjnych działań policyjnych, aby aktywnie wpływać na sprawiedliwość, zamiast biernie wzmacniać dzisiejsze nierówności. Predictive policing wprowadza element ilościowy do ważnych decyzji organów ścigania podjętych przez ludzi, takich jak to, czy prowadzić dochodzenie, czy zatrzymać, jak długo nałożyć wyrok i czy zwolnić warunkowo. Podejmując takie decyzje, sędziowie i funkcjonariusze biorą pod uwagę obliczone prawdopodobieństwo, że podejrzany lub oskarżony zostanie w przyszłości skazany za przestępstwo. Obliczanie predykcyjnych prawdopodobieństw na podstawie danych jest zadaniem oprogramowania do modelowania predykcyjnego (czyli uczenia maszynowego). Automatycznie tworzy wzorce wg. przeszukiwania zapisów historycznych przekonań, a następnie te wzorce - razem, model predykcyjny - służą do obliczenia prawdopodobieństwa dla osoby, której przyszłość jest jeszcze nieznana. Chociaż modele przewidujące przestępczość są "ślepe na kolory", różnie traktują rasy. Zazwyczaj modele nie uwzględniają wyraźnie rasy ani żadnej chronionej klasy w swoich obliczeniach. Mimo to czarni oskarżeni są częściej oznaczani jako osoby o wyższym ryzyku niż biali. Ta dysproporcja jest bezpośrednią konsekwencją niezrównoważonego rasowo świata, w którym żyjemy. Na przykład liczba wcześniejszych wyroków skazujących oskarżonego wynosi standardowe dane wejściowe dla modeli predykcyjnych, ponieważ oskarżeni, którzy wcześniej zostali skazani za przestępstwo, są bardziej skłonni do ponownego popełnienia przestępstwa (po zwolnieniu) niż ci, którzy tego nie zrobili. Ponieważ więcej czarnych oskarżonych ma wcześniejsze wyroki skazujące, oznacza to, że modele predykcyjne częściej zaznaczają czarnych oskarżonych niż białych. Czarny oskarżony nie jest oflagowany ze względu na rasę, ale jest bardziej prawdopodobne, że zostanie oflagowany niemniej jednak. Dzisiejszy gorący spór nie dotyczy jednak wyższego wskaźnika oflagowań, ale wyższego wskaźnika fałszywych oflagowań. Modele predykcyjne nieprawidłowo oznaczają czarnych oskarżonych, którzy nie będą ponownie popełniać przestępstw częściej niż białych. W najczęściej cytowanym artykule na temat stronniczości w prognozowaniu policji, Pro-Publica donosi, że stosowany na szczeblu krajowym model COMPAS fałszywie oznacza białych oskarżonych w tempie 23,5% i czarnych w tempie 44,9%. Innymi słowy, czarni oskarżeni, którzy na to nie zasługują, są błędnie oznaczani prawie dwa razy częściej niż biali. W przeciwieństwie do tego, zwolennicy COMPAS twierdzą, że każda flaga jest jednakowo uzasadniona dla obu ras. W odpowiedzi na pytanie ProPublica twórcy COMPAS zwracają uwagę, że wśród osób oznaczonych jako podwyższone ryzyko odsetek fałszywie oznaczonych jest podobny dla pozwanych czarno-białych: 37% i 41%, odpowiednio. Innymi słowy, wśród oskarżonych, którzy są oflagowani, COMPAS jest równie często błędny dla oskarżonych białych i czarnych. Inni naukowcy zajmujący się danymi zgadzają się, że spełnia to standard uniewinnienia modelu jako bezstronnego. Wygląda na to, że każda pojedyncza flaga jest rasowo sprawiedliwa, ale ogólne wskaźniki fałszywych flag już tak nie są. Chociaż te dwa twierdzenia mogą wydawać się ze sobą sprzeczne, oba są prawdziwe:

•  Jeśli zostałeś oflagowany, szanse, na jakie zasłużyłeś, są równe, niezależnie od rasy.
•  Jeśli nie zasługujesz na to, by być oflagowanym, jest większe prawdopodobieństwo, że zostaniesz błędnie oflagowany, jeśli jesteś czarny.

Kto ma rację? Z jednej strony wszystkie flagi wydają się być równie zasłużone. W przypadku oskarżonych, którym przypisuje się wyższe prawdopodobieństwo, wskaźnik kolejnych postępowań jest taki sam dla oskarżonych białych i czarnych. Z drugiej strony wśród oskarżonych, którzy nie popełnią ponownie przestępstwa, osoby czarne są bardziej narażone na fałszywe oflagowanie. Bardziej zniuansowane stanowisko głosi, że aby rozstrzygnąć tę sprawę, musimy uzgodnić, jak definiuje się sprawiedliwość. Ale zamiast krzyżować miecze w kwestii tego, czy model jest "stronniczy", oświecona rezolucja polegałaby na uzgodnieniu środków zwalczania nierówności rasowej. Debata nad słowem "stronniczy" odwraca uwagę od dalszego toku działania. Zamiast oceniać tylko, czy model pogarsza niesprawiedliwość rasową, wzmocnijmy działania policji predykcyjnej, aby aktywnie zmniejszać niesprawiedliwość. Sam pozorny paradoks ujawnia zwykle ukryty symptom dzisiejszej nierówności rasowej: jeśli flagi predykcyjne są skalibrowane tak, aby były równie precyzyjne dla obu grup, następnie, biorąc pod uwagę wyższy ogólny wskaźnik ponownych przestępstw wśród czarnych oskarżonych, grupa ta cierpi na większe rozpowszechnienie fałszywych flag. Cóż to za zdumiewająca nierówność. Dla oskarżonego jakiejkolwiek rasy bycie flagą oznacza narażenie się na znaczne ryzyko, że flaga jest fałszywa. Może to skutkować dodatkowymi latami pozbawienia wolności, bez możliwości potwierdzenia, czy było to uzasadnione (ponieważ osadzony w więzieniu oskarżony traci swobodę wykazania braku przyszłych przestępstw). Dla czarnej populacji, znoszenie tego ryzyka częściej niż biali jest zniewagą: nie tylko osoby czarnoskóre są bardziej skłonne do zostania oskarżonymi, ale z kolei są z kolei bardziej narażeni na niesprawiedliwe skazanie na dodatkowe lata więzienia w dniu podstawa fałszywego przewidywania przyszłych przestępstw. Aby rozwiązać ten problem, edukujmy decydentów organów ścigania i kierujmy ich w zakresie obserwowanych nierówności. Poinstruuj sędziów, komisje ds. Zwolnień warunkowych i funkcjonariuszy, aby zrozumieli stosowne zastrzeżenia, gdy otrzymają obliczone prawdopodobieństwo, że czarny podejrzany, oskarżony lub skazany ponownie popełni przestępstwo. W ten sposób upoważnij tych decydentów do uwzględnienia tych rozważań w procesie podejmowania decyzji. Trzy kluczowe kwestie, nad którymi należy się zastanowić podczas pracy z prawdopodobieństwem ponownego popełnienia przestępstwa to:

Prawdopodobieństwo, na które patrzysz, było zależne od rasy oskarżonego, za pośrednictwem serwerów proxy.

Chociaż rasa nie jest bezpośrednim wkładem w formułę, model może uwzględniać niewybrane, mimowolne czynniki zbliżone do rasy, takie jak pochodzenie rodzinne, sąsiedztwo ("Czy w Twojej okolicy jest dużo przestępstw?"), Poziom wykształcenia (tylko częściowo wybrany), oraz zachowanie rodziny i przyjaciół.

Prawdopodobieństwo nie sprzyja czarnym oskarżonym z powodu stronniczej prawdy.

Ponieważ osoby czarnoskóre są badane, aresztowane, a zatem skazane częściej niż osoby białe, które popełniły to samo przestępstwo, mierniki wzorcowych wyników nie pokazują, w jakim stopniu czarni oskarżeni są częściej niesprawiedliwie oznaczani.

Czarną populację niszczą fałszywe flagi.

Uwzględnienie tej systematycznej kwestii przyczynia się do większego dobra. Uznanie tej kwestii daje możliwość pomocy w zrekompensowaniu przeszłych i obecnych niesprawiedliwości rasowych oraz cyklów pozbawiania praw wyborczych, które następują. To tutaj predykcyjne działania policyjne mogą raczej deeskalować takie cykliczne wzorce, niż nieumyślnie je wzmacniać.

Same modele przewidujące przestępczość muszą z założenia pozostawać ślepe na kolory, ale sposób, w jaki je kontekstualizujemy i stosujemy, nie może pozostać taki. Ponowne wprowadzenie rasy w ten sposób jest jedynym sposobem przejścia od zwykłego sprawdzania modeli predykcyjnych pod kątem uprzedzeń rasowych do celowego projektowania predykcyjnych działań policyjnych w celu aktywnego promowania sprawiedliwości rasowej.

Etyka i Dane (XC)


Ubezpieczenie komunikacyjne: gdy nauka o danych i model biznesowy przecinają się

Model biznesowy ubezpieczeń komunikacyjnych (a tym samym większości dużych ubezpieczycieli) zmienia się drastycznie. Wydaje się, że co miesiąc ogłaszana jest innowacja, która w pewnym momencie spowoduje, że wszyscy będziemy szoferem w autonomicznych pojazdach, które nigdy nie miały wypadku i nigdy nie są narażone na działanie warunków atmosferycznych. Ale są chmury. Ekstremalna personalizacja ryzyka ubezpieczeniowego, a tym samym naliczana składka, może nie być sprawiedliwa i etyczna dla wszystkich. Kiedy zdarzy się wypadek, ludzie i społeczeństwa są zależni od finansowego zabezpieczenia ubezpieczenia, aby pokryć koszty szkód i obrażeń (tak, wypadki i szkody spowodowane warunkami atmosferycznymi będą się nadal zdarzać). Sposób, w jaki to działa obecnie (w uproszczeniu) polega na tym, że firmy ubezpieczeniowe tworzą polisy z ogólnymi ratingami dla różnych typów kierowców i pojazdów. Underwriting i rating mają na celu rozłożenie ryzyka. Oznacza to, że wielu kierowców zapłaci trochę więcej, aby pokryć nielicznych, którzy mają wypadki. Wydaje się to właściwe, gdy nigdy nie wiadomo, który kierowca będzie miał wypadek. Ale sposób, w jaki branża rozwijała się przez ostatnie 10 lat, dzięki sztucznej inteligencji, uczeniu maszynowemu i znacznie większej ilości danych, zmierza w kierunku indywidualnych wskaźników, które przewidują częstotliwość i dotkliwość wypadków oraz konkretnych kierowców, którzy je będą mieli, lub na najmniej mniejszych i mniejszych segmentów podobnych sterowników. Sprawy komplikują się bardziej, gdy rozważa się ubezpieczenie zależne od użytkowania lub "UBI" zasilane przez telematykę. Ponownie, jest to teraz możliwe dzięki wszelkiego rodzaju technologiom i danym, które są potomstwem innowacji związanych ze sztuczną inteligencją. Istnieją dwa główne problemy związane ze stosowaniem technologii sztucznej inteligencji do osobistych ubezpieczeń komunikacyjnych: (1) dane mogą być po prostu błędne (w rzeczywistości niektóre dane mogą być czasami błędne); (2) analitycy muszą dokonywać wielu wyborów, biorąc pod uwagę dane historyczne do oceny, a niektóre z tych wyborów prowadzą do błędnej interpretacji danych. Mieszane są ludzkie uprzedzenia stawek, które mogą mieć wpływ na to, czy ludzi stać na ubezpieczenie samochodu i czy mogą jeździć legalnie, biorąc pod uwagę obowiązkowe przepisy ubezpieczeniowe. Prowadzenie samochodu jest często koniecznością utrzymania się i opieki nad rodzinami. Dla niektórych ubezpieczenie samochodu może kosztować więcej niż czynsz, a składka stanowi znacznie większy udział w dochodach niższych klas ekonomicznych, które prawdopodobnie najbardziej zależą od swoich pojazdów. Chociaż chcemy, aby ubezpieczenie rzetelnie odzwierciedlało nasze indywidualne ryzyko, to jednak ubezpieczenie oparte wyłącznie na użytkowaniu, stosowane bardzo szczegółowo, nie jest dobrym pomysłem ze społecznego punktu widzenia. W związku z tym, chociaż fala sztucznej inteligencji umożliwia ekstremalną personalizację ubezpieczeń komunikacyjnych, firmy i organy regulacyjne będą musiały określić, jaki poziom "indywidualnego" ryzyka, a jaki poziom "wspólnego" ryzyka ma sens dla nas wszystkich. Jeśli chodzi o przechowywanie danych i uczciwość hałaśliwych i interpretowanych danych, ktoś musi "nosić kapelusz" etyków zajmujących się danymi, kiedy te dane są kuratorowane. Ta osoba musi mieć uprawnienia do kierowania, w jaki sposób dane powinny być interpretowane lub czy w ogóle powinny być używane. Chociaż świat ubezpieczeń oparty na sztucznej inteligencji jest ekscytujący i ogólnie korzystny dla społeczeństwa, musi on być prowadzony i kontrolowany przez mądrych analityków, którzy są formalnie szkoleni w zakresie etycznego wykorzystywania danych, oraz przez mądre kierownictwo i organy regulacyjne, które mogą dowiedzieć się, jakie jest najuczciwsze wykorzystanie ta niesamowita technologia.

Etyka i Dane (LXXXIX)


Kiedy odmawiać danych

Jezioro danych ze wszystkimi informacjami, które można było zebrać (zarówno w przedsiębiorstwie, jak i poza nim), aby uzyskać 360-stopniowy widok klienta (do celów marketingowych). i do innych celów). Byłby to ogromny zbiór danych zawierający dane klientów, dane dotyczące sprzedaży konsorcjalnej, informacje o koszyku, dane marketingowe (promocyjne), dane demograficzne (z US Census Bureau), sklep ,lokalizacje, pogoda i tak dalej. To jezioro danych zawierałoby informacje o tym, kto (kupujący), co (produkt), gdzie (lokalizacja), kiedy (czas), jak (typ transakcji) i dlaczego (dane zewnętrzne, takie jak pogoda, giełda, dochody w lokalizacjach sklepów itp.). Jego głównym zastosowaniem byłaby obsługa wizualizacji wewnątrz Data CAFÉ (Collaborative Analytics Facility for the Enterprise). Data CAFÉ została zaprojektowana tak, aby kadra kierownicza mogła wejść do tego pomieszczenia z dziewięcioma (9) dużymi ekranami wyświetlającymi informacje i podejmować krytyczne decyzje biznesowe w czasie rzeczywistym (np. Sprzedaż w Czarny piątek na wschodnim wybrzeżu umożliwiła kierownictwu zmianę dystrybucji w górach i na zachodzie. Strefy czasowe wybrzeża na podstawie transmisji na żywo). Wewnątrz Data CAFE dzielilibyśmy dane na kawałki, aby wizualizacje można było tworzyć za pomocą filtrów (określonego sklepu, stanu, regionu itp.), A następnie po prostu przenosząc ten widok na inny ekran lub wymiar (np. do produktu), dyrektor mógł zobaczyć, czy coś jest trendem lokalnym, czy większym. Ukuliśmy termin "Wizualizacje Archimedesa" (ponieważ Archimedes był uważany za jednego z czołowych naukowców w klasycznej starożytności). Wyobraź sobie, że możesz wizualizować informacje dla określonej lokalizacji (sklepu), a następnie przejść do następnej wyższej grupy (rynek lokalny, stan, oddział), a na końcu do globalnej. Teraz zastanów się, że szukałeś tych filtrów i że możesz łatwo przenieść te filtry na inny monitor z kiedy (czas) lub kto (konsument) lub co (produkt). Dyrektorzy mogliby znaleźć własne trendy w oparciu o swoje doświadczenie rynkowe, a także mieliby przewagę decyzji opartych na danych. Gdy integracja danych zaczęła dojrzewać, szybko dowiedzieliśmy się, że te informacje można wykorzystać do znalezienia bardzo wrażliwych informacji o osobie lub gospodarstwie domowym, a konkretnie o tym, co sąsiad kupuje w naszych sklepach. Zostało to natychmiast rozpoznane jako problem, jeśli chodzi o etykę danych, ponieważ inżynierowie danych i naukowcy danych mieli otrzymać dostęp do zbioru danych w celu analizy. Może to szybko przekształcić się w zobowiązanie bez pewnych form kontroli na jeziorze danych. Aby rozwiązać ten problem, zdecydowaliśmy się stworzyć zestaw reguł, które ograniczyłyby zwrot zbiorów danych z zapytań kierowanych do jeziora danych:

•  Żadne zapytanie nie byłoby dozwolone, które zwróciło mniej niż 30 wyników (ponieważ na Środkowym Zachodzie małe miasta mogą mieć populację 10 osób, a zatem zestaw wyników może być deterministyczny).
•  Żadne zapytanie nie będzie dozwolone na podstawie nazwy, adresu, numeru telefonu ani żadnych innych danych osobowych (PII), takich jak identyfikator lojalnościowy, adres IP itp.
•  Nie byłoby obsługiwane żadne zapytanie, które śledziłoby dane lub wzorce unikalnej osoby lub gospodarstwa domowego (aby zapobiec omijaniu ograniczonego ograniczenia zestawu wyników).
•  Wszystkie zapytania byłyby zapisywane, abyśmy w przypadku stwierdzenia naruszeń etycznych mogli w przyszłości je zatrzymać podczas omawiania z właścicielem zapytania przyczyny tego typu przesłuchania (w przypadku, gdy był prawdziwy powód, ale zestaw wyników był uznane za nieodpowiednie).

W miarę upływu czasu byliśmy bardzo zaskoczeni, gdy dowiedzieliśmy się, że podjęto wiele prób uzyskania dostępu do danych osób, a niektóre stosowały bardzo innowacyjne podejścia, w tym wielopoziomowe zapytania i połączone zestawy wyników. Nie rozumieliśmy, dlaczego tak się dzieje, ponieważ od samego początku byliśmy bardzo pewni, że to jezioro danych zostanie wykorzystane do znalezienia trendów i określenia, jak ulepszyć koszyki kupujących. Jak się okazało, po zbadaniu sprawy odkryliśmy, że wiele prób było faktycznymi błędami popełnionymi w projekcie zapytania, co skutkowało niewielkimi zestawami wyników. Okazało się, że bardzo nieliczne były zamierzone, a stało się to po przejrzeniu całej populacji podejrzanych zapytań. Zaobserwowaliśmy, że inżynierowie danych i naukowcy działali głównie etycznie i nie było to zaskoczeniem, ponieważ kultura korporacji opierała się na zaufaniu i osobistej odpowiedzialności. Z tego jeziora danych nauczyliśmy się wielu rzeczy, w tym następujących interesujących obserwacji (dostarczonych wyłącznie dla przyjemności oglądania):

•  W wózkach sklepowych najczęściej znajdowano owoce (banany, truskawki), benzynę, wodę, chleb i kurczaki z rożna.
•  Kupujących można było podzielić na różne kategorie, ale ich zachowania związane z przeglądaniem były podobne.
•  Wpływ złej pogody na zakupy zaprzecza założeniu, że spowoduje większą sprzedaż w tym okresie.
•  Umieszczanie towarów w widocznych lokalizacjach zwiększyłoby ich sprzedaż marginalnie.
•  Kupujący szukaliby produktów na wyprzedaży zamiast wyborów własnych marek.

Etyka i Dane (LXXXVIII)


Pięć podstawowych zalet nauki o danych i sztucznej inteligencji

Cnoty należy zdigitalizować. Ponieważ przyspieszamy w kierunku polegania na maszynach, które przetwarzają coraz więcej informacji w celu zapewnienia wsparcia poznawczego we wszystkich typach podejmowania decyzji, musimy rozważyć sposoby nasycenia zautomatyzowanych procesów, machinacji danych i systemów rekomendacji poczuciem jednych z najlepszych ludzi. cnoty. Znajdujemy się na rozdrożu decyzji moralnej w AI - co nazywam kodyfikacją cnoty (lub nie). Albo zajmujemy się historycznymi uprzedzeniami i narzucamy sprawiedliwe standardy rzeczywistości oparte na rzetelnych danych i podejmowaniu decyzji, które tworzą coraz lepszy świat, albo nie odrzucamy anachronicznych norm społecznych i praktyk biznesowych, które są przeciwieństwem cnotliwej inteligencji, niezależnego ciała lub krzem. Grecki filozof Epiktet powiedział: "Nie można się nauczyć tego, co myślą, że już wiedzą". Jest to szczególnie istotne w przypadku sztucznej inteligencji i wśród jej inżynierów, ponieważ system lub człowiek (-y) tworzący system muszą być przemyślani, metodyczni i jednoznaczni w sposobie, w jaki osadzili algorytm. Maszyna nie zrobi tego i nie może tego zrobić z własnej woli. To był częsty problem, z którym musiałem się uporać w projektach, które prowadziłem, w programach i zespołach, które opracowałem, oraz we wszystkich rozwiązaniach dostarczonych przez moje zespoły, więc teraz skodyfikuję pięć punktów za "kwanty" do pamiętaj (termin, którego używam dowolnie na określenie naukowców zajmujących się danymi, inżynierów sztucznej inteligencji, inżynierów uczenia maszynowego, eksploratorów danych, statystyków i osób z pokrewnymi umiejętnościami). Twierdzę, że następujące "Pięć podstawowych cnót" powinny być praktykowane tak wyraźnie przez kwanty, jak są one skodyfikowane przez sztuczną inteligencję - konieczne jest traktowanie ich jako zarówno miękkich, jak i technicznych terminów, które są przekonujące, jeśli nie obowiązkowe, zarówno w odniesieniu do ilości, jak i AI.

1. Odporność

Zarówno ilość, jak i sztuczna inteligencja:

•  Dostosowuj się do sytuacji i szybko wracaj do zdrowia.
•  Opracuj warunki projektu eksperymentów i zbadaj pełną przestrzeń rozwiązań i wykonalne scenariusze.
•  Uwzględnij skutki lokalnych ograniczeń i pokonaj takie warunki, aby złagodzić przedwczesne zatrzymywanie.

2. Pokora

Zarówno ilość, jak i sztuczna inteligencja:

•  Weź odpowiedzialność za wyniki.
•  Nieustannie ucz się i dostosowuj dzięki uczeniu się ze wzmocnieniem.
•  Rozpoznawać i opracowywać wyniki, które doceniają, jak niewiele można poznać lub kontrolować.

3. Ziarnistość

Zarówno ilość, jak i sztuczna inteligencja:

•  Unikaj utknięcia w podziwianiu problemu lub zajmowania się opracowywaniem najmądrzejszych rozwiązań.
•  Obsesja na punkcie bycia produktywnym i robienia rzeczy w nowy i innowacyjny sposób.
•  Zapewnij możliwe do zweryfikowania i interpretowalne wyniki.

4. Edukacja liberalna

Zarówno ilość, jak i sztuczna inteligencja:

•  Powitaj i pracuj ze złożonością, różnorodnością i zmianami.
•  Krytyczny przegląd możliwości lub problemów biznesowych, w pełni analizując dane i rozważając wykonalne metody formułowania rozwiązań.
•  Komunikuj się jasno, czysto i rozsądnie z dokumentacją, która przedstawia zdrowe i odpowiedzialne rozwiązania dla społeczeństwa.

5. Empatia

Zarówno ilość, jak i sztuczna inteligencja:

•  Rozpoznawać i uwzględniać wpływ społeczny i uczucia innych.
•  Opracuj obiektywne funkcje lub ograniczenia oparte na percepcji, wnikliwości, zrozumieniu i współczuciu.
•  Zidentyfikuj współzależność i bezpośrednie połączenia z "wyższym celem" lub świadomością.

Wniosek

Kwestie, które tutaj przedstawiłem, wiążąc zarówno ilość, jak i sztuczną inteligencję z każdą cnotą, mają być jednocześnie zwięzłe, a także prowokacyjne i otwarte. Wyraźnie śledziłem każdą zaletę w wierszu "Zarówno ilość, jak i sztuczna inteligencja", aby zachęcić nas wszystkich do rozważenia, w jakim stopniu odpowiedzialność za rozwiązanie jest tak samo ważna, jak odpowiedzialność za naśladowanie przez autora atrybutów odporności. , pokora, wytrwałość, liberalna edukacja i empatia. Sztuczna inteligencja uwolni ludzkie myślenie, ale nie powinna być wymówką od myśli czy cnoty. Nie możemy pozwolić sobie na świat, w którym sztuczna inteligencja jest pełna wszystkich cnót, którymi gardzimy, ani ryzykować tego świata - zamiast tego starajmy się rozwijać ją i siebie, ze wszystkimi cnotami, które podziwiamy.

Etyka i Dane (LXXXVII)


Czy etyka to nic innego jak ograniczenia i wytyczne dotyczące właściwego zachowania społecznego?

Twitter używany na dobre może być wspaniałym środowiskiem do dzielenia się i uczenia się. Na przykład, jeden z moich obserwatorów na Twitterze złożył interesujące oświadczenie w odpowiedzi na mój wpis na blogu "Wyzwanie etyczne AI: zrozumienie biernej a proaktywnej etyki". Napisał: "Sprowadzenie rozumowania etycznego do funkcji użyteczności pomija poziom abstrakcji, jaki etyka zapewnia, aby działać w różnych kontekstach i sytuacjach. Wtedy nie masz już etyki, masz ograniczenia ". Ograniczenia? Ciekawy. Albo inaczej: czy etyka jest tylko zbiorem ograniczeń, reguł i wytycznych, które dyktują, jak należy postępować lub zachowywać się w prawidłowo funkcjonującym społeczeństwie? Chociaż nie czuję się kwalifikowany do mówienia o etyce z perspektywy społeczeństwa, dyskusja na temat etyki z perspektywy sztucznej inteligencji jest z pewnością w mojej domenie i powinna być przedmiotem troski każdego. A to oznacza, że musimy porozmawiać o stworzeniu funkcji użytkowej AI. Funkcja użyteczności AI obejmuje ograniczenia, zasady i wytyczne, które kierują działaniami i adaptacją modelu AI. Podczas tworzenia autonomicznych bytów z obsługą AI - bytów, które podejmują decyzje, podejmują działania, uczą się i dostosowują się przy minimalnej interwencji człowieka - kluczowa jest definicja funkcji użyteczności AI. Wyzwaniem dla etyki sztucznej inteligencji jest zdefiniowanie i zakodowanie tej etyki (ograniczeń, reguł i wytycznych) w matematyce, która tworzy funkcję użyteczności AI i kieruje działaniami autonomicznych jednostek. Funkcja użyteczności AI musi rozumieć tę etykę, aby podjąć najbardziej odpowiednie lub "właściwe" działania. Jeśli zamierzamy przekształcić się w świat autonomicznych bytów z obsługą sztucznej inteligencji - samochodów, ciężarówek itd. - musimy opanować kodowanie tej etyki w matematyce.

Trzy prawa etyki robotyki Asimova

Isaac Asimov był amerykańskim pisarzem, który był dobrze znany ze swoich dzieł science fiction. W opowiadaniu z 1942 roku Asimov po raz pierwszy przedstawił swoje "Trzy prawa robotyki", w ramach których należy oczekiwać, że robot będzie się zachowywał, aby mieć prawidłowo funkcjonujące społeczeństwo. Te trzy prawa to:

Pierwsze Prawo : Robot nie może zranić człowieka, ani też, poprzez bezczynność, pozwolić mu na zranienie.
Drugie prawo : Robot musi wykonywać rozkazy wydawane mu przez ludzi, chyba że takie rozkazy byłyby sprzeczne z pierwszym prawem.
Prawo trzecie : Robot musi chronić swoje własne istnienie, o ile taka ochrona nie jest sprzeczna z pierwszą lub drugą zasadą.

Postulowałem w poście na blogu "Isaac Asimov: The 4th Law of Robotics", że być może będziemy musieli wymyślić czwarte prawo robotyki. Będą sytuacje, w których te autonomiczne byty będą zmuszone do podejmowania decyzji dotyczących życia i śmierci, których ludzi uratować, a których zabić - na przykład autonomiczny pojazd decydujący o ratowaniu pasażera lub pieszego. Isaac Asimov nie wyobrażał sobie, że potrzebne jest prawo rządzące robotami w tego rodzaju sytuacjach, w których nie chodzi o życie robota w porównaniu z życiem człowieka w dyskusji, ale wybór między życiem wielu ludzi! Przeprowadzono ankiety, aby zrozumieć, co należy zrobić w sytuacji, gdy samochód autonomiczny musi podjąć decyzję na śmierć i życie między ratowaniem pasażera a oszczędzeniem pieszych. Artykuł "Czy Twój samochód bez kierowcy zechce cię zabić, aby uratować życie innym?" znalazłem następujące:

W jednym z badań 76% osób zgodziło się, że samochód bez kierowcy powinien poświęcić swojego pasażera, a nie zaorać i zabić 10 pieszych. Zgodzili się również, że moralne byłoby programowanie autonomicznych pojazdów w ten sposób: minimalizowało to liczbę ofiar śmiertelnych spowodowanych przez samochody. Widok utrzymywał się nawet wtedy, gdy poproszono ludzi o wyobrażenie sobie siebie lub członka rodziny podróżującego samochodem.

Ale poczekaj, podczas gdy teoretycznie 76% opowiada się za ratowaniem pieszych zamiast pasażera, nastrój zmienia się, gdy dotyczy ciebie!

Kiedy pytano ludzi, czy kupiliby samochód kontrolowany przez taki moralny algorytm, ich entuzjazm ostygł. Ankietowani powiedzieli, że woleliby raczej kupić samochód zaprogramowany do ochrony siebie, a nie pieszych. Innymi słowy, samochody bez kierowców, które czasami poświęcały swoich kierowców dla większego dobra, były dobrym pomysłem, ale tylko dla innych ludzi. Riddle me this, Batman: Czy "zaprogramowana" reakcja autonomicznego samochodu w tych śmiertelnych sytuacjach wpłynęłaby na twoją decyzję o zakupie określonej marki autonomicznego samochodu? Inne badanie opublikowane w czasopiśmie Science, "The Social Dilemma of Autonomous Vehicles", zwróciło uwagę na dylematy etyczne, z jakimi borykają się producenci samochodów samojezdnych. Przebadano około 2000 osób, a większość uważała, że samochody autonomiczne zawsze powinny decydować o jak najmniejszej liczbie ofiar śmiertelnych. Z drugiej strony większość ludzi stwierdziła również, że kupiłaby samochód autonomiczny tylko wtedy, gdyby oznaczało to, że ich bezpieczeństwo jest priorytetem. Nie jestem pewien, czy chcemy, aby poszczególne firmy lub nasi przywódcy polityczni programowali zasady kierujące tego rodzaju decyzjami na śmierć i życie. Ale jeśli nie oni, to kto?

Podsumowanie

Czy etyka jest tylko zbiorem ograniczeń, reguł i wytycznych, które dyktują, jak należy postępować lub zachowywać się w prawidłowo funkcjonującym społeczeństwie? Dla niektórych Biblia może być najlepszą książką o etyce. (Nie mogę wypowiadać się w imieniu żadnych innych ksiąg religijnych, takich jak Koran, Tanach czy Tripitaka, ponieważ nie miałem z nimi styczności). działania i zachowania społeczne, zakodowane w przykazaniach, opowieściach i przypowieściach. Jeśli uda nam się stworzyć ograniczenia, reguły i wytyczne zakodowane w funkcji użytkowej AI - które kierują właściwymi działaniami i zachowaniami autonomicznych jednostek obsługujących sztuczną inteligencję, być może mamy szansę naprawdę odciągnąć tę sztuczną inteligencję. Musimy tylko skłonić najbardziej wykwalifikowanych liderów w naszym społeczeństwie, aby zaczęli identyfikować, walidować, oceniać i nadawać priorytety tym ograniczeniom, regułom i wytycznym, które będą musiały obejmować funkcję użyteczności sztucznej inteligencji.

Etyka i Dane (LXXXVI)


Zasady etyczne w ekonometrii stosowanej i nauce o danych

Rzadko używałem słowa "etyka", odwołując się do zwrotów takich jak "sceptycyzm w zakresie danych" i innych postaw sugerujących etyczne postępowanie. Nic w ciągu ostatnich 20 lat nie miało tak wielkiego wpływu na mnie, moje nauczanie w klasie i moją etykę analizy danych, jak "Sinning in the Basement: What Are the Rules?" Petera Kennedy′ego? Dziesięć przykazań ekonometrii stosowanej .Od chwili, gdy przeczytałem ten artykuł, byłem całkowicie odmieniony i na zawsze byłem uczniem Kennedy′ego. Miałem szczęście gościć go w swoim kampusie, gdzie mówił o nadużyciach ekonometrii i niepowodzeniach badań, które przedostały się poza biurko jego redaktora w Journal of Economic Education. W jednym przykładzie artykuł został odrzucony, ponieważ autor (autorzy) nie uznali problemu w swojej analizie, zignorowali go i prawdopodobnie miał nadzieję, że redaktor tego nie zauważy. Bycie uczciwym i wystarczająco przejrzystym, aby przyznać się do problemu . Autorzy byli tego świadomi, ale to, czego nie potrafili rozwiązać, czasami wystarcza, zauważył Peter. Ukrywanie jednego wykroczenia sugeruje inne etyczne nadużycie danych. Użyłem słowa "etyczny", ale Kennedy tego nie zrobił, preferując często używane słowa "grzech" i "grzeszenie". Ale o co chodzi. Kiedy uzyskałem stopień doktora w Ohio w 1980 roku, przez pięć lat, kiedy tam byłem, wziąłem udział w dziewięciu oddzielnych kursach statystyki i ekonometrii. Nauczyłem się klasycznego szacowania i wnioskowania od niektórych z najlepszych profesorów, ale nie było zaledwie jednego dnia instrukcji, jak używać komputera, a tym bardziej, jak postępować, co 20 lat później Kennedy nazwałby moralnym obowiązkiem ekonometrii stosowanej. Kennedy mówi: "Uważam, że niezależnie od zdolności do uczenia się, mamy moralny obowiązek informowania uczniów o tych zasadach i poprzez odpowiednie zadania, uspołeczniania ich w celu włączenia ich do standardowych procedur operacyjnych, których przestrzegają podczas wykonywania pracy empirycznej ... [Uważam], że te zasady są o wiele ważniejsze niż sądzą instruktorzy, a uczniowie na wszystkich poziomach nie okazują im szacunku, na jaki zasługują ". Nie mogłem się bardziej zgodzić i starałem się wiernie przestrzegać tych zasad i uczyć moich uczniów i kolegów, jak postępować podobnie. Nieprzestrzeganie reguł Kennedy'ego dotyczących ekonometrii stosowanej pociąga za sobą konsekwencje etyczne, jeśli nie bezpośrednie nieetyczne zachowanie. Świadome łamanie zasad oznacza nieetyczne postępowanie z danymi, a przynajmniej ryzykowanie, że będzie ono nieetyczne. Niemniej jednak nieświadome naruszenie zasad doprowadziłoby do niezamierzonych konsekwencji złych wyników, których można by uniknąć. Brak pełnego wyartykułowania problemu w zasadzie 1 jest tak krytyczny, że nie poświęcanie czasu na problem, zdrowy rozsądek i ekonomiczne rozwiązanie teoretyczne może prowadzić do poważnych błędów w badaniu już od pierwszego kroku. Może to prowadzić do naruszenia reguły 2, w przypadku której odkryta zostanie prawidłowa odpowiedź na niewłaściwe pytanie. Co się stanie, jeśli nie sprawdzisz danych (zasada 4), nie wyczyścisz danych i nie zapewnisz niezbędnych przekształceń lub nie uda Ci się kontrolować błędu selekcji? Wtedy uzyskasz wyniki oparte na założeniach, które nie są realistyczne i dadzą wyniki, na które nadmiernie wpływają brudne dane. Zvi Griliches powiedział kiedyś, że gdyby nie brudne dane, ekonomiści nie mieliby pracy. Co się stanie, jeśli naruszysz zasadę 7 i świadomie lub nie pozwolisz, aby dane cię okłamały? Jak powiedział laureat nagrody Nobla ekonomista Ronald Coase: "Jeśli będziesz torturować dane wystarczająco długo, przyzna się do winy" 4. Naruszenie reguły 9 może doprowadzić cię do oddawania czci R2 lub brania udziału w p-hackingu. Może to spowodować, że zignorujesz olbrzymią implikację ekonomiczną (dużą skalę) tylko dlatego, że ma dużą wartość p. Naruszenia reguły 10 mogą być najbardziej krytyczne ze wszystkich. Załóżmy, że wierzysz, że twój model pochodzi od Boga (zgodnie z sugestią Susan Athey). W takim razie dlaczego miałbyś przyjrzeć się alternatywnym specyfikacjom lub zweryfikować solidność swoich ustaleń? Jak napisała Jennifer Lewis Priestley w poście na LinkedIn z 2019 r.: "Wielu naukowców zajmujących się danymi podejmuje złe decyzje - z konsekwencjami etycznymi - nie dlatego, że celowo próbują wyrządzić krzywdę, ale dlatego, że nie rozumieją algorytmów, za które biorą odpowiedzialność faktycznie działają ". Podobnie, wielu w tej dziedzinie, którzy ignorują zasady Kennedy'ego dotyczące stosowanej ekonometrii, ryzykuje wyrządzenie prawdziwej szkody nie z powodu celowości, ale z powodu ignorancji lub zaniedbania. Ten ostatni brak motywu jest równie rzeczywisty i prawdopodobnie bardziej rozpowszechniony niż celowa krzywda. Amerykańskie Stowarzyszenie Ekonomiczne (AEA) przyjęło wytyczne etycznego kodeksu postępowania, które stanowią, co następuje: "Uczciwość wymaga uczciwości, staranności i przejrzystości w prowadzeniu i prezentowaniu badań; bezinteresowna ocena pomysłów; uznanie ograniczeń wiedzy; oraz ujawnianie rzeczywistych i domniemanych konfliktów interesów ". Oświadczenie AEA nie odnosi się bezpośrednio do etyki danych, ale jest sugestywne, ponieważ niewiele badań ekonomicznych - i żadnych stosowanych badań ekonomicznych - można przeprowadzić bez danych. Oświadczenie AEA jest początkiem, ale sugeruję, że ci, którzy prowadzą badania stosowane w ekonomii, powinni trzymać się zasad dotyczących grzechu w piwnicy. Jest to tak ważne teraz, że chodzenie do piwnicy nie jest już normą, a znacznie więcej analityków powinno starać się unikać grzechu, gdziekolwiek i kiedykolwiek mają ręce na swoim laptopie.

Etyka i Dane (LXXXV)


Etyczny CRISP-DM: ramy rozwoju etycznej nauki o danych

Dobra nauka o danych tworzy iluzję czegoś ludzkiego; coś więcej niż zimny, bezbarwny proces, który uniemożliwia empatię. Cel modelu jest jednak wyjątkowy: podejmowanie decyzji, które wcześniej minimalizowały funkcje strat (lub coś równie mechanicznego). Dlatego musimy systematycznie egzekwować empatię i etykę tam, gdzie ich nie ma. Międzybranżowy standardowy proces eksploracji danych, częściej określany jako CRISP-DM, jest szeroko stosowaną metodologią w opracowywaniu analiz. Kroki CRISP-DM to:

•  Zrozumienie biznesu
•  Zrozumienie danych
•  Przygotowywanie danych
•  Modelowanie
•  Ocena
•  Rozlokowanie

Chociaż CRISP-DM został opracowany do eksploracji danych, udane projekty w dziedzinie nauki o danych w jakiś sposób świadomie lub nieświadomie przestrzegają tych procedur. Aby podejmować bardziej etyczne decyzje dotyczące obsługi danych, możemy rozszerzyć ten proces, rozważając pytanie na każdym etapie. W ten sposób tworzymy konkretne ramy etyczne do nauki o danych.

Zrozumienie biznesu

Jakie są potencjalne efekty zewnętrzne tego rozwiązania? Każdy udany projekt w dziedzinie nauki o danych musi rozpoczynać się od zrozumienia problemu, a także środowiska, w którym on istnieje. Jest to podstawowy krok w przygotowaniu projektu do sukcesu pod względem zarówno skutecznego modelowania, jak i etyki - ponieważ model nie istnieje w próżni. Może mieć użytkowników, ale jego wyniki mają wpływ na inne osoby. Poświęcenie czasu na rozważenie konsekwencji rozwiązania może nie tylko zaoszczędzić czas, ale także zapobiec katastrofie. Ważne jest, aby zaangażować odpowiednich interesariuszy do wyraźnej dyskusji na temat tych potencjalnych następstw.

Zrozumienie danych

Czy moje dane odzwierciedlają nieetyczne uprzedzenia? W danych ludzkich ukryte są świadome i podświadome uprzedzenia populacji próbki. Te wyraźne i niejawne uprzedzenia zasługują na osobny artykuł, ale przykład każdego rodzaju uprzedzeń jest następujący:

•  Tay, chatbot Microsoftu na Twitterze, zaczął wyrzucać antysemickie tweety po tym, jak celowo połknął obelgi.
•  Model rekrutacji jest szkolony w zakresie poprzednich wzorców zatrudniania, w przypadku których stanowiska były zajmowane przez określoną grupę demograficzną.

Jako naukowcy zajmujący się danymi rozumiemy wartość dokładnej wiedzy na temat zawartości i wzorców danych, ale ważne jest również, aby ocenić, w jaki sposób dane mogą uszkodzić model.

Przygotowywanie danych

Jak wyczyścić dane z uprzedzeń? Integralność danych jest nienaruszona. Możliwe jest jednak (i ważne) oczyszczenie danych z problematycznych treści bez narażania ich integralności. Przed zamieszkami statystyków pozwólcie mi wyjaśnić. Załóżmy, że programiści tworzą aplikację do przewidywania oszustw związanych z czekami. Naturalna nierównowaga między fałszywymi a autentycznymi kontrolami może spowodować konieczność zbilansowania zbioru danych. Następnym etycznym krokiem byłoby zbilansowanie danych, powiedzmy, grup demograficznych, aby uniknąć możliwej nierównowagi w egzekwowaniu systemu. W przeciwnym razie ta niejawna stronniczość może generować więcej przypadków oszustw związanych z czekami w danej grupie demograficznej, które ponownie zostaną pochłonięte przez model, utrwalając cykl przesadnych uprzedzeń. Nie zawsze jest to łatwe, jak na przykładzie uprzedzeń płciowych w osadzaniu słów. Jawne odchylenie powinno być filtrowane bezpośrednio.

Modelowanie

Czy mój model jest podatny na wpływy zewnętrzne? Wzorce projektowe online zyskują na popularności. Dawanie modelom swobody dostosowywania się w locie ma wielką wartość, ale powoduje to powrót do zagrożeń wyeliminowanych w poprzednim kroku. W okolicznościach wysokiego ryzyka krytyczne znaczenie ma czujność podczas monitorowania i czyszczenia napływających danych przed ich spożyciem. W przykładzie Microsoftu programiści nie przewidzieli potencjalnych błędów w zbiorze danych, ponieważ zdali sobie sprawę z obraźliwej zawartości, którą Tay wchłonął dopiero po wyrządzeniu szkód.

Ocena i wdrożenie

Jak mogę określić ilościowo nieetyczne konsekwencje? Odpowiedzialne wdrożenie modelu wymaga metryk, które monitorują i oceniają jego wydajność w środowisku naturalnym. Możemy dodać wskaźniki, które śledzą nieetyczne efekty zewnętrzne. Na przykład system przewidywania przestępstw stosowanych przez organy ścigania powinien śledzić, czy nie przepełnia określonej okolicy, wymuszając równowagę między obszarami demograficznymi, w których rozmieszczeni są funkcjonariusze. Pełne efekty modelu mogą być niemożliwe do przewidzenia, dlatego ważne jest, aby okresowo dokonywać ponownej oceny modeli, między innymi poprzez zbieranie informacji zwrotnych od tych, którzy z nimi wchodzą w interakcje. Wskaźniki etyczne powinny być prezentowane w widocznym miejscu obok wskaźników skuteczności. Empatii nie można określić ilościowo; brakuje mu ścisłości i sztywności. Musimy znaleźć sposób na nadanie naszym własnym kompasom moralnym rozwiązań, które dostarczamy. Ostatecznie odpowiadamy za dostarczany przez nas produkt wraz z jego konsekwencjami. Tak więc, trzymając się rygorystycznego reżimu refleksji w całym cyklu rozwojowym, możemy zapewnić dostarczanie modeli etycznych, które minimalizują szkodliwe skutki

Etyka i Dane (LXXXIV)


Korzystanie z pętli opinii społecznościowych do poruszania się po pytaniach etycznych

Zmiana technologiczna to zmiana społeczna. W miarę rozpowszechniania się technologii skoncentrowanych na danych, pytania dotyczące produktów należy zadawać obok pytań dotyczących wpływu społecznego, jeśli firmy mają nadzieję na odniesienie sukcesu w którymkolwiek z obszarów. Te zamazane linie oznaczają również, że naukowcy zajmujący się danymi muszą podkreślać etyczne implikacje ich rosnącego wpływu. Chociaż przysięgi, listy kontrolne i wspólnoty praktyków w zakresie etycznej nauki o danych są krytyczne, konstrukcje te pomijają kluczowy element: społeczne pętle sprzężenia zwrotnego, które pozwalają głosom zainteresowanych społeczności informować o decyzjach dotyczących produktów. "Mechanistyczne" pętle sprzężenia zwrotnego, takie jak wyniki algorytmu uczenia się ze wzmocnieniem, informujące o przyszłych iteracjach szkoleniowych, są powszechne w nauce o danych. Są to konstrukcje techniczne, które wzmacniają sygnały ze zbioru danych w służbie lepszych prognoz. W przeciwieństwie do tego skupiamy się tutaj na "społecznych" pętlach informacji zwrotnych - procesach, które podkreślają głosy w społeczności użytkowników, których pomysły, obawy i wkład są kluczem do skutecznej nawigacji w wyzwaniach etycznych. Ale pętle opinii społecznościowych są trudne! Ich niuanse sprawiają, że ich analiza jest czasochłonna i często zawierają sprzeczne pomysły. Kiedy opinie użytkowników są sprzeczne z ostatecznymi celami firmy, często wygrywają zachęty finansowe. Organizacje bez kultury słuchania i otwartości na punkty zwrotne będą miały trudności z rozwiązywaniem problemów etycznych za pomocą społecznych pętli informacji zwrotnych. Pętle opinii społecznościowych mogą również wykluczać głosy osób, które nie mają czasu, zasobów, słów lub wolności, aby otwarcie mówić o swoich wyzwaniach. Mimo to organizacje mogą podjąć kroki w celu usprawnienia wdrażania pętli opinii społecznościowych, aby pomóc odpowiedzieć na pytania etyczne w ich produktach danych. Pozostała część tego artykułu dotyczy niektórych z tych kroków. Ustanowienie opartego na wartościach podejścia do integracji i informacji zwrotnej Mantry takie jak "nie bądź zły" lub "działaj szybko i psuj rzeczy" mogą pomóc w zapewnieniu ram dla podejmowania decyzji, ale nie kładą wystarczającego nacisku na otwartość i włączenie, aby zapewnić że pętle opinii społecznościowych będą się rozwijać. Aby jasno określić te priorytety, użyj alternatywnych wartości, takich jak "Zawsze otwarte: wierzymy w siłę wspaniałych pomysłów i że mogą one pochodzić od każdego w dowolnym momencie" i "Słuchaj, działaj, ucz się. Powtarzam: nieustannie eksperymentujemy i wykorzystujemy dane oraz opinie, aby pokierować naszym kursem ". Firmy, które stawiają kontekst kulturowy dla informacji zwrotnej u podstaw swojego etosu, mają większe szanse odniesienia sukcesu. Zbuduj konkretne cele reprezentacji w kryteriach sukcesu swojego produktu Większość analityków danych wie, że "to, co jest mierzone, jest zarządzane". Włączenie niesłyszanych w inny sposób głosów w proces rozwoju produktu nie jest wyjątkiem od tej reguły. Zobowiązanie się do stosowania kluczowych wskaźników wydajności (KPI), takich jak "X% nowych zasad dotyczących etyki danych opiera się na danych wejściowych naszej społeczności", pomaga zapewnić priorytetowe traktowanie opinii społecznościowych. Catherine D′Ignazio i Lauren Klein przedstawiają znakomity przykład tego podejścia w wartościach i miernikach, które wyznaczyli podczas pisania swojej nowej książki, Data Feminism. Wskazują na obszary nierówności strukturalnych, których starają się unikać, i ustalają konkretne cele, aby głosy, które wzmacniają, pozostały na czele procesów decyzyjnych dotyczących ich produktu.

Zamknąć pętlę

Etyk danych Anna Lauren Hoffman zwraca uwagę, że badacze "nie powinni opierać się na życiu i doświadczeniach swoich badanych bez wniesienia czegoś w zamian". W tym duchu organizacje powinny zamknąć obieg informacji zwrotnych, jasno informując społeczność o tym, co powiedzieli, co usłyszeli i jakie zmiany nastąpią w rezultacie. Co ważne, nie oznacza to, że każda indywidualna prośba zostanie spełniona. Podkreśla raczej, że głosy użytkowników zostały wysłuchane, potwierdzają, że reprezentują ich rzeczywiste opinie i, po przemyślanej rozmowie i współpracy, zostały dodane do produktu w stosownych przypadkach. Dobre pętle sprzężenia zwrotnego społecznościowego przyjmują to samo podejście, co algorytmy losowych lasów i wykorzystują szeroki i często hałaśliwy zakres odrębnych komponentów, na których jest podstawowa odpowiedź. Rola społecznych pętli sprzężenia zwrotnego w pokonywaniu wyzwań etycznych w nauce o danych jest jasna. Alternatywa jest podobna do wydobycia odkrywkowego. Firma może zoptymalizować swój produkt dla zysku i zignorować swoją społeczność, przynajmniej tymczasowo. Ostatecznie jednak sprzeciw będzie narastał, ponieważ głosy użytkowników pozostaną niesłyszalne. Na tym etapie reagowanie na taką informację zwrotną, nawet jeśli ma dobre intencje, może wydawać się nieszczere. Zamiast tego organizacje powinny przyjąć nowoczesne powiązania między technologią a społeczeństwem i ustanowić społeczne pętle informacji zwrotnej potrzebne do zrównoważonego i etycznego poruszania się po nim. Nasze społeczności nie zasługują na nic mniej

Etyka i Dane (LXXXIII)


Etyka i refleksja u podstaw skutecznej nauki o danych

Często wracam myślami do bardzo rozsądnych rad, które otrzymałem od mojego mentora na początku mojej kariery analityka, kiedy nie pełniłem jeszcze ważnej roli w kontaktowaniu się z klientami. Kiedy pracowałem nad projektami analitycznymi, jego rada była taka, że upewniam się, że zawsze mogę wyjaśnić, uzasadnić i obronić każdą decyzję i zalecenie, które podjąłem w trakcie analizy. Powinienem postawić się w sytuacji klienta, w pełni przewidywać i rozumieć jego potrzeby, a następnie przekraczać jego oczekiwania. To wywarło na mnie trwałe wrażenie i uwarunkowało mnie, żebym zawsze był rozważny i dokładny na wszystkich etapach procesu analitycznego: projekt analizy, wykorzystanie danych konsumenckich, zalecane działania biznesowe oparte na wglądu i miary sukcesu. Takie podejście działało wyjątkowo dobrze w modelu operacyjnym zorientowanym na biznes. Szybko do przodu do dzisiejszego środowiska biznesowego, w którym zasady operacyjne zorientowane na klienta rządzą dniem, i staje się jasne, że procesy analityczne i analizy danych zorientowane na biznes nie są już wystarczające. Firmy mają obsesję na punkcie wykorzystywania danych konsumentów w celu znalezienia przewagi konkurencyjnej. W rzeczywistości Forrester Research wyjaśnia w swoim raporcie Predictions 2020: Customer Insights, że 56% ankietowanych firm będzie inicjować inicjatywy i wyznaczać "poszukiwaczy danych" w celu zidentyfikowania nowych źródeł danych. Osobiście, jako konsument, uważam to za trochę niepokojące! Ten zwiększony nacisk na gromadzenie danych wymaga nowego zestawu analiz i procedur operacyjnych w zakresie nauki o danych, aby zapewnić, że informacje te nie są niewłaściwie wykorzystywane ani nadużywane. Ta wspaniała rada, która nauczyła mnie przewidywać potrzeby moich klientów, musi teraz zostać rozszerzona o kolejny kluczowy element: konsumenta! Oznacza to, że wszyscy w społeczności analityków mogliby skorzystać na przyjęciu nawyków i procesów pracy, które zachęcają analityków do wkroczenia w buty konsumenta, aby pomóc informować i zarządzać naszymi praktykami w zakresie zarządzania danymi i nauką o danych. Zobowiązanie się do zachowania przejrzystości i działania w najlepszym interesie konsumentów. Aby wygodnie wyjaśniać konsumentom, w jaki sposób wykorzystujemy ich interakcje, transakcje i dane demograficzne do generowania spostrzeżeń oraz jak te spostrzeżenia wpływają na nasze decyzje i działania biznesowe. Stosując takie podejście, możemy nie tylko zaspokoić potrzeby biznesowe, ale także zbudować zaufanie konsumentów. Koncepcja przyjmowania praktyk biznesowych zorientowanych na klienta z pewnością nie jest nową koncepcją. Liderzy myśli, tacy jak Don Peppers i Martha Rogers, od wielu lat podkreślają korzyści płynące z tych zasad. W rzeczywistości nadrzędnym tematem w książce Peppers i Rogers Extreme Trust: Honesty as a Competitive Advantage (Portfolio) jest "traktowanie klienta tak, jak chciałbyś być traktowany, gdybyś był klientem". Niestety firmy nie zawsze przestrzegały tych zasad. Jeszcze bardziej niepokojące jest to, że kilka niedawnych wykroczeń korporacyjnych zostało powiązanych z niewłaściwym wykorzystaniem danych konsumentów. W 2018 roku Facebook umożliwił Cambridge Analytica wykorzystanie danych osobowych milionów członków bez ich zgody do ukierunkowanych reklam politycznych. Na początku 2019 roku mechanizm rekomendacji YouTube spotkał się z poważną krytyką za ułatwianie pedofilom znajdowania i udostępniania treści związanych z małymi dziećmi. Jeszcze niedawno Goldman Sachs znalazł się pod ostrzałem za rażące uprzedzenia ze względu na płeć w algorytmach używanych do ustalania limitów kredytowych dla klientów Apple Card. Jak więc zmienić podstawowe praktyki, które umożliwiają celowe i niezamierzone niewłaściwe wykorzystanie danych konsumentów, zanim stanowe i federalne organy regulacyjne ochrony danych wkroczą, aby zrobić to za nas? Uważam, że zaczyna się od zwiększenia świadomości szkodliwych konsekwencji złego zarządzania danymi i lekkomyślnych praktyk analitycznych. Powinno się to rozpocząć w szkolnictwie wyższym i wzmocnić poprzez cykliczne programy szkoleniowe w środowisku korporacyjnym. Po spędzeniu 25 lat w branży analitycznej i pracy teraz jako nauczyciel w pełnym wymiarze godzin, uważam, że niezwykle ważne jest, aby instytucje edukacyjne zaangażowały się w rozwój i integrację celów uczenia się uczniów, które koncentrują się na inspirowaniu i umożliwianiu uczniom korzystania z etycznego i społecznie odpowiedzialnego gromadzenia danych. i praktyki analityczne. Musimy;

•  Nauczyć studentów, jak wdrożyć zabezpieczenia zmniejszające ryzyko zastosowania nieumyślnie obciążonych algorytmów predykcyjnych i algorytmów ML.
•  Wyjaśnić, w jaki sposób można tworzyć wielofunkcyjne zespoły zarządzania danymi, aby zapewnić uwzględnianie różnych perspektyw przy podejmowaniu decyzji, jakie dane należy gromadzić, analizować i wykorzystywać do podejmowania decyzji biznesowych i rozwiązań sztucznej inteligencji.
•  Zilustrować, jak wiele tradycyjnych podejść do segmentacji konsumentów z wykorzystaniem płci, pochodzenia etnicznego i statusu społeczno-ekonomicznego często utrwala wykluczenie konsumentów.
•  Zachęć uczniów do zastanowienia się nad właściwym i niewłaściwym wykorzystaniem danych konsumentów.

Te cele nauczania powinny być podstawowym i podstawowym elementem każdego programu do analizy danych i analizy biznesowej. W 2017 roku The Economist opublikował artykuł "Najcenniejszym zasobem świata nie jest już ropa, ale dane". Uważam, że wkrótce stracimy dostęp do tego niesamowitego zasobu, jeśli nie udowodnimy dostawcom zasobów - konsumentom - że można nam ufać, że będziemy wykorzystywać ich dane w sposób odpowiedzialny i wartościowy.

Etyka i Dane (LXXXII)


Algorytmiczne oceny skutków

Zautomatyzowane systemy decyzyjne są stosowane w każdej branży. Systemy różnią się przejrzystością i skutecznością, co często prowadzi do niezamierzonych konsekwencji. Algorytmiczna ocena wpływu (AIA) może ujawnić problemy z funkcjonalnością rozwiązania i zapewnić możliwość podjęcia działań naprawczych przed wyrządzeniem poważnej szkody. AI Now Institute ma wiele publikacji poświęconych potencjalnym problemom etycznym i uprzedzeniom w algorytmach analitycznych i zautomatyzowanych systemach decyzyjnych. Jeden z jego raportów, Algorytmiczna ocena wpływu: praktyczne ramy odpowiedzialności agencji publicznych, zawiera protokoły oceny negatywnych skutków zautomatyzowanych systemów decyzyjnych. Chociaż raport jest napisany dla agencji rządowych, przemysł powinien przestrzegać tych samych standardów. Kluczowe elementy AIA to:

•  Agencje powinny przeprowadzić samoocenę istniejących i proponowanych zautomatyzowanych systemów decyzyjnych, oceniając potencjalny wpływ na uczciwość, sprawiedliwość, uprzedzenia lub inne problemy w społecznościach, których dotyczą.
•  Agencje powinny opracować znaczące zewnętrzne procesy przeglądu naukowców, aby wykrywać, mierzyć lub śledzić wpływ na przestrzeni czasu.
•  Agencje powinny powiadomić opinię publiczną, ujawniając swoją definicję "zautomatyzowanego systemu decyzyjnego", istniejące i proponowane systemy oraz wszelkie powiązane procesy samooceny i przeglądu naukowców, zanim system zostanie nabyty.
•  Agencje powinny zabiegać o publiczne komentarze, aby wyjaśnić obawy i odpowiedzieć na nierozstrzygnięte pytania.
•  Rządy powinny zapewnić ulepszone mechanizmy rzetelnego procesu dla dotkniętych osób lub społeczności w celu zakwestionowania nieodpowiednich ocen lub nieuczciwych, stronniczych lub w inny sposób szkodliwych zastosowań systemu, których agencje nie zdołały złagodzić lub skorygować.

W dalszej części raportu podkreśla się, że AIA pomogą osiągnąć cztery cele:

•  Szanuj prawo społeczeństwa do wiedzy, które systemy wpływają na ich życie, publicznie wymieniając i opisując zautomatyzowane systemy decyzyjne, które mają znaczący wpływ na jednostki i społeczności.
•  Zwiększenie wewnętrznej wiedzy i zdolności agencji publicznych do oceny systemów, które budują lub zamawiają, tak aby mogły przewidywać problemy, które mogą budzić obawy, takie jak odmienne skutki lub naruszenie zasad należytego procesu.
•  Zapewnienie większej odpowiedzialności za zautomatyzowane systemy decyzyjne poprzez zapewnienie badaczom zewnętrznym znaczącej i ciągłej możliwości przeglądu, audytu i oceny tych systemów przy użyciu metod, które pozwalają im identyfikować i wykrywać problemy.
•  Upewnij się, że społeczeństwo ma realną możliwość zareagowania i, jeśli to konieczne, zakwestionowania wykorzystania danego systemu lub podejścia agencji do odpowiedzialności algorytmicznej.

Podmioty korporacyjne mogą niechętnie przestrzegać poziomu ujawnienia określonego dla AIA. Powinni jednak przestrzegać standardów odpowiedzialności, zachowując jednocześnie zastrzeżoną wiedzę. Na przykład raport w szczególności odnosi się do wyzwań związanych z tajemnicą handlową w sekcji II. Sekcja II obejmuje również wyzwanie związane z zapewnieniem wymaganego finansowania i zasobów w celu wdrożenia OOŚ. Dla jednostek rządowych może to stanowić wyzwanie dla sugerowanego niezależnego organu nadzorczego. Jednak w przypadku przemysłu, jeśli wytyczne zostaną włączone do istniejących ram rozwoju produktu, koszty przyrostowe powinny być minimalne. W rzeczywistości podkreślenie potencjalnych błędów w algorytmach przed wdrożeniem powinno skutkować bardziej wydajnym rozwojem produktu i redukcją niezamierzonych konsekwencji

Etyka i Dane (LXXXI)


Etyczna nauka o danych: zarówno sztuka, jak i nauka

Przysięga Hipokratesa jest uważana za jeden z najwcześniejszych przykładów kodeksu etyki zawodowej, którego początki sięgają około 500 roku p.n.e. Świat medycyny w tamtym czasie przeżywał gwałtowne zmiany, a wielu lekarzy sprzedawało swoje usługi głównie po to, by czerpać korzyści ze swoich umiejętności i zwracać uwagę na rosnące zainteresowanie tym, co obecnie uważamy za medycynę zachodnią. Przysięga była radykalną reorientacją w kierunku priorytetowego traktowania interesów pacjentów zamiast zysku. Od czasu powstania przysięgi Hipokratesa wiele innych zawodów zatrudniających wysoce wyspecjalizowane umiejętności przyjęło kodeksy etyczne, uznając, że ich doświadczenie wiąże się z odpowiedzialnością. Oprócz medycyny istnieją kodeksy etyczne dla różnych zawodów, od dietetyków i księgowych po maklerów i prawników. Jeśli czynniki, które przyczyniły się do powstania przysięgi Hipokratesa, brzmią znajomo (duże zmiany w tej dziedzinie, rosnące zainteresowanie, mnożenie się osób dążących do czerpania zysków z nowego popytu), to może ucieszy Cię fakt, że od 2013 roku istnieje kodeks etyka dla specjalistów ds. analityki. Byłem członkiem założycielskiej grupy zadaniowej, która doprowadziła do stworzenia programu Certified Analytics Professional (CAP), który obejmuje podpisanie kodeksu etycznego jako wymóg uzyskania certyfikatu. Etyka ma kluczowe znaczenie dla praktyki analitycznej i nauki o danych, biorąc pod uwagę szeroki zakres zastosowań w naszym dzisiejszym świecie. Zgodnie z kodeksem etyki CAP: "Specjaliści ds. Analityki uczestniczą w analizach, które pomagają decydentom w biznesie, przemyśle, środowisku akademickim, rządzie, wojsku, tj. We wszystkich aspektach społeczeństwa; dlatego konieczne jest ustanowienie i zaprojektowanie podstaw etycznych, aby wykonywać swoją pracę w sposób odpowiedzialny. Ponadto praktyków zachęca się do zachowywania "dobrego obywatelstwa zawodowego" w celu poprawy publicznego klimatu, zrozumienia i szacunku dla korzystania z analityki we wszystkich jej zastosowaniach. " Żyjemy w erze pozornie nienasyconego popytu (i szumu) na sztuczną inteligencję i uczenie maszynowe (AI / ML), perspektywę, która mnie ekscytuje, biorąc pod uwagę wielkie dobro, które moim zdaniem może przynieść naszemu społeczeństwu. McKinsey Global Institute opracował bibliotekę 160 przypadków użycia, ale kilka z moich ulubionych wykorzystuje sztuczną inteligencję / ML, aby osiągnąć większą dokładność w diagnostyce raka (z mniejszą liczbą fałszywych trafień), używając przetwarzania języka naturalnego do śledzenia naruszeń praw człowieka w łańcuchach dostaw , automatyzacja analizy zdjęć satelitarnych do rejestrowania nielegalnych walk i tworzenie adaptacyjnych narzędzi edukacyjnych dla wszystkiego i dla wszystkich. AI / ML zasila również narzędzia, z których codziennie korzysta przeciętny współczesny konsument, wzywając z radością Siri lub Alexę, dzwoniąc do Ubera lub Lyfta, znajdując film w Netflix lub robiąc zakupy na Amazon. Pomimo tego, co może zdziałać, regularnie spotykam ludzi, którzy boją się wpływu AI / ML na nasz świat, wyobrażając sobie w najlepszym przypadku roboty przejmujące naszą pracę, aw najgorszym całkowicie przejmujące. Z tych powodów uważam, że musimy pociągać do odpowiedzialności stosowanie sztucznej inteligencji / ML, dlatego popieram kodeks etyczny dotyczący jego praktyki. Chociaż nie podzielam strachu przed osobliwością lub innymi apokaliptycznymi scenariuszami, zdaję sobie sprawę, że modele AI / ML mogą powtarzać ludzkie uprzedzenia i być wykorzystywane do utrwalania nierówności. Doskonałym przykładem jest technologia rozpoznawania twarzy: jeśli model jest karmiony obrazami, które są w większości białe i męskie, będzie wykazywał dużą dokładność w identyfikacji białych mężczyzn (99%) i będzie słabo identyfikował kobiety kolorowe (65%), ponieważ Gender Shades projekt pokazał. Ten rodzaj uprzedzeń ma poważne konsekwencje, gdy jest wbudowany w organy ścigania, na przykład tam, gdzie technologia rozpoznawania twarzy jest wykorzystywana do identyfikacji sprawców. Jednocześnie AI / ML może być w stanie zapobiec uprzedzeniom, które skłoniły wiele start-upów do stosowania matematyki w dziedzinach takich jak rekrutacja i utrzymanie. Zapobieganie negatywnym konsekwencjom AI / ML wymaga odpowiedzialności w postaci kodeksu etycznego, który sam w sobie wzywa nasze wyższe, lepsze ja. Ludzie w najlepszym wydaniu, wykorzystujący wysoki poziom empatii i fachowej oceny, w połączeniu z zaawansowaną technologią modeli uczenia maszynowego, które w najlepszym przypadku mogą korygować ludzkie uprzedzenia, to potężne połączenie.

Etyka i Dane (LXXX)


Niech odpowiedzialność stanie się priorytetem

Nie ma wątpliwości, że systemy algorytmiczne podejmują decyzje, które mają ogromny wpływ na nasze codzienne życie. Jak zauważa Yuval Noah Harari w swojej książce 21 Lessons for the 21st Century (Random House), "Już dzisiaj" prawda "jest definiowana przez najlepsze wyniki wyszukiwania Google". Tak więc przejrzystość co do funkcji tych systemów nie jest celem samym w sobie, ale jedynie środkiem prowadzącym do odpowiedzialności. Według docenta Nicholasa Diakopoulosa, dyrektora Computational Journalism Lab (CJL) na Northwestern University, odpowiedzialność w tym kontekście oznacza stopień, w jakim decydujemy, kiedy i jak należy kierować (lub ograniczać) system algorytmiczny w kosztowne błędy, dyskryminacja, nieuczciwe zaprzeczenia lub cenzura. Mówiąc najprościej, pociągnięcie do odpowiedzialności systemu oznacza, że powinniśmy go kontrolować zarówno na poziomie technicznym, jak i organizacyjnym. Jest to ważne, zwłaszcza jeśli weźmiemy pod uwagę (trochę w uproszczeniu), że system algorytmiczny to nic innego jak oprogramowanie, które:

•  Rozwiązuje problem biznesowy postawiony przez organizację, która go pozyskuje (system)
•  Odbiera dane jako dane wejściowe, które zostały wybrane i najprawdopodobniej wstępnie przetworzone przez człowieka lub zautomatyzowany proces
•  Wykorzystuje model (np. Maszynę wektorów wsparcia, głębokie uczenie się, losowy las i inne), który przetwarza wybrane dane i ostatecznie podejmuje decyzję lub sugeruje odpowiedź / rozwiązanie pytania / problemu postawionego przez organizację

Aby móc kontrolować to oprogramowanie, musimy zatem uzyskać wgląd (lub podejmować świadome decyzje) w każdym wspomnianym aspekcie. Organizacja, która tworzy system, musi uwzględnić i zaprojektować odpowiedzialność za system jeszcze przed rozpoczęciem jego rozwoju. W szczególności organizacja powinna:

•  Ustanowienie widocznych sposobów zadośćuczynienia za niekorzystne skutki indywidualne lub społeczne spowodowane przez jego system.
•  Postępuj zgodnie z zasadą "człowiek w pętli" i przydziel odpowiednie osoby do podejmowania właściwych decyzji w przypadku pojawienia się problemów.
•  Potrafi wyjaśnić decyzje swojego systemu użytkownikom końcowym i innym zainteresowanym stronom w terminach nietechnicznych.
•  Znać potencjalne źródła błędów jego algorytmów i sposoby łagodzenia ich skutków.
•  Umożliwienie zainteresowanym stronom trzecim zbadania, zrozumienia i przeglądu zachowanie jego algorytmów.
•  Upewnij się, że decyzje algorytmiczne nie wywołują dyskryminujących lub niesprawiedliwych skutków, biorąc pod uwagę różne dane demograficzne (np. Rasa, płeć, poziom wykształcenia itp.).

Jeśli chodzi o dane wejściowe systemu, tzw. "Nową ropę" współczesnej gospodarki, musimy przede wszystkim zadbać o jej:

•  Jakość, która obejmuje dokładność, kompletność i niepewność, a także terminowość, reprezentatywność próby dla określonej populacji oraz założenia lub inne ograniczenia
•  Obsługa, która obejmuje definicje danych, sposoby gromadzenia, weryfikacji i edycji (ręcznie lub automatycznie)

Jeśli chodzi o sam model, najważniejsze rzeczy do rozważenia to:

•  Czy jest odpowiedni dla danego problemu. Może się to wydawać dziwne, ale widzieliśmy modele, które nigdy nie zostały zoperacjonalizowane tylko dlatego, że nie były odpowiednie do celu.
•  Proces, jaki zastosowano przy budowie modelu, tj. Identyfikacja jego danych wejściowych oraz wybranych cech lub zmiennych wraz z ich wagami (w przypadku, gdy są one ważone).
•  Sposób, w jaki ten model będzie oceniany, tj. Określenie mierników oceny, które mają być użyte, uzasadnienie ich wyboru oraz, co najważniejsze, sposób ich wykorzystania i interpretacji.
•  Dokładność lub margines błędu modelu oraz zdolność analityka danych do porównania go ze standardowymi zbiorami danych i standardowymi miarami dokładności.

Organizacja, która bierze pod uwagę odpowiedzialność i projektuje swój system z myślą o odpowiedzialności, może uzyskać następujące korzyści:

•  Zaufanie między organizacją korzystającą z systemu a osobami, na które mają wpływ jego wyniki (czy to klienci, obywatele czy zwykli użytkownicy), ponieważ wyniki można wyjaśnić
•  Poprawa wydajności systemu, ponieważ zidentyfikowane współczynniki wagowe i progi można w razie potrzeby skalibrować / dostroić
•  Uczynienie systemu bardziej przekonującym, ponieważ jego rozumowanie będzie łatwiejsze do wyjaśnienia

Obecnie dyskurs publiczny jest pełen przykładów tego, jak zautomatyzowane podejmowanie decyzji może pójść poważnie, od kluczowych (np. System HR firmy Amazon faworyzujący kandydatów płci męskiej) po nawet błędy życia i śmierci (np. Śmiertelny wypadek spowodowany przez Ubera prowadzić samochód). Jest oczywiste, że my, ludzie, musimy kontrolować technologię, którą tworzymy. Ustanowienie procesów oceny, zanim jeszcze zaczniemy opracowywać autonomiczny system podejmowania decyzji, oraz posiadanie ludzi w pętli powinno być warunkiem wstępnym dla organizacji do wdrożenia dowolnego systemu, który będzie podejmował decyzje za nas, ale bez nas.

Etyka i Dane (LXXIX)


Sztuczna inteligencja: zobowiązania prawne w kontekście pojawiającej się etyki

Entuzjazm rośnie w związku z korzystaniem ze sztucznej inteligencji, a 30% badanej próby czołowych firm z listy Global 500 w 2019 roku zgłosiło, że już używają sztucznej inteligencji w wybranych funkcjach biznesowych. Sztuczna inteligencja może być przydatna w szerokim spektrum zastosowań i działań, od projektowania i testowania produktów po wszelkiego rodzaju analizę danych, funkcje marketingowe, uczenie maszynowe, testy medyczne, pomoc wirtualną i inne zadania. Obawy dotyczące niezawodności i potencjalnych nadużyć sztucznej inteligencji są również na pierwszym planie wśród przedsiębiorstw, inwestorów, rządów i konsumentów. Szeroki zakres nowych możliwości i zagrożeń stwarzanych przez sztuczną inteligencję doprowadził do opracowania co najmniej 32 różnych kodeksów etycznych sztucznej inteligencji opracowanych przez przemysł, organizacje pozarządowe i rządy w celu zapewnienia wskazówek dotyczących opracowywania, wdrażania i wykorzystywania sztucznej inteligencji w sposób wspierający wartości społeczne i zarządzaj ryzykiem. Ogólnie rzecz biorąc, kody sztucznej inteligencji zajmują się trzema kwestiami wysokiego poziomu: odpowiedzialnym projektowaniem i użytkowaniem sztucznej inteligencji, etycznym wykorzystaniem sztucznej inteligencji oraz kwestią, którą tutaj zajmiemy się nieco więcej - zgodnym z prawem wykorzystaniem sztucznej inteligencji. Zgodne z prawem wykorzystywanie sztucznej inteligencji wiąże się z przestrzeganiem wymogów prawnych i obowiązków firmy w obszarach istotnych dla sztucznej inteligencji, w tym w zakresie prywatności danych i cyberbezpieczeństwa. Obejmuje również wykorzystywanie sztucznej inteligencji do celów zgodnych z prawem, a nie do działań, które same w sobie są nielegalne, niebezpieczne lub w inny sposób mogą pociągać za sobą odpowiedzialność dla firmy.

Prywatność danych

Wiele funkcji sztucznej inteligencji obejmuje analizowanie dużych ilości danych w celu przewidywania zachowań lub wyników oraz podejmowania bardziej świadomych decyzji. W praktyce oznacza to na przykład, że systemy sztucznej inteligencji mogą analizować i syntetyzować miliony raportów medycznych, dokumentacji pacjentów, badań klinicznych, badań naukowych i innych punktów danych, aby pomóc w zapewnieniu szybszych i dokładniejszych diagnoz medycznych i zaleceń dotyczących leczenia. Memorial Sloan Kettering Cancer Center w Nowym Jorku oraz inne szpitale i kliniki onkologiczne wykorzystywały IBM Watson AI do tego rodzaju analizy danych na dużą skalę, aby pomóc lekarzom w diagnozowaniu i tworzeniu planów postępowania dla pacjentów z rakiem. Gdy dane medyczne osób lub inne dane osobowe są gromadzone i wykorzystywane w ten i inny sposób, jedną z oczywistych kwestii związanych ze zgodnością jest ochrona i zachowanie prywatności takich danych osobowych. W USA specyficzne federalne przepisy i regulacje HIPAA nakładają na osoby, które zbierają i przetwarzają "chronione informacje zdrowotne", w tym medyczne i osobiste dane pacjentów, aby nie wykorzystywały ani nie ujawniały takich informacji, chyba że zgodnie z ustawą HIPAA. Szersze przepisy dotyczące ochrony danych - takie jak ogólne rozporządzenie UE o ochronie danych i ustawa o ochronie prywatności konsumentów w Kalifornii z 2018 r., Które regulują gromadzenie, przetwarzanie, wykorzystywanie i przekazywanie wszelkiego rodzaju danych osobowych - ustanawiają nowe paradygmaty regulacyjne. Organy ochrony danych publicznie wyraziły obawy, że "dane osobowe w coraz większym stopniu stają się zarówno źródłem, jak i celem zastosowań sztucznej inteligencji" oraz że wykorzystanie sztucznej inteligencji nie powinno naruszać praw użytkowników do ochrony danych. Wiele firm inwestuje, aby sprostać tym wyzwaniom. W dużej mierze pojawiające się kodeksy etyczne sztucznej inteligencji są bardzo specyficzne, zgodnie z którymi opracowywanie, wdrażanie i stosowanie sztucznej inteligencji powinno chronić dane osobowe osób. Własne zasady IBM dotyczące sztucznej inteligencji jasno mówią, że "IBM przestrzega przepisów o ochronie danych we wszystkich krajach i terytoriach, na których działamy [i] jest w pełni zaangażowany w ochronę prywatności danych naszych klientów, co jest fundamentalne w społeczeństwie opartym na danych". Firmom, które opracowują, wdrażają lub wykorzystują sztuczną inteligencję do sposobów gromadzenia i przetwarzania danych umożliwiających identyfikację osobistą, zaleca się zapewnienie, że ich własne zasady i procedury również chronią dane osobowe zgodnie z obowiązującymi przepisami i regulacjami.

Bezpieczeństwo cybernetyczne

Pojawiające się wymogi prawne i kodeksy etyczne związane ze sztuczną inteligencją również podkreślają powiązaną potrzebę, aby wykorzystywaniu sztucznej inteligencji towarzyszyło skuteczne bezpieczeństwo, w szczególności cyberbezpieczeństwo, w celu ograniczenia ryzyka włamania i kradzieży danych. Zagrożenia dla cyberbezpieczeństwa przyciągnęły w ostatnich latach znaczną uwagę rządów, przemysłu i opinii publicznej, co doprowadziło do "rosnącej fali regulacji w zakresie cyberbezpieczeństwa". Istnieją szczególne wymogi w zakresie cyberbezpieczeństwa dotyczące ochrony danych, umów rządowych, opieki zdrowotnej i innych dziedzin, a także ogólne przepisy dotyczące papierów wartościowych i wymogi dotyczące należytej staranności, które nakładają obowiązki i zobowiązania w zakresie cyberbezpieczeństwa, które są egzekwowane przez rządy i strony prywatne. Rozwój, wdrażanie i wykorzystywanie sztucznej inteligencji może wiązać się z różnymi cyberzagrożeniami - nie tylko z ryzykiem, że dane są analizowane i wykorzystywane przez system sztucznej inteligencji może zostać zgubiony lub skradziony, ale także zagrozić dokładności i niezawodności samego systemu sztucznej inteligencji. W jednym słynnym eksperymencie hakerzy byli w stanie oszukać system rozpoznawania obrazu oparty na sztucznej inteligencji, aby zinterpretował obraz kota jako psa - lub nawet skradającego się wojownika - zmieniając tylko kilka pikseli. Kodeksy etyczne SI, takie jak zalecenia OECD w sprawie sztucznej inteligencji, wzywają do tego, aby systemy SI były "solidne, bezpieczne i bezpieczne przez cały cykl życia", a podmioty SI stosowały systematyczne i ciągłe zarządzanie ryzykiem na każdym etapie cyklu życia w celu uwzględnienia ryzyka związanego z systemami SI, w tym bezpieczeństwa cyfrowego. Istotne jest, aby bezpieczeństwo działań firmy związanych ze sztuczną inteligencją zostało zbadane i włączone do ogólnych zasad cyberbezpieczeństwa firmy oraz innych polityk bezpieczeństwa i systemów zarządzania.

Używaj do celów zgodnych z prawem

Nie powinno dziwić, że technologie takie jak sztuczna inteligencja, które ułatwiają szereg korzystnych zastosowań, mogą być również wykorzystywane w działaniach szkodliwych lub wręcz nielegalnych. Na przykład na początku 2019 r. Cyberprzestępcy wykorzystali technologię głosową opartą na sztucznej inteligencji do naśladowania głosu dyrektora firmy europejskiej i skutecznie oszukali jego prezesa z Wielkiej Brytanii przez telefon do wysłania 243 000 USD na konto bankowe oszustów na Węgrzech. Oprócz oszustw niektórzy urzędnicy firmy i różne organizacje pozarządowe wyraziły obawy dotyczące potencjalnego wykorzystania sztucznej inteligencji w autonomicznej broni, a nawet w "zabójczych robotach". Na przykład Google zobowiązał się w swoich Zasadach sztucznej inteligencji do tego, że nie będzie projektować ani wdrażać sztucznej inteligencji w technologiach, które powodują lub mogą powodować ogólne szkody, oraz że nie opracuje sztucznej inteligencji do użytku w broni. Firma nie będzie również wykorzystywać sztucznej inteligencji w "technologiach, których cel jest sprzeczny z powszechnie przyjętymi zasadami prawa międzynarodowego i praw człowieka". W podobnym duchu prezes Microsoftu wezwał do nowej "cyfrowej konwencji genewskiej", aby zająć się potencjalnie szkodliwymi zastosowaniami sztucznej inteligencji i innych technologii na całym świecie. Kwestie prawne i potencjalne szkody, które mogą wyniknąć z rozwoju, wdrożenia lub wykorzystania technologii AI, mogą się znacznie różnić w zależności od firmy. Jednak ważne jest, aby firmy zajmujące się sztuczną inteligencją rozważyły zobowiązanie do niewykorzystywania sztucznej inteligencji do nielegalnych lub niebezpiecznych celów podczas opracowywania własnych szczegółowych zasad dotyczących sztucznej inteligencji lub wdrażania zasad etycznych dotyczących sztucznej inteligencji szerszej grupy.

Etyka i Dane (LXXVIII)


Wdrażanie zarządzania i kontroli w zakresie etyki sztucznej inteligencji

Dla wielu Gry wojenne wprowadziły pojęcie sztucznej inteligencji i potencjalny wpływ, jaki może mieć na nasze życie. Przenieśmy się o 36 lat do przodu i widzimy, że inteligentne algorytmy odgrywają znaczącą rolę we wszystkim, od tego, jak kupujemy produkty, po to, jak chronimy nasze granice. Poważne postępy w zakresie mocy obliczeniowej i przechowywania danych, w połączeniu ze zwiększoną cyfryzacją wcześniejszych procesów analogowych, przyczyniły się do bezprecedensowego rozwoju rozwiązań z zakresu inteligencji komputerowej. Chociaż większość twierdzi, że te postępy przyniosły ogromne korzyści społeczeństwu, wielu innych jest zaniepokojonych etycznymi implikacjami podejmowania decyzji przez maszyny. Tak jak widzieliśmy w grach wojennych, maszyny będą robić to, do czego są wyszkolone, nawet jeśli szkolenie to jest szkodliwe dla dużych segmentów społeczeństwa. Zapewnienie bezpiecznego i etycznego działania rozwiązań z zakresu inteligencji komputerowej jest istotnym problemem zarówno dla korporacji korzystających z tych rozwiązań, jak i dla społeczeństwa w ogóle. Chcę skoncentrować tę dyskusję na opracowaniu niezbędnego środowiska zarządzania i kontroli dla rozwiązań sztucznej inteligencji, aby zapewnić bezpieczny i etyczny stan dla wszystkich wyborców. Podobnie jak w przypadku każdej formy tworzenia oprogramowania, na wyniki projektów AI wpływa ekosystem programistyczny, procesy potrzebne do migracji do stanu produkcyjnego działania oraz ciągły audyt rozwiązania końcowego. Jednak zapewnienie etycznego stanu rozwiązania AI wymaga dodatkowych kontroli na różnych etapach cyklu życia rozwiązania.

Przyjęcie Kodeksu etycznego postępowania w AI

Utrzymanie właściwego ekosystemu rozwoju rozwiązań AI zaczyna się od kodeksu etycznego postępowania AI. Ten kodeks postępowania powinien określać kroki, jakie muszą wykonać wszyscy programiści sztucznej inteligencji, aby wyeliminować uprzedzenia, promować przejrzystość i być społecznie odpowiedzialnym. Kodeks etycznego postępowania SI powinien zawierać standardy i praktyki, które pomogą programistom w takich kwestiach, jak możliwość audytu, dostępność, zarządzanie danymi, delegowanie praw i obowiązki etyczne / moralne. Kodeks postępowania zostałby wzmocniony obowiązkowymi szkoleniami dla wszystkich programistów, aby upewnić się, że rozumieją etyczną odpowiedzialność organizacji.

Różnorodność stresu w zatrudnianiu i rekrutacji

Oprócz przyjęcia kodeksu etycznego postępowania opartego na sztucznej inteligencji, organizacje powinny skupić się na rekrutacji i zatrudnianiu zróżnicowanego zestawu programistów, aby pomóc wyeliminować "myślenie grupowe" i wzmocnić kulturę myślenia włączającego w ekosystemie rozwoju. Wreszcie, w przypadkach, gdy wyniki działań w zakresie sztucznej inteligencji mogą mieć wpływ na duże segmenty społeczeństwa, organizacje powinny zatrudniać etyków. Etycy to specjaliści, którzy edukują i pracują z programistami w zakresie etycznych praktyk rozwojowych.

Zapewnij zgodność z komisją ds. Oceny etycznej

Przy odpowiednim ekosystemie programistycznym kolejnym obszarem zainteresowania jest proces migracji rozwiązań AI do produkcji. W IT koncepcja Komisji Rewizyjnej Jakości (QRB) lub Rady Rewizyjnej Architektury (ARB) jest powszechna. W przypadku rozwiązań opartych na sztucznej inteligencji wymagany jest nowy organ zarządzający, Komisja ds. Przeglądu Etycznego (ERB). Ustanawiając ramy zarządzania w celu zapewnienia etycznych praktyk w opracowywaniu i wykorzystywaniu sztucznej inteligencji, ERB działa również jako strażnik nowych rozwiązań sztucznej inteligencji przechodzących do stanu produkcyjnego. Nowe rozwiązania, które nie przejdą przeglądu ERB, nie mogą zostać wprowadzone do produkcji.

Ustanów pętle audytu i informacji zwrotnych

Gdy aplikacje AI są już w produkcji, wyniki muszą być stale kontrolowane, aby zapewnić zgodność. Audyty te obejmowałyby nie tylko algorytmy, ale także dane zasilające algorytmy. Ponieważ algorytmy sztucznej inteligencji uczą się poprzez iterację, uprzedzenia w danych doprowadziłyby do tendencyjnego "uczenia się" przez algorytmy. Chociaż audyt i ciągłe testowanie w celu zrozumienia nieoczekiwanych wyników jest krytyczne, to nie wystarczy. Ponadto należy zapewnić pętle informacji zwrotnych użytkownikom, którzy działają poza kontrolą sztucznej inteligencji systemu. Pętle informacji zwrotnych mogą być wbudowane w aplikacje lub realizowane za pomocą instrumentów pomiarowych.

Podsumowując, ustanowienie operacyjnego ekosystemu sztucznej inteligencji o odpowiednim poziomie niezależności i przejrzystości jest obowiązkowe dla organizacji tworzących i obsługujących inteligentne rozwiązania, które mają wpływ na społeczeństwo. Kontrole etyczne AI nie są seksowne ani ekscytujące. Ale spójrzmy prawdzie w oczy: gdyby te elementy sterujące były na miejscu, Gry wojenne byłyby znacznie nudniejszym filmem.

Etyka i Dane (LXXVII)


Jak odpowiedzialnie wprowadzać innowacje

Termin "odpowiedzialna innowacja" był kiedyś oksymoroniczny. Cofnij się o około 15 lat, a zostałbyś wyszydzony za używanie tych dwóch słów razem. Przyjęty na początku XXI wieku etos innowacji polegał na "szybkim działaniu i niszczeniu rzeczy". Ten etos przedkładał eksperymentowanie i eksplorację nad ostrożność i pracowitość. Ogarnięto bezgraniczną ciekawość, podsycaną szałem inwestycyjnym mającym na celu sfinansowanie kolejnego wielkiego pomysłu. Szybko jednak do 2010 roku, a konsekwencji tej bezgranicznej ciekawości nie można było dłużej ignorować. Ponieważ obecnie gromadzimy wszystkie aspekty ludzkiego zachowania i analizujemy te dane za pomocą zaawansowanych, predykcyjnych technologii, takich jak sztuczna inteligencja, analizowane i testowane są podstawowe konsekwencje innowacji. Obawy dotyczące "odpowiedzialnych" innowacji zapoczątkowały zdecydowaną i szczerą debatę na temat technologii w społeczeństwie (nie nowej, ale ożywionej). Wszystko od tego, co może, powinno i chciałoby, po to, jak, dlaczego, kogo, a następnie o co się pyta o duże zbiory danych i sztuczną inteligencję. Bardzo realne społeczne, polityczne, ekonomiczne, prawa człowieka i konsekwencje prawne sztucznej inteligencji są słusznie kwestionowane, a żądania dotyczące zabezpieczeń chroniących społeczeństwo przed niezamierzonymi szkodami są mnożone. Ale posłuchaj uważnie tych debat. Decydenci, liderzy społeczeństwa obywatelskiego, naukowcy, przedsiębiorcy, etycy, prawnicy i inni nie dyskutują o algorytmach jako takich. Debatujemy nad wpływem technologii na nasze wartości - wartości, które leżą u podstaw naszych demokratycznych społeczeństw - aby zapewnić, że nasze dzieła wzmacniają rodzaje społeczeństw, w których chcemy żyć, a nie je podważać. Skandale, takie jak Cambridge Analytica lub niedawne ujawnienie dotyczące korzystania przez organy ścigania z systemu rozpoznawania twarzy Clearview AI, dotyczą nie tylko (lub w ogóle) technologii, ale także intencji stojących za ich użyciem. Odpowiedzialne innowacje - słowa, które mogą i powinny być używane razem - są regulowane przez przemyślane, sumienne i dające się obronić procesy rozwoju, operacjonalizacji i nadzoru nad tymi złożonymi systemami technologicznymi. Pracowitość może współistnieć z innowacjami. Proponuję czteropunktowe ramy planowania odpowiedzialnych innowacji w każdej organizacji:

Zacznij od czynnika ludzkiego

Pomyśl o użytkowniku i dopasuj jego zainteresowania i oczekiwania do planów innowacyjnych organizacji. Ponadto zidentyfikuj wartości organizacyjne i dostosuj je do programu innowacji organizacji. Krótko mówiąc, zachęć ludzi do współpracy i z wyprzedzeniem dostosuj narrację swojej organizacji.

Zapewnij dobre praktyki w zakresie danych

Przestrzeganie przepisów o ochronie danych to dopiero początek. Przemyślana i kontekstualna ocena praktyk w zakresie danych dla systemów SI jest cenna, szczególnie w przypadku tych systemów, które są wykorzystywane w działaniach o podwyższonym ryzyku - na przykład w połączeniu z niektórymi wyrobami medycznymi. Mapuj i dokumentuj proces podjęty w celu oceny i oceny danych szkoleniowych oraz bieżącej ekspozycji na dane w przypadku systemów o podwyższonym ryzyku. Dokumentuj odpowiednie działania łagodzące, aby zmniejszyć ryzyko.

Oceń system SI w kontekście

Przejrzyj i udokumentuj poziom ryzyka, które można rozsądnie przypisać bardziej zaawansowanym projektom AI. Nie wszystkie systemy AI są sobie równe. Niektóre stanowią bardzo małe zagrożenie dla dobrobytu ludzi i / lub społeczeństwa. Systemy te nie wymagają takiego samego poziomu kontroli, jak systemy używane w bardziej wrażliwych lub przejściowych kontekstach, takich jak opieka zdrowotna lub bezpieczeństwo.



Staranność i odpowiedzialność to kluczowe i, szczerze mówiąc, dobra ochrona prawna w przypadku wystąpienia niezamierzonych konsekwencji. Wykazanie przemyślanego, dobrze poinformowanego i proaktywnego podejścia do zarządzania ryzykiem jest ważne dla budowania zaufania, ograniczania ryzyka, narracji organizacyjnej i, co najważniejsze, robienia właściwych rzeczy. Te ramy oparte na ryzyku proponuje się jako rozsądną barierę ochronną do czasu wprowadzenia odpowiednich regulacji lub w ich miejsce. Zobaczymy uregulowania dotyczące niektórych zastosowań sztucznej inteligencji w niektórych kontekstach (np. Rozpoznawanie twarzy przez organy ścigania i rządy). W międzyczasie organizacje muszą nadal wprowadzać innowacje, ale w przeciwieństwie do filozofii z przeszłości muszą to robić w sposób odpowiedzialny.

Etyka i Dane (LXXVI)


Nauka o danych nie potrzebuje kodeksu etycznego

Może się to wydawać dziwnym tytułem. Ale to prawda. Nauka o danych nie potrzebuje kodeksu etycznego. Potrzebuje czegoś innego (co wkrótce ujawnię). Etykę definiuje się jako zbiór "zasad moralnych, które rządzą zachowaniem danej osoby lub prowadzeniem jakiejś działalności". Opierając się na tej definicji, moralność definiuje się jako "lekcję, zwłaszcza dotyczącą tego, co jest słuszne lub roztropne, zaczerpniętą z opowieści, informacji lub doświadczenia". Przyjrzyjmy się tym definicjom za pomocą następujących elementów nauki o danych: danych, modeli / narzędzi i ludzi. Dane nie są osobą. Nie są żywe w tym sensie, że mogą samodzielnie podejmować decyzje lub wykazywać zachowanie. Dlatego można stwierdzić, że dane nie mogą być ani etyczne, ani nieetyczne. To tylko liczby, fakty, atrybuty i tak dalej. Dane mogą zawierać błędy. Jednak te uprzedzenia są zwykle tworzone przez ludzi, a uzyskane dane nadal stanowią dokładną reprezentację tego, co się wydarzyło. Etyki nie należy mylić z uprzedzeniami. Modele i algorytmy nauki o danych kierują się tą samą logiką. Opracowane przez ludzi modele mają zdolność wprowadzania tendencyjności do danych. Ale znowu sam model nie może być etyczny ani nieetyczny. To zostawia nas z ludźmi. Naukowcy zajmujący się danymi. Partnerzy biznesowi, partnerzy technologiczni. I więcej. Poprzez swoje przekonania i czyny ludzie mogą być etyczni lub nieetyczni - czasami jedno i drugie. Największą dziką kartą są ludzie, ponieważ każdy z nas ma zupełnie unikalny zestaw doświadczeń życiowych, które informują i wpływają na nasze zachowanie. Niestety, mamy też zdolność do zachowywania się irracjonalnie i nieobliczalnie. Jeśli więc to prawda, to dlaczego nauka o danych nie miałaby potrzebować kodeksu etycznego, który miałby kierować ludźmi i rządzić nimi? Jeśli inne zawody go mają, to dlaczego nie naukę o danych? Dzieje się tak, ponieważ nauka o danych potrzebuje po prostu dużych i powtarzalnych dawek zdrowego rozsądku. Zdrowy rozsądek definiuje się jako "rozsądny, praktyczny osąd dotyczący codziennych spraw lub podstawową umiejętność postrzegania, rozumienia i osądzania, którą posiadają prawie wszyscy ludzie". Zdrowy rozsądek jest kontekstualny. Na przykład myślę, że wszyscy zgodzilibyśmy się, że nie byłoby zdrowym rozsądkiem, gdybym wybił szybę mojego sąsiada. Ale we właściwym kontekście - na przykład, jeśli dom mojego sąsiada się pali, a moim zamiarem jest uratowanie ich zwierzaka - wtedy wybicie okna jest doskonałym zdrowym rozsądkiem opartym na mojej zdolności postrzegania tego, co prawie wszyscy ludzie zrobiliby w podobnej sytuacji. Etykę i zdrowy rozsądek można pomylić, ale istnieje ważna różnica. Etyka zazwyczaj nie jest tak kontekstualna jak zdrowy rozsądek. Patrząc ponownie na definicję etyki przedstawioną wcześniej, widzimy, że nie wspomina się o "kontekście". Większość z nas zgodziłaby się, że kłamstwo jest nieetyczne. Ale wszyscy to zrobiliśmy w pewnym momencie i prawdopodobnie nie zadręczamy się tym. To dlatego, że zastosowaliśmy kontekst. Czasami zdrowy rozsądek podpowiada, że to, co nieetyczne jest akceptowalne, a nawet jest zalecanym sposobem postępowania. Tak samo jest z nauką o danych. Lepsze podejmowanie decyzji, które jest ostatecznym celem nauki i analizy danych, zależy od dwóch rzeczy: wglądu i intuicji. Wgląd jest łatwiejszy do omówienia - wzorce i anomalie w danych. Intuicja jest trochę bardziej skomplikowana, obejmuje doświadczenie, przeczucie i, co najważniejsze, kontekst. Nie kontynuujmy tworzenia kodeksu etycznego dla nauki o danych jako kolejnego elementu zarządzania lub standaryzacji, który nie może zmieniać się tak szybko ani tak dynamicznie, aby uwzględnić kontekst, jakiego wymagają dzisiejsze zmieniające się środowiska. Nie traćmy czasu na definiowanie lub debatowanie, jakie powinny być te standardy etyczne, uznając, że prawdopodobnie mamy różne poglądy, a ćwiczenie może trwać wiecznie lub gorzej, skutkować wieloma różnymi, potencjalnie mylącymi i sprzecznymi zestawami norm etycznych dla nauki o danych. Zamiast tego zażądajmy, abyśmy wszyscy po prostu stosowali regularne i powtarzane dawki zdrowego rozsądku. Zróbmy to, kiedy określimy problem do rozwiązania. Zróbmy to, gdy zbieramy i czyścimy dane. Zróbmy to, gdy tworzymy nasze modele i identyfikujemy nasze spostrzeżenia. Zróbmy to, gdy oceniamy nasze możliwości i podejmujemy decyzje. Uprośćmy to. Postrzegajmy, zrozummy i oceniajmy codzienne sprawy tak, jak prawie wszyscy ludzie. A co najważniejsze, zróbmy to jeszcze raz i dokładnie sprawdźmy siebie, zanim zaczniemy działać.

Etyka i Dane (LXXV)


Ramy projektowania etyki w danych przedsiębiorstwa

Jeśli kierujesz jakimkolwiek przedsięwzięciem przedsiębiorstwa mającym na celu wdrożenie danych i modeli predykcyjnych, niezwykle ważne jest wczesne zaprojektowanie etyki w procesie. Chcesz, aby Twój zespół miał pewność, że etyczne aspekty ich wdrożenia są uwzględnione w sposób, który przyczynia się do niesamowitego doświadczenia klienta, a bycie proaktywnym może pomóc zespołom projektowym w zaplanowaniu niezbędnych kroków i kosztów, aby to osiągnąć. Nie wiesz, od czego zacząć? Oto cztery strategiczne kroki, które należy podjąć, aby umożliwić przedsiębiorstwu projektowanie etyki w ramach działań w zakresie technologii i analizy danych od samego początku.

Wybierz podejście wielopoziomowe

Instytucjonalizacja etyki może wydawać się czymś, co powinno być drugą naturą - w końcu prawdopodobnie dołożyłeś wszelkich starań, aby zatrudnić pracowników o silnej etyce. Jednak aby uniknąć niezamierzonej ingerencji w tę etykę, Twoje zespoły muszą zrozumieć, dlaczego artykułowanie zasad ma kluczowe znaczenie. Możesz zacząć od wielopoziomowego podejścia do projektowania zasad etycznych, zaczynając od tego, dlaczego ich potrzebujesz. Do przyczyny wyjaśniono aspiracje i zaangażowanie oraz poprzez wyartykułowanie zgodności między podstawowymi wartościami przedsiębiorstwa a sposobem, w jaki dane i analizy mogą wspierać te wartości. Polityki omawiają, co należy zrobić, a czego należy unikać, aby wspierać zasady. Prawdopodobnie istnieje wiele zasad, które wspierają każdą zasadę. Specjaliści ds. Danych i analityki będą musieli wiedzieć, jak wdrożyć wytyczne, standardy i procedury, które pomogą w określeniu operacyjnych składników polityk.

Wykonaj swoje badania

Wiele najlepszych i najbystrzejszych umysłów w branży danych i analiz podjęło już wysiłki w celu wdrożenia zasad etycznych dotyczących danych i analiz. Zidentyfikuj te organizacje i postaraj się poznać ich zestawy zasad. Źródła mogą obejmować witryny firmowe i firmy badawcze (np. Gartner i Forrester). Porozmawiaj ze swoimi rówieśnikami i każdym w swojej sieci, którego uważasz za eksperta w zakresie danych i analiz - istnieje duże prawdopodobieństwo, że mają już jakieś zasady. Uzyskaj informacje od naukowców zajmujących się etyką, którzy być może opracowali zasady, które nie zostały jeszcze rozproszone w branży. Szukaj innowacyjnych pomysłów w innych dziedzinach niż Twoja. Na przykład firma ubezpieczeniowa może szukać przydatnych zasad i wskazówek w badaniach biomedycznych, podczas gdy sprzedawca online może oceniać rodzime firmy cyfrowe.

Zidentyfikuj i zaangażuj swoich interesariuszy

Na poziomie przedsiębiorstwa oceń różne działy / obszary firmy, które będą musiały pomóc w kształtowaniu i wdrażaniu zasad etycznych organizacji dotyczących danych i analiz. Weź pod uwagę wiedzę merytoryczną i uprawnienia decyzyjne w zakresie instytucjonalizacji zasad etycznych. Stwórz wielofunkcyjny zespół, w skład którego wejdą wszyscy kluczowi gracze w tych obszarach. Zdefiniuj statut zespołu, role i obowiązki. Karta powinna określać czynniki biznesowe, cele zespołu, strategiczne dostosowanie, zakres i współzależności. Oceń obecne struktury zarządzania i zidentyfikuj skrzyżowania. Nie wymyślaj na nowo koła - robienie tego tylko zmyli ludzi, którzy wiedzą, jak korzystać z istniejących zasad.

Bądź zwinny

Podejście do wszystkich działań związanych z zaangażowaniem ze zwinnym nastawieniem, dążąc do uzyskania konsensusu od wszystkich stron, stworzy niekończący się łańcuch zatwierdzeń i opóźni możliwość wdrożenia praktycznych zasad. Wdrażaj zasady etyczne iteracyjnie i stopniowo zdobywaj aprobatę najwyższych szczebli organizacji. Po uzgodnieniu pierwszej wersji skorzystaj z serii studiów przypadku, aby zobaczyć, jak by wyglądało wdrożenie zasad. Studia przypadku powinny uwzględniać różne osoby lub interesariuszy, na które zasady będą miały wpływ, i umożliwią organizacji przetestowanie zasad pod kątem wykonalności, kosztów i zakresu przed wdrożeniem zmian organizacyjnych. Dokonuj przeglądu zasad, wyników studiów przypadku i postępów we wdrażaniu w regularnych odstępach czasu, pracując nad zrozumieniem kluczowych luk i zagrożeń związanych z wdrażaniem zasad. Regularne aktualizacje standardów branżowych i regulacyjnych, badań i strategii są niezbędne, aby utrzymać wpływ zasad etycznych i zapewnić skuteczną równowagę postępów strategii, przy jednoczesnym przestrzeganiu pierwotnego statutu ustalonego dla zespołu projektowego. Wykorzystując tę strukturę projektową, organizacja może wdrażać dane i modele predykcyjne z etyką zaprojektowaną w procesie rozwoju. Pomoże to wszystkim organizacjom zdefiniować zindywidualizowane podejście do wdrażania etycznych praktyk w zakresie danych i analiz, jednocześnie chroniąc prywatność i tworząc pozytywne doświadczenia klientów. Etyka i najwyższa jakość obsługi klienta będą wtedy działały synergicznie!

Etyka i Dane (LXXIV)


Nauka o danych nie potrzebuje kodeksu etycznego

Może się to wydawać dziwnym tytułem. Ale to prawda. Nauka o danych nie potrzebuje kodeksu etycznego. Potrzebuje czegoś innego (co wkrótce ujawnię). Etykę definiuje się jako zbiór "zasad moralnych, które rządzą zachowaniem danej osoby lub prowadzeniem jakiejś działalności". Opierając się na tej definicji, moralność definiuje się jako "lekcję, zwłaszcza dotyczącą tego, co jest słuszne lub roztropne, zaczerpniętą z opowieści, informacji lub doświadczenia". Przyjrzyjmy się tym definicjom za pomocą następujących elementów nauki o danych: danych, modeli / narzędzi i ludzi. Dane nie są osobą. Nie są żywe w tym sensie, że mogą samodzielnie podejmować decyzje lub wykazywać zachowanie. Dlatego można stwierdzić, że dane nie mogą być ani etyczne, ani nieetyczne. To tylko liczby, fakty, atrybuty i tak dalej. Dane mogą zawierać błędy. Jednak te uprzedzenia są zwykle tworzone przez ludzi, a uzyskane dane nadal stanowią dokładną reprezentację tego, co się wydarzyło. Etyki nie należy mylić z uprzedzeniami. Modele i algorytmy nauki o danych kierują się tą samą logiką. Opracowane przez ludzi modele mają zdolność wprowadzania tendencyjności do danych. Ale znowu sam model nie może być etyczny ani nieetyczny. To zostawia nas z ludźmi. Naukowcy zajmujący się danymi. Partnerzy biznesowi, partnerzy technologiczni. I więcej. Poprzez swoje przekonania i czyny ludzie mogą być etyczni lub nieetyczni - czasami jedno i drugie. Największą dziką kartą są ludzie, ponieważ każdy z nas ma zupełnie unikalny zestaw doświadczeń życiowych, które informują i wpływają na nasze zachowanie. Niestety, mamy też zdolność do zachowywania się irracjonalnie i nieobliczalnie. Jeśli więc to prawda, to dlaczego nauka o danych nie miałaby potrzebować kodeksu etycznego, który miałby kierować ludźmi i rządzić nimi? Jeśli inne zawody go mają, to dlaczego nie naukę o danych? Dzieje się tak, ponieważ nauka o danych potrzebuje po prostu dużych i powtarzalnych dawek zdrowego rozsądku. Zdrowy rozsądek definiuje się jako "rozsądny, praktyczny osąd dotyczący codziennych spraw lub podstawową umiejętność postrzegania, rozumienia i osądzania, którą posiadają prawie wszyscy ludzie". Zdrowy rozsądek jest kontekstualny. Na przykład myślę, że wszyscy zgodzilibyśmy się, że nie byłoby zdrowym rozsądkiem, gdybym wybił szybę mojego sąsiada. Ale we właściwym kontekście - na przykład, jeśli dom mojego sąsiada się pali, a moim zamiarem jest uratowanie ich zwierzaka - wtedy wybicie okna jest doskonałym zdrowym rozsądkiem opartym na mojej zdolności postrzegania tego, co prawie wszyscy ludzie zrobiliby w podobnej sytuacji. Etykę i zdrowy rozsądek można pomylić, ale istnieje ważna różnica. Etyka zazwyczaj nie jest tak kontekstualna jak zdrowy rozsądek. Patrząc ponownie na definicję etyki przedstawioną wcześniej, widzimy, że nie wspomina się o "kontekście". Większość z nas zgodziłaby się, że kłamstwo jest nieetyczne. Ale wszyscy to zrobiliśmy w pewnym momencie i prawdopodobnie nie zadręczamy się tym. To dlatego, że zastosowaliśmy kontekst. Czasami zdrowy rozsądek podpowiada, że to, co nieetyczne jest akceptowalne, a nawet jest zalecanym sposobem postępowania. Tak samo jest z nauką o danych. Lepsze podejmowanie decyzji, które jest ostatecznym celem nauki i analizy danych, zależy od dwóch rzeczy: wglądu i intuicji. Wgląd jest łatwiejszy do omówienia - wzorce i anomalie w danych. Intuicja jest trochę bardziej skomplikowana, obejmuje doświadczenie, przeczucie i, co najważniejsze, kontekst. Nie kontynuujmy tworzenia kodeksu etycznego dla nauki o danych jako kolejnego elementu zarządzania lub standaryzacji, który nie może zmieniać się tak szybko ani tak dynamicznie, aby uwzględnić kontekst, jakiego wymagają dzisiejsze zmieniające się środowiska. Nie traćmy czasu na definiowanie lub debatowanie, jakie powinny być te standardy etyczne, uznając, że prawdopodobnie mamy różne poglądy, a ćwiczenie może trwać wiecznie lub gorzej, skutkować wieloma różnymi, potencjalnie mylącymi i sprzecznymi zestawami norm etycznych dla nauki o danych. Zamiast tego zażądajmy, abyśmy wszyscy po prostu stosowali regularne i powtarzane dawki zdrowego rozsądku. Zróbmy to, kiedy określimy problem do rozwiązania. Zróbmy to, gdy zbieramy i czyścimy dane. Zróbmy to, gdy tworzymy nasze modele i identyfikujemy nasze spostrzeżenia. Zróbmy to, gdy oceniamy nasze możliwości i podejmujemy decyzje. Uprośćmy to. Postrzegajmy, zrozummy i oceniajmy codzienne sprawy tak, jak prawie wszyscy ludzie. A co najważniejsze, zróbmy to jeszcze raz i dokładnie sprawdźmy siebie, zanim zaczniemy działać.

Etyka i Dane (LXXIII)


Etyka danych - trzy kluczowe działania lidera analityki

W ciągu ostatnich kilku lat znaczenie tematów prywatności i etyki danych znacznie wzrosło. Ten rozwój był częściowo napędzany przez nowe przepisy, takie jak RODO UE i CCPA, przepisy, które mają zapewnić większą kontrolę, przejrzystość i własność danych osobom fizycznym. Te nowe przepisy, oprócz kolejnych nowych przepisów na horyzoncie, mogą znacznie ograniczyć wykorzystanie danych, co może udaremnić innowacje i wpłynąć na naszą zdolność do świadczenia cennych usług opartych na danych klientom, takich jak zapobieganie oszustwom, dostarczanie odpowiednich spersonalizowanych produktów oraz poprawa obsługi klienta. Powinniśmy być bardzo zaniepokojeni tymi trendami, zwłaszcza że teraz widzimy, jak ogromne ilości nieustrukturyzowanych danych w połączeniu ze sztuczną inteligencją mogą zapewnić ogromną poprawę doświadczeń klientów, a także stworzyć nowe możliwości biznesowe. Niezwykle ważne jest, aby firmy wyprzedzały konkurencję i podejmowały proaktywne kroki w celu wprowadzenia wytycznych dotyczących etyki danych i najlepszych praktyk do swoich firm. Wiele firm wyznaczyło osobę do nadzorowania wykorzystania danych firmowych, nadając jej tytuł, taki jak dyrektor ds. prywatności, dyrektor ds. danych lub dyrektor ds. zgodności. Osoby te skupiły się głównie na prawnych aspektach danych oraz na zapewnieniu, że ich firma działa zgodnie z prawem. Jest to zrozumiałe, ponieważ naruszenie prawa pociągnie za sobą poważne konsekwencje. Musimy jednak podnieść legalność i prywatność danych na wyższy poziom i tam właśnie wkracza etyka danych. Klienci ufają, że szanujemy ich prywatność i wykorzystujemy ich dane w sposób bezpieczny i etyczny. Widzieliśmy wiele przypadków, w których słaba etyka danych spowodowała nadszarpnięcie marki, utratę klientów i spadek zysków firmy. Etyka danych wykracza poza to, co jest wymagane przez prawo i dotyczy właściwego gromadzenia, zarządzania i wykorzystywania danych w organizacji. Firma może na przykład wykorzystać szeroki zestaw danych do wysoce ukierunkowanych ofert marketingowych poprzez zautomatyzowane kupowanie reklam, ale jeśli oferta jest natrętna i wyrwana z kontekstu oraz wykorzystuje poufne informacje poufne, wtedy "czynnik przerażający" może pojawić się i stworzyć obawy o konsumenta. Krótkoterminowy wpływ na zwiększoną sprzedaż może być znikoma w porównaniu z długoterminową utratą zaufania i uwagi na markę. Inteligentne organizacje uznają znaczenie budowania zaufania ze swoimi klientami i potencjalnymi klientami i włączają wytyczne i praktyki dotyczące etyki danych do swoich działań. Liderzy analityczni mają wyjątkową możliwość wniesienia wkładu w ten wysiłek, ponieważ oni i ich zespoły mają na ogół najgłębszą wiedzę na temat sposobu gromadzenia, organizowania i wykorzystywania danych w ich firmach. Nadszedł czas, aby liderzy analityki zintensyfikowali działania i odegrali kluczową rolę przywódczą w rozwijaniu praktyk w zakresie prywatności danych i etyki w swoich organizacjach. Oto kilka natychmiastowych sugestii o tym, jak odgrywać tę rolę przywódczą:

Dołącz do rady ds. Danych przedsiębiorstwa.

Jeśli taki podmiot nie istnieje, wpłyń na firmę, aby ją założyła. Rada ta powinna pełnić różne funkcje i pełnić szereg funkcji, w tym ustanawiać wytyczne dotyczące etyki danych, dbać o to, by wytyczne te były dobrze zrozumiałe w całej firmie, a także dokonywać przeglądu i zatwierdzać nowe sposoby wykorzystania danych. Zgoda na nowe wykorzystanie danych powinna uwzględniać wartość biznesową, prywatność konsumenta i wartość, jaką aplikacja zapewnia konsumentowi, a także ryzyko związane z marką i ryzykiem operacyjnym. Różni ludzie bez wątpienia będą mieli różne opinie, ale poprzez dyskusję międzyfunkcyjną zwykle można osiągnąć konsensus lub odpowiednio zmodyfikować wykorzystanie danych. Jako lider analityki w radzie będziesz w stanie wyjaśnić, w jaki sposób dane są wykorzystywane do obsługi różnych przypadków użycia; będzie to cenne w kształceniu rady i zapewnianiu ważnych nowych obszarów do omówienia i rozwiązania.

Utwórz strategię pomiaru etyki danych.

Metryki można tworzyć w celu pomiaru procesów wewnętrznych, ale co ważniejsze, strategia powinna obejmować metryki, aby zrozumieć, jak postrzegają Cię klienci. Wiele firm prowadzi ciągłe ankiety, aby mierzyć kondycję marki, nastroje klientów, zaufanie itd. Dodając kilka pytań dotyczących etyki danych i prywatności, ustalisz punkt odniesienia, który można śledzić i mierzyć w czasie. Innym źródłem wglądu będzie wydobywanie nieustrukturyzowanych danych przy użyciu algorytmów sztucznej inteligencji / uczenia maszynowego. Dane głosowe / tekstowe z centrów obsługi telefonicznej i wiadomości e-mail, posty społecznościowe i blogi (Twitter, Reddit itp.) Oraz wewnętrzne bazy danych skarg klientów są ważnymi źródłami do codziennej analizy trendów i zapewniania natychmiastowych wskaźników wszelkich problemów związanych z etyką danych. Wskaźniki rezygnacji można również śledzić w celu uzyskania trendów, a także w celu zidentyfikowania przyczyny rezygnacji, aby w razie potrzeby można było dostosować treść marketingową i częstotliwość.

Przeszkol zespół analityków danych w zakresie ochrony danych i etyki.

Naukowcy zajmujący się danymi świetnie radzą sobie z wyszukiwaniem i integracją danych do modeli, ale tylko dlatego, że dane znajdują się w hurtowni danych przedsiębiorstwa lub mogą zostać pobrane z zewnętrznej witryny internetowej, nie oznacza, że dane mogą być wykorzystywane w sposób etyczny. Silne zespoły analityczne stosują procesy planowania z góry przed utworzeniem algorytmów, a każdy przypadek użycia należy również przeanalizować z perspektywy etyki danych. Czy Twoja firma ma uprawnienia do wykorzystywania proponowanych danych? Czy aplikacja narusza jakiekolwiek przepisy lub politykę prywatności? Czy przypadek użycia zapewnia wartość zarówno klientowi, jak i firmie? Czy będzie jakiś "przerażający czynnik", który mógłby zepsuć markę firmy? Te pytania to wszystkie obszary, które naukowcy zajmujący się danymi muszą przeanalizować i przekazać do rady ds. Danych przedsiębiorstwa w razie wątpliwości. Podsumowując, liderzy analityki mogą odgrywać dużą rolę przywódczą w tworzeniu i wdrażaniu solidnych praktyk etyki danych w swojej firmie. Doprowadzi to do lepszego zarządzania danymi i ich wykorzystywania, lepszej ochrony danych klientów i mniejszego ryzyka dla wartości marki firmy.

Etyka i Dane (LXXII)


Równa dystrybucja wyników etycznych w erze cyfrowej

Dane to nieprzekupny surowiec, który jest analizowany w celu ujawnienia i udowodnienia Prawdy - w istocie "Dane to Prawda". Jest to pojęcie, które błędnie przenikało społeczeństwo od czasu, gdy dane zostały po raz pierwszy wykorzystane do naukowego zrozumienia w połowie XVII wieku. To, co jest bliższe rzeczywistości, to fakt, że gdy są używane nieprawidłowo, dane są zepsutym surowcem, którym można fizycznie manipulować, aby uzyskać prawdę / wgląd, który odpowiada własnym interesom twórcy, lub aby uzyskać prawdę / wgląd, który pasuje do świadomego lub podświadomego uprzedzenia twórcy . Podoba mi się, jak autor Stephen Jay Gould zwięźle i przejmująco sformułował to w swojej książce The Mismeasure of Man (W. Norton): "Oczekiwanie to potężny przewodnik po działaniu". Niedawna i odległa historia pełna jest przykładów osób i społeczności, na które niesłusznie wpłynęły działania uzasadnione stronniczą analizą danych lub algorytmów. Dane mogą wpływać na dynamikę władzy, życie ludzkie, zdrowie, wiedzę, przekonania i dobrobyt. Algorytmy mogą wzmacniać ucisk i nierówności oraz mogą wiązać się z kapitalizmem nadzoru. Lubię myśleć, że "Dane są prawdą tylko wtedy, gdy są używane z etyką i uczciwością". Aby ujawnić prawdę, dane muszą być wykorzystywane w sposób uczciwy i etyczny w całym łańcuchu dostaw. Oznacza to, że dane muszą być wykorzystywane w sposób uczciwy i etyczny od momentu, w którym człowiek je tworzy, definiuje, znajduje, sprawdza, pozyskuje, przygotowuje do analizy, analizuje i dzieli się spostrzeżeniami z nich lub buduje sztuczną inteligencję. systemy z nim. Co możemy zrobić, aby upewnić się, że cały ten łańcuch dostaw usług analitycznych działa w sposób etyczny i uczciwy, dzięki czemu możemy w pełni zaufać prawdzie / spostrzeżeniom, którym podlegamy? Są trzy rzeczy. Po pierwsze, potrzebujemy ram etycznych, aby zapewnić wszystkim uczestnikom, którzy umożliwią analitycznemu łańcuchowi dostaw zrozumienie wspólnego zestawu postawionych im oczekiwań operacyjnych. Aby zbudować te ramy, musimy upewnić się, że te oczekiwania mogą być łatwo i szybko zrozumiane oraz że są wystarczająco elastyczne, aby członkowie społeczności mogli zastosować się do wielu różnych sytuacji. Potrzebny jest zestaw zasad przewodnich, a nie sztywny zestaw reguł. Ponadto musimy zdać sobie sprawę, że cały ten łańcuch dostaw narzędzi analitycznych został stworzony przez ludzi, jest obsługiwany przez ludzi i będzie miał wpływ na innych ludzi. Dlatego też, kiedy definiujemy ramy etyczne, musimy to robić z socjologicznym, a nie technicznym spojrzeniem. Tak się składa, że społeczność medyczna zmagała się z podobnym zestawem uczciwości i problemów etycznych w latach 70. XX wieku w wyniku rażących uchybień w etyce przez ludzkich twórców podczas badania Tuskegee Syphilis Study. Komisja utworzona na mocy ustawy National Research Act z 1974 r. Miała za zadanie zidentyfikowanie podstawowych zasad etycznych, które powinny leżeć u podstaw prowadzenia badań biomedycznych i behawioralnych z udziałem ludzi oraz opracowanie wytycznych w celu zapewnienia że takie badania są prowadzone zgodnie z tymi zasadami. Rezultatem był Raport Belmonta. W raporcie przedstawiono trzy zasady:

Szacunek dla ludzi

Ochrona autonomii wszystkich ludzi i traktowanie ich z uprzejmością i szacunkiem oraz zezwalanie na świadomą zgodę. Badacze muszą być prawdomówni i nie oszukiwać.

Dobroczynność

Uhonorowanie filozofii "nie szkodzić" przy jednoczesnej maksymalizacji korzyści dla projektu badawczego i minimalizacji ryzyka dla badanych.

Sprawiedliwość

Zapewnienie sprawiedliwego zarządzania rozsądnymi, nieefektywnymi i dobrze przemyślanymi procedurami poprzez sprawiedliwy podział kosztów i korzyści między potencjalnych uczestników badań - i w równym stopniu.

Dostosowując te zasady do świata analityki, możemy je przedstawić jako: (1) autonomiczność - ludzie powinni mieć możliwość podejmowania autonomicznych decyzji dotyczących gromadzenia i wykorzystywania ich danych; (2) nie szkodzić; i (3) empatia i przejrzystość - czy byłbyś równie szczęśliwy będąc osobą tworzącą prawdę / spostrzeżenia dotyczące danych lub osobą, na którą wpływają działania, które tworzą prawda / spostrzeżenia, i czy możesz wyjaśnić poszkodowanym pochodzenie danych i analizy które doprowadziły do akcji?

Po drugie, potrzebujemy niezależnego nadzoru nad łańcuchem dostaw analityki, z różnorodnością myśli nadzorców. Zestaw zasad etycznych jest dobrym punktem wyjścia i dostosuje ludzi uczestniczących w łańcuchu dostaw rozwiązań analitycznych, z których większość na szczęście ma dobre intencje. Ale same zasady nie mogą powstrzymać tego jednego złego twórcy, który celowo chce zniekształcić prawdę ujawnioną przez dane, lub twórcy, który nie ma złych zamiarów, ale ma nieświadome uprzedzenia. Konsekwencje któregokolwiek z nich mogą być zanikowe dla osoby lub grupy ludzi. Aby uchronić się przed takimi konsekwencjami, potrzebujemy mechanizmu niezależnego nadzoru nad całym łańcuchem dostaw analityki. Ale sam niezależny nadzór nie może wyeliminować uprzedzeń. W tym celu musimy także zadbać o różnorodne punkty widzenia wśród nadzorców. Perspektywy naukowców społecznych współpracujących z ekspertami ds. Danych i sztucznej inteligencji mogą ujawnić konsekwencje, na które dwa ostatnie typy ekspertów mogły być ślepe, podobnie jak perspektywy tych, na których działania wynikające z danych mają lub mogą mieć wpływ. / systemy. Po trzecie, niezależny nadzór należy dostosować do szybko zmieniającego się świata cyfrowego. Niemigitalna konstrukcja każdej decyzji wymagająca zatwierdzenia przez komisję utrudniłaby szybkość i sprawność, jaką cyfrowy świat musi utrzymać. Atrakcyjnym i nowoczesnym rozwiązaniem tego problemu jest stworzenie funkcji cyfrowej, która umożliwia ekspertom ds. Danych i analiz możliwość niezależnego wykonywania pracy w każdym punkcie łańcucha dostaw analiz. A ponieważ wykonują swoją pracę, w taki sam sposób, w jaki Amazon widzi Twoją aktywność związaną z przeglądaniem i zakupy bez konieczności jawnego dostarczania tych danych do Amazon, komisja nadzorcza ma możliwość zbadania informacji o źródłach wykorzystanych danych; sposób tworzenia, aktualizowania i usuwania danych w źródłach; jakość danych z tych źródeł; konkretne obliczenia wykonane na źródłach; oraz raporty wykorzystujące obliczenia i wnioski dotyczące proponowanych działań. Jest to możliwe dzięki uchwyceniu całościowego pochodzenia dla całego łańcucha dostaw usług analitycznych oraz technologiom, które obejmują jeziora danych, katalogi danych i przygotowanie danych w połączeniu z nowoczesnym zarządzaniem danymi. Nauka o danych i sztuczna inteligencja mogą być wykorzystywane jako uzupełnienie takiego systemu technologicznego do cyfrowego zgłaszania podejrzanych zachowań komisji nadzorczej, w podobny sposób, w jaki potencjalne oszustwo może być oznaczane do dalszej analizy przez bank. Dzięki łatwym do zrozumienia i elastycznym ramom etycznym, niezależnemu nadzorowi całego łańcucha dostaw usług analitycznych, różnorodności perspektyw w ramach procesu nadzoru oraz cyfrowemu systemowi nadzoru możemy zapewnić spostrzeżenia i działania wynikające z naszych systemów sztucznej inteligencji są etyczne.

Etyka i Dane (LXXI)


W stronę algorytmicznej pokory

Oskarżony nr 3172 jest niezamężną 22-letnią kobietą. Wcześniej odsiadywała dwa miesiące w więzieniu za handel marihuaną i właśnie została aresztowana za udział w brutalnej sprzeczce publicznej ze swoim partnerem. Czy oskarżony popełni brutalne przestępstwo w okresie trzech miesięcy przed rozprawą? Aby odpowiedzieć na to pytanie, w wielu amerykańskich jurysdykcjach stosuje się systemy algorytmiczne znane jako narzędzia do wstępnej oceny ryzyka. Rozważmy jedno z najpowszechniejszych z tych narzędzi, ocenę bezpieczeństwa publicznego (PSA). Kiedy PSA widzi wysokie ryzyko, podnosi czerwoną flagę i to automatycznie wysyła oskarżonego do aresztu bez dalszej analizy ze strony sędziego w celu zakwestionowania przewidywań maszyny. Stawka jest wysoka, ponieważ tymczasowe aresztowanie często ma druzgocące konsekwencje dla pracy i bezpieczeństwa mieszkaniowego oskarżonych, w tym tych, którym później udowodniono niewinność na rozprawie. Niestety, 97% tych niszczących życie algorytmicznych czerwonych flag to w rzeczywistości fałszywe alarmy. Innymi słowy, 3% oflagowanych oskarżonych faktycznie popełniłoby brutalne przestępstwo, gdyby zostali zwolnieni, podczas gdy pozostałe 97% zostało zatrzymanych bez potrzeby. To uderzająco słaba wydajność, ale nie jest to w pewnym sensie zaskakujące. Przewidywanie przestępstwa w najbliższej przyszłości jest trudne, a maszyny nie są wyroczniami. Mogłyby jednak wnieść cenne wskazówki prognostyczne, ale tylko z intelektualną pokorą wymaganą do tego zadania. Niestety, PSA został zaprojektowany jako arogancki algorytm. Gdyby oskarżeni byli systematycznie zwalniani przed rozprawą, około 1% z nich popełniłby brutalne przestępstwo. Porównując profile tych przestępców i danego oskarżonego, PSA wypada trzykrotnie lepiej niż przypadkowe przypuszczenie: umieszcza w więzieniu tylko 33 oskarżonych na każdego wykrytego przestępcę. W rzeczywistości ograniczone dostępne dane demograficzne i sądowe są zdecydowanie niewystarczające, aby przewidzieć przestępstwo. Informacje o zdrowiu psychicznym lub stabilności mieszkaniowej byłyby bardziej przewidywalne, ale także trudne do zebrania w uczciwy i systematyczny sposób. Nawet wtedy pozostałaby pewna przypadkowość. Dwie osoby, które wyglądają identycznie jak algorytm, mogą znaleźć się w różnych sytuacjach i zareagować różnymi decyzjami. Ponadto algorytm nie może uczyć się na swoich błędach. W przypadku zatrzymania określonego oskarżonego nie ma sposobu, aby dowiedzieć się, czy rzeczywiście popełniłby przestępstwo, gdyby został zwolniony. Z natury sygnał predykcyjny jest słaby. Dlatego algorytm nigdy nie był w stanie przewidzieć przestępstw z dużą dokładnością. Błędy są nieuniknione, ale nie jest to problem sam w sobie. Podobnie jak inne nauki empiryczne, nauka o danych może radzić sobie z niepewnością poprzez przewidywanie probabilistyczne i uwzględnianie przedziałów ufności. PSA dokonuje jednak prognoz na arbitralnej skali, bez wskazania poziomu ufności lub poziomu błędów. Niektórzy usprawiedliwiają ten projekt twierdzeniem, że sędziom łatwiej jest czytać, że nie potrafią zrozumieć prawdopodobieństwa. To jest aroganckie myślenie. Obecny system nie jest prosty; jest uproszczony, co czyni go mylącym. Algorytm wprowadza w błąd sędziów, podnosząc nakazowe sygnały ostrzegawcze. Gdyby zamiast tego podał rzeczywiste prawdopodobieństwo, sędziowie wiedzieliby, że "flaga wysokiego ryzyka" w rzeczywistości oznacza "szansę około 3%". Ten projekt również zaniża zdolność sędziego do uzyskania dodatkowych informacji kontekstowych. Na przykład skromny algorytm może wskazać, że przemoc domowa jest prawdopodobnym scenariuszem ryzyka dla konkretnego oskarżonego, zachęcając sędziego do zbadania obecnego związku tego oskarżonego. W przypadku niektórych profili rekordy uczenia algorytmu mogą być ograniczone lub niespójne. Jeśli sygnał statystyczny nie jest wystarczająco silny, aby dokonać przyzwoitej prognozy, skromny algorytm wycofałby się, aby całkowicie odroczyć decyzję do sędziego. Algorytmy i ludzie to to samo, ponieważ ich wiedza nigdy nie jest kompletna ani jednolita. W związku z tym powinni uznać swoje ograniczenia. Celem stosowania algorytmów w sądzie jest usunięcie ludzkich uprzedzeń. Jest to uzasadniona obawa, ponieważ sędziowie mogą być obciążeni uprzedzeniami dotyczącymi rasy, płci, klas społecznych, a nawet tego, co jedli na lunch. Algorytmy są czasami uważane za czysto obiektywne, ale poza menu obiadowym nie są odporne na błędy. Podobnie jak w przypadku ludzi, ich uprzedzenia wynikają z niedokładnych uogólnień opartych na ich ograniczonym i niereprezentatywnym doświadczeniu świata. Przedstawienie algorytmu w amerykańskich aktach sądowych natychmiast powoduje, że Afroamerykanie są bardziej skłonni do popełniania przestępstw. Utrzymująca się w Ameryce spuścizna dyskryminacji rasowej oraz fakt, że system sądowniczy jest strukturalnie uprzedzony wobec Afroamerykanów, nie ma znaczenia dla tej machiny. Nawet jeśli pochodzenie etniczne pozwanego nie jest podane, nadal można to wywnioskować na podstawie kodu pocztowego pozwanego lub liczby występków nieletnich w aktach oskarżonego. Aby zrównoważyć ten efekt, można zaprojektować algorytmy wymuszające pewną propozycję sprawiedliwości. Na przykład poziomy błędów można ograniczyć, aby były równe w różnych grupach etnicznych. Konkretnie, to ograniczenie definiuje politykę akcji afirmatywnej: o ile bardziej tolerancyjny powinien być algorytm, rozważając czarnych oskarżonych w celu zrównoważenia dyskryminacji rasowej? Algorytmy są rozproszone z takimi parametrami, co może zmienić kluczowe kompromisy za zasłonami. Aroganckie algorytmy mogą być celowo nieprzejrzyste, aby ukryć decyzje polityczne. Najbardziej podstawowym parametrem jest ten: Ilu niewinnych jesteśmy gotowi wsadzić do więzienia, aby zapobiec popełnieniu przez jedną osobę brutalne przestępstwo? Odpowiedź - "33 niewinnych w więzieniu za każdego przestępcę" - jest ukryta w kodzie. Rzeczywiście, kto mógłby słusznie argumentować głośno, że stosunek 1:33 jest sprawiedliwy? Liczba ta została wybrana tak, aby algorytm odtworzył wskaźniki uwięzienia w obecnym systemie. Jest to jednak niewłaściwe podejście: zamiast dyskretnie automatyzować niedorzeczne standardy sądowe, algorytmy powinny ujawniać i kwestionować swoje założenia. W erze cyfrowej programy komputerowe stały się głównymi regulatorami naszych wolności - stąd powiedzenie "Kod jest prawem" . Konstrukcje algorytmiczne, zbiory szkoleniowe, wskaźniki błędów i propozycje dotyczące sprawiedliwości powinny być zatem przejrzyste, ponieważ nieprzejrzystość może być tyranią. Nauka o danych może dostarczyć cennych informacji pomagających w podejmowaniu złożonych i istotnych decyzji. Jednak nauka o danych może mieć szkodliwy wpływ na podejmowanie decyzji, gdy ukrywa złożoność problemu. Popularna mitologia dotycząca sztucznej inteligencji wyolbrzymia siłę narzędzi predykcyjnych. Jeśli algorytmy mają zastąpić lub wspierać ludzką wiedzę, powinny zachowywać się nie jak tajemniczy sędziowie z wszechmocnym prawem weta, ale raczej jak mądrzy doradcy. Tej samej staranności należy oczekiwać zarówno od maszyn, jak i od ekspertów: uzasadniać decyzje, uznawać słabe punkty i być intelektualnie pokornym. Z kolei ludzie powinni krytycznie zająć się algorytmami, wykorzystując tę istotną część swojego poznania, której sztucznej inteligencji na zawsze będzie brakować: zdrowy rozsądek.

Etyka i Dane (LXX)


W stronę algorytmicznej pokory

Oskarżony nr 3172 jest niezamężną 22-letnią kobietą. Wcześniej odsiadywała dwa miesiące w więzieniu za handel marihuaną i właśnie została aresztowana za udział w brutalnej sprzeczce publicznej ze swoim partnerem. Czy oskarżony popełni brutalne przestępstwo w okresie trzech miesięcy przed rozprawą? Aby odpowiedzieć na to pytanie, w wielu amerykańskich jurysdykcjach stosuje się systemy algorytmiczne znane jako narzędzia do wstępnej oceny ryzyka. Rozważmy jedno z najpowszechniejszych z tych narzędzi, ocenę bezpieczeństwa publicznego (PSA). Kiedy PSA widzi wysokie ryzyko, podnosi czerwoną flagę i to automatycznie wysyła oskarżonego do aresztu bez dalszej analizy ze strony sędziego w celu zakwestionowania przewidywań maszyny. Stawka jest wysoka, ponieważ tymczasowe aresztowanie często ma druzgocące konsekwencje dla pracy i bezpieczeństwa mieszkaniowego oskarżonych, w tym tych, którym później udowodniono niewinność na rozprawie. Niestety, 97% tych niszczących życie algorytmicznych czerwonych flag to w rzeczywistości fałszywe alarmy. Innymi słowy, 3% oflagowanych oskarżonych faktycznie popełniłoby brutalne przestępstwo, gdyby zostali zwolnieni, podczas gdy pozostałe 97% zostało zatrzymanych bez potrzeby. To uderzająco słaba wydajność, ale nie jest to w pewnym sensie zaskakujące. Przewidywanie przestępstwa w najbliższej przyszłości jest trudne, a maszyny nie są wyroczniami. Mogłyby jednak wnieść cenne wskazówki prognostyczne, ale tylko z intelektualną pokorą wymaganą do tego zadania. Niestety, PSA został zaprojektowany jako arogancki algorytm. Gdyby oskarżeni byli systematycznie zwalniani przed rozprawą, około 1% z nich popełniłby brutalne przestępstwo. Porównując profile tych przestępców i danego oskarżonego, PSA wypada trzykrotnie lepiej niż przypadkowe przypuszczenie: umieszcza w więzieniu tylko 33 oskarżonych na każdego wykrytego przestępcę. W rzeczywistości ograniczone dostępne dane demograficzne i sądowe są zdecydowanie niewystarczające, aby przewidzieć przestępstwo. Informacje o zdrowiu psychicznym lub stabilności mieszkaniowej byłyby bardziej przewidywalne, ale także trudne do zebrania w uczciwy i systematyczny sposób. Nawet wtedy pozostałaby pewna przypadkowość. Dwie osoby, które wyglądają identycznie jak algorytm, mogą znaleźć się w różnych sytuacjach i zareagować różnymi decyzjami. Ponadto algorytm nie może uczyć się na swoich błędach. W przypadku zatrzymania określonego oskarżonego nie ma sposobu, aby dowiedzieć się, czy rzeczywiście popełniłby przestępstwo, gdyby został zwolniony. Z natury sygnał predykcyjny jest słaby. Dlatego algorytm nigdy nie był w stanie przewidzieć przestępstw z dużą dokładnością. Błędy są nieuniknione, ale nie jest to problem sam w sobie. Podobnie jak inne nauki empiryczne, nauka o danych może radzić sobie z niepewnością poprzez przewidywanie probabilistyczne i uwzględnianie przedziałów ufności. PSA dokonuje jednak prognoz na arbitralnej skali, bez wskazania poziomu ufności lub poziomu błędów. Niektórzy usprawiedliwiają ten projekt twierdzeniem, że sędziom łatwiej jest czytać, że nie potrafią zrozumieć prawdopodobieństwa. To jest aroganckie myślenie. Obecny system nie jest prosty; jest uproszczony, co czyni go mylącym. Algorytm wprowadza w błąd sędziów, podnosząc nakazowe sygnały ostrzegawcze. Gdyby zamiast tego podał rzeczywiste prawdopodobieństwo, sędziowie wiedzieliby, że "flaga wysokiego ryzyka" w rzeczywistości oznacza "szansę około 3%". Ten projekt również zaniża zdolność sędziego do uzyskania dodatkowych informacji kontekstowych. Na przykład skromny algorytm może wskazać, że przemoc domowa jest prawdopodobnym scenariuszem ryzyka dla konkretnego oskarżonego, zachęcając sędziego do zbadania obecnego związku tego oskarżonego. W przypadku niektórych profili rekordy uczenia algorytmu mogą być ograniczone lub niespójne. Jeśli sygnał statystyczny nie jest wystarczająco silny, aby dokonać przyzwoitej prognozy, skromny algorytm wycofałby się, aby całkowicie odroczyć decyzję do sędziego. Algorytmy i ludzie to to samo, ponieważ ich wiedza nigdy nie jest kompletna ani jednolita. W związku z tym powinni uznać swoje ograniczenia. Celem stosowania algorytmów w sądzie jest usunięcie ludzkich uprzedzeń. Jest to uzasadniona obawa, ponieważ sędziowie mogą być obciążeni uprzedzeniami dotyczącymi rasy, płci, klas społecznych, a nawet tego, co jedli na lunch .

Etyka i Dane (LXIX)


Przejrzystość danych: to, czego nie wiesz, może cię zranić

Przejrzystość danych jest jednym z najważniejszych aspektów dyskusji na temat etycznej nauki o danych. Przejrzystość w nauce o danych oznacza przede wszystkim skuteczne informowanie innych o gromadzonych danych i sposobie ich wykorzystania. Brak przejrzystości może mieć niezamierzone konsekwencje dla firmy i może mieć trwały wpływ na klientów. Niezależnie od tego, czy opracowujesz analitykę dla klientów wewnętrznych, czy udostępniasz możliwości klientom zewnętrznym, przejrzystość danych musi być integralną częścią rozmowy. Możliwości analizy predykcyjnej są niezwykle cenne i mogą odgrywać strategiczną rolę w osiągnięciu kolejnego poziomu rozwoju organizacji. Udostępniając funkcje, które będą używane tylko wewnętrznie, jednym z Twoich głównych obowiązków jest poinformowanie interesariuszy o tym, z jakich danych korzystasz i jak będą one wykorzystywane. Jednak informowanie innych o gromadzeniu danych i przeznaczeniu nie wystarczy. Ważne jest, aby pójść o krok dalej i przeanalizować potencjalne rezultaty dostarczanych przez nas narzędzi. Istnieją zastosowania analityki predykcyjnej, które wymagają analizy etycznej. Na przykład firma Target Corporation wykorzystała model predykcyjny do oceny prawdopodobieństwa zajścia w ciążę do celów marketingowych. Konsekwencje modelu prognostycznego Targeta sprawiły, że ojciec dowiedział się, że jego nastoletnia córka jest w ciąży, zanim go o tym poinformowała. Chociaż tego typu modele są szeroko stosowane w analityce marketingowej, przedmiotem przypadku użycia celu był szczególnie wrażliwy na konsumentów i spowodował niezamierzoną kontrolę firmy. Szybko stało się to klasycznym przykładem analizy etycznej wymaganej przed zastosowaniem działań do zdobytych spostrzeżeń. Znaczenie przejrzystości danych dla klientów zewnętrznych stało się jednym z najważniejszych problemów etycznych w tej dziedzinie. Przeciętny konsument jest coraz bardziej świadomy dostępu, jaki dają firmom do swoich danych osobowych. Dla wielu ta świadomość powoduje zmartwienie i osłabia zaufanie. W niektórych przypadkach konsumenci są zadowoleni z analizy kosztów i korzyści umożliwiającej firmom korzystanie z ich danych. Z drugiej strony wielu konsumentów uważa, że koszt korzystania z aplikacji takich jak FaceApp, która wykorzystuje rozpoznawanie twarzy, aby umożliwić użytkownikom spojrzenie na siebie inaczej, nie uzasadnia korzyści. FaceApp jest jednym z bardziej nagłośnionych przykładów tego, jak przeciętny konsument nie jest świadomy tego, w jaki sposób wykorzystywane są jego dane. Ważne jest, aby zdobyć zaufanie swojego klienta. Jest to konieczne, aby kontynuować korzystanie przez nich z Twoich produktów lub usług. Praktykowanie skutecznej przejrzystości danych pozwala konsumentowi świadomie wyrazić zgodę na gromadzenie i wykorzystywanie jego danych. Może to złagodzić potencjalną przyszłą kontrolę. Analiza najlepszej metody komunikacji pod kątem przejrzystości danych musi być istotną częścią procesu rozwoju. Nie ma jednej metody skutecznego komunikowania przejrzystości danych; każda branża jest inna. Ważne jest, aby mieć wdrożoną skuteczną strategię przesyłania danych. Nauka o danych jest szybko wykorzystywana w obszarach, w których nie była tradycyjnie stosowana. Oznacza to, że może zaistnieć potrzeba wykorzystania nowych informacji i uzyskanych spostrzeżeń w inny sposób niż wcześniej, aw niektórych przypadkach wcale. Target i FaceApp pokazały nam, że wewnętrzna i zewnętrzna przejrzystość danych są równie ważne. Brak któregokolwiek z nich może być szkodliwy nie tylko dla Twojej firmy, ale także dla osób fizycznych. Strategia i analiza dotycząca skutecznej komunikacji w zakresie przejrzystości danych musi być priorytetem, ponieważ nadal wkraczamy w ewolucję cyfrową.

Etyka i Dane (LXVIII)


"Wszystkie modele są złe". Co z tym robimy?

Uczenie maszynowe będzie nadal zmieniać każdy aspekt naszego życia: sposób, w jaki współdziałamy ze sobą, sposób, w jaki się uczymy i rozwijamy, a także sposób, w jaki wchodzimy w interakcje ze społeczeństwem. Jednak te systemy co jakiś czas nieumyślnie ulegną awarii. Wszystkie modele są przybliżeniami. Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne.- George E. P. Box

Innymi słowy: żaden model, uczenie maszynowe lub rozwiązanie oparte na sztucznej inteligencji nie mogą być poprawne przez cały czas. Jeśli zgodzimy się, że niepowodzeń nie da się uniknąć, to naszym głównym zmartwieniem jest skupienie się na procesach i kontrolach, które mogą skutecznie i skutecznie zminimalizować negatywny wpływ na osoby. Struktura zarządzania uczeniem maszynowym musi obejmować rozwiązania od powstania pomysłu do wycofania z eksploatacji, a także musi:

1. Zapobiegać rozwiązywaniu problemów przez projektowanie
2. Naprawiać wszelkie problemy w szybki, przejrzysty i odpowiedzialny sposób
3. Ciągłe ulepszanie ram zarządzania
Przyjrzyjmy się każdemu z tych wymagań.

1. Zapobiegaj

Wysiłki mające na celu zminimalizowanie negatywnych skutków rozpoczynają się od wewnętrznego zapewnienia, że rozwiązanie będzie zgodne z zasadami uczciwości. Jednak zdefiniowanie sprawiedliwości wiąże się z wieloma wyzwaniami. Poszczególne osoby nie tylko różnie postrzegają to, co jest sprawiedliwe, ale istnieje również ogromna różnorodność poglądów na całym obszarze geograficznym. Istnieje potrzeba powołania organów zawodowych, które będą aktywnie rozwijać ujednoliconą wizję tego, co oznacza sprawiedliwość. Przy odpowiedniej definicji i jasności co do tego, co stanowi uczciwe rozwiązanie, "sprawiedliwość" może stać się podstawowym elementem projektu rozwiązania uczenia maszynowego. A jeśli zamiast osadzać nasze własne uprzedzenia, zastosujemy "różnorodność z założenia", może się okazać, że ostateczny wpływ uczenia maszynowego będzie pozytywny. Każda zasada lub reguła, którą może określić organizacja zawodowa lub wewnętrzne ramy zarządzania, nadal jednak podlega indywidualnej interpretacji. Podział obowiązków i formalny proces przestrzegania tych zasad to klucz do sukcesu.

2. Naprawiaj

Ponieważ nie jesteśmy w stanie całkowicie wyeliminować negatywnych skutków dzięki prewencji w fazie projektowania, ważne jest, aby proces usuwania wszelkich awarii w przejrzysty i przyspieszony sposób był zdefiniowany i był podstawą każdego wdrożenia produktu lub usługi. Podstawowym elementem kultury każdej organizacji powinna być odpowiedzialność, odpowiedzialność i przejrzystość ART. ART należy przełożyć na cele wszystkich osób zaangażowanych w rozwój i utrzymanie rozwiązań uczenia maszynowego. Należy zachęcać do podnoszenia kwestii etycznych z radością w związku z jakimkolwiek wewnętrznym lub zewnętrznym zastosowaniem uczenia maszynowego i stosować taką samą ochronę, jak sygnalistom. W rzeczywistości obowiązek zgłaszania problemów etycznych powinien spoczywać nie tylko na pracownikach wewnętrznych, ale także na zewnętrznych interesariuszach, czyli klientach, dostawcach, rządzie i tak dalej. Zarówno organizacje, które opracowują rozwiązania uczenia maszynowego, jak i organizacje zawodowe muszą umożliwić wszystkim zainteresowanym stronom zgłaszanie swoich obaw. Proces mógłby być podobny do procesu RODO UE, w którym osoby fizyczne mają prawo zażądać informacji od firm, aby zrozumieć, jakie dane osobowe przechowują. Z kolei organizacje są zobowiązane do udzielenia odpowiedzi na takie prośby w ciągu miesiąca. Okres ten jest wystarczający, aby przeprowadzić ocenę "zasad etycznych" i umożliwić organizacji zapobieganie dalszemu negatywnemu wpływowi na jednostki.

3. Popraw

Aplikacje uczenia maszynowego, a także społeczeństwo, będą nadal ewoluować. W rezultacie definicja sprawiedliwości i ramy zarządzania będą musiały ewoluować jednocześnie. Wszystkie organizacje powinny zatem zapewnić elastyczność, aby umożliwić ciągły przegląd i ulepszanie rozwiązań uczenia maszynowego.

Etyka i Dane (LXVII)


Czy chatboty powinny spełniać wyższe standardy etyczne niż ludzie?

Widzieliśmy eksplozję chatbotów na rynku. Sztuczna inteligencja zakorzeniła się w codziennej strukturze naszego życia. Branże usługowe zwróciły się do chatbotów opartych na sztucznej inteligencji, aby zarządzać interakcjami z klientami, zwiększając szybkość i jakość rozwiązywania przy jednoczesnym zmniejszeniu kosztów. Milenialsi coraz częściej wolą wchodzić w interakcje z chatbotami niż ludźmi. Kiedy stosujemy chatboty w naszym życiu, najważniejsza jest ocena roli, jaką odgrywają we wzmacnianiu i utrwalaniu społecznych uprzedzeń i stereotypów. Wraz z rozprzestrzenianiem się chatbotów tworzących nowy paradygmat współpracy ludzi i maszyn, pojawia się interesujące pytanie etyczne: czy powinniśmy utrzymywać chatboty na wyższym poziomie etycznym niż my sami? Podstawowymi chatbotami są modele przetwarzania języka naturalnego (NLP) złożone z algorytmów głębokiego uczenia zwanych sieciami neuronowymi. Modele uczenia głębokiego mają możliwość dokładnego odwzorowywania złożonych relacji na podstawie niechlujnych danych - zarówno w tekście, jak i na obrazach. Jakie są zatem popularne modele NLP, takie jak konwolucyjne sieci neuronowe (CNN), rekurencyjne sieci neuronowe (RNN) i sieci pamięci długookresowej (LSTM) w chatbotach? Są to matematycznie definiujące relacje między słowami, które są jawnie lub niejawnie zdefiniowane w korpusie szkoleniowym.

Przykłady chatbotów dziedziczących ludzkie uprzedzenia

Wystąpiło kilka niepokojących błędów algorytmu NLP. Tajne narzędzie rekrutacji AI firmy Amazon wykazało uprzedzenia wobec kobiet. Niesławny chatbot Tay14 Microsoftu, eksperyment z uczeniem maszynowym w interakcjach społecznych, musiał zostać wycofany z użytku, gdy wykrył serię rasistowskich obelg. Te historie nas szokują i oburzają. Szybko obwiniamy firmę lub programistę AI. Jednak te modele NLP są trenowane na danych generowanych przez człowieka. Modele NLP odsłaniają jedynie istniejące uprzedzenia ludzkie, których nauczyliśmy się na podstawie danych szkoleniowych. Wpadki NLP są odzwierciedleniem ciemnej strony ludzkości.

Jak chatboty utrwalają ludzkie uprzedzenia

Tak jak kodeks etyki dziecka jest kształtowany przez jego rodziców i środowisko, tak modele uczenia maszynowego uczą się na podstawie danych szkoleniowych wygenerowanych przez człowieka, określonych przez ich twórców. Podobnie jak ludzie stają się mądrzejsi wraz z doświadczeniem, modele uczenia maszynowego wymagają dużych zbiorów szkoleniowych, aby nauczyć się solidnych i możliwych do uogólnienia relacji. I tak jak dzieci dorastają i przekazują swój kodeks etyczny, a także swoje uprzedzenia, maszyny również utrwalą swój kodeks etyczny i swoje uprzedzenia poprzez interakcje z przyszłymi pokoleniami. Różnica polega na tym, że te maszyny są nieśmiertelne i będą przekraczać pokolenia w czasie. Dlatego nasze chatboty muszą spełniać najwyższe standardy etyczne i muszą korygować błędy w danych szkoleniowych generowanych przez omylnych ludzi.

Sposoby korygowania uprzedzeń w chatbotach

W ciągłym dążeniu do doskonałości musimy przyznać się do naszej omylności i starać się ją naprawić w przyszłych pokoleniach. Z perspektywy modelowania NLP istnieją trzy metody korekcji uprzedzeń, które pomagają chatbotom przezwyciężyć ludzkie uprzedzenia w danych szkoleniowych. Jedną z opcji jest całkowite usunięcie tendencyjnej koncepcji z modelu NLP. Na przykład, w ramach przygotowań do modelu NLP, słowa i frazy w korpusie szkoleniowym są mapowane na wektor liczb rzeczywistych zwany osadzaniem słów. Matematycznie od tych wektorów można odjąć płeć. Jednak całkowite usunięcie pojęcia płci może okazać się niepraktyczne w zastosowaniach, w których jest to kluczowy predyktor lub zmienna segmentacyjna. Alternatywą dla usunięcia stereotypów związanych z płcią, przy jednoczesnym zachowaniu pojęcia płci, jest po prostu usunięcie stereotypów związanych z płcią, których nie chcemy (np. Recepcjonistka) i zatrzymanie tych, których robimy (np. Dyrektor generalny). Wreszcie, dodatkowe dane mogą być generowane syntetycznie przez odwracanie zaimków (tj. "On" i "ona"), tak aby model nie uczył się żadnego niezamierzonego błędu wynikającego z braku reprezentacji w danych szkoleniowych.

Dlaczego chatboty wymagają ciągłego uczenia się

Widzimy, że nasz kodeks etyczny nieustannie ewoluował przez tysiące lat. Ostatnio poczyniono postępy w zakresie praw obywatelskich, praw kobiet i ruchu LGBT. Chociaż podstawowe zasady etyki nie zmieniły się zasadniczo od czasów Sokratesa, praktyczne zastosowanie etyki jest płynne i stale ewoluuje wraz ze społeczeństwem. Jeśli zakodujemy dzisiejsze uprzedzenia na nieśmiertelnych maszynach, zanieczyścimy umysły przyszłych pokoleń uprzedzeniami poprzednich pokoleń, spowalniając etyczną ewolucję rasy ludzkiej. Zamiast tego możemy wykorzystać techniki, które pomogą chatbotom pokonać dzisiejsze ludzkie uprzedzenia, aby z kolei uczynić ludzką rasę lepszą, mówiąc etycznie!

Etyka i Dane (LXVI)


Automatyczne sprawdzanie naruszeń etyki

Nauka o danych lubi czasami być dość meta. Istnieje nacisk na wykorzystywanie modeli uczenia maszynowego do sprawdzania działań naukowców zajmujących się danymi lub innych modeli uczenia maszynowego pod kątem naruszeń etyki. Obserwatorzy są obserwowani przez model uczenia maszynowego. Często jestem pytany, czy model systemów uczących się może automatycznie sprawdzać naruszenia zasad etyki. To pytanie zwykle pochodzi od firm, które martwią się samą liczbą zapytań i ogólnym odkryciem, które musi przeprowadzić analityk danych. Dzięki demokratyzacji danych jeszcze więcej osób będzie miało dostęp do danych, co oznacza jeszcze więcej możliwych naruszeń etyki. Zespół zarządzający lub radca prawny praktycznie nie będzie mógł przejrzeć każdego zapytania. Moim zdaniem nie można polegać na modelu uczenia maszynowego w celu wykrycia naruszeń etyki. Osoby, które piszą model uczenia maszynowego, to te same, które maszyna będzie obserwować pod kątem potencjalnych naruszeń. Jeśli to nie oni to napisali, będą mieli wystarczająco dużo doświadczenia, aby wiedzieć, jak nie oznaczać ich zapytania jako naruszenia zasad etyki. Szczególnie naukowcy zajmujący się danymi będą w stanie zgadnąć, które algorytmy są używane, i będą wiedzieć, jaka jest słabość każdego algorytmu. Mimo wszystko narażenie firmy na naruszenia zasad etyki pozostaje takie samo. Coś trzeba zrobić. Co może zrobić firma? Zanim firma będzie mogła nawet podjąć próbę ręcznego lub automatycznego sprawdzenia pod kątem naruszeń zasad etyki, będzie musiała scentralizować kod i zapytania, aby były one rejestrowane w jednym miejscu. To jest coś, co zespół inżynierów danych musiałby wprowadzić. Bez jednego miejsca do rejestrowania wszystkich zapytań i wykonywania kodu będzie zbyt wiele jednorazowych lokalizacji, w których można będzie przeprowadzić testy. Umożliwiłoby to łatwe obejście logowania, gdy ktoś jest naprawdę zdeterminowany, aby zachowywać się nieetycznie. Gdy wszystkie zapytania i wykonanie kodu zostaną scentralizowane, zespół zarządzający i radca prawny mogą zacząć szukać naruszeń. W przypadku zapytań SQL zamiar i wyniki będą stosunkowo łatwe do przejrzenia. W przypadku kodu proces przeglądu może być znacznie trudniejszy i bardziej czasochłonny. Dzieje się tak, ponieważ zespół zarządzający i radca prawny mogą nie wiedzieć, jak czytać kod. Nawet jeśli wiedzą, jak kodować, intencja i wyniki kodu mogą nie być łatwo widoczne - kod można nawet zaciemnić, aby ukryć ukrytą za nim intencję. Ponadto sam kod może nie być dostępny lub wpisany do kontroli źródła, aby można było odczytać dokładny kod, który został uruchomiony. Myślę, że jedynym realnym rozwiązaniem jest zatrudnienie dobrych ludzi, przeszkolenie ich w zakresie tego, co jest, a czego nie można robić z danymi firmy, oraz wyrywkowe sprawdzanie ich kodu i zapytań. Sprawdzanie każdego fragmentu kodu po prostu nie jest realistycznym podejściem. Obie alternatywy, które pozwalają uniknąć sprawdzania kodu, są nie do utrzymania. Jedną z opcji jest to, aby nigdy nie przekazywać danych w ręce ludzi ze strachu przed naruszeniem zasad etyki - w takim razie po co w ogóle mieć strategię dotyczącą danych? Inną opcją jest bezwarunkowe zaufanie do wszystkiego, co robią twoi ludzie, i liczenie na to, co najlepsze. Myślę, że najlepsza opcja leży gdzieś pośrodku.

Etyka i Dane (LXV)


Użyj wyjaśnień niezależnych od modelu, aby znaleźć odchylenie w modelach czarnej skrzynki

Konieczność rzucenia światła na nieprzejrzystość modeli „czarnych skrzynek” jest oczywista: art. 15 i 22 ogólnego rozporządzenia UE o ochronie danych (2018), zasady OECD dotyczące sztucznej inteligencji (2019) oraz zaproponowana przez Senat USA odpowiedzialność algorytmiczna Act to kilka przykładów wskazujących, że interpretowalność uczenia maszynowego wraz z odpowiedzialnością i uczciwością uczenia maszynowego już (lub powinna) stać się integralną cechą każdej aplikacji, która podejmuje zautomatyzowane decyzje. Ponieważ wiele organizacji będzie zobowiązanych do przedstawienia wyjaśnień dotyczących decyzji dotyczących ich automatycznych modeli, będzie ogromna potrzeba, aby organizacje strony trzeciej oceniały możliwość interpretacji, ponieważ zapewnia to dodatkowy poziom integralności i obiektywizmu w całym procesie audytu. Co więcej, niektóre organizacje (zwłaszcza start-upy) nie będą miały zasobów do rozwiązywania problemów z interpretacją, co sprawi, że audytorzy zewnętrzni będą niezbędni. W ten sposób pojawiają się jednak problemy z własnością intelektualną, ponieważ organizacje nie będą chciały ujawniać żadnych informacji o szczegółach swoich modeli. Dlatego wśród szerokiej gamy metod interpretowalności, podejścia niezależne od modelu (tj. Metody, które nie uwzględniają szczegółów modelu) są uważane za odpowiednie do tego celu. Oprócz wyjaśnienia przewidywań modelu czarnej skrzynki, interpretowalność może również dostarczyć nam wglądu w błędne zachowanie naszych modeli, które może być spowodowane niepożądanymi wzorcami w naszych danych. W tym artykule przeanalizujemy przykład, w którym interpretowalność pomaga nam zidentyfikować uprzedzenia ze względu na płeć w naszych danych przy użyciu metody niezależnej od modelu, która wykorzystuje modele zastępcze i wartości Shapleya. Używamy zbioru danych o braku klientów kart kredytowych, który zawiera informacje (czynniki demograficzne, dane kredytowe, historię płatności i wyciągi z rachunków) o 30000 klientach kart kredytowych, przy czym etykieta docelowa to czy zalegali z kolejną płatnością (tj. W Październik 2005). Poniższy rysunek przedstawia klientów banków, którzy nie wywiązują się ze zobowiązań i nie wnoszą do banku należności, według płci; lewy i środkowy słupek w każdej grupie przedstawia oryginalne rozkłady klientów płci żeńskiej i męskiej, natomiast prawy słupek w każdej grupie przedstawia nowo skonstruowaną tendencyjną dystrybucję klientów płci męskiej. Zniekształcamy zbiór danych, losowo wybierając 957 mężczyzn, którzy zalegali z płatnością (tj. Jedną trzecią ogólnej liczby mężczyzn, którzy zalegali z płatnością) i zmieniamy ich etykietę. Tworzy to nowy, tendencyjny zbiór danych, obejmujący 34% mężczyzn i 66% kobiet niewywiązujących się z zobowiązań oraz 41% mężczyzn i 59% kobiet niebędących przestępcami. Następnie usuwamy cechę płci ze zbioru danych i bierzemy prognozy modelu czarnej skrzynki wytrenowanej na tym obciążonym zbiorze danych (którego strukturę jesteśmy obojętni). Następnie trenujemy zastępczy model XGBoost, z którego wyodrębniamy wartości Shapleya, które pomagają nam wyjaśnić przewidywania pierwotnego modelu. Mówiąc dokładniej, używamy wartości Shapleya, aby wskazać najważniejsze cechy, a następnie używamy ich w objaśnieniach za pomocą prostych zdań w języku naturalnym. Badamy wyjaśnienia fałszywie negatywnej prognozy dotyczącej klienta płci męskiej (tj. Fałszywie przewidywanej jako osoba niepowodująca błędów) oraz fałszywie pozytywnej prognozy dotyczącej klienta płci żeńskiej (tj. Fałszywie przewidywanej jako osoba wnosząca o popełnienie błędu). Oboje są niezamężnymi absolwentami uniwersytetu z podobnymi limitami kredytowymi. Jednak klient płci męskiej opóźnił ostatnie cztery płatności, podczas gdy kobieta opóźniła tylko ostatnią. W przypadku klienta płci męskiej opóźnienie we wrześniowej płatności miało negatywny wpływ na poziomie 33% (tj. Przyczynił się do „niewykonania zobowiązania”). Jednak wbrew intuicji opóźnienie w spłacie sierpniowej miało pozytywny wpływ. W przypadku klientki dwumiesięczne opóźnienie we wrześniu również miało negatywny wpływ, ale w znacznie większym odsetku (47%) w porównaniu z pięciomiesięcznym opóźnieniem klienta płci męskiej (33%). Chociaż cecha płci nie została uwzględniona w treningu modelu, za pomocą wyjaśnień zaobserwowaliśmy, że uprzedzenia ze względu na płeć zostały zakodowane w innych cechach (np. Pozytywny wkład w opóźnienie płatności dla klienta płci męskiej). Ponadto, obserwując procenty wpływu w wyjaśnieniach, wykryliśmy ostrzejsze traktowanie klientki przez model (np. Większy negatywny wpływ mniejszego opóźnienia płatności). To dziwne zachowanie powinno nas zaalarmować i zmotywować do uzyskania lepszej próbki domyślnych. Podsumowując, w przypadkach, gdy zbiór danych zawiera prawdziwe osoby, ważne jest, aby upewnić się, że model nie dyskryminuje jednej grupy względem innych. Wyjaśnienia pozwalają nam wykryć błąd, nawet jeśli jest on ukryty, wskazać niezamierzone wzorce decyzyjne naszego modelu czarnej skrzynki i zmotywować nas do poprawienia naszych danych.

Etyka i Dane (LXIV)


Etyczny dylemat interpretowalności modelu

Postęp w nauce o danych jest w dużej mierze napędzany przez coraz lepsze wyniki predykcyjne coraz bardziej złożonych modeli "czarnych skrzynek". Jednak te korzyści predykcyjne odbyły się kosztem utraty zdolności do interpretacji relacji uzyskanych między predyktorami a celem (celami) modelu, co doprowadziło do niewłaściwego zastosowania i kontrowersji publicznych. Te wady pokazują, że interpretowalność jest w rzeczywistości kwestią etyczną; Naukowcy zajmujący się danymi powinni dążyć do wdrożenia dodatkowych metod interpretowalności, które utrzymają wydajność predykcyjną (złożoność modelu), jednocześnie minimalizując jego szkody. Każde badanie literatury naukowej lub popularnej na temat "sztucznej inteligencji" lub "nauki o danych" pokazuje, jak wielką wagę przywiązuje się do maksymalizacji wydajności predykcyjnej. Przecież niedawne przełomy w projektowaniu modeli i wynikające z nich ulepszenia wydajności predykcyjnej doprowadziły do modeli przewyższających wydajność lekarzy w wykrywaniu wielu problemów medycznych i przewyższających zdolność czytania ze zrozumieniem. Te przełomy stały się możliwe dzięki przejściu z modeli liniowych do modeli czarnej skrzynki, takich jak Deep Neural Networks (DNN) i drzewa ze wzmocnieniem gradientowym (np. XGBoost). Zamiast używać liniowych przekształceń cech do generowania prognoz, te modele czarnoskrzynkowe wykorzystują złożone, nieliniowe transformacje cech do generowania prognoz o wyższej dokładności. Ze względu na złożoną matematykę, która się za nimi kryje, te modele czarnej skrzynki przyjmują rolę wyroczni, wytwarzając prognozy bez dostarczania zrozumiałych dla człowieka wyjaśnień ich wyników. Chociaż prognozy te są często dokładniejsze niż modele liniowe, odejście od wbudowanej możliwości interpretacji modeli liniowych może stanowić wyzwanie. Na przykład niemożność zinterpretowania reguł decyzyjnych modelu może utrudnić zdobycie zaufania użytkowników, klientów i organów regulacyjnych, nawet w przypadku modeli, które poza tym są dobrze zaprojektowane i skuteczne. Zrezygnowana interpretowalność modelu stwarza również dylemat etyczny dla nauk ścisłych. Poprawiając naszą zdolność przewidywania stanu świata, modele czarnej skrzynki straciły część swojej zdolności do pomagania nam w zrozumieniu rozumowania motywującego te prognozy. Całe poddziedziny ekonomii, medycyny i psychologii oparły swoje istnienie na pomyślnym przełożeniu interpretacji modelu liniowego na zalecenia polityczne. W przypadku tych zadań wydajność predykcyjna jest często drugorzędna w stosunku do badania relacji utworzonych przez model między jego predyktorami a przewidywanymi elementami. Skoncentrowanie się wyłącznie na wydajności predykcyjnej zneutralizowałoby naszą wiedzę w tych dziedzinach i może uniemożliwić przyszłe odkrycia, które w przeciwnym razie zostałyby wyciągnięte z bardziej przejrzystych modeli. Poza polityką publiczną i nauką, rezygnacja z interpretowalności modelu postawiła bardziej bezpośrednie wyzwania. Niewłaściwie stosowane modele czarnych skrzynek w służbie zdrowia, systemie prawnym i korporacyjnych procesach zatrudniania w niezamierzony sposób zaszkodziły zarówno ludziom, jak i organizacjom, dla których zostały stworzone. W takich przypadkach przewidywania z czarnych skrzynek były wyraźnie niedokładne; jednak debugowanie i wykrywanie potencjalnych problemów przed wdrożeniem było trudne lub niemożliwe, biorąc pod uwagę charakter modeli. Takie przypadki, co zrozumiałe, doprowadziły do publicznych kontrowersji dotyczących etyki nauki o danych, a także wezwań do silniejszych regulacji dotyczących algorytmicznego gromadzenia danych, przejrzystości i uczciwości. Wyważenie złożoności i interpretowalności modelu jest z pewnością wyzwaniem. Na szczęście istnieje kilka metod interpretowalności, które pozwalają naukowcom zajmującym się danymi zrozumieć, do pewnego stopnia, wewnętrzne działanie złożonych modeli czarnoskrzynkowych, których inaczej nie da się poznać. Zastosowanie tych metod może pozwolić na utrzymanie lepszej wydajności predykcyjnej arbitralnych modeli czarnej skrzynki, jednocześnie odzyskując znaczną część utraconej interpretowalności poprzez odejście od modeli liniowych. Poszczególne metody interpretacji mogą pełnić różnorodne funkcje. Na przykład globalne metody interpretacji, takie jak wykresy częściowych zależności (PDP), mogą zapewnić wizualizacje diagnostyczne dla średniego wpływu cech na przewidywania. Wykresy przedstawiają ilościowe relacje między cechami wejściowymi i wyjściowymi modeli czarnoskrzynkowych i pozwalają na ludzkie interpretacje podobne do tego, w jaki sposób można wykorzystać współczynniki z modelu liniowego. Metody lokalne, takie jak wartości Shapleya, mogą wyjaśnić wpływ określonych wartości cech na indywidualne prognozy, zwiększając zaufanie użytkowników, pokazując, w jaki sposób model opiera się na określonych cechach. Wysiłki związane z debugowaniem modeli są również prostsze dzięki zwiększonemu wglądowi, jaki pozwalają te metody, wskazując możliwości zwiększenia wydajności nawet modeli czarnoskrzynkowych, które mogą już działać dobrze. Etyczna nauka o danych z pewnością obejmuje więcej niż tylko możliwość interpretacji wewnętrznego funkcjonowania i wyników modelu. Jednak argumentacja, dlaczego interpretowalność modelu powinna być częścią najlepszych praktyk etycznych, jest nieodparta. Naukowcy zajmujący się danymi, integrując metody interpretowalności w swoich modelach czarnej skrzynki, poprawiają należytą staranność etyczną w swojej pracy; w ten sposób można zachować zdolność interpretacji modelu, jednocześnie wykorzystując ogromny potencjał modeli czarnoskrzynkowych.

Etyka i Dane (LXIII)


Ramy zarządzania etyką w nauce o danych: zarządzanie ryzykiem modeli

Ponieważ naukowcy zajmujący się danymi pracują nad zrozumieniem etyki i implikacji swoich modeli, potrzebna jest struktura zarządzania. Na szczęście ramy zarządzania ryzykiem modeli (MRM) wyłaniające się z branży usług finansowych można rozszerzyć o etykę. Modele z różnych branż, w tym modele przeglądów życiorysów, modele recydywy i modele płatności za opiekę zdrowotną, mogą być stronnicze wobec różnych użytkowników lub grup chronionych i skutkować słabym rozgłosem dla każdej korporacji, która z nich korzysta. Ponieważ naukowcy zajmujący się danymi opracowują metody zarządzania stronniczością, MRM może być przydatne do dokumentowania i zapewniania przestrzegania najlepszych praktyk. Skupiam się tutaj na zastosowaniu procesów MRM do matematycznych błędów modelu; jednak ramy MRM mają również zastosowanie, gdy rozszerzają się na sprawiedliwość i ogólne konsekwencje etyczne nauki o danych. Mówiąc najprościej, MRM to proces, który przegląda i monitoruje rozwój i operacje modelu. Obejmuje badanie jakości danych, poprawności matematycznej, jakości prognoz, właściwego wykorzystania i ciągłego monitorowania, a wszystko to poprzez niezależny przegląd i walidację. W każdym z tych obszarów odchylenie może wkradać się do przewidywań modelu.

Dane

Jeśli dane są obciążone na początku (jak większość danych), MRM ma kontrole i wyważenia, aby zapewnić, że jak najwięcej błędów zostanie usuniętych poprzez zarządzanie danymi wejściowymi poprzez selektywne próbkowanie, zapewnienie reprezentatywnych danych i inne metody. Starsze metody usuwania chronionych zmiennych są nadal konieczne, ale już nie wystarczają, ponieważ inne skorelowane zmienne spowodują powrót błędu do prognoz.

Matematyka

Ważne jest, aby zrozumieć konsekwencje technik matematycznych wykorzystywanych podczas opracowywania modeli. Na przykład może być ważne, aby matematyka pokazała, dlaczego uzyskano określony wynik. Wyjaśnialność (szczególnie w przypadku modeli uważanych niegdyś za "czarne skrzynki", takich jak sieci neuronowe) staje się krytyczna dla umożliwienia niektórych przypadków użycia i dlatego jest wymagana podczas walidacji i produkcji.

Wydajność

Badając jakość prognoz modelu, MRM może zapewnić nie tylko zbadanie całego zbioru danych, ale także zapewnienie możliwie największego zbliżenia wyników dla chronionych podgrup. Może to spowodować rozstrojenie ogólnych wyników, aby osiągnąć bardziej bezstronny wynik. MRM powinno wymagać debaty i wewnętrznej przejrzystości wokół tych wyborów. Jedna uwaga: chociaż chronione zmienne nie powinny być używane podczas programowania, powinny być dostępne podczas walidacji, aby określić, czy występuje błąd w wydajności.

Właściwe użytkowanie
Właściwe zastosowanie ma miejsce, gdy MRM ogranicza ponowne wykorzystanie modeli poza danymi i założeniami poczynionymi podczas opracowywania. Ponowne wykorzystanie modeli sprawia, że naukowcy zajmujący się danymi są znacznie bardziej wydajni; MRM zapewnia, że takie ponowne wykorzystanie nie powoduje rozważań etycznych. Na przykład, czy model opracowany w Azji ma zastosowanie w Stanach Zjednoczonych, gdzie ważne są różne chronione zmienne? Czasami pytania i kontrole stawiane przez MRM są łatwe, a czasami nie. Zapewnienie, że pytania są zadawane i udzielane odpowiedzi, znacznie przyczynia się do ustanowienia bardziej etycznych modeli.

Monitorowanie

Jedną z ważniejszych kontroli procesu w MRM jest monitorowanie wydajności modelu, ponieważ wydajność modelu będzie dryfować. Dzieje się tak zarówno w przypadku modeli statycznych, jak i tych często strojonych automatycznie, chociaż w pierwszym przypadku osiągi ulegają dryfowaniu, aw drugim parametry ulegają zmianie. Gdy modele dryfują, odchylenie ma tendencję do powrotu do wydajności. Dodanie kontroli odchylenia, a także kontroli wydajności podczas monitorowania modelu umożliwi przebudowę w odpowiednim czasie.

Uprawomocnienie

Niezależna walidacja i monitorowanie modelu to doskonały sposób na zapewnienie uwzględnienia różnych interesariuszy i punktów widzenia. Można to zrobić za pośrednictwem oddzielnego łańcucha sprawozdawczego, jak to jest powszechne w firmach świadczących usługi finansowe, lub przynajmniej poprzez wzajemną weryfikację. Perspektywa zewnętrzna zapobiega widzeniu w tunelu i zapewnia początkową różnorodność zrozumienia. Najlepszą praktyką jest włączenie walidatorów, którzy mają różne i istotne doświadczenia życiowe.

Podsumowanie

Zastosowanie ram MRM do praktyk opracowywania modeli może pomóc firmie lepiej zrozumieć i zmniejszyć ryzyko modeli operacyjnych, które mogą mieć trudne wyniki etyczne. Dodanie kontroli stronniczości i zapewnień w całym procesie MRM to jeden krok, który może pomóc praktykom nauki danych w opracowaniu i zarządzaniu uprzedzeniami i względami etycznymi w ich pracy

Etyka i Dane (LXII)


Skąd mam wiedzieć, że masz rację?

Oczywiście starasz się być neutralny. Ty bardziej niż ktokolwiek inny wiesz, że ważne jest, aby unikać wypaczania wyników, trzymać się z daleka od jakichkolwiek uprzedzeń i uważasz, że ważne jest, aby pozwolić liczbom mówić. Jako profesjonalista dążący do rozwiązania zadania, starasz się wybrać najbardziej odpowiedni model i użyć najlepszego dostępnego narzędzia. Od czasu do czasu ktoś zadaje pytanie typu "Jak wybrać najlepszy model regresji?" Masz szczęście. Lata doświadczeń nauczyły Cię takich rzeczy, jak wybieranie najlepszych poziomów ufności, jak dowiedzieć się, które wartości zapewniają najwyższy wskaźnik sukcesu w modelowaniu predykcyjnym, jak najskuteczniej czyścić dane i które rekordy całkowicie pominąć z powodu słabych danych. jakość.

Umiejętność korzystania z danych dla użytkowników danych

Osoby otrzymujące analitykę rzadko zdają sobie sprawę z tego, co kryje się za danymi, na które patrzą. Nie są też bardzo zainteresowani zdobywaniem bardziej dogłębnej wiedzy z zakresu matematyki, algorytmów i danych. Często są bardziej niż szczęśliwi, mogąc zaufać Twojemu kunsztowi i umiejętnościom. Od czasu do czasu ktoś będzie kwestionował wyniki, ale rzadko kwestionuje metodę. Potrzebują nas, abyśmy wzięli ich za rękę i pokazali im drogę, a może nawet rzucili im wyzwanie. W dzisiejszych czasach wymagana jest pewna znajomość danych, aby użytkownicy wszelkich analiz, wizualizacji, białej księgi lub raportu mogli zrozumieć, na co patrzą.

Zadeklaruj swoją pracę>

To, w jaki sposób my, specjaliści od danych, decydujemy się na wykorzystanie danych, zaczyna się od umożliwienia innym uzyskania wglądu w to, w jaki sposób decydujemy się rozwiązać dane zadanie. Proponuję następującą sugestię: dodaj dodatkową stronę na końcu każdej analizy - deklarację treści. Wyobraź sobie tabliczkę podobną do tej, którą umieszcza się z tyłu każdego urządzenia elektronicznego, zawierającą informację o producencie, napięcie i tak dalej. Sugerowana treść:

•  Które zbiory danych są uwzględniane, z jakich źródeł
•  Celowo wykluczono części zbioru danych
•  Zastosowane zasady czyszczenia danych
•  Zastosowane modele analityczne, a najlepiej także krótka notatka wyjaśniająca, dlaczego zostały one uznane za najlepsze i wspominająca o alternatywnych drogach, które nie zostały wykorzystane
•  W zależności od modelu, opis odpowiednich ustawień, czyli parametrów, wartości itp.
•  Używane oprogramowanie / narzędzia, w tym wersje
•  …
Zastanów się, jak możesz udokumentować strukturę wokół swojej analizy, aby pomóc innym zrozumieć przesłanki i jakość Twojej pracy oraz wyniki, które przedstawiasz jako odpowiedzi. Oświeć swoich odbiorców w stopniu, który pozwoli im poczuć się poinformowany i posiadający wystarczającą wiedzę, aby zadawać pytania i okazywać zainteresowanie wynikami analizy. Z czasem ludzie mogą zapoznać się z Twoim stylem i preferencjami, a kto wie? Wzór może nawet pojawić się wokół tego, jak podchodzisz do różnych zadań. To z kolei zapewnia wgląd, którego możesz użyć, aby wyostrzyć swoją analityczną przewagę. A z bardziej osobistego punktu widzenia: może okazać się bardzo cenne, jeśli ktoś zada Ci pytania dotyczące tej konkretnej pracy za kilka miesięcy, a nawet lat. Jak właściwie wybrałeś, którego modelu użyć, a które rekordy wykluczyć?

Etyka i Dane (LXI)


Realia biznesowe pokonają Twoją analitykę

Następna generacja analityki danych (zwana potocznie AI) szybko się rozwija i osiąga imponujące osiągnięcia w zakresie rozumowania na coraz większą skalę. W przypadku kilku firm z sektora zaawansowanych technologii globalnie zmienił ich interakcje e-commerce i całą dynamikę rynku. Większość dyrektorów typowych korporacji zakłada, że następne korzyści przyniosą systemy korporacyjne. Chociaż analityka nowej generacji jest dostępna dla niektórych, umiejętności i praktyki prawidłowego korzystania z analiz nowej generacji nie są równomiernie rozłożone. Niestety ta luka stale się powiększa. W przeszłości analityka ograniczała się do samodzielnych projektów, aby generować wizualny wgląd w określone sytuacje biznesowe, których menedżerowie używali następnie do ustalania zasad i procedur. Analityka nowej generacji przechodzi do modułów operacyjnych osadzonych w systemach przedsiębiorstwa, bezpośrednio wystawiając analitykę na złożoność rzeczywistych realiów biznesowych. Menedżerowie zorientowani w analityce mogą być nieuzasadnionym przekonaniem, że narzędzia analityczne nowej generacji zatriumfują nad tymi paskudnymi realiami. Czy te rozwiązania analityczne nowej generacji przetrwają dzikie realia Twojej firmy? Następujące kluczowe obszary łańcucha wartości typu "dane-działanie" powinny być przedmiotem szczególnej uwagi wszystkich dyrektorów. Poczęcie

Biznesowe przypadki użycia analiz nowej generacji są trudne do zdefiniowania odpowiednio dla nowych infrastruktur, takich jak Google TensorFlow Enterprise. Zamiast nadzorowanych struktur uczenia się, które uczą i weryfikują modele za pomocą wyselekcjonowanych danych, wkraczamy w erę strumieni danych obrazów, mowy i innych dziwnych danych Internetu rzeczy (IoT) w czasie rzeczywistym, które nie stoją już w jeziorach danych. Analytics będzie stale przekształcać te dane, generując kategorie obrazów, segmenty zamiany mowy na tekst i inne istotne dla biznesu obiekty, które mogą być używane przez różne moduły systemu. Definiowanie tych przypadków użycia wymaga nowych umiejętności i metod, a także nowych wskaźników wydajności. Podniesienie roli analityków biznesowych / analityków danych jako partnerów koordynujących będzie miało kluczowe znaczenie.

Rozwijam się

Opcje tworzenia modeli analitycznych eksplodowały stokrotnie. Sieci neuronowe są jak zestawy LEGO dla naukowców zajmujących się danymi. Architektury neuronowe, takie jak uczenie się poprzez transfer, uczenie się ze wzmocnieniem, generatywne sieci przeciwnika i transfer stylów, rozwijają się z dnia na dzień. Samo śledzenie rozwoju technologii wymaga pełnej uwagi. Naukowcy zajmujący się danymi wykształceni ponad pięć lat temu są obecnie przestarzali, chyba że stale aktualizują swoje umiejętności. Infrastruktury DataOps, tak starannie zaprojektowane przez dziesięciolecia hurtowni danych, muszą teraz zostać przeprojektowane, aby stale monitorować zestawy danych treningowych i testowych, aby zapewnić bezstronność próbkowania.

Wdrażanie

Przejście od zastosowań ręcznie tworzonej logiki do systemów logiki nieustannie uczącej się jest główną zmianą koncepcyjną. Zarządzanie ciągłymi rywalizacjami między pretendentem (nowy model analityczny) a mistrzem (produkcyjny model analityczny) przeniesie obecne schematy testów A / B na nowy poziom. Tradycyjne procedury stopniowego przechodzenia na system są nieodpowiednie w przypadku analiz nowej generacji. Zmiana ról specjalistów DevOps jest podobna do tego, że myśliwi stają się rolnikami. Przestań myśleć o zapakowaniu tego jelenia na kolację. Zacznij myśleć o zasianiu plonu tej jesieni, wraz z nadchodzącymi porami roku.

Rządzący Twój system analityczny nowej generacji jest teraz w produkcji, więc co teraz? Zaczną się głębokie wyzwania. Paco Nathan stwierdza zwięźle: "Modele [analityczne] ulegają degradacji, gdy są wystawione na działanie danych klientów". Twoje starannie wytrenowane modele ulegają degradacji, ponieważ dane szkoleniowe nie są teraz zsynchronizowane z danymi w czasie rzeczywistym. Dzisiejsze realia biznesowe nie są takie same jak wczoraj. Skąd wiesz, kiedy degradacja jest znacząca? Jak naprawić degradację? Jak zapobiegać fałszowaniu systemu przez exploity bezpieczeństwa? Jak wyjaśnisz zachowanie systemu, czy to klientom rozmawiającym przez telefon, czy jurorom na sali sądowej? A kto jest odpowiedzialny, gdy analiza prowadzi do znacznych szkód za zniesławienie? Zarządzanie systemami analitycznymi wymaga wyraźnej linii od danych do działania, co oznacza, że każde działanie generowane przez analizę może być powiązane z danymi, które są jego podstawą. Co więcej, ludzka intuicja i osąd powinny odgrywać właściwą rolę wplecione w system analityczny, aby zminimalizować głupotę sztucznej inteligencji i jej niezamierzone konsekwencje.

Wniosek

Jak opisano tutaj, istnieją znaczące implikacje etyczne dla analityki nowej generacji. Każdy kierownik zaangażowany w te systemy powinien mieć pokorę co do zdolności tych narzędzi analitycznych do zrozumienia zmieniającej się złożoności ich rzeczywistości biznesowej. Zdrowa dawka niepokoju jest uzasadniona.

Etyka i Dane (LX)


Systemy etyczne przed, teraz i po

Systemy o obiegu zamkniętym, które wykorzystują dane do napędzania sztucznej inteligencji, mogą zmieniać świat. Takie systemy już ratują życie, rozdzielają kapitał, wykonują kontrakty i podejmują coraz więcej decyzji w imieniu swoich ludzkich zwierzchników. Jako architekt przyszłości, władanie tą mocą, aby uczynić świat lepszym, a nie gorszym miejscem, wymaga szacunku i uwagi. Podobnie jak w przypadku prywatności czy bezpieczeństwa, etyki w tych systemach nie można traktować jako odkładania. Należy go traktować jako integralną część projektu od samego początku do wykonania i dalej. W bardzo praktycznym sensie istnieją trzy punkty na drodze każdego inżyniera, w których złe wybory mogą prowadzić do przewrotnych rezultatów: poprzedni, obecny i późniejszy. Wszystkie poniższe przykłady są prawdziwe, aczkolwiek z nazwiskami ukrytymi w celu ochrony winnych. W poprzednim punkcie nie zbudowano jeszcze firmamentu. Tutaj największym ryzykiem jest niezamierzone wyrządzenie szkody osobistej lub społecznej, pomimo najlepszych intencji; algorytmy są uczone na danych i jeśli te dane będą odzwierciedlać zinstytucjonalizowaną niekorzystną sytuację, przyszłość będzie zmuszona odzwierciedlać teraźniejszość. Weź pod uwagę firmę, która jest zainteresowana wykorzystaniem sztucznej inteligencji do identyfikowania i przyspieszania najlepszych pracowników. Aby wytrenować algorytmy, pobiera dane HR i trenuje model rozróżniania ludzi, którym się to udaje, od tych, którym się to nie udaje. Jednak w ten sposób nieumyślnie stworzył potwora, który naraża się na zinstytucjonalizowanie seksizmu w modelu operacyjnym firmy. Załóżmy, że firma nie jest seksistowska ani nie działa w ramach celowo seksistowskich struktur zarządzania; jak się tu znaleźliśmy? Nawet jeśli kierownictwo firmy zawsze starało się promować w oparciu o zasługi, historycznie zdominowane przez mężczyzn dziedziny badawcze od dziesięcioleci generowały tendencję do zatrudniania absolwentów płci męskiej. Dane używane przez algorytm są zasadniczo zanieczyszczone; nawet jeśli model nie uwzględnia wyraźnie płci jako predyktora, płeć prawdopodobnie będzie historycznie skorelowana z zachowaniami mężczyzn, takimi jak mniejsze prawdopodobieństwo skorzystania z urlopu rodzicielskiego. Przewrotnym rezultatem jest to, że dokładny model może mieć nieodłączną tendencję do przyspieszania mężczyzn, nie dlatego, że mężczyźni są lepszymi kandydatami, ale po prostu dlatego, że mają przewagę liczebną kobiet, a zatem historycznie bardziej prawdopodobne jest, że awansowano w kategoriach bezwzględnych. Wcześniej musisz pomyśleć o tym, jak twoje wybory mogą nieumyślnie podważyć ten sam problem, który próbujesz rozwiązać. Nawet najlepsze intencje mogą nieumyślnie pójść na marne, biorąc pod uwagę błędne dane. W tej chwili musimy dokonać wyboru. Wiemy, że możemy to zrobić, ale czy powinniśmy? Rozważ bank zainteresowany maksymalizacją zysków. Karty kredytowe generują marże, ale tylko wtedy, gdy są używane w określony sposób. Wydaj zbyt dużo, a klient nie będzie w stanie spłacić swoich długów, zmuszając bank do niewypłacalności i kosztując pieniądze. Przenieś zbyt mało, a bank prawdopodobnie zniweczy opłaty za karty, ale osiągnie minimalny zysk. Idealnym klientem jest "rewolwer", który z miesiąca na miesiąc niesie dług i spłaca minimalne saldo, maksymalizując przychody odsetkowe dla banku. Mając odpowiednie dane, zbudowanie modelu, który wskaże, jak najlepiej zachęcić ludzi do większych wydatków, jest trywialne. Istnieje nieskończona liczba sposobów zachęcania do zachowań, w tym nagrody za lojalność, odznaki i masowe używanie mrocznych wzorów. Może to mieć istotny wpływ na wyniki banku. Jednak jaki podzbiór osób zostanie uwięziony w cyklu zadłużenia, jeśli bank zdecyduje się to zrobić? W tej chwili musisz czuć się komfortowo z konsekwencjami swoich algorytmów. Twoja praca odzwierciedla twoją moc zmiany świata na lepsze lub gorsze. W dalszej części wszystko działa i miejmy nadzieję, że działa dobrze. Kuszące jest myślenie, że potrzeba nadzoru minęła. To przekonanie jest fałszywe. Weź pod uwagę firmę medialną zainteresowaną dostosowywaniem treści. Jego algorytmy doskonale sprawdzają się w dopasowywaniu treści do zainteresowań. Jednak z biegiem czasu te same algorytmy tworzą silnie izolowane komory echa. Konsumpcja informacji napędzana dopaminą sprawia, że całe kohorty widzą tylko te treści, które są zgodne z ich światopoglądem. Przy braku przeciwstawnych punktów widzenia poglądy stają się spolaryzowane i coraz bardziej ekstremistyczne. To, co mogło na początku być stosunkowo nieszkodliwą metodą zwiększania lepkości widza, może łatwo skończyć się za siedliskiem niepokojów społecznych, prawie całkowicie, a jednak nieumyślnie, z powodu podstawowych algorytmów. Później musisz aktywnie obserwować rzeczy, które stworzyłeś, aby mieć pewność, że nie tworzysz świata, w którym nie chciałbyś żyć. Twoje algorytmy to Twoje dzieci, a za ich działania odpowiadasz.

Etyka i Dane (LIX)


Etyka, handel i sztuczna inteligencja

Giełda amerykańska przywołuje obraz inwestorów napędzanych adrenaliną, wykrzykujących zlecenia na parkiecie giełdowym. Ten obraz jest wspomnieniem. Teraz komputery wykonują większość transakcji po cichu - i bardzo, bardzo szybko. Trend ten prawdopodobnie ulegnie przyspieszeniu wraz z włączeniem uczenia maszynowego i sztucznej inteligencji, które zastępują coraz bardziej bezpośrednią interakcję człowieka z rynkiem. Pytanie, które nasuwa się od razu, brzmi: skoro rynek i wszystkie jego zasady i przepisy zostały skonstruowane przede wszystkim w celu ochrony inwestorów, czy ten trend stanowi problematyczne środowisko etyczne dla przeciętnego inwestora? Struktura rynku została zaprojektowana przede wszystkim w celu ochrony inwestorów przed zachowaniami korporacji, a nie przed innymi inwestorami. Od czasu powstania Komisji Papierów Wartościowych i Giełd (SEC) byli handlowcy, którzy byli szybsi od innych, a SEC nie wydaje się rozróżniać, dlaczego tak się dzieje. Inwestycje oparte na technologii nie są dla nich głównym celem. Raczej organy regulacyjne koncentrują się na fakcie, że te algorytmiczne praktyki handlowe zapewniają coraz większą płynność, która jest korzystna dla całego rynku. Obecne podejście wydaje się nie podejmować żadnych działań. Jest to prawdopodobnie prawdziwe w dającej się przewidzieć przyszłości. Ma to niekorzystny wpływ na przeciętnego inwestora kupującego lub sprzedającego akcje. Większość inwestorów złoży zlecenie kupna lub sprzedaży po dominującej cenie rynkowej, co czyni ich podatnymi na dynamikę rynku i daje możliwość ich wykorzystania. Na przykład osoba złoży zamówienie na 1000 akcji, gdy aktualna cena rynkowa wynosi 9,81 USD. Liczba akcji dostępnych po 9,81 USD to zwykle 100. Gdy to zlecenie rynkowe trafi, algorytmy wychwycą fakt, że istnieje zlecenie kupna na rynku i zwiększą oferowane ceny w krokach co jeden cent za pozostałe 900 udziałów. W rezultacie inwestor będzie płacił średnią cenę od jednego do trzech centów wyższą za akcję za 1000 akcji. Całkowity wpływ może wydawać się niewielki - od 10 do 30 USD w przypadku transakcji o wartości prawie 10 000 USD, ale po pomnożeniu przez setki tysięcy transakcji każdego dnia, całkowity wpływ jest bardzo znaczący. Negatywny wpływ jest w pełni odczuwany przez przeciętnego inwestora, podczas gdy całkowity pozytywny wpływ przypada na organizację handlową opartą na maszynach. A to tylko jeden prosty przykład. Albo pomyśl o przypadku niedawno otwartego centrum danych New York Stock Exchange, które umożliwiło inwestorom o wysokiej częstotliwości kolokację swoich serwerów w centrum danych w celu szybszego dostępu do danych. Początkowo popyt dotyczył tylko szaf stojących najbliżej serwerów NYSE. To właśnie długość kabla światłowodowego sprawiła, że inne szafy były mniej atrakcyjne. Pomyśl o tym - czas, jaki zajęło przesłanie danych wzdłuż dodatkowych 20 stóp włókna z prędkością bliską prędkości światła, miał niekorzystny wpływ na konkurencyjność. NYSE rozwiązało ten problem, używając tej samej długości światłowodu do każdego serwera, niezależnie od jego lokalizacji. Co stwarza tę potrzebę szybkości? Metodologie handlowe. Mówiąc najprościej, algorytmy komputerowe nieustannie testują rynek, wydając zlecenia szukające nieefektywności. Wysyłają zlecenie (kup, sprzedaj lub jedno i drugie) w pobliżu obecnego rynku. Jeśli dostaną transakcję, dzieje się tak, ponieważ rynek przesunął się w ich kierunku i zwykle się odwraca, dając im zysk. Jeśli nie, anulują zamówienie. Daje to fałszywe wrażenie solidnej głębokości rynku i może skutkować manipulacją ceną lub zleceniami wyprzedzającymi (z których oba są nielegalne, ale niezwykle trudne do kontrolowania). A co by było, gdybyśmy mogli wykorzystać moc sztucznej inteligencji do rozwiązania problemu asymetrii? Prawdziwym dylematem etycznym jest to, że kiedy ludzie wchodzą w interakcję z maszynami, nie są w stanie konkurować. Załóżmy, że ewoluujemy w kierunku rynku, na którym wszystkie transakcje są przeprowadzane przez maszyny wyposażone w techniki sztucznej inteligencji. W tym scenariuszu maszyna sztucznej inteligencji przyjrzy się wszystkim dostępnym informacjom, aby podjąć decyzje. W tym scenariuszu stopień racjonalności na rynku wzrasta, ponieważ irracjonalny podmiot, człowiek, nie uczestniczy. W tej sytuacji stopień asymetrii informacji na rynkach zostanie znacznie zmniejszony, prawie do zerowej asymetrii. Przeszkodą jest to, że ludzie nie wiedzą, w jaki sposób systemy SI podejmują decyzje. Ta przeszkoda zaczyna być usuwana wraz z pojawieniem się możliwej do wyjaśnienia sztucznej inteligencji, umożliwiając inwestorom korzystanie (prawdopodobnie po raz pierwszy w życiu) ze strategii inwestycyjnej, która odzwierciedla ich własne wartości, przyczyniając się do stworzenia solidniejszego etycznie rynku i eliminując większość okazja dla złych aktorów. Pomóż maszynie zrozumieć Ciebie, Twoje cele i ograniczenia oraz pozwól jej kierować Twoimi interakcjami z rynkami finansowymi

Etyka i Dane (LVIII)


Jakie decyzje podejmujesz?

Nauka o danych jest środkiem prowadzącym konkretnie do celu, środkiem do usprawnienia procesu podejmowania decyzji. Jeśli nauka o danych nie usprawnia podejmowania decyzji, nie ma wartości. Jak powiedział Goethe: "Wiedza nie wystarczy; musimy złożyć wniosek. Chęć nie wystarczy; musimy zrobić." Nie wystarczy, że używamy nauki o danych, aby coś wiedzieć; musimy działać zgodnie z tym, co nam mówi. Jeśli chodzi o etykę, prowadzi to do wniosku, że nie wystarczy, że nauka o danych jest etyczna; musi być również używany etycznie. Decyzje, które podejmujemy w ramach nauki o danych, muszą być etyczne. Musimy mieć jasność co do zasad moralnych, które regulują sposób podejmowania decyzji. Zapewnienie etycznego podejmowania decyzji dzięki nauce o danych ma dwa elementy. Musimy zaprojektować nasze podejście do podejmowania decyzji tak, aby było etyczne i musimy być w stanie wykazać, że każda podjęta przez nas konkretna decyzja była etyczna.

Projektowanie systemów etycznego podejmowania decyzji

Większość decyzji wykorzystujących naukę o danych jest podejmowanych wielokrotnie. Nauka o danych polega na posiadaniu danych o tym, jak decyzje były podejmowane w przeszłości, a to skupia się na powtarzalnych decyzjach dotyczących transakcji lub konsumentów o dużej objętości. Czy powinniśmy zapłacić to roszczenie? Czy ta osoba może mieć kredyt? Jakie jest właściwe leczenie dla tego pacjenta? Czy to osoba, za którą się podaje? Te codzienne decyzje są głównym przykładem zastosowania nauki o danych. Ponieważ decyzje te są podejmowane więcej niż jeden raz, możemy zdefiniować podejście do podejmowania decyzji, które należy stosować za każdym razem. Mogło to mieć miejsce w przeszłości za pomocą podręcznika zasad i procedur lub listy kontrolnej. Obecnie bardziej prawdopodobne jest, że zostanie zdefiniowany przy użyciu bardziej rygorystycznego modelu podejmowania decyzji, takiego jak standard decyzyjny i notacja (DMN). Można jasno pokazać rolę nauki o danych w tak zdefiniowanym podejściu do podejmowania decyzji. Możesz na przykład wykazać, że nauka o danych nie wpływa na kwalifikowalność, ale jest używana tylko do identyfikacji ryzyka oszustwa lub że prognozowanie ryzyka kredytowego nie jest wykorzystywane przy obliczaniu rabatu. Możesz określić, kiedy nauka o danych wpływa na proces podejmowania decyzji, a kiedy nie. Czy decyzja o skierowaniu kogoś do ręcznej oceny została podjęta z powodu wyniku nauki o danych, czy na przykład odrzucenia jej z ręki? Tylko wtedy, gdy potrafisz jasno zdefiniować decyzje, na które wpływa Twoja nauka o danych, możesz mieć pewność, że zdefiniowałeś etyczne podejście do podejmowania decyzji.

Demonstrowanie etycznego podejmowania decyzji

Możliwość wykazania, że jesteś proaktywny w projektowaniu etycznego podejścia do podejmowania decyzji, musi być uzupełniona umiejętnością wykazania, że zastosowałeś takie podejście w podejmowanych decyzjach. Bardzo dobrze jest pokazać, że przewidywanie oszustwa nie wystarczy, aby ktoś został odrzucony z ręki, ale kiedy ktoś zostanie odrzucony, może zażądać dowodu - lub regulatora. Te elementy decyzji, które są zautomatyzowane, muszą tworzyć zapis dotyczący sposobu podjęcia decyzji, reguł biznesowych lub logiki decyzyjnej, która została wykonana. Decyzje ręczne muszą być rejestrowane przez użytkownika. Te dzienniki należy połączyć z wynikami nauki o danych - a najlepiej z wyjaśnieniem tych wyników. Szczególnie, gdy istotne elementy decyzji są zautomatyzowane, tworzenie i przechowywanie tych dzienników może być efektem ubocznym podjęcia decyzji. Prowadzenie tych dzienników pozwala na weryfikację każdej decyzji w celu upewnienia się, że została podjęta decyzja etyczna. Informacje te wspierają również ciągłe doskonalenie i przegląd procesu decyzyjnego / systemu / podejścia. W jaki sposób można udoskonalić podejście do podejmowania decyzji, aby podejmować lepsze decyzje? Czy istnieją okoliczności, w których należało skonsultować się z nauką o danych lub w których jej użycie nie było pomocne? Tylko dane o tym, jak podjęto decyzję, mogą wesprzeć tego rodzaju analizę i przekształcić uczenie maszynowe w uczenie się biznesowe. Etyczne podejście do nauki o danych jest konieczne, ale niewystarczające. Musimy również mieć etyczne podejście do podejmowania decyzji w oparciu o naukę o danych.

Etyka i Dane (LVII)


Etyka i liczby: dlaczego naukowcy zajmujący się danymi nie mogą iść na skróty

Nie obchodzi mnie prostota po tej stronie złożoności, ale życie oddałbym za prostotę po drugiej stronie złożoności. -Sędzia Sądu Najwyższego Oliver Wendell Holmes Jr.

Naukowcy zajmujący się danymi powinni poświęcić chwilę na zastanowienie się nad poprzednim cytatem. Uproszczenie kompleksu jest trudne. Kalkulatory, komputery i pakiety do pobrania są środkami użyteczności obliczeniowej, a nie substytutami zdolności obliczeniowych. Chcąc zostać "naukowcem zajmującym się danymi", wiele osób skraca proces zatrzymywania się po bliskiej stronie złożoności. Chociaż pojęcie "obywatelskiego naukowca zajmującego się danymi" ma swoje miejsce, zbyt wiele osób, które przedstawiają się jako naukowcy danych, nie ma formalnego szkolenia w zakresie nauki o danych poza weekendowym obozem szkoleniowym. Konsekwencje są większe niż tylko zamieszanie związane z definicją "naukowca zajmującego się danymi" - jest to główne źródło niezliczonych problemów etycznych, które pojawiają się w związku z wynikami wynikającymi z tendencyjności algorytmicznej. Zauważ, że same "algorytmy" nie są stronnicze; głębokie uczenie się nie jest bardziej "stronnicze" niż dodawanie. Jednak oba podlegają dwóm źródłom uprzedzeń - uprzedzeń ludzkich nieodłącznie związanych ze specyfikacją modelu i danymi, które wybieramy w celu zbudowania algorytmu. W tym celu etyczni naukowcy zajmujący się danymi powinni rozważyć trzy podstawowe pytania w kontekście rozwoju algorytmów. Jaki problem próbuję rozwiązać? Zbyt wiele osób skraca logikę i przechodzi od razu do metod, nie rozumiejąc danych. Co gorsza, wiele platform analitycznych po prostu umożliwia zrzucanie danych do "czarnej skrzynki", w której jednocześnie odbywa się wiele metod uczenia maszynowego, po których następuje automatyczne sortowanie według współczynnika klasyfikacji. Platformy te - po bliskiej stronie złożoności - nie wymagają uwzględnienia specyfikacji modelu w pierwotnym pytaniu. Innymi słowy, podejście można zoptymalizować obliczeniowo, ale dla innego pytania. Czy dane, których używam do szkolenia algorytmu, są reprezentatywne dla populacji, która będzie podlegać wynikom? Jeśli dane wybrane do opracowania i szkolenia algorytmu pochodzą z jednorodnego podzbioru populacji, ale wyniki mają być zastosowane do zróżnicowanej populacji, dokładność klasyfikacji dla grup nieuwzględnionych w pierwotnym zbiorze uczącym będzie zawsze gorsza. Jeśli są odpowiedzialni za gromadzenie danych pierwotnych, naukowcy zajmujący się danymi muszą rozumieć zasady projektowania eksperymentu i pobierania próbek, aby zapewnić reprezentację. Jeśli dane zostały zebrane wcześniej (co jest bardziej prawdopodobne), naukowcy zajmujący się danymi nadal są odpowiedzialni za zapewnienie, że zbiór danych szkoleniowych nie będzie wykazywał znaczących różnic w populacji, do której zostanie zastosowany algorytm. Czy mogę wyjaśnić wpływ danych wejściowych / funkcji (a jeśli nie, czy mogę udowodnić, że wyniki nie są stronnicze)? "Prawo do wyjaśnienia" oznacza, że jednostki mają prawo zrozumieć, w jaki sposób podjęto decyzje, które mają bezpośredni wpływ na ich życie. Typowym przykładem jest wymóg, aby pożyczkodawcy byli w stanie wyjaśnić decyzje kredytowe. W kategoriach matematycznych: jaki jest wpływ x na y? Podczas gdy większość nadzorowanych technik modelowania statystycznego można bezpośrednio zinterpretować, wiele technik uczenia maszynowego nie. Naukowcy zajmujący się danymi muszą dokładnie rozważyć, czy jest to dopuszczalne, jeśli nie potrafią wyjaśnić, w jaki sposób dane wejściowe użyte do opracowania algorytmu wpływają na życie ludzi (i prawie wszystkie algorytmy robią to w jakiś sposób). Ewentualnie, jeśli algorytm jest poprawnie określony, a dane wejściowe zostały przetestowane pod kątem stronniczości, czy można zrezygnować z interpretacji na rzecz interpretacji post hoc i wyjaśniania na podstawie przykładów? Jako społeczność większość naukowców zajmujących się danymi ma etyczne intencje. Jednak intencje są niewystarczające, a skróty mają konsekwencje. Jako społeczność naukowcy zajmujący się danymi mają obowiązek pracować nad prostotą znajdującą się po drugiej stronie złożoności, aby zapewnić rozwój i stosowanie społecznie odpowiedzialnych algorytmów, które są podatne na wahania po bliższej stronie złożoności.

Etyka i Dane (LVI)


Rażąco dyskryminujące algorytmy

Wyobraź sobie, że siedzisz naprzeciwko osoby ocenianej pod kątem pracy, pożyczki, a nawet zwolnienia warunkowego. Kiedy pytają, jak przebiega proces decyzyjny, informujesz ich: "Po pierwsze, nasz algorytm obniżył Twój wynik o siedem punktów, ponieważ jesteś czarny". Podążamy w tym kierunku. Wybitni eksperci prowadzą obecnie kampanię na rzecz dyskryminujących algorytmów w organach ścigania i nie tylko. Twierdzą, że komputery powinny być upoważnione do podejmowania decyzji zmieniających życie, opartych bezpośrednio na rasie i innych chronionych klasach. Oznaczałoby to, że komputery mogłyby wyraźnie karać czarnych oskarżonych za to, że są czarnoskórymi. W większości przypadków naukowcy zajmujący się danymi celowo projektują algorytmy, aby nie widzieć chronionych klas. Osiąga się to poprzez zakaz wprowadzania takich czynników przez modele predykcyjne. Takie postępowanie nie eliminuje uprzedzeń maszynowych, dobrze znanego zjawiska, w którym modele fałszywie oznaczają jedną grupę częściej niż drugą za pomocą zmiennych "zastępczych". Jednak tłumienie takich danych wejściowych modelu jest podstawowym pierwszym krokiem, bez którego modele są dyskryminujące. Używam terminu "dyskryminujące" w odniesieniu do decyzji, które częściowo opierają się na klasie chronionej, na przykład w przypadku profilowania według rasy lub religii w celu ustalenia przeszukań policyjnych. Wyjątek dotyczy sytuacji, gdy decyzje mają przynieść korzyść grupie chronionej, na przykład w przypadku akcji afirmatywnej lub przy ustalaniu, czy dana osoba kwalifikuje się do stypendium przeznaczonego dla grupy mniejszościowej. Algorytmy dyskryminacyjne spełniają samą definicję nierówności. Na przykład w celu informowania o przedprocesowym zwolnieniu, zwolnieniu warunkowym i orzeczeniu skazującym modele obliczają prawdopodobieństwo przyszłych wyroków skazujących. Jeśli łącza danych ścigają się z wyrokami skazującymi - pokazując, że czarni oskarżeni mają więcej wyroków skazujących niż biali - wówczas wynikający z tego model ukarałby punktację każdego czarnego oskarżonego tylko za to, że był czarny. Nie może być bardziej rażącego przypadku kryminalizacji czerni. Wsparcie dla dyskryminacyjnych polityk i podejmowania decyzji toruje drogę dla dyskryminujących algorytmów. Trzydzieści sześć procent Amerykanów poparłoby opartą na religii politykę zakazu muzułmanom wjazdu do USA. Stany Zjednoczone zakazują osobom transpłciowym służenia w wojsku. Trzy czwarte Amerykanów popiera wzmożone kontrole bezpieczeństwa na lotniskach, częściowo oparte na pochodzeniu etnicznym, a 25% Amerykanów popiera profilowanie rasowe przez policję. Życiorysy z "biało brzmiącymi nazwiskami" otrzymują o 50% więcej odpowiedzi niż te z "brzmiącymi nazwiskami Afroamerykanów". Wsparcie eksperckie dla algorytmów dyskryminacyjnych sygnalizuje pojawiające się zagrożenie. Artykuł napisany we współautorstwie przez asystenta profesora Uniwersytetu Stanforda, Sharada Goela, krytykuje standard, zgodnie z którym algorytmy nie są dyskryminujące. W artykule zaleca się modele dyskryminacyjne, "gdy … cechy chronione dodają wartości predykcyjnej". Podczas jednego z wykładów profesor powiedział: "Możemy udawać, że nie mamy informacji, ale one tam są… Właściwie dobrze jest uwzględnić rasę w swoim algorytmie". Profesor kryminologii Uniwersytetu Pensylwanii Richard Berk - któremu wydziały zwolnień warunkowych zleciły zbudowanie modeli predykcyjnych - w artykule na temat zastosowania uczenia maszynowego do przewidywania, którzy skazani zabiją lub zostaną zabici, również wzywa do przewidywania opartego na rasach. Berk pisze: "Można zastosować najlepszy model, który w przypadku tych danych obejmuje rasę jako predyktor. To jest najbardziej technicznie uzasadniona pozycja ". Dane zmuszają tych ekspertów do popierania algorytmów dyskryminacyjnych. Dla nich to uzasadnienie uprzedzeń. To tak, jakby dane mówiły: "Bądź rasistą". Jednak "posłuszeństwo" danym i generowanie dyskryminujących algorytmów narusza najbardziej istotne pojęcia sprawiedliwości i praw obywatelskich. Nawet jeśli prawdą jest, że moja grupa popełnia więcej przestępstw, to naruszyłoby moje prawa do bycia pociągniętym do odpowiedzialności za innych i liczenia się mojej klasyfikacji przeciwko mnie. Dyskryminujące komputery sieją większe spustoszenie niż ludzie wdrażający dyskryminujące zasady. Kiedy już zostanie skrystalizowany jako algorytm, proces dyskryminacyjny jest wykonywany automatycznie, chłodno i na większą skalę, wpływając na większą liczbę osób. Sformalizowany i wdrożony mechanicznie, nabiera konkretnego, akceptowanego statusu. Staje się systemem. Bardziej niż jakikolwiek człowiek komputer jest "Człowiekiem". Więc zdobądź więcej danych. Tak jak my, decydenci, staramy się widzieć jak najwięcej poza rasą, rozważając kandydata do pracy lub podejrzanego o popełnienie przestępstwa, podjęcie analogicznego wysiłku - na większą skalę - w celu poszerzenia bazy danych umożliwiłoby naszemu komputerowi również przekroczenie dyskryminacji. Opór przed inwestowaniem w ten wysiłek ujawniłby gotowość do zagrozenia wolności tego narodu, tych samych wolności, które staraliśmy się chronić przede wszystkim poprzez egzekwowanie prawa i politykę imigracyjną.

Etyka i Dane (LV)


Odpowiedzialny projekt i wykorzystanie sztucznej inteligencji: zarządzanie bezpieczeństwem, ryzykiem i przejrzystością

Sztuczna inteligencja ma coraz większy wpływ na rynki i praktyki biznesowe na całym świecie. A jej potencjał jest jeszcze większy. IDC ustalił we wrześniu 2019 r., Że "wydatki na systemy AI osiągną 97,9 mld USD w 2023 r., Ponad dwa i pół razy więcej niż 37,5 mld USD, które zostaną wydane w 2019 r.". Według McKinsey Global Institute sztuczna inteligencja może przynieść dodatkowe globalne wyniki gospodarcze w wysokości 13 bilionów dolarów rocznie do 2030 r. Jednak nawet jeśli uwalnia potencjał biznesowy i szersze korzyści społeczne, wykorzystanie sztucznej inteligencji może również skutkować wieloma niepożądanymi, a czasem poważnymi konsekwencjami. . Te względy doprowadziły do powstania nie mniej niż 32 różnych branżowych, pozarządowych i rządowych kodeksów etycznych sztucznej inteligencji, które nakreślają kroki, jakie organizacje powinny podjąć, aby opracować, wdrożyć i wykorzystywać sztuczną inteligencję w sposób wspierający wartości społeczne i zarządzający ryzykiem. Wiele firm myślących przyszłościowo - niektóre z doświadczeniem z pierwszej ręki z niezamierzonymi konsekwencjami sztucznej inteligencji - opracowali również własne kodeksy etycznej sztucznej inteligencji. Chociaż te kody mogą się znacznie różnić, zidentyfikowano dziewięć typowych obowiązków. Obowiązki te można podzielić na trzy grupy: odpowiedzialne projektowanie i użytkowanie, użytkowanie zgodne z prawem oraz użytkowanie etyczne. W tym miejscu skupiamy się na pierwszej grupie, odpowiedzialnym projektowaniu i użytkowaniu, która obejmuje ochronę sztucznej inteligencji, bezpieczeństwo, zarządzanie ryzykiem i przejrzystość. Bezpieczeństwo i ochrona Od czasu do czasu media będą podkreślać dramatyczny incydent AI, taki jak wypadek z udziałem samojezdnego samochodu. Ten rodzaj ochrony odzwierciedla powszechne obawy konsumentów i przedsiębiorstw, wzmacniając w ten sposób potrzebę opracowywania, wdrażania i wykorzystywania sztucznej inteligencji w bezpieczny i niezawodny sposób. Dla firm oznacza to przyjęcie kompleksowego podejścia do zarządzania konsekwencjami sztucznej inteligencji dla bezpieczeństwa i ochrony, angażując wszystkie istotne części organizacji poza technologią. To międzyfunkcyjne podejście instytucjonalne pozwoliłoby firmom przejąć władzę i odpowiedzialność sztucznej inteligencji w skuteczny i skuteczny sposób, jednocześnie unikając niezamierzonego ryzyka szkody. Na przykład Microsoft, jako jeden z pierwszych użytkowników sztucznej inteligencji, bezpośrednio odnosi się do kwestii bezpieczeństwa i ochrony w swoich zasadach odpowiedzialnej sztucznej inteligencji. Wymagając, aby "systemy sztucznej inteligencji działały niezawodnie i bezpiecznie" zarówno w normalnych, jak i nieoczekiwanych warunkach, Microsoft zobowiązuje się do posiadania systemów sztucznej inteligencji, które działają zgodnie z ich pierwotnym przeznaczeniem, bezpiecznie reagują na nieprzewidziane sytuacje i są odporne na szkodliwe manipulacje. W związku z tym kluczowe znaczenie mają wstępne i ciągłe testowanie, konserwacja i ochrona systemów SI. Ludzka ocena pozostaje kluczem do identyfikowania potencjalnych słabych punktów i uprzedzeń w systemach SI oraz do określania, jak, kiedy i jak długo system sztucznej inteligencji powinien być używany.

Bieżące zarządzanie ryzykiem

Biorąc pod uwagę stosunkowo niedawne pojawienie się i wykorzystanie technologii sztucznej inteligencji, wydaje się, że niewiele firm przyjrzało się bliżej ryzyku i zarządzaniu ryzykiem związanym z SI. Dlatego ważne jest, aby firmy zdały sobie sprawę, że chociaż potencjalnych zagrożeń stwarzanych przez sztuczną inteligencję nie można całkowicie wyeliminować, można i należy je przewidywać, oceniać i zarządzać nimi w stopniu współmiernym do ich spodziewanego wpływu. "Niewielu liderów miało okazję doskonalić swoją intuicję dotyczącą pełnego zakresu zagrożeń społecznych, organizacyjnych i indywidualnych [sztucznej inteligencji]" - zauważa analiza McKinsey Confronting the Risks of Artificial Intelligence. "W rezultacie kierownicy często przeoczają potencjalne niebezpieczeństwa (" Nie używamy sztucznej inteligencji do niczego, co mogłoby "wybuchnąć", np. Samojezdne samochody ) lub przeceniają możliwości organizacji w zakresie ograniczania ryzyka (" Prowadziliśmy analizy od dłuższego czasu, więc mamy już odpowiednie kontrole, a nasze praktyki są zgodne z praktykami naszych kolegów z branży). Często zdarza się, że liderzy łączą ryzyko związane ze sztuczną inteligencją z innymi osobami należącymi do specjalistów z organizacji IT i analitycznych ("Ufam mojemu zespołowi technicznemu; robią wszystko, co w ich mocy, aby chronić naszych klientów i naszą firmę"). " Wiele firm stosuje już podejście do zarządzania ryzykiem korporacyjnym (ERM), takie jak Identify> Assess> Manage, aby zająć się innymi rodzajami ryzyka w swoich organizacjach. Dlatego logiczne byłoby ocenianie nowo powstających zagrożeń sztucznej inteligencji i zarządzanie nimi w ramach ogólnych ram ERM. Ponieważ nasze sieci stają się coraz bardziej połączone ze sobą, logiczne byłoby również rozszerzenie praktyk zarządzania ryzykiem sztucznej inteligencji na strony trzecie firmy. Niezależnie od tego, czy są dostawcami, klientami czy innymi partnerami biznesowymi, nie należy lekceważyć zarządzania kluczowymi zagrożeniami dla sztucznej inteligencji, które mogą wystąpić wśród takich stron trzecich. Telefónica ilustruje tę zasadę, zastrzegając w umowie prawo do bieżącej weryfikacji ze swoimi stronami trzecimi, czy ich ujawnienia dotyczące logiki i wykorzystania danych produktów opartych na sztucznej inteligencji dostawców są prawdziwe.

Przezroczystość

W miarę jak systemy SI rozwijają się i rosną, a także pojawia się coraz więcej zagrożeń wynikających z korzystania ze sztucznej inteligencji, konsumenci i firmy zaczynają domagać się większej przejrzystości w zakresie produktów i usług opartych na sztucznej inteligencji, z których korzystają. Badania pokazują, że konsumenci są podzieleni co do swoich odczuć dotyczących sztucznej inteligencji: tylko 35% twierdzi, że czuje się komfortowo z firmą wykorzystującą sztuczną inteligencję do interakcji z nimi, podczas gdy 28% twierdzi, że nie czuje się z tym dobrze, a największa grupa - 37% - twierdzi, że po prostu jeszcze nie wiem. Pomaga to wyjaśnić, dlaczego większość branżowych, organizacji pozarządowych, rządowych i firmowych kodeksów etycznych sztucznej inteligencji zawiera wymóg przejrzystości w odniesieniu do różnych aspektów opracowywania, wdrażania i wykorzystywania sztucznej inteligencji. Na przykład zasady IBM dotyczące zaufania i przejrzystości sztucznej inteligencji nakazują, że jeśli sztuczna inteligencja jest wykorzystywana do podejmowania ważnych decyzji, musi to być możliwe do wyjaśnienia: "Firmy technologiczne muszą mieć jasność co do tego, kto szkoli ich systemy sztucznej inteligencji, jakie dane wykorzystano podczas tego szkolenia oraz co najważniejsze, co znalazło się w zaleceniach ich algorytmu". W ramach swojej szczególnej zasady przejrzystości sztucznej inteligencji IBM zobowiązał się jasno określić, kiedy i do jakich celów sztuczna inteligencja jest stosowana, dane i metody szkoleniowe stosowane w jej systemach sztucznej inteligencji, swoje zaangażowanie w ciągłe testowanie i doskonalenie, ochronę danych klientów, oraz wsparcie dla zapewnienia, że ludzie mogą zrozumieć, w jaki sposób system sztucznej inteligencji doszedł do wniosku lub zalecenia.

Wniosek

Dalsza ekspansja sztucznej inteligencji jest nieunikniona. Ponieważ wielu konsumentów wciąż obawia się sztucznej inteligencji, pojawiające się wymagania dotyczące odpowiedzialnej sztucznej inteligencji stanowią dla firm dużą szansę na rozwinięcie i wyjaśnienie swoich inicjatyw w zakresie sztucznej inteligencji w sposób zgodny z oczekiwaniami klientów. Koncentrując się na bezpieczeństwie i ochronie, zarządzaniu ryzykiem oraz utrzymaniu przejrzystości i odpowiedzialnego ujawniania sztucznej inteligencji, firmy są w stanie nie tylko zdobyć zaufanie swoich klientów, ale także ulepszyć biznes i społeczeństwo w niewyobrażalny sposób.

Etyka i Dane (LIV)


Rozpoznawanie twarzy na ulicy i w centrach handlowych

W ciągu ostatnich kilku lat większość przykładów zastosowania głębokiego uczenia dotyczyła rozpoznawania obrazu lub obiektu. Typowe przykłady obejmują przeglądanie zdjęć w celu zidentyfikowania kota lub psa, znanej osoby i tak dalej. Ale co by było, gdyby ta sama technologia była używana do monitorowania ludzi na co dzień? A co, jeśli zdjęcia lub nagrania wideo przedstawiają Cię, gdy chodzisz ulicą lub wokół centrum handlowego, w drodze do pracy lub na spotkanie? Te zdjęcia i filmy są już robione bez Twojej wiedzy. Wiąże się to z wieloma problemami etycznymi. Istnieje etyka wdrażania takich rozwiązań w domenie publicznej, ale istnieją również obawy etyczne dotyczące naukowców zajmujących się danymi i innych osób pracujących nad tymi projektami. Pamiętaj: to, że możemy, nie oznacza, że powinniśmy. Ludzie muszą zdecydować, czy pracują nad jednym z tych projektów, czy powinni nad nim pracować, a jeśli nie, to co mogą zrobić. Etyka to zasady postępowania oparte na ideach dobra i zła. Zasady etyczne często koncentrują się na takich ideach, jak uczciwość, szacunek, odpowiedzialność, uczciwość, jakość, przejrzystość i zaufanie. Jest wiele pomysłów, ale wszyscy musimy zastanowić się, co jest dobre, a co złe. Ale co z szarymi, granicznymi scenariuszami, w których ciekawy projekt w środowisku eksperymentalnym, po wdrożeniu, prowadzi do problemów etycznych? Oto kilka przykładów, które mogą znaleźć się w szarej przestrzeni między dobrem a złem. (Dlaczego mogą bardziej popaść w błąd, ponieważ większość ludzi nie zdaje sobie sprawy, że ich obraz jest przechwytywany i używany, a nie tylko w określonym celu w czasie przechwytywania: ich obrazy są przechowywane dłużej, aby umożliwić lepsze modele uczenia maszynowego zbudowany.) Wyobraź sobie, że idziesz ulicą z cyfrowym wyświetlaczem przed sobą. Ten wyświetlacz monitoruje ciebie i inne osoby wokół ciebie. Cyfrowy wyświetlacz przedstawia następnie spersonalizowane reklamy skierowane specjalnie do Ciebie. Klasycznym tego przykładem jest film Raport mniejszości. Tylko że to już nie jest science fiction; dzieje się to w centrach handlowych w całej Europie. Te cyfrowe ekrany reklamowe monitorują ludzi, identyfikują ich cechy osobiste, a następnie dostosowują reklamy do profili przechodzących osób. Firmy stojące za tymi technologiami używają uczenia głębokiego do profilowania osób na podstawie płci, wieku, zarostu, okularów, postrzeganego nastroju, zaangażowania, czasu uwagi, wielkości grupy i tak dalej. Następnie wykorzystują te informacje do:

Optymalizacja
Dostarczaj odpowiednią reklamę właściwym odbiorcom we właściwym czasie

Wyobrażenie sobie
Użyj rozpoznawania wzroku, aby wywołać kreatywne lub interaktywne doświadczenie Włącz rzeczywistość rozszerzoną. Użyj kamer HD, aby stworzyć efekt lustra lub okna w rzeczywistości rozszerzonej, tworząc głębokie zaangażowanie konsumentów dzięki najnowszej technologii

Analiza
Poznaj odbiorców marki i przeprowadź analizę po kampanii oraz testy kreacji.

Wiele firm opracowało rozwiązania, które monitorują ludzi idących ulicą. Niektórzy przenieśli to na inny poziom, na którym mogą zidentyfikować marki ubrań, które nosisz. Wyobraź sobie, że możesz połączyć ten osobisty monitoring z usługami lokalizacyjnymi. Na przykład idziesz ulicą, a ludzie podchodzą do Ciebie i próbują zwabić Cię do konkretnego sklepu, oferując określone rabaty. Ale jesteś z przyjacielem, a sklep się nimi nie interesuje. Sklep korzysta z monitoringu wizyjnego, rejestrując szczegóły każdej osoby idącej ulicą i zbliżającej się do sklepu. Film wykorzystuje głębokie uczenie się do analizy Twojego profilu i marek, które nosisz. Sklep wysłał zespół ludzi do zatrzymania się i nawiązania kontaktu z określonymi osobami tylko dlatego, że odpowiadają one markom lub zainteresowaniom sklepu. W zależności od marek, które nosisz, mogą oferować dostosowane do Ciebie rabaty. Jak dobrze byś się z tym czuł? Jak dobrze czujesz się teraz w robieniu zakupów? Dla naukowca zajmującego się danymi może to stanowić dylemat etyczny. Być może pracowałeś nad interesującym projektem w laboratorium lub w środowisku eksperymentalnym. Prawdziwe wyzwanie pojawia się, gdy ta praca zostanie wyjęta z laboratorium i wdrożona w celu uzyskania korzyści komercyjnych. Twoja odpowiedzialność etyczna obejmuje przyjrzenie się wszystkim aspektom wdrażania projektu i jego konsekwencjom. Łatwo jest zrozumieć, dlaczego punkty sprzedaży detalicznej są zainteresowane tymi technologiami, ale jako naukowcy zajmujący się danymi musimy wziąć pod uwagę etykę stosowania technologii w tego typu projektach i czy nam, ludziom, nie przeszkadza wykorzystywanie naszej pracy w ten sposób.

Etyka i Dane (LIII)


Przyczynowość i świadomość uczciwości w uczeniu maszynowym

Stało się aksjomatyczne, że zajmowanie się uczciwością i stronniczością w modelach uczenia maszynowego nie jest opcjonalne. Jednak wyścig do wdrażania modeli uczenia się wyprzedził rozwój standardów i metod wykrywania i systematycznego unikania stronniczości. Sytuacja ta po części wynika z faktu, że w praktyce uczenia maszynowego zazwyczaj nie chodzi o przyczynowość, ale raczej o oparcie na kryteriach obserwacyjnych. Nacisk kładziony jest na przewidywanie, klasyfikację i identyfikację. Kryteria obserwacji zasadniczo nie są w stanie określić, czy predyktor wykazuje nierozwiązaną dyskryminację. Długa historia analizy danych w naukach społecznych i medycynie pokazała, że sprawiedliwość należy badać z perspektywy przyczynowej. Aby być świadomym sprawiedliwości, szczególny nacisk kładzie się na założenia, które leżą u podstaw wszystkich wnioskowań przyczynowych, języki użyte do ich formułowania, warunkowy charakter wszystkich twierdzeń przyczynowych i alternatywnych oraz metody, które zostały opracowane do oceny takie roszczenia. Co to jest "model przyczynowy"? Wikipedia zawiera przydatną definicję. Model przyczynowy (lub strukturalny model przyczynowy) to model pojęciowy opisujący mechanizmy przyczynowe systemu. Modele przyczynowe mogą ulepszyć projekty badań, zapewniając jasne zasady decydowania o tym, które zmienne niezależne należy uwzględnić / kontrolować. Mogą pozwolić na udzielenie odpowiedzi na niektóre pytania na podstawie istniejących obserwacji danych bez potrzeby badania interwencyjnego, takiego jak randomizowane badanie kontrolne. Niektóre badania interwencyjne są nieodpowiednie ze względów etycznych lub praktycznych, co oznacza, że bez modelu przyczynowego niektórych hipotez nie można przetestować. Modele przyczynowe są falsyfikowalne, co oznacza, że jeśli nie pasują do danych, muszą zostać odrzucone jako nieważne. Muszą być również wiarygodne dla osób bliskich zjawiska, które model ma zamiar wyjaśnić. Konieczne jest, aby nauka o danych i praktyka uczenia maszynowego obejmowały rozumienie i szkolenie w zakresie rozumowania przyczynowego. Judea Pearl, profesor informatyki i dyrektor Laboratorium Systemów Poznawczych na UCLA, jest pionierem w tworzeniu związków przyczynowo-skutkowych jako koncepcji statystycznej i matematycznej. Pearl jest autorem książki The Book of Why: The New Science of Cause and Effect (Podstawowe książki) z 2018 roku. Główną metaforą kierującą narracją Księgi Dlaczego są trzy wznoszące się szczeble tego, co autor nazywa "drabiną przyczynowości". Najniższy szczebel zajmuje się po prostu obserwacją - po prostu szukaniem prawidłowości w przeszłym zachowaniu. Pearl umieszcza "dzisiejsze maszyny uczące się na jednym szczeblu". Chociaż prawdą jest, że eksplozja mocy obliczeniowej i dostępnych głębokich zbiorów danych przyniosła wiele zaskakujących i ważnych wyników, mechanika nadal działa "w podobny sposób, w jaki statystyka próbuje dopasować linię do zbioru punktów". Drugi szczebel drabiny przyczynowości przechodzi od patrzenia do działania. Oznacza to, że zaczyna się od pytania, co się stało, do pytania, co by się stało na podstawie możliwych interwencji. Pearl zauważa, że "wielu naukowców przeżyło traumę, gdy dowiedział się, że żadna z metod, których nauczyli się w statystyce, nie jest wystarczająca do sformułowania, nie mówiąc już o odpowiedzi, prostego pytania, takiego jak:" Co się stanie, jeśli podwoimy cenę? ". szczegółowe wyjaśnienie i historia tego, jak i kiedy sam model może odpowiedzieć na takie pytania w przypadku braku eksperymentów na żywo. Trzeci i najwyższy szczebel drabiny zawiera kontrfaktyczne pytania, takie jak: jak wyglądałby świat, gdyby obrano inną ścieżkę? Takie pytania są "budulcem moralnego zachowania, a także myśli naukowej". Umiejętność spojrzenia wstecz i wyobrażenia sobie, co mogło być, rządzi naszymi ocenami sukcesu i porażki, dobra i zła. Gdzie na tej drabinie jest uczenie maszynowe? Osiągnięcia od najnowocześniejszej diagnozy w radiografii klatki piersiowej po umiejętności na poziomie ponadludzkim w grach, takich jak Go i Dota 2, pokazują moc i użyteczność głębokiego uczenia się w świecie rzeczywistym. Niemniej jednak metody te są czasami protekcjonalnie opisywane jako zwykłe "dopasowanie krzywej". Dość powiedzieć, że metody te sprowadzają się do uczenia się bardzo złożonych funkcji zdefiniowanych przez architekturę sieci neuronowej do łączenia wejścia X z wyjściem Y. Dla agenta grającego X to obserwowany stan gry (pozycje na planszy, zdrowie graczy, itd.), a Y to kolejne działanie lub plan. Jak mówi Pearl: "Dopóki nasz system optymalizuje jakąś właściwość obserwowanych danych, niezależnie od tego, jak szlachetne czy wyrafinowane, nie odnosząc się do świata poza danymi, wracamy do poziomu 1 hierarchii ze wszystkimi ograniczeniami, które to poziom pociąga za sobą. W ten sposób znajdujemy AI / ML na pierwszym szczeblu drabiny wnioskowania przyczynowego Pearl. Dlaczego więc sztuczna inteligencja / ML nie ćwiczy szybszego wspinania się po drabinie? Jednym z wyzwań przed którym stoją naukowcy zajmujący się danymi i inżynierowie zajmujący się uczeniem maszynowym zainteresowani poznaniem przyczynowości, jest to, że większość zasobów na ten temat jest ukierunkowana na potrzeby statystyków lub ekonomistów, a nie naukowców zajmujących się danymi i inżynierów uczenia maszynowego. Zamknięcie tej luki stanowi dużą szansę na zwiększenie świadomości na temat sprawiedliwości w połączeniu z szybkimi postępami w technologii sztucznej inteligencji / uczenia maszynowego.

Etyka i Dane (LII)


Złota zasada nauki o danych

Obecnie istnieje nieskończona liczba punktów danych, które rejestrują wszystkie nasze indywidualne zachowania zakupowe, historię przeglądania, trasy dojazdu, dane kontaktowe, odciski palców, akta szkolne, kwestie prawne, zakupy domu / samochodu, historie chorób itd. Osoby z niewielkim lub zerowym kontaktem z analizami lub bazami danych mogą pomyśleć, że istnieją mechanizmy kontrolne mające na celu ochronę tych danych, biorąc pod uwagę oburzenie związane z niedawnymi naruszeniami danych. Prawda jest taka, że istnieje bardzo niewiele wymaganych zabezpieczeń. W Stanach Zjednoczonych obowiązują dwa najważniejsze federalne przepisy dotyczące danych:

•  W obszarze zgodności danych finansowych ustawa Sarbanes-Oxley (SOX) z 2002 r. Jest prawem federalnym, które ustanowiło obszerne przepisy dotyczące audytu i finansów spółek publicznych. Ustawodawcy stworzyli przepisy, aby chronić akcjonariuszy, pracowników i opinię publiczną przed błędami księgowymi i oszukańczymi praktykami finansowymi.
•  W obszarze poufności danych medycznych ustawa o przenośności i odpowiedzialności w ubezpieczeniach zdrowotnych z 1996 r. (HIPAA) zawiera przepisy dotyczące prywatności i bezpieczeństwa danych w celu ochrony informacji medycznych.

Jeśli chodzi o inne wrażliwe dane, takie jak dane karty kredytowej, nie ma przepisów federalnych ani stanowych, które zabraniają przechowywania tych informacji w biurze; jednak może to narazić Cię na konflikt z firmami obsługującymi karty kredytowe. W jaki sposób chronione są inne rodzaje informacji o Tobie? Odpowiedź jest taka, że w większości przypadków decyzja zależy od decyzji poszczególnych firm i narzuconych przez nie polityk. Większość firm chce chronić swoje dane, zapobiegać złośliwym atakom i chronić poufne informacje, aby nie zostały pozwane; to znaczy, procesy sądowe są głównym środkiem odstraszającym. Mniej oczywista lub szara strefa podatności, którą tworzy tak duża ilość danych i osoby, które mają do nich dostęp, to podejmowane decyzje, które mogą mieć nieprzewidziane konsekwencje. Działamy w erze, w której większość ludzi ma szczegóły swojego życia zachowane na komputerach, w telefonach i we wszystkich transakcyjnych bazach danych, z którymi kiedykolwiek mieli do czynienia przy użyciu swoich danych uwierzytelniających. Poniżej znajduje się kilka przykładów sytuacji, które ilustrują rodzaje wglądu uzyskanego z różnych źródeł danych / informacji - niektóre z głębokimi konsekwencjami:

•  Osoby wyszukujące informacje finansowe lub kontaktowe potencjalnych zainteresowań miłosnych.
•  Firmy wydające karty kredytowe i sprzedawcy detaliczni porównujący dane w celu określenia, ilu ich klientów robi również zakupy u konkurencji.
•  Osoby przeglądające media społecznościowe w celu oceny osoby i podejmowania decyzji zawodowych i osobistych.
•  Identyfikacja podejrzanych poprzez śledzenie historii transakcji u sprzedawców detalicznych i wypożyczalni samochodów, nagrania z kamer w bankomatach, DNA pozostawione na miejscu zbrodni i tak dalej. Wiele programów telewizyjnych to przedstawia.
•  Porównywanie recept danej osoby z jej artykułami spożywczymi. Jest to podchwytliwe, ponieważ ma pewne implikacje HIPAA; jednak dane są często przechowywane w tej samej bazie danych i może z tego wyniknąć kilka interesujących rzeczy:

-Diabetycy, którzy kupują dużo słodkich produktów, osoby przyjmujące określone leki z interakcjami żywieniowymi oraz osoby w ciąży kupujące papierosy i alkohol mogą mieć pewne komplikacje medyczne. Czy sprzedawca w sklepie spożywczym lub terminal powinien ich ostrzec o ich złych decyzjach? Co się stanie, jeśli firma ubezpieczeniowa otrzyma te informacje i zacznie odrzucać roszczenia?
- Firma rozważa możliwość zatrudnienia nowych pracowników. Czy kierownik ds. Rekrutacji w firmie może przejrzeć historię medyczną kandydata, kupione losy na loterię lub często kupowane artykuły spożywcze?

•  Udoskonalenie działań marketingowych poprzez wykorzystanie danych dotyczących zakupów i zakupów klienta, wraz z jego preferencjami, w celu zapewnienia lepszych i bardziej wartościowych doświadczeń dla tego klienta, budując lojalność.
•  Korzystanie z danych w celu określenia, które lokalizacje do zamknięcia, obszary, które będą najlepiej wspierać nowe firmy, zwolnionych pracowników, produkty do zaprzestania / wprowadzenia, ustalanie cen zapewniających maksymalny zysk oraz którzy klienci powinni otrzymać lepsze oferty lub udogodnienia.
•  Tworzenie fałszywych kont lub profili społecznościowych przy użyciu łatwo dostępnych informacji i obrazów w celu zabezpieczenia pożyczek, kradzieży tożsamości, oczerniania osoby, robienia kawałów, szerzenia nienawiści, lub sumy samotnych ludzi.
Czy analitycy traktują dane innych osób tak, jak chcą, aby były traktowane ich własne dane? Czy naukowcy zajmujący się danymi są odpowiednimi osobami, które mają mieć uprawnienia strażnika danych w czasach, w których ludzie wierzą w "fałszywe" wiadomości / przyjmują fakty za dobrą monetę? Są to przekonujące pytania, biorąc pod uwagę, że wszelkiego rodzaju naruszenia bezpieczeństwa danych mogą zrujnować życie ludzi i zniszczyć firmy. Etyka w analityce jest skalą ruchomą, podobnie jak poziom szczegółowości, który dana osoba może swobodnie udostępniać. Osoby fizyczne i firmy muszą zachować czujność w zakresie ochrony danych, które kontrolują i do których mają dostęp. Chciałbym, żeby wszyscy przestrzegali Złotej Zasady traktowania danych tak, jak chcą, aby traktowano własne dane; jednak nie zawsze jest to realistyczne

Etyka i Dane (LI)


Błędne klasyfikacje algorytmiczne - (całkiem) dobre, złe i brzydkie

Budowane przez nas systemy każdego dnia nieustannie klasyfikują tożsamość i zachowania ludzi. Transakcja kartą kredytową jest oznaczona jako "oszukańcza" lub nie. Kampanie polityczne decydują o "prawdopodobnych wyborcach" swojego kandydata. Ludzie nieustannie twierdzą i są oceniani na podstawie ich tożsamości "nie jest robotem" za pomocą captcha. Dodając do tego klasyfikację e-maili, rozpoznawanie twarzy w telefonach i ukierunkowane reklamy, łatwo wyobrazić sobie tysiące takich przypadków klasyfikacji dziennie nawet dla jednej osoby. W większości te klasyfikacje są wygodne i całkiem dobre dla użytkownika i organizacji, które je obsługują. Przeważnie o nich zapominamy, chyba że ewidentnie się mylą. Latynos mieszkający w Stanach Zjednoczonych często otrzymuje reklamy w języku hiszpańskim - co byłoby całkiem niezłe, z wyjątkiem tego, że jest brazylijskim Latynosem, a językiem ojczystym jest portugalski, a nie hiszpański. Ta szczególna błędna klasyfikacja nie wyrządza mu żadnej krzywdy. Moje zachowanie w Internecie może wyglądać wystarczająco podobnie do tego, jak u native speakera hiszpańskiego mieszkającego w Stanach Zjednoczonych, a błędnie kierowane reklamy do użytkowników a mogą być niczym innym jak "błędem zaokrąglenia" algorytmu. Chociaż nie jest w niczyim interesie, żebym otrzymywał te reklamy - marnuję swój czas, a firma marnuje pieniądze - kierowanie jest prawdopodobnie "wystarczająco dobre". Ten "dostatecznie dobry" sposób myślenia leży u podstaw wielu zastosowań predykcyjnych w nauce o danych. Jako dziedzina nieustannie umieszczamy ludzi w pudełkach, aby podejmowali decyzje dotyczące nich, mimo że nieuchronnie wiemy, że przewidywania nie będą doskonałe. "Całkiem niezłe" jest w porządku przez większość czasu - zazwyczaj służy do kierowania reklam. Ale te automatyczne klasyfikacje mogą szybko zmienić się z całkiem dobrych przez złe w brzydkie - z powodu skali wdrożenia lub z powodu skażonych danych. Gdy idziemy do dziedzin o wyższą stawkę, poza tymi, do których prawdopodobnie zostali udoskonaleni - takich jak media społecznościowe i reklamy online - wpadamy w problemy. Weźmy na przykład testy psychometryczne. Firmy coraz częściej wykorzystują je do wyeliminowania kandydatów do pracy. Niektóre z tych firm odnotowują dobre wyniki, z wyższymi wynikami i niższymi obrotami. Problem w tym, że chociaż te testy mogą być całkiem dobre, to daleko im do doskonałości. Test IQ, popularny składnik ocen psychometrycznych, jest słabym wskaźnikiem wydajności poznawczej w wielu różnych zadaniach - chociaż z pewnością jest skorelowany z wydajnością w niektórych z nich.

Kiedy pojedyncza firma eliminuje kandydata, który w innym przypadku osiągnąłby dobre wyniki, samo w sobie może nie stanowić dużego problemu. Ale może to być duży problem, gdy testy są stosowane na dużą skalę, a osoba poszukująca pracy jest konsekwentnie wykluczana z zawodów, w których wykonywałby dobre wyniki. I chociaż wykorzystanie tych testów przez jednego prywatnego aktora może być uzasadnione wydajnością. na zasadzie rekrutacji, powinniśmy zatrzymać się, aby zobaczyć, jak te testy są stosowane na dużą skalę do podejmowania decyzji zarówno prywatnych, jak i publicznych (np. egzaminowanie uczniów). Problemy z "całkiem dobrymi" klasyfikacjami wynikają również z martwych punktów w prognozie, a także ze skażonych danych. Było kilka somalijskich rynków w Seattle , które nie mogły przyjmować bonów żywnościowych, ponieważ rząd federalny uważał, że wiele ich transakcji wyglądało na oszukańcze - z wieloma rzadkimi, wysokodolarowymi transakcjami, jedna po drugiej. Ale ten algorytmicznie podejrzany wzorzec miał całkiem rozsądne wytłumaczenie: wynikał z faktu, że wiele rodzin w społeczności, które obsługują rynki, robiło zakupy tylko raz w miesiącu, często dzieląc w tym celu samochód. USDA później cofnął decyzję o odrzuceniu tych bonów żywnościowych, choć dopiero po czterech miesiącach kłopotów z somalijskimi klientami spożywczymi. Podobnie afroamerykańscy wyborcy na Florydzie zostali nieproporcjonalnie pozbawieni praw wyborczych ponieważ ich imiona były częściej automatycznie dopasowywane do imion przestępców. Było tak po prostu dlatego, że Afroamerykanie mają nieproporcjonalny udział powszechnych nazwisk (dziedzictwo oryginalnych nazwisk zostało pozbawione z powodu niewolnictwa). Również na Florydzie czarnoskórzy oskarżeni byli częściej klasyfikowani algorytmicznie jako osoby "wysokiego ryzyka" recydywy, a wśród oskarżonych, którzy nie popełnili recydywy, czarnoskórzy byli ponad dwukrotnie bardziej niż biali określani jako ryzykowni. We wszystkich tych przypadkach niekoniecznie istnieją dowody na złośliwe zamiary. Wyniki można wyjaśnić mieszanką "całkiem dobrych" prognoz i danych odzwierciedlających poprzednie wzorce dyskryminacji - nawet jeśli osoby projektujące i stosujące algorytmy nie miały zamiaru dyskryminować. Chociaż przykłady, które tu wymieniłem, mają szeroki zakres wyrafinowania technicznego, nie ma żadnego powodu, by sądzić, że najbardziej wyrafinowane techniki pozwalają pozbyć się tych problemów. Nawet najnowsze techniki głębokiego uczenia przodują w identyfikowaniu stosunkowo powierzchownych korelacji, a nie głębokich wzorców czy ścieżek przyczynowych. Kluczowym problemem związanym z eksplozją klasyfikacji algorytmicznej jest fakt, że niezmiennie projektujemy życie wokół mnóstwa "całkiem dobrych" algorytmów. "Całkiem dobry" może być świetnym wynikiem w przypadku kierowania reklam. Ale kiedy wdrażamy algorytmy klasyfikacyjne na dużą skalę w aplikacjach, od wykluczeń rejestracji wyborców po decyzje dotyczące zatrudnienia lub pożyczki, ostateczne wyniki mogą być katastrofalne. Droga do piekła jest wybrukowana "całkiem dobrymi" intencjami

Etyka i Dane (L)


Triaż i sztuczna inteligencja

Predictim to usługa, która skanuje media społecznościowe potencjalnych opiekunów i inne działania online i wystawia im ocenę, którą rodzice mogą wykorzystać przy wyborze opiekunki. Jeff Chester, dyrektor wykonawczy Center for Digital Democracy, skomentował, że istnieje "szaleńczy pośpiech, by wykorzystać moc sztucznej inteligencji do podejmowania wszelkiego rodzaju decyzji bez upewnienia się, że jest ona odpowiedzialna przed ludźmi. To tak, jakby ludzie pili cyfrowy Kool-Aid i myśleli, że jest to właściwy sposób zarządzania naszym życiem ". Czy / powinna AI podejmować decyzje? W przypadku technologii transformacyjnych, takich jak samochody samojezdne, odpowiedź nieuchronnie brzmi "tak". Jeśli człowiek musi pozostać za kierownicą, aby podejmować lub ratyfikować decyzje dotyczące jazdy, cel technologii autonomicznej jazdy jest w dużej mierze nieosiągnięty. Jednak uwaga, jaką przyciągnął Predictim, spowodowała utratę jego zautomatyzowanego dostępu (uprawnień do skrobania) do platformy Facebook jako źródła danych.

Pielęgniarski triaż

W wielu codziennych zastosowaniach statystycznych i uczenia maszynowego właściwą rolą predykcyjnej sztucznej inteligencji nie jest lekarz-robot wykonujący diagnozy i stosujący leczenie, ale raczej pielęgniarski triaże. W latach dziewięćdziesiątych XVIII wieku francuski chirurg wojskowy wprowadził systematyczny podział ofiar wojskowych, określany jako triage (od francuskiego trier, "oddzielić"). Ci, dla których natychmiastowe leczenie było krytyczne i korzystne, otrzymali priorytet. Niższy priorytet mieli ci, których stan nie był tak nagły, oraz ci, których stan nie był na tyle ciężki, że prawdopodobnie nie skorzystali z leczenia. Prezydent Obama kiedyś tak opisał nieustającą intensywność podejmowania decyzji przez prezydenta: "Jedyne, co ląduje na moim biurku, to trudne decyzje. Ponieważ, jeśli były to łatwe decyzje, ktoś na dole łańcucha pokarmowego już je podjął ". Tu właśnie powinny nas prowadzić uczenie maszynowe i sztuczna inteligencja: nie odbierać nam wszystkich zadań związanych z podejmowaniem decyzji, a nawet tych ważnych, ale tylko tych łatwych i rutynowych. Ranking rekordów Podobnie jak pielęgniarki, modele predykcyjne przeprowadzają segregację, klasyfikują rekordy zgodnie z ich prawdopodobieństwem zainteresowania i pozwalają ludziom na dokonywanie ustaleń dla bardzo ograniczonego zestawu rekordów. Sortowanie może odbywać się na dwa sposoby. Rozważ przegląd zeznań podatkowych, w których organ podatkowy ma rozszerzenie zdolności do kontroli określonej liczby zwrotów rocznie. Algorytm predykcyjny oparty na statystyce lub uczeniu maszynowym sortuje zwroty według prawdopodobieństwa wymagania audytu, a następnie dzieje się jedna z dwóch rzeczy:

•  Ludzie przeglądają wszystkie zwroty, które są dostatecznie wysokie i decydują, czy skierować je do audytu.
•  Zwroty o najwyższej punktacji są automatycznie kierowane do audytu, a następnie ludzie przeglądają poziom o niższej punktacji i decydują, czy skierować je do audytu.

Fakt, że celem modelu jest ranking, a nie przewidywanie binarne, ma ważne implikacje, jeśli chodzi o ocenę modeli predykcyjnych pod kątem ich wydajności. Dokładność (procent prawidłowo sklasyfikowanych rekordów) może nie być odpowiednia, zwłaszcza gdy odsetek interesujących rekordów jest niski. W tej "rzadkiej sytuacji" modele mogą osiągnąć wysokie wyniki dokładności po prostu przez zaklasyfikowanie wszystkich jako należących do klasy dominującej. Typową miarą jest "obszar pod krzywą" lub AUC. Omawiana krzywa to krzywa charakterystyki pracy odbiornika (ROC). Pole pod tą krzywą jest miarą tego, jak dobrze model rozróżnia dwie klasy rekordów - "1" oznacza doskonałą dyskryminację, a "0,5" nie lepiej niż przypadkowe zgadywanie. Krzywa ROC jest miarą wydajności modelu z całym wymodelowanym zbiorem danych. Często bardziej interesuje nas, jak dobrze model radzi sobie z mniejszym podzbiorem rekordów, w szczególności rekordami najwyżej sklasyfikowanymi. Na przykład, jak dobrze radził sobie model z 10% najlepszych deklaracji podatkowych uznanych za najbardziej prawdopodobne, że są oszukańcze? W tym celu projektanci wykorzystują koncepcję wzrostu, skumulowanej lub segmentowej poprawy, jaką uzyskuje się z modelu, zamiast wybierać losowo w poszukiwaniu interesujących rekordów. Na przykład wzrost o 100% w górnym decylu oznacza, że prawdopodobieństwo znalezienia rekordu zainteresowania w najwyższym decylu modelu jest dwukrotnie większe niż w przypadku wyboru losowego. Pochodzi z wczesnych dni modelowania predykcyjnego dla direct mail. Osoby wysyłające pocztę bezpośrednią zwykle borykają się z niskim wskaźnikiem odpowiedzi i potrzebują narzędzia, które pozwoli im wybrać tylko tych najbardziej prawdopodobnych.

Etyka w nauce o danych

Rola sztucznej inteligencji w przejmowaniu rutynowych i powtarzalnych zadań opartych na informacjach może potencjalnie wzbogacić życie zawodowe poprzez prowadzenie segregacji, a nie w pełni zautomatyzowane podejmowanie decyzji. Miejsca pracy zmienią się w kierunku bardziej wymagających i interesujących miejsc pracy, których podaż wzrośnie wraz ze zmianami gospodarczymi w odpowiedzi na uwolnienie ludzkiej kreatywności. Jeff Bezos, właściciel Amazona, podał ten przykład, wyjaśniając, dlaczego nie martwi się braniem sztucznej inteligencji do pracy poza domem. Jedyną potencjalną miną lądową w tym scenariuszu jest ta, którą założył naturalny ludzki instynkt zarabiania pieniędzy. Predictim wie, że jest niedoskonały w oceniających ryzyko opiekunów do dzieci. Ale wie również, że rodzice nie są w stanie zważyć niuansów szacunków statystycznych; wszystko, co mają, to jeden wynik. Predictim wie również, że tajemnica otaczająca sztuczną inteligencję pomaga jej sprzedawać produkt, którego nie musi nawet nadużywać. Naukowiec zajmujący się danymi etycznymi ukryłby taki produkt w wystarczających ostrzeżeniach, że nie zostanie on niewłaściwie użyty. A może w ogóle nie sprzedawaj takiego produktu. Komercyjny analityk danych oferuje wynik opiekunki, skryty mistyką sztucznej inteli… zastrzegam pustkę.

Etyka i Dane (XLIX)


Unikaj niewłaściwej części skali przerażenia

Niektóre algorytmy, które wykorzystują dane osobowe, są postrzegane jako pomocne, na przykład rekomendacje filmów na Netflix, rekomendacje pobliskich restauracji z Yelp i trasy dojazdu Waze. Inne są przerażające. Pamiętasz, jak po raz pierwszy oglądałeś przedmiot w Internecie i przez kilka dni obserwowałeś reklamy różnych dostawców? Przerażające jest też spotkanie kogoś po raz pierwszy, a wkrótce potem otrzymanie rekomendacji od znajomych na Facebooku dla tej osoby. Niektóre sposoby wykorzystania danych osobowych są po prostu tak niewłaściwe, jak na przykład próby wywierania przez Rosję wpływu na wyniki wyborów poprzez ukierunkowane kanały informacyjne lub otrzymywanie reklamy od sprzedawcy pierścionków zaręczynowych po zmianie statusu związku z "Zaręczony" na "Wolny" na Facebooku. Różne reakcje na wykorzystanie danych osobowych i algorytmów można rozpatrywać za pomocą skali pełzania, jak pokazano na poniższym rysunku, gdzie stopień pełzania znajduje się na osi Y, a zakres wykorzystania danych osobowych i algorytmów jest na osi x.



Coś jest przerażające, gdy różni się od normy i jest postrzegane jako potencjalnie groźne lub szkodliwe. Na przykład aplikacja, która ujawnia innym Twoją lokalizację bez Twojej wiedzy, jest zazwyczaj przerażająca (lub po prostu błędna), podczas gdy inne funkcje aplikacji, takie jak rekomendacje zakupów Amazon, są ogólnie postrzegane jako pomocne, ponieważ nie stanowią zagrożenia. Ważny jest również czas i treść reklamy lub wiadomości. Na przykład nie wydaje się właściwe otrzymywanie reklamy adwokata ds. obrażeń ciała, gdy jesteś na szpitalnej izbie przyjęć. Nie chcesz również oglądać reklam opieki hospicyjnej po wysłaniu e-maila do znajomego o nowo zdiagnozowanym raku. To, co ludzie postrzegają jako przerażające, różni się w zależności od osoby i może się zmieniać w czasie, a ludzie mają różne obawy dotyczące prywatności i traktują ją na różne sposoby. Na przykład ogólnie uważa się, że milenialsi mniej troszczą się o prywatność niż inne grupy demograficzne ze względu na obszerne publikowanie danych osobowych w mediach społecznościowych; mimo to kontrolują swoje dane osobowe, przez kogo blokują (np. byłego chłopaka). Kiedy osoba po raz pierwszy widzi reklamę, która podąża za nią w internecie, nie uważa jej za przerażającą, gdy pojawia się ponownie. Aplikacja, która w dużym stopniu wykorzystuje dane osobowe i zaawansowane algorytmy, nie zawsze jest przerażająca. Na przykład First Data (niedawno przejęta przez Fiserv) wykorzystuje znaczną ilość danych osobowych i model oparty na głębokim uczeniu się, aby automatycznie wykrywać i zapobiegać oszustwom związanym z kartami kredytowymi w Internecie i sklepach. Klienci nie przejmują się tym użyciem (poza okazjonalnym wezwaniem do fałszywego pozytywnego wyniku), ponieważ są chronieni. Narzekać mogą tylko oszuści i nikt ich nie żałuje. Z drugiej strony aplikacja może być mocno krytykowana, nawet jeśli wykorzystuje niewiele danych osobowych. Tak było w przypadku branży lotniczej, gdy niektóre algorytmy ustalania cen linii lotniczych podniosły ceny biletów dla ludzi, którzy próbowali uciec z południowej Florydy, zanim uderzył huragan Irma. Ta dyskusja pokazuje, że przerażenie to zniuansowana koncepcja. Nawet jeśli potencjalna aplikacja jest legalna (i jest to coraz częściej brane pod uwagę), nie oznacza to, że jest uczciwa i etyczna i powinna zostać opracowana. Co zatem powinni zrobić menedżerowie, specjaliści i firmy, aby upewnić się, że nie rozwijają i nie używają aplikacji w częściach "to jest przerażające" i "to jest takie złe"? Najważniejszym pojedynczym działaniem jest rozszerzenie zarządzania (np. ludzi, komitetów i procesów), aby objąć dodatkowe osoby, które zapewniają potrzebną perspektywę dla każdej aplikacji analitycznej. Procesy mogą się różnić, ale muszą być zaangażowani menedżerowie biznesowi, IT i analitycy, a także prawnicy, analitycy danych i specjaliści biznesowi, którzy wchodzą w interakcje z klientami. Menedżerowie biznesowi i specjaliści są potrzebni do oceny potencjalnego ryzyka biznesowego. Prawnicy są zobowiązani do zapewnienia, że sposób, w jaki dane osobowe są pozyskiwane, przechowywane, chronione, wykorzystywane i udostępniane, nie narusza przepisów i regulacji, takich jak RODO Unii Europejskiej i CCPA. Menedżerowie i specjaliści IT są odpowiedzialni za bezpieczne gromadzenie, przechowywanie, wykorzystywanie i ewentualnie udostępnianie danych. Menedżerowie ds. Analiz i naukowcy zajmujący się danymi muszą rozszerzyć swoje obawy poza zwykłe tworzenie dokładnych modeli, aby rozważyć szersze kwestie związane z ich pracą. Osoby bliskie opinii publicznej muszą odpowiedzieć na pytanie, czy jest to sprawiedliwe i leży w najlepszym interesie klienta?

Etyka i Dane (XLVIII)


Etyka przekazywania prognoz dotyczących uczenia maszynowego

Dzisiejsi ludzie są zafascynowani niesamowitą mocą obliczeniową, jaką dysponujemy. Komputery mogą znajdować informacje szybciej niż ludzie, wydobywać wnioski z danych dokładniej niż wiele osób, odpowiadać na pytania szybciej niż eksperci, grać w szachy lepiej niż mistrzowie i wiele więcej. Ludzie zbudowali tak wiele szacunku dla maszyn i zaufania do maszyn, że często przekazują spostrzeżenia generowane przez maszyny jako fakty. W swoim artykule "Mediana nie jest przesłaniem", pierwotnie opublikowanym w magazynie Discover w 1985 r., znany antropolog ewolucyjny Stephen Jay Gould po raz pierwszy ostrzegł nas o niebezpieczeństwach i ustnych konsekwencjach przedstawiania prognoz statystycznych i opartych na uczeniu maszynowym zwykłym ludziom, którzy tego nie robią. mają podstawy matematyczne lub naukowe. W artykule opisuje swoje osobiste doświadczenia związane z diagnozą śmiertelnego raka i odmowę lekarza, aby powiedzieć mu o oczekiwanej długości życia. Sam przeprowadził badania w bibliotece medycznej na Harvardzie i dowiedział się, że średnia długość życia wynosi zaledwie osiem miesięcy: "Dlatego nie dali mi nic do czytania" - pomyślał. "Wtedy mój umysł znów zaczął pracować, dzięki Bogu". Gould wyjaśnia dalej, dlaczego używanie mediany, średniej lub innych statystycznie wyprowadzonych przewidywań do przekazywania oczekiwanej długości życia nieuleczalnych chorób jest błędne. Pozytywne nastawienie pacjentów nieuleczalnie chorych odgrywa kluczową rolę w zwiększaniu efektów leczenia. Ale prognozy statystyczne zwykle zabijają pozytywne nastawienie, ponieważ ludzie, którzy nie są zaznajomieni z nauką o statystyce, nieuchronnie błędnie interpretują przekaz. Jak wskazuje: co oznacza "średnia śmiertelność ośmiomiesięczna" w naszym języku narodowym? Podejrzewam, że większość ludzi bez przeszkolenia w statystykach przeczytałaby takie stwierdzenie jak "Prawdopodobnie umrę za osiem miesięcy" - sam wniosek, którego należy unikać, zarówno dlatego, że to sformułowanie jest fałszywe, jak i dlatego, że postawa ma tak duże znaczenie. Problem z wieloma miarami tendencji statystycznych, takimi jak mediana i średnia, polega na tym, że są one traktowane jako twarde fakty, podczas gdy zmienność wokół nich jest ignorowana przez osoby niezaznajomione z tymi technikami. Ale powinno być dokładnie odwrotnie. Zmienność jest faktem życia, podczas gdy mediana i średnia to tylko artefakty zapewniające niedokładną reprezentację znacznie bardziej złożonej rzeczywistości. Po postawieniu diagnozy Gould przeżył kolejne 20 lat i opublikował wiele książek. 31 stycznia 2020 r. podczas The Daily Show z Trevorem Noah prowadzący program zapytał, co zrobić z informacją, że oczekiwana długość życia w Stanach Zjednoczonych wzrosła po raz pierwszy od czterech lat, do 74 lat. Czy gratulujemy osobom, które osiągnęły ten wiek? Czy stawiamy sobie osobiste cele, aby osiągnąć ten wiek? Czy uważamy ludzi, którzy nie osiągają tego wieku, za przegranych? Wszystko to wskazuje na znaczenie sposobu, w jaki przekazujemy informacje pochodzące z uczenia maszynowego. Wyobraź sobie zautomatyzowany system podejmowania decyzji, w którym pacjent jest diagnozowany algorytmicznie, a oczekiwana długość życia jest wyświetlana jako duży migający kluczowy wskaźnik wydajności (KPI). Jest nie tylko bez znaczenia; może to być również demoralizujące. W miarę wdrażania większej liczby aplikacji do uczenia maszynowego prawdopodobnie zobaczymy więcej takich wskaźników KPI. Nie opracowaliśmy jeszcze wizualizacji, które mogłyby w znaczący sposób przekazać lekarzom i pacjentom znaczenie zmienności i interpretację zmienności. Naukowcy zajmujący się danymi zwracają uwagę, że ciężar wyjaśnień spada na lekarzy. Ale lekarze nie są naukowcami zajmującymi się danymi i podobnie jak wielu innych ludzi są bardziej skłonni zaakceptować takie prognozy jako fakty. Im trudniej jest wyjaśnić znaczenie tendencji i zmienności wokół nich, tym bardziej prawdopodobne jest, że ludzie będą odnosić się do jednej liczby jako do faktu życia. Ten problem nie ogranicza się do opieki zdrowotnej. Wyobraź sobie, że menedżerowie w jakiejkolwiek branży potraktują główne tendencje jako twarde fakty, które definiują cele, które muszą osiągnąć. Będzie wiele niedokładnych planów i jeszcze więcej straconych okazji. Dlatego branża analityczna musi skupić się na rozwiązaniu problemu komunikacyjnego w zakresie spostrzeżeń i prognoz generowanych przez maszyny. Nie możemy oczekiwać, że zwykli ludzie i profesjonaliści zrozumieją wszystkie zawiłości złożonego procesu modelowania.

Etyka i Dane (XLVII)


Znaczenie budowania wiedzy w zdemokratyzowanych dziedzinach nauki o danych

Powszechnie wiadomo, że narzędzia do nauki o danych stają się coraz bardziej "zdemokratyzowane" lub szerzej rozprowadzane w organizacjach do ról, które jeszcze nie tak dawno musiały żądać analizy, a nie wykonywać ją samodzielnie. Narzędzia te są coraz bardziej wyrafinowane pod względem poszczególnych technik analizy, możliwości łączenia się z różnego rodzaju źródłami danych oraz możliwości udostępniania danych osobom w organizacji i poza nią. Głównym powodem, dla którego narzędzia do nauki o danych mogą być szeroko zdemokratyzowane w organizacjach, nawet jeśli stają się coraz potężniejsze i bardziej wyrafinowane, jest to, że twórcy narzędzi są w stanie skutecznie ukryć swoją złożoność przed użytkownikami końcowymi (do czasu, gdy użytkownik będzie musiał warstwy z określonych powodów). Połączenie ukrytej złożoności i wyrafinowanych analiz wprowadza pewne ryzyko, gdy analiza danych prowadzi do podejmowania decyzji. W znacznie zbyt prostej analogii, ufamy użytkownikom, że używają kalkulatorów, ponieważ znają i mają wiedzę na temat podstawowych arytmetyki. Co się dzieje, gdy funkcja analizy jest dostępna po kliknięciu przycisku, a użytkownik końcowy nie rozumie "arytmetyki"? Potencjalnie może otworzyć drzwi do analiz wykorzystujących niewłaściwe techniki, naruszających kluczowe założenia i prezentujących wyniki, które wprowadzają w błąd, a wszystko to może prowadzić do nieoptymalnych lub błędnych decyzji. Co się dzieje, gdy te błędne decyzje wpływają nieuczciwie na pracowników, klientów lub innych wyborców? Ogólnie rzecz biorąc, ryzyko to nie jest tak wysokie, gdy mamy do czynienia ze statystyką opisową i wizualizacją danych. Jednak może to stać się bardziej problematyczne, gdy analiza w większym stopniu opiera się na statystykach, algorytmach, uczeniu maszynowym i sztucznej inteligencji. Innymi słowy, poziom ryzyka nie jest jednolity przy wdrażaniu narzędzi do analityki danych w organizacji. Jaki jest poziom odpowiedzialności analityka i decydentów, gdy są ślepi na metody dające wyniki? W jaki sposób można zmniejszyć ryzyko, gdy podstawowa złożoność jest wysoka, a łatwość użycia - wysoka? Pierwszą ścieżką jest podkreślenie ciągłej edukacji. Wraz z rozwojem generacji narzędzi niezwykle ważne jest, aby dział szkoleniowy i edukacyjny organizacji i uniwersytetów obejmował nie tylko użycie i funkcjonalność narzędzi, ale także ograniczenia, założenia i pułapki różnych metod analitycznych. Bez ciągłej edukacji na poziomie użytkownika końcowego analizy będą błędne - choć być może tylko sporadycznie - co podważy podejmowane w organizacjach wysiłki decyzyjne oparte na danych. Jeśli nie wiem, którym analizom mogę zaufać, ponieważ są zasadniczo solidne, wykorzystują wiarygodne dane i nie naruszają założeń technik, to jak mogę zaufać którejkolwiek z analiz? Drugą możliwością jest wykorzystanie oprogramowania do monitorowania założeń, wydawania zaleceń w oparciu o znane ograniczenia techniczne i powiadamiania użytkowników końcowych, gdy analiza może być podatna na ataki. Na przykład, czy mój zbiór danych zapewnia zbyt dużą moc statystyczną i czy wnioski muszą być weryfikowane w inny sposób? Czy moje dane naruszają wymagania normalności? Wbudowane systemy ostrzegawcze nie tylko ograniczają ryzyko wynikające z różnego rodzaju analiz, ale także służą do informowania użytkowników końcowych, o jakich obszarach potrzebują więcej wiedzy. Organizacje muszą rozumieć poziom wiedzy niezbędny do kompetentnego, etycznego i odpowiedzialnego działania na różnych poziomach zaawansowania. Bez poświęcenia się wiedzy, która jest odpowiednia dla typów analiz, organizacja będzie narażona na podważenie wiary w podejmowanie decyzji, podejmowanie decyzji, które mają negatywny wpływ na użytkowników, a nawet popadnięcie w konflikt z wartościami organizacyjnymi. Mogą istnieć inne techniki łagodzenia ryzyka związanego z demokratyzacją narzędzi do nauki o danych w organizacjach, ale jest oczywiste, że rozwijające się możliwości tych narzędzi wymagają ciągłego budowania wiedzy wśród analityków, w ramach oprogramowania, a najlepiej w obu.

Etyka i Dane (XLVI)


W kierunku uczenia maszynowego opartego na wartościach

Uczenie maszynowe (ML) stało się integralną częścią wielu aspektów współczesnego życia, w miarę rozpowszechniania się cyfrowych doświadczeń i coraz bardziej polegamy na zautomatyzowanych algorytmach do odkrywania, selekcji i kierowania naszymi wyborami w obszarach tak różnych, jak treści rozrywkowe (np. Medium i TikTok), komunikacja (Slack i Gmail), nawigacja (Google Maps) i zakupy (Amazon i Stitch Fix). ML jest często postrzegane jako technologia neutralna pod względem wartości i jako obiektywna, niepowiązana z wartościami lub od nich zależna. Ale rzeczywistość jest taka, że ML jest narzędziem - i jak każde narzędzie, jego użycie opiera się na wartościach, a konsekwencje, jakie stwarza, wpływają na nasze wartości. Stosowanie ML prowadzi do niezamierzonych konsekwencji. Podobnie jak zły dżin, modele ML często zapewniają dokładnie to, czego chciałeś (zoptymalizować to, co określisz), ale nie to, co naprawdę zamierzałeś. Dziesięć lat temu, często byliśmy sfrustrowani, widząc, że stworzone przez nas modele ML nie działają poprawnie. Wykorzystywały subtelne błędy w naszych danych lub konfiguracji problemów, a my musieliśmy ciężko pracować, aby zrozumieć, co sprawia, że działają, abyśmy mogli naprawić nasze dane i naprawić nasze cele (lub funkcje utraty), aby osiągnąć zamierzone rezultaty. Niedawno pojawiły się ważne przypadki niezamierzonych konsekwencji ML w obszarach takich jak tendencyjne modele ML. Przykłady obejmują algorytmy zatrudniania firmy Amazon, które były uprzedzone do zatrudniania kobiet-inżynierów, oraz algorytmy Alphabet Jigsaw dotyczące toksycznych treści, które były uprzedzone w stosunku do docelowych grup tożsamości. Mówiąc bardziej ogólnie, systemy rekomendacji wykazują tendencję do kiepskich, prowokujących treści typu "przynęta na kliknięcia" (np. Wpływ ostatnich zmian algorytmicznych na Facebooku). Istnieją również wyzwania związane z wartością wynikającą z jawnego zaszkodzenia interesom klientów - na przykład Amazon zmienia wyniki wyszukiwania oparte na ML na korzyść własnej rentowności w stosunku do tego, czego chcą klienci. Do tej pory większość schematów rozwiązywania tych problemów opierała się na założeniu, że można zoptymalizować pod kątem funkcji celu neutralnej pod względem wartości (np. Maksymalizacji przychodów lub czasu spędzonego na aplikacji) podczas budowania różnych barier ochronnych. Typowe techniki obejmują odfiltrowywanie problematycznych przypadków, przygotowywanie danych w celu uniknięcia uprzedzeń, opracowywanie narzędzi do wyjaśniania modelu i śledzenie wskaźników wtórnych (np. Śledzenie długoterminowego zaangażowania kohorty, a nie krótkoterminowej odpowiedzi). Uważam, że takie podejście jest zasadniczo niewystarczające, a cele neutralne pod względem wartości są z definicji amoralne. Zamiast tego uważam, że musimy zrobić więcej: musimy zakodować wartości w celach, które mierzymy, i pracować nad sposobami wyraźnego uzyskiwania dobrych wyników dzięki ML, oprócz innych etycznych praktyk sztucznej inteligencji. Przykład znaczenia wartości

Rozważ systemy rekomendacji treści. Tristan Harris, współzałożyciel Center for Humane Technology, ma fajny sposób myślenia o tym problemie. Wyobraź sobie spektrum treści, od regeneracyjnych (tj. Refleksyjnych i przemyślanych treści, takich jak artykuły w powszechnie szanowanych publikacjach), po ekstraktywne (tj. podżegające i skrajne treści, takie jak poboczne lub spiskowe strony). Kilka lat temu systemy rekomendacji treści były często szkolone pod kątem optymalizacji kliknięć. W rezultacie powstało wiele tandetnych treści, które nie były angażujące dla użytkowników (ani nie regenerowały!). Następną ewolucją była optymalizacja pod kątem łącznego czasu zaangażowania. Doprowadziło to do bardziej trwałego zaangażowania użytkowników, ale nieuchronnie doprowadziło do bardziej zapalnych i ekstremalnych treści (takich jak teorie spiskowe, ekstremizm polityczny i działalność przestępcza). W tym spektrum treści system jest przechylony na prawą stronę wykresu = zaangażowanie użytkownika przepływa w kierunku bardziej sensacyjnego i niepokojącego materiału. Tendencja ta zwiększyła również uzależnienie cyfrowe i, w znaczący sposób, obniżyła ocenę użytkowników systemów i szerzej, społeczeństwa. Pomogło korzystanie z weryfikacji manualnej, przestrzegania zasad warunków korzystania z usług i systemów pomocniczych do blokowania i / lub nie rekomendowania oraz / lub niewyświetlania reklam w przypadku niedokładnych lub innych złych treści. Jednak źli aktorzy nieustannie znajdują sposoby, aby zbadać granicę i stworzyć najgorsze, najbardziej uzależniające treści, które będą promowane. Możesz myśleć o tych praktykach jako o tworzeniu barier przed najgorszymi treściami, przy jednoczesnym zachowaniu tego samego szkodliwego przepływu. I odwrotnie, wyobraź sobie system, który wyraźnie optymalizuje pod kątem wysokiej jakości zaangażowania, wzmacniając regenerujące się treści. Powinno to obejmować pomysły, takie jak dopasowywanie zasobów wydanych przez użytkowników do ich intencji - na przykład "Chciałbym cieszyć się nie więcej niż pięć godzin tygodniowo na zabawnych treściach", "Nie chcę być wciągany w oglądanie filmów o kotach do 2 w nocy "lub" Chciałbym wydawać maksymalnie 50 USD miesięcznie na rozrywkę wideo ". Powinien również obejmować wpływ na społeczeństwo jako całość - na przykład poprzez informowanie ludzi, prowokowanie znaczącego zaangażowania, zachęcanie do głębokich interakcji osobistych i umożliwianie ewolucji dyskursu politycznego. Oczywiście są to pojęcia trudne do przedstawienia jako prosta funkcja matematyczna - i istnieje ogromna różnorodność poglądów na temat tego, co oznacza zaangażowanie na wysokim poziomie. Jak kontynuować?

Nie należy tego postrzegać jako przeszkody w rozwoju, ale jako wielkie wyzwanie, które społeczność technologiczna powinna podjąć. Jak możemy lepiej tworzyć obiektywne funkcje, które optymalizują nasze wartości? Jak możemy lepiej przewidywać i łagodzić niezamierzone konsekwencje? Jak możemy włączyć większą przejrzystość i widoczność do celów, które kodują nasze systemy? Wierzę, że stanie się to krytyczną dyscypliną inżynierską łączącą techniczną przenikliwość z szerszym wglądem w cele polityki i etykę. Podobnie François Chollet (twórca Keras) uważa, że właściwe cele dla ML są ważne, przewidując, że "inżynier funkcji strat prawdopodobnie będzie stanowił stanowisko w przyszłości". Istnieje wiele możliwości, aby zlikwidować lukę między długoterminowymi badaniami nad dostosowywaniem wartości sztucznej inteligencji (np. Uczenie się z odwrotnym wzmacnianiem) a praktycznymi celami dzisiejszych systemów. Ale najważniejszym krokiem jest przejęcie odpowiedzialności za etykę systemów sztucznej inteligencji i włączenie wartości do ich projektu, zwłaszcza ich celów!

Etyka i Dane (XLV)


Nie generalizuj, dopóki nie zrobi tego Twój model

Niesamowite postępy w uczeniu maszynowym wynikają z możliwości znajdowania wzorców w (często dużych) zestawach danych treningowych. Ta zdolność może skutkować przewidywaniami, które pasują, a często przewyższają te stworzone przez ludzi przy tym samym zadaniu. Jednak systemy te można czasem oszukać, wykonując zadanie przewidywania, które nie oszuka człowieka. Jednym z przykładów jest system ML, który może poprawnie zidentyfikować znak drogowy, taki jak znak stopu, ale nieprawidłowo przewiduje, że znak stopu zniszczony kilkoma czarno-białymi naklejkami jest w rzeczywistości znakiem ograniczenia prędkości. Przyczyną tego zaskakującego braku możliwości jest to, że systemy uczenia maszynowego przedstawiają swoje przewidywania w inny sposób niż ludzie. Poszukują rozróżnienia między różnymi grupami wyników, np. Którzy wnioskodawcy powinni zostać zatwierdzeni lub odrzuceni. Jednak ludzie stosują kombinację rozpoznawania wzorców i rozumowania. Brak tego kroku rozumowania w systemach uczenia maszynowego może prowadzić do zaskakujących wyników, jak w przypadku przykładu ze znakiem stop. Opinia publiczna otrzymuje następnie następujące wrażenie uczenia maszynowego (AI):

•  Sztuczna inteligencja czasami "myśli" lepiej niż ludzie.
•  Sztuczną inteligencję można łatwo oszukać, a zatem nie jest ona godna zaufania.

Rezultatem jest nadludzka technologia, której nie można ufać. Wstaw tutaj swój ulubiony scenariusz filmowy. Co możemy z tym zrobić? Cóż, jako naukowcy zajmujący się danymi, mamy niewielką kontrolę nad tym, jak media przedstawią naszą pracę, zwłaszcza biorąc pod uwagę, że prace techniczne będą musiały zostać podsumowane dla nietechnicznej publiczności. Uważam jednak, że na początku tego ciągu komunikacyjnego nie robimy wystarczająco dużo, aby zwiększyć zaufanie do systemów sztucznej inteligencji. Musimy dokładniej określić, co faktycznie robią nasze systemy. Rozważmy przykład. Załóżmy, że opracowaliśmy model do przewidywania zdolności kredytowej dla osób ubiegających się o pożyczkę na Brooklynie w Nowym Jorku. Model rozważa informacje, takie jak wynagrodzenie, dług, posiadanie domu i samochodu itd., aby przewidzieć, czy wnioskodawca spłaci pożyczkę. Model został przetestowany i wdrożony na Brooklynie i wykazuje 95% dokładności. Bazując na tym sukcesie, firma rozważa wdrożenie modelu w Bismarck w Północnej Dakocie. Czy powinniśmy oczekiwać, że będzie tak samo dokładny w Bismarck, gdzie inne czynniki, takie jak posiadanie domu i samochodu, mogą być zupełnie inne niż na Brooklynie? Twierdzę, że sposób, w jaki opiszemy doświadczenie z Brooklynu, znacząco wpłynie na oczekiwania dotyczące wdrożenia Bismarcka. Rozważ następujące dwa twierdzenia:

•  Model poprawnie przewiduje zdolność kredytową z 95% dokładnością.
•  Model poprawnie przewiduje zdolność kredytową kandydatów z Brooklynu w Nowym Jorku z dokładnością 95%.

Chociaż twierdzenia różnią się jedynie słowami "dla wnioskodawców z Brooklynu w Nowym Jorku", wpływ może być znaczący. Drugie twierdzenie dokładnie opisuje cechy modelu, podczas gdy pierwsze twierdzenie sugeruje, że model działa na ogół z 95% dokładnością. Drugie roszczenie nie zawiera żadnych wyraźnych ani dorozumianych twierdzeń dotyczących kandydatów z innych lokalizacji, a nawet wnioskodawców z innych części Nowego Jorku. Zachęca zainteresowaną stronę do pytania: czy osoby ubiegające się o pożyczkę w Bismarck są podobne do tych, którzy ubiegają się o pożyczkę w Brooklynie? Ponieważ jest prawdopodobne, że średnio kilka czynników będzie się znacznie różniło w obu miastach, należałoby przeprowadzić szeroko zakrojone testy modelu w Bismarck, zanim nabrałoby pewności co do jego skuteczności. Uogólnienie to termin określający, czy model faktycznie działa na ogólnych danych wejściowych (Bismarck lub gdzie indziej) poza testowym zestawem danych (Brooklyn). Tak więc, naukowcy zajmujący się danymi, opiszcie proszę dokładnie wyniki swojego modelu i nie uogólniajcie twierdzeń na temat swojego modelu, dopóki nie będziecie wiedzieć, że model się uaktywni!

Etyka i Dane (XLIV)


Prawdopodobieństwo - prawo, które rządzi etyką analityczną

Analityka przez lata pomagała nam lepiej zrozumieć nasz świat i wspierała podejmowanie decyzji. Wraz z pojawieniem się bardziej zaawansowanych technik analitycznych doszliśmy do punktu, w którym osoby inne niż ludzie mogą samodzielnie podejmować decyzje w naszym imieniu. Wiele napisano o pojęciach takich jak "uczenie maszynowe" i "uczenie głębokie" jako technikach, które mogą przynieść niesamowite rezultaty. Ostatecznie jednak nie możesz podejmować żadnych decyzji za pomocą tych technik bez uprzedniego zrozumienia prawdopodobieństwa i jego etycznych implikacji dla decyzji opartych na analizie.

Kiedy zderzają się prawdopodobieństwo i etyka

Gdybyś zapytał algorytm, czy powinieneś grać w loterię, odpowiedź niewątpliwie brzmiałaby "nie". Jest statystycznie niemożliwe (na podstawie prawdopodobieństwa i poziomu pewności), że wygrasz, dlatego gra nie jest warta praktycznego ryzyka. Prawda jest taka, że chociaż ta decyzja jest odpowiednia dla prawie wszystkich, biorąc pod uwagę samą liczbę osób, które grają w loterię, ktoś w końcu wygra. Popełnienie tego błędu wydaje się niewielkie w tym kontekście (chyba że przegapiłeś swoje miliony). A co jeśli jednak decyzja podjęta przez algorytm zabrania ci wejścia na pokład samolotu? A co, jeśli błędnie zdiagnozował raka? A co by było, gdyby pojazd autonomiczny skręcił w prawo i uderzył dziecko, ponieważ "przewidział", że istnieje większe ryzyko, że jedzie w lewo? Żadna z tych decyzji nie może być pewna, a do każdej z nich stosuje się pewien akceptowalny poziom ryzyka w oparciu o prawdopodobieństwo lub prawdopodobieństwo słuszności - a model nie zazna ani chwili żalu, jeśli podjął złą decyzję.

Jak ludzie próbują wtrącać etykę do algorytmów

Małżeństwo ludzi i maszyn w celu podejmowania decyzji ma wiele zalet. Problem polega na tym, że za każdym razem, gdy ludzie próbują zastosować standardy etyczne do modelu, z natury rzeczy wtrącają (na dobre lub na złe) pewien poziom uprzedzeń. Przykłady zawierają:

Wstrzyknięcie "właściwego" nastawienia

Firmy takie jak Google i Facebook spotkały się z dużym sprzeciwem w badaniach pokazujących, że ich algorytmy wydały zalecenia, które faworyzują niektórych dostawców informacji nad innymi. Niezależnie od tego, czy zamierzone były nikczemne lub wyraźne uprzedzenia, firmy te nadal ulepszają swoje algorytmy, aby wykazać, że ich wyniki lepiej odzwierciedlają postrzeganie tego, co ktoś uważa, że powinien reprezentować.

Ogłupiam model

Głębokie uczenie zyskało sławę w ciągu ostatnich kilku lat jako technika wykorzystywana w wielu głośnych zastosowaniach (rozpoznawanie obrazu, tłumaczenie mowy, zaawansowane gry itp.). Wadą uczenia głębokiego jest to, że trudno jest, jeśli nie niemożliwe, określić, dlaczego osiągnięto określony wynik. W niektórych przypadkach firmy i inne agencje są zmuszone uciekać się do prostszych i mniej skutecznych (niektórzy mogą nawet powiedzieć, że głupsze) technik, aby wyjaśnić powody takiej decyzji.

Uchylenie decyzji

Istnieje wiele przypadków, w których możliwość zastąpienia algorytmu ma sens. Jednak w innych przypadkach przesłonięcie algorytmu daje nam fałszywe poczucie bezpieczeństwa. Na przykład niektóre autonomiczne usługi samochodowe rozwiązały problem złej prasy (z powodu poważnych wypadków), siadając pracownika na przednim siedzeniu i nic nie robiąc, chociaż prawdopodobnie są gotowi chwycić za kierownicę, jeśli to konieczne. Chociaż może to dać nam poczucie kontroli, można by argumentować, że wstrzyknięcie ludziom w ten sposób jest w najlepszym przypadku fałszywe, a w najgorszym przynosi efekt przeciwny do zamierzonego lub nawet niebezpieczny.

Etyczne konsekwencje podejmowania decyzji bez ludzi

Marsz w kierunku podejmowania bardziej autonomicznych decyzji w naszym imieniu jest nieunikniony. Niemniej na pewno będą sytuacje, w których decyzja jest statystycznie uzasadniona ... ale będzie błędna. Jeśli polecisz zły film do obejrzenia, nie jest to katastrofalne. Jeśli jednak algorytm podejmuje decyzję dotyczącą życia lub śmierci tysiące lub miliony razy, model będzie czasami błędny. Być może korzyści znacznie przewyższają potencjalne błędy, a być może algorytm jest nieskończenie lepszy w podejmowaniu takiej decyzji niż człowiek. Niemniej jednak dla kogoś, na kogo ma wpływ emocjonalny rezultat pozbawionego emocji decydenta, będzie to niewątpliwie niewystarczające pocieszenie. Tak więc w przyszłości, gdy myślimy o etycznych implikacjach przekazywania złożonych decyzji nieemocjonalnym algorytmom, które opierają swoje decyzje na prawach prawdopodobieństwa, musimy zadać sobie pytanie: czy jesteśmy tego pewni?

Etyka i Dane (XLIII)


Brak równowagi czynników wpływających na społeczne wykorzystanie danych naukowych

Jest oczywiste, że nie ma nauki o danych bez danych. Najbardziej przydatne dane są generowane przez ludzi i / lub na nich oparte na ulepszeniach społecznych. Istnieje wiele czynników, które wpływają na wykorzystanie takich danych, takich jak potrzeba prywatności, motywacja do analizy oraz korzyści płynące ze wspólnych, zbiorczych danych. Na potrzeby tego eseju założymy, że termin "udostępnione dane" oznacza dane, które łączą wpisy danych stworzone przez i / lub na podstawie wielu ludzi, w przeciwieństwie do danych, które reprezentują jedną osobę. Często we współczesnych dyskusjach na temat danych dotyczących ludzi kwestia prywatności jest postrzegana jako osobna kwestia, bardziej warta uwagi niż inne istotne kwestie. Ten stan rzeczy, w którym prywatność jest rozpatrywana w oderwaniu od wszystkich innych kwestii, stanowi przeszkodę w postępie w korzystnym społecznie wykorzystaniu danych. Nie ma wątpliwości, że poważna poprawa w takich obszarach, jak między innymi opieka zdrowotna, edukacja i ochrona środowiska byłaby możliwa, gdyby wykwalifikowani naukowcy z dobrymi intencjami mieli dostęp do bardziej odpowiednich danych. Kwestie prywatności i kwestie wykorzystania udostępnionych danych są traktowane bardzo różnie, w zależności od motywacji do analizy danych, a także możliwości wykorzystania przywileju własności. W przypadku analiz w sektorze forprofit (takim jak handel detaliczny, bankowość czy telekomunikacja), gdzie motywacją do analizy jest w dużej mierze chęć sprzedaży większej ilości towarów i usług oraz maksymalizacji zysku, duzi gracze (tacy jak Amazon) mają dostęp do ogromne ilości danych generowanych przez klientów, które do nich należą. Ci dominujący gracze mają mniej więcej swobodę wykorzystywania tych danych w celu generowania zysków według własnego uznania. Z drugiej strony, w obszarach, które tradycyjnie nie są nastawione na zysk, ale są ukierunkowane na większe korzyści społeczne, i gdzie dane są generowane przez dużą liczbę interesariuszy, takich jak edukacja, opieka zdrowotna i polityka publiczna, sytuacja jest inna. . Przyjrzyjmy się na przykład obszarowi opieki zdrowotnej. Jest prawie pewne, że wielu schorzeniom lub chorobom, które są obecnie nieuleczalne, nieuleczalne lub niewykrywane przez długi czas, można by faktycznie zaradzić, gdyby naukowcy zajmujący się danymi otrzymali odpowiednie dane i pozwolili im zastosować odpowiednie metody z takimi danymi. Rozważmy następujący scenariusz: duży system opieki zdrowotnej zbiera i przechowuje duże ilości danych dla każdego z setek tysięcy pacjentów, przy czym dane obejmują lata i / lub dekady. Pacjenci systemu generują tysiące punktów danych z licznych badań kontrolnych, badań krwi, podawanych leków i tak dalej. W rezultacie ten system opieki zdrowotnej ma terabajty szczegółowych danych o stanie zdrowia poszczególnych pacjentów. Mając niezakłócony dostęp do całego zbioru danych, naukowcy zajmujący się danymi współpracujący z badaczami medycznymi w dziedzinach takich jak epidemiologia czy onkologia niewątpliwie odkryliby nieznane wcześniej wzorce, które mogą zaowocować nowymi odkryciami medycznymi i metodami leczenia. Jednak ze względu na wiele czynników scenariusz ten jest w zasadzie mało prawdopodobny w systemach opieki zdrowotnej w Stanach Zjednoczonych. Jedną z głównych przeszkód dla tego potencjalnego osiągnięcia są przepisy, które nie uwzględniają wzajemnego oddziaływania prywatności i innych korzyści społecznych. W konsekwencji znajdujemy się w świecie, w którym Amazon może z łatwością wykorzystywać Twoje własne dane w połączeniu z danymi milionów innych kupujących, aby zmotywować Cię do zakupu większej ilości rzeczy. Jednocześnie Twój lekarz nie może / nie umożliwia / nie ma motywacji do korzystania z nauki o danych i porównywania danych z badań krwi z danymi milionów innych osób, co może skutkować wczesnym wykryciem problemu medycznego, który w innym przypadku byłby niemożliwy do wykrycia. z istniejącymi metodami diagnostycznymi. Podobne przykłady istnieją w innych obszarach, takich jak edukacja, urbanistyka i ochrona środowiska. Nadszedł czas, aby przyjrzeć się wszystkim czynnikom wpływającym na wykorzystywanie danych osobowych i indywidualnych oraz opracować nowe ramy prawne i organizacyjne, które uwzględniają wzajemne relacje tych czynników. Jeśli ten rozwój nie nastąpi, postęp i odkrycia mogą nastąpić gdzie indziej, być może w miejscu, które ma już rosnącą armię wysoko wykwalifikowanych analityków danych, więcej danych niż ktokolwiek inny i centrum władzy, które może arbitralnie decydować, jak je wykorzystać. Jest mniej prawdopodobne, że takie odkrycia zostaną udostępnione szerszej ludzkości, niż gdyby powstały w wolnych i otwartych społeczeństwach, które rozumiały, jak zapewnić społeczne korzyści z nauki o danych.

Etyka i Dane (XLII)


Narrator danych etycznych

Kiedy omawiany jest temat nauki o danych i etyki, prywatność danych i uprzedzenia w uczeniu maszynowym są często na pierwszym planie. Niepokojące może być myślenie, że Twoje dane osobowe mogą być niewłaściwie wykorzystywane przez firmy lub że algorytmy mogą utrwalać uprzedzenia ze względu na rasę, płeć lub wiek. Jeśli jednak cofniemy się i ocenimy cały cykl życia danych, stwierdzimy, że etyka może wpływać na wszystko, od sposobu, w jaki gromadzimy dane, po sposób, w jaki wykorzystujemy je do podejmowania decyzji. Na każdym etapie cyklu życia danych potrzebne jest oparte na zasadach podejście do analityki, w tym "ostatnia mila" analizy, w ramach której kluczowe spostrzeżenia są udostępniane lub przekazywane odbiorcom. Wraz ze wzrostem potrzeby przekazywania spostrzeżeń innym w skuteczny sposób wiele osób wykazało zainteresowanie opowiadaniem historii, w którym kluczowe spostrzeżenia są wizualizowane i przedstawiane w atrakcyjnej formie narracji. Jednak niektórzy specjaliści ds. danych nadal są sceptyczni i nie czują się komfortowo, jeśli chodzi o rolę, jaką odgrywa opowiadanie historii przekazywanie ustaleń. Historie są często kojarzone z rozrywką, fikcją i dziwactwami, co sprawia, że niektórzy ludzie postrzegają opowiadanie historii jako subiektywne i powierzchowne. Inni mogą uznać przekonującą siłę narracji, ale uważają, że może ona zagrozić integralności faktów. Z tych powodów niektórzy wolą pozostawić fakty w spokoju i nie skażać ich żadnymi zabiegami narracyjnymi. Pomimo ogólnej tendencji do przekonania, że "fakty mogą mówić same za siebie", często tak nie jest. Surowa logika i rozum często nie angażują ludzi i nie inspirują ich do działania. Z tego powodu wiele cennych spostrzeżeń jest źle rozumianych, ignorowanych i zapomnianych. Co ciekawe, ludzki mózg został uwarunkowany do wyszukiwania i reagowania na narrację. Jak stwierdza psycholog społeczny Jonathan Haidt: "Ludzki umysł jest procesorem historii, a nie procesorem logiki". Neurolodzy, tacy jak profesor z USC Antonio Damasio, również odkryli, że emocje odgrywają znaczącą rolę w podejmowaniu decyzji. Skuteczne opowiadanie historii może stanowić pomost między logiką a emocjami, pomagając odbiorcom nie tylko usłyszeć Twoje statystyki, ale także je poczuć. Opowiadanie historii za pomocą danych pomaga nam skuteczniej dzielić się spostrzeżeniami, ale należy to robić w odpowiedzialny i etyczny sposób. Potrzebujemy nie tylko większej liczby osób opowiadających o danych, ale także etycznych, którzy uczciwie dzielą się swoimi historiami z danymi. Aby etycznie opowiadać o danych, pamiętaj o następujących zasadach:

Upewnij się, że twoje spostrzeżenia są prawdziwe.
Dane są podstawą każdej historii związanej z danymi. Chcesz zrobić wszystko, co w Twojej mocy, aby sprawdzić, czy podane liczby są dokładne i czy można im ufać. Chociaż nikt nie może zagwarantować dokładności każdego punktu danych, etyczny narrator danych będzie dokładny w swoim dążeniu do prawdy i będzie starał się zapewnić wiarygodne, ukierunkowane spostrzeżenia.

Sprawdź swoje uprzedzenia i wypatruj błędów logicznych.
Za każdym razem, gdy tworzysz historię danych, musisz pamiętać o potencjalnych błędach poznawczych, takich jak błąd potwierdzenia, które mogą negatywnie wpłynąć na twoją analizę. Chcesz także uważać, aby błędne rozumowanie, takie jak interpretacja korelacji jako związku przyczynowego, nie podważyło twoich wniosków. Chociaż omylnym ludziom może być trudno całkowicie uniknąć uprzedzeń i błędów, etyczny narrator danych będą starać się być jak najbardziej obiektywnymi i rygorystycznymi w swoich analizach i rozumowaniu.

Zacznij od danych, a nie od narracji.
Kiedy zaczynasz od pożądanej narracji, aby udowodnić punkt lub wesprzeć decyzję, narażasz na szwank integralność swojej historii danych. Będziesz mieć pokusę, aby wybrać tylko te punkty danych, które wzmacniają twoją pożądaną narrację i zignorować te, które jej nie mają. Kiedy przeznaczenie historii danych jest z góry określone, dane i narracja będą często ograniczone i uprzedzone. Etyczny narrator danych opracuje narrację dopiero po przeanalizowaniu danych - a nie wcześniej - w celu zachowania integralności wspólnych spostrzeżeń. Kiedy podejdzie się do danych z otwartym umysłem, może to zabrać Cię w nieoczekiwane, ale korzystne miejsca.

Wizualizuj dane w przejrzysty i niezawodny sposób.
Celem korzystania z wizualizacji danych w historiach danych jest ułatwienie odbiorcom jasnego zrozumienia Twoich spostrzeżeń. W zależności od danych, które zdecydujesz się uwzględnić na wykresie lub od tego, jak zdecydujesz się je wizualizować, możesz błędnie przedstawić lub zniekształcić swoje ustalenia - nieumyślnie lub celowo. Na przykład cenne dane kontekstowe, które pokazują sezonowość, mogą zostać pominięte lub można podkreślić rozmiar lub nachylenie trendu, dostosowując skalę osi y. Etyczny narrator danych jest zdyscyplinowany w sposobie wizualizacji danych, aby ich wykresy były komunikatywne, a nie zwodnicze ani manipulacyjne

Kiedy starasz się tworzyć i opowiadać historie danych w sposób etyczny, budujesz swoją wiarygodność jako narrator danych. Troska i uwaga, jaką poświęcasz etyce w swoich narracjach danych, pomagają nawiązać relacje z kluczowymi interesariuszami. Stajesz się zaufanym doradcą i prowadzisz ich przez liczby i wykresy. Kiedy celem jest, aby inni ludzie rozumieli, ufali i działali zgodnie z Twoimi spostrzeżeniami, etyczne podejście do historii danych jest nie tylko godne podziwu - ma zasadnicze znaczenie dla Twojego sukcesu jako narratora danych

Etyka i Dane (XLI)


Etyka AI

Dlaczego nie mówimy o tym, co sprawia, że sztuczna inteligencja jest wyjątkowo niebezpieczna niż inne technologie? Tematy, które pojawiają się w związku z etyką sztucznej inteligencji, są istotne, aktualne i konieczne. Chciałbym tylko, żebyśmy nie używali terminu "etyka sztucznej inteligencji", gdy… nie jest on nawet specyficzny dla sztucznej inteligencji. Wiele tak zwanych tematów do dyskusji o etyce sztucznej inteligencji dotyczy ogólnie technologii i nie są one niczym nowym. Usuń je z listy i gotowe pozostawiono tematy, które koncentrują się na osobowości i osobliwości. Niestety, odciągają Cię one od tego, czym naprawdę powinieneś się martwić. Marketing AI jako chromowanych humanoidów wykorzystuje ignorancję opinii publicznej. Jesteśmy gatunkiem, który widzi ludzkie cechy we wszystkim, od twarzy na grzankach po ciała w chmurach. Jeśli przyszyję dwa guziki do skarpetki, mogę z nią porozmawiać. Ta marionetka nie jest osobą, podobnie jak sztuczna inteligencja; roboty to po prostu inny rodzaj ulubionej skały. Sposób, w jaki dziś jest używany termin "sztuczna inteligencja", nie polega na opracowywaniu zastępczych jednostek podobnych do ludzi. Zamiast tego, sztuczna inteligencja to zestaw narzędzi do pisania oprogramowania, umożliwiający programowanie na podstawie przykładów (danych) zamiast wyraźnych instrukcji. To obietnica sztucznej inteligencji i jej prawdziwe zagrożenie.

Poziomy rozproszenia

Wyobraź sobie, że chcesz zautomatyzować zadanie, które obejmuje 10 000 kroków. W tradycyjnym programowaniu osoba musi się pocić nad każdą z tych małych instrukcji. Pomyśl o tym jak o 10000 klocków LEGO, które trzeba ułożyć ludzkimi rękami. Ponieważ programiści są bardzo niecierpliwi, pakują niektóre części w pakiety, aby nie musieli się powtarzać. Zamiast pracować z 10000 luźnymi bitami, możesz pobrać te pakiety, aby złożyć tylko 50 gotowych konstrukcji LEGO po 200 małych klocków. Jeśli ufasz pracy innych ludzi, możesz połączyć kawałek dachu z częścią domu, zamiast myśleć o poziomie płytek i cegieł. Ale oto rzecz: nawet jeśli nie musiałeś tego wszystkiego robić sam (dzięki Bogu), każda instrukcja wśród tych 10000 kroków była udręczona przez ludzki mózg ... i to jest ta część, która znika w ML / AI .

AI automatyzuje niewysłowione

Dzięki sztucznej inteligencji zamiast kodowania "zrób to, potem to, potem to, potem…", możesz powiedzieć, "spróbuj uzyskać dobry wynik na tych danych". Innymi słowy, sztuczna inteligencja pozwala ludziom pominąć ręczne tworzenie 10000 wyraźnych kroków rozwiązania i zamiast tego automatycznie wymyśla te 10000 linii (lub coś podobnego), tworząc rozwiązanie z wzorców w przykładach, które podaje programista. Oznacza to, że możesz zautomatyzować zadania, nawet jeśli żaden człowiek nie może wymyślić wyraźnych instrukcji, jak je wykonać. Przygotuj się na oszołomienie, jeśli nigdy nie zastanawiałeś się, czyja praca tak naprawdę automatyzuje ML / AI:

•  Programista automatyzuje / przyspiesza pracę innych ludzi.
•  ML / AI automatyzuje / przyspiesza pracę programisty.

Obecnie w inżynierii ML / AI jest dużo sapania i sapania, ale większość z nich dotyczy podkręcania i kłótni z nieprzyjaznymi narzędziami. Możesz napisać 10000 linii kodu w swoim projekcie, ale większość z nich służy do nakłaniania nieporęcznych narzędzi do akceptowania danych. W miarę jak narzędzia stają się coraz lepsze, w końcu zobaczysz, że w ML / AI są tylko dwie prawdziwe instrukcje:

1. Zoptymalizuj ten cel …
2.…w tym zbiorze danych

To wszystko. Teraz możesz użyć dwóch linii ludzkich myśli, aby zautomatyzować swoje zadanie zamiast 10 000. To jest piękne - i przerażające!

AI umożliwia bezmyślność

Oto najbardziej bezpośredni problem związany z uczeniem maszynowym / sztuczną inteligencją: włączona bezmyślność. Niektóre zadania nie są bardzo ważne i to wspaniałe, że możemy usunąć je z drogi bez większego zastanowienia. Ale kiedy ma to znaczenie, czy ktokolwiek odpowiedzialny za projekt naprawdę umieściłby 5000 instrukcji w każdej z tych dwóch linii ML / AI? Sztuczna inteligencja polega na wyrażaniu siebie za pomocą przykładów, ale masz niefortunną opcję wskazania swojego systemu na zbiór danych bez sprawdzania, czy zawiera on odpowiednie, bezstronne przykłady wysokiej jakości. Jeśli pozwolisz sobie na bezmyślne wybieranie danych w przypadku użycia o znaczeniu krytycznym, możesz mieć katastrofę w rękach. Sztuczna inteligencja nie powstrzyma Cię również przed wybraniem nonszalanckiego celu, który brzmiał dobrze w Twojej głowie, ale okazał się okropnym pomysłem. "Złap jak najwięcej spamu" to coś, co lider mógłby powiedzieć ludzkiemu programiście, oczekując solidnego i sensownego filtra. Wyraź to w ten sam sposób, co algorytm sztucznej inteligencji, a wkrótce zaczniesz się zastanawiać, dlaczego nie przychodzi żadna nowa wiadomość e-mail. (Odpowiedź: oznaczenie wszystkiego jako spam daje doskonały wynik w wyznaczonym celu). Straszną częścią sztucznej inteligencji nie są roboty . To ludzie. Ilekroć łączysz czynnik umożliwiający bezmyślność z szybkością i skalą, otrzymujesz przepis na szybko narastające zaniedbania.

Czy boję się AI?

Nie. Jeśli zapytasz mnie, czy boję się sztucznej inteligencji, słyszę, że pytasz mnie, czy boję się ludzkiego zaniedbania. Tylko w ten sposób to pytanie ma dla mnie sens, ponieważ nie wierzę w bajki o robotach ani rozmowę ze skałami dla zwierząt. Jestem optymistą, jeśli chodzi o przyszłość sztucznej inteligencji ludzkości, ale robię też tyle, ile mogę, nie pozostawiając tego przypadkowi. Jestem przekonany, że można nauczyć się umiejętności odpowiedzialnego przywództwa w erze sztucznej inteligencji i że ludzie mogą bezpiecznie budować skuteczne systemy, napędzając postęp i poprawiając życie otaczających ich osób. Dlatego ja i inni tacy jak ja decydujemy się na krok naprzód i dzielenie się tym, czego nauczyliśmy się na własnej skórze, poprzez doświadczenie lub szukając w uprzednio zamkniętych dyscyplinach akademickich. Technologia ulepsza nasz świat, uwalnia od chorób, poszerza horyzonty, łączy z bliskimi i zapewnia nam dłuższe życie. Może również zaskakiwać, destabilizować i redystrybuować. Im bardziej się skaluje, tym bardziej może być uciążliwe. Zawsze lepiej jest myśleć o swoich narzędziach, w tym o sztucznej inteligencji, jako o rozszerzaniu, a nie autonomii. Kiedy cię powiększają, upewnij się, że masz umiejętności, aby uniknąć nadepnięcia na innych. Dlatego to od Ciebie zależy, czy ponownie wykorzystasz wyparowaną myśl z powrotem do projektów sztucznej inteligencji, które zdecydujesz się zbudować. Kierując swoje nowo odkryte moce w odpowiedzialne kierunki, odblokujesz najlepszą stronę technologii. Technologia może być cudowna, jeśli na nią pozwolimy … i wierzę, że tak będzie.

Etyka i Dane (XL)


Spłacaj swój dług wynikający z uczciwości, cienisty bliźniak długu technicznego

Dług techniczny to pojęcie znane. Służy do opisywania zhakowanego kodu tworzonego w locie, który wykonuje swoje podstawowe zadanie w krótkim okresie, ale jest nieporęczny i nieefektywny w utrzymaniu i skalowaniu w dłuższej perspektywie. Nadszedł czas, abyśmy również zaznajomili się z jego bliźniaczym cieniem: długiem uczciwości. Podobnie jak jego techniczny odpowiednik, zaciągamy dług wynikający z uczciwości, kiedy budujemy systemy, które działają dziś w naszej obecnej sytuacji i dla bazy użytkowników, ale mają niezamierzone konsekwencje czające się pod powierzchnią, ponieważ jutro będziemy nadal wdrażać rozwiązania. Jednym ze sposobów zaciągania długu wynikającego z uczciwości jest optymalizacja naszych systemów i algorytmów pod kątem określonego wskaźnika wydajności bez ograniczeń. Naukowcy zajmujący się danymi i technolodzy dokonują tego typu wyborów optymalizacyjnych celowo i często, nawet jeśli naiwnie. Ale optymalizacja często niesie ze sobą dług słuszności, jeśli idzie o jej naturalny postęp. Na przykład post Google Ventures sugeruje optymalizację pod kątem czasu, jaki użytkownicy spędzają na oglądaniu filmów w Twojej aplikacji. Chociaż na początku może się to wydawać całkowicie racjonalnym sposobem skoncentrowania wysiłków inżynieryjnych, może wymknąć się spod kontroli, gdy użycie stanie się nadmierne, ze szkodą dla użytkownika. Jak powiedział przyjaciel zarządzający produktami sztucznej inteligencji w Amazon: "Nie ma problemu, gdy firma próbuje nakłonić użytkownika do spędzania siedmiu do ośmiu minut dziennie na swojej aplikacji. To zupełnie inna gra, gdy niektórzy użytkownicy ryzykują przejściem od siedmiu do ośmiu godzin dziennie ". Początkowo długi z tytułu uczciwości nie są spłacane przez firmę, ale przez użytkowników lub społeczeństwo. Ale kiedy już osiągną dostatecznie duże rozmiary, gryzą nasze zbiorowe tyłki. Reakcja na firmy produkujące smartfony i aplikacje zoptymalizowane pod kątem przyciągania uwagi - oraz prawdziwe przeciwności, z jakimi borykają się te firmy, zarówno z punktu widzenia użytkownika, jak i przepisów - jest dowodem na to, że długi można odroczyć, ale nie można ich umorzyć. Wychodząc poza "optymalizację uwagi", wyobraź sobie bardziej złowrogi scenariusz, w którym firma fintech optymalizuje tylko pod kątem rentowności zatwierdzanych pożyczek. Łatwo jest wyobrazić sobie sytuację, w której kończy się coś w rodzaju algorytmicznego redliningu, a naukowcy z UC Berkeley znaleźli na to dowody. Ich badania pokazują, że pożyczkodawcy fintech kosztują latynoskich i afroamerykańskich kredytobiorców refinansujących hipoteki łącznie 765 milionów dolarów rocznie, częściowo z powodu niedopuszczalnej dyskryminacji. Ale podobnie jak w przypadku długu technicznego, dług wynikający z uczciwości można uniknąć i spłacić go wcześniej. Mamy jeden taki przykład z Upstart. Wyobraź sobie, jak to się stało w przypadku Upstart, że jesteś założycielem lub technologiem fintech, budząc się na wiadomość od Consumer Financial Protection Bureau (CFPB), która wspomina o przeglądzie twoich uczciwych praktyk pożyczkowych, zaledwie kilka lat po wprowadzeniu produktu na rynek .1 Mogłeś "poruszać się szybko i niszczyć rzeczy" i skupiać się tylko na ulepszaniu technologii i rozwijaniu firmy. Ale działasz w wysoce regulowanej branży i rośnie zainteresowanie niezamierzonymi konsekwencjami tego, co robisz. Na przykład senatorowie Elizabeth Warren i Doug Jones wysyłają listy do Rezerwy Federalnej, Federalnej Korporacji Ubezpieczeń Depozytów (FDIC) i CFPB z pytaniem o ich stanowisko regulacyjne w sprawie pożyczek opartych na algorytmach. Chociaż nie nazwali tego tak, organy regulacyjne słusznie dostrzegały możliwość wystąpienia długu sprawiedliwego. Ale firma Upstart potraktowała to poważnie i nie dopuściła do powstania długu. Początkowe modele oparte na sztucznej inteligencji, uważając od samego początku za uczciwe, wykazały fantastyczne wyniki - tak dobre, że CFPB podjęła niezwykły krok, aby szeroko podzielić się tym, jak dobrze sobie radzą. Upstart był w stanie zaakceptować 23-29% więcej wnioskodawców niż tradycyjny model pożyczkowy, przy 15-17% niższych stopach procentowych w każdej badanej rasie, pochodzeniu etnicznym i grupie płci. Ponadto młodzi dorośli byli o 32% bardziej skłonni do uzyskania zgody na pożyczki, a także ludzie z dochodami poniżej 50 000 USD zostały zatwierdzone o 13% więcej. Podobnie jak w przypadku długu technicznego, zaciągnięcie długu wynikającego z uczciwości jest wyborem, a nie nieuchronnością. Spłacaj ją wcześnie i często, a jeszcze lepiej, w ogóle jej nie ponawiaj. To właściwy wybór. Podejścia oparte na sztucznej inteligencji, takie jak to, co wykorzystał Upstart i firmy takie jak Fiddler Labs, mogą pomóc w tym procesie. W świecie, w którym nasze technologie i algorytmy będą coraz bardziej poddawane kontroli, firmy, które ostrożnie unikają zadłużenia wynikającego z uczciwości, zostaną nagrodzone.

Etyka i Dane (XXXIX)


Algorytmy są używane inaczej niż ludzie podejmujący decyzje

Ludzie często dyskutują o algorytmach tak, jakby były one plug-and-play, wymienne z ludzkimi decydentami - po prostu porównując wskaźniki błędów, na przykład przy podejmowaniu decyzji, czy zastąpić ludzkiego decydenta wynikiem algorytmicznym. Jednak w praktyce algorytmy i osoby podejmujące decyzje są wykorzystywane w różny sposób, a nieuwzględnienie tych różnic może prowadzić do szeregu zagrożeń i szkód etycznych. Oto kilka typowych sposobów wykorzystania algorytmów i decydentów w praktyce w różny sposób:

•  Algorytmy są bardziej prawdopodobne, że zostaną wdrożone bez regresu proces na miejscu.
•  Algorytmy są często używane na dużą skalę.
•  Systemy algorytmiczne są tanie.
•  Ludzie są bardziej skłonni zakładać, że algorytmy są obiektywne lub wolne od błędów.

Te czynniki w dużym stopniu się pokrywają. Jeśli główną motywacją do wdrożenia algorytmu jest redukcja kosztów, to dodanie procesu odwoławczego (lub nawet skrupulatne sprawdzanie błędów) może zostać uznane za "niepotrzebny" wydatek. Rozważ jedno studium przypadku: po tym, jak stan Arkansas wdrożył oprogramowanie do określania świadczeń zdrowotnych, wiele osób zauważyło drastyczne zmniejszenie ilości otrzymywanej opieki, ale nie udzielono im żadnych wyjaśnień ani możliwości odwołania się. Tammy Dobbs, kobiecie z porażeniem mózgowym, która potrzebuje pomocnika, który pomoże jej wstać z łóżka, pójść do łazienki i nie tylko, nagle zmniejszyła liczbę godzin pomocy o 20 godzin tygodniowo, zmieniając jej życie na gorsze. W końcu długa sprawa sądowa ujawniła błędy w implementacji oprogramowania i przywrócono godziny pracy Tammy (wraz z godzinami wielu innych osób, na które błędy miały wpływ). Kolejne studium przypadku ze świata rzeczywistego pochodzi z algorytmu, który był używany do zwalniania nauczycieli szkół publicznych. Obserwacje klasy piątej nauczycielki Sarah Wysocki dały pozytywne recenzje. Jej zastępca dyrektora napisała: "To przyjemność odwiedzać salę, w której elementy solidnego nauczania, zmotywowanych uczniów i pozytywnego środowiska uczenia się są tak efektywnie połączone". Dwa miesiące później została zwolniona przez nieprzejrzysty algorytm wraz z ponad 200 innymi nauczycielami. Szef PTA i rodzic jednego z uczniów Wysockiego określił ją jako "jedną z najlepszych nauczycielek, z którymi kiedykolwiek miałem kontakt." Za każdym razem, gdy ją widziałem, zwracała uwagę na dzieci, omawiała ich lekcje; nie spieszyła się z nimi . To, że ludzie tracą potrzebną opiekę zdrowotną lub są zwalniani bez mechanizmów regresu, jest naprawdę dystopijne! Matematyk Cathy O′Neil napisała w swojej książce z 2016 r. Weapons of Math Destruction (Crown), że wiele systemów algorytmicznych ma tendencję do karania biednych. Specjalizują się w sprzedaży hurtowej i są tanie. To część ich atrakcyjności. Natomiast bogaci często odnoszą korzyści z osobistego wkładu. Kancelaria prawnicza w białych butach lub ekskluzywna szkoła przygotowawcza będą bardziej polegać na rekomendacjach i wywiadach osobistych niż sieć fast foodów czy miejska dzielnica szkolna, która ma problemy z pieniędzmi. Uprzywilejowani, co zobaczymy raz po raz, są bardziej przetwarzani przez ludzi, a masy przez maszyny. Szkodę tę może potęgować fakt, że wiele osób błędnie uważa, że komputery są obiektywne i wolne od błędów. Urzędnik miasta w Lancaster w Kalifornii, gdzie pulpit nawigacyjny IBM Watson jest używany do przewidywania działań policyjnych, powiedział: "Dzięki uczeniu maszynowemu, z automatyzacją, jest 99% sukcesu, więc robot będzie w 99% dokładny w przekazywaniu nam informacji. co będzie dalej, co jest naprawdę interesujące ". To stwierdzenie jest całkowicie fałszywe. Jest to niebezpieczne, ale powszechne nieporozumienie, które może prowadzić do przeoczenia szkodliwych błędów w wynikach komputera. Jak powiedział robotyczny Peter Haas w przemówieniu na TEDx: "W sztucznej inteligencji mamy najwyższy autorytet Milgrama", odnosząc się do słynnych eksperymentów Stanleya Milgrama, pokazujących, że większość ludzi będzie posłuszna rozkazom autorytetów, nawet do momentu wyrządzenia krzywdy lub zabicia innych ludzi. O ile bardziej prawdopodobne będzie, że ludzie będą ufać algorytmom postrzeganym jako obiektywne i poprawne? Ponieważ algorytmy są często używane na większą skalę, wytwarzając masowo identyczne uprzedzenia i zakłada się, że są one odporne na błędy lub obiektywne, nie możemy ich porównywać z ludzkimi decydentami na zasadzie "jabłka po jabłka". Ponadto ważne jest, abyśmy zajęli się tymi różnicami podczas wdrażania algorytmów do podejmowania decyzji. Niezbędne jest wdrożenie systemów identyfikacji błędów i mechanizmów regresu, wraz z wszelkimi implementacjami algorytmicznymi. Konieczne jest również upewnienie się, że osoby korzystające z danych wyjściowych algorytmów rozumieją, że komputery nie są wolne od błędów i mają uprawnienia do zgłaszania wszelkich napotkanych problemów.

Etyka i Dane (XXXVIII)


Zabezpieczenie danych przed naruszeniami pomoże nam ulepszyć opiekę zdrowotną

Kiedy udajesz się do nowej przychodni, lekarze i pielęgniarki sprawdzają Twoją kartę pacjenta na podstawie Twojego imienia i nazwiska oraz daty urodzenia. Z wyjątkiem tego, że czasami to nie jest twój wykres, który podciągają. To nie tylko problem zdrowotny; jest to również problem nauki o danych. Na ten błąd składają się (przynajmniej) dwie rzeczy: brak spójnej i jednolitej dokumentacji pacjentów oraz publiczna nieufność do ochrony danych. Obie powstrzymują opiekę zdrowotną przed rewolucjami w badaniach danych. Gdy dane pacjentów są przesyłane z jednego głównego systemu szpitalnego do drugiego, dane pacjentów przechodzą przez wymianę informacji zdrowotnych. Obecny wskaźnik prawidłowego dopasowywania pacjentów między systemami szacuje się na około 30% . Przy znacznym wysiłku naukowców zajmujących się danymi w czyszczenie danych i lepsze algorytmy, moglibyśmy potencjalnie dopasować nawet 95%. To ważna okazja dla nauki o danych w celu poprawy opieki zdrowotnej! Nazywa się to "zarządzaniem danymi podstawowymi" lub "zarządzaniem danymi" i chociaż mamy przed sobą długą drogę, wciąż stajemy się lepsi. Branża opieki zdrowotnej ciężko pracuje, aby zapobiec błędnej identyfikacji. Standardową praktyką jest stosowanie co najmniej dwóch identyfikatorów pacjentów, takich jak imię i nazwisko oraz data urodzenia. Niestety imię i data urodzenia nie pozwalają jednoznacznie zidentyfikować pacjenta; należy również użyć trzeciego identyfikatora, a istnieje wiele opcji, takich jak identyfikator szpitala, numer ubezpieczenia społecznego, opaska na rękę z kodami kreskowymi, zdjęcia i urządzenia do uwierzytelniania dwuskładnikowego. Jednak trzeci lub nawet czwarty identyfikator nie rozwiąże problemu. Ludzie wykonujący powtarzalne procesy, nawet w idealnych warunkach, są dokładni tylko w 99,98% przypadków. W sytuacjach stresujących, takich jak nagłe wypadki medyczne, wskaźniki dokładności spadają do około 92%. Komputery uzupełniają dokładność pracowników służby zdrowia. W większości systemów opieki zdrowotnej w USA stosuje się statystyczne dopasowywanie wielu atrybutów pacjentów. Alert powiadamia użytkowników, że pacjent jest statystycznie podobny do innego pacjenta. Jednak nawet po dziesięcioleciach poprawy nadal występują błędy medyczne. Podczas gdy doskonałe zarządzanie danymi podstawowymi może doprowadzić nas do 95% prawidłowego wskaźnika identyfikacji w wymianie informacji zdrowotnych, niektórzy doszli do wniosku, że jedynym sposobem na poprawę do 99% jest przyjęcie uniwersalnego identyfikatora pacjenta.5 Mówiąc prosto, jeśli społeczeństwo zdecyduje się nadać priorytet identyfikacji pacjentów , musi chcieć zaakceptować uniwersalny identyfikator pacjenta. Zarządzanie danymi podstawowymi, konsolidacja firmy, numery ubezpieczenia społecznego i krajowe ubezpieczenie zdrowotne są zgodne z wykorzystaniem uniwersalnych identyfikatorów pacjentów. Uniwersalny identyfikator pacjenta może wydawać się nieunikniony, ale tak nie jest. Wiele organizacji ma dobre powody, by opierać się uniwersalnemu identyfikatorowi lub bazie danych. Jako naukowcy zajmujący się danymi, doceniamy argument Amerykańskiej Unii Swobód Obywatelskich, który mówi o każdym ID kraju co będzie prowadzić do inwigilacji i monitorowania obywateli. Instytut ECRI, organizacja badawcza zajmująca się opieką zdrowotną, identyfikuje zrozumiałe bariery kulturowe i społeczne w polityce identyfikacji pacjentów. National Rifle Association skutecznie oparło się przeszukiwalnej bazie danych właścicieli broni. I tu właśnie wkraczamy. Zanim społeczeństwo chętnie zaakceptuje uniwersalny identyfikator, dziedzina nauki o danych musi wykazać, że prywatność użytkowników może i będzie zachowana. Naszym wyzwaniem jest zapewnienie ludziom autonomii w zakresie sposobu wykorzystania ich danych i tego, kto może z nich korzystać. Musimy zapobiegać katastrofalnym naruszeniom danych, takim jak Equifax, lub nieetycznej eksploracji danych z takich firm jak Cambridge Analytica, Facebook i Target. Musimy zbudować coś, na co jeszcze nie zasłużyliśmy: zaufanie. Zabezpieczanie prywatnych danych przed naruszeniami jest trudne i kosztowne oraz wymaga czujności. Etyczne traktowanie danych wiąże się również z kosztami, które często są opłacalne! Uniwersalny identyfikator byłby potężnym, możliwym do wykorzystania narzędziem, które zachęca do wycieków danych. Nie jesteśmy na to gotowi, ale moglibyśmy być, gdy tylko zbudujemy zaufanie opinii publicznej. Budowanie zaufania i odpowiedniego zarządzania danymi - tak eliminujemy błąd medyczny.

Etyka i Dane (XXXVII)


Silosy stwarzają problemy - być może większe niż myślisz
Silosy (silosy danych i silosy perspektywiczne) stwarzają problemy. Ryzyko etyczne polega tutaj na tym, że ignorując najlepsze praktyki i utrzymując przestarzałe silosy danych, CDO narażają swoje organizacje na nieetyczne i prawdopodobnie nielegalne zachowania. Z punktu widzenia zarządzania silosy danych to bazy danych, hurtownie danych, jeziora danych itd., W których dane są przechowywane w jednym celu i nie są zintegrowane z pozostałymi danymi będącymi w posiadaniu organizacji. Jako konsumenci mamy to do czynienia przez cały czas. Pomyśl, kiedy ostatnio dzwoniłeś pod numer telefonu obsługi klienta. Być może rozpoznali Twój numer telefonu i być może wprowadziłeś szesnastocyfrowy numer konta i dokonałeś pięciu lub sześciu wyborów w zautomatyzowanym menu, ale kiedy w końcu możesz porozmawiać z człowiekiem, nadal nie wiedzą, kim jesteś lub po co dzwonisz. Tego rodzaju problem występuje, gdy system połączeń przychodzących nie jest dobrze zintegrowany z ewidencją kont klientów. Menedżerowie narzekają na tę sytuację, ponieważ z ich punktu widzenia, jeśli prowadzą raport sprzedaży, ale nie mają go skorelowanego z ich systemem należności, to mogą dostać złe dane: tak, sprzedaż u klienta X jest bardzo wysoka, ale jeśli nie płacą rachunków, czy to naprawdę dobry interes? Często izolowane silosy danych powstają w firmach jako przestarzałe artefakty fuzji i przejęć, które nigdy nie zostały w pełni zintegrowane z procesami i systemami spółek przejmujących. Czasami silosy istnieją, ponieważ istnieje specjalistyczne oprogramowanie, które ma służyć jednej części biznesu, ale niezależnie od tego, jak powstają, są one zmorą wyższego kierownictwa z kilku powodów. Przede wszystkim niezintegrowane dane są po prostu mniej wartościowe niż zintegrowane, ujednolicone, holistycznie dostępne dane. Firmy zdały sobie sprawę, że dane, które mają na temat klientów, produktów, przebiegów produkcyjnych, logistyki itd., Dają im cenny wgląd w operacje, klientów, wiodące wskaźniki ekonomiczne dla ich poszczególnych branż, popyt i wzorce użytkowania, żeby wymienić tylko kilka rzeczy . Jeśli dane firmy są izolowane w silosach danych, menedżerowie mają tylko niewielką część widoku danych i mogą zebrać tylko część wartości, jaką może zapewnić ujednolicony, ogólny obraz. Jest to ryzyko dla biznesu, ponieważ liderzy nie mają całościowego obrazu tego, co się naprawdę dzieje. W efekcie menedżerowie mają migotliwy obraz stanu firmy i jej kluczowych wzajemnych powiązań. Świadomie utrzymując ten mrugający pogląd, menedżerowie świadomie ignorują kluczowe dane, zaniedbując obowiązek służenia biznesowi najlepiej, jak potrafią. Jest to często opisywane jako zjawisko "1 + 1 = 3". Jeden zestaw danych zapewnia pewne cenne informacje, a inny inne, ale połączone i odpowiednio zintegrowane te dwa zestawy danych zapewniają większą wartość niż suma ich części. Teraz ekstrapoluj to na trzy, cztery lub więcej zestawów danych, a zaczniesz zyskiwać perspektywę na skalę problemu. Następnie silosy są złe z punktu widzenia operacji - do obsługi różnorodnych silosów potrzebna jest szersza, bardziej wyspecjalizowana siła robocza. Silosy powodują również niekończące się problemy dla liderów IT, którzy muszą wspierać systemy couture w tajemniczych infrastrukturach. Ale błądzę. Nie tylko silosy danych stwarzają problemy; perspektywiczne silosy to kolejny problem. To, co CDO wielokrotnie powtarzają: spędzanie czasu na różnych stanowiskach pracy, w różnych branżach i z różnych perspektyw było kluczowe dla drogi każdej osoby do kierownictwa wyższego szczebla. Każdy starszy lider, uznawał różnorodność wykształcenia i doświadczenia zawodowego w swojej karierze za kluczową cechę, która doprowadziła do ich ostatecznego sukcesu. Widzą wyzwania z różnych perspektyw interesariuszy, ponieważ pełnili różne role w całej organizacji. Liderzy biznesu nie są jedynymi, którzy doceniają różnorodne punkty widzenia. W swojej książce Weapons of Math Destruction (Crown) Cathy O′Neil pisze: Coraz bardziej martwiłam się o oddzielenie modeli technicznych od prawdziwych ludzi oraz o moralne konsekwencje tego oddzielenia. W rzeczywistości dostrzegłem ten sam wzorzec, którego byłem świadkiem w finansach: fałszywe poczucie bezpieczeństwa prowadziło do powszechnego stosowania niedoskonałych modeli, samolubnych definicji sukcesu i narastających pętli sprzężenia zwrotnego. To kolejny sposób na powiedzenie, że zamilknięte poglądy, brak perspektywy i brak różnorodnych punktów widzenia powodują zgubne skutki. W niektórych okolicznościach te zgubne skutki przekraczają granice prawne, narażając spółkę CDO na ryzyko. Ponadto wyniki te mogą być również nieetyczne, co stanowi dodatkowe ryzyko w gospodarce, w której interesariusze starają się dostosować swoje cele inwestycyjne do zasad etycznych. Podsumowując, silosy stwarzają problemy. Silosy mogą być silosami danych, w których pełna wartość składowych komponentów danych nie jest gromadzona z powodu zaściankowych poglądów, lub mogą to być silosy perspektywiczne, w których organizacjom brakuje perspektywy, aby spojrzeć na szanse i wyzwania z różnych wystarczająco różnych kierunków, a tym samym przygotować się na niepowodzenie .

Etyka i Dane (XXXVI)


Kwestie etyczne są na pierwszym planie w dzisiejszym krajobrazie danych

Patrząc wstecz na moją podróż po danych, to naprawdę niesamowite, jak rozwinęło się zarządzanie danymi. Zaczęła się era hurtowni danych przedsiębiorstwa (EDW). Skupiliśmy się na budowaniu "pojedynczego źródła prawdy", na którym firma mogłaby polegać w zakresie podejmowania decyzji, analiz i możliwości raportowania. Dużo pieniędzy wydano na zasoby i infrastrukturę, aby zracjonalizować / uporządkować / przechowywać dane oraz upewnić się, że uznano je za zdatne do użytku. Szybko do przodu, a firmy zmieniły bieg i zaczęły korzystać z Big Data. Model zmienił się, ponieważ firmy chciały szybko przeanalizować duże zbiory danych, aby określić, czy można uchwycić wartość przed wydaniem czasu, pieniędzy i zasobów na uporządkowanie i przechowywanie danych. Firmy uważały, że posiadanie samych ogromnych ilości danych jest czynnikiem różnicującym. Reklamowali rozmiar swoich klastrów Hadoop i zatrudnili armie naukowców zajmujących się danymi, aby znaleźć wartość w Big Data. W tym momencie etyka naprawdę zmieniła zasady gry w tej przestrzeni! Działania w zakresie innowacji w zakresie danych koncentrowały się na tworzeniu hipotez i przypadków użycia do monetyzacji danych. Ale to przedstawiało kilka kluczowych problemów etycznych dotyczących:

•  Własność danych
• Przejrzystość danych
•  Zgoda konsumenta
•  Prywatność danych
•  Ochrona danych

Widzieliśmy, co Facebook uczynił z prywatności danych, a Mark Zuckerberg zeznawał na Kapitolu. Zasadniczo wielu użytkowników Facebooka po prostu postrzegało Facebooka jako darmowy interfejs, za pomocą którego mogli utrzymywać kontakt z przyjaciółmi i rodziną. Tak, Facebook zapewnia takie doświadczenie użytkownika, ale jest to również platforma, która gromadzi wiele danych o swojej bazie użytkowników. Jest to bardzo dochodowy biznes, którego przychody są napędzane przez reklamy. Wkrótce zdamy sobie sprawę z ogromu problemów etycznych, które tu istnieją! Kwestie etyczne doprowadziły do powstania przepisów (RODO i CCPA), a przedsiębiorstwa mogą zostać ukarane znacznymi karami, jeśli ich programy nie będą przestrzegane i rygorystyczne. Przechowywanie dużych ilości danych (w szczególności informacji umożliwiających identyfikację osoby [PII] i innych danych wrażliwych) jest obecnie postrzegane jako ryzyko. Przywiązuje się dużą wagę do podziału i / lub maskowania danych umożliwiających identyfikację użytkownika i innych poufnych danych. Aby sprostać przepisom, takim jak RODO i CCPA, firmy bardzo koncentrują się na zapewnieniu przejrzystości danych. Tworzą spis danych / glosariusze, które zawierają zarówno metadane biznesowe, jak i techniczne. Dokumentowanie pochodzenia danych i sposobu ich propagacji w infrastrukturze jest również kluczowym elementem. Istnieją rozwiązania dostawców, które pomagają w tych wysiłkach związanych z katalogowaniem, a ten kluczowy artefakt jest wykorzystywany w celu ułatwienia czynności kontrolnych. Bezpieczeństwo danych stało się również głównym celem firm, które starają się zachować bezpieczeństwo i nie pojawiać się na pierwszych stronach gazet. Naruszenie bezpieczeństwa danych, w wyniku którego wyciekną dane osobowe / wrażliwe, ma ogromne konsekwencje dla firmy! W związku z tym firmy budują duże organizacje zajmujące się cyberbezpieczeństwem i wyposażają je w najnowsze i najlepsze błyszczące obiekty, aby zapewnić bezpieczeństwo infrastruktury. Zaufanie jest tak ważnym czynnikiem, a reputacja marki może zostać mocno uderzona, jeśli poufne dane klientów zostaną naruszone. Starając się wyprzedzić złoczyńców, organizacje zajmujące się cyberbezpieczeństwem wykorzystują dane i analizy, aby pomóc zminimalizować ryzyko. Angażują linie bazowe działań infrastrukturalnych i monitorują środowiska pod kątem działań wykraczających poza normalne wzorce. Wiele firm wykorzystuje sztuczną inteligencję do przeprowadzania tej analizy, a to wywołuje wydarzenia, które wymagają uwagi specjalistów ds. Bezpieczeństwa. To działanie filtrujące umożliwia specjalistom ds. Bezpieczeństwa skupienie się na rzeczywistych zagrożeniach, zamiast na przeszukiwaniu wszystkich danych zdarzeń. Podsumowując, obecnie w krajobrazie danych dominują kwestie etyczne. Firmy próbują zrównoważyć działania obronne (zarządzanie / prywatność / bezpieczeństwo) ze strategiami ofensywnymi (monetyzacja danych). Ryzyka związane z danymi klientów są rozpoznawane, ale firmy wciąż określają swoje apetyty na ryzyko w tym obszarze. Firmy traktują to poważnie, zwracając szczególną uwagę na przepisy (RODO i CCPA), a to odegra kluczową rolę w określeniu, co będzie dalej. Ilości danych i ich rodzaje z pewnością będą nadal rosły i ewoluowały. Bardzo interesujące będzie zobaczyć, jak firmy zmieniają swoje strategie dotyczące danych i jak postępują w zarządzaniu danymi i ich nadzorowaniu. Przygotuj popcorn ...

Etyka i Dane (XXXV)


Etyka jest antidotum na naruszenia danych
W ciągu ostatnich kilku lat musieliście zauważyć przygnębiająco regularne doniesienia o naruszeniach danych, wyciekach z chmury i występujących cyberatakach. Łatwo byłoby sobie wmówić, że problem polega na tym, że hakerzy stali się o wiele mądrzejsi lub że systemy stały się zbyt skomplikowane, aby można było nimi zarządzać, ale rzeczywistość jest taka, że organizacje technologiczne nie traktują swojego bezpieczeństwa wystarczająco poważnie, a oni tego nie robią aby traktować nasze dane osobowe w sposób, jakiego oczekujemy od nich. Organizacje te traktują nasze dane osobowe jako towar, który można kupować, sprzedawać i handlować na rynkach. Nie zdają sobie sprawy, że nasze dane osobowe stanowią fragmenty naszego życia. Kiedy dochodzi do naruszenia danych, często cierpimy my jako jednostki, ponieważ naruszenie to zwiększa nasz stres, odejmuje nasz czas, zwielokrotnia nasze obawy i oddziela nas od innych ludzi. Ten problem jest najbardziej zauważalny w przypadku przechowywania w chmurze, gdzie przecieki są ciągłe; Wydaje się, że organizacje, które korzystają z tych usług, mają niewielką wiedzę na temat konfiguracji ich instancji w chmurze i wydają się niezdolne do ich audytowania i zarządzania nimi. Te źle skonfigurowane wystąpienia (zwykle zasobniki pamięci lub bazy danych pozostawione ogólnie dostępne) były odpowiedzialne za wiele największych wycieków danych w ostatnich latach. Problem nie polega po prostu na tym, że personel IT odpowiedzialny za zarządzanie tą stosunkowo nową technologią nie wie, jak skonfigurować te systemy, ale raczej na tym, że brakuje im integralności, aby przyznać się do braku wiedzy, w wyniku czego błędnie konfigurują systemy, które opuszczają ujawniono miliony zapisów, a życie wielu ludzi stało się niewygodne. Aby rozwiązać ten problem, musimy zacząć od instytutów trzeciego poziomu, kolegiów i uniwersytetów oraz zmienić program nauczania tak, aby uczciwość, uczciwość i, co najważniejsze, etyka stały się centralnym punktem wszystkich stopni informatyki. Potrzebna jest rewolucja, aby wpoić tym uczniom głęboko zakorzenione poczucie etyki, wykraczające poza wymogi prawne, wykraczające poza zawodowe wytyczne i ku poczuciu dobroci i wspólnoty z innymi we wszystkich ich działaniach. Etykę należy przedstawiać i nauczać w taki sposób, aby stała się ona dla uczniów drugą naturą, tak aby nigdy nie programowali systemu komputerowego bez uprzedniego rozważenia etycznych implikacji tego, co robią. Treść tego nowego programu nauczania jest tworzona dla nas codziennie. W miarę jak czytamy o coraz większej liczbie przykładów organizacji, które w swoim postępowaniu demonstrują lekkomyślność i bezmyślność, możemy wykorzystać te przypowieści do stworzenia nowego rodzaju troskliwych i rozważnych uczniów, których umiejętności etyczne możemy pielęgnować. Teraz bardziej niż kiedykolwiek musimy działać na nowo, aby stworzyć profesjonalistów, którzy rozważają swoje działania, przyznają się do swoich niedociągnięć i zastanawiają się, na czyje życie mogą wpłynąć

Etyka i Dane (XXXIV)


Jak określić, jakie dane można wykorzystać w sposób etyczny

Jednostki, takie jak ludzie, społeczności, korporacje itd., mają tożsamość. Mają realia, cechy i szczególne cechy, które w wyjątkowy sposób je kwalifikują i odróżniają od siebie. Taka tożsamość określa, kim są we wszechświecie istot. Do niedawna, przed trwającą wciąż rewolucją Big Data, podmioty identyfikowano za pomocą zaledwie kilku punktów danych. Dla ludzi było to głównie imiona i nazwiska rodowe, miejsce pochodzenia, a może także imiona i ród rodziców. Leonardo da Vinci, który urodził się w Anchiano niedaleko Vinci we Włoszech, był dobrze znany w historii i geografii ze względu na swoje miejsce pochodzenia. Firmy mogły po prostu przyjąć imię swojego założyciela. Środki rozpowszechniania informacji były ograniczone; tak też trzeba było wiedzieć o ludziach, społecznościach lub firmach. Kiedy zadano nam proste pytanie, kim jesteśmy , nasza odpowiedź była zawsze ograniczona do kilku punktów danych, które najlepiej nas opisywały: nasze imię i nazwisko, miejsce pochodzenia, zawód i miejsce pracy itd. Jednak XXI wiek przyniósł eksplozję informacji o wszystkich i wszystkim, wzmocnioną przez media społecznościowe. Dane nabrały pierwszorzędnego znaczenia. Zbiera się na temat wszystkich i wszystkiego. O każdym z nas wiadomo więcej, niż możemy sobie wyobrazić. Coraz więcej kwalifikatorów może opisać tożsamość kogokolwiek. Dlatego nasza wolność jest kwestionowana. Życie może zostać natychmiast zniszczone, gdy przeciwko nim zostanie wykorzystana broń. Mapuje się nawyki ludzi, a gromadzone na ich temat dane są wykorzystywane na wiele sposobów. Firmy, które potrafią lepiej uchwycić zachowania zakupowe swoich klientów, mogą skłonić ich do większych wydatków, przewidując ich potrzeby i zapraszając ich na wszelkiego rodzaju oferty. Tak jak każda dobra technologia zaprojektowana w celu poprawy życia ludzi, informacje, które trafią w niepowołane ręce, mogą stać się trujące. Zamiast pomagać ludziom w uzyskaniu właściwej opieki w przypadku choroby, dotarciu na właściwe miejsce we właściwym czasie lub zminimalizowaniu ich wydatku czasu i pieniędzy, informacje mogą zasadniczo pozbawić ich ludzkich treści i godności. Może ujawnić, gdzie się znajdują, co posiadają i tak dalej. Dlatego prywatność danych nabiera kluczowego znaczenia. Należy zapobiegać nieuprawnionemu ujawnianiu ukrytych informacji osób, które mogłyby wtargnąć do ich życia prywatnego. Teraz pytanie brzmi, jak określić, jakie dane można etycznie wykorzystać. Kluczowym słowem w tym pytaniu jest "etycznie". Etyka, mówiąc najprościej, to zbiór zasad lub wartości moralnych, według których żyją poszczególne grupy ludzi. Zasady systemu zostały zdefiniowane, aby kierować postępowaniem jednostek i chronić ich życie oraz życie społeczności. Dlatego ważne jest, aby społeczności, które żyją według tych samych zasad etycznych, określiły siebie lub zaangażowały się w określanie, co stanowi ich prywatność, w celu ochrony przed nieuprawnioną publikacją. Ponieważ taki zestaw reguł może się różnić w zależności od plemienia, społeczności i narodów, jednostki z tych grup najlepiej nadają się do wyznaczania granicy między publicznym a prywatnym, a wszyscy inni, którzy się z nimi mają do czynienia, powinni szanować taką rozgraniczenie. Gdy mnogość danych opisanych wcześniej nie jest przekazywana przez pryzmat zestawu reguł, naturalne życie każdego człowieka może być łatwo narażone na szwank. Uniemożliwi to ludziom swobodne życie i wykorzystanie swojego potencjału. Unia Europejska ogłosiła przepisy znane jako RODO w celu ochrony danych i prywatności swoich obywateli, a także kontroli przekazywania ich danych osobowych poza UE. Aby zagwarantować każdemu człowiekowi swobodę kontrolowania swoich danych osobowych, należy wziąć pod uwagę kilka prostych kwestii

•  Dobro i bezpieczeństwo ludzi powinny być u podstaw każdego procesu gromadzenia, analizy i wykorzystywania danych.
•  Społeczności lub narody powinny brać udział w wyznaczaniu granicy między danymi publicznymi i prywatnymi.
•  Zezwolenie należy uzyskać od osób fizycznych przed udostępnieniem ich danych osobowych jakiejkolwiek stronie trzeciej. Należy odradzać używanie drobnego druku (którego większość ludzi nie czyta) w przypadku informacji o polityce prywatności na papierze lub w Internecie.
•  Osoby zaangażowane w dochodzenia karne i mogące mieć dostęp do danych osobowych powinny gromadzić te dane i zarządzać nimi pod przysięgą.
•  Powinien istnieć mechanizm kontroli i naprawy szkód lub proces odtwarzania po awarii, aby chronić ofiary naruszenia prywatności.
•  Programy nauczania w szkołach średnich powinny dawać instrukcje dotyczące ochrony danych osobowych oraz postępowania z nimi, aby dotrzeć do osób w wieku, w którym prywatność może nie być priorytetem.

Środki i polityki dotyczące prywatności danych powinny zawsze mieć na celu ochronę bezpieczeństwa i życia ludzi.

Etyka i Dane (XXXIII)


Ponowne przemyślenie kroku "Pobierz dane"

Główny analityk danych odpowiada za tworzenie dokładnych modeli, co wiąże się z pozyskiwaniem odpowiednich danych. Ten etap pozyskiwania danych następuje na wczesnym etapie procesu nauki o danych, którego uczyli się wszyscy aspirujący naukowcy zajmujący się danymi, dzisiaj i cofając się do późnych lat 90. XX wieku, w formie CRISP-DM (międzybranżowy standardowy proces eksploracji danych). Po ćwiczeniach zarówno po stronie klienta, jak i dostawcy, dowiedziałem się, że ten krok jest niewystarczający, otwierając analityków danych na pułapki, gdy nie rozumieją, skąd pochodzą dane, niewłaściwie wykorzystują dane zebrane w innym celu lub wykorzystują dane proxy w możliwie nieetyczny sposób. Proces nauki o danych, jest podobny do tego udokumentowanego przez Joe Blitzsteina i Hanspetera Pfistera na Harvardzie: (1) zadaj interesujące pytanie, (2) zdobądź dane, (3) zbadaj dane, (4) zamodeluj dane, oraz (5) komunikować i wizualizować wyniki. Wracając do 1997 r., podobny proces CRISPDM, ważny w zarządzaniu relacjami z klientami, obejmuje następujące kroki: (1) zrozumienie biznesu, (2) zrozumienie danych, (3) przygotowanie danych, (4) modelowanie, (5) ocena i (6) rozmieszczenie. W obu tych strukturach pobieranie danych jest drugim krokiem i ma wpływ na wszystkie kolejne kroki. Posiadanie złych danych na początku skutkuje niewłaściwymi modelami. Ale co się dzieje, gdy modelarz nie wie, w jaki sposób zostały wygenerowane dane? Klient niedawno przekazał mi zestaw danych do budowy modelu. Wydawało się, że dane zawierały zdarzenia prowadzące do rezygnacji. Nasze rozwiązanie polegało na zadaniu dostawcy trzech pytań: (1) jakie są wszystkie możliwe ścieżki klienta? (2) jakie są struktury danych? oraz (3) jakie dane są zbierane przy każdym zdarzeniu podczas wszystkich podróży klienta? Udzielenie odpowiedzi na te pytania zajęło kilka godzin, ponieważ każde pytanie prowadziło do dalszych tematów. Dzięki temu badaniu dowiedzieliśmy się, że zbieranie zdarzeń było niespójne w różnych grupach, ponieważ niektóre grupy gromadziły bardziej szczegółowe informacje niż inne. Zbudowanie modelu na podstawie danego zbioru danych spowodowałoby niewłaściwe przypisanie rezygnacji w większym stopniu grupom zbierającym dane na poziomie zdarzenia. Po stronie klienta stanąłem przed powiązaną kwestią wykorzystywania danych zebranych dla domeny innego celu podczas budowania modelu cenowego. Staraliśmy się przewidzieć, czy konsumenci zapłacą określoną kwotę za produkt. Podążając za budową modelu, zadaliśmy interesujące pytanie, a następnie znaleźliśmy odpowiedzi na pytanie ankietowe, za co zapłaciliby konsumenci. Odpowiedzi były jednak tendencyjne, ponieważ hipotetyczna cena była najniższym wyborem w ankiecie. Oczywiście więcej respondentów wybrało tę cenę. Bez dokumentacji i wskazówek badacza, który przeprowadził badanie, mój model dałby wypaczone wyniki. Aby rozwiązać ten problem, przeprowadziliśmy nowe badania w celu zebrania niezbędnych danych, mimo że wiązało się to z kosztami. W związku z tym twórcy modeli mogą ulec pokusie korzystania z danych proxy, gdy określone dane są niedostępne lub drogie do zebrania. W swojej książce Weapons of Math Destruction (Crown) Cathy O′Neil przytacza przykład wykorzystania danych kodu pocztowego, które mogą służyć jako proxy dla rasy lub bogactwa. Rozumiem pokusę wykorzystywania tych danych ze względu na ich rozpowszechnienie. W końcu konsumenci znacznie częściej podają swój adres pocztowy niż swoje dochody. Ale pojawia się wiele problemów. Na przykład przepisy wyraźnie zabraniają firmom ubezpieczeniowym wykorzystywania rasy jako czynnika decydującego o składkach. Ponadto pojawia się kwestia etyczna, ponieważ składka lub inna stawka byłaby określana przez czynniki pozostające poza kontrolą konsumenta, takie jak rejestry jazdy sąsiadów. Dlatego należy zachować ostrożność, jeśli serwery proxy mają być w ogóle używane. Te trzy przykłady ilustrują znaczenie etapu "uzyskiwania danych" w procesie budowania modelu. Ten krok jest przedstawiany jako przechodzenie przez istniejące repozytoria w celu znalezienia odpowiednich zestawów danych. Twórcy modeli muszą pójść o krok dalej, pytając, w jaki sposób dane zostały wygenerowane, rozumiejąc cel gromadzenia oryginalnych danych i rozumiejąc skutki używania serwerów proxy w celu określenia, czy istniejące dane są odpowiednie. Czasami właściwym krokiem jest zebranie nowych danych. W przeciwnym razie otrzymane modele będą niedokładne w wyniku zjawiska "wywóz śmieci, wyrzucenie śmieci".

Etyka i Dane (XXXII)


Ogranicz wyświetlanie informacji o klientach według przypadków użycia i zestawów wyników

Jednym z wyzwań współczesnej nauki o danych jest dostępność wielu zbiorów danych, które można zebrać razem na potrzeby przypadku użycia (tj. w celu zapewnienia 360-stopniowego widoku klienta), tak że wynikowy zintegrowany zestaw danych tworzy toksyczne kombinacje danych, w tym informacje, które mogą zostać niewłaściwie wykorzystane, jeśli trafią w niepowołane ręce. Weź pod uwagę, że jeśli połączysz informacje o klientach i historię zakupów (w przypadku sprzedawcy detalicznego towarów konsumpcyjnych ze sprzedażą bezpośrednią do klienta) z informacjami Biura Spisu Ludności Stanów Zjednoczonych i statystykami narodzin CDC (współczynnika urodzeń), możesz wiele ustalić na temat w rzeczywistości za dużo. Na przykład możesz określić członków gospodarstwa domowego, ich poziom wykształcenia i dochody, przedmioty, które regularnie kupują, wiek dzieci w gospodarstwie domowym itd. Dowiedzieliśmy się, że właściwe osoby powinny widzieć właściwe dane we właściwym czasie o odpowiedniej jakości (standard w programach zarządzania danymi), ale czy Twoja organizacja rozważyła przypadki użycia informacji na tym poziomie szczegółowości? Jeden ze sposobów ograniczenia przeglądania informacji umożliwiających identyfikację osób (PII) lub ograniczenie tworzenia toksycznych kombinacji informacji (np. Imię i nazwisko, adres, wiek i numer telefonu) oznacza "wylogowanie" danych z jeziora danych (lub centrum informacji o klientach) do wykorzystania w danym czas trwania lub okres czasu. Wraz z wylogowanymi danymi ludzie otrzymywali zaciemnione informacje o nazwisku, adresie, numerze telefonu i innych kluczowych informacjach, które identyfikowałyby konsumenta. Gdyby przypadek użycia miał na celu ustalenie, co kupują kupujący, można by to zidentyfikować, a organizacja musiałaby zaślepić informacje umożliwiające identyfikację konsumentów. W dużym sklepie detalicznym usunęliśmy możliwość uruchamiania zapytania w tych typach pól i jednocześnie zaślepiliśmy zwracane dane. Ograniczyliśmy również wszelkie zapytania, które zwróciły mniej niż 10 wyników - z tego powodu, że jeśli mieszkasz w bardzo małym mieście (powiedzmy z populacją 50 osób), prawdopodobnie możesz zidentyfikować osobę (osoby), jeśli wyników było mniej niż 10. Można sobie wyobrazić, że nieetyczna osoba chciałaby zobaczyć, co kupują jej sąsiedzi. Gdyby analityk danych musiał wiedzieć więcej, musiałby uzasadnić przed komisją etyczną swoje uzasadnienie wniosku. Weź pod uwagę dostawcę opieki zdrowotnej, który łączy wiele wewnętrznych i zewnętrznych zbiorów danych i może teraz określić, na przykład, kto ma AIDS w określonej społeczności. To naraziłoby organizację na naruszenie ustawy HIPAA, nie wspominając o tym, że byłoby to wysoce nieetyczne! Aby temu zapobiec, ponownie zezwolilibyśmy na zapytania, w przypadku których zestaw wyników musiałby zwracać więcej niż 50 wyników, aby umożliwić dostęp. Kluczem jest tutaj określenie, jakie wrażliwe dane w połączeniu z innymi zbiorami danych (zarówno wewnętrznymi, jak i zewnętrznymi) mogą skutkować ujawnieniem lub identyfikacją osoby (określane wcześniej jako toksyczne kombinacje danych). Rozważ również przypadek, w którym pracownik chce pobrać bardzo dużą część pliku klienta lub jeziora danych - jaki mógłby mieć przypadek użycia, który wymagałby takiej ilości informacji? Czy to możliwe, że jest to osoba, która rozważa wyjazd i zabranie ze sobą tych informacji? W tej sytuacji należy również wziąć pod uwagę ograniczenie maksymalnego rozmiaru zestawu wyników. Ten rodzaj blokowania i rozwiązywania problemów w przestrzeni danych jest obecnie rzeczywistością, a organizacje muszą planować i przygotowywać się do zabezpieczenia swoich zasobów informacyjnych, tak jak w przypadku aktywów pieniężnych. Na przykład, czy pozwoliłbyś jednemu pracownikowi wypłacić 1 milion dolarów w gotówce bez czeków i sald? Wszyscy wiemy, że odpowiedź brzmi nie, więc po co inaczej traktować zbiory danych?

Etyka i Dane (XXXI)


Tylko dlatego, że mógłbyś, czy powinieneś? Etyczny dobór danych do analizy

Podobnie jak wielu innych ludzi, szukam wielu źródeł wiadomości i infografik, aby lepiej zrozumieć związek między nauką a polityką oraz między danymi a działaniem. Znalazłem też fantastyczne źródła publicznych danych, które codziennie analizuję za pomocą różnych narzędzi. Kilka tygodni temu dwie firmy, X-Mode i Tectonix, połączyły siły, aby opracować wizualizację śledzącą dane o lokalizacji telefonów komórkowych od wiosennych załamywaczy w Fort Lauderdale, którzy tłoczyli się na plażach, ignorując wytyczne dotyczące dystansu społecznego. Ta szeroko rozpowszechniona wizualizacja śledziła ogromne rozprzestrzenienie się wiosny, gdy opuszczali Fort Lauderdale i wracali do swoich kampusów lub domów. To była niesamowita demonstracja, która dała wielu osobom po raz pierwszy wgląd w ogromną moc analityki i wizualizacji danych. Zakwestionował jednak również etykę i legalność śledzenia sygnałów telefonów komórkowych do celów innych niż zamierzone przez ich właścicieli. W miarę postępów w pandemii staniemy przed wyborem równoważenia prywatności osobistej z celami bezpieczeństwa publicznego. Ten dylemat nie jest nowy. Naukowcy i analitycy danych rutynowo stają przed podobnymi decyzjami dotyczącymi etyki danych. Na przykład, w ramach jednej z moich poprzednich ról, mój dział ocenił oprogramowanie do analizy wideo, które działało w połączeniu z licznikami ruchu opartymi na wideo, zamontowanymi przy wejściu do każdego z naszych punktów sprzedaży detalicznej. Liczniki ruchu po prostu zliczały osoby wychodzące i wchodzące do naszych sklepów. Logika wbudowana w liczniki odfiltrowywała określone osoby (pracowników i dzieci z rodzicami) z podliczeń. W przeciwnym razie dostarczone liczniki liczby według czasu i liczby według czasu. Oprogramowanie analityczne, które oceniliśmy, może określić płeć i wiek osób wchodzących do sklepu. Przetestowaliśmy to w naszym laboratorium i stwierdziliśmy, że jest ono umiarkowane do znaczącego. Kiedy jednak omawialiśmy korzystanie z tej technologii z naszym radcą prawnym, rozwikłaliśmy cały szereg problemów etycznych i prawnych. Podobny scenariusz miał miejsce, gdy ocenialiśmy technologie "cyfrowego dopasowania", które na podstawie cyfrowego zdjęcia określały odpowiedni rozmiar odzieży dla osoby. COVID-19 i przykłady pracy ilustrują jedno z podstawowych wyzwań etycznych dla wielu naukowców zajmujących się danymi i analityków: czy powinienem wykorzystać te dane w mojej analizie? Zauważ, że użyłem słowa "powinien", nie "mógł". Kwestia etyczna "powinien" kontra "może" jest bardzo istotna w obliczu rosnącej ilości danych dostępnych w domenie publicznej. W jaki sposób analityk danych lub inżynier danych powinien zdecydować, "powinien"? Rozważ następujące pięć kryteriów określania etycznego wykorzystania danych:

•  Dane muszą być autentyczne i zaufane. Jeśli nie znamy źródła lub nie ufamy mu, nie powinniśmy wykorzystywać danych.
•  Kontekstowe wykorzystanie danych musi odpowiadać pierwotnym celom, dla których zostały zebrane. Jeżeli korzystamy z danych w sposób niezgodny z celem, dla którego zostały zebrane, nie powinniśmy ich wykorzystywać.
•  Strony przekazujące dane muszą wyrazić zgodę na ich gromadzenie. Zgodę weryfikujemy rozumiejąc, czy osoby, które przekazały dane, miały wybór i dobrze rozumiały konsekwencje swojego wyboru. Jeśli nie mamy pewności co do zgody, nie powinniśmy wykorzystywać danych.
•  Ryzyko niezamierzonej szkody lub niepożądanego narażenia stron dostarczających dane musi zostać ograniczone. Jeśli ktoś podaje dane pod pozorem anonimowości, musimy podjąć kroki w celu ochrony jego praw. Jeśli brakuje nam odpowiednich środków ochrony, nie powinniśmy wykorzystywać danych.
•  Stronniczość w gromadzeniu danych musi zostać zidentyfikowana i złagodzona. Chociaż jest to podobne do naszego pierwszego kryterium, dane mogą być autentyczne, ale stronnicze. Stronniczość w zbieraniu danych skutkuje stronniczością w kolejnych modelach. Jeśli nie mamy jasnego zrozumienia metod i praktyk stosowanych w procesie gromadzenia danych, nie powinniśmy wykorzystywać danych.
Naukowcy zajmujący się danymi, inżynierowie i analitycy są często ostatecznymi decydentami dotyczącymi włączenia zbiorów danych do analizy. Etyka danych powinna odgrywać znaczącą rolę w tej decyzji. Pamiętaj, tylko dlatego, że mogłeś, nie oznacza, że powinieneś.

Etyka i Dane (XXX)


Anonimizacja danych jest naprawdę trudna

Analityka danych obiecuje głębsze i pełniejsze zrozumienie otaczającego nas świata. Wielu twierdziło, że ze względu na obecną wszechobecność danych możliwe stało się wreszcie zautomatyzowanie wszystkiego, od tworzenia wartości do zdolności adaptacyjnych organizacji. Aby to osiągnąć, potrzebne są duże ilości danych o ludziach (i ich zachowaniach). Należy jednak znaleźć równowagę między potrzebą tych bardzo szczegółowych danych a prawami osób fizycznych do zachowania prywatności. Jednym ze sposobów radzenia sobie z tym wyzwaniem jest usunięcie niektórych kluczowych identyfikatorów ze zbioru danych, czasami nazywanych "danymi nazwiska", które zazwyczaj zawierają pola takie jak imię i nazwisko, adres i numer ubezpieczenia społecznego. Są to cechy, które wydają się być kluczowymi cechami, które jednoznacznie identyfikują daną osobę. Niestety, istnieje wiele technik, które pozwalają innym na deanonimizację takich danych. Niektóre zbiory danych można deanonimizować za pomocą bardzo podstawowych środków; na przykład niektóre osoby w zbiorze danych zawierającym anonimowe recenzje filmów zostały zidentyfikowane po prostu przez wyszukanie podobnie sformułowanych recenzji na stronach internetowych, które nie są na przykład anonimowymi IMDB. W innym przypadku AOL opublikował listę 20 milionów zapytań w sieci, które zebrała, i dwóch reporterów było w stanie jednoznacznie zidentyfikować osobę na podstawie wskazówek zawartych w ich konkretnych wyszukiwaniach. Poza tymi prostymi podejściami bardziej złożonym podejściem jest zbadanie innych pól, które pozostają niezmienione, więc jeśli ze zbioru danych usunięto nazwę danych, może to spowodować problemy; na przykład, jeśli badacz patrzy na związek między miejscem zamieszkania danej osoby a jej stanem zdrowia, usunięcie identyfikatora adresu może okazać się szkodliwe dla badań. Aby rozwiązać ten problem, czasami pozostawiono parametr Numer kierunkowy, a następnie badanie można pomyślnie zakończyć. Jednak haker może jednoznacznie zidentyfikować poszczególne rekordy ze zbioru danych, z którego usunięto dane dotyczące nazwy, ale zawiera kod obszaru i inne parametry, włączając do analizy istniejące publicznie dostępne dane, co wykazało wielu informatyków, w szczególności Latanya Sweeney, dyrektor laboratorium ochrony danych na Uniwersytecie Harvarda. Anonimizacja danych w kontekście mediów społecznościowych (lub sieci) jest jeszcze trudniejsza i warto zauważyć, że naukowców często bardziej interesują relacje między ludźmi niż dane jednostki. Zazwyczaj sieć społecznościowa jest reprezentowana jako wykres, z węzłami reprezentującymi osoby lub organizacje, a krawędzie reprezentują połączenia i komunikację między osobami lub organizacjami. Więc nawet jeśli anonimizacja danych działa zasadniczo w taki sam sposób jak poprzednio, poprzez usunięcie wspólnych identyfikatorów, w szczególności danych dotyczących nazwiska, wszystko, co musi zrobić haker, to stworzyć pewną liczbę fałszywych osób i użyć ich do połączenia się z istniejącymi osobami w sieć (zakładając, że zbiór danych reprezentuje działający system). Po podłączeniu do niewielkiej liczby rzeczywistych osób będzie można je jednoznacznie zidentyfikować na podstawie konfiguracji (kształtu) połączeń każdej osoby z innymi. Poeta Alexander Pope powiedział: "Jak szczęśliwy jest los nienagannych westalek! Świat zapomniał, świat zapomniał ", co oznacza, że zakonnice klauzurowe zapomniały o świecie zewnętrznym, a świat się odwzajemnia; sugeruje to, że być może jedynym sposobem na zachowanie anonimowości jest trzymanie się z dala od usług, które rejestrują dane o Tobie.

Etyka i Dane (XXIX)


Czy dane powinny mieć prawa?

Twoje DNA ma prawa. A przynajmniej jest chroniony prawem. Ustawa o niedyskryminacji informacji genetycznych z 2008 r. (GINA) oraz ustawa o przenoszeniu informacji o zdrowiu i odpowiedzialności (HIPAA) nakładają obowiązki dotyczące prywatności i bezpieczeństwa danych w celu ochrony informacji genetycznych. W związku z tym ludzie, do których przypisane jest DNA, są chronieni przed dyskryminacją w zakresie ubezpieczenia medycznego, najmu, wypowiedzenia lub odszkodowania. Aby wyjaśnić, ochrona DNA osoby w ramach GINA i HIPAA ma znaczenie tylko wtedy, gdy jest ona powiązana z tą osobą. Miliony ludzi przyczyniło się (faktycznie zapłaciło) za swoje fizyczne DNA do repozytoriów, takich jak Ancestry.com lub 23andMe, i "kliknęli" swoją milczącą zgodę na oddzielenie wartości ich DNA od osoby fizycznej dla celów badań genealogicznych, medycznych, a nawet kojarzenia i identyfikacji przestępców. W 2015 r. firma Helix, zajmująca się genomiką o wartości 20 miliardów dolarów, zsekwencjonowała około 90% światowych danych DNA, oczekując udostępnienia ich konsumentom na cyfrowym rynku opartym na DNA. Rozważmy teraz aktywność online. Coraz częściej nasza aktywność online tworzy cyfrowe DNA, które jest tak samo unikalne dla każdej osoby, jak jej fizyczne DNA. Podczas gdy większość ludzi przyznaje, że tworzą "cyfrowe wyczerpanie" jako funkcję codziennych czynności, większość może nie zdawać sobie sprawy, że tworzą nową formę DNA, która może istnieć i generować wartość pieniężną po tym, jak przestaną istnieć fizycznie. Dotyczy to obrazów i podobieństw, które są rejestrowane codziennie za pomocą technologii rozpoznawania twarzy. Weź pod uwagę fakt, że urządzenie, którego używasz głównie do łączenia się z Internetem (telefon, tablet, laptop), sposób wprowadzania informacji (z uwzględnieniem wielkości liter lub wszystkie małe litery), wyszukiwarka, z której korzystasz, oraz pora dnia, w której jesteś najbardziej aktywny można połączyć, aby rozwinąć silny profil tego, kim jesteś i prawdopodobieństwo opłacenia rachunków, zakupu samochodu, przeprowadzki, urodzenia dziecka lub zachorowania na raka. Twój wizerunek "na wolności" może zostać wykorzystany do profilowania przestępców bez Twojej zgody. Poza swoim "źródłem" cyfrowe DNA ma potencjalną wartość dla społeczeństwa - podobnie jak komórki Henrietty. Ta narracja stwarza dylemat etyczny, który powinien rozważyć każdy specjalista od analizy. Czyli tak jak nasze fizyczne DNA, czy nasze cyfrowe DNA, które jest potencjalnie bardziej wartościowe, powinno mieć "prawa" oddzielone od człowieka, który je wygenerował?

Etyka i Dane (XXVIII)


Postrzeganie danych osobowych

Czy jesteśmy właścicielami naszych danych osobowych? Jeśli nie, kto to robi? Czy raczej powinniśmy zapytać, czy należy przede wszystkim myśleć o danych osobowych jako o towarze? W artykule zatytułowanym "Sprzedaż hurtowych danych online naprawdę oznacza sprzedaż swojej autonomii" Evgeny Morozov argumentuje, że [my] nie powinniśmy bezsprzecznie akceptować argumentu, że dane osobowe są takie same jak każdy inny towar i że większość naszych problemów cyfrowych zniknęłaby gdyby tylko zamiast gigantycznych monopolistów danych, takich jak Google i Facebook, mieliśmy armię mniejszych przedsiębiorców zajmujących się danymi. Nie pozwalamy ludziom praktykować ich prawa do autonomii, aby zrzec się tego prawa, sprzedając się do niewolnictwa. Po co robić wyjątek dla tych, którzy chcą sprzedać kawałek swojego intelektu i prywatności, a nie swoje ciała? Uderzając w podobną uwagę w prezentacji zatytułowanej "O danych osobowych, przebaczeniu i "prawie do bycia zapomnianym", filozof Luciano Floridi odzwierciedla, że [t] tutaj są mniej więcej dwa sposoby patrzenia na dane osobowe. Jeden dotyczy filozofii ekonomii. Twoje dane są Twoje, tak jak w części "Moje dane, mój dom, mój samochód: jestem ich właścicielem… a jeśli wkroczysz, przekraczasz granice mojej własności".… Jest jeszcze inny sposób patrzenia na dane osobowe, to ma coś wspólnego ... z filozofią umysłu - filozofią osobistej tożsamości. Moje dane lub wspomnienia są bardziej jak moja ręka, moja wątroba, moje płuca, moje serce. Nie chodzi o to, że są moje, ponieważ je posiadam; są moje, ponieważ stanowią mnie… Kopiowanie moich danych [to] nie odbieranie tych danych, ale jest coś w klonowaniu i ingerencji, co nie ma nic wspólnego z wtargnięciem, ale bardziej z porwaniem. Przez pewien czas powszechne było argumentowanie, że świadczenie różnych "bezpłatnych" usług w Internecie stanowi w rzeczywistości transakcje, w ramach których użytkownicy "płacą" za te usługi swoimi danymi osobowymi (niektórzy nadal to twierdzą). Jeśli jednak dane osobowe nie są towarem, ale czymś, co stanowi o nas jako istotach ludzkich, czy to sprawia, że te transakcje bardziej przypominają dawstwo narządów? Jeśli tak, byłyby to "darowizny" poprzedzone wyjątkowo niewystarczającą świadomą zgodą. W 2016 roku, szczegółowo opisując wyniki badania na temat postaw Amerykanów wobec prywatności i dzielenia się informacjami, Pew Research Center zauważyło, że jednym z najbardziej niepokojących aspektów kwestii prywatności dla wielu uczestników grupy fokusowej było to, jak bardzo się czują chodzi o uzyskanie informacji o tym, co jest gromadzone i niepewność co do tego, kto zbiera dane ". Do 2019 r. To samo centrum badawcze donosiło, że "około osiemdziesięciu lub więcej dorosłych Amerykanów twierdzi, że ma bardzo małą kontrolę lub nie ma żadnej kontroli nad danymi, które rząd (84%) lub firmy (81%) gromadzi na ich temat"; ponadto "81% Amerykanów uważa, że potencjalne ryzyko związane z gromadzeniem danych na ich temat przez firmy przeważa nad korzyściami, a 66% mówi to samo o gromadzeniu danych na ich temat przez rząd". W kolejnych latach coraz więcej informacji na temat gromadzenia i wykorzystywania danych osobowych skutkowało mniejszą zgodą. Wszyscy praktycy pracujący z danymi osobowymi muszą zrozumieć i zająć się tą rzeczywistością. Wielu Amerykanów najwyraźniej postrzega dane osobowe nie jako "nowy olej", ale jako siłę napędową ich autonomii.

Etyka i Dane (XXVII)


Etyka danych i efekt lemingu

W ciągu ostatniej dekady byliśmy świadkami erupcji indywidualnych danych zbieranych i udostępnianych do wykorzystania w cyberprzestrzeni. To, w połączeniu z rozległymi opcjami możliwości obliczeń seryjnych, zaowocowało algorytmami analitycznymi z nienasyconym apetytem na dane, które mogą dostarczyć unikalnych spostrzeżeń o osobach i / lub populacjach. Postrzeganie danych jako placu zabaw dla naukowców zajmujących się danymi ma znaczące zalety, ale wraz z nimi pojawia się ciemne podbrzusze. Największym problemem jest nieodpowiedzialne wykorzystywanie bardzo prywatnych danych do dostarczania algorytmów, co może skutkować niezamierzonymi konsekwencjami, kłopotliwymi wyzwaniami w zakresie relacji publicznych lub niekontrolowanymi algorytmami AI / ML, które mogą integrować uprzedzenia. Być może znasz efekt lemingowania. Opiera się na bezpodstawnej tendencji tych małych gryzoni do bezmyślnego zabijania się, skacząc jeden po drugim z klifów. Stało się to niekwestionowanym podążaniem za innymi, bez brania pod uwagę konsekwencji. Jak więc wykorzystanie rozszerzonych danych osobowych jest równoznaczne z efektem leminga? Wydaje się, że jeśli jedna organizacja korzysta ze wszystkich dostępnych jej danych, zachowanie to działa jak afrodyzjak dla innych organizacji, które czują się zmuszone do zrobienia tego samego. Mogą to zrobić bez względu na konsekwencje lub z niewielkim szacunkiem. Strach przed pozostawieniem w tyle i niestosowaniem najbardziej zaawansowanych technik analitycznych do każdego dostępnego fragmentu danych napędza zespoły analityczne i firmy do nieświadomego zaakceptowania etyki danych innej organizacji (lub jej braku) jako de facto kodeksu postępowania. Po prostu "skaczą z klifu", ponieważ inna organizacja zrobiła to samo. Istnieją jednak alternatywy. Podczas opracowywania algorytmów może istnieć delikatna równowaga między stale rosnącym zapotrzebowaniem na dane specyficzne dla danej osoby a wartością, jaką dane wnoszą do tego algorytmu. Z pewnością dodanie większej ilości danych może potencjalnie zwiększyć możliwości predykcyjne modelu, ale jakim kosztem? Koszt ten może wynosić kilka dolarów i centów związanych z pozyskaniem danych, ale co ważniejsze, należy go rozpatrywać w kategoriach wpływu etycznego i obowiązków zarządczych związanych z danymi powierzonymi firmie. Dane kategoryczne lub dane powiązane z osobą przez skojarzenie, takie jak adres pocztowy, są generalnie mniej kłopotliwe niż dane indywidualne, które są specyficzne dla tej osoby. W zależności od aplikacji modele wykorzystujące dane kategoryczne mogą być prawie tak samo skuteczne, jak modele wykorzystujące dane indywidualne. To sprawia, że dane kategoryczne są idealnym wyborem, jeśli indywidualne dane potrzebne do modelu są uważane za wrażliwe. Porównanie wyników przy użyciu każdego z tych typów danych wymaga wysiłku. Jednak przy tym ostateczny wybór modelu może koncentrować się nie tylko na różnicach między tymi dwoma typami danych, ale także na kwestiach etycznych związanych z rutynowym wykorzystywaniem wrażliwych danych osobowych. Rozważając dane społeczno-ekonomiczne, które mogą zapewnić wgląd w potrzeby danej osoby w zakresie opieki zdrowotnej, publicznie dostępne dane mogą zapewnić więcej niż wystarczającą wiarygodność, aby model był skuteczny. Nie oznacza to, że pojedyncze dane nie poprawiłyby modelu. Na przykład, biorąc pod uwagę trudność mieszkaniową danej osoby ze względu na potrzeby zdrowotne lub społeczne, wiedza, ile osób adresowała dana osoba w ciągu 12 miesięcy, jej wcześniejsze eksmisje i / lub egzekucje lub sytuacja mieszkaniowa ich krewnych może z pewnością lepiej poinformuj model. Jednak dane wejściowe, takie jak aktualny adres i charakterystyka tej społeczności / bloku spisowego / itp. - od dochodów po dostępność świeżej żywności i typ mieszkania - mogą być równie skuteczne w kierowaniu nawigatorem opieki w ich decyzjach. Wszystko to nie ma na celu dyskwalifikacji korzystania z indywidualnych danych w modelach. Jednak zarządzanie danymi jest kluczową odpowiedzialnością, zwłaszcza w przypadku gromadzenia danych dotyczących konkretnej osoby. Najważniejsze jest to, że każda organizacja powinna rozważyć zminimalizowanie śladu danych wrażliwych. Zaczynając od kodeksu etyki danych i ustalając zasady dotyczące tego, jakie ryzyko organizacja jest skłonna zaakceptować, przynajmniej ta ważna decyzja zostanie podjęta z rąk indywidualnego analityka lub analityka danych i odda ją z powrotem w ręce przedsiębiorstwa, Gdzie należy. Wykorzystywanie danych dla wspólnego dobra innych, a nie dla indywidualnego zysku lub zysku, może wydawać się altruistycznym lub nawet naiwnym celem, ale należy to wziąć pod uwagę jako część odpowiedzialności za zarządzanie, które organizacje mają przy rozważaniu wykorzystania danych umożliwiających identyfikację osoby. osadzone w procesie biznesowym.

Etyka i Dane (XXVI)


Jak prosić o dane klientów w sposób przejrzysty i oparty na zaufaniu

Większość klientów wie, że ich dane są gromadzone przy każdym kliknięciu online, polubieniu lub zakupie, ale wielu chciałoby mieć większą kontrolę nad tą aktywnością. Ciągły bęben dużych wycieków danych w ostatnich latach, w tym w Yahoo, First American Financial, Facebook, Marriott / Starwood i Equifax, sprawił, że wielu klientów czuje się bezradnych wobec włamań i kradzieży. Giganci mediów społecznościowych również nadużywali zaufania swoich klientów, udostępniając dane o nich stronom trzecim, które wykorzystywały te informacje w sposób, którego klienci mogliby nigdy nie zaakceptować. Takie naruszenia powinny sprawić, że klienci będą bardziej nieufni co do udostępniania danych. Jednak bardziej niż kiedykolwiek wcześniej firmy polegają na danych klientów przy opracowywaniu nowych produktów, dostosowywaniu doświadczeń i usług online oraz decydowaniu, gdzie zainwestować w nowe działania komercyjne. Firmy, które dopiero zaczęły rozwijać swoje analityczne mięśnie, prawdopodobnie nie odejdą od potencjalnych korzyści biznesowych wynikających z danych klientów. Jak więc firmy mogą zaspokoić swoje zapotrzebowanie na dane, szanując jednocześnie obawy swoich klientów? W przypadku większości firm problemem jest znalezienie właściwego sposobu wyartykułowania powodów, dla których gromadzą dane, oraz sposobu ich wykorzystania. Badania przeprowadzone przez Bain & Company pokazują, że płacenie ludziom za ich dane nie działa. Klienci, którzy sprzeciwiają się gromadzeniu lub udostępnianiu ich danych, rzadko dają się zwieść ofertom pieniędzy. Zaufania, jak się wydaje, nie da się kupić. Dotyczy to wielu różnych typów klientów. Nie widzieliśmy istotnego związku między na przykład dochodem a chęcią rozstania się z danymi dotyczącymi wynagrodzenia pieniężnego. Z drugiej strony znaleźliśmy związek między przejrzystością firmy a gotowością klientów do udostępniania danych. Otwarta, prosta komunikacja z klientami - o rodzajach danych, które firmy chciałyby gromadzić, dlaczego tego chcą i ograniczeniach tego, co by z nimi zrobili - wydaje się mieć wpływ. W szczególności ludzie są bardziej skłonni do udostępniania danych, gdy widzą uzasadnienie ich gromadzenia. Liczy się również, kto pyta. Konsumenci ufają niektórym firmom bardziej niż innym. Na przykład firmy spożywcze i linie lotnicze częściej uzyskują zgodę klientów na wykorzystywanie ich danych osobowych niż firmy świadczące usługi finansowe i dostawcy telefonów komórkowych. Podczas gdy niektóre firmy uznały przejrzystość za priorytet, Unia Europejska podjęła kroki w celu egzekwowania jednolitych standardów. Zgodnie z ogólnym rozporządzeniem UE o ochronie danych firmy prowadzące działalność online w Europie muszą informować klientów, że ich dane są gromadzone. Zwykle ma to postać małych banerów lub wyskakujących okienek, które informują użytkowników, że witryna, do której właśnie trafili, używa plików cookie i może, ale nie musi, zbierać od nich informacje umożliwiające identyfikację, jeśli klikną, aby zaakceptować. Fakt, że witryny lub aplikacje mobilne zbierają dane, nie będzie zaskoczeniem dla klientów. Jednak reguły RODO nie zapewniają im dużej kontroli nad swoimi danymi, z wyjątkiem odrzucenia plików cookie lub, w niektórych przypadkach, opuszczenia witryny. Nie jest jasne, do czego będą wykorzystywane dane, i nie ma łatwo dostępnych ustawień umożliwiających klientom wybranie konkretnych danych, które chcą udostępnić. Chociaż RODO jest krokiem we właściwym kierunku, pozostaje szorstkimi ramami i spotkało się z krytyką za jego postrzegany nadmierny zasięg, brak elastyczności w dostosowywaniu się do potrzeb małych organizacji i przedsiębiorstw oraz potencjalnie dławiący wpływ na innowacje. Podobnie jak przy długich (i zwykle nieprzeczytanych) umowach prawnych, które towarzyszą każdemu pobraniu aplikacji lub aktualizacji oprogramowania, pierwotne przepisy RODO nie poprawiły dialogu między firmami a klientami ani nie wyjaśniły w jasny sposób warunków korzystania z danych. Kolejna rewizja może być bardziej skuteczna: UE zapowiedziała zmiany w RODO, które zmusią firmy do przekazywania tych informacji w "jasnym i prostym języku". Lepszym modelem może być pięć zwięzłych zasad ochrony danych organizacji non-profit Mozilla Foundation, opublikowanych po raz pierwszy na początku 2011 r., Aby wskazać, jak Mozilla podchodzi do prywatności danych. Jeśli chodzi o dane użytkowników, trzy najważniejsze założenia to:

Bez niespodzianek: użytkownicy udostępniają dane w sposób dla nich przejrzysty.
Kontrola użytkowników: Klient kontroluje, które dane są gromadzone i kiedy.
Ograniczone dane: firma zbiera tylko to, czego potrzebuje, i usuwa dane, których już nie potrzebuje.

Razem te zasady zaczynają kształtować środowisko przejrzystości i zaufania niezbędne do wzmocnienia relacji z klientami, na których danych w coraz większym stopniu polegają firmy. Otwarta i przejrzysta komunikacja to dobry punkt wyjścia: używaj jasnego języka z góry, pytając o pozwolenie i informując klientów, w jaki sposób ich dane będą wykorzystywane i chronione.

Etyka i Dane (XXV)


Nie jesteśmy jeszcze gotowi na znak zaufania dla technologii

W Doteveryone, odpowiedzialnym think tanku technologicznym, w którym pracowaliśmy od 2018 do 2020 roku, często pytano nas, dlaczego nie zdecydowaliśmy się na wczesny pomysł stworzenia "znaku zaufania" dla technologii. Krótka odpowiedź jest taka, że produkty i usługi cyfrowe nie są jak banany. Produkty cyfrowe są skomplikowane i zmieniają się z biegiem czasu (wraz z aktualizacjami oprogramowania, nowymi technologiami, nowymi danymi itp.) - zmienia się również nasze podejście do nich. Trudno jest ustalić i ocenić użyteczne wspólne standardy w tego rodzaju warunkach. W Doteveryone przyjrzeliśmy się, jak wyglądałyby znaki zaufania dla technologii, a po przeprowadzeniu badań i opracowaniu prototypów stwierdziliśmy, że znak zaufania nie był najbardziej użyteczną rzeczą, jaką mogliśmy zrobić, aby wprowadzić zmiany. Znaki zaufania są powszechnymi narzędziami do wykazania odpowiedzialności biznesowej, niezależnie od tego, czy jest to GasSafe dla techników ogrzewania, czy Fairtrade dla żywności i innych produktów. W 2017 roku, wraz z rosnącymi obawami dotyczącymi wielkich technologii, algorytmów i nie tylko, a także wezwań do większej odpowiedzialności, wiele osób wspomniało o znakach zaufania dla technologii cyfrowej i warto było rozważyć przeniesienie pomysłu powszechnego w innych sektorach do tego nowego. . Po przeprowadzeniu pewnych badań Doteveryone był w stanie opisać konkretne wyzwania związane z tworzeniem znaku zaufania dla technologii cyfrowych. Zdaliśmy sobie sprawę, że obowiązkowe oceny dla sektora to bardzo długa, powolna droga do rozwoju - a technologia nadal opracowuje również kategorie produktów, więc trudno jest dokładnie określić, jakie produkty i usługi będą obejmować. Niektóre znaki zaufania używają systemu listy kontrolnej. Gdybyśmy wyobrazili sobie znak dla konkretnego rodzaju produktu, takiego jak monitor fitness noszony na nadgarstku, możliwe byłoby wymyślenie listy kontrolnej, jak wyglądałyby odpowiedzialne urządzenia do monitorowania kondycji. Ale potrzebowalibyśmy bardzo wielu list kontrolnych obejmujących wszystkie cyfrowe produkty i usługi, które chcielibyśmy mieć dobre praktyki projektowe, programistyczne i operacyjne! Dlatego zamiast tego skupiliśmy się na podejściu opartym na wartościach oraz na biznesie i wyborze produktów na wyższym poziomie. Wartości często określają sposób, w jaki ludzie opisują swoje obawy dotyczące technologii i stanowią lepszą oprawę niż szczegóły dotyczące dostępności schematów kolorów lub technologii szyfrowania danych. Stworzyliśmy "zaufany znak technologiczny" - znak zaufania oparty na wartościach, aby pomóc klientom zidentyfikować produkty i usługi, które odzwierciedlają ich priorytety i obawy. Pomysł polegał na tym, aby była to bardziej nowoczesna koncepcja znaku zaufania, w której znak na produkcie lub usłudze byłby poparty zasobem online aktualnych informacji, które uzasadniają używanie znaku. W ten sposób, wraz ze zmianą technologii - na przykład w przypadku aktualizacji oprogramowania - zmiany te mogłyby zostać uwzględnione, a dowody godnego zaufania zachowania byłyby zawsze aktualne. Znak umożliwiałby również uzyskanie lekkiej odpowiedzialności i egzekwowania bez kosztów i skali pełnej jednostki normalizacyjnej lub organu certyfikującego i byłby stosunkowo łatwy do przetestowania. Jeśli proste repozytorium dowodów online mogłoby pomóc w wykazaniu wartości godnego zaufania systemu znaków technicznych, mogłoby z czasem przejść do systemu formalnego później. Testowanie tego godnego zaufania znaku technologicznego - adaptacja koncepcji konwencjonalnego modelu znaku zaufania do szczególnego przypadku złożonego, szybko zmieniających się cyfrowych technologii - w małej grupie organizacji znaleźliśmy:

•  Najważniejszym wyzwaniem dla organizacji była po prostu pomoc w określeniu sposobów lepszej pracy. Zapewnienie frameworka i narzędzia wspierające ich zespoły w myśleniu o odpowiedzialności były niezwykle przydatne.
•  Najtrudniejszą częścią do zarządzania dla małych organizacji były rzeczywiste dowody, częściowo dlatego, że dotyczyło to demonstrowania na zewnątrz rzeczy, które mogą dotyczyć wrażliwości handlowej, a częściowo dlatego, że było to dodatkowe zadanie - jeszcze jedna rzecz do zrobienia w i tak już bardzo zajętym życiu startup lub mała firma technologiczna.
•  Wątpliwe było, czy konsumenci rzeczywiście odnieśliby korzyści ze znaku. Wybory są już trudne, gdy wybierasz aplikacje i urządzenia, a oferty produktów są złożone, a czasu (i pieniędzy) często brakuje. Zamiast identyfikować kilka produktów "złotego standardu" ze znakiem zaufania, ważniejsze wydawało się umożliwienie większej liczbie firm ulepszenia ich praktyk w lekki i wykonalny sposób. (Najbardziej etyczne produkty cyfrowe są dziś często dość łatwe do znalezienia, jeśli chcesz! Nadal są dość rzadkie, ale ich nietypowe modele biznesowe i pozycjonowanie marki są ogólnie widoczne, a dostępne są również wyselekcjonowane listy etycznych aplikacji).

Tak więc, chociaż znak zaufania, poparty otwartym repozytorium dowodów, nadal byłby użyteczny i może być dobrym kierunkiem na przyszłość w miarę rozwoju sektora oraz rozwoju zainteresowania konsumentów i polityków odpowiedzialną technologią, nie jesteśmy jeszcze w punkcie krytycznym, w którym istnieje wystarczające zapotrzebowanie klientów. Znaki zaufania dla technologii cyfrowych wymagają innowacyjnego myślenia i prototypowania, ale potrzebują również systemu egzekwowania, który działa na dużą skalę. Oznacza to dużą, ciężką organizację, która jest znacznie trudniejsza i wolniejsza do wykonania. Zamiast tego skupiliśmy się na tym, jak możemy wykorzystać to, czego się już nauczyliśmy, i dać organizacjom narzędzia, które pomogą im być bardziej odpowiedzialnymi na co dzień. Wyniki okazały się przydatne i działają w praktyce znacznie szybciej niż byłby znak zaufania.

Etyka i Dane (XXIV)


Czy źle jest mieć rację?

Lepsze dane, lepsze modele i lepsze silniki decyzyjne dają lepsze wyniki. Niezależnie od tego, czy ręcznie trenujesz model, używasz zautomatyzowanych systemów uczenia maszynowego, czy też korzystasz z którejkolwiek z najnowszych siatek do nauki "x" z treningiem wstępnym, czy naprawdę ma znaczenie, dlaczego Twój model działa tak dobrze, o ile ma doskonałą wydajność? Czy najdokładniejszy model nie powinien być używany wszędzie i wszędzie we wszystkich sytuacjach? To postęp, prawda? Czy należy pozwolić modelowi uczyć się samodzielnie, aby kontynuować ten postęp i samokalibrować się w celu lepszej personalizacji? Praktycznie, jeśli nie ma krzywdy, to nie ma faulu, prawda? Z naukowego punktu widzenia wielu twierdzi, że chodzi o podnoszenie, poprawne dla danych. Zawodowo standardy opieki wciąż się kształtują. Istnieją dziesiątki dziedzin praktyki, w których lepsze modele i lepsze dane pojawiają się magicznie, regularnie i na dużą skalę, aby uzyskać lepsze wyniki - bez zadawania pytań - co skutkuje zachwyconymi użytkownikami, wynalazcami i inwestorami. Prawa prywatności są zwolennikami dźwiękowych ostrzeżeń. Z prawnego punktu widzenia jesteśmy w technologicznym sprincie, który znacznie wyprzedza obowiązujące przepisy i regulacje dotyczące zgodności. Wiele z dzisiejszych mechanizmów kontrolnych pojawiło się w latach siedemdziesiątych i osiemdziesiątych XX wieku w odniesieniu do uczciwości w zatrudnieniu, pożyczkach i mieszkalnictwie, a także w latach dziewięćdziesiątych i na początku XXI wieku w odniesieniu do oszustw, kradzieży, zmowy, prania pieniędzy i obaw o terroryzm. Znane granice prawne są często dobrze zdefiniowane, ale często nie są dobrze rozumiane przez osoby najbliższe danym. Często istnieją złożone definicje, które definiują coś jako zabronione lub ograniczone (kto, co, kiedy, gdzie, dlaczego, w jaki sposób, za pomocą jakich środków, w jakim przypadku użycia, w jakiej grupie wiekowej iw jakiej jurysdykcji). Może to pozostawić więcej sytuacji nieokreślonych niż zalecanych. Jeśli nie jest to niezgodne z prawem, czy nadal jest w porządku? Z etycznego punktu widzenia "co jest OK" jest często ruchomym celem. Wpływ biznesowy napędza potrzebę lepszych wyników, a opinia publiczna może być kapryśna, przekonana, a nawet opłacona za określone informacje. Kto jest strażnikiem etyki, kiedy się angażuje i kiedy ponownie się angażuje, gdy zmieniają się sytuacje? Jest to pojawiający się problem w nauce o danych. Guma na drodze zwykle pokazuje z czasem różne ślady poślizgu. Duże poślizgi pojawiają się, gdy wielkie prognozy nie sprawdzają się w przypadku podgrup i gdy w ogóle przewidywane są określone chronione podgrupy. Kiedy przewidywać i kiedy nie przewidywać, jest kwestią etyczną, być może szerszą niż "etyka biznesowa". Wielu bossów zabija posłańca. Większość działów etyki upadła. Wiele małych firm nie ma nawet działów etyki. Firmy spoza USA mogą mieć różne zasady etyczne, podobnie jak różne firmy z tych samych branż, które mają tych samych klientów w tych samych regionach. Nie jest jasne, które ramy etyczne powinny być standardem. Do tego czasu bardziej powszechne będą przypadki, w których nastąpi odmienny wpływ na chronioną klasę lub naruszenie nielegalnych zmiennych. Może to wynikać z uprzedzeń wprowadzonych przez dane bazowe, złego zarządzania określonymi typami danych lub rozróżnienia cech szczegółowych, które można osadzać (zwłaszcza gdy tekst, obraz, skan, diagnostyka, dźwięk, wideo, czasowe, transakcyjne, biologiczne, demograficzne, brane są pod uwagę dane medyczne, stomatologiczne, geograficzne, sensorowe, sieci społecznościowe, skojarzenia z wykresem wiedzy, przeszłość, bieżąca aktywność, zachowanie, aktywność online, zakup, interakcje osobiste i dane dotyczące lokalizacji). Dane, analityka i systemy wspomagania decyzji, zwłaszcza te, które mogą się uczyć post hoc, są podatne na ryzyko. Mogą nauczyć się złego zachowania, nadreprezentować niezrównoważone dane demograficzne, "oszukiwać" przez naśladowanie procesorów w procesie, nieświadomie wykorzystywać nielegalne i chronione informacje lub znaleźć cechy wyróżniające w próbce danych, które mogą dryfować lub znikać w środowisku produkcyjnym. Zautomatyzowane uczenie maszynowe i sztuczna inteligencja, które wymagają tylko montażu komponentów z gotowymi źródłami danych, oddają więcej możliwości budowania modeli analitycznych w ręce przedsiębiorców i innych "obywatelskich naukowców zajmujących się danymi". Jednak tworzenie modeli łatwych do zbudowania nie dotyczy sztuki, rzemiosła i etyki wybierania dobrych problemów i rozwiązywania ich z myślą o etyce. Tyle razy w praktyce analitycznej sztuka definiowania problemów i umiejętność poznania kontekstu danych, które są podstawą, przed ich wykorzystaniem w produkcji, zderzają się z zachwytem dobrze działającego modelu i pilnością bliskiej daty dostarczenia. - nie wspominając o milionach i miliardach pozornie spadające na stada jednorożców w przestrzeni start-upów. Czy cel może uświęcić środki? Jest to kwestia, którą każdy analityk danych - a także ich pracodawca, zarząd, audytorzy, organy regulacyjne i inwestorzy - musi rozważyć.

Etyka i Dane (XXIII)


Spam. Czy zamierzasz to przegapić?

Wraz z kalifornijską ustawą o ochronie prywatności konsumentów (CCPA) przepisy dotyczące danych osobowych i etyki ulegną radykalnej zmianie. Podpisana przez gubernatora Jerry′ego Browna w 2018 r. i wprowadzone w życie w styczniu 2020 r. ustawa ma na celu ustanowienie wytycznych i procedur ochrony prywatnych informacji mieszkańców Kalifornii. Prawo daje konsumentowi prawo wiedzieć, jakie dane osobowe posiada firma oraz jaki jest cel biznesowy ich gromadzenia i monetyzacji, a także wielu innych rzeczy. CCPA to dobry pomysł, a wiele innych stanów wkrótce pójdzie za przykładem Kalifornii. Jednak tego typu przepisy mają swoje wady. Wszystkie organizacje, które opierają się na danych, będą musiały przestrzegać tego prawa lub ponieść poważne konsekwencje. I spójrzmy prawdzie w oczy: większość organizacji opiera się na danych! Jestem pewien, że wszyscy zauważymy zmniejszenie liczby naszych skrzynek odbiorczych, ponieważ organizacje zaciskają pasa na temat ilości reklam konsumenckich, które robią. Będzie to miało również wpływ na tradycyjny marketing. Robocall zostanie znacznie zmniejszony. Brzmi jak spełnienie marzeń wielu ludzi. Jednak: spam! Myślę, że przegapisz to! Wierz lub nie, ale uwielbiam dostawać spam od reklamodawców! Chcę wiedzieć, jaka jest następna najlepsza oferta i czy jestem w stanie dostać dobrą ofertę na pompę. Lubię otrzymywać wiadomości, które mówią mi o nadchodzących filmach i że mogę dostać 50% zniżki na ten drogi, ale pyszny popcorn. Obawiam się, że wahadło zacznie się kołysać, a firmy zacieśniają marketing ze strachu przed naruszeniem nowych przepisów dotyczących prywatności, takich jak CCPA. Nie przegapię jednak połączeń automatycznych! Czy wkraczamy w czas, kiedy mamy "większego brata"? Jedną rzeczą, której nie lubię w prawie CCPA, jest to, że odbiera mi kontrolę. Potrafię zarządzać własnym spamem i automatycznymi połączeniami telefonicznymi. Zarządzanie danymi jest dla mnie dość łatwe! Poza tym filtry spamowe działają całkiem nieźle. Mogę też zrezygnować z otrzymywania e-maili. Nowe aplikacje blokujące połączenia są niesamowite. Naprawdę nie potrzebuję, żeby pilnowała mnie duża rządowa grupa nadzorująca; Potrafię o siebie zadbać. Podsumowując, popisuję się danymi o sobie. Ale to ja i to może nie być w porządku z tobą. Wszyscy mamy obowiązek chronić siebie i swoje prywatne dane. CCPA to zbiór przepisów opartych na dobrych intencjach. Służy do ochrony prywatnych danych i konsumentów. Ale wszyscy wiemy, że droga do piekła jest wybrukowana dobrymi intencjami. Czasami wydaje mi się to trochę przerażające, gdy idę w pobliżu sklepu i otrzymuję e-mail z ofertą z tego miejsca. Jednocześnie konsument we mnie jest trochę podekscytowany, jeśli oferta jest właściwa! Wolę zachować kontrolę i nie przeszkadza mi, że są bardzo inteligentni naukowcy zajmujący się danymi, którzy opracowują moją następną najlepszą ofertę, nawet jeśli wykorzystają moje dane osobowe. W końcu dane, analityka, marketing i monetyzacja danych to duża część naszej gospodarki! Mówię laissez-faire - "ręce precz!"

Etyka i Dane (XXII)


Nauka o danych i sprawiedliwość deliberatywna: etyka głosu "innego"

Nauka o danych - przez którą odnoszę się do zbiorowej całości metod opartych w dużej mierze na formach sztucznej inteligencji (uczenie maszynowe, głębokie uczenie się, ogólnie uczenie technologiczne) - przeniknęła społeczeństwo z dobrze udokumentowanymi efektami, zarówno pozytywnymi, jak i negatywnymi. I nadal wywołuje wiele dyskusji, w których rozważa się te dwie kwestie i ostateczną korzyść dla społeczeństwa. Ale to właśnie tutaj, na tym skrzyżowaniu społeczeństwa i technologii, może być potrzebna bardziej fundamentalna kontemplacja. W tych badaniach często przytaczane są efekty nauki o danych, czyli wyniki lub nieprzewidziane konsekwencje działań, takie jak etyka rozwoju algorytmicznego lub ich zmiana w miarę postępu uczenia się. Pojawiają się one w przypadkach systematycznych uprzedzeń, takich jak uprzedzenia mniejszości, uprzedzenia rasowe lub inne uprzedzenia strukturalne, które, jeśli nie zostaną uwzględnione, będą się rozprzestrzeniać w autonomicznym procesie uczenia się. Ale to, co jest stracone w tym badaniu, to same działania i sposób, w jaki technologia zastępuje nie tylko ludzką działalność, ale także części zbiorowego głosu. Kolektywne podejmowanie decyzji jest podstawą wszystkich struktur społecznych, wszystkich społeczeństw. To tożsamość zbiorowa przeplata się przez wszystkie relacje społeczne, w tym struktury polityczne, struktury wymiaru sprawiedliwości, wsparcie społeczności, prawo i obowiązki obywatelskie. Ale kiedy algorytmy zastępują ludzkie głosy - takie jak uczenie maszynowe dotyczące preferencji w zakupach, próbkowania wyborców, orzecznictwa predykcyjnego lub praktycznie każdego ludzkiego działania, gdy są podejmowane łącznie - ten nieludzki głos lub głos "innego" jest zasadniczo uwzględniany w zbiorowy głos na temat tego, jak te dobra, usługi i struktury obywatelskie powinny być alokowane i interpretowane. Niektórzy mogą twierdzić, że to nie obywatele, ale ich wykorzystanie technologii i korzyści, jakie ona zapewnia, dokonują obywatelskich wyborów, a tym samym wzmacnia się głos zbiorowy. Jednak inni mogą argumentować, że jeśli same wybory są ograniczone w wyniku procesu predykcyjnego, to proces deliberacji został po drodze zasadniczo utrudniony. Takie rozterki doprowadziły niektórych do zadawania pytań, czy to ramy etyczne lub pytania dotyczące modeli sprawiedliwości fundamentalnej, takich jak sprawiedliwość społeczna i deliberatywna, muszą być brane pod uwagę przy informowaniu o pracy naukowców zajmujących się danymi. Są to fundamentalne kwestie, które zostały zdegradowane do teorii sprawiedliwości, na których opiera się etyka. W tej przestrzeni fundamentalnego głosu obywatelskiego i wartości nadanej temu głosowi pozostają mocno pytania o to, jak, dlaczego i w jakim celu. Pozostaje pytanie: a jeśli ten głos nie ma ludzkiej twarzy?

Etyka i Dane (XXI)


Błąd algorytmiczny: jesteś świadkiem czy postacią?

Automatyczne systemy decyzyjne (ADS) są wykorzystywane w wielu przedsięwzięciach ludzkich, od kierowania reklam i punktacji kredytowej po opiekę nad dziećmi i wymiar sprawiedliwości w sprawach karnych. ADS wpływają na nas codziennie, ale wydaje się, że nie zdajemy sobie sprawy z wszechobecnego wpływu algorytmów na nasze życie: aż 87% Amerykanów można rozpoznać po kodzie pocztowym, urodzinach i płci. Dobrze zaprojektowany algorytm może przynieść pozytywne zmiany społeczno-gospodarcze; na przykład uczenie maszynowe jest podstawą wielu innowacji w obrazowaniu medycznym i odkrywaniu leków. Mimo to ADS może wzmacniać stronniczość na bezprecedensową skalę, jednocześnie nadając jej strój naukowej obiektywności. W książce Automating Inequality Virginia Eubanks "ujawnia, jak instytucje amerykańskie, od organów ścigania po opiekę zdrowotną i usługi socjalne, coraz częściej karzą ludzi - zwłaszcza osoby kolorowe za to, że są biedne". Stajemy przed wyborem: albo podejmij działania mające na celu wyeliminowanie błędów algorytmicznych, albo przymknij oko. Psychologowie nazywają tych drugich apatią świadka.

Zrozumieć bystanderizm

Badania przeprowadzone pod koniec lat 60. XX wieku wykazały, że im większa liczba osób obecnych w nagłych wypadkach, tym mniejsze prawdopodobieństwo otrzymania pomocy. Scott Lilienfeld i in. cytują badania Williama Glassmana i Marilyn Hadad z 2008 roku, które pokazały, że osoby postronne "są zazwyczaj dość zaniepokojone ofiarą, ale są psychologicznie" zamrożone "przez ugruntowane procesy psychologiczne, takie jak pluralistyczna ignorancja, rozproszenie odpowiedzialności i zwykły strach przed pozorem głupoty". Apatia świadków jest przypisywana rozprzestrzenianiu się teorii odpowiedzialności: w obecności innych jednostki odczuwają mniejszą osobistą odpowiedzialność i rzadziej podejmują działania; i odwrotnie, im mniejsza grupa, tym większe prawdopodobieństwo, że dana osoba podejmie działanie. Dyplomata Samantha Power ukuła termin upstander, który zaczął oznaczać "osobę, która przemawia lub działa na rzecz osoby lub sprawy, w szczególności kogoś, kto interweniuje w imieniu osoby atakowanej lub zastraszanej". Osoba stojąca na czele robi dwie istotne rzeczy: wspiera cel prześladowania i wpływa na to, by tyran przestał.

Jesteś postronnym czy pionkiem?

Jesteśmy na rozdrożu: czy pozostajemy niemymi świadkami algorytmicznej niesprawiedliwości, czy też coś robimy? Od popytu do podaży, od koncepcji po tworzenie, gromadzenie danych, szkolenie i testowanie po wdrażanie modeli produkcyjnych, obsługę klientów i identyfikację celów - każda osoba / przedsiębiorstwo w łańcuchu wartości ADS ma potencjał, aby stać się bohaterem. Osoby zbierające i oznaczające dane szkoleniowe mogą rozpoznać, zająć się i wyeliminować uprzedzenia zarówno w metodologiach, jak iw puli danych. Programiści mogą dokładnie przemyśleć odpowiedzialność, możliwość wytłumaczenia, przejrzystość i konsekwencje wyborów projektowych. Podmioty prywatne lub agencje budujące lub wdrażające takie produkty mogą korzystać z ram, takich jak AI Now′s Algorithmic Accountability Policy Toolkit, w celu uzyskania wskazówek. Inne wyzwania systemowe, takie jak zmiana klimatu, uczą nas, że tylko szersze reformy instytucjonalne mają wystarczający wpływ. W krajach o wysokim poziomie emisji, takich jak Stany Zjednoczone i Australia, indywidualne gospodarstwa domowe dobrowolnie redukujące emisje średnio o 25% zmniejszyłyby krajowe emisje tylko o 5%. polityki oparte na dowodach. To samo dotyczy błędu algorytmicznego i przejrzystości danych. Chociaż skuteczne wyeliminowanie błędów algorytmicznych jest zniechęcające, rola głównego bohatera na szczęście ma za sobą pewien rozmach. Badania Marco van Bommela i inych pokazuje, że wprowadzenie wskazówki dotyczącej odpowiedzialności eliminuje poczucie anonimowości i zwiększa szanse zaoferowania pomocy. Etyka danych może w rzeczywistości stanowić istotną przewagę konkurencyjną dla przedsiębiorstw. RODO i podobne regulacje mogą być sojusznikami w tej walce.

Czas być bohaterem

Czy teraz Ludzka psychologia i ludzka pomysłowość napędzają globalną gospodarkę. Jak podkreśla Cathy O′Neil: "To od społeczeństwa zależy, czy wykorzysta tę inteligencję do odrzucenia i ukarania [wrażliwych] - czy też do wyciągnięcia do nich zasobów, których potrzebują". Wszechobecne nastawienie generuje wysokie koszty społeczno-ekonomiczne. Bycie bohaterem to szansa, a nie obciążenie. Okazja polega na zadawaniu wnikliwych pytań dotyczących sprawiedliwości i odpowiedzialności, wzmacnianiu obywatelskiego i organizacyjnego aktywizmu oraz przywództwie wymaganym do osiągnięcia lepszych wyników społecznych.

Etyka i Dane (XX)


Etyka jako przewaga konkurencyjna

Moje spojrzenie na etykę uległo zmianie. Zamiast patrzeć na etykę jako na element zgodności, traktuję ją jako strategię i wyróżnik konkurencyjny. Wysoka etyka danych i analityki może naprawdę stanowić przewagę konkurencyjną dla organizacji. Oczywiście ten wyższy próg etyczny musi być autentyczny i zgodny z kulturą organizacji, ale jeśli tak się stanie, a organizacja podejmie ten wyższy poziom etyczny, może przynieść wiele korzyści. Po pierwsze, w wojnie o talenty etyka może być przewagą konkurencyjną w zatrudnianiu. Firmy takie jak Google i Microsoft ostatnio spotkały się z etycznym sprzeciwem ze strony swoich pracowników i otrzymały złą opinię z powodu pracy, którą podjęły się firmy. Po drugie, klienci i partnerzy oczekują, że firmy będą bardziej przejrzyste i etyczne w wykorzystywaniu danych. Klienci są zmęczeni czytaniem drobnego druku. Są zmęczeni przynętą i zamianą. Mają dość firm proszących o wybaczenie, a nie proszących o pozwolenie. Organizacje, które to dostrzegają i podnoszą poprzeczkę etyczną w zakresie danych i analiz, będą w stanie odróżnić się od konkurencji, a jednocześnie mogą być bardziej zaradne i skoncentrowane na analizach, a tym samym obniżyć koszty. Po trzecie, marki będą coraz bardziej odczuwać wpływ etyki sposobu, w jaki wykorzystują dane. Marka, która wykazała skłonność do wysokiej etyki analitycznej, powinna prawdopodobnie mieć większe powinowactwo do marki. Co więcej, gdy pojawią się błędy, publiczność będzie bardziej wyrozumiała dla marki. Wyższe standardy etyczne nie mogą się zdarzyć w jeden dzień i dla kaprysu. Zamiast tego musi nastąpić zmiana, która zachodzi od góry do dołu i od dołu do góry, zarówno w zakresie wsparcia, jak i uznania. Obejmuje to dostosowanie tych standardów etycznych do autentycznej kultury organizacji. Może istnieć chęć zmiany kultury organizacji zarówno od góry do dołu, jak i od dołu, ale uznanie tej potrzeby i plan przeprowadzenia tej zmiany są niezbędne, aby była ona skuteczna. Jedną z rzeczy, do których mogą dążyć organizacje, jest ustalenie zasad dotyczących danych. Zasadniczo myśl o zasadach dotyczących danych jako o regulaminie lub manifeście organizacji opisującym sposób wykorzystywania danych i analiz. Zasady dotyczące danych powinny obejmować ramy etyczne, które Twoja organizacja chce mieć w zakresie wykorzystywania danych. Koncepcja została częściowo zaczerpnięta z książki Raya Dalio Principles (Simon & Schuster), w której wyjaśnia on osobiste i zawodowe zasady, którym częściowo przypisuje swój sukces. Zakładając, że Twoja organizacja ma wysoką etykę w analityce jako uzgodnioną część swojej strategii, ważne jest wyraźne włączenie wysokiej etyki do Zasad dotyczących danych. Oczywiście zasady te muszą być dobrze zakomunikowane i zachęcać do trzymania prawdy u władzy. Te zasady dotyczące danych nie powinny być rozwijane w próżni, ale zamiast tego powinny mieć szeroki wkład, akceptację i komunikację. Nawet przy wdrożonych Zasadach dotyczących danych organizacja musi zapewnić, że ludzie, procesy i procedury są zharmonizowane, aby umożliwić wszystkim wspieranie wysokiego poziomu etyki. Najważniejszą częścią tego jest upewnienie się, że każdy zdaje sobie sprawę, że etyka jest jego obowiązkiem i nie jest pozostawiona zgodności, prawnikom i innym osobom. Włączenie zarówno empowermentu, jak i szerokiego zaangażowania wokół etyki i jej znaczenia może pozwolić Ci naprawdę wyróżnić Twoją organizację w oparciu o etykę.

Etyka i Dane (XIX)


Zbuduj wieloperspektywiczną sztuczną inteligencję

O sposobie wdrażania sztucznej inteligencji i nauki o danych decydują ich twórcy i właściciele - ale wpływa to na innych interesariuszy, a czasami im szkodzi. Jeśli zależy Ci na unikaniu szkód, wdrażając naukę o danych i sztuczną inteligencję, musisz wziąć pod uwagę wiele perspektyw. Musisz wejść w czyjeś miejsce, pytając: gdybym był tą osobą, jak ten system wpłynąłby na moje życie? Skutki nowej technologii mogą być niezamierzone i złożone, nawet w przypadku pozornie łagodnego celu, takiego jak łączenie ludzi. Twórca ani żaden aktor nie mogą zobaczyć całego obrazu. Ale każdy aktor dogłębnie rozumie swoją sytuację i dlatego może ocenić, w jaki sposób dana technologia mu służy lub szkodzi. Uczenie się na podstawie opinii i doświadczeń interesariuszy od dawna stanowi część odpowiedzialnego dyskursu technologicznego (w takich ideach jak "badania wdrożeniowe" i "dyfuzja innowacji"). To zgromadzone doświadczenie pozostaje aktualne w erze nauki o danych. Mając to na uwadze, jak możesz uwzględnić więcej punktów widzenia w nauce o danych i rozwoju AI? Oto ludzie, których punkty widzenia warto rozważyć, oraz pytania, które mogą ich zainteresować:

Użytkownicy myślą: "Czy ta sztuczna inteligencja zmniejsza moje problemy? Czy jest to dla mnie bezpieczne i sprawiedliwe? Jaką osobą pomoże mi być? " Jak podkreślają zasady projektowania rządu Wielkiej Brytanii i standard usług cyfrowych, zacznij od potrzeb użytkowników. Zapaleni użytkownicy mogą być szczególnie szczerzy w swoich opiniach; to samo dla zdesperowanych lub sfrustrowanych użytkowników, którzy pragną lepszych rozwiązań. Zainwestuj czas i empatię, aby dotrzeć do głębszych problemów i pragnień użytkowników.

Osoby, którym zależy, myślą: "W jaki sposób sztuczna inteligencja pomaga lub szkodzi użytkownikowi, który jest moim przyjacielem, współpracownikiem lub ukochaną osobą?" Ci, którzy dobrze znają osobę, często mogą ocenić, co im pomaga lub szkodzi. Na przykład, aby zrozumieć, jak sztuczna inteligencja wpływa na dziecko, możesz porozmawiać z rodzicami, rodzeństwem, przyjaciółmi i nauczycielami dziecka.

Osoby dotknięte problemem myślą: "Jak ta sztuczna inteligencja wpłynie na mnie? Czy to mi szkodzi, chociaż nigdy o to nie prosiłem? " Osoby, które nie korzystają z AI, nadal mogą być przez nią dotknięte, podobnie jak obywatele karani algorytmami ograniczającymi ich uprawnienia do świadczeń lub zwolnienia warunkowego. Tacy obywatele mogą odnieść korzyści z takich polityk, jak art. 22 ogólnego rozporządzenia UE o ochronie danych, który określa prawo ludzi do wyrażania swojego punktu widzenia na temat zautomatyzowanych decyzji, które ich dotyczą, do zakwestionowania takich decyzji oraz do uzyskania interwencji człowieka. Przed wdrożeniem nauki o danych na dużą skalę określ, na kogo miałoby to wpłynąć i jak ten wpływ może z kolei wpłynąć na innych.

Sceptycy myślą: "Dlaczego nie można ulepszyć ani porzucić tej sztucznej inteligencji? Kim byli idioci, którzy go zbudowali? "

Szukaj konstruktywnych sceptyków: najbardziej wnikliwych ludzi, którzy nie kupują Twojej wizji. Kiedy sceptycy wydają się niekonstruktywni, nadal możesz starać się zrozumieć ich emocje i światopogląd.

Regulatorzy i społeczeństwo obywatelskie myślą: "Czy ta sztuczna inteligencja działa zgodnie z prawem? Czy to jest bezpieczne i uczciwe? W jaki sposób może służyć interesowi publicznemu i równoważyć interesy różnych ludzi? " Wspieraj skuteczny nadzór regulacyjny i cywilny, który służy interesowi publicznemu. Pomóż w nadzorowaniu lepszej pracy, na przykład udostępniając informacje o wpływie na swoją sztuczną inteligencję lub opracowując kodeksy standardów i algorytmiczną odpowiedzialność. (Musisz zdecydować, w których krajach organy regulacyjne i jakie zasady etyczne będą wspierać).

Naukowcy zajmujący się danymi i twórcy sztucznej inteligencji myślą: "Czy zastanawiałem się nad swoimi obowiązkami jako twórcy, swoimi uprzedzeniami i ograniczeniami oraz perspektywami innych? Czy będzie to legalne, bezpieczne i godne zaufania oraz poprawi świat? " Zastanów się nad własną perspektywą. Dlaczego tworzysz tę nową technologię? Co kształtuje Twoje motywy, w tym pracę, finanse, kulturę i osobowość? Jakie obowiązki przeszkadzają Ci w zaspokajaniu potrzeb użytkowników i osób, które mają na to wpływ? Czy możesz poprawić swoją empatię i zrozumienie dla innych?

Robienie tego wszystkiego jest trudne w natłoku codziennych obowiązków. Jednak poświęcenie czasu na szersze spojrzenie na to, co tworzysz, pomaga zmniejszyć ryzyko, zachwycić klientów i uczynić świat lepszym. Wysłuchanie różnych interesariuszy może być trudne, ale satysfakcjonujące. Można więc angażować ich na różne sposoby, na przykład poprzez ankiety, wywiady i badania etnograficzne. Jeśli potrafisz to zrobić i zbudować prawdziwie wieloperspektywiczną sztuczną inteligencję, będziesz miał większą szansę na wprowadzenie innowacji, które generują długoterminową wartość dla użytkowników i społeczności.

Etyka i Dane (XVIII)


Dlaczego badania powinny być powtarzalne

Dzisiejsze nauki ścisłe - zwłaszcza nauki społeczne - są w pewnym zamieszaniu. Wiele z najważniejszych eksperymentów i odkryć nie jest powtarzalnych. Ten "kryzys odtwarzalności" ma znaczące konsekwencje nie tylko dla przyszłości badań naukowych i rozwoju, ale także dla każdej firmy oczekującej większych zysków z inwestowania w innowacje, eksperymenty i analizę danych. Biznes musi uczyć się na błędach naukowych. Jako wiceprezes ds. Badań w Arnold Ventures dobrze znam ten trwający kryzys, ponieważ sfinansowałem wiele działań związanych z "drugim spojrzeniem". Oto nieszczęśliwa próbka tego, co sfinansowaliśmy i znaleźliśmy:

•  W 2015 r. Czasopismo Science opublikowało wyniki największego projektu replikacji, jaki kiedykolwiek zrealizowano: projektu reprodukcji w psychologii, w ramach którego setki naukowców na całym świecie próbowało powtórzyć 100 eksperymentów psychologicznych z najlepszych czasopism. Tylko około 40% wyników można było z powodzeniem replikować, podczas gdy reszta była albo niejednoznaczna, albo ostatecznie nie została powtórzona.
•  W 2018 r. W ramach Social Sciences Replication Project podjęto próbę powtórzenia 21 eksperymentów z zakresu nauk społecznych, które zostały opublikowane w czasopismach Science and Nature w latach 2010-2015. Tylko 13 z 21 eksperymentów udało się powtórzyć, a nawet wtedy powielenie ujawniło, że "Wielkość efektu" - wielkość deklarowanego odkrycia - była typowo około połowy tego, co pierwotnie twierdzono.

Jak powiedział Washington Post John Ioannidis z Uniwersytetu Stanforda: "Spodziewałbym się, że wyniki będą bardziej powtarzalne w [najlepszych] czasopismach". Poza tymi dobrze znanymi projektami replikacji badacze udokumentowali problemy z odtwarzalnością w literaturze naukowej z zakresu ekonomii, finansów, marketingu, zarządzania, nauk o organizacji i biznesu międzynarodowego. Rzeczywiście, po przeanalizowaniu ponad 2000 eksperymentów biznesowych Ron Berman, profesor marketingu w Wharton School na University of Pennsylvania, i jego współpracownicy oszacowali, że 42% efektów okazało się znaczących były w rzeczywistości fałszywymi alarmami. Instytucje naukowe na całym świecie poważnie potraktowały te odkrycia i stosują je. Na przykład Kongres Stanów Zjednoczonych oficjalnie zwrócił się do Narodowych Akademii Nauk, Inżynierii i Medycyny o sporządzenie ważnego raportu krajowego (wciąż jest w toku) z sugestiami, jak rozwiązać problem z odtwarzalnością w badaniach naukowych i inżynieryjnych. Cyfrowi innowatorzy, od Alibaba po Google, od Facebooka po Netflix, od Microsoftu po Amazon, już aktywnie przyjęli duże, szybkie eksperymenty jako integralną część swoich wysiłków innowacyjnych. Jednak każda organizacja poszukująca autentycznego wglądu w eksperymenty i analizę danych musi uważać na problemy, które sprawiły, że badania naukowe stały się niewiarygodne. Rzeczywiście, argumentowałbym, że badania i analiza danych często mogą być nieetyczne bez silnego nacisku na niezawodność i odtwarzalność. Problemy etyczne w badaniach i analizie danych mogą pojawić się na co najmniej dwa sposoby:

•  Jeśli Twoja firma przeprowadza eksperyment A / B na swoich klientach, ale w sposób, który nie oferuje konkretnych szczegółów na temat tego, co jest lepsze lub gorsze dla klientów (A lub B), wówczas klienci zostali poddani eksperymentowi bez celu . Rzeczywiście, jeśli jeden z A lub B jest w jakiś sposób gorszy od drugiego, nie będziesz wiedział, który z nich i możesz nadal narażać klientów na kiepskie doświadczenia.
•  Jeśli używasz analizy danych do podejmowania decyzji dotyczących pracowników, klientów itp., Ale nie robisz tego w najbardziej rygorystyczny możliwy sposób, możesz zostać wprowadzony w błąd i robić rzeczy, które są gorsze dla ludzi. Aby wziąć jeden z wielu możliwych przykładów, jeśli duża firma wykorzystuje wewnętrzne dane do opracowania algorytmu do sprawdzania kandydatów przed zatrudnieniem lub do pomiaru wydajności pracowników, ale nie sprawdza rygorystycznie uprzedzeń rasowych i płciowych, które mogą pojawić się w subtelny sposób algorytm mógłby narazić firmę na odpowiedzialność prawną za dyskryminację w zatrudnieniu.

Część problemu powtarzalności w nauce sprowadza się do edukacji, szkolenia i znajomości dobrej praktyki statystycznej. Upewnij się, że Twój zespół ma co najmniej jedną osobę w zespole lub konsultanta, który jest na bieżąco z aktualnymi najlepszymi praktykami badawczymi. Kryzys powtarzalności w nauce doprowadził do wielu ważnych lekcji dotyczących struktury eksperymentów, przeprowadzania analiz danych i tak dalej. Weź pod uwagę te lekcje, a nie tylko będziesz podejmować lepsze i bardziej świadome decyzje, ale także będziesz mniej narażony na nieetyczne postępowanie wobec klientów i pracowników.

Etyka i Dane (XVII)


Po pierwsze nie szkodzić

Podstawową treścią przysięgi Hipokratesa jest primum non nocere, czyli "po pierwsze, nie szkodzić". To całkiem niezłe uogólnienie i reprezentuje ramy etyczne, które istniały od tysiącleci. Jako nowy zawód, nauka o danych dopiero się zaczyna definiować nasze ramy etyczne. Patrząc na popiersie Hipokratesa, można go zapytać: kto definiuje etykę? Liderzy firm technologicznych byli w centrum tej debaty publicznej, ale zastanawiam się, czy wykorzystują bogactwo utrwalonej filozofii w dziedzinie etyki. Zamiast wymyślać nowe frameworki, Larry Page, Sergey Brin, Mark Zuckerberg, Steve Jobs, Larry Ellison, Bill Gates, Jeff Bezos czy Jack Ma mogli dowiedzieć się o prywatności danych lub innych współczesnych dylematach etycznych od Sokratesa, Konfucjusza, Hobbesa, Locke′a, Kant i Nietzsche? Na przykład Hobbes i Locke mogą spierać się o teorię umów społecznych, aby skłonić Zuckerberga do mniej lub bardziej absolutnej regulacji rządowej. Jeśli zostawimy etykę nauki o danych technokratom i pozwolimy korporacjom podążać za ich naturą, czy doprowadzą one społeczeństwo do bezwzględności, jak mógłby argumentować Hobbes? Z pewnością możemy znaleźć dowód tej bezwzględności w zachowaniu korporacji. W większości zawodów praktycy definiują etykę. "Przywilej prawnika-klienta", "chroń i służ", "szukaj prawdy", "nie ujawniaj swojego źródła", "służ ludziom": to wszystko motta, które zawierają w sobie kodeks etyczny zawodu. Chociaż te kodeksy mogą mieć pewne podstawy w historycznej filozofii etyki, zawody rozwijają swoją etykę dzięki informacjom zwrotnym od społeczeństwa, aktualizując się wraz z ewolucją standardów. Wynikający z tego kodeks etyczny jest tak dobry, jak interpretacja społeczeństwa przez praktyków. Co więcej, kodeksy etyczne są skuteczne tylko wtedy, gdy egzekwują je profesjonaliści, a historia pokazała, że nie zawsze tak się dzieje. Gdybyśmy pozwolili praktykom nauki danych zdefiniować etykę w tej dziedzinie, czy członkowie przestrzegaliby tych kodeksów i sami je egzekwowali? Być może kod etyczny nie jest nawet potrzebny w dziedzinie nauki o danych. W końcu, jak matematyka może być nieetyczna? 2 + 2 = 4, prawda? Równanie nie obchodzi, jakie dane wejściowe jest dane; obiektywnie dodaje dwie liczby bez uprzedzeń. Jednak uczenie maszynowe jest bardziej złożone, a jednym z argumentów jest to, że naukowcy zajmujący się danymi mogą nieumyślnie tworzyć tendencyjne modele, jeśli używają niepełnych lub niereprezentatywnych danych szkoleniowych. Moim zdaniem jest to kwestia skuteczności, a nie etyki. Jeśli uczenie maszynowe lub sztuczna inteligencja nie są z natury dobre lub złe, powinniśmy rozważyć zastosowanie nauki o danych. Na przykład możemy rozważyć wykorzystanie nauki o danych do zidentyfikowania osoby przedrakowej w celu wprowadzenia na rynek ubezpieczenia na życie lub zalecenia badania lekarskiego. Który przypadek użycia jest etyczny? Czy oba przypadki są dopuszczalne, o ile ratujemy życie pacjenta? Jeśli etyka naprawdę dotyczy zastosowania, praktycy mogą po prostu przyjąć etykę tam, gdzie jest stosowana. Pole może nie potrzebować własnej struktury. Być może kwestią etyczną jest to, kto powinien mieć dostęp do metod nauki o danych. W latach 90. wyścig technologiczny dotyczył mocy obliczeniowej. Rząd Stanów Zjednoczonych ograniczył eksport komputerów o wysokiej wydajności na mocy ustawy Export Administration Act z 1979 r. Ze względów bezpieczeństwa narodowego. Apple Computer wykorzystał tę sytuację z wielkim skutkiem, kiedy w 1999 roku wypuścił Power Maca G4, "pierwszy superkomputer stacjonarny". Założeniem, które mogło być bardziej marketingowe niż rzeczywistość, było ograniczenie eksportu G4, aby zapobiec nieuczciwym krajom używanie komputera do tworzenia broni nuklearnej lub innej zaawansowanej broni. Opierając się na tym założeniu, czy zaawansowane metodologie nauki o danych powinny być ograniczone, aby zapobiec wyrządzaniu szkód przez nieuczciwych aktorów, organizacje lub narody? Wydawałoby się, że jest to sprzeczne z kulturą otwartego źródła nauki o danych, ale jak może twierdzić Locke, dobrowolne poświęcenie niektórych wolności może być konieczne, aby zapewnić inne, ważniejsze wolności. Etyka jest trudna i prawdopodobnie wiąże się z pewnymi kosztami. Ostatnia myśl: moje pytanie do popiersia Hipokratesa wciąż jest aktualne. Kto powinien zdefiniować etykę liderów korporacji zajmujących się data science, obszar zastosowań, praktyków, a może etyczną sztuczną inteligencję typu open source? Biorąc pod uwagę złożoność dzisiejszego świata, właściwe przestrzeganie zasad etyki jest dużym wyzwaniem. Na początek warto zacząć od prostej złotej zasady, takiej jak ta, którą Hipokrates przedstawił profesji medycznej kilka tysięcy lat temu: po pierwsze, nie czyń krzywdy.

Etyka i Dane (XVI)


Świadoma zgoda i edukacja w zakresie umiejętności korzystania z danych mają kluczowe znaczenie dla etyki

Kluczowym elementem jakiejkolwiek etyki jest idea "świadomej zgody" uczestników, którzy oddają się dla dobra innych. Świadoma zgoda jest centralną częścią etyki badawczej w przypadku wszelkich badań finansowanych ze środków cetralnych lub badań prowadzonych na większości uniwersytetów i szkół wyższych, ale zazwyczaj nie jest wymagana w przypadku badań prowadzonych przez firmy prywatne. W przypadku etyki danych nie zawsze było jasne, że osoby fizyczne rozumieją (lub są nawet zainteresowane) warunkami, które akceptują, pobierając nową aplikację lub pliki cookie w swojej przeglądarce internetowej. Chociaż zgoda "clickthru" stała się akceptowanym sposobem przechodzenia testów prawnych, nie zawsze przechodzi ona test etyczny zapewniający, że ludzie rozumieją te warunki. Dzięki inicjatywom, takim jak RODO w Europie i CCPA w USA, ludzie są bardziej świadomi ukrytych warunków i mogą zrezygnować z niektórych rodzajów śledzenia. Chociaż ludzie chętnie klikają "OK", aby otrzymać rzeczy "za darmo", mają ograniczone pojęcie, że "płacą", udostępniając swoje dane, które są wykorzystywane i / lub odsprzedawane, aby zapłacić za dostęp. W tej chwili nadal istnieją ograniczone możliwości dla tych, którzy chcą uzyskać dostęp do niektórych aplikacji lub materiałów w Internecie, ale zdecydują się z nich zrezygnować. W rzeczywistości rezygnacja z udostępniania danych na tym etapie oznacza, że prawdopodobnie nie masz dostępu do niektórych witryn, aplikacji i innych materiałów. Biorąc pod uwagę szeroki wpływ, jaki narzędzia i technologie data science już wywierają na codzienne życie ludzi, wydaje się konieczne, aby dzieci i młodzież mieli kontakt z tymi pomysłami i byli w stanie skutecznie wyrazić (lub wycofać) swoją zgodę. To posunięcie będzie wymagało opracowania formalnych programów nauczania dla szkół średnich i policealnych, które będą zawierały silny element "umiejętności korzystania z danych". Ellen Mandinach i Edith Gummer definiują "umiejętność korzystania z danych" jako umiejętność rozumienia i efektywnego wykorzystywania danych do podejmowania decyzji… Umiejętności te obejmują umiejętność identyfikowania, gromadzenia, organizowania, analizowania, podsumowywania i ustalania priorytetów danych. Obejmują również, jak opracowywać hipotezy, identyfikować problemy, interpretować dane oraz określać, planować, wdrażać i monitorować kierunki działań. Opracowanie strategii włączania umiejętności korzystania z danych do programów nauczania w szkołach średnich i na uczelniach wiąże się z dwoma kluczowymi wyzwaniami. Po pierwsze, nauka o danych jest silnie ilościowa i powiązana z istniejącymi przedmiotami, takimi jak matematyka i statystyka, które są zajęciami, które wielu uczniów już uważa za trudne i mogą z nich zrezygnować, gdy mają szansę. Jennifer Priestley proponuje "Hierarchię nauki o danych", w której naukowcy zajmujący się danymi muszą nauczyć się podstaw matematyki jako punktu wyjścia potrzebnego do docenienia podstawowych pojęć ze statystyki i informatyki, a następnie muszą rozwinąć niezbędne umiejętności związane z modelowaniem i klasyfikacją oraz udoskonalić swoje umiejętność przekazywania wyników. Po drugie, implikacje dla życia indywidualnego, społecznego, politycznego i gospodarczego ludzi wykraczają daleko poza naukę formuł matematycznych i języków programowania, więc te pojęcia muszą obejmować cały program nauczania. Aby pomóc nauczycielom, proponuję następującą strukturę pomagającą zrozumieć umiejętność korzystania z danych i zintegrować ją z programami nauczania i między nimi:

Świadomość danych

Pierwszy etap reprezentuje świadomość, że technologia, z którą wchodzisz w interakcję, wytwarza dane. Osoby fizyczne mogą być kompetentnymi użytkownikami technologii, a mimo to nie być świadome "ścieżek danych", które tworzą poprzez interakcję z technologią. Osoby na tym poziomie muszą rozwinąć pewne podstawowe umiejętności związane z mediami społecznościowymi (nauki społeczne); Internet rzeczy lub IoT (nauka i inżynieria); oraz rynki danych (ekonomia, matematyka). Osoby te potrzebują również pewnej wiedzy statystycznej i informatycznej, aby zrozumieć naturę gromadzenia danych, podstawy kodowania, podstawowe techniki statystyczne (np. Statystyki opisowe, wizualizacje) oraz projektowanie badań. Aby pomóc im w przyswojeniu tych informacji, uczniowie powinni otrzymać studia przypadków w podręcznikach i można im przypisać możliwości uczenia się opartego na projektach (PBL) do pracy z nauczycielami z różnych przedmiotów. Ten rodzaj uczenia się jest odpowiedni dla większości programów nauczania w szkołach średnich i większości wczesnych studiów licencjackich.

Poinformowano o danych


Drugi etap to umiejętność rozumienia różnych form danych. Obejmuje to rozpoznawanie danych "ustrukturyzowanych" i "statycznych" (np. dane ankietowe, dane transakcyjne) oraz danych "nieustrukturyzowanych" i "w ruchu" (np. obrazy, dane głosowe, dane tekstowe, dane oparte na czujnikach) dane). Należy również wprowadzić podstawowe umiejętności, takie jak organizowanie i czyszczenie danych oraz bardziej zaawansowane techniki, takie jak eksploracja danych, eksploracja tekstów i skrobanie. Uznanie różnych form i analiz ma wpływ na prezentację danych zarówno odbiorcom akademickim, jak i pozaszkolnym. Jest to odpowiednie dla większości programów studiów licencjackich i szkoleń zawodowych.

Literatura danych

Trzeci etap to głębsza wiedza i zrozumienie metodologicznych mocnych i słabych stron oraz potencjalnych problemów związanych z różnymi formami danych, technikami gromadzenia i metodologiami analitycznymi. Poszczególne osoby wychodzą poza pakiety (np.SAS, SPSS), aby opracować własne modele i programy. Ten trzeci etap jest odpowiedni dla zaawansowanych studentów, doktorantów i naukowców akademickich.

Ten model umiejętności korzystania z danych powinien uzupełniać istniejące szkolenia dyscyplinarne w zakresie teorii, projektowania badań i badań jakościowych, ponieważ zapewniają one szeroki zakres i kontekst. Ponadto uczniowie powinni głęboko doceniać etyczne traktowanie osób, których dotyczą informacje zawarte w danych. Opracowanie tego podstawowego podejścia powinno pomóc złagodzić niektóre problemy etyczne i związane z jakością badań, które pojawiają się w wyniku wprowadzenia skrótów (np. Roczne certyfikaty, kursy online), które mają wypełnić lukę w umiejętnościach w zakresie nauki o danych. Pomijając naukę, metody i etykę, a przechodząc bezpośrednio do modelowania analitycznego i wizualizacji, niewiele uwagi poświęca się, jeśli w ogóle, temu, jak algorytmy wbudowane w oprogramowanie typu "wskaż i kliknij" faktycznie działają. Często te ćwiczenia generują bezsensowne wyniki - lub, co gorsza, algorytmy (nieumyślnie) zbudowane na błędnych danych, które mają tragiczne konsekwencje dla jednostek, grup i / lub całych społeczności ludzi. Ponieważ coraz więcej nauczycieli włącza strategie czytania danych do swoich programów nauczania dla szkół średnich, licencjackich i magisterskich, te uproszczone ramy będą wymagały dalszych modyfikacji; jednak powinien to być początek dynamicznej rozmowy.

Etyka i Dane (XV)


Opowiadanie danych: punkt zwrotny między faktem a fikcją

Dane i narracja zawsze łączyły interesującą relację roboczą. Chociaż często są ze sobą powiązane, czasami są postrzegane jako przeciwieństwa. Na przykład, jeśli coś jest postrzegane jako "anegdotyczne", często podchodzi się do tego z nutą (lub może dużą dozą) sceptycyzmu. Ponieważ są one oparte na osobistych doświadczeniach lub relacjach, niepotwierdzone informacje są postrzegane jako mniej prawdziwe lub mniej wiarygodne niż informacje faktyczne. Nawet słowo "historia" może być używane jako synonim kłamstwa lub wprowadzających w błąd informacji. Ponieważ historie mają zazwyczaj bardziej emocjonalny charakter, mogą być postrzegane jako manipulujące. Z drugiej strony, fakty w większości cieszą się opinią czystych, godnych zaufania i bezstronnych. Kiedy ludzie żądają "tylko faktów", szukają wyższego standardu prawdy, który jest niepodważalny i nieskażony opiniami lub przekonaniami. Jednak w naszej obecnej erze postprawdy reputacji faktycznych informacji zagrażają teraz fałsz podszywający się pod "alternatywne" fakty. Dane, które w przeszłości nigdy nie były kwestionowane, są obecnie nieufne po prostu z powodu tego, kto je udostępnił lub z powodu ich niezgodności z preferowanymi wiadomościami. W połączeniu dane i narracja mogą tworzyć potężny związek, wzmacniający się wzajemnie w obszarach, w których jest słaby. W środowisku postprawdy musimy być jeszcze bardziej zdyscyplinowani w tworzeniu i opowiadaniu historii za pomocą danych. Mimo że narracja danych była głównie kojarzona z wizualizacją danych, narracja pozostaje krytycznym filarem narracji danych. To, w jaki sposób tworzymy historię wokół naszych danych, sprawi, że nasze spostrzeżenia będą bardziej angażujące, przekonujące i zapadające w pamięć. Możemy jednak napotkać punkt zwrotny, w którym narracja może podporządkować sobie liczby, a fakty mogą przekształcić się w fikcję. Jeśli chcemy podzielić się spostrzeżeniami w rzetelny, etyczny sposób, musimy pamiętać o sposobach, w jakie możemy potencjalnie przekroczyć ten próg faktów / fikcji. W idealnym przypadku historia danych powinna być wynikiem analizy lub badań. Innymi słowy, historia danych jest zbudowana na fundamencie opartym na dowodach. Problemy mogą się pojawić, gdy narracja jest tworzona przed zaangażowaniem jakichkolwiek danych. Zamiast tworzyć narrację wokół powiązanego zestawu obserwacji i spostrzeżeń, kusiło, aby wybrać tylko fakty, które pasują do pożądanej historii. Gdy dane muszą wspierać z góry określoną narrację, możesz nieumyślnie lub celowo wykonać następujące czynności: •  Ogranicz się do węższego zbioru danych •  Wymasuj liczby, aby były zgodne z Twoim przesłaniem •  Pomiń kontekst, który mógłby wyjaśnić dane •  Źle zinterpretować, co faktycznie oznaczają liczby •  Wizualizuj dane w mylący sposób •  Wyklucz lub zdyskredytuj sprzeczne dane, które podważają twoją narrację •  Pomiń kluczowe rozbieżności w danych pomocniczych •  Polegaj na akceptowalnych danych z potencjalnie wątpliwych źródeł Weryfikacja hipotezy lub przeczucia za pomocą danych różni się od wybierania najlepszych faktów w celu uzasadnienia decyzji lub wsparcia programu. Kiedy masz już na myśli zamierzoną fabułę (np. Podjęliśmy właściwą decyzję biznesową), masz mniejszą elastyczność w słuchaniu tego, co naprawdę mówią liczby (np. nie była to najlepsza decyzja). Ścieżka, którą może obrać historia danych, jest bardziej sztywna, a jej miejsce docelowe jest stałe. Jeśli nie jesteś otwarty na dostosowywanie narracji w oparciu o to, co ujawniają dane, możesz potencjalnie podważyć integralność całej historii danych. Jeśli narracja nadmiernie wpływa na kierunek i wybór danych, twoja historia z danymi może nieumyślnie zmienić się z faktycznej na fikcyjną. W tym momencie dane stają się raczej wątpliwą ozdobą niż ostrym narzędziem w historii danych. W przypadku narracji danych fakty powinny zawsze kierować narracją, a nie odwrotnie. Zawsze, gdy dane i narracja łączą się we właściwy sposób, mogą tworzyć potężne, fascynujące historie oparte na danych, które są etycznie uzasadnione - nie fikcyjne relacje, które zniekształcają i wprowadzają w błąd, ale oparte na faktach, które prowadzą i inspirują.

Etyka i Dane (XIV)


Etyka musi być kamieniem węgielnym programu nauczania nauki o danych

Wszyscy widzieliśmy nagłówki gazet: firmy zbierające dane osobowe bez pozwolenia, przypadkowo wdrażające dyskryminujące algorytmy lub sprzedające dostęp do prywatnych danych, a także inne przykłady firmowej kultury danych, która popełniła błąd. Zajmę się odpowiedzialnością strony korporacyjnej, jeśli chodzi o zajęcie się kulturą pracy, która stwarza tego typu problemy etyczne. To skłoniło mnie do zastanowienia się: jak możemy zaszczepić więcej etycznego podejścia w całej społeczności naukowców zajmujących się danymi, aby zapobiegać tego typu katastrofom? Etyka od dawna jest częścią programu nauczania dla osób ubiegających się o stopnie finansowe i MBA, a zwłaszcza w ostatnich kilku latach widzieliśmy więcej takich kursów w programach magisterskich z zakresu danych, a nawet w programach nauczania online. Moim zdaniem, aby rozwiązać rosnące dylematy etyczne, które zapewnia nam ten wiek pozornie nieograniczonych danych osobowych, etyka musi być kamieniem węgielnym każdego ilościowego programu nauczania, w tym tradycyjnych stopni akademickich, obozów nauki o danych, kursów MOOC (masowych otwartych kursy) i wszystko pomiędzy. Wiem, wiem. Program nauczania matematyki, statystyki i informatyki dla naukowców zajmujących się danymi jest już przepełniony, a zakres nauczania jest zniechęcający. I zdaję sobie sprawę, że dodanie czegoś więcej do akademickiego talerza aspirującego naukowca danych to wielka prośba. Jednak naukowcy zajmujący się danymi muszą zrozumieć szerszy obraz projektów, nad którymi pracują, oraz implikacje, jakie ich praca może mieć dla różnych grup. Algorytmy, które nie zostały opracowane z myślą o istniejących czynnikach społecznych, mogą z łatwością wzmocnić dyskryminujące praktyki, które mogą ujawnić, jeśli zostaną zbadane przez wnikliwego naukowca zajmującego się danymi. Widzieliśmy już, jak takie sytuacje mogą odgrywać niezauważalnie wrażliwe obszary, takie jak opieka zdrowotna, w których prywatność jest najważniejsza, a dostęp do opieki nie zawsze jest sprawiedliwy. Programy dotyczące etyki danych muszą również uwzględniać obowiązujące przepisy i kwestie związane z gromadzeniem danych osobowych: czy ludzie są świadomi tego, czym są dane zbierane? Czy wiedzą, jak wykorzystywane są ich dane? Czy mają możliwość rezygnacji? Czy ich dane są odpowiedzialnie przechowywane i chronione? Czy ich dane są sprzedawane podmiotom trzecim bez ich zgody? Prawodawstwo w erze cyfrowej pozostaje w tym obszarze znacznie w tyle, co w niektórych przypadkach doprowadziło firmy do po prostu ignorowania potencjalnych konsekwencji etycznych, ponieważ nie istnieją żadne przepisy. Ale dla przyszłych pokoleń naukowców zajmujących się danymi, którzy będą jutrzejszymi liderami biznesowymi, zaszczepienie tej odpowiedzialności i całościowego myślenia w swoich programach nauczania nauczy je myślenia o tych problemach od samego początku. Jak można oczekiwać, że naukowcy zajmujący się danymi dostarczą swoim firmom odpowiedzialnych analiz i spostrzeżeń, jeśli nie nauczą się, jak uwzględniać wszystkie potencjalne kąty w takich sytuacjach? Mimo ewolucji prawa i opinii publicznej na temat prywatności, z pewnością nie nadążają one za rozwojem technologii, która może wyrządzić wielką szkodę, jeśli zostanie pozostawiona bez kontroli. Ponadto zaszczepienie tego typu umiejętności krytycznego myślenia w zakresie etyki zapewni naukowcom zajmującym się danymi informacje, których potrzebują do podejmowania bardziej świadomych decyzji dotyczących kierowania strategią firmy. Wielokrotnie powtarzałem, że ci, którzy mają dobrze rozwiniętą wiedzę na temat analityki, powinni odpowiadać za prowadzenie firm, a zrozumienie to powinno obejmować, w jaki sposób można odpowiedzialnie wykorzystywać analitykę, aby realizować cele biznesowe bez narażania firmy na potencjalne skandale. linia. W miarę jak coraz większa część świata staje się zależna od zasobów cyfrowych, ilość danych dostępnych do wykorzystania rośnie wykładniczo, a wzrost ten nie wykazuje oznak zatrzymania. Nie wątpię, że za pięć lub dziesięć lat będziemy musieli uporządkować jeszcze więcej etycznych splotów, ponieważ będziemy nadal integrować różne źródła danych i znajdować nowe sposoby odkrywania informacji, których szukamy na podstawie danych. To, czy pomyślnie przejdziemy przez ten proces, będzie zależeć od tego, czy specjaliści ds. Ilościowych zostali uzbrojeni w wiedzę i etyczne podejście niezbędne do krytycznej oceny kierunków, które podejmujemy na każdym kroku. Rozwój tej bazy wiedzy musi rozpocząć się od programu nauczania danych.

Etyka i Dane (XIII)


Zaufanie, Data Science i Stephen Covey

Zaufanie to wielka sprawa, jeśli chodzi o naukę o danych. Algorytmy "czarnej skrzynki", obawy dotyczące stronniczości i poczucie, że naukowcy zajmujący się danymi mogą wiedzieć wszystko o danych, ale nic o biznesie - wszystko to podważa zaufanie do modeli nauki o danych. Rzeczywiście, tworzenie modeli nauki o danych, które mogą i będą godne zaufania, jest uważane za krytyczną kwestię dla wielu zespołów zajmujących się nauką o danych. Stephen Covey napisał kiedyś słynny list o zaufaniu - 13 zachowań przywódcy, któremu da się zaufać. Pięć z tych zachowań odnosi się bardzo konkretnie do przywództwa (mów otwarcie, okazywanie troski, naprawianie krzywd, okazywanie lojalności, dotrzymywanie zobowiązań), ale pozostałe zapewniają doskonałe ramy do budowania zaufania do nauki o danych.

Posłuchaj najpierw

Być może najważniejszym sposobem, w jaki zespoły analityki danych mogą budować zaufanie do swoich modeli, jest rozpoczęcie słuchania swoich partnerów biznesowych - to znaczy zadawanie pytań biznesmenom, w jaki sposób decydują i jak chcieliby decydować, a także słuchanie ich odpowiedzi. Jeśli partnerzy biznesowi czują się wysłuchani, są bardziej skłonni zaufać rozwiązaniu stworzonemu przez zespół analityków danych. Na przykład praca z nimi nad stworzeniem modelu decyzyjnego tworzy wspólne rozumienie decyzji i poczucie bycia wysłuchanym.

Rozszerz zaufanie

Naukowcy zajmujący się danymi, którzy chcą, aby ich modele cieszyły się zaufaniem, muszą okazywać zaufanie swoim partnerom biznesowym. Biznesmeni mogą się mylić co do tego, co przesuwa tarczę, jaki powinien być próg, jakie segmenty klientów ma firma i wiele innych rzeczy. Naukowcy zajmujący się danymi powinni oprzeć się pokusie zakładania, że dane mogą odpowiedzieć na wszystkie te pytania bez udziału ekspertów biznesowych. Sprawiałoby to wrażenie, że fachowej wiedzy przedsiębiorców nie da się zaufać i utrudniałoby dostarczanie wiarygodnych danych naukowych. Zacznij od poszerzania zaufania.

Wyjaśnij oczekiwania

Przed zbudowaniem modelu nauki o danych, który wpłynie na decyzję, upewnij się, że oczekiwania są jasne. Jeśli nauka o danych z łatwością dopasuje się do bieżącej decyzji, poprawiając jej dokładność, powiedz to. Jeśli nauka o danych może zakłócić obecne podejście i wymagać znacznych zmian organizacyjnych, powiedz to. Użyj modelu decyzyjnego, aby wyjaśnić oczekiwania dotyczące wykorzystania opracowywanej nauki o danych.

Zmierz się z rzeczywistością

Nie udawaj, że organizacja zmieni sposób podejmowania decyzji tylko dlatego, że tak nakazuje zespół analityków danych. Rzeczywistość jest taka, że wiele decyzji jest ograniczanych przepisami, motywowanymi politykami i motywowanymi celami i zadaniami. Nowy wynik nauki o danych może usprawnić proces podejmowania decyzji "w teorii", ale aby poprawić go "w praktyce", należy zmierzyć się z rzeczywistością. Kluczowe znaczenie ma wspólne rozumienie podejścia do podejmowania decyzji w postaci modelu decyzyjnego.

Stwórz przejrzystość

Przejrzystość w sztucznej inteligencji, którą można wytłumaczyć nauką o danych, jest dobrze ugruntowana. Prawdziwy sukces będzie również wymagał przejrzystości w zakresie wykorzystania nauki o danych. Musisz być w stanie pokazać, w jaki sposób wynik jest wykorzystywany do zmiany procesu podejmowania decyzji i wpływania na wyniki biznesowe. Kluczowe znaczenie ma jasne, wspólne zrozumienie procesu decyzyjnego związanego z nauką o danych.

Dostarczyć wyniki

Wzrost i dokładność modelu nie są wynikami. Lepsze wyniki biznesowe to wyniki. Zadaniem zespołu ds. nauki o danych jest poprawa wyników biznesowych, co oznacza poprawę sposobu podejmowania decyzji, a nie tylko tworzenie wyników nauki danych. Osiągnij rezultaty, na których zależy Twoim partnerom biznesowym. Użyj modelu decyzyjnego, aby umieścić wyniki nauki o danych w kontekście biznesowym.

Odpowiedzialność w praktyce

Bądź odpowiedzialny przed swoimi partnerami biznesowymi. Pamiętaj, że oprócz pracy z Tobą mają inne rzeczy do zrobienia i inne projekty, które muszą wspierać. Nie zapominaj, że mają cele biznesowe do spełnienia i że nauka o danych musi im pomóc w ich osiągnięciu. Bądź odpowiedzialny za problem biznesowy, a nie tylko za rozwiązanie analityczne.

Będzie Lepiej

Jedną z najważniejszych lekcji nauki o danych jest to, że kluczem jest ciągłe doskonalenie. Nie próbuj tworzyć idealnego modelu. Opracuj minimalny opłacalny produkt do nauki danych i wprowadź go do produkcji, aby zobaczyć, jak wpływa na wyniki biznesowe. Przechwytuj dane dotyczące sposobu podejmowania decyzji i sposobu, w jaki nauka o danych była (lub nie była) wykorzystywana. Zobacz, jak dobrze się to sprawdziło w kategoriach biznesowych. Ulepsz naukę o danych. Powtarzać. Nie jedź w stronę zachodzącego słońca po zbudowaniu modelu; skup się na tym, jak możesz pomóc firmie stać się lepszym teraz i w przyszłości. Zaufanie jest ważne w nauce o danych. Aby zbudować zaufanie, musisz najpierw słuchać, poszerzać zaufanie, wyjaśniać oczekiwania, konfrontować się z rzeczywistością, tworzyć przejrzystość, osiągać wyniki, ćwiczyć odpowiedzialność i stawać się coraz lepszym.

Etyka i Dane (XII)


Bezstronna ≠ Uczciwa: nauka o danych nie może dotyczyć tylko matematyki

Kiedy zastanawiałem się nad etycznymi implikacjami w nauce o danych, jedna rzecz stała się dla mnie rażąco oczywista: naukowcy danych lubią matematykę! Nic w tym dziwnego. Ale kiedy zajmujemy się naszą pracą, budując modele i robiąc świetne prognozy, mamy tendencję do ograniczania dyskusji o etyce do terminów matematycznych. Czy moja prognoza dla Amerykanów rasy kaukaskiej jest taka sama, jak dla Afroamerykanów? Czy prognozy kobiet są równoważne z przewidywaniami mężczyzn? Opracowujemy macierze pomieszania i mierzymy dokładność naszych przewidywań. A może ważna jest czułość (prawdziwie dodatni wskaźnik) lub specyficzność (prawdziwie ujemny wskaźnik), więc równoważymy to dla różnych podgrup. Niestety matematycy wykazali, że chociaż możemy być w stanie zrównoważyć dokładność, specyficzność lub inne miary błędu dla rzeczywistych zbiorów danych, nie możemy ich wszystkich zrównoważyć i stworzyć całkowicie bezstronnych modeli. Dlatego robimy wszystko, co w naszej mocy, w ramach, które otrzymaliśmy i deklarujemy, że nasz model jest uczciwy. Po przestudiowaniu zagadnień i zastosowań stwierdzam, że modele, które równoważą odchylenia, nie są sprawiedliwe. Sprawiedliwość naprawdę nie zwraca uwagi na matematykę. Zwraca uwagę na indywidualne punkty widzenia, normy społeczne i kulturowe oraz moralność. Innymi słowy, sprawiedliwość jest definiowana przez systemy społeczne i filozofię. Na przykład w sądownictwie karnym modele recydywy przewidują, czy osoba aresztowana popełni kolejne przestępstwo, jeśli zostanie zwolniona za kaucją. Jako osoba oskarżona uważasz, że odsetek fałszywych alarmów powinien być jak najniższy, abyś nie był przetrzymywany w więzieniu, kiedy nie powinien. Przeciętny obywatel chce jednak, aby odsetek fałszywie ujemnych wyników był jak najniższy, aby zminimalizować liczbę osób, które są wypuszczane i popełniają nowe przestępstwo. Zrównoważenie tych dwóch jest kompromisem, który obie strony powiedzą, że jest niesprawiedliwy. I nawet nie zaczęliśmy dyskutować o uprzedzeniach w danych i systemie, które spowodowały nieproporcjonalnie większą liczbę uwięzionych Afroamerykanów. Rozważając etyczne implikacje nauki o danych, szybko zaczyna się dyskusja na temat kulturowych i moralnych norm społeczeństwa, w którym model jest wdrażany. Ponieważ zespół analityków danych wdraża model, należy wziąć pod uwagę te normy kulturowe. Filozofie utylitaryzmu i jego pochodnych są powszechne w zachodnim społeczeństwie; tutaj omawia się rolę dobra ogólnego i równowagę między dobrem indywidualnym a dobrem wspólnym. W innych kulturach i geografiach preferowane są różne konstrukty filozoficzne. Zrozumienie, których kultur model dotknie oraz w jaki sposób i gdzie ich dotknie, jest ważne, aby sięgnąć po sprawiedliwość dla wdrożonego modelu. Zrozumienie systemu, w którym wdrażany jest model, jest równie ważne. Po wdrożeniu modele wchodzą do systemu operacyjnego. W zależności od specyfiki sytuacji często po predykcji modelu zapadają decyzje. Często naukowcy zajmujący się danymi opracowują i mierzą dokładność modelu w oparciu o przewidywania matematyczne. Jednak równie ważne są pomiary całego systemu i decyzje, które zapadają po predykcji modelu. Ponadto modele typu "człowiek w pętli" są często uważane za jeszcze dokładniejsze; Jednak czy są one również mniej stronnicze i sprawiedliwsze? Gdy człowiek jest w pętli, stronniczość może wrócić do decyzji. Ponadto, jeśli jest więcej niż jeden decydent, różni ludzie przyniosą różne poziomy informacji, a także różnice kulturowe. Każda z tych różnic może łatwo doprowadzić do błędów systemowych i uczciwości, nawet jeśli model został dostrojony i przygotowany tak, aby był jak najbardziej sprawiedliwy. Kadrowanie operacji i mierzenie wydajności powinno nastąpić zarówno dla wyniku modelu, jak i dla wyniku systemu. Uważam, że wiele spraw sądowych dotyczących sprawiedliwości i dyskryminacji ma miejsce, ponieważ obie strony inaczej przedstawiają sytuację. Każda ze stron ma "rację" w swoim obramowaniu, ale która rama jury uzna za sprawiedliwą? Jako odpowiedzialni naukowcy zajmujący się danymi powinniśmy rozszerzyć nasze rozważania etyczne poza matematyczną stronniczość naszego modelu, aby uwzględnić kulturowe i społeczne definicje uczciwości, a nasze wdrożenie modelu powinno uwzględniać sformułowanie wyników systemu, a nie tylko przewidywania modelu.

Etyka i Dane (XI)


Zrozum, komu służą Twoi liderzy

Możesz mieć dobre intencje, jeśli chodzi o etykę i technologię. Trudno będzie jednak urzeczywistniać dobre intencje, jeśli liderzy naprawdę nie służą ludziom, którym chcesz pomóc. Dlatego ważne jest, aby zrozumieć, komu służą Twoi liderzy. Czy liderzy twojej organizacji są egocentryczni, czy też są liderami-sługami? Czy twoi liderzy traktują ludzi, jako zasoby, które można wykorzystać, czy też jako partnerów, którzy pomagają się rozwijać? Próbując odpowiedzieć na takie pytania, poświęć trochę czasu, aby zrozumieć, co mówią i robią twoi liderzy. Jeśli liderzy na szczycie Twojej organizacji służą tym samym osobom, którym chcesz pomóc (co, miejmy nadzieję, obejmuje Twój zespół i klientów lub klientów), masz nadzieję na wprowadzenie etyki w życie. (Rzadko będzie to dla ciebie łatwe, ale przynajmniej może być możliwe.) Jeśli nie, będziesz musiał nieustannie pływać pod prąd organizacyjny, aby pozostać etycznym na powierzchni. Jeśli twoi liderzy naprawdę służą ludziom, którym chcesz służyć, to stosowanie wartości może pomóc tobie i twoim liderom skuteczniej służyć. Niektóre wartości, które są szczególnie istotne dla analityków danych, obejmują przejrzystość, racjonalność, pokorę intelektualną i konstruktywny sceptycyzm. Jeśli jesteś mistrzem w przestrzeganiu takich wartości, pokaż je swoim współpracownikom lub naucz ich. Bądź pokorny: wartość, która jest dla ciebie krytyczna, może być opcjonalna w kontekście kogoś innego, nawet jeśli oboje służycie tym samym ludziom. Zrozumienie "łańcucha wartości" od siebie w górę wyjaśni Twoją prawdopodobną etyczną przestrzeń operacyjną. Zadaj sobie pytanie: czy rozumiem wartości, którymi kieruje się moja organizacja i jak te wartości pomogą lub zranią nas i ludzi, którym służymy? Jakie są podstawowe wartości, które chciałbym widzieć w mojej organizacji, aby pomóc jej przetrwać w dłuższej perspektywie i poczuć się dumnym z pracy tutaj? Czy mogę współpracować z innymi, aby promować podstawowe wartości, które są pomijane? Jeśli nie, czy chcę tu pracować? W pewnym momencie twoje środowisko etyczne może być czynnikiem zachęcającym do zmiany pracy lub poszukiwania możliwości bardziej dopasowanej do wartości. Możesz czuć, że chcesz, aby Twoja energia i talent służyły wartościom, z którymi się zgadzasz. Jeśli czujesz się z tym mocno, zadawaj pytania dotyczące kultury i etyki podczas poszukiwania lub tworzenia nowych możliwości. Czego nie zrobiłaby organizacja twojego ankietera, nawet gdyby była dochodowa i legalna? Co rządzi organizacją i kieruje nią poza cel maksymalizacji krótkoterminowych zysków? Jak łączy sukces biznesowy ze służeniem najlepszym interesom użytkowników? Jak sam byś odpowiedział na te pytania jako przedsiębiorca? Nawet jeśli czujesz, że twoi liderzy z zasady chcą dobrze, na nich (i na ciebie) wpływa szersze środowisko, w którym żyje Twoja organizacja. Powszechny wpływ wywiera wszechobecna presja finansowa w krajobrazie maksymalizującym zyski i konkurencyjnym. Kiedy i dlaczego należy powiedzieć "nie", kiedy zgodne z prawem, ale dyskusyjne pod względem etycznym "tak" mogłoby pomóc w rozwoju firmy lub obronie przed konkurencją? Aby stawić czoła podobnym naciskom, możesz chcieć spojrzeć na to spoza swojej organizacji. Czy inni napotkali podobne problemy, a jeśli tak, jak sobie z nimi poradzili? Czy istnieje grupa branżowa, akademicka lub non-profit, do której możesz dołączyć i która pomogłaby Ci w poruszaniu się po ławicach etycznego procesu decyzyjnego? Czy potrzebne jest rozwiązanie dla całego sektora, aby ustanowić standardy algorytmiczne lub być orędownikiem lepszych regulacji, które zatrzymają wyścig na dno? Czy też zakres logiczny obejmuje całe społeczeństwo, sugerując koalicje polityczne i obywatelskie? Gdy zakres twoich zmartwień się poszerza, możesz czuć się przytłoczony. Jednym ze sposobów radzenia sobie z tym jest skupienie się na skali etycznej, w którą czujesz się najbardziej zaangażowana (bez względu na to, czy jest to Twój zespół, organizacja, specjalizacja, sektor czy społeczeństwo) i szukanie innych, którzy czują podobnie. Niezależnie od tego, na jakiej skali się skupisz, musisz odpowiedzieć sobie na kilka krytycznych pytań: do czego służy Twój system i komu służy? Jak to jest osadzone w regułach, zachętach i algorytmach?. Niezależnie od tego, czy budujesz zespół ludzki, sztuczną inteligencję czy rozwiązanie analityczne, możesz dokonywać lepszych wyborów, jeśli wiesz, komu służą Twoi liderzy - i komu powinieneś służyć, gdy przyjdzie Twoja kolej na prowadzenie.

Etyka i Dane (X)


Etyka nauki o danych: jaki jest podstawowy standard?

Aby zająć się kwestią etyki na dowolnej arenie, w tym w nauce o danych, musimy najpierw zadać sobie pytanie, jakiego standardu należy użyć, aby zdefiniować, co jest "dobre", a co "złe". Znajomość takiego standardu ma fundamentalne znaczenie, ponieważ wybór niewłaściwego standardu może generować fałszywe definicje tego, co jest "dobre", a co "złe", z różnymi konsekwencjami w społeczeństwie, a w tym przypadku w praktyce i wykorzystywaniu danych. nauka. Stąd wzorzec musi być absolutny, bo jeśli się zmienia, to traci się znaczenie "dobra" i "zła" i popadamy w relatywizm moralny. Peter Kreeft sugeruje, że aby mówić o etyce, musimy zadać sobie pytanie: jaki jest standard moralny, którym posługujemy się w naszym codziennym życiu? Jeśli nie możemy z łatwością odpowiedzieć na takie pytanie, powinniśmy rozpocząć poszukiwanie odpowiedzi, posługując się logiką i powód. Kreeft twierdzi, że aby odpowiedzieć na tego typu pytanie, mamy dwie możliwości: albo nasze podstawowe wartości moralne są obiektywne, albo subiektywne; są odkrywane, gdy naukowcy odkrywają prawa fizyki lub są tworzone jako reguły gry lub dzieła sztuki. Zauważa również, że kultury przednowoczesne wierzyły, że podstawowe wartości moralne są obiektywne i dopiero w ostatnich czasach społeczeństwo zaczęło wierzyć, że te podstawowe wartości moralne są subiektywne i stworzone przez człowieka i mogą ulec zmianie w czasie. Ten drugi scenariusz nazywa się relatywizmem moralnym, szeroko rozpowszechnioną i niebezpieczną ideologią w dzisiejszych czasach. Niezależnie od tego, którą opcję uważamy, istnieją znaczące konsekwencje osiągnięcia celu, jakim jest osiągnięcie dobrego zestawu reguł moralnych dla nauki o danych. Na przykład, jeśli wierzymy, że wartości moralne są obiektywne, powinniśmy je "znaleźć", ale jeśli uważamy, że są subiektywne, musimy je "stworzyć". W przypadku nauki o danych praktyczne implikacje są takie, że powinniśmy zająć stanowisko w kwestii etyki w odniesieniu do obiektywnych lub subiektywnych wartości moralnych. Jeśli zdecydujemy, że wartości moralne są obiektywne, powinniśmy zidentyfikować niezmienne podstawowe wartości moralne i zbudować wokół nich nasze praktyki analityki etycznej. Jeśli natomiast mówimy, że wartości moralne są subiektywne, to musimy te wartości moralne stworzyć i zgodzić się na ich stosowanie w społeczności. Każda opcja wiąże się z wyzwaniami, ale wiemy, że tylko jedna musi być prawdziwa. Subiektywne wartości moralne od razu wprowadzają nas w niebezpieczny relatywizm moralny, który może być nadużywany przez zainteresowane grupy i ujawniać kwestie adopcyjne, ponieważ nie wszyscy zainteresowani mogą się co do nich zgodzić. Z drugiej strony obiektywne wartości moralne stanowią wyzwanie, że aby nie podlegać subiektywnemu podejściu, te zasady moralne muszą zostać odkryte i nie mogą być stworzone przez ludzi. Z konieczności muszą istnieć niezależnie od nas, dlatego dają korzyść w postaci bycia niekwestionowanymi i stawiają mniejszy opór przed adopcją. Dlatego te poszukiwania powinny doprowadzić nas do metafizycznych badań i dociekań. Chcę zasugerować, że właśnie w tym metafizycznym badaniu znajdziemy nie tylko obiektywny standard etyczny niezbędny dla naszej praktyki w dziedzinie nauki o danych, ale także piękne i satysfakcjonujące spotkanie - osobiste spotkanie, które zmieni nasze życie i zapewni jasność w tak złożonych tematach. jako etyka w nauce o danych.

Etyka i Dane (IX)


Sprawiedliwość w dobie algorytmów

Ze wszystkich ekscytujących prac wykonywanych w dziedzinie nauki o danych algorytm uczenia maszynowego (MLA) jest jednym z osiągnięć, które przyciągnęły największą uwagę - a dla wielu jest to dziedzina nauki o danych, która jest najbardziej obiecująca na przyszłość. Jednak, podobnie jak w przypadku wszystkich potężnych technologii, MLA również niosą ze sobą ryzyko stania się siłami destrukcyjnymi na świecie. Wczesne zastosowania umów MLA obejmowały filtrowanie spamu w wiadomościach e-mail, rozpoznawanie obrazów i systemy rekomendacji dla rozrywki. W tych niskich stawkach koszt jakichkolwiek błędów jest niski, co zwykle stanowi niewielką niedogodność w najgorszym przypadku. Jednak koszt błędów w umowach wzajemnej pomocy medycznej dramatycznie wzrósł, ponieważ zaczęto je stosować do ludzi, na przykład w działaniach policyjnych przewidujących. Pomimo pozornie obiektywnego procesu szkolenia MLA, czasami prowadzi to do algorytmów, które, choć obliczeniowo poprawne, dają wyniki, które są stronnicze i niesprawiedliwe z ludzkiego punktu widzenia. A w sytuacjach wymagających dużej stawki MLA, które przynoszą nieuczciwe wyniki, mogą wyrządzić ogromne szkody. Uczciwość to nieuchwytna koncepcja. W praktyce uczenia maszynowego jakość algorytmu ocenia się na podstawie jego dokładności (procent poprawnych wyników), jego precyzji (możliwość nie zaliczania próbki do negatywnej jako pozytywnej) lub jego przywoływania (zdolność do znajdź wszystkie pozytywne próbki). Podjęcie decyzji, który z tych trzech mierników jest najlepszym wskaźnikiem sprawiedliwości, nie zawsze jest proste, a poprawa jednej miary może spowodować spadek w innych. Zasadniczo umowy MLA są tak rzetelne, jak same dane. Jeśli dane bazowe są w jakikolwiek sposób obciążone, ich nierówności strukturalne mogą nie tylko zostać powielone, ale mogą nawet zostać wzmocnione w algorytmie. Inżynierowie ML muszą zdawać sobie sprawę z własnych martwych punktów; wszystkie drobne decyzje, jakie podejmują na temat swoich danych szkoleniowych, mogą mieć równie wpływ jak ich techniki inżynieryjne. Jeszcze bardziej problematyczne jest jednak to, że problemy społeczne, takie jak dyskryminacja i wykluczenie, są głęboko zakorzenione w otaczającym nas świecie - a co za tym idzie, są nieodłączną częścią danych, które wyodrębniamy ze świata. Wydaje się, że osiągnięcie uczciwości algorytmicznej jest równie trudne, jak osiągnięcie uczciwości w systemach kierowanych przez człowieka. Systemy ludzkie są stronnicze na wszystkie sposoby, w jakie systemy algorytmiczne są stronnicze, a ludzie są dodatkowo stronniczy w sposób, w jaki maszyny nie mogą. Jednak systemy algorytmiczne mogą być zarówno mniej widoczne, jak i mniej przejrzyste: ludzie często nie zdają sobie sprawy, że algorytm jest używany do podejmowania decyzji, która ich dotyczy - i nawet jeśli są świadomi, algorytm jest przedstawiany jako złożony, niepoznawalny "czarny pudełko ", którego nie sposób zobaczyć, a tym bardziej zrozumieć. Aby poprawić sprawiedliwość algorytmiczną, należy podjąć trzy wyraźne kroki:

1. Po pierwsze, musimy zrobić więcej, aby zapewnić jakość danych wykorzystywanych do uczenia algorytmów. Na przykład wszyscy badani powinni mieć równe szanse na bycie reprezentowanym w danych, co oznacza, że może być wymagany dodatkowy wysiłek, aby uzyskać dane od tradycyjnie niedoreprezentowanych grup. Modele również muszą być okresowo ponownie trenowane z nowymi danymi, aby rozpocząć wykorzenienie historycznych uprzedzeń, pomimo dodatkowych kosztów, które to powoduje.
2. Po drugie, w dziedzinie uczenia maszynowego procesy muszą zostać ujednolicone w całej branży, aby wyeliminować jak najwięcej stronniczości z procesu inżynieryjnego. Powinno to obejmować różne podejścia, w tym szkolenie inżynierów w zakresie nieświadomych uprzedzeń, podobne do szkolenia, które rutynowo przechodzą analitycy wywiadu; protokoły inżynieryjne podobne do protokołów badań naukowych, takie jak rygorystyczna wzajemna weryfikacja; niezależny audyt po wdrożeniu algorytmicznej uczciwości, w którym jakość algorytmu jest oceniana nie tylko na podstawie standardowych wskaźników inżynierskich, ale także na podstawie tego, jak wpływa on na najbardziej narażone osoby, na które ma wpływ.
3. Po trzecie, umowy o wzajemnej pomocy prawnej muszą zostać ujawnione w naszym społeczeństwie, abyśmy wszyscy byli świadomi, kiedy są wykorzystywane w sposób, który ma wpływ na nasze życie; dobrze poinformowany obywatel jest niezbędny, aby grupy, które tworzą i stosują te algorytmy, były odpowiedzialne za zapewnienie ich uczciwości. Mamy konstytucyjną gwarancję prawa do rzetelnego procesu i równej ochrony; powinniśmy interpretować te prawa tak, aby obejmowały prawo do wiedzy, jakie dane o nas są wykorzystywane jako dane wejściowe, oraz prawo do dostępu do wszelkich danych wyjściowych, które są generowane o nas, gdy umowy o wzajemnej pomocy prawnej są używane w kontekstach objętych ochroną konstytucyjną.

Podjęcie tych kroków będzie wymagało głębokich zmian w całym naszym społeczeństwie, przez wielu interesariuszy i w wielu dziedzinach. W świecie rządzonym przez prawa i konwencje, które nigdy nie przewidywały potęgi MLA, odpowiedzialność za dążenie do uczciwości w systemach uczenia maszynowego spoczywa na każdym, kto w nich pracuje lub z nimi. Ponieważ MLA stają się coraz bardziej powszechne w naszym społeczeństwie, coraz bardziej krytyczne będzie, aby ludzie w pętli zajmowali się tym problemem, aby zapewnić, że technologia ta spełnia obietnicę czynienia dobra, a nie potencjalną szkodę.

Etyka i Dane (VIII)


Uważaj na "Decyzje serca"

Obecnie firmy i organizacje rządowe coraz częściej używają zaawansowanych analiz, takich jak głębokie uczenie się, do częściowego lub całkowitego zautomatyzowania procesu podejmowania decyzji. Analytics służy do podejmowania decyzji dotyczących pożyczki, rekomendowania kary w zawieszeniu lub wyroku więzienia, sprawdzania kandydatów do pracy i nie tylko. Chociaż algorytmy te mogą skutkować szybszym, tańszym, wydajniejszym, a nawet sprawiedliwszym podejmowaniem decyzji, nie są one pozbawione ryzyka. Cathy O′Neil w swojej wpływowej książce Weapons of Math Destruction i inni argumentują, że algorytmy mogą zwiększać nierówności, odmawiać usług i możliwości, a nawet zagrażać demokracji. Rozmowa między Blaszanym Drwalem a Strachem na Wróble w The Wonderful Wizard of Oz L. Franka Bauma dostarcza interesującego spojrzenia na potrzebę uwzględnienia "serca" i mózgu (tj. Algorytmów) podczas automatyzacji decyzji:

"Nie wiem wystarczająco dużo" - odpowiedział wesoło Strach na Wróble. - Wiesz, moja głowa jest wypchana słomą i dlatego jadę do Oz, żeby poprosić go o trochę mózgu. - Och, rozumiem - powiedział Blaszany Drwal. "Ale przecież mózgi nie są najlepszą rzeczą na świecie". "Masz jakieś?" - zapytał Strach na Wróble. "Nie, moja głowa jest całkiem pusta" - odpowiedział Leśniczy - "ale kiedyś miałem mózg i serce; więc po wypróbowaniu ich obu zdecydowanie wolę mieć serce ".

Kiedy decyzje mogą znacząco wpłynąć na życie ludzi, proces decyzyjny powinien obejmować "serce" i mózg. Opracowane aplikacje powinny być wolne od uprzedzeń i nieuczciwej dyskryminacji klas ludzi; przestrzegać coraz bardziej złożonego zbioru przepisów i regulacji; nie niszczy marki firmy; oraz umożliwienia osobom fizycznym rezygnacji i / lub uzyskania wyjaśnienia, dlaczego podjęto decyzję, i zwrócenia się o środki zaradcze. Podczas budowania modeli należy uważać, aby nie wprowadzać niezamierzonych błędów i uprzedzeń, co może się zdarzyć w przypadku złego wyboru danych trenowania / testowania modelu. Na przykład, błąd wstępnej selekcji może wystąpić podczas korzystania z danych, które mają uprzedzenia, które zostały wprowadzone do poprzednich procesów (np. Model przyjęć na studia, który wykorzystuje tylko dane studentów, którzy zostali przyjęci w przeszłości). Musisz wiedzieć, jak postępować z danymi kategorycznymi, które mają tylko niewielki procent obserwacji w ważnej kategorii. Ponadto należy stale monitorować wydajność modelu pod kątem dokładności i jego wpływu na różne grupy ludzi. RODO UE, które weszło w życie w maju 2018 r., Oraz kalifornijska ustawa o ochronie prywatności konsumentów (CCPA) ze stycznia 2020 r. Nakładają ograniczenia dotyczące sposobu wykorzystywania i udostępniania danych osobowych. RODO wymaga zgody wyrażenia zgody na gromadzenie jakichkolwiek danych osobowych; wszelkie prośby o wykorzystanie danych osobowych muszą być konkretne i jednoznaczne; zbieranie i wykorzystywanie danych osobowych musi mieć na celu określony, dobrze zrozumiały cel biznesowy; a obywatelom przysługuje prawo do usunięcia danych osobowych (tzw. prawo do bycia zapomnianym). Artykuł 22 RODO stanowi, że "[osoby] mają prawo nie podlegać decyzji opartej wyłącznie na zautomatyzowanym przetwarzaniu". CCPA ma podobieństwa do RODO, ale koncentruje się na prawach konsumentów do prywatności i wymaganych przez firmę ujawnieniach klientom. Na przykład firmy muszą mieć w swoich witrynach łącze zatytułowane "Nie sprzedawaj moich danych osobowych". Niektóre zastosowania algorytmów są legalne, ale niekorzystne dla biznesu. Często cytowanym przykładem jest Target, który wykorzystuje modelowanie predykcyjne do identyfikacji kobiet, które prawdopodobnie są w ciąży, a następnie wysyła im kupony związane z ciążą. Odrzut nastąpił, gdy 16-letnia dziewczynka otrzymała takie kupony, a jej ojciec narzekał, że kupony promują nastoletnią ciążę (później dowiedział się, że rzeczywiście jest w ciąży). Historia została opowiedziana w New York Times, Fortune i innych poczytnych publikacjach i zszargała markę Target. Ludzie powinni mieć możliwość poproszenia i otrzymania wyjaśnienia, dlaczego podjęto taką decyzję. Amerykańska Rada ds. Polityki Publicznej Stowarzyszenia Maszyn Komputerowych (ACM) i Komitet Polityki ACM Europe, pracując zarówno oddzielnie, jak i razem, skodyfikowały siedem zasad zapewniających uczciwe wykorzystanie danych osobowych i algorytmów. Czwartą zasadą przewodnią jest potrzeba wyjaśnienia - zdolność do komunikowania logiki algorytmu w kategoriach ludzkich, gdy zostaniesz o to poproszony. Osoby fizyczne powinny również mieć możliwość zakwestionowania automatycznej decyzji i / lub dowiedz się, co można zrobić, aby temu zaradzić. Wymóg ten może być trudny ze względu na charakter "czarnej skrzynki" niektórych z najpotężniejszych modeli predykcyjnych (np. Głębokiego uczenia się) i może prowadzić do stosowania modeli, które mają nieco mniejszą moc predykcyjną, ale są łatwiejsze do wyjaśnienia w kategoriach ludzkich ( np. drzewa decyzyjne). Aby sprostać zapotrzebowaniu na legalne i etyczne stosowanie algorytmów, zwłaszcza tych, które wiążą się z decyzjami serca, naukowcy zajmujący się danymi muszą przyjąć szerszą perspektywę na to, jakie są ich obowiązki, a firmy muszą rozszerzyć swoje zarządzanie (np. Ludzie, komitety, i procesów), aby uwzględnić ich personel prawny i biznesmeni, którzy są w kontakcie z klientem.

Etyka i Dane (VII)


Zrozumienie etyki biernej i proaktywnej

Kilku przyjaciół rzuciło mi wyzwanie, bym zaangażował się w dyskusję na temat etyki sztucznej inteligencji. Z pewnością nie mam żadnego specjalnego szkolenia z etyki. Ale z drugiej strony, może tak. Chodziłem do kościoła w większość niedziel (nie tylko w Wigilię), odkąd byłem dzieckiem i uczono mnie wielu lekcji "etyki" z Biblii. Z szacunkiem pozwolę sobie więc na podzielenie się moimi przemyśleniami na temat krytycznego znaczenia tematu etyki sztucznej inteligencji.

Co to jest etyka AI?

Etykę definiuje się jako zasady moralne, które rządzą zachowaniem lub działaniem danej osoby - zasady "dobra i zła", które są ogólnie akceptowane przez jednostkę lub grupę społeczną. Zachowania "dobre czy złe" nie są łatwo skodyfikowane w prostym równaniu matematycznym. I to właśnie sprawia, że dyskusja na temat etyki sztucznej inteligencji jest tak trudna i tak ważna. Aby zrozumieć dylemat etyki AI, należy najpierw zrozumieć, w jaki sposób model AI podejmuje decyzje:

1. Model AI opiera się na stworzeniu "racjonalnych agentów AI", którzy wchodzą w interakcję ze środowiskiem, aby poznać nagrody i kary związane z działaniami.
2. Nagrody i kary, przeciwko którym "racjonalni agenci AI" starają się podejmować "właściwe" decyzje, są określone przez funkcję użyteczności AI.
3. Aby stworzyć "racjonalnego agenta AI", który podejmie "właściwą" decyzję, funkcja użyteczności AI musi zawierać holistyczną definicję "wartości", która obejmuje wartości finansowe / ekonomiczne, operacyjne, klienta, społeczne, środowiskowe i duchowe.
Konkluzja: "racjonalny agent AI" określa "dobre" i "złe" na podstawie definicji "wartości" wyrażonej w funkcji użyteczności AI.

Proste, prawda?
To nie modele AI mnie przerażają. Modele AI działają świetnie. Ale chodzi o to, że modele AI będą dążyć do optymalizacji dokładnie tego, co ludzie zaprogramowali do optymalizacji za pomocą funkcji użytkowej AI. I na tym powinniśmy skupić się w dyskusji na temat etyki sztucznej inteligencji, ponieważ ludzie podejmują złe decyzje. Po prostu odwiedź Las Vegas, jeśli wątpisz w to stwierdzenie. Wysiłki ludzi zmierzające do zdefiniowania reguł, względem których będą mierzone działania, czasami skutkują niezamierzonymi konsekwencjami.

Konsekwencje niezamierzonych konsekwencji

Skracanie procesu definiowania środków, w stosunku do których należy monitorować każdą skomplikowaną inicjatywę biznesową, jest naiwne ... i ostatecznie niebezpieczne. Artykuł "10 fascynujących przykładów niezamierzonych konsekwencji" szczegółowo opisuje działania "uważane za dobre", które ostatecznie doprowadziły do katastrofalnych skutków, w tym:

•  SS Eastland, źle zaprojektowany i niezgrabny statek, miał być bezpieczniejszy przez dodanie kilku łodzi ratunkowych. Niestety, dodatkowy ciężar łodzi ratunkowych spowodował wywrócenie się statku, zatrzymując w ten sposób i zabijając 800 pasażerów pod pokładami.
•  Traktat wersalski dyktował Niemcom warunki kapitulacji, aby zakończyć I wojnę światową. Niestety, warunki te wzmocniły pozycję Adolfa Hitlera i jego zwolenników, co doprowadziło do II wojny światowej.
•  Kampania Zapobiegania pożarom Smokey Bear Wildfire zapoczątkowała dziesięciolecia bardzo skutecznej ochrony przeciwpożarowej. Niestety, zakłóciło to normalne procesy pożarowe, które są niezbędne dla zdrowia lasów. Rezultatem są megafiry, które niszczą wszystko na swojej drodze, nawet ogromne sosny, które przetrwały kilka tysięcy lat w normalnych warunkach pożarowych.

Można złagodzić niezamierzone konsekwencje i koszty związane z fałszywymi pozytywami i fałszywymi negatywami, łącząc różne, a nawet sprzeczne perspektywy, aby dokładnie omówić i zdefiniować funkcję użyteczności sztucznej inteligencji.

Definiowanie funkcji narzędzia AI

Jak wspomniano wcześniej, aby stworzyć "racjonalnego agenta sztucznej inteligencji", który rozumie, jak odróżniać "właściwe" od "złych" działań, model sztucznej inteligencji musi opierać się na całościowej funkcji użytkowej sztucznej inteligencji uwzględniającej "wartość" w wielu często sprzecznych wymiarów - na przykład zwiększenie wartości finansowej, przy jednoczesnym zmniejszeniu kosztów operacyjnych i ryzyka oraz zwiększeniu satysfakcji klientów i prawdopodobieństwa rekomendacji, a także poprawie wartości społecznej i jakości życia oraz zmniejszeniu wpływu na środowisko i śladu węglowego. Etyka musi być jednym z tych wymiarów wartości, jeśli mamy tworzyć funkcje użytkowe sztucznej inteligencji, które mogą prowadzić sztuczną inteligencję do podejmowania właściwych decyzji. To prowadzi nas do bardzo ważnej koncepcji: różnicy między etyką bierną a etyką proaktywną.

Etyka bierna a etyka proaktywna

Podczas debaty na temat etyki musimy zastanowić się nad dylematem etyki biernej kontra etyka proaktywna. Zaczyna się od historii, której wielu z nas nauczyło się w bardzo młodym wieku - przypowieści o dobrym Samarytaninie. Historia opowiada o żydowskim podróżniku, który zostaje rozebrany, pobity i pozostawiony na śmierć przy drodze. Najpierw przychodzi kapłan, a potem lewita, ale obaj przechodzą przez ulicę, aby uniknąć mężczyzny. W końcu Samarytanin spotyka zmaltretowanego podróżnika i pomaga mu. Samarytanin opatruje mu rany, przewozi go do gospody na swym jucznym zwierzęciu, aby odpoczął i leczył, oraz płaci za opiekę i zakwaterowanie podróżnego w gospodzie. Kapłan i lewita działali zgodnie z filozofią etyki biernej "nie czyń krzywdy". Technicznie rzecz biorąc, nie zrobili nic złego. Samarytanin działał zgodnie z proaktywną filozofią etyki, dążąc do "czynienia dobra". Nastawienie "nie szkodzić" jest całkowicie niewystarczające w świecie opartym na modelach sztucznej inteligencji. Nasze modele sztucznej inteligencji muszą uwzględniać proaktywną etykę, dążąc do "czynienia dobra"; Oznacza to, że każdy model AI i funkcja użyteczności AI, która kieruje działaniami modelu AI, musi aktywnie dążyć do czynienia dobra. Istnieje ogromna różnica między "nie czyńcie krzywdy" a "czyńcie dobrze", jak dobrze pokazuje przypowieść o miłosiernym Samarytaninie.

Podsumowanie

Rozważmy prosty test etyczny, który nazywam "testem mamy". Oto jak to działa: gdybyś powiedział swojej mamie o decyzji lub działaniu, które podjąłeś w jakiejś konkretnej sprawie, czy byłaby z niego dumna, czy rozczarowana? Ten prosty test prawdopodobnie zminimalizowałby wiele naszych obaw dotyczących etyki sztucznej inteligencji. Ponieważ ludzie definiują funkcję użyteczności sztucznej inteligencji, która służy do rozróżniania właściwych i złych decyzji, musimy zrozumieć różnice między pasywnością etyki i etyki proaktywnej.

Etyka i Dane (VI)


Zasady i racjonalność

W słynnych opowiadaniach science fiction Izaaka Asimowa hierarchiczny zbiór praw działa jako centralny element zapewniający etyczne zachowanie sztucznych czynników moralnych. Te roboty - po części komputer, po części maszyna - mogą wydajnie obsługiwać złożone zadania, które w innym przypadku wymagałyby wykonania na poziomie ludzkim. Asimov twierdzi, że jego zestaw reguł jest jedyną odpowiednią podstawą interakcji między racjonalnymi ludźmi a robotami, które dostosowują się i elastycznie wybierają własny sposób działania. Dziś, prawie 80 lat po tym, jak pierwsza wersja przepisów została opracowana w 1942 roku, zagorzali fani nadal twierdzą, że prawa Asimov są wystarczające, aby kierować moralnymi decyzjami. Jednak patrząc na zestaw reguł sfinalizowany przez Asimova w 1985 roku, staje się jasne, że stosowane wyłącznie prawa te mogą nie prowadzić do tego, co nazwalibyśmy "dobrymi decyzjami":

Prawo Zerotha : Robot nie może skrzywdzić ludzkości lub przez brak działania pozwolić ludzkości wyrządzić krzywdę.
Pierwsze prawo : Robot nie może zranić człowieka lub, poprzez bezczynność, pozwolić mu na zranienie człowieka.
Drugie prawo : Robot musi wykonywać rozkazy wydawane mu przez ludzi, chyba że takie rozkazy byłyby sprzeczne z pierwszym prawem.
Trzecie prawo : Robot musi chronić swoje własne istnienie, o ile taka ochrona nie jest sprzeczna z pierwszą lub drugą zasadą.

Autonomiczni agenci etyczni Asimova mogą oceniać sytuacje i działać zgodnie z nimi w oparciu o kombinację informacji o przetwarzanym przez siebie świecie i wyżej wymienionych prawach, które są wpisane w ich sztuczne mózgi. Jednak gdy pojawia się konflikt między różnymi prawami, roboty są również zdolne do refleksji, rozumowania i wyciągania rozsądnych wniosków. Ten drobny i często pomijany szczegół daje pierwsze wyobrażenie o tym, jak statyczne zestawy reguł mogą nie być w stanie samodzielnie w wystarczającym stopniu wspierać moralnego podejmowania decyzji, i że Isaac Asimov był tego najprawdopodobniej świadomy. Przynajmniej, mimo że mocno popierał wyłączne stosowanie prawa, jego intrygi zwykle obracają się wokół spraw marginalnych, w których nie można było podjąć jasnej decyzji i dlatego konieczne byłoby dalsze rozumowanie. Rozważ, jeśli chcesz, wypadki z udziałem autonomicznych pojazdów w układzie podobnym do słynnego problemu z wózkiem: w pełni autonomiczny samochód - robot w terminologii asimovskiej - transportuje człowieka (A) do miejsca docelowego. Nagle, zrządzeniem losu, na drodze pojawia się jakaś żywa istota (B). Sztuczna inteligencja (czyli komputer), która steruje pojazdem (czyli maszyną), musi podjąć decyzję w ułamku sekundy: podjąć działania unikowe lub iść prosto przed siebie. Jeśli jednak spróbuje uciec B, pojazd wpada w poślizg i uderza w drzewo, A ginie, a B przeżywa. Jeśli nie, A przeżyje, ale B umiera. Dla uproszczenia przyjmiemy, że szkody dodatkowe są nieistotne lub identyczne w obu przypadkach. Opierając się na tym skrajnym scenariuszu, możemy wyprowadzić dwie główne kwestie z prawami Asimova. Po pierwsze, jeśli zautomatyzowany samochód musiałby zdecydować, czy zaszkodzić istotom ludzkim i istotom innym niż ludzie, istoty nieludzkie zawsze przegrywają. Skutkuje to robotami gatunkowymi - to znaczy robotami, które mają uprzedzenia za lub przeciw istocie ze względu na jej gatunek. Gdyby B był grupą lub jednym z ostatnich zwierząt, z pewnością powinniśmy przynajmniej rozważyć implikacje ich przejechania. Po drugie, przepisy nie są dostosowane do wspierania podejmowania decyzji, gdy mogą wystąpić różne poziomy szkód dla ludzi. Gdyby wszystkie potencjalne skutki scenariusza pociągały za sobą szkodę dla człowieka, zestaw reguł nie byłby w stanie poprowadzić nas do decyzji: jeśli wszystkie alternatywy są zgodne z regułami, są one równie dobre. Gdyby wynik oznaczał utratę ręki przez jednego człowieka lub utratę obu rąk przez innego człowieka, nie byłoby preferencji. Raczej prawa Asimova mają na celu wyłącznie nadanie priorytetu grupom istot ludzkich lub całej ludzkości nad wszystkim innym. Nawet gdybyśmy łatwo mogli racjonalnie argumentować za jednym podejściem zamiast innego, robot nie byłby w stanie tego zrobić, gdyby tylko przestrzegał prawa. Gdyby prawa Asimova miały być podstawą do podejmowania etycznych decyzji przez roboty, musiałyby dodatkowo być w stanie racjonalnie argumentować o lepszych wynikach lub przeciwko gorszym wynikom w skrajnych przypadkach. Potrzebowałaby racjonalności aby być spoiwem między prawami. Ale w takim razie po co w pierwszej kolejności używać praw statycznych? Czy nie byłoby łatwiej po prostu użyć własnej racjonalności, aby zdecydować, jakie czyny są dobre?

Etyka i Dane (V)


Przywództwo dla przyszłości: jak podejść do etycznej przejrzystości

Oprócz identyfikowania problemów etycznych organizacje muszą być przygotowane do zajęcia się swoją rolą i rolą swoich pracowników w podejmowaniu decyzji moralnych. Nie uważam, że firmy powinny mieć obowiązek nauczania etyki swoich pracowników. Jestem głęboko przekonany, że celem firmy jest dostarczanie towarów i usług w wydajny i opłacalny sposób. Pod tym względem opowiadam się za artykułem Miltona Friedmana "Społeczna odpowiedzialność biznesu polega na zwiększaniu zysków". Pozostaw edukację moralną i etyczną rodzinie, instytucjom edukacyjnym, organizacjom religijnym i innym organizacjom opartym na wierzeniach. Żyjemy jednak w złożonym technologicznie świecie, w którym kwestie moralne i etyczne są dość złożone i zagmatwane. Ignorowanie ich poprzez zamykanie oczu nie jest właściwym wyborem. Uważam, że firmy mają obowiązek uznać moralne i etyczne obawy pracowników. Pracownicy mają również prawo i obowiązek zgłaszania takich wątpliwości. Zestawienie równoważenia zobowiązań firmy do wydajności i rentowności oraz uwzględnienia obaw pracowników dotyczących etyki doprowadziło mnie do wniosku, że ustanowienie pełnej przejrzystości etycznej w organizacjach jest najlepszą drogą naprzód. Przejrzystość finansowa przyniosła organizacjom cuda, prowadząc do większej odpowiedzialności i lepszych wyników. Podobnie przejrzystość etyczna pomoże pracownikom i organizacjom w dokonywaniu wyborów, których mogą z dumą bronić, uwalniając w ten sposób każdego od ciężaru dylematów moralnych. Przyjrzyjmy się pokrótce dwóm powszechnym praktykom etycznym.

1. Zabawa w Boga

Ten rodzaj wyboru jest dobrze znany w etyce i polega na podejmowaniu przez kogoś decyzji dotyczących życia i śmierci innych ludzi, najczęściej w zamian za jakąś większą korzyść społeczną. Są to zwykle nazywane decyzjami utylitarnymi. Na przykład wyobraź sobie programistę, któremu powierzono zadanie opracowania systemu reguł dla autonomicznego samochodu. Oczywiście programista w razie wypadku postara się uratować jak najwięcej istnień ludzkich. Ale jeśli nie jest to możliwe, w jaki sposób skonstruowano by regułę, aby dokonać wyboru między dwiema osobami? A co by było, gdyby wybór padał między mężczyzną a kobietą lub między dzieckiem a dorosłym? Innym przykładem są decyzje które mają na celu wytępienie gatunków w przyrodzie. Wyobraź sobie bioinżyniera, któremu powierzono zadanie stworzenia genu, który zlikwiduje wszystkie komary przenoszące malarię. Jak dokonuje się takich wyborów? Oba te dylematy wynikają z postępu technicznego, a zatem rzadko są nauczane lub badane przez instytucje, które tradycyjnie zaszczepiły etykę.

2. Oślepienie moralne

Oślepienie moralne stanowi inny problem. Technologie można rozwijać w sposób całkowicie zaciemniający przed pracownikami ich przeznaczenie i ostateczne przeznaczenie. Na przykład analityk danych może zostać poproszony o zbudowanie algorytmu profilowania psychograficznego dla systemu rekomendacji marketingowych, który dopasuje odwiedzających witrynę do pakietów wakacyjnych, podczas gdy w rzeczywistości algorytm będzie używany do profilowania politycznego w celu wpływania na wybory wyborców. Firmy mogą to robić, aby chronić tajemnice handlowe lub ponieważ wiedzą, że kwestie moralne mogą rozpraszać uwagę w procesie pracy lub zniechęcać do znalezienia pracowników. Pracownicy prędzej czy później odkryją prawdziwe problemy, a niektórzy z nich mogą nie być w stanie poradzić sobie z obciążeniem moralnym. Pytanie zatem brzmi: czy powinno być dozwolone moralne zaślepienie? Moje stanowisko jest takie, że nie powinno. Jeśli pracownik opracowuje algorytm wyboru wypadku dla samochodów autonomicznych, powinien o tym wiedzieć, ponieważ na sztywno zapisuje wybór na życie i śmierć. Nie należy im mówić, że tworzą algorytm gry wideo. A jeśli powiedzą im o tym, powinni również powiedzieć, że firma może licencjonować algorytm producentom samochodów autonomicznych. Z pewnością wpłynie to na sposób budowy algorytmu, czy też pracownik w ogóle zbuduje taki algorytm.

Jak firmy powinny radzić sobie z takimi problemami?

W ramach przejrzystości etycznej firmy i pracownicy mają trzy kluczowe obowiązki:

•  Ujawnij potencjalne problemy etyczne w miejscu pracy
•  Badaj i edukuj pracowników w kwestiach etycznych
•  Dokumentuj ich indywidualne i wzajemne stanowisko w kwestiach etycznych

Te trzy zasady stanowią ramy do dyskusji. Dziś większość problemów etycznych powstanie w firmach produkujących nowe technologie. Dlatego dyskusja musi się tam rozpocząć, a następnie rozszerzyć, aby zaangażować społeczeństwo. Liderzy technologiczni muszą się rozwijać i być liderami etycznymi, ponieważ najlepiej wiedzą, co ich technologie mogą, a czego nie mogą. Przyznaję, że branża wkracza na nieznane wody i że kwestie etyczne w świecie technologii są nowe. Niektóre z problemów etycznych, z którymi się zmierzymy, sprawdzą nasze ludzkie przekonania, ale przez stulecia nie dokonano żadnego postępu bez rozwiązania trudnych problemów. Aby etyka techniczna mogła ewoluować, musi mieć miejsce otwarty i zorganizowany dialog.

Etyka i Dane (IV)


Ostrzegawcze opowieści etyczne: frenologia, eugenika …i nauka o danych?

Frenologia, od phren oznaczającego "umysł" i logo oznaczającego "wiedzę", była badaniem kształtów i konturów czaszki jako wskazujących na ludzkie zdolności umysłowe i cechy charakteru. Został opracowany początkowo przez Franza Josepha Galla (1758-1828) i przez cały XIX wiek stał się uznaną na całym świecie nauką i praktyką. Pokrewną dziedziną nauki, która pojawiła się w XIX wieku i była kontynuowana przez cały XX wiek, była eugenika. Chociaż praktyki te miały kiedyś naukowe wsparcie i popularność, obie zostały całkowicie zdemaskowane. Więc co te zdyskredytowane pseudonauki mają wspólnego z etyką nauki o danych? Kiedy zastanawiamy się nad metodami, zastosowaniami i zeitgeistami tamtych czasów, niektóre niesamowite echa odbijają się w czasie, dostarczając przestrogi.

Co więc zrobili frenolodzy i eugenicy?

Frenolodzy używali instrumentów naukowych, takich jak miarki i suwmiarki, do rejestrowania rozmiarów i mapowania konturów ludzkich głów. Uważali, że mózg jest organem, który urósł lub zanikł w wyniku naturalnych predyspozycji lub wielokrotnego używania, a zatem rozmiar, kształt i guzy głowy człowieka odzwierciedlały wzrost mózgu znajdującego się pod spodem. Wykorzystali swoje pomiary tych cech wraz z obserwacjami behawioralnymi, aby wywnioskować pewne aspekty osobowości i charakteru. Eugenicy stosowali podobne techniki, ale mierzyli całe ciało, koncentrując się zwłaszcza na różnicach fizjologicznych. Opierając swoją pracę na formie "społecznego darwinizmu", wywnioskowali, że pomiary te wskazywały na wyższość lub niższość pewnych cech rasowych i zachęcali do procesów takich jak selektywna hodowla w celu poprawy zdrowia populacji. Przez ponad sto lat "nauki" frenologii i eugeniki były uważane za próby zrozumienia ludzkich zachowań i fizjologicznej zmienności, zwłaszcza że były poparte pozornie obiektywnymi pomiarami naukowymi.

Więc jaki był problem?

Chociaż frenologia i eugenika miały dokładne narzędzia pomiarowe i dobrze udokumentowane wyniki, wyniki były oparte na fałszywych założeniach, słabo zebranych danych i niereprezentatywnych próbkach. Chociaż frenolodzy konstruowali swoje modele empirycznie, podstawowe zdolności umysłowe, które wywnioskowali z tych pomiarów, zostały stworzone przez badanie przyjaciół, o których wierzyli, że mają te zdolności (próbki dla wygody) i zostały przetestowane na więźniach więzień i azylach (próbki stronnicze). Eugenicy byli również wybiórczy w stosunku do porównywanych grup, wykorzystując przede wszystkim narzędzia i ustalenia do wspierania głęboko zakorzenionych stereotypów i rasistowskich ideologii tamtych czasów (błąd potwierdzający). Ostatecznie badania nad eugeniką stały się podstawą Nationalsozialistische Rassenhygiene, czyli "narodowo-socjalistycznej higieny rasowej" niemieckiego reżimu nazistowskiego, która doprowadziła do śmierci prawie 10 milionów osób rzekomo gorszych. Chociaż możemy teraz spojrzeć wstecz na te metody i poddać je krytyce, łatwo jest również zrozumieć, w jaki sposób ludzie w tamtym czasie mogli wierzyć w te wnioski, które były okryte płaszczem nauki.

A co z nauką o danych?

Nauka o danych jest nauką ilościową opartą na ogromnych ilościach stale tworzonych danych, szybko analizowanych za pomocą złożonych algorytmów, najwyraźniej w skali populacji i wolnej od założeń a priori. Łatwo zrozumieć, dlaczego zyskuje powszechną akceptację w biznesie i społeczeństwie. Naukowcy zajmujący się danymi spędzają mnóstwo czasu na opracowywaniu modeli i wyciąganiu wniosków z pozornie "naturalnie występujących" zjawisk, które w większości przypadków są śladami, które zostawiamy w naszym cyfrowym życiu. Podobnie jak guzki na naszych głowach, długość nóg czy kształt nosa, te cyfrowe ślady mówią nam coś ważnego o nas jako ludziach w społeczeństwie… prawda?

W swojej książce Everybody Lies Seth Stephens-Davidowitz w przekonujący i przekonujący sposób ilustruje, w jaki sposób dane Google Trends oferują wgląd w niemal freudowskie podświadome zachowanie ludzi. To część mocy nauki o danych - może nam powiedzieć o sobie rzeczy, których nawet my możemy nie być świadomi (lub zbyt boimy się przyznać). Z drugiej strony Cathy O′Neil w swojej książce Weapons of Math Destruction twierdzi, że sztuczna inteligencja i algorytmy predykcyjne są tak dobre, jak dane do nich wprowadzane, a najczęściej wyniki tych pozornie bezstronnych algorytmów i modeli są niczym innym jak replikacją istniejących nierówności społecznych. Zamiast dostarczać nam informacji umożliwiających przewidywanie nieznanego, O′Neil podaje przykłady sposobów, w jakie techniki analizy danych penalizują, marginalizują i pozbawiają praw tych, którzy już są zagrożeni w naszym społeczeństwie. Wielu innych odkryło również błędne założenia leżące u podstaw algorytmów sztucznej inteligencji zaprojektowanych bardziej pod kątem wydajności niż dokładności; uprzedzenia rasowe i płciowe niektórych algorytmów rozpoznawania twarzy; reklama internetowa, która częściej pokazuje mężczyznom pracę o wysokich dochodach niż kobietom; algorytmy przewidywania przestępstw i wyroków karnych, które dyskryminują osoby ubogie i osoby kolorowe; nieprzejrzystość wtórnego rynku danych, która nieuczciwie dyskryminuje ludzi na rynku ubezpieczeń i kredytów; i zatrudnianie algorytmów, które naruszają ustawę o niepełnosprawnościach Amerykanów. Podobnie jak pomiary kraniometru lub długości kości udowej, narzędzia do analizy danych mogą być dokładne w tym, co mierzą, ale wyciągnięte wnioski mogą nie być lepsze niż zrównanie powiększonego płata w tylnej części 21 z "amatywnością". O ile naukowcy zajmujący się danymi nie współpracują z ekspertami merytorycznymi podczas opracowywania danych i metod, ich wnioski mogą opierać się na błędnych założeniach lub na niewystarczających lub stronniczych danych. Główny problem? Algorytmy sztucznej inteligencji w złożonej matematyce i programowaniu komputerowym są poza zrozumieniem większości ludzi, ale ludzie im ufają, ponieważ "liczby są bezstronne". Złożoność metod nauki o danych często oznacza, że trudno jest przesłuchać algorytmy, pozostawiając je okryte płaszczem niewidzialności nauki. Nadmierna wiara w coś, ponieważ jest to zrobione naukowo, jest scjentyzmem, a nie nauką.

Wnioski

Chociaż organizacje, organizacje zawodowe, instytucje akademickie, a nawet organy odpowiedzialne za tworzenie polityki próbowały stworzyć wytyczne etyczne (np. RODO i kalifornijska ustawa o ochronie prywatności konsumentów) dotyczące gromadzenia i wykorzystywania danych w celu ograniczenia ryzyka dla osób i grup chronionych, Wysiłki w większości należą do kategorii etyki "reaktywnej". Wpływ tych wysiłków jest jeszcze tak niejasny, jak wiele algorytmów i technik statystycznych, na które próbują wpłynąć. Konieczne jest, aby naukowcy zajmujący się danymi celowo współpracowali z innymi naukowcami, analizowali dane, których używają, opracowywali kodeksy etyczne, których należy przestrzegać, i byli otwarci na krytykę swoich metod. Jest to niezbędne, aby uniknąć wpadnięcia w ten sam róg scjentyzmu i błędów logicznych, które pomogły obalić inne, mniej rygorystyczne ruchy naukowe z przeszłości. W przeciwnym razie nasze podręczniki i oprawione w ramki wizualizacje danych możemy znaleźć w zakurzonych antykwariatach XXII wieku.

Etyka i Dane (III)


"Etyczny" nie jest pojęciem binarnym

Rozważając przechwytywanie, przetwarzanie lub wykorzystywanie danych, firmy powinny zadać sobie pytanie: "Czy to jest etyczne?" Z sformułowania pytania wynika, że odpowiedź brzmi "tak" lub "nie". W wielu przypadkach jest to w porządku, ale w wielu innych przypadkach odpowiedź nie jest tak wycięta i wysuszona, jak sugeruje pytanie. Czy etyczne jest potajemne zbieranie danych osobowych o kimś bez jego wiedzy, a następnie sprzedawanie ich wielu stronom trzecim w celu wykorzystania w marketingu ukierunkowanym? Nie. Czy etyczne jest poproszenie osoby o zgodę na śledzenie wyłącznie w celu analizy i poprawy jej doświadczenia na stronie internetowej, a następnie uszanowanie jej zgody (lub jej braku)? Tak. Czy etyczne jest umożliwienie osobie rezygnacji z bycia śledzonym, a następnie, jeśli nie zrezygnuje, śledzenie jej zachowania i wykorzystywanie tych danych do reklamowania jej za pomocą ukierunkowanych banerów reklamowych w innych witrynach podczas przeglądania Internetu? To skomplikowane. W przypadku regulacji typu RODO w UE tego rodzaju śledzenie stanowiłoby wyraźne naruszenie przepisów i mogłoby narazić organizację na znaczną grzywnę. Jednak naruszenie przepisów niekoniecznie oznacza, że jest to nieetyczne. (Naruszeniem RODO jest również uniemożliwienie komuś dostępu do strony internetowej, jeśli nie wyrazi zgody na śledzenie; można by wysunąć argument, że byłoby to całkowicie etyczne - firma ponosi koszty stworzenia i utrzymania strony internetowej, więc firma powinien móc nałożyć dowolne ograniczenia na dostęp do tych treści - ale w rzeczywistości byłoby to naruszeniem przepisów). Istnieje również szara strefa, jeśli chodzi o różne przekonania i postrzeganie wśród wielu różnych osób, które byłyby cel tego śledzenia. Jedna osoba lub duża grupa osób może zupełnie nie przejmować się śledzeniem, może irytować się wyskakującymi okienkami "zgody", na które należy odpowiedzieć podczas odwiedzania witryny, i może preferować wyświetlanie im reklam, które są trafniejsze niż reklamy kierowane po prostu do masowej populacji. ("Wolę raczej zobaczyć reklamę sprzętu turystycznego, ponieważ lubię wędrować, niż reklamę pieluch, ponieważ moje dzieci nie mają pieluch od ponad dziesięciu lat"). Ta osoba lub grupa widziałaby hipotetyczne " opt-out "jako całkowicie etyczny: daje im to, czego chcą (przeglądanie strony internetowej z mniejszą liczbą przerw i bardziej trafnymi reklamami) po niskich" kosztach "(organizacje zbierające dane dotyczące ich zachowania bez ich wyraźnej zgody). Inna grupa ludzi może mieć zupełnie inny pogląd: nie ufają korporacjom, że gromadzą, przechowują i wykorzystują jakąkolwiek formę danych na ich temat. Chcą być informowani za każdym razem, gdy będą śledzeni, i chcą mieć możliwość wyraźnego zezwolenia lub zakazania tego śledzenia (nie tylko śledzenia, ale także obecnego i przyszłego wykorzystania wszelkich gromadzonych danych). Dla tej grupy scenariusz "rezygnacji" jest ewidentnie nieetyczny. Ta dwuznaczność pojawia się raz po raz w prawdziwym świecie, jeśli chodzi o podejmowanie decyzji dotyczących gromadzenia i wykorzystywania danych: odpowiedź na pytanie "Czy to jest etyczne?" będą się różnić w zależności od tego, kogo i w jaki sposób są pytani. Klasyczny papier lakmusowy decyzji w zakresie etyki danych brzmi: "Jeśli to, co robimy lub planujemy zrobić z tymi danymi, miałoby zostać opublikowane na pierwszej stronie New York Timesa, czy spowodowałoby to negatywny PR dla firmy?" W rzeczywistości nie ma prawie żadnego zbioru danych, które całkowicie przeszłyby lub całkowicie nie zdałyby tego testu: istoty ludzkie to złożone istoty ze skomplikowanymi odczuciami co do danych, które generują, oraz organizacji, które mogą je przechwytywać i wykorzystywać.

Etyka i Dane (II)


Przedstawiamy Ethicize, w pełni oparte na sztucznej inteligencji rozwiązanie etyczne w chmurze!

Wykup teraz licencję na naszą najnowszą platformę do automatyzacji sztucznej inteligencji i uzyskaj darmowy "Ethics Power Boost" na następne rozwiązanie do analizy lub analizy danych za jedyne 2,5 mln USD! To o połowę niższa od standardowej ceny 5 mln USD, ale oferta jest ograniczona czasowo. Dlaczego nie uczynić swojego rozwiązania etycznym od razu po wyjęciu z pudełka bez dodatkowego wysiłku? Przez następne 30 dni roczni subskrybenci platformy mogą wybrać bezpłatną 1-dniową wysyłkę, lub możesz zdecydować się na uruchomienie platformy w naszej Ethix Cloud za jedyne 49 999 USD miesięcznie. Nadaj swojemu rozwiązaniu etykę dzięki systemowi opartemu na sztucznej inteligencji, który całkowicie zrewolucjonizuje sposób dostarczania etycznych rozwiązań do nauki i analizy danych, a wszystko to bez dodatkowej pracy ludzkiej, monitorowania i dodatkowego czasu na rozwój. Jak to jest możliwe? Ponieważ samo Ethicize jest również zasilane przez AI! Słuchaj, rozmowa z klientami i prawdziwymi ludźmi - zwłaszcza z ludźmi, których nawet nie znasz - wymaga czasu rzeczywistego. To czas, w którym zespoły ds. technicznych, produktowych lub ds. rozwiązań mogą poświęcić na przeszukiwanie hurtowni danych nowych możliwości związanych ze sztuczną inteligencją. Rozmowy z pojedynczymi osobami nie są skalowane, a poza tym nie możesz projektować zgodnie z kaprysami i potrzebami każdej osoby. Wyobraź sobie, że prowadzisz rozmowy jeden na jeden z ludźmi, aby zrozumieć ich problemy, ukryte potrzeby, obawy i stosunek do rozwiązania. Kto ma na to czas, kiedy twoi konkurenci wypychają modele do produkcji, polują na starszych analityków danych i rozwijają strategię sztucznej inteligencji, która musi być lepsza niż twoja? Etyka była kiedyś kłopotliwa, ale teraz Twój zespół może jednym kliknięciem nadać etykietę Twojemu nowemu produktowi, platformie lub rozwiązaniu Ethicize! Rozejrzyj się: zatrudniłeś doktorów. Masz utalentowanych analityków i inżynierów danych, a w tym roku dokonałeś znacznej inwestycji w chmurę. Cyfrowi tubylcy powiedzą Ci, że prędkość zwycięża. Czy naprawdę zamierzasz siedzieć i wyczarowywać hipotetyczne scenariusze niepowodzenia sztucznej inteligencji? Twoi konkurenci tego nie robią! Podczas gdy Ty siedzisz w korkach projektowych i prowadzisz badania oparte na empatii z prawdziwymi ludźmi, którzy mogą nawet nie być Twoimi klientami, konkurencja wypycha kod do produkcji i zapewnia klientom niesamowitą wartość. Weźmy na siebie ciężar twoich rozważań etycznych dzięki łatwemu dodatkowemu rozwiązaniu, które nie wymaga żadnej interwencji człowieka. Jeśli jesteś podobny do wielu innych firm, projektowanie rozwiązania z uwzględnieniem etyki jest ubezpieczeniem. Musisz chronić się przed przyszłym ryzykiem; w końcu nie chcesz, aby ekwiwalent oskarżeń o goryle wrócił do Twojej firmy, prawda? Oczywiście, możesz ćwiczyć problemy, które rozwiązujesz, z różnymi umiejętnościami, działami i ludźmi, tworzyć prototypy projektów i oceniać je z prawdziwymi ludźmi przed przejściem do produkcji, ale jak możesz uwzględnić wszystkie potencjalne scenariusze ryzyka? tam? Nie możesz. Dlatego wprowadziliśmy Ethicize - proste, solidne rozwiązanie przyszłych problemów etycznych, które jest w 100% oparte na sztucznej inteligencji. To jest jak ubezpieczenie rozwiązania do analizy danych i nie wymaga prawie żadnej interwencji człowieka. W końcu ludzie kierujący zespołami danych to kosztowni pracownicy. Chcesz, żeby skupiali się na tworzeniu modeli i rozwiązań, prawda? Nie są wyszkolonymi etykami ani projektantami. Oczywiście możesz po prostu zacząć stosować projektowanie zorientowane na człowieka jako sposób budowania empatii w swoim rozwiązaniu od samego początku, ale to również wymaga czasu, a Twoje dane po prostu siedzą tam jak złoto czekające na wydobycie i ukształtowanie wartości dla klienta . Lean mówi, że powinieneś uruchomić i uzyskać informacje zwrotne. A nawet jeśli wystąpi problem z integracją z Ethicize, ponieważ używasz Agile, rozwiązanie wszelkich pojawiających się problemów etycznych nie powinno zająć dużo czasu, prawda? Dlatego używasz dwutygodniowych sprintów! Możesz więc postępować zgodnie z etyką na własnej skórze, jeśli chcesz - lub po prostu kliknąć "Dodaj do koszyka", a Ethicize zajmie się integracją etyki w Twoim rozwiązaniu w ciągu kilku minut. Wybór należy do Ciebie!

Etyka i Dane (I)


Prawda o nastawieniu AI

Żadna technologia nie jest wolna od jej twórców. Pomimo naszych najgłębszych życzeń science-fiction, nie ma czegoś takiego jak systemy AI, które są naprawdę oddzielne i autonomiczne ... ponieważ zaczynają się od nas. Chociaż jej efekt może utrzymywać się długo po naciśnięciu przycisku, cała technologia jest echem życzeń tego, kto ją zbudował.

Dane i matematyka nie oznaczają obiektywności

Jeśli szukasz sztucznej inteligencji jako wybawcy przed ludzkimi słabościami, postępuj ostrożnie. Jasne, dane i matematyka mogą zwiększyć ilość informacji, których użyjesz przy podejmowaniu decyzji i / lub uchronić Cię przed głupotą chwili, ale to, jak je wykorzystasz, zależy od Ciebie. Słuchaj, wiem, że science-fiction się sprzedaje. O wiele bardziej wyraziste jest powiedzenie "AI nauczyło się wykonywać to zadanie sama" niż prawdę: ludzie używali narzędzia o fajnej nazwie, aby pomóc im pisać kod. Karmili się przykładami, które uznali za stosowne, znaleźli w nich pewne wzorce i zamienili je w instrukcje. Następnie sprawdzili, czy podoba im się to, co zrobiły dla nich te instrukcje. Prawda ocieka ludzką subiektywnością - spójrz na te wszystkie drobne wybory po drodze, które są pozostawione ludziom prowadzącym projekt. Do czego zastosujemy SI? Czy to się opłaca? W jakich okolicznościach? Jak zdefiniujemy sukces? Jak dobrze to musi działać? Lista jest długa. Tragikomicznie, dodawanie danych do miksu przesłania zawsze obecny element ludzki i stwarza iluzję obiektywności. Owinięcie efektownej warstwy matematycznej wokół rdzenia nie czyni go mniej miękkim. Technologia zawsze pochodzi od ludzi i jest przez nich projektowana, co oznacza, że nie jest bardziej obiektywna niż my.

Co to jest błąd algorytmiczny?

Błąd algorytmiczny odnosi się do sytuacji, w których system komputerowy odzwierciedla ukryte wartości ludzi, którzy go stworzyli. Zgodnie z tą definicją, nawet najbardziej łagodne systemy komputerowe są stronnicze; kiedy stosujemy matematykę do jakiegoś celu, cel ten jest kształtowany przez wrażliwość naszych czasów. Czy sztuczna inteligencja jest zwolniona? Ani trochę. Przestań myśleć o sztucznej inteligencji jako o jednostce i zobacz, czym naprawdę jest: doskonałe narzędzie do pisania kodu. Celem sztucznej inteligencji jest umożliwienie ci wyjaśnienia twoich życzeń komputerowi za pomocą przykładów (danych!) Zamiast instrukcji. Jakie przykłady? To zależy od tego, czego próbujesz nauczyć swój system. Pomyśl o swoim zestawie danych jak o podręczniku, z którego ma się uczyć student maszyny.

Zbiory danych mają autorów-ludzi

Kiedy powiedziałem, że "stronniczość sztucznej inteligencji nie pochodzi od algorytmów sztucznej inteligencji, ale pochodzi od ludzi", niektórzy ludzie napisali, że się mylę, ponieważ błąd wynika z danych. Cóż, oboje możemy być zwycięzcami ... ponieważ ludzie tworzą dane. Podobnie jak podręczniki, zbiory danych odzwierciedlają uprzedzenia ich autorów. Rozważ następujący obraz.



Co widzisz?

•  Banany
•  Naklejki
•  Banany na półkach

Czy Twoja pierwsza myśl to "banany"? Dlaczego nie wspomniałeś o rolce plastikowej torebki lub kolorze bananów? Ten przykład pochodzi z kursu szkoleniowego Google AI Fairness i pokazuje, że chociaż wszystkie trzy odpowiedzi są technicznie poprawne, wolisz jedną z nich. Nie wszyscy ludzie podzielają tę stronniczość; to, co postrzegamy i jak reagujemy, zależy od naszych norm. Jeśli mieszkasz na planecie, na której wszystkie banany są niebieskie, możesz tutaj odpowiedzieć "żółte banany". Jeśli nigdy wcześniej nie widziałeś banana, możesz powiedzieć "półki z żółtymi przedmiotami". Obie odpowiedzi są również prawidłowe. Dane, które tworzysz, aby Twój system mógł się z nich uczyć, będą obciążone tendencją w zależności od tego, jak postrzegasz świat.

To nie jest wymówka, żeby być dupkiem

Filozoficzne argumenty, które unieważniają istnienie prawdziwie bezstronnej i obiektywnej technologii, nie dają nikomu pretekstu do bycia palantem. Co więcej, fakt, że nie możesz przekazać etycznej odpowiedzialności maszynie, nakłada na Twoje barki większą odpowiedzialność, a nie mniej. Jasne, nasze postrzeganie ukształtowały nasze czasy. Społeczne idee cnoty, sprawiedliwości, dobroci, uczciwości i honoru nie są dziś takie same jak w przypadku ludzi żyjących kilka tysięcy lat temu i mogą ewoluować. Nie oznacza to, że te pomysły są nieważne; oznacza to tylko, że nie możemy ich zlecić na zewnątrz na stos przewodów. Razem za nie odpowiadamy.

Sprawiedliwość w AI

Kiedy już docenisz, że jesteś odpowiedzialny za to, jak używasz swoich narzędzi i gdzie je wskazujesz, staraj się uświadomić sobie, jak twoje wybory wpływają na resztę ludzkości. Na przykład podjęcie decyzji, którą aplikację wybrać, jest wyborem wpływającym na inne osoby. Przemyśl to. Kolejnym wyborem, jaki masz, jest to, które dane chcesz wykorzystać do sztucznej inteligencji. Powinieneś oczekiwać lepszej wydajności na przykładach podobnych do tego, z czego nauczył się twój system. Jeśli zdecydujesz się nie wykorzystywać danych od osób takich jak ja, Twój system prawdopodobnie popełni błąd, gdy pojawię się jako Twój użytkownik. Twoim obowiązkiem jest zastanowienie się nad bólem, jaki możesz spowodować, kiedy to się stanie. Mam nadzieję, że przynajmniej masz zdrowy rozsądek, by sprawdzić, czy rozkład populacji użytkowników odpowiada rozkładowi w Twoich danych. Na przykład, jeśli 100% przykładów szkoleń pochodzi od mieszkańców jednego kraju, ale docelowi użytkownicy są globalni ... spodziewaj się bałaganu.

Uczciwi i świadomi

Napisałem tutaj wiele słów, kiedy mogłem po prostu powiedzieć, że większość badań na temat stronniczości i uczciwości w sztucznej inteligencji dotyczy upewnienia się, że Twój system nie ma nieproporcjonalnego wpływu na jakąś grupę użytkowników. w stosunku do innych grup. Głównym celem etyki sztucznej inteligencji jest kontrola dystrybucji i podobne analizy. Powodem, dla którego tak dużo pisałem, jest to, że chcę, abyś poszedł jeszcze lepiej. Zautomatyzowane kontrole dystrybucji idą tylko na razie. Nikt nie zna systemu lepiej niż jego twórcy, więc jeśli go budujesz, poświęć trochę czasu na zastanowienie się, na kogo i jak wpłyną Twoje działania, i zrób wszystko, co w Twojej mocy, aby dać tym ludziom głos, który poprowadzi Cię przez martwe punkty.