"Standardowa edukacja zapewni Ci przeżycie. Samokształcenie - fortunę".   Jim Rohn

"Jeśli trwacie w nauce mojej, jesteście prawdziwie moimi uczniami i POZNACIE PRAWDĘ ,A PRAWDA WAS WYZWOLI"    - Jezus z Nazaretu



Data Science-Intro [PDF]


Data Science-Intro [EPUB]


Data Science-Intro [MOBI]



… Data Science to sztuka przekształcania danych w działania. Chodzi o rzemiosło. Tradecraft to proces, narzędzia i technologie umożliwiające ludziom i komputerom współpracę w celu przekształcenia danych w spostrzeżenia.

Data Science tradecraft, tworzy produkty danych. Produkty oparte na danych dostarczają użytecznych informacji bez narażania decydentów na podstawowe dane lub analizy (np. Strategie kupna / sprzedaży instrumentów finansowych, zestaw działań mających na celu poprawę wydajności produktu lub kroki w celu poprawy marketingu produktu) ).

Data Science wspiera i zachęca do przechodzenia między rozumowaniem dedukcyjnym (opartym na hipotezach) a rozumowaniem indukcyjnym (opartym na wzorcach). Jest to fundamentalna zmiana w stosunku do tradycyjnych podejść analitycznych. Rozumowanie indukcyjne i eksploracyjna analiza danych zapewniają środki do formułowania lub udoskonalania hipotez i odkrywania nowych ścieżek analitycznych. Modele rzeczywistości nie muszą już być statyczne. Są stale testowane, aktualizowane i ulepszane, aż zostaną znalezione lepsze modele.

Data Science jest niezbędny, aby firmy mogły pozostać i konkurować w przyszłości. Organizacje nieustannie podejmują decyzje kierując się instynktem, najgłośniejszym głosem i najlepszą argumentacją - czasami są nawet informowane o prawdziwych informacjach. Zwycięzcy i przegrani w powstającej gospodarce opartej na danych zostaną ustaleni przez ich zespoły Data Science.

Funkcje nauki o danych można rozbudowywać w czasie. Organizacje dojrzewają poprzez szereg etapów - zbieranie, opisywanie, odkrywanie, przewidywanie, doradzanie - w miarę przechodzenia od zalewu danych do pełnej dojrzałości Data Science. Na każdym etapie mogą stawić czoła coraz bardziej złożonym celom analitycznym z szerszym zakresem możliwości analitycznych. Jednak organizacje nie muszą osiągnąć maksymalnej dojrzałości Data Science, aby osiągnąć sukces. Na każdym etapie można znaleźć znaczne korzyści.

Data Science to inny rodzaj sportu zespołowego. Zespoły Data Science potrzebują szerokiego spojrzenia na organizację. Liderzy muszą być kluczowymi orędownikami, którzy spotykają się z interesariuszami, aby wykryć najtrudniejsze wyzwania, zlokalizować dane, połączyć różne części firmy i uzyskać szerokie poparcie ….





Etyka i Dane (III)


"Etyczny" nie jest pojęciem binarnym

Rozważając przechwytywanie, przetwarzanie lub wykorzystywanie danych, firmy powinny zadać sobie pytanie: "Czy to jest etyczne?" Z sformułowania pytania wynika, że odpowiedź brzmi "tak" lub "nie". W wielu przypadkach jest to w porządku, ale w wielu innych przypadkach odpowiedź nie jest tak wycięta i wysuszona, jak sugeruje pytanie. Czy etyczne jest potajemne zbieranie danych osobowych o kimś bez jego wiedzy, a następnie sprzedawanie ich wielu stronom trzecim w celu wykorzystania w marketingu ukierunkowanym? Nie. Czy etyczne jest poproszenie osoby o zgodę na śledzenie wyłącznie w celu analizy i poprawy jej doświadczenia na stronie internetowej, a następnie uszanowanie jej zgody (lub jej braku)? Tak. Czy etyczne jest umożliwienie osobie rezygnacji z bycia śledzonym, a następnie, jeśli nie zrezygnuje, śledzenie jej zachowania i wykorzystywanie tych danych do reklamowania jej za pomocą ukierunkowanych banerów reklamowych w innych witrynach podczas przeglądania Internetu? To skomplikowane. W przypadku regulacji typu RODO w UE tego rodzaju śledzenie stanowiłoby wyraźne naruszenie przepisów i mogłoby narazić organizację na znaczną grzywnę. Jednak naruszenie przepisów niekoniecznie oznacza, że jest to nieetyczne. (Naruszeniem RODO jest również uniemożliwienie komuś dostępu do strony internetowej, jeśli nie wyrazi zgody na śledzenie; można by wysunąć argument, że byłoby to całkowicie etyczne - firma ponosi koszty stworzenia i utrzymania strony internetowej, więc firma powinien móc nałożyć dowolne ograniczenia na dostęp do tych treści - ale w rzeczywistości byłoby to naruszeniem przepisów). Istnieje również szara strefa, jeśli chodzi o różne przekonania i postrzeganie wśród wielu różnych osób, które byłyby cel tego śledzenia. Jedna osoba lub duża grupa osób może zupełnie nie przejmować się śledzeniem, może irytować się wyskakującymi okienkami "zgody", na które należy odpowiedzieć podczas odwiedzania witryny, i może preferować wyświetlanie im reklam, które są trafniejsze niż reklamy kierowane po prostu do masowej populacji. ("Wolę raczej zobaczyć reklamę sprzętu turystycznego, ponieważ lubię wędrować, niż reklamę pieluch, ponieważ moje dzieci nie mają pieluch od ponad dziesięciu lat"). Ta osoba lub grupa widziałaby hipotetyczne " opt-out "jako całkowicie etyczny: daje im to, czego chcą (przeglądanie strony internetowej z mniejszą liczbą przerw i bardziej trafnymi reklamami) po niskich" kosztach "(organizacje zbierające dane dotyczące ich zachowania bez ich wyraźnej zgody). Inna grupa ludzi może mieć zupełnie inny pogląd: nie ufają korporacjom, że gromadzą, przechowują i wykorzystują jakąkolwiek formę danych na ich temat. Chcą być informowani za każdym razem, gdy będą śledzeni, i chcą mieć możliwość wyraźnego zezwolenia lub zakazania tego śledzenia (nie tylko śledzenia, ale także obecnego i przyszłego wykorzystania wszelkich gromadzonych danych). Dla tej grupy scenariusz "rezygnacji" jest ewidentnie nieetyczny. Ta dwuznaczność pojawia się raz po raz w prawdziwym świecie, jeśli chodzi o podejmowanie decyzji dotyczących gromadzenia i wykorzystywania danych: odpowiedź na pytanie "Czy to jest etyczne?" będą się różnić w zależności od tego, kogo i w jaki sposób są pytani. Klasyczny papier lakmusowy decyzji w zakresie etyki danych brzmi: "Jeśli to, co robimy lub planujemy zrobić z tymi danymi, miałoby zostać opublikowane na pierwszej stronie New York Timesa, czy spowodowałoby to negatywny PR dla firmy?" W rzeczywistości nie ma prawie żadnego zbioru danych, które całkowicie przeszłyby lub całkowicie nie zdałyby tego testu: istoty ludzkie to złożone istoty ze skomplikowanymi odczuciami co do danych, które generują, oraz organizacji, które mogą je przechwytywać i wykorzystywać.



Etyka i Dane (II)


Przedstawiamy Ethicize, w pełni oparte na sztucznej inteligencji rozwiązanie etyczne w chmurze!

Wykup teraz licencję na naszą najnowszą platformę do automatyzacji sztucznej inteligencji i uzyskaj darmowy "Ethics Power Boost" na następne rozwiązanie do analizy lub analizy danych za jedyne 2,5 mln USD! To o połowę niższa od standardowej ceny 5 mln USD, ale oferta jest ograniczona czasowo. Dlaczego nie uczynić swojego rozwiązania etycznym od razu po wyjęciu z pudełka bez dodatkowego wysiłku? Przez następne 30 dni roczni subskrybenci platformy mogą wybrać bezpłatną 1-dniową wysyłkę, lub możesz zdecydować się na uruchomienie platformy w naszej Ethix Cloud za jedyne 49 999 USD miesięcznie. Nadaj swojemu rozwiązaniu etykę dzięki systemowi opartemu na sztucznej inteligencji, który całkowicie zrewolucjonizuje sposób dostarczania etycznych rozwiązań do nauki i analizy danych, a wszystko to bez dodatkowej pracy ludzkiej, monitorowania i dodatkowego czasu na rozwój. Jak to jest możliwe? Ponieważ samo Ethicize jest również zasilane przez AI! Słuchaj, rozmowa z klientami i prawdziwymi ludźmi - zwłaszcza z ludźmi, których nawet nie znasz - wymaga czasu rzeczywistego. To czas, w którym zespoły ds. technicznych, produktowych lub ds. rozwiązań mogą poświęcić na przeszukiwanie hurtowni danych nowych możliwości związanych ze sztuczną inteligencją. Rozmowy z pojedynczymi osobami nie są skalowane, a poza tym nie możesz projektować zgodnie z kaprysami i potrzebami każdej osoby. Wyobraź sobie, że prowadzisz rozmowy jeden na jeden z ludźmi, aby zrozumieć ich problemy, ukryte potrzeby, obawy i stosunek do rozwiązania. Kto ma na to czas, kiedy twoi konkurenci wypychają modele do produkcji, polują na starszych analityków danych i rozwijają strategię sztucznej inteligencji, która musi być lepsza niż twoja? Etyka była kiedyś kłopotliwa, ale teraz Twój zespół może jednym kliknięciem nadać etykietę Twojemu nowemu produktowi, platformie lub rozwiązaniu Ethicize! Rozejrzyj się: zatrudniłeś doktorów. Masz utalentowanych analityków i inżynierów danych, a w tym roku dokonałeś znacznej inwestycji w chmurę. Cyfrowi tubylcy powiedzą Ci, że prędkość zwycięża. Czy naprawdę zamierzasz siedzieć i wyczarowywać hipotetyczne scenariusze niepowodzenia sztucznej inteligencji? Twoi konkurenci tego nie robią! Podczas gdy Ty siedzisz w korkach projektowych i prowadzisz badania oparte na empatii z prawdziwymi ludźmi, którzy mogą nawet nie być Twoimi klientami, konkurencja wypycha kod do produkcji i zapewnia klientom niesamowitą wartość. Weźmy na siebie ciężar twoich rozważań etycznych dzięki łatwemu dodatkowemu rozwiązaniu, które nie wymaga żadnej interwencji człowieka. Jeśli jesteś podobny do wielu innych firm, projektowanie rozwiązania z uwzględnieniem etyki jest ubezpieczeniem. Musisz chronić się przed przyszłym ryzykiem; w końcu nie chcesz, aby ekwiwalent oskarżeń o goryle wrócił do Twojej firmy, prawda? Oczywiście, możesz ćwiczyć problemy, które rozwiązujesz, z różnymi umiejętnościami, działami i ludźmi, tworzyć prototypy projektów i oceniać je z prawdziwymi ludźmi przed przejściem do produkcji, ale jak możesz uwzględnić wszystkie potencjalne scenariusze ryzyka? tam? Nie możesz. Dlatego wprowadziliśmy Ethicize - proste, solidne rozwiązanie przyszłych problemów etycznych, które jest w 100% oparte na sztucznej inteligencji. To jest jak ubezpieczenie rozwiązania do analizy danych i nie wymaga prawie żadnej interwencji człowieka. W końcu ludzie kierujący zespołami danych to kosztowni pracownicy. Chcesz, żeby skupiali się na tworzeniu modeli i rozwiązań, prawda? Nie są wyszkolonymi etykami ani projektantami. Oczywiście możesz po prostu zacząć stosować projektowanie zorientowane na człowieka jako sposób budowania empatii w swoim rozwiązaniu od samego początku, ale to również wymaga czasu, a Twoje dane po prostu siedzą tam jak złoto czekające na wydobycie i ukształtowanie wartości dla klienta . Lean mówi, że powinieneś uruchomić i uzyskać informacje zwrotne. A nawet jeśli wystąpi problem z integracją z Ethicize, ponieważ używasz Agile, rozwiązanie wszelkich pojawiających się problemów etycznych nie powinno zająć dużo czasu, prawda? Dlatego używasz dwutygodniowych sprintów! Możesz więc postępować zgodnie z etyką na własnej skórze, jeśli chcesz - lub po prostu kliknąć "Dodaj do koszyka", a Ethicize zajmie się integracją etyki w Twoim rozwiązaniu w ciągu kilku minut. Wybór należy do Ciebie!



Etyka i Dane (I)


Prawda o nastawieniu AI

Żadna technologia nie jest wolna od jej twórców. Pomimo naszych najgłębszych życzeń science-fiction, nie ma czegoś takiego jak systemy AI, które są naprawdę oddzielne i autonomiczne ... ponieważ zaczynają się od nas. Chociaż jej efekt może utrzymywać się długo po naciśnięciu przycisku, cała technologia jest echem życzeń tego, kto ją zbudował.

Dane i matematyka nie oznaczają obiektywności

Jeśli szukasz sztucznej inteligencji jako wybawcy przed ludzkimi słabościami, postępuj ostrożnie. Jasne, dane i matematyka mogą zwiększyć ilość informacji, których użyjesz przy podejmowaniu decyzji i / lub uchronić Cię przed głupotą chwili, ale to, jak je wykorzystasz, zależy od Ciebie. Słuchaj, wiem, że science-fiction się sprzedaje. O wiele bardziej wyraziste jest powiedzenie "AI nauczyło się wykonywać to zadanie sama" niż prawdę: ludzie używali narzędzia o fajnej nazwie, aby pomóc im pisać kod. Karmili się przykładami, które uznali za stosowne, znaleźli w nich pewne wzorce i zamienili je w instrukcje. Następnie sprawdzili, czy podoba im się to, co zrobiły dla nich te instrukcje. Prawda ocieka ludzką subiektywnością - spójrz na te wszystkie drobne wybory po drodze, które są pozostawione ludziom prowadzącym projekt. Do czego zastosujemy SI? Czy to się opłaca? W jakich okolicznościach? Jak zdefiniujemy sukces? Jak dobrze to musi działać? Lista jest długa. Tragikomicznie, dodawanie danych do miksu przesłania zawsze obecny element ludzki i stwarza iluzję obiektywności. Owinięcie efektownej warstwy matematycznej wokół rdzenia nie czyni go mniej miękkim. Technologia zawsze pochodzi od ludzi i jest przez nich projektowana, co oznacza, że nie jest bardziej obiektywna niż my.

Co to jest błąd algorytmiczny?

Błąd algorytmiczny odnosi się do sytuacji, w których system komputerowy odzwierciedla ukryte wartości ludzi, którzy go stworzyli. Zgodnie z tą definicją, nawet najbardziej łagodne systemy komputerowe są stronnicze; kiedy stosujemy matematykę do jakiegoś celu, cel ten jest kształtowany przez wrażliwość naszych czasów. Czy sztuczna inteligencja jest zwolniona? Ani trochę. Przestań myśleć o sztucznej inteligencji jako o jednostce i zobacz, czym naprawdę jest: doskonałe narzędzie do pisania kodu. Celem sztucznej inteligencji jest umożliwienie ci wyjaśnienia twoich życzeń komputerowi za pomocą przykładów (danych!) Zamiast instrukcji. Jakie przykłady? To zależy od tego, czego próbujesz nauczyć swój system. Pomyśl o swoim zestawie danych jak o podręczniku, z którego ma się uczyć student maszyny.

Zbiory danych mają autorów-ludzi

Kiedy powiedziałem, że "stronniczość sztucznej inteligencji nie pochodzi od algorytmów sztucznej inteligencji, ale pochodzi od ludzi", niektórzy ludzie napisali, że się mylę, ponieważ błąd wynika z danych. Cóż, oboje możemy być zwycięzcami ... ponieważ ludzie tworzą dane. Podobnie jak podręczniki, zbiory danych odzwierciedlają uprzedzenia ich autorów. Rozważ następujący obraz.



Co widzisz?

•  Banany
•  Naklejki
•  Banany na półkach

Czy Twoja pierwsza myśl to "banany"? Dlaczego nie wspomniałeś o rolce plastikowej torebki lub kolorze bananów? Ten przykład pochodzi z kursu szkoleniowego Google AI Fairness i pokazuje, że chociaż wszystkie trzy odpowiedzi są technicznie poprawne, wolisz jedną z nich. Nie wszyscy ludzie podzielają tę stronniczość; to, co postrzegamy i jak reagujemy, zależy od naszych norm. Jeśli mieszkasz na planecie, na której wszystkie banany są niebieskie, możesz tutaj odpowiedzieć "żółte banany". Jeśli nigdy wcześniej nie widziałeś banana, możesz powiedzieć "półki z żółtymi przedmiotami". Obie odpowiedzi są również prawidłowe. Dane, które tworzysz, aby Twój system mógł się z nich uczyć, będą obciążone tendencją w zależności od tego, jak postrzegasz świat.

To nie jest wymówka, żeby być dupkiem

Filozoficzne argumenty, które unieważniają istnienie prawdziwie bezstronnej i obiektywnej technologii, nie dają nikomu pretekstu do bycia palantem. Co więcej, fakt, że nie możesz przekazać etycznej odpowiedzialności maszynie, nakłada na Twoje barki większą odpowiedzialność, a nie mniej. Jasne, nasze postrzeganie ukształtowały nasze czasy. Społeczne idee cnoty, sprawiedliwości, dobroci, uczciwości i honoru nie są dziś takie same jak w przypadku ludzi żyjących kilka tysięcy lat temu i mogą ewoluować. Nie oznacza to, że te pomysły są nieważne; oznacza to tylko, że nie możemy ich zlecić na zewnątrz na stos przewodów. Razem za nie odpowiadamy.

Sprawiedliwość w AI

Kiedy już docenisz, że jesteś odpowiedzialny za to, jak używasz swoich narzędzi i gdzie je wskazujesz, staraj się uświadomić sobie, jak twoje wybory wpływają na resztę ludzkości. Na przykład podjęcie decyzji, którą aplikację wybrać, jest wyborem wpływającym na inne osoby. Przemyśl to. Kolejnym wyborem, jaki masz, jest to, które dane chcesz wykorzystać do sztucznej inteligencji. Powinieneś oczekiwać lepszej wydajności na przykładach podobnych do tego, z czego nauczył się twój system. Jeśli zdecydujesz się nie wykorzystywać danych od osób takich jak ja, Twój system prawdopodobnie popełni błąd, gdy pojawię się jako Twój użytkownik. Twoim obowiązkiem jest zastanowienie się nad bólem, jaki możesz spowodować, kiedy to się stanie. Mam nadzieję, że przynajmniej masz zdrowy rozsądek, by sprawdzić, czy rozkład populacji użytkowników odpowiada rozkładowi w Twoich danych. Na przykład, jeśli 100% przykładów szkoleń pochodzi od mieszkańców jednego kraju, ale docelowi użytkownicy są globalni ... spodziewaj się bałaganu.

Uczciwi i świadomi

Napisałem tutaj wiele słów, kiedy mogłem po prostu powiedzieć, że większość badań na temat stronniczości i uczciwości w sztucznej inteligencji dotyczy upewnienia się, że Twój system nie ma nieproporcjonalnego wpływu na jakąś grupę użytkowników. w stosunku do innych grup. Głównym celem etyki sztucznej inteligencji jest kontrola dystrybucji i podobne analizy. Powodem, dla którego tak dużo pisałem, jest to, że chcę, abyś poszedł jeszcze lepiej. Zautomatyzowane kontrole dystrybucji idą tylko na razie. Nikt nie zna systemu lepiej niż jego twórcy, więc jeśli go budujesz, poświęć trochę czasu na zastanowienie się, na kogo i jak wpłyną Twoje działania, i zrób wszystko, co w Twojej mocy, aby dać tym ludziom głos, który poprowadzi Cię przez martwe punkty.



Strategia Data Science (I)


WSTĘP

W społeczeństwie zachodzi rewolucyjna zmiana. Wszyscy, od małych lokalnych firm po globalne przedsiębiorstwa, zaczynają zdawać sobie sprawę z potencjału digitalizacji swoich zasobów danych i stają się napędzani danymi. Niezależnie od branży firmy wyruszyły w podobną podróż, aby zbadać, jak uzyskać nową wartość biznesową, wykorzystując techniki analityczne, uczenie maszynowe (ML) i sztuczną inteligencję (AI) oraz wprowadzając naukę o danych jako nową dyscyplinę. Jednak, chociaż wykorzystanie tych nowych technologii pomoże firmom uprościć ich działalność i obniżyć koszty, nie ma nic prostego w wyborze strategicznego podejścia odpowiedniego do inwestycji w naukę danych. Im później dołączysz do gry ML / AI, tym ważniejsze będzie, aby od samego początku zastosować strategię dla konkretnego obszaru działalności. Zatrudnienie kilku naukowców zajmujących się danymi do zabawy z danymi jest dość łatwe - jeśli możesz znaleźć kilku z nielicznych dostępnych - ale prawdziwe podnoszenie ciężarów pojawia się, gdy próbujesz zrozumieć, jak wykorzystać naukę danych do tworzenia wartości przez cały czas swoją firmę i umieść to zrozumienie w wykonywalnej strategii nauki o danych. Jeśli możesz to zrobić, jesteś na dobrej drodze do sukcesu. Niedawna ankieta przeprowadzona przez Deloitte wśród "agresywnych użytkowników" technologii kognitywnych wykazała, że 76 procent uważa, że za pomocą danych i sztucznej inteligencji "znacząco przekształcą" swoje firmy w ciągu najbliższych trzech lat. IDC, globalna firma zajmująca się wywiadem marketingowym, przewiduje, że do 2021 r. 75% komercyjnych aplikacji korporacyjnych będzie korzystać ze sztucznej inteligencji, a ponad 90% konsumentów będzie współpracować z botami obsługi klienta; a ponad 50 procent nowych robotów przemysłowych będzie wykorzystywać sztuczną inteligencję. Jednak jednocześnie istnieje bardzo duża przepaść między aspiracjami a rzeczywistością. Gartner, kolejna firma badawczo-doradcza, stwierdziła w 2017 roku, że 85 procent wszystkich projektów Big Data kończy się niepowodzeniem; nie tylko to, nadal wydaje się, że istnieje niejasność co do prawdziwych kluczowych czynników sukcesu, jeśli chodzi o inwestycje w dane i sztuczną inteligencję Głównym kluczowym czynnikiem sukcesu jest doskonała strategia nauki o danych. Docelowymi czytelnikami są wszyscy zainteresowani dokonywaniem zrównoważonych wyborów strategicznych w dziedzinie nauki o danych, bez względu na to, na którym aspekcie się koncentrujesz i na jakim zespół nauk o danych. Strategiczne wybory mają znaczenie! Jak dotąd wydaje się, że niewiele jest dogłębnych badań lub analiz na temat nauki o danych i strategii sztucznej inteligencji, a także niewiele praktycznych wskazówek. Nieliczne artykuły koncentrują się głównie na łatwych do konsumpcji wskazówkach i trikach, jednocześnie omawiając kilka aspektów związanych z wyzwaniami i potrzebnymi kwestiami. Brakuje dogłębnych wskazówek, które nie są dostępne w formie artykułu. Jednocześnie głównym powodem niepowodzeń firm w zakresie nauki o danych lub inwestycji w sztuczną inteligencję jest brak strategii w zakresie nauki o danych lub niezrozumienie złożoności realizacji strategii. Chociaż ta ogromna transformacja zachodzi właśnie tutaj, teraz, wszędzie wokół nas, wydaje się, że niewielu ludzi zrozumiało, w jaki sposób nauka o danych narzuci fundamentalną zmianę w społeczeństwie - i dlatego nie rozumieją, jak do tego podejść. Jeśli chcesz być liderem w swojej firmie, nie masz ani czasu, ani pieniędzy na popełnianie błędów. Naprawdę potrzebujesz solidnej, kompleksowej strategii analizy danych, która będzie działać dla Ciebie na poziomie, którego potrzebujesz, aby rozwijać swoją organizację. Nadszedł czas!



Narzędzia Data Science (I)


WPROWADZENIE DO NARZĘDZI DANYCH

Ludzie mają różne motywacje do realizowania tego, co ich interesuje. Zapytaj kogoś o samochód, a może powiedzieć, że nienawidzi sedanów, kocha SUV-y, albo nigdy nie dostałby niczego innego niż samochód elektryczny, a może w ogóle nie dostałby samochodu! Ludzie mają różne preferencje i nie zmienia się to w przypadku narzędzi do nauki o danych (statystycznych). Niektórzy ludzie kochają Excela do tego stopnia, że nie będą używać niczego poza tym oprogramowaniem do wszystkiego, od utrzymywania budżetu po analizę danych. Istnieje wiele powodów, dla których warto zachować poświęcenie, ale głównym powodem jest zapoznanie się z obiektem. Osoba, która prowadziła tylko drążek zmiany biegów, uwielbia sprzęgło, podczas gdy ci, którzy nigdy nie napędzali drążka, nie będą tak skłonni do preferowania ręcznej zmiany biegów. Jakie są powody preferowania jednej aplikacji od drugiej? Z mojego doświadczenia wynika, że istnieją trzy główne punkty:

1. Oprogramowanie jest łatwe w użyciu
2. Oprogramowanie jest dostępne z dowolnego miejsca
3. Oprogramowanie jest regularnie aktualizowane

Zwykle można by powiedzieć, że oprogramowanie jest niedrogie, ale wraz z wiekiem subskrypcji licencje na oprogramowanie nie są już wieczyste, więc miesięczna płatność jest wszystkim, co jest konieczne, aby zapewnić czytelnikowi dostęp do oprogramowania, o ile subskrypcja jest aktualna. Zbadajmy każdy punkt i omówmy go.

Oprogramowanie jest łatwe w użyciu

Jeśli analityk może wybrać kilka przycisków i - voila - pojawia się wynik, jest to znacznie łatwiejsze niż słowo "p". Co to jest słowo "p"? Programowanie! Jeśli analityk musi programować, trudno jest uzyskać wynik. Oczywiście analitycy nie zdają sobie sprawy, że gdy coś jest zaprogramowane, łatwiej jest zastosować to programowanie. Głównym celem jest to, że oprogramowanie z graficznym interfejsem użytkownika (GUI) wydaje się być preferowane względem oprogramowania do programowania. Oprogramowanie COS jest dobrze znane i łatwe w użyciu. Niektóre oprogramowanie FOSS będzie wymagało więcej przygotowań.

Oprogramowanie jest dostępne z dowolnego miejsca

W dobie przetwarzania w chmurze dostęp do oprogramowania wydaje się banalny. Po rozmowie ze współpracownikami podoba im się fakt, że mogą wykonywać i zapisywać swoją pracę online, aby jej nie stracić. Podoba im się również fakt, że aktualizacje są przejrzyste i wykonywane podczas korzystania z narzędzia. Wreszcie podoba im się fakt, że nie muszą martwić się instalacją oprogramowania i wykorzystaniem pamięci lub miejsca na dysku.

Oprogramowanie jest regularnie aktualizowane

W poprzedniej sekcji omówiono to, więc nie będziemy się tym rozwodzić. Należy jednak pamiętać, że narzędzia, które zostaną omówione, są regularnie aktualizowane. Niestety analityk będzie musiał zgodzić się na aktualizacje.

Podsumowanie Teraz, gdy omówiliśmy, dlaczego analitycy preferują określone narzędzia, opis omawianych tutaj narzędzi zostanie podany w formie tabeli, aby uprościć prezentację i (jak stwierdzono wcześniej) zminimalizować słowo pisane.

Oprogramowanie : Łatwość (1 = łatwe, 5 = trudne) : Dostępność : Aktualizacja

Excel : 1 : 24/7 : Firma
R (RStudio / Rattle) : 3 : 24/7 : Analityk
KNIME : 4 : 24/7 : Analityk
OpenOffice : 2 : 24/7 : Analityk

DLACZEGO ANALIZA DANYCH (DATA SCIENCE) W OGÓLE?

Dzisiejszy świat jest kompendium danych. Dane istnieją we wszystkim, co robimy, niezależnie od tego, czy kupujemy artykuły spożywcze, czy szukamy informacji o zakupie domu. Jest tak wiele bezpłatnych apletów i aplikacji, które są dla nas dostępne, że trudno nam odmówić żadnej z nich. Jak ujął to jeden autor , jeśli to, co pobierasz, jest bezpłatne, to jesteś produktem. To przejmujące, ponieważ darmowe i otwarte oprogramowanie (FOSS) jest czymś powszechnie dostępnym i dostępnym dla nas wszystkich. Jednak dlaczego potrzebujemy nauki o danych do analizy wszystkich tych informacji? W mojej wiedzy istnieje wiele powodów, dla których istnieje nauka o danych. Po pierwsze, istnieje po to, aby zebrać biliony bajtów informacji, które są gromadzone przez firmy i agencje rządowe, aby określić wszystko, od kosztu mleka po ilość emisji dwutlenku węgla do powietrza. Czterdzieści lat temu większość danych była gromadzona, odzyskiwana i przechowywana na papierze. Komputery osobiste były snem, a naukę o danych nazywano archiwizacją lub czymś podobnym. Przechodząc w kierunku mediów elektronicznych, bazy danych zmieniły stosy papieru w kilo-, mega-, gigabajty, a nawet petabajty. Ale przy takiej ilości danych analiza zmieniła się z ołówka i papieru w komputery osobiste lub dowolny komputer. Analitycy zaczęli zdawać sobie sprawę, że dynamiczne oprogramowanie jest sposobem na nadanie analizie danych bardziej użytecznej formy. Nauka o danych wyrosła z tego wysiłku analitycznego i wykorzystuje konwencjonalne metody statystyczne w połączeniu z mocą obliczeniową, aby nauka o danych była łatwo dostępna dla wszystkich podmiotów prywatnych i publicznych. Dzięki możliwości analizy danych marketingowych, technicznych i personalnych firmy mają teraz możliwość obliczania prawdopodobieństwa odniesienia sukcesu przez ich produkt lub wzrostu przychodów w następnym roku. Wraz z rozwojem nauki o danych pojawia się wiele narzędzi, które umożliwiają analizę danych.

GDZIE UZYSKAĆ DANE

Teraz, gdy mamy już wprowadzenie do "dlaczego" nauki o danych, następny temat to "gdzie". Skąd czerpiesz dane do wykorzystania w narzędziach do analizy danych? Odpowiedź na to pytanie, zwłaszcza teraz, brzmi: dane są dostępne do analizy na wielu stronach internetowych. Niektóre z tych witryn internetowych obejmują:

1. www.data.gov, który zawiera strony danych z różnych agencji rządowych. Jeśli chcesz wiedzieć o danych klimatycznych, spisie ludności lub zwalczaniu chorób, to jest miejsce, do którego należy się udać.
2. www.kaggle.com, który nie tylko zawiera dane, ale organizuje konkursy z istniejącymi danymi, do których każdy może dołączyć. Jeden zestaw danych zawiera różne dane zebrane z Titanica, w tym liczbę zgonów lub przeżyć oraz wszystkie dane demograficzne do analizy i korelacji.
3. Prawie każda agencja rządowa. Jeśli nie chcesz wchodzić na ogólną witrynę internetową, przejdź do www.cdc.gov, www.census.gov, ww.noaa.gov lub dowolnej odrębnej rządowej witryny internetowej, aby uzyskać dane dotyczące spraw takich jak ubezpieczenia społeczne (www .ssa.gov) lub nawet informacje wywiadowcze (www.nsa.gov) w przypadku niektórych danych historycznych. Teraz, gdy wiesz już "dlaczego" i "gdzie" związane z nauką o danych i narzędziami, przechodzisz teraz do następnego kroku, czyli korzystania z narzędzi z prawdziwymi danymi. Poza tym niewątpliwie masz dość tej scenerii. Dane zostały pobrane z witryny :

https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/,

która zawiera dane śledzenia tornada w Stanach Zjednoczonych od 1951 do 2018 roku. agencja rządowa NOAA oznacza National Oceanic and Atmospheric Agency. Zalecamy pobranie tych plików (tyle, ile chcesz) i używanie ich oddzielnie w przykładach w książce. Ta książka skupi się na śledzeniu tornada z 1951 roku, aby uczynić to stosunkowo prostym. Po pobraniu danych następnym krokiem jest zaimportowanie danych do Twojego ulubionego narzędzia statystycznego.



Kariera w Data Science (I)


Co to jest nauka o danych?

"Najseksowniejsza praca XXI wieku". "Najlepsza praca w Ameryce". Naukowiec danych, tytuł, który nie istniał nawet przed 2008 r., jest obecnie stanowiskiem, na które pracodawcy nie mogą zatrudniać wystarczająco dużo, a osoby poszukujące pracy starają się zostać. Jest dobry powód do tego szumu: data science to niezwykle rozwijająca się dziedzina, z medianą pensji podstawowej w Stanach Zjednoczonych w 2019 r. przekraczającą 100 000 USD. W dobrej firmie analitycy danych cieszą się dużą autonomią i stale uczą się nowych rzeczy. Wykorzystują swoje umiejętności do rozwiązywania znaczących problemów, takich jak praca z lekarzami w celu analizy prób leków, pomoc drużynie sportowej w wyborze nowych kandydatów lub przeprojektowanie modelu cenowego dla biznesu widżetów. Wreszcie, jak omówimy, nie ma jednego sposobu, aby zostać naukowcem danych. Ludzie pochodzą z różnych środowisk, więc nie jesteś ograniczony na podstawie tego, co wybrałeś jako student. Ale nie wszystkie prace związane z nauką danych są doskonałe. Zarówno firmy, jak i osoby poszukujące pracy mogą mieć nierealistyczne oczekiwania. Firmy, które dopiero zaczynają naukę o danych, mogą pomyśleć, że jedna osoba może na przykład rozwiązać wszystkie problemy związane z danymi. Kiedy w końcu zatrudniony zostanie analityk danych, może stanąć przed niekończącą się listą zgłoszeń do zrobienia. Mogą otrzymać zadanie natychmiastowego wdrożenia systemu uczenia maszynowego, gdy nie wykonano żadnej pracy w celu przygotowania lub wyczyszczenia danych. Może nie być nikogo, kto byłby ich mentorem lub prowadził, a nawet wczuwał się w problemy, z którymi się borykają. Omówimy te kwestie bardziej szczegółowo później, gdzie pomożemy Ci uniknąć dołączania do firm, które mogą być nieodpowiednie dla nowego naukowca danych, oraz doradzimy co zrobić, jeśli znajdziesz się w negatywnej sytuacji. Z drugiej strony poszukujący pracy mogą pomyśleć, że w ich nowej karierze nigdy nie będzie nudnej chwili. Mogą oczekiwać, że interesariusze będą rutynowo postępować zgodnie z ich zaleceniami, że inżynierowie danych będą mogli natychmiast rozwiązać wszelkie problemy z jakością danych i że uzyskają najszybsze dostępne zasoby obliczeniowe do wdrożenia swoich modeli. W rzeczywistości naukowcy zajmujący się danymi spędzają dużo czasu na czyszczeniu i przygotowywaniu danych, a także na zarządzaniu oczekiwaniami i priorytetami innych zespołów. Projekty nie zawsze się udają. Kierownictwo wyższego szczebla może składać klientom nierealistyczne obietnice dotyczące tego, co mogą zapewnić modele analizy danych. Głównym zadaniem osoby może być praca z archaicznym systemem danych, którego nie da się zautomatyzować i wymaga godzin pracy otępiającej każdego tygodnia tylko po to, aby oczyścić dane. Naukowcy zajmujący się danymi mogą zauważyć wiele błędów statystycznych lub technicznych w starszych analizach, które mają realne konsekwencje, ale nikt nie jest tym zainteresowany, a oni są tak przeciążeni pracą, że nie mają czasu, aby spróbować je naprawić. Albo analityk danych może zostać poproszony o przygotowanie raportów potwierdzających to, co zdecydowało już kierownictwo wyższego szczebla, więc może martwić się, że zostanie zwolniony, jeśli udzieli niezależnej odpowiedzi. Jesteśmy tutaj, aby poprowadzić Cię przez proces zostania naukowcem danych i rozwoju kariery. Chcemy mieć pewność, że czytelnicy uzyskają wszystkie wspaniałe cechy bycia naukowcem danych i unikną większości pułapek. Być może pracujesz w sąsiedniej dziedzinie, takiej jak analityka marketingowa, i zastanawiasz się, jak dokonać zmiany. A może jesteś już analitykiem danych, ale szukasz nowej pracy i nie sądzisz, że podszedłeś dobrze do swojego pierwszego poszukiwania pracy. Lub chcesz rozwinąć swoją karierę, przemawiając na konferencjach, wspierając open source lub zostając niezależnym konsultantem. Niezależnie od Twojego poziomu jesteśmy przekonani, że okażemy się pomocni. Na początek omawiamy główne możliwości zdobycia umiejętności data science i budowania portfolio, aby obejść paradoks wymagający doświadczenia, aby zdobyć doświadczenie. Pokażemy, jak napisać list motywacyjny i życiorys, który zapewni Ci rozmowę kwalifikacyjną i jak zbudować swoją sieć kontaktów, aby uzyskać skierowanie. Omawiamy strategie negocjacyjne, które według badań pozwolą Ci uzyskać najlepszą możliwą ofertę. Kiedy pracujesz w nauce danych, będziesz pisać analizy, pracować z interesariuszami, a może nawet wprowadzać model do produkcji . Pomożemy zrozumieć, jak wyglądają wszystkie te procesy i jak przygotować się na sukces. Znajdziesz strategie, jak odzyskać siły, gdy projekt nieuchronnie się nie powiedzie, a kiedy będziesz gotowy, jesteśmy tutaj, aby poprowadzić Cię przez decyzję, gdzie rozpocząć karierę: przejście do zarządzania, kontynuowanie być indywidualnym współpracownikiem lub nawet występować jako niezależny konsultant. Zanim jednak rozpoczniesz tę podróż, musisz wiedzieć, kim są naukowcy zajmujący się danymi i jaką pracę wykonują. Nauka o danych to szeroka dziedzina, która obejmuje wiele rodzajów pracy i im lepiej rozumiesz różnice między tymi obszarami, tym lepiej możesz się w nich rozwijać.