"Standardowa edukacja zapewni Ci przeżycie. Samokształcenie - fortunę".   Jim Rohn

"Jeśli trwacie w nauce mojej, jesteście prawdziwie moimi uczniami i POZNACIE PRAWDĘ ,A PRAWDA WAS WYZWOLI"    - Jezus z Nazaretu

Data Mining (II)



Dzień z życia jako eksplorator danych

Dzień dobry! Witamy w zwykłym dniu w Twojej karierze w eksploracji danych. Dzisiaj spotkasz się z innymi członkami zespołu eksploracji danych, aby omówić trwający już projekt. Ekspert merytoryczny pomoże Ci zrozumieć cele biznesowe projektu i wyjaśnić, dlaczego są one ważne dla Twojej organizacji, aby upewnić się, że wszyscy dążą do tego samego celu. Inny członek zespołu rozpoczął już zbieranie danych i przygotowywanie ich do eksploracji i modelowania. (Masz szczęście, że masz silny zespół!) Po spotkaniu zaczniesz od praktycznej pracy z danymi. Poznasz dane. Chociaż część prac związanych z przygotowaniem danych została wykonana, nadal będziesz mieć więcej do zrobienia, zanim zaczniesz budować modele predykcyjne. Eksploratorzy danych spędzają dużo czasu na przygotowywaniu danych! Później dzisiaj zaczniesz przeglądać dane. Być może zaczniesz budować model, który będziesz udoskonalać i ulepszać w nadchodzących dniach. Oczywiście na bieżąco dokumentujesz całą swoją pracę. To tylko kolejny dzień z życia eksploratora danych. Ta część pokazuje, jak to się robi.

Właściwe rozpoczęcie dnia wolnego

Dobrze się wyspałeś, a teraz wstajesz wcześnie, żeby trochę poćwiczyć i zjeść dobre śniadanie. Ma to niewiele wspólnego z eksploracją danych, ale jest to dobry sposób na rozpoczęcie dnia. W drodze do pracy zastanów się nad tym: pomyślna eksploracja danych to praca zespołowa. Nikt nie posiada całej wiedzy, wszystkich zasobów ani wszystkich uprawnień wymaganych do przeprowadzenia typowego projektu eksploracji danych i wprowadzenia jego wyników w życie. Do załatwienia sprawy potrzebny jest cały zespół. Twoi współpracownicy mogą być czarującymi ludźmi z najlepszymi umiejętnościami i najczystszymi motywacjami lub mogą mieć trudne osobowości i ukryte plany, ale obiecujesz rozpocząć dzień eksploracji danych od razu, traktując każdą osobę z cierpliwością i słuchaniem do wszystkich z szacunkiem i wyjaśniania się w sposób zrozumiały dla innych członków zespołu.

Spotkanie z zespołem

Dzisiaj spotkasz się ze swoim zespołem: Virginia, źródło wiedzy biznesowej, oraz Matt, ekspert ds. Pozyskiwania danych i programowania. To czarujący ludzie z najlepszymi umiejętnościami i najczystszymi motywacjami. Virginia będzie łącznikiem z klientami i wyjaśni cele biznesowe Twojej organizacji. Wyjaśni problem biznesowy i jego wpływ na organizację. Potrafi wskazać czynniki, które mogą być ważne. Może też odpowiedzieć na większość Twoich pytań dotyczących funkcjonowania firmy lub pomóc Ci dotrzeć do kogoś, kto to potrafi. Matt bardzo dobrze zna dane, których będziesz używać. Przygotował dla Ciebie zbiory danych, pochodzące ze źródeł publicznych i dalej rozwijane za pomocą kilku własnych obliczeń. Ułatwia to pracę i oszczędza dużo czasu. Będzie osobą, na której możesz polegać, jeśli chodzi o informacje o źródłach danych, dokumentację oraz szczegółowe informacje o tym, jak i dlaczego dokonał restrukturyzacji danych. Virginia i Matt też na tobie polegają. Matt potrzebuje twoich danych wejściowych, aby zrozumieć, które dane są najbardziej przydatne do eksploracji danych i jak organizować dane do użytku. Chce, abyś wskazał wszelkie błędy (lub podejrzewane błędy) w danych, aby mógł zbadać i rozwiązać wszelkie problemy. Inni zależą od dostarczonych przez niego informacji - nie tylko od Ciebie - więc nie pozwól, aby błędy się przeciągały! Virginia potrzebuje twojego wkładu w zakresie rodzajów analiz, które możesz dostarczyć, jasnych informacji o twoich wynikach i dobrej dokumentacji twojej pracy.

Eksploracja z celem

Powiedzenie, że eksploratorzy danych eksplorują dane w poszukiwaniu cennych wzorców, może stworzyć mentalny obraz, który jest nieco magiczny lub tajemniczy. Zamierzasz zastąpić ten obraz takim, który jest znacznie bardziej praktyczny i przystępny. Eksploracja danych nie jest magiczna, a jej celem jest stopniowe eliminowanie tajemnic z Twojej firmy. Możesz zwiedzić centrum handlowe lub urocze miasteczko tylko po to, by się rozejrzeć, ale eksplorując dane, odkrywasz je w określonym celu. Pierwszą rzeczą, którą zrobisz w każdym projekcie eksploracji danych, będzie jasne zrozumienie tego celu. Podczas pracy z danymi często powracasz do swoich celów i zastanawiasz się, czy i w jaki sposób informacje, które znajdziesz w danych, je wspierają. Od czasu do czasu będziesz miał do czynienia z pokusą, pokusą poświęcenia czasu na badanie pewnych wzorców w danych, które nie są bezpośrednio związane z wyznaczonymi celami. Podobnie jak w przypadku innych pokus, możesz sobie pozwolić na odrobinę czasu, jeśli masz trochę czasu i zasobów do stracenia, ale Twoim głównym priorytetem zawsze musi być osiągnięcie celów biznesowych ustalonych na początku projektu.

Przedstaw prawdziwych ludzi w swoim zespole projektowym

Projekt opisany tu jest prawdziwy pod każdym względem. Dotyczy rzeczywistego problemu biznesowego, który ma wpływ na ludzi i firmy w prawdziwej społeczności. Dane są prawdziwe. A ludzie w twoim zespole, Virginia i Matt, też są prawdziwi. Virginia Carlson jest strategiem danych. Jest głównym badaczem zajmującym się integracją danych w Impact Planning Council (www.impactinc. Org / impact-planowanie-council), Milwaukee w stanie Wisconsin, organizacja zajmująca się poprawą życia członków społeczności i profesor nadzwyczajny na Uniwersytecie Wisconsin w Milwaukee. Jest ekspertem w zbieraniu i wykorzystywaniu danych do wspierania inicjatyw sektora społecznego. Kierowała znaczącymi organizacjami i projektami zajmującymi się badaniami gospodarczymi, a także jest współautorką Podręcznika konkursów aplikacji obywatelskich, przewodnika po planowaniu, organizowaniu i rozwiązywaniu problemów. Matt Schumwinger jest niezależnym analitykiem danych. Jest właścicielem Big Lake Data (http://biglakedata.com), firmy usługowej, która pomaga swoim klientom wizualizować, analizować i prezentować informacje ilościowe. Matt studiował ekonomię pracy i stosunki pracy na Cornell University i poświęcił większość swojej kariery na poprawę dobrobytu Amerykanów poprzez organizowanie pracowników o niskich płacach w całych Stanach Zjednoczonych. Virginia i Matt mają wspólne zainteresowania poprawą życia obywateli publicznych i wykorzystaniem danych do wspierania społeczności. W tym kontekście pracowali razem jako zespół, łącząc uzupełniające się talenty i doświadczenia, aby pracować nad wspólnymi celami. Twój projekt jest przedłużeniem prawdziwej pracy Virginii i Matta. Przykład opiera się na projektach, które wykonali w przeszłości, aby stworzyć coś zupełnie nowego. Jako członkowie Twojego zespołu zapewniają oni wiedzę w zakresie rozwoju społeczności i zarządzania danymi. Każdy z nich jest zdolny do eksploracji danych, ale mają do wykonania swoje własne zadania! Poza tym wiesz rzeczy, których nie wiedzą, i masz umiejętności, których nie mają. Chcą, abyś wniósł do zespołu swoją własną mieszankę wiedzy i doświadczenia oraz wzbogacił wiedzę wszystkich. Razem z Virginią i Mattem możesz dokonywać odkryć, które pomogą budować silniejsze społeczności.

Strukturyzacja czasu z odpowiednim procesem

Wielu potencjalnych poszukiwaczy danych pobrało i zainstalowało oprogramowanie, uruchomiło je i zastanawiało się: "Co teraz?" To ci się dzisiaj nie przydarzy. Dowiesz się, jak wykorzystać swój czas, ponieważ wykorzystasz podstawy, które górnicy danych z setek organizacji wykonali dla Ciebie, opracowując i publikując modelowy proces eksploracji danych. Międzybranżowy standardowy proces eksploracji danych (CRISP-DM), otwarty standard, zawiera wytyczne dotyczące organizacji i dokumentowania pracy. Jest to sześciofazowy proces, który zaczyna się od zdefiniowania celów biznesowych, a kończy na zintegrowaniu wyników z rutynową działalnością biznesową i przejrzeniu swojej pracy pod kątem kolejnych kroków i możliwości poprawy. Tam zobaczysz, że każda z sześciu faz wymaga kilku zdefiniowanych zadań i że każde zadanie ma jeden lub więcej elementów dostarczanych, którymi mogą być raporty, prezentacje, dane lub modele. W tym rozdziale nie zobaczysz wszystkich tych szczegółów, ale dotkniesz każdej z sześciu głównych faz procesu CRISP-DM.

Zrozumienie celów biznesowych

Virginia wyjaśnia najnowszy projekt zespołu zajmującego się eksploracją danych: pomoc lokalnej radzie ds. planowania. Jej misją jest promowanie dobrobytu gospodarczego poprzez zachęcanie do użytkowania gruntów, które czyni społeczność atrakcyjną dla przedsiębiorstw i mieszkańców. Kluczową częścią jej pracy jest zatrzymywanie i przyciąganie firm, które zatrudniają lokalnych mieszkańców i oferują dobre wynagrodzenie. Zadaniem Twojego zespołu jest dostarczanie nowych i istotnych informacji, opartych na danych i analizach, na podstawie których rada planistyczna może zdecydować, gdzie skoncentrować wysiłki, aby jak najlepiej wykorzystać swoje zasoby. Virginia i Matt byli już zaangażowani w projekty wspierające te cele. We wcześniejszych projektach opracowali analizy czynników, które mają wpływ na użytkowanie gruntów, oraz udostępnili informacje poprzez konsultacje i prezentacje, pisemne raporty i interaktywne mapy. Rada rozumie, że najlepsza okazja do wpłynięcia na użytkowanie określonej działki ma miejsce, gdy ziemia ma zamiar zmienić właściciela. Ale właściciele gruntów nie zamierzają po prostu wpaść i ogłosić swoich zamiarów sprzedaży. Wiele znaczących transakcji dotyczących nieruchomości jest zawieranych po cichu, więc rada może nie wiedzieć nic o tej okazji, dopóki nieruchomość nie zostanie sprzedana. Tak więc celem biznesowym rady jest zidentyfikowanie działek, które mają zmienić właściciela, i zrobienie tego na tyle wcześnie, aby wpłynąć na sposób użytkowania gruntu. W jaki sposób rada zdecyduje, czy uda jej się osiągnąć ten cel? Na tym etapie rada ma tylko nieformalne (i nie do końca spójne) sposoby przewidywania, które działki mają wkrótce zmienić właściciela. Podane kryteria sukcesu wymagają po prostu ustanowienia procesu przewidywania zmiany własności w spójny sposób. (Przyszłe projekty będą opierać się na tym celu i będą miały ilościowe kryteria sukcesu). Kiedy przedstawiany jest cel, zawsze omawiaj i dokumentuj kryteria sukcesu od samego początku. Chociaż możesz być odpowiedzialny tylko za wąską część pracy potrzebnej do osiągnięcia celu biznesowego, zrozumienie, w jaki sposób zostaną ocenione ostateczne wyniki, pomoże ci zrozumieć najlepsze sposoby przyczynienia się do sukcesu projektu. Te kryteria sukcesu mogą wydawać się proste, ale masz wątpliwości. Zadajesz takie pytania:

•  Czy rada spodziewa się, że tylko jeden model będzie działał dla wszystkich rodzajów nieruchomości? Przemysłowe, komercyjne, jednorodzinne, wielorodzinne itd. - nierealistyczne jest myślenie, że znajdziesz jedno wielkie równanie, które rozwiąże je wszystkie.
•  Ile istnieje typów nieruchomości? Możesz mieć dziesiątki.
•  Czy rada jest w równym stopniu zainteresowana wszystkimi nieruchomościami? Można by pomyśleć, że najważniejsze byłyby duże, przemysłowe paczki.
•  Jakie rodzaje nieruchomości są najważniejsze dla rady? Możesz chcieć naciskać na modelowanie tylko jednej lub dwóch ważnych kategorii w pierwszej rundzie.

Zawsze pytaj o ostatnie wpadki. Niewypowiedziane cele często obejmują unikanie powtarzania czegoś, co po prostu poszło nie tak. Zadawanie pytań pomaga oczywiście uzyskać więcej informacji, ale pytania mają większe znaczenie. Pomagają innym członkom zespołu (w tym kierownictwu, jeśli masz okazję się z nimi spotkać) uświadomić sobie, czego brakuje, co będzie wyzwaniem i co jest o wiele bardziej skomplikowane, niż myśleli! Zadając dociekliwe pytania w fazie zrozumienia biznesu, pomagasz każdemu wyjaśnić myślenie, zdefiniować rozsądne cele i ustalić realistyczne oczekiwania. Po krótkiej dyskusji uzgodniono (i udokumentowano!), że celem biznesowym tego projektu będzie wykazanie wykonalności modelowania w celu przewidywania zmiany własności gruntów - węższy i mniej ambitny cel niż pierwotnie sugerowany. Nie oczekuje się od Ciebie stworzenia megamodelu (nie, to nie jest termin techniczny) obejmującego wszystkie rodzaje nieruchomości. Jeśli rada uzna, że choćby jeden czynnik ma wartość predykcyjną dla transferów własności, będzie to zadowalające dla pierwszej rundy. W pierwszym badaniu nie zostaną określone kryteria ilościowe dotyczące wydajności modelu. Celem jest po prostu wykazanie, że istnieje potencjał do opracowania użytecznego modelu do przewidywania zmian własności nieruchomości przy użyciu dostępnych danych. Cele biznesowe są określane przez klienta (zewnętrznego lub wewnętrznego), a nie eksploratora danych. Jeśli Ty i Twój zespół macie wątpliwości co do konkretnego celu, nie zmieniajcie go samodzielnie. Klienci tego nie zaakceptują! Zamiast tego rozpocznij dyskusję z klientem, wyjaśnij swoje obawy i uzgodnij rozsądne cele biznesowe projektu. Na podstawie celów biznesowych definiujesz cele eksploracji danych. Ponieważ celem biznesowym jest wykazanie wykonalności modelowania w celu przewidywania zmian własności gruntów, należy wyznaczyć cel eksploracji danych polegający na stworzeniu podstawowego modelu predykcyjnego zmiany własności nieruchomości. Ponieważ nie masz konkretnych liczb dotyczących wydajności obecnego, nieformalnego podejścia. Aby przewidzieć zmiany własności, będziesz po prostu dążyć do wykazania, że co najmniej jedna zmienna ma wymierną wartość do prognozowania. (Podobnie jak w przypadku celów biznesowych, przyszłe projekty będą opierać się na tym, a na tym etapie ustalisz bardziej szczegółowe ilościowe kryteria sukcesu). Ukończysz tę fazę procesu eksploracji danych, opisując swoje działania krok po kroku plan zakończenia pracy (w tym harmonogram i szczegóły zasobów wymaganych na każdym etapie) oraz wstępną ocenę odpowiednich narzędzi i technik dla projektu.

Zrozumienie Twoich danych

Na etapie zrozumienia danych najpierw zbierzesz i szeroko opiszesz swoje dane. Nie musisz zaczynać od zera, aby zbierać dane, ponieważ Matt zebrał już kilka zbiorów danych, których możesz używać. Zostały zaczerpnięte z danych używanych we wcześniejszych projektach i wyprowadził dodatkowe pola, których będziesz potrzebować. Następnie przeanalizujesz dane bardziej szczegółowo, eksplorując dane po jednej zmiennej (polu) na raz, sprawdzając zgodność z oczekiwaniami i wszelkie oczywiste oznaki problemów z jakością danych. Zaczynasz przeglądać dane, robiąc notatki do raportu w trakcie pracy.

Opisywanie danych

Dane znajdują się w kilku plikach tekstowych, każdy w formacie wartości rozdzielanych przecinkami (.csv). Pliki są dość duże, od 50 do 100 MB, ale nie są zbyt duże, aby można je było obsługiwać za pomocą dostępnego komputera i oprogramowania. Zapisujesz nazwę i rozmiar każdego pliku. Twoim pierwszym problemem jest zidentyfikowanie zmiennych w każdym pliku i potwierdzenie, że masz odpowiednią dokumentację dla każdego z nich. Kilka plików zawiera historyczne rejestry własności publicznej; obszerny dokument definiuje te zmienne. Otrzymałeś również uwagi wyjaśniające, w jaki sposób powstały zmienne pochodne. Przeglądasz każdą zmienną w danych, porównując nazwy zmiennych z informacjami w dokumentacji. Odnotowujesz ustalenia dotyczące danych i dokumentacji, w tym następujące:

•  Większość pól jest zgodna z posiadaną dokumentacją.
•  Niektóre pola w plikach danych rekordów właściwości nie są wyjaśnione w dokumentacji.
•  Niektóre pola opisane w dokumentacji rekordów właściwości nie pojawiają się w danych.
•  Jeden z plików danych rekordów właściwości zawiera o wiele więcej pól niż inne, a te pola nie są wyjaśnione w dokumentacji.

Piszesz szczegółowe notatki o każdym pliku i każdej zmiennej. Wykorzystując swoje notatki jako punkt odniesienia, szukasz informacji, które pozwolą rozwiązać te rozbieżności. Znajdziesz to

•  Kilka pól w danych ze źródeł publicznych po prostu nie pasuje do dostarczonej dokumentacji (dane publiczne nie zawsze są idealnymi danymi).
•  Dostępne są dodatkowe uwagi wyjaśniające, w jaki sposób utworzono niektóre z pól pochodnych.
•  Niektóre z nieudokumentowanych danych uzyskano poprzez skrobanie stron internetowych (przy użyciu specjalistycznego oprogramowania do automatycznego wyodrębniania informacji ze stron internetowych) i nie można znaleźć dla nich żadnej niezawodnej dokumentacji.

Aktualizujesz swoje notatki o danych, poprawiając je o dodatkową dokumentację. Zwracasz uwagę, które zmienne są nadal nieudokumentowane. Chociaż wydaje się, że niektóre z tych zmiennych mogą mieć wartość predykcyjną dla modelowania zmian własności nieruchomości (takich jak przejęcia nieruchomości), istnieje szereg wad stosowania ich do modelowania predykcyjnego, w tym:

•  Niektóre dane zostały zebrane przez skrobanie stron internetowych. Nie masz pewności, że będziesz w stanie uzyskać te dane w przyszłości.
•  Nie masz szczegółowych informacji na temat procesu skrobania, więc nie możesz mieć pewności, że pobierane dane zostały zdefiniowane spójnie.
•  Będziesz miał mnóstwo czasu na wyjaśnienie znaczenia danych bez dokumentacji.

Decydujesz więc, że przy pierwszej próbie opracowania modelu predykcyjnego zmiany własności nieruchomości użyjesz tylko tych pól, które zostały odpowiednio udokumentowane. W przyszłym projekcie możesz poszukać alternatywnych źródeł dla niektórych innych dziedzin.

Eksploracja danych

Nadszedł czas, aby krótko przeanalizować dane dla każdej zmiennej w każdym pliku. Musisz sprawdzić podstawowe informacje, takie jak czy dane są ciągami czy liczbami, czy zakres wartości jest odpowiedni, a rozkład wartości wygląda na rozsądny. Zanotujesz wszelkie rozbieżności w dokumentacji i własne uzasadnione oczekiwania. Procedury, których będziesz używać do generowania informacji diagnostycznych o danych, różnią się w zależności od rodzaju posiadanych danych, dostępnych narzędzi i sposobu, w jaki lubisz pracować. Możesz używać wysoce zautomatyzowanych funkcji lub możesz pracować ze zmiennymi w małych grupach lub pojedynczo. Prawie zawsze będziesz mieć wybór sposobów, aby to zrobić. Dla każdego pola przygotowujesz krótkie podsumowanie, podając nazwę i opis, liczbę brakujących obserwacji oraz zakres wartości (niski i wysoki). Możesz również dołączyć dodatkowe informacje, takie jak wykres rozkładu, średnia (średnia) i najczęściej występująca (mod) wartość zmiennej. W tym momencie nie będziesz próbował powiązać jednej zmiennej z inną. Zaczynasz od korzystania z oprogramowania, które generuje podstawowy raport dla każdej zmiennej w danych, w tym informacje, takie jak zakres wartości, średnia dla zmiennych ciągłych, najczęstsza wartość dla zmiennych kategorialnych itd.



Ten raport jest punktem wyjścia do zrozumienia danych. Używasz go do określenia, jakie dane posiadasz i czy są one zgodne z tym, czego oczekujesz od dokumentacji i twoich współpracowników. Dodajesz do tego za pomocą wykresów lub innych prostych metod dodawania szczegółów do zrozumienia każdej zmiennej. Przeglądając każdą zmienną, opisujesz ją i odnotowujesz wszelkie obawy oraz co należy zrobić, aby je rozwiązać. W swoich podsumowaniach stwierdzasz, czy zmienna wydaje się gotowa do użycia w modelowaniu, wymaga dalszego przygotowania, czy jest w tak złym stanie, że nie można jej użyć. Twoje indywidualne podsumowania zmiennych wyglądają jak przykłady pokazane w tabeli

Nazwa zmiennej: opis

BI_VIOL:
Opis: nieznany (brak dokumentacji dla tej zmiennej)
Typ zmiennej: ciąg
Zakres: XXXX do XXXX
Liczba brakujących spraw: 0
Ocena: Niedopuszczalne do modelowania. Wszystkie sprawy mają tą samą wartość. Przyczyna nieznana.
Kolejne kroki: nie będą używane w tym projekcie.

TAXKEY:
Opis: Dziesięciocyfrowy numer kodu identyfikacyjnego nieruchomości
Typ zmiennej: Identyfikator (ciąg)
Zakres: 9999000-7369999110
Liczba brakujących spraw: 30
Ocena: brakuje niewielkiej liczby przypadków. W niektórych przypadkach mają mniej niż dziesięć cyfr, prawdopodobnie z powodu obcięcia wiodących zer ponieważ format zmiennej był odczytywany jako liczba całkowita, a nie jako łańcuch.
Kolejne kroki: Należy jak najlepiej wyczyścić tę zmienną, ponieważ jest to unikalny identyfikator dla każdej usługi. Zmień typ zmiennej z liczby całkowitej na ciąg znaków. Ponownie oceń.

C_A_CLASS:
Opis: Kod zajęć egzaminacyjnych - określa wykorzystanie właściwości.
Szczegółowe objaśnienia kodów w dodatku A.
Typ zmiennej: Nominalna
Zakres: 1-9
Liczba brakujących spraw: 0
Ocena: Dystrybucja wygląda odpowiednio z klasą 1 (mieszkalna), która jest najczęściej występującą kategorią. Brak widocznych oznak problemów z jakością.
Kolejne kroki: To pole jest gotowe do użycia w modelowaniu.

DIV_ORG:
Opis: numer kontrolny używany w biurze osoby oceniającej
Typ zmiennej: ciąg
Zakres: 0-999
Liczba brakujących spraw: 0
Ocena: służy do administrowania w ramach oceniającego i nie wydaje się mieć żadnej wartości do celów modelowania.
Kolejne kroki: brak.

Niektóre z tych zmiennych nie będą przydatne w modelowaniu. Na przykład BI_VIOL brzmi tak, jakby mógł reprezentować liczbę lub rodzaj naruszeń inspekcji budynku zgłoszonych dla nieruchomości. Być może był kiedyś używany do tego celu, ale w tym zbiorze danych każdy przypadek ma tę samą wartość "XXXX". Pole nie jest wymienione w żadnej posiadanej dokumentacji. Naruszenia dotyczące budynków mogą być cennymi informacjami przy prognozowaniu przeniesień własności, ale być może będziesz musiał poczekać na przyszły projekt, gdy będziesz mieć czas na wyśledzenie innego źródła tych informacji. Na szczęście niektóre pola są w znacznie lepszym stanie. Na przykład C_A_CLASS, kod klasy oceny, identyfikuje wykorzystanie nieruchomości w głównych klasach, takich jak mieszkalne, produkcyjne i komercyjne. Może to być bardzo ważne przy modelowaniu, ponieważ oczekujesz różnych wzorców zachowań dla różnych zastosowań właściwości. Nie brakuje przypadków dla C_A_CLASS, zakres wartości jest zgodny z dokumentacją, a wykres słupkowy



pokazuje, że rozkład użytkowania nieruchomości wydaje się rozsądny, a klasa mieszkalna występuje znacznie częściej niż jakiekolwiek inne wykorzystanie . Zauważasz, że wiele pól, które początkowo mogą wydawać się wartościowe dla modelowania, nie jest w dobrym stanie. Wiele z nich jest nieudokumentowanych, niektóre nie są utrzymywane przez źródło publiczne (a dokumentacja tak mówi), a inne nie różnią się lub nie wydają się zgodne z Twoimi oczekiwaniami. Masz wątpliwości, czy pozostałe dane wystarczą do zbudowania użytecznego modelu

Dane dotyczące czyszczenia

Po zbadaniu danych okazało się, że niektóre zmienne, które wydają się mieć wartość dla modelowania, zawierają drobne błędy lub inne problemy, które chcesz najpierw naprawić. Dobrym przykładem jest pole TAXKEY. Jest to numer kodu, który identyfikuje każdą indywidualną działkę nieruchomości. Ściśle mówiąc, identyfikator nie jest zmienną modelującą, ale model nie będzie miał żadnej wartości, chyba że dopasujesz swoje przewidywania do określonych właściwości. Zauważyłeś dwa problemy w danych:

•  W kilku przypadkach (ułamek procenta całości) brakuje kodów identyfikacyjnych.
•  Wiele spraw ma mniej niż dziesięć cyfr, które zgodnie z dokumentacją powinny.

Poświęć chwilę, aby zastanowić się nad brakującymi przypadkami (30 z ponad 160 000). Teoretycznie instytucja publiczna, która udostępniła dane, może wypełnić te luki. Ale wyobrażasz sobie dzwonienie do biura rzeczoznawcy majątkowego i wyjaśnianie problemu, być może wielokrotnie, szukanie kogoś, kto go rozumie i jest chętny do pomocy. Kiedy docierasz do tej osoby, nie masz pewności, że chęć pomocy przełoży się na sukces w skorygowaniu błędów w danych. Myślisz, że w tym czasie możesz zrobić bardziej produktywne rzeczy i zdecydować się żyć bez tych 30 przypadków. Następnie niektóre przypadki mają mniej niż dziesięć cyfr w swoich kodach właściwości. Ten problem występuje często, ale podejrzewasz, że można go łatwo naprawić. Ponieważ kod jest numeryczny, oprogramowanie zinterpretowało go jako liczbę całkowitą, ale ciąg byłby bardziej odpowiedni. Zmiana typu pola na ciąg uniemożliwiłaby programowi obcinanie jakichkolwiek wiodących zer w kodach właściwości. Więc ponownie importujesz dane do oprogramowania, tym razem upewniając się, że pole jest nominalne (jak nazwa). Mimo to można znaleźć wiele przypadków, w których wartości mają mniej niż dziesięć cyfr. Twoja łatwa poprawka niczego nie naprawiła. Zaglądasz do danych w edytorze tekstu (ponieważ są to dane w formacie tekstowym, możesz użyć edytora tekstu lub arkusza kalkulacyjnego, aby je wyświetlić) i potwierdzić, że problem nie ma nic wspólnego z przycinaniem zer wiodących. Niektóre wartości są po prostu krótsze niż dziesięć cyfr, których oczekiwałeś w dokumentacji. Zapisujesz to w swoim raporcie i decydujesz (na dziś), że zaufasz danym, a nie dokumentacji. Podobny proces przechodzisz dla każdego pola, które wydaje Ci się potencjalnie przydatne, ale nie jest w idealnym stanie. Podczas pracy dokumentujesz swoje obserwacje i wszelkie wprowadzane zmiany. Dla każdej dziedziny oceniasz, czy jest wystarczająco dobra do wykorzystania w modelowaniu. (Nie decydujesz, czy zmienna znajdzie się w ostatecznym modelu, czy też dobrze sprawdzi się jako predyktor, tylko czy jest wystarczającej jakości do przetestowania). Na koniec łączysz swoje notatki z tych obserwacji i działań w raporcie dotyczącym jakości danych.

Jak eksploratorzy danych spędzają czas

Kucharze serwujący pyszne obiady spędzają dużo czasu na siekaniu warzyw. Biegacze, którzy wygrywają wyścigi, spędzają dużo czasu na rozciąganiu i treningu. Eksploratorzy danych, którzy opracowują cenne modele predykcyjne, spędzają dużo czasu na przygotowywaniu danych. Ludzie, którzy nie próbowali jeszcze eksploracji danych, czasami myślą, że odkrywanie wspaniałych spostrzeżeń i opracowywanie potężnych modeli to niekończąca się ekscytująca przejażdżka. Tak nie jest. Większość twojego czasu idzie na robienie wszystkich rzeczy, które trzeba zrobić, zanim zaczniesz budować modele. Przygotowanie danych nie jest najbardziej efektownym aspektem pracy. To żmudna praca i masz dużo do zrobienia, do tego stopnia, że eksploratorzy danych spędzają więcej czasu na przygotowywaniu danych niż na czymkolwiek innym. Jednak przygotowanie danych jest warte wysiłku, ponieważ umożliwia znaczące ich odkrycie.

Przygotowywanie danych

Po zebraniu danych i przejrzeniu pól jeden po drugim, aby zapoznać się z danymi i sprawdzić, czy nie występują problemy z jakością, przechodzisz dalej i przygotowujesz dane do modelowania. Na tym etapie pracy wykonujesz niezbędne zadania, aby przekształcić dane z ich pierwotnej postaci do formy wymaganej do modelowania, np.

•  Łączenie zbiorów danych
•  Określenie roli pól
•  Pobieranie próbek danych
•  Dzielenie próbki na podzbiory w celu budowania i testowania modeli

Wiele projektów wymaga wyprowadzenia nowych pól na podstawie tych, które są już w danych. Na przykład zmienna wskaźnikowa, która będzie potrzebna do zidentyfikowania właściwości, które zmieniły własność, nie istnieje w danych publicznych. Należy to obliczyć na podstawie innych pól. Na szczęście dla ciebie, twój kolega Matt już utworzył tę zmienną i zapisał ci krok w tym projekcie. Ale będziesz musiał wyprowadzić dla siebie inne nowe pola.

Pierwsze kroki z danymi nieruchomości

Na etapie zrozumienia danych zidentyfikowałeś szereg zmiennych, których nie będziesz używać do modelowania. Wykluczyłeś każdy z nich z jednego z następujących powodów:

•  Nie ma sensu jako predyktor: obejmuje unikalne pola, takie jak adres lub nazwy, lub coś, co Twoim zdaniem nie ma związku ze zmianą własności
•  Jakość danych jest słaba: wiele brakujących przypadków lub nieprawidłowe wartości
•  Nie zmienia się: wszystkie przypadki mają tę samą wartość (niekoniecznie problem z jakością danych)

Pracujesz ze specjalistycznym oprogramowaniem do eksploracji danych. Chociaż możesz wykonywać te same operacje za pomocą innych rodzajów narzędzi, oprogramowanie do eksploracji danych zostało zaprojektowane tak, aby ułatwić przeglądanie etapów procesu i szybką pracę, łącząc ze sobą sekwencję operacji reprezentowaną przez małe ikony. Każda ikona to narzędzie z określoną funkcją oraz własnymi opcjami i ustawieniami. Nazywa się to wizualnym interfejsem programowania. Plik danych właściwości jest dość duży, więc na początek zaimportujesz plik danych właściwości, usuniesz zmienne, których nie możesz użyć, a resztę zapiszesz w nowym (nieco mniejszym) pliku. Najpierw wybierasz narzędzie do odczytu danych i umieszczasz je w głównym obszarze roboczym oprogramowania do eksploracji danych, jak pokazano na rysunku



Kreator (specjalny interfejs użytkownika, który upraszcza złożone zadania) pomaga poprawnie zaimportować dane. Jeden krok kreatora pokazano.



Po zaimportowaniu danych możesz je wyświetlić i sprawdzić, czy wyglądają prawidłowo.



Dodajesz kolejne narzędzie do obszaru roboczego, aby wybrać zmienne, które mają być przechowywane w danych.



Konfiguracja nie jest skomplikowana. Narzędzie wyświetla listę zmiennych w danych, a Ty wybierasz te, które chcesz zachować. Rysunek przedstawia konfigurację. Lista po prawej stronie zawiera wszystkie zmienne wybrane do zachowania



Jeszcze jedno narzędzie



pozwala zapisać wybrane zmienne w nowym pliku. Oprogramowanie do eksploracji danych użyte w tym przykładzie zawiera wiele z tych specjalistycznych narzędzi. Na przykład ma inne narzędzie dla każdego z typów plików, które może odczytać, i dla każdego typu, który może zapisać. Nie każdy produkt ma takie podejście; inni mogą mieć jedno narzędzie, które może zapisać wybór kilku typów plików.

Przygotowanie wskaźnika zmiany właścicielskiej

Matt ułatwił ci pracę, wyprowadzając zmienną wskazującą, które właściwości zmieniły właściciela, a które nie. Będzie to zmienna zależna lub docelowa do modelowania. Nadal będziesz musiał wykonać pewne przygotowania z tą częścią danych, w szczególności wybierając odpowiednie ustawienia oprogramowania do eksploracji danych, aby zidentyfikować zmienną docelową. Tworzysz sekwencję podobną do tej, której użyłeś w poprzedniej sekcji dla danych właściwości. Zaimportujesz dane, wybierzesz zmienną do zachowania i zapiszesz ją w nowym pliku. Ale na rysunku 2-9 widać, że tym razem istnieje inne narzędzie między importem danych a ich selekcją.



Dzięki niemu wskazujesz, która zmienna jest celem, ustawiając właściwości narzędzia, jak pokazano na rysunku.



Łączenie zbiorów danych

Masz dane właściwości w jednym pliku, a dane o usługach, które zmieniły właściciela, w innym. Musisz połączyć te dwa elementy. Proces pokazano na rysunku



Wczytujesz się w każdym z plików, które utworzyłeś wcześniej. Dla każdego podajesz nazwę zmiennej identyfikującej właściwość, ustawiając właściwości odpowiedniego narzędzia

.

Zmienna identyfikacyjna kieruje połączeniem dwóch plików, dopasowując ogólne dane dla każdej właściwości do wyników: Czy właściwość zmieniła właściciela?

Wyprowadzanie nowych zmiennych

Oprogramowanie do eksploracji danych wykonuje za Ciebie dużo pracy, ale nic nie zastąpi Twojej wiedzy biznesowej. Rozumiesz, że jedna zmienna reprezentuje cenę zapłaconą za nieruchomość, inna inwestycje mające na celu ulepszenie nieruchomości, a trzecia szacowaną wartość - ale oprogramowanie tego nie robi. Oprogramowanie widzi tylko liczby, kategorie i tekst, a nie znaczenie. Rozumiesz, że poza wszystkimi innymi interesujesz się związkami między tymi trzema zmiennymi. Oprogramowanie nie. Tego rodzaju wiedzę biznesową integrujesz ze swoją analizą, wykorzystując ją do uzyskiwania odpowiednich nowych zmiennych do modelowania.

Wybór punktu wyjścia

Virginia i Matt powiedzieli wam o wielu czynnikach, które mogą być dobrymi wskaźnikami zbliżających się zmian własności nieruchomości. Sugestie te są wynikiem badań i wywiadów, które przeprowadzili we wcześniejszych projektach. Niektóre z tych czynników to

•  Właściciele nie mieszkają w okolicy.
•  Właściciel jest samorządem terytorialnym.
•  Podatki nie są opłacone.
•  Nieruchomość jest pusta.
•  Podział na strefy i faktyczne wykorzystanie nie są dopasowane.
•  Wartość nie jest zgodna z oceną.
•  Ulepszenia są niewielkie w stosunku do wartości nieruchomości.
•  Naruszenia przepisów budowlanych są jawne.
•  Wiele przypadków naruszenia przepisów budowlanych zostało zamkniętych.
•  Wiele zgłoszeń serwisowych zostało zamkniętych.
•  Nieruchomość jest wystawiana na wynajem lub sprzedaż.
•  Nieruchomość jest przejęta.

Chociaż masz dobre powody, by sądzić, że każdy z tych czynników jest ważny, nikt jeszcze nie potwierdził ich wartości, budując i testując model predykcyjny. Chciałbyś zbadać każdy z nich - a także inne. Ale nie masz odpowiednich danych dla niektórych, a inne będą wymagały wysiłku w celu przygotowania danych. Celem tego projektu nie jest opracowanie możliwie największego modelu, ale wykorzystanie danych do wykazania, że co najmniej jedna zmienna ma wartość do przewidywania zmian własności nieruchomości. Chodzi o to, aby szybko dostarczyć konkretnych dowodów na to, że modelowanie predykcyjne jest wykonalne. Aby zwiększyć szybkość, najpierw wybierasz kilka pozycji z tej listy, aby spróbować. (Jeśli nie działają, możesz wrócić i wypróbować inne). W pierwszej kolejności wybierasz nieruchomości z właścicielami, którzy nie mieszkają w okolicy, i nieruchomości z niezapłaconymi podatkami. Twoje powody są proste: masz odpowiednie dane dla tych zmiennych, a wymagane przygotowanie jest dość proste.

Wykonywanie obliczeń

Ta część procesu jest bardziej złożona niż kroki, które zostały podjęte do tej pory.



Utworzysz dwie nowe zmienne, wybierzesz podzbiór obserwacji do modelowania i usuniesz wszystkie obserwacje, które nie mają wystarczających danych do wykorzystania w procesie modelowania. Przed utworzeniem jakichkolwiek nowych zmiennych należy trochę uporządkować. Chociaż w danych znajduje się wiele zmiennych, zdecydowałeś się użyć tylko kilku zmiennych w swoim pierwszym modelu, więc wybierasz tylko te z danych.



Narzędzia do modelowania, a nawet niektóre narzędzia do przygotowywania danych, nie działają dobrze i mogą w ogóle nie działać, jeśli w danych brakuje wartości, więc odfiltrowujesz przypadki z brakami danych. Odpowiednią konfigurację narzędzia filtrującego przedstawia Rysunek.



Aby zidentyfikować właścicieli nieruchomości, którzy nie mieszkają w swoich nieruchomościach lub są bardzo blisko ich nieruchomości, należy porównać domowy kod pocztowy właściciela z kodem pocztowym nieruchomości. Masz dane dla każdego z nich, ale istnieją pewne wyzwania związane z ich porównaniem. Niektóre kody pocztowe są zapisywane jako pięć cyfr; inne są w dłuższych formatach. Dlatego przed utworzeniem zmiennej wskaźnikowej dla nieruchomości, których właściciele nie są lokalni, musisz ustawić wszystkie kody pocztowe w spójnym formacie. Ustawiasz zmienną cut tak, aby zachować pierwsze pięć znaków z dwóch zmiennych kodu pocztowego.





W danych nieruchomości istnieje już zmienna wskazująca, które nieruchomości mają niezapłacone podatki, ale nie jest w dobrej formie do modelowania. Ta zmienna ma wartość 1, jeśli podatki są niezapłacone, ale "NA" w przeciwnym razie. Narzędzia do modelowania tego nie lubią! Utworzysz więc ładną, nową zmienną o wartości 1, jeśli podatki są niezapłacone, i 0 w innym przypadku. Konfiguracja tworzenia obu nowych zmiennych wskaźnikowych jest pokazana na Rysunku.



Masz jeszcze kilka kroków, zanim przejdziesz do fazy modelowania. Teraz, gdy masz już nowe zmienne, nie będziesz potrzebować starych, więc możesz użyć narzędzia do wybierania zmiennych



aby zachować to, czego potrzebujesz. Użyjesz narzędzia do próbkowania danych, aby zrównoważyć dane i wybrać próbkę z mniej więcej równymi proporcjami właściwości, które zmieniły właściciela i nie. Rysunek przedstawia konfigurację równoważenia zbioru danych.



Żądasz około 4000 przypadków w każdej grupie, ale rozumiesz, że rzeczywiste rozmiary próbek mogą się nieco różnić. Wow, co za dużo kroków! Przygotowanie danych do tego przykładu jest prostsze niż w większości. Dlatego trzecia ustawa o eksploracji danych stwierdza, że przygotowanie danych to ponad połowa każdego procesu eksploracji danych.

Modelowanie danych

Modele predykcyjne to nic innego jak równania, które pomagają w dokonywaniu przemyślanych przypuszczeń w metodyczny, spójny sposób, w oparciu o dane. Ludzie przez cały czas formułują nieformalne prognozy, w domu i w pracy:

•  Kupowanie artykułów spożywczych: szacowanie zużycia na podstawie ostatnich doświadczeń i przewidywanych zmian, takich jak goście w domu lub nadchodząca podróż
•  Budżetowanie: planowanie potrzeb finansowych na podstawie informacji, takich jak przeszłe wydatki, znane nadchodzące wydarzenia i szacunkowe zapotrzebowanie na fundusze awaryjne
•  Prognozowanie sprzedaży: przewidywanie przyszłej sprzedaży na podstawie wyników historycznych, przewidywanych transakcji, nastawienia do gospodarki i być może tylko odrobiny pobożnych życzeń

Ponieważ te nieformalne prognozy są tworzone w niespójny, nieudokumentowany i subiektywny sposób, trudno je poprawić. Jako eksplorator danych tworzysz niezawodne modele predykcyjne oparte na faktach i dokumentujesz proces, aby móc aktualizować i ulepszać modele w przyszłości.

Korzystanie z wyważonych danych

Na etapie przygotowania danych pobrałeś specjalny rodzaj próbki z danych nieruchomości. Próba była zbilansowana, to znaczy obejmowała z grubsza równą liczbę przypadków dla nieruchomości, które zmieniły właściciela w określonym czasie, i dla nieruchomości, które się nie zmieniły. Teraz, gdy jesteś już znanym eksploratorem danych, robisz to z przyzwyczajenia. Równoważenie danych często wydaje się dziwne lub niewłaściwe nowicjuszom w eksploracji danych. Nie jest oczywiste, dlaczego kopacze danych mieliby używać danych reprezentujących równe proporcje zdarzeń, które nie występują z taką samą częstotliwością w prawdziwym życiu. Na przykład w danym roku tylko niewielka część nieruchomości zmienia właściciela. Po co nadawać temu wydarzeniu reprezentację równą znacznie częstszemu przypadkowi, w którym nieruchomość pozostaje w tych samych rękach? Dzieje się tak, ponieważ celem modelu jest rozróżnienie tych dwóch zdarzeń na podstawie wzorców w danych. Aby skonstruować model, który może rozróżniać te wzorce, potrzebujesz przykładów każdego z nich i nadając każdemu typowi wzorca równe znaczenie w modelowaniu, nadając mu jednakową częstotliwość w danych.

Dzielenie danych

Niektóre techniki uczenia maszynowego, które są szeroko stosowane w eksploracji danych, takie jak drzewa decyzyjne i sieci neuronowe, wymagają jeszcze jednego przygotowania danych przed skonstruowaniem modelu. (Przygotowanie danych trwa i trwa, prawda?) Eksploratorzy danych nie zawsze mogą wykorzystać teorię, aby znaleźć jeden najlepszy model z danych, jak robią to klasyczni statystycy. Dlatego eksploratorzy danych oceniają modele, testując, testując i testując. Część testów jest ukryta w procesie dopasowywania modelu, automatyczna i (prawie) niezauważalna podczas pracy. Niektóre testy są przeprowadzane w terenie poprzez wdrażanie na małą lub pełną skalę. Część z nich jest wykonywana przez oddzielenie części danych (nazywanych danymi testowymi lub wstrzymanymi) przed modelowaniem i użycie modelu do przewidywania wyników dla tych danych, aby można było porównać te przewidywania z tym, co faktycznie się wydarzyło. Twój proces pracy związany z dzieleniem danych, budowaniem modelu i rozpoczęciem oceny jest pokazany na rysunku.



Aby podzielić dane, użyj specjalnego narzędzia do pobierania próbek i określ dwie rzeczy: metodę próbkowania



oraz proporcje danych, które mają być użyte do uczenia i testowania modelu



Określasz próbkowanie warstwowe, które zachowuje równowagę proporcji właściwości, które zmieniły właściciela lub nie zmieniły właściciela w próbkach uczących i testowych. Decydujesz się użyć 70% danych do trenowania i 30% do testów.

Budowanie modelu

W porównaniu z całą pracą, którą zainwestowałeś w przygotowanie danych, utworzenie pierwszego modelu dla tych danych nie wymaga wiele wysiłku. Do tej pory masz tylko dwie zmienne predykcyjne gotowe do wypróbowania w modelu. Jedna wskazuje, czy właściciel nieruchomości jest lokalny (adres właściciela ma ten sam kod pocztowy co nieruchomość), czy nie. Drugi wskazuje, czy istnieją niezapłacone podatki od nieruchomości. Obie są zmiennymi kategorialnymi, co zawęża wybór technik modelowania. Wybierasz model automatycznego detektora interakcji chi-kwadrat (CHAID), typ modelu drzewa decyzyjnego, na pierwszą próbę, ponieważ dobrze nadaje się do pracy ze zmiennymi kategorialnymi. Jest łatwy w użyciu. Po prostu dodajesz narzędzie do procesu i przepuszczasz dane, aby zbudować model, nawet bez zmiany jakichkolwiek parametrów. Później możesz zmienić ustawienia, ale nie jest to konieczne przy pierwszej próbie.



Przed uruchomieniem modelu łączysz dwa narzędzia z wcześniej podzielonymi danymi. Narzędzie CHAID wykorzysta 70 procent danych, które umieściłeś na partycji szkoleniowej, a 30% danych, które odłożysz na testy, połączy się z innym narzędziem. To narzędzie zastosuje model CHAID do danych testowych. Na koniec dodajesz ostatni element do swojego procesu. Wykres pomoże Ci zwizualizować wyniki testu modelu. Narzędzie wykresów wymaga niewielkiej konfiguracji . Określasz kategorię, której przewidywanie najbardziej interesuje Cię. W tym przypadku jest to kategoria "Tak".



Ocena wyników

Po utworzeniu modelu nadszedł czas, aby przyjrzeć się modelowi, zobaczyć, jak działa, i wybrać kolejne kroki.

Badanie drzewa decyzyjnego

Podczas pierwszej próby modelowania wypróbowałeś tylko dwie predykcyjne zmienne, więc nie spodziewasz się skomplikowanych wyników. Najważniejsze pytanie brzmi, czy okaże się, że nawet jedna z tych zmiennych ma wartość predykcyjną. Oprogramowanie do eksploracji danych wyświetla model CHAID jako diagram drzewa decyzyjnego w interaktywnej przeglądarce wyników



Na początku wyświetlana jest tylko pierwsza gałąź. Narzędzia po lewej stronie przeglądarki umożliwiają rozwijanie drzewa, powiększanie obszarów zainteresowania i wprowadzanie innych zmian w sposobie wyświetlania drzewa. Masz również alternatywę obejrzenia modelu w inny sposób: napisany prostym tekstem



Drzewo



pokazuje, że zmienna lokalna właściciela jest najważniejszym predyktorem. Dane rozgałęziają się na dwie grupy. Lokalni właściciele (ntlocal = 0) są wskaźnikami dla kategorii "Nie"; większość zachowała swoją własność. Właściciele nielokalni (ntlocal = 1) są wskaźnikami dla kategorii "Tak"; byli bardziej skłonni do sprzedaży. W tym przykładzie większość nieruchomości, których właściciele nie są lokalni, zmieniła właściciela; widać to na małym wykresie słupkowym na gałęzi drzewa. (Ale różnice nie muszą być aż tak dramatyczne, aby utworzyć gałąź w drzewie decyzyjnym. Znacznie bardziej subtelne różnice można wykryć, jeśli w danych istnieje wystarczająco silny wzorzec). Używasz wskaźnika i klikasz gałęzie drzew. Nie rozszerzają się. Lokalna zmienna właściciela jest jedyną zmienną w drzewie. Rzut oka na opis modelu



pokazuje to samo w inny sposób. Dlaczego drugi predyktor, niezapłacona zmienna podatkowa, nie pojawił się w modelu? Być może naprawdę nie jest to dobry wskaźnik zmiany własności nieruchomości. Być może ma to jakąś wartość, ale wybrany typ modelu lub użyte ustawienia (wszystkie pozostawiono z wartościami domyślnymi) nie były odpowiednie do wykrywania związku między niezapłaconymi podatkami a zmianami własności nieruchomości. To wszystko, co na razie wiesz.

Korzystanie z wykresu diagnostycznego

Wykresy diagnostyczne pomagają zrozumieć, jak skutecznie model tworzy dokładne prognozy na podstawie dostępnych danych. (Nie dotyczy to wyłącznie eksploracji danych; klasyczni statystycy również używają wykresów diagnostycznych). Istnieje wiele różnych wykresów diagnostycznych. Wybierasz je na podstawie tego, co jest dostępne w Twoim oprogramowaniu do eksploracji danych, i własnych preferencji. Używasz wykresu wzrostu , który porównuje przewidywania modelu z wyborem losowym.



Wykres jest oparty na prognozach modelu dla 30 procent danych, które zostały odłożone do celów testowych przed utworzeniem modelu. Słupek po lewej stronie pokazuje grupie, że model daje największe zaufanie do "Tak", zmiany właściciela. Z analizy drzewa decyzyjnego wiesz, że ta grupa to nielokalni właściciele nieruchomości. Model przewiduje, że każdy członek grupy będzie "Tak", zmianą właściciela. Dla tej grupy przewidywania są poprawne w 62,5% przypadków. (Poziom ufności odnotowany u podstawy każdego słupka jest taki sam, jak odsetek poprawnych prognoz). W tym modelu na wykresie widoczne są tylko dwa słupki, ale wykresy wzrostu dla bardziej złożonych modeli często mają wiele słupków. Grupa o największej pewności jest zawsze pierwszym słupkiem po lewej stronie, a każdy kolejny słupek ma następną największą pewność siebie. Korzystając z modelu, możesz wybrać 909 z 2282 przypadków (909 nielokalnych + 1373 lokalnych właścicieli) w testowym zbiorze danych, aby przewidzieć w kategorii "Tak", a 62,5% z nich, 549 przypadków, będzie prawdziwymi zmianami własności nieruchomości . Linia przechodząca przez słupki pokazuje, że wybranie losowo 909 przypadków spowodowałoby tylko około 280 prawdziwych zmian właściwości. Tak więc model prawie podwaja twoją skuteczność w przewidywaniu prawdziwych zmian własności. Znajdziesz kilka rodzajów wykresów wzrostu. Wszystkie przedstawiają zalety korzystania z modelu, a nie losowego wyboru, ale mogą różnić się organizacją i wyglądem.

Ocena stanu modelu

Twoim celem eksploracji danych było wykazanie wykonalności wykorzystania modelowania predykcyjnego w odniesieniu do własności zmiany własności poprzez wykazanie, że co najmniej jedna zmienna ma mierzalną wartość predykcyjną do tego celu. Ściśle mówiąc, cel został osiągnięty. ale jeśli nadal masz czas przed upływem terminu, powinieneś wykorzystać ten czas na ulepszenie tego, co zrobiłeś. Osiągnąłeś minimum, które zamierzałeś zapewnić. Ale nie chcesz robić tylko minimum, więc pracujesz dalej. Możesz spróbować tych rzeczy:

•  Wróć i przygotuj dane potrzebne dla kilku innych czynników, które zasugerowali Virginia i Matt.
•  Eksperymentuj z alternatywnymi typami modeli.
•  Udoskonal ustawienia modelu.

Dokumentujesz swoje dotychczasowe osiągnięcia, a następnie wracasz do pracy, aby zbudować najlepszy możliwy model przed terminem zakończenia projektu.

Wprowadzanie wyników w życie

W ciągu jednego dnia nie udało Ci się zbudować modelu, który byłby gotowy do użycia w codziennej działalności. W porządku; to nigdy nie było twoim celem. Ale już pokazałeś, że modelowanie predykcyjne jest wykonalne, a to cholernie dobre jak na jeden dzień. Ponieważ pokazałeś, że modelowanie jest realistyczną opcją, istnieje prawdopodobieństwo, że klient będzie chciał, abyś kontynuował i zbudował najlepszy model, jaki możesz. Kiedy będzie gotowy, uruchomisz go, wykonując prognozy. Zaczniesz od sporządzenia list usług, które prawdopodobnie zmienią właściciela. Właściwie to już stworzyłeś jeden z nich. Znajduje się w danych wyjściowych narzędzia do tworzenia wykresów.



Dla każdej właściwości wymienionej w danych istnieje prognoza. W przyszłości możesz skorzystać z innych opcji, aby prognozować takie jak te poza oprogramowaniem do eksploracji danych, a nawet zintegrować funkcje przewidywania ze zwykłymi aplikacjami biznesowymi


Data Mining (I)



Złapanie pociągu eksploracji danych

Wybrałeś ekscytujący moment, aby zostać eksploratorem danych. Według niektórych szacunków każdego roku powstaje obecnie ponad 15 eksabajtów nowych danych. Ile to kosztuje? Jest naprawdę, absurdalnie dużo! Dlaczego to jest ważne? Większość organizacji ma dostęp tylko do malutkiego, niewielkiego ułamka tych danych i nie czerpią zbytniej wartości z tego, co mają. Dane mogą być cennym zasobem dla firm, instytucji rządowych i organizacji non-profit, ale nie chodzi o ilość. Większa ilość danych nie gwarantuje lepszego zrozumienia ani przewagi konkurencyjnej. W rzeczywistości, dobrze wykorzystana, odrobina odpowiednich danych zapewnia większą wartość niż jakakolwiek źle używana olbrzymia baza danych. Twoim zadaniem jako eksploratora danych jest maksymalne wykorzystanie posiadanych danych.

Prawdziwe informacje o eksploracji danych

Być może słyszałeś wiadomości lub reklamy sugerujące, że wszystko, czego potrzebujesz, aby cenne informacje wyskakiwały jak magia, to duża baza danych i najnowsze oprogramowanie. To kompletna bzdura. Eksploratorzy danych muszą pracować i myśleć, aby dokonać cennych odkryć. Być może słyszałeś, że aby uzyskać wyniki z bazy danych, musisz najpierw zatrudnić specjalną rasę ludzi, którzy mają prawie ponadludzką wiedzę na temat danych, ludzi znanych jako istoty bardzo drogie, prawie niemożliwe do znalezienia i absolutnie niezbędne do Twojego sukcesu. To też jest nonsens. Poszukiwacze danych to zwyczajni, zmotywowani ludzie, którzy uzupełniają swoją wiedzę biznesową o podstawy analizy danych. Eksploracja danych to nie magia ani sztuka. To rzemiosło, którego zwykli śmiertelnicy uczą się każdego dnia. Ty też możesz się o tym dowiedzieć.

Nie statystyki twojego profesora

Być może dawno temu wziąłeś udział w zajęciach ze statystyki i czułeś się przytłoczony naleganiem profesora na rygorystyczne metody. Zrelaksuj się. Musisz znaleźć informacje, które pomogą w codziennych decyzjach biznesowych, a wiele codziennych problemów biznesowych można rozwiązać za pomocą mniej formalnych metod analizy niż te, których nauczyłeś się w szkole. Daj sobie trochę luzu. Jak dajesz sobie luz? Tak właśnie wygląda eksploracja danych. Eksploracja danych to sposób, w jaki zwykli biznesmeni używają szeregu technik analizy danych, aby odkryć użyteczne informacje z danych i wykorzystać je w praktyce. Eksploratorzy danych używają narzędzi zaprojektowanych w celu przyspieszenia pracy. Nie przejmują się teorią i założeniami. Potwierdzają swoje odkrycia, testując. I rozumieją, że rzeczy się zmieniają, więc kiedy odkrycie, które działało jak urok wczoraj, dziś nie wytrzymuje, dostosowują się.

Wartość eksploracji danych

Menedżerowie biznesowi już mają biurka wypełnione raportami. Niektórzy mają dostęp do pulpitów nawigacyjnych komputera, które pozwalają im przeglądać swoje dane w niezliczonych segmentach i podsumowaniach. Czy eksploracja danych może naprawdę zwiększyć wartość? To może. Typowe raporty biznesowe zawierają podsumowania tego, co wydarzyło się w przeszłości. Nie oferują zbyt wiele, jeśli w ogóle, aby pomóc ci zrozumieć, dlaczego te rzeczy się wydarzyły lub jak możesz wpłynąć na to, co będzie dalej. Eksploracja danych jest inna. Oto przykłady informacji, które zostały odkryte podczas eksploracji danych:

•  Sprzedawca odkrył, że rejestracja w programie lojalnościowym może posłużyć do określenia, którzy klienci najprawdopodobniej wydadzą dużo, a którzy spędzą trochę czasu, na podstawie tylko informacji zebranych podczas pierwszej wizyty klienta. Informacje te pozwoliły sprzedawcy skupić się na inwestycjach marketingowych na tych, którzy dużo wydają, w celu maksymalizacji przychodów i obniżenia kosztów marketingu.
•  Producent odkrył sekwencję zdarzeń poprzedzających przypadkowe uwolnienie materiałów toksycznych. Informacje te pozwoliły producentowi na utrzymanie obiektu w ruchu, jednocześnie zapobiegając niebezpiecznym wypadkom (chroniąc ludzi i środowisko) oraz unikając kar i innych kosztów.
•  Firma ubezpieczeniowa odkryła, że jedno z jej biur było w stanie rozpatrywać niektóre typowe roszczenia szybciej niż inne o porównywalnej wielkości. Informacje te umożliwiły towarzystwu ubezpieczeniowemu określenie właściwego miejsca do poszukiwania najlepszych praktyk, które można by zastosować w całej organizacji w celu obniżenia kosztów i poprawy obsługi klienta.

Eksploracja danych pomaga zrozumieć, w jaki sposób elementy Twojej firmy są ze sobą powiązane. Zawiera wskazówki dotyczące działań, które możesz podjąć, aby Twoja firma działała sprawniej i generowała większe przychody. Może pomóc w określeniu, gdzie można obniżyć koszty bez szkody dla organizacji, a gdzie wydatki przynoszą największe zyski. Eksploracja danych zapewnia wartość, pomagając lepiej zrozumieć, jak działa Twoja firma.

Pracuję na to

Wiele osób ma nierealistyczne oczekiwania dotyczące eksploracji danych. To zrozumiałe, ponieważ większość ludzi uzyskuje informacje o eksploracji danych od osób, które nigdy tego nie robiły. Niektórzy ludzie oczekują, że eksploracja danych będzie tak łatwa, że będą musieli jedynie wprowadzić dane do odpowiedniego oprogramowania, a uporządkowane podsumowanie cennych informacji pojawi się automatycznie. Z drugiej strony, niektórzy spodziewają się, że eksploracja danych będzie tak trudna, że tylko ktoś z umiejętnościami programistycznymi na poziomie eksperckim i doktoratem w fizyce może sobie z tym poradzić. Niektórzy oczekują, że eksploracja danych przyniesie wspaniałe rezultaty, nawet jeśli eksplorator danych nie wie, co oznaczają dane. To wszystko są nierealistyczne oczekiwania, ale są zrozumiałe. Doniesienia prasowe, prezentacje sprzedażowe i źle poinformowani ludzie często rozpowszechniają poglądy na temat eksploracji danych, które są po prostu błędne. Jak ktoś ma wiedzieć, co jest rozsądne, a co jest szumem? Oto, co jest realistyczne: wielu początkujących eksploratorów danych uważa, że wystarczy kilka dni szkolenia i miesiąc ćwiczenia tego, czego się nauczyli (w niepełnym wymiarze godzin, nadal wykonując codzienne obowiązki), aby przygotować ich do uzyskiwania użytecznych, wartościowych wyników. Nie musisz mieć umysłu takiego jak Einstein, doktorat ani nawet umiejętności programowania. Musisz mieć podstawowe umiejętności obsługi komputera i wyczucie liczb. Trzeba też mieć cierpliwość i umiejętność metodycznej pracy. Eksploracja danych to ciężka praca. To nie jest trudne, jak wydobycie węgla lub operacja mózgu, ale jest trudne. Wymaga cierpliwości, organizacji i wysiłku.

Zaufaj danym lub swoim jelitom?

Czy intuicja może ci powiedzieć, co motywuje ludzi do kupowania, przekazywania darowizn lub podejmowania działań? Wiele osób uważa, że żadna analiza danych nie może prześcignąć ich intuicji przy podejmowaniu decyzji. Rzuciłem wyzwanie menedżerom biznesowym, aby przetestowali swoją intuicję. Pochodzili z różnych branż, małych i dużych firm i byli wśród nich zarówno młodzi, jak i doświadczeni menedżerowie. Każdy z nich obejrzał dziesięć par takich reklam:

•  Dwie prawie identyczne reklamy, różniące się tylko tym, że jedna przedstawiała twarz kobiety, a druga mężczyznę. Która wygenerowała więcej potencjalnych klientów?
•  Reklama z wieloma obrazami została zestawiona z reklamą, która miała tylko kilka. Która spowodowała więcej zakupów?
•  Dwie reklamy miały tę samą kopię (tekst), ale różne układy. Która przyciągnęłaby więcej darowizn na cele charytatywne?

Niewielkie różnice w obrazach, układzie lub treści mogą znacząco wpłynąć na skuteczność reklamy. Testy próbek w tej grze w zgadywanie wykazały, że właściwy wybór może zwiększyć konwersje (działania ze strony klienta, takie jak kupowanie, przekazywanie darowizn lub proszenie o informacje) o 10%, 30%, a czasem więcej. W jednym przypadku lepsza reklama przyniosła 100 procent więcej konwersji niż alternatywa. Czy ktokolwiek mógłby stwierdzić, po prostu patrząc, które alternatywy byłyby najlepsze? Nie. Żaden z menedżerów nie był skuteczny w wyborze najlepszych reklam. Rzucanie monetą działało równie dobrze. Jeśli chcesz podejmować dobre decyzje biznesowe, potrzebujesz danych. Użyj mózgu, a nie jelit!

Robią to, co robią eksploratorzy danych

Jeśli myślisz o danych jako o surowcu, a informacje, które możesz uzyskać z danych, jako o czymś cennym i względnie wyrafinowanym, proces wydobywania informacji można porównać do wydobywania metalu z rudy lub klejnotów z ziemi. Tak powstał termin eksploracja danych. Czy słowa eksplorator danych wywołują w pamięci obraz szorstkiego pracownika w kombinezonie? To nie jest tak dalekie od celu. Oczywiście nic nie jest fizycznie brudne w eksploracji danych, ale kopacze danych robią problemy i brudzą się danymi. W eksploracji danych chodzi o władzę dla ludzi, dając możliwość analizy danych zwykłym biznesmenom.

Koncentrując się na biznesie

Eksploratorzy danych nie tylko rozważają dane bez celu, mając nadzieję na znalezienie czegoś interesującego, a projekt eksploracji danych zaczyna się od konkretnego problemu biznesowego i celu, któremu należy sprostać. Jako eksplorator danych prawdopodobnie nie będziesz mieć uprawnień do podejmowania ostatecznych decyzji biznesowych, dlatego ważne jest, aby dostosować swoją pracę do potrzeb decydentów. Musisz zrozumieć ich problemy, potrzeby i preferencje oraz skupić się na dostarczaniu informacji wspierających dobre decyzje biznesowe. Twoja własna wiedza biznesowa jest bardzo ważna. Kierownictwo nie będzie siedzieć obok Ciebie podczas pracy i przekazywać informacji zwrotnych na temat związku Twoich odkryć z ich obawami. Podczas pracy musisz korzystać z własnego doświadczenia i bystrości, aby ocenić to samodzielnie. Możesz nawet być zaznajomiony z aspektami działalności, którymi nie jest dyrektor, i być w stanie przedstawić nowe spojrzenie na problem biznesowy oraz możliwe przyczyny i środki zaradcze.

Zrozumienie, jak osoby poszukujące danych spędzają czas

Byłoby wspaniale, gdyby eksploratorzy danych mogli spędzić cały dzień na dokonywaniu odkryć zmieniających życie, tworzeniu wartościowych modeli i integrowaniu ich z codziennym biznesem. Ale to tak, jakby powiedzieć, że byłoby wspaniale, gdyby sportowcy mogli spędzić cały dzień na wygrywaniu turniejów. Przygotowanie do tych chwil triumfu wymaga wielu przygotowań. Tak więc, podobnie jak sportowcy, eksploratorzy danych spędzają dużo czasu na przygotowaniach. Największa część idzie na przygotowanie danych.

Poznanie procesu eksploracji danych

Dobry proces pracy pomaga maksymalnie wykorzystać czas, dane i wszystkie inne zasoby. Poznasz najpopularniejszy proces przetwarzania danych, CRISP-DM. Jest to sześciofazowy cykl odkrywania i działania stworzony przez konsorcjum eksploratorów danych z wielu branż i otwarty standard, z którego każdy może skorzystać. Fazy procesu CRISP-DM to

1. Zrozumienie biznesu
2. Zrozumienie danych
3. Przygotowanie danych
4. Modelowanie
5. Ocena
6. Wdrożenie (używanie modeli w codziennym biznesie)

Każda faza ma równe znaczenie dla jakości wyników i wartości dla firmy. Ale pod względem wymaganego czasu dominuje przygotowywanie danych. Przygotowanie danych rutynowo zajmuje więcej czasu niż wszystkie inne fazy procesu eksploracji danych łącznie.

Tworzenie modeli

Kiedy cele są zrozumiałe, a dane oczyszczone i gotowe do użycia, możesz skupić się na budowaniu modeli predykcyjnych. Modele robią to, czego nie potrafią raporty; dostarczają informacji, które wspierają działanie. Raport może powiedzieć, że sprzedaż spadła. Może rozbić sprzedaż według regionu, produktu i kanału, dzięki czemu wiesz, gdzie spadła sprzedaż i czy spadki te były powszechne lub dotyczyły tylko niektórych obszarów. Ale nie dają żadnych wskazówek, dlaczego sprzedaż spadła ani jakie działania mogą pomóc ożywić firmę. Modele pomagają zrozumieć czynniki wpływające na sprzedaż, działania, które mają tendencję do zwiększania lub zmniejszania sprzedaży, oraz strategie i taktyki, które zapewniają płynne działanie Twojej firmy. To ekscytujące, prawda? Może dlatego większość eksploratorów danych uważa modelowanie za fajną część pracy.

Zrozumienie modeli matematycznych

Modele matematyczne mają kluczowe znaczenie dla eksploracji danych, ale czym one są? Co robią, jak działają i jak powstają? Model matematyczny jest prostym i prostym równaniem lub zbiorem równań, które opisują związek między dwiema lub więcej rzeczami. Takie równania są skrótem dla teorii o funkcjonowaniu przyrody i społeczeństwa. Teoria może być poparta pokaźną ilością dowodów lub może być tylko szalonym przypuszczeniem. Język matematyki jest taki sam w obu przypadkach. Terminy takie jak model predykcyjny, model statystyczny lub model liniowy odnoszą się do określonych typów modeli matematycznych, nazw odzwierciedlających zamierzone zastosowanie, formę lub metodę wyprowadzenia określonego modelu. Te trzy przykłady to tylko kilka z wielu takich terminów. Kiedy model jest wymieniany w otoczeniu biznesowym, najprawdopodobniej jest to model używany do prognozowania. Modele są używane między innymi do przewidywania cen akcji, sprzedaży produktów i stóp bezrobocia. Prognozy te mogą być dokładne lub nie, ale dla dowolnego zestawu wartości (znane czynniki, takie jak te nazywane są zmiennymi niezależnymi lub wejściami), uwzględniono w modelu, znajdziesz dobrze zdefiniowaną prognozę (nazywaną również zmienną zależną, wyjściem lub wynikiem). Modele matematyczne są wykorzystywane również do innych celów w biznesie, takich jak opis mechanizmów roboczych, które kierują określonym procesem. W eksploracji danych tworzymy modele, znajdując wzorce w danych za pomocą uczenia maszynowego lub metod statystycznych. Osoby zajmujące się eksploracją danych nie przestrzegają tego samego rygorystycznego podejścia, które stosują klasyczni statystycy, ale wszystkie nasze modele pochodzą z rzeczywistych danych i spójnych matematycznych technik modelowania. Wszystkie modele przetwarzania danych są poparte materiałami dowodowymi. Po co używać modeli matematycznych? Nie można opisać tych samych relacji używając słów? Jest to możliwe, ale stosowanie równań ma pewne zalety. Obejmują one

•  Wygodę: w porównaniu z równoważnymi opisami zawartymi w zdaniach, równania są krótkie. Symbolika matematyczna rozwinęła się specjalnie w celu przedstawienia związków matematycznych; języki takie jak angielski nie.
•  Jasność: Równania zwięźle przekazują pomysły i są jednoznaczne. Nie podlegają różnym interpretacjom ze względu na kulturę, a symbolika matematyki jest rodzajem powszechnego języka używanego na całym świecie.
•  Spójność: ponieważ reprezentacje matematyczne są jednoznaczne, implikacje każdej konkretnej sytuacji są jasno określone przez model matematyczny.

Wprowadzanie informacji w czyn

Model zapewnia wartość tylko wtedy, gdy jest używany w biznesie. Prognozy modelu mogą wspierać podejmowanie decyzji na różne sposoby.

•  Włącz prognozy do raportu lub prezentacji do wykorzystania przy podjęciu konkretnej decyzji.
•  Zintegruj model z systemem operacyjnym (takim jak system obsługi klienta), aby zapewnić prognozy w czasie rzeczywistym do codziennego użytku. (Na przykład możesz oznaczyć roszczenia ubezpieczeniowe do natychmiastowej płatności, natychmiastowej odmowy lub dalszego dochodzenia).
•  Użyj modelu do prognozowania partii. (Na przykład możesz ocenić wewnętrzną listę klientów, aby zdecydować, którzy klienci powinni otrzymać określoną ofertę).

Narzędzia i metody wykrywania

Kopacze danych pracują szybko. Aby uzyskać prędkość, musisz użyć odpowiednich narzędzi i odkryć sztuczki związane z handlem.

Programowanie wizualne

Twoim najlepszym narzędziem do eksploracji danych jest mózg z odrobiną wiedzy. Drugim najlepszym narzędziem jest aplikacja do eksploracji danych z wizualnym interfejsem programowania. W przypadku programowania wizualnego etapy procesu pracy są reprezentowane przez małe obrazy, które organizujesz na ekranie, aby stworzyć obraz przepływu i logiki Twojej pracy. Programowanie wizualne ułatwia zobaczenie, co robisz w kilku krokach, niż w przypadku poleceń (programowanie) lub konwencjonalnych menu. W tym przykładzie możesz zobaczyć proces pracy w głównym obszarze aplikacji do przetwarzania danych. Wokół niego znajdują się menu ostatnich projektów, narzędzia do funkcji przetwarzania danych, przeglądarka ułatwiająca nawigację po złożonych procesach oraz dziennik. Te szczegóły różnią się nieco w zależności od produktu. Przyjrzyj się dokładniej procesowi



Chociaż dopiero zaczynasz swoją misję, aby zostać eksploratorem danych, prawdopodobnie możesz zrozumieć wiele z tego, co się dzieje, po prostu patrząc na ten diagram, w tym:

•  Możesz zobaczyć CSV Reader. Jeśli wiesz, że .csv (wartości rozdzielane przecinkami), prawdopodobnie już wiesz, że jest to import danych. (I to jest pierwszy krok; do zrobienia czegokolwiek innego potrzebujesz danych).
•  Następnie zobaczysz narzędzia wyraźnie oznaczone funkcjami, takimi jak Zmiana nazwy kolumny i Manipulacja ciągami. To są kroki przygotowania danych.
•  Tree Learner może być tajemniczy, jeśli dopiero zaczynasz modelować, ale to narzędzie tworzy model drzewa decyzyjnego z podzbioru danych.
•  Na koniec zastosuj model do danych, które były przechowywane oddzielnie na potrzeby testów, i wykonaj kilka technik oceny

Praca szybka i brudna

Programowanie wizualne pomaga eksploratorom danych w szybkiej pracy. O wiele łatwiej i szybciej zaplanować proces pracy przy użyciu tych małych obrazów, niż programując od podstaw. Łatwo jest zobaczyć, co robisz, gdy widzisz coś w rodzaju mapy wielu kroków naraz, więc programowanie wizualne jest również szybsze niż przy użyciu konwencjonalnego oprogramowania sterowanego menu. Kopacze danych mają inny ważny sposób na szybką pracę. Eksploratorzy danych nie zawsze przejmują się każdym szczegółem teorii i założeń matematycznych. Dobra wiadomość jest taka, że brak zamieszania pozwala szybciej budować modele. Zła wiadomość jest taka, że jeśli nie będziesz się przejmować teorią i założeniami, Twój model może nie być dobry. Eksploratorzy danych łamią reguły statystyki, ponieważ eksploratorzy danych wybierają modele na podstawie eksperymentu, a nie na podstawie teorii i założeń statystycznych. Ale górnicy danych również łamią własne zasady, ponieważ niektórzy eksploratorzy danych mają statystyki wiedzy i starają się rozważać założenia. (Niewiele wiadomo, że standardowy proces eksploracji danych CRISP-DM obejmuje etap raportowania założeń).

Testowanie, testowanie i jeszcze raz testowanie

Jako eksplorator danych nie będziesz w stanie obronić modeli, które tworzysz w oparciu o teorię statystyczną, ponieważ Twoje metody pracy nie uwzględniają teorii Korzystasz z danych, które możesz uzyskać, i na pewno masz pewne problemy, które nie są To nie jest zgodne z teorią stojącą za modelem, którego używasz: * Możesz nie mieć wystarczającej wiedzy statystycznej, aby formułować teoretyczne argumenty. Ale to w porządku. Eksploratorzy danych oceniają swoje modele głównie poprzez testowanie, testowanie i jeszcze raz testowanie. Wiele narzędzi do modelowania przeprowadza wewnętrzne testy podczas tworzenia modeli. Odkładasz dane na bok, aby przetestować model po jego utworzeniu. Będziesz testować w terenie, gdy tylko będzie to możliwe. Po wdrożeniu będziesz monitorować wydajność modelu. Kiedy jesteś eksploratorem danych, testy nigdy się nie kończą!


Wesprzyj Szkołę, kliknij w Reklamę…Dziękujemy…