Chatbot z Pytonem : Zatrzymaj słowa

https://szkolazpieklarodem.pl/

Słowa stop to słowa o dużej częstotliwości, takie jak a, an, the, to, które czasami chcemy odfiltrować z dokumentu przed dalszym przetwarzaniem. Słowa stop zazwyczaj mają niewielką zawartość leksykalną i nie mają większego znaczenia. Poniżej znajduje się lista 25 semantycznie nieselektywnych słów stop, które są powszechne w Reuters-RCV1.

Zajmijmy się kodem i spróbujmy zrozumieć, jak to wszystko działa. Aby zobaczyć wszystkie słowa zdefiniowane jako słowa stop w spaCy, możesz uruchomić następujące linie kodu:

from spacy.lang.en.stop_words import STOP_WORDS

print(STOP_WORDS)

Powinieneś zobaczyć coś takiego:

Na liście słów stop spaCy zdefiniowanych jest około 305 słów stop. W razie potrzeby zawsze możesz zdefiniować własne słowa stop i zastąpić istniejącą listę. Aby sprawdzić, czy słowo jest słowem kończącym, czy nie, możesz użyć obiektu nlp spaCy. Możemy użyć atrybutu is_stop obiektu nlp.

Przykład 1:

nlp.vocab[u’is’].is_stop

Wyjście:

TRUE

Przykład 2:

nlp.vocab[u’hello’].is_stop

Wyjście:

FALSE

Przykład 3:

nlp.vocab[u’with’].is_stop

Wyjście:

TRUE

Słowa Stop są bardzo ważną częścią porządkowania tekstu. Pomaga usunąć bezsensowne dane, zanim spróbujemy dokonać faktycznego przetwarzania, aby nadać tekstowi sens. Załóżmy, że budujesz bota, który ma uszczęśliwiać ludzi poprzez ocenę ich nastroju. Teraz należy przeanalizować nastroje zawarte w tekście wprowadzanym przez użytkownika, aby można było sformułować poprawną odpowiedź. W tym miejscu, zanim zaczniemy przeprowadzać podstawową analizę nastrojów, powinniśmy usunąć szum z danych, który istnieje w postaci słów kończących.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *