Chatbot z Pytonem : Tokenizacja

https://szkolazpieklarodem.pl/

Tokenizacja to jedna z prostych, ale podstawowych koncepcji NLP, polegająca na dzieleniu tekstu na znaczące segmenty. spaCy najpierw tokenizuje tekst (tj. dzieli go na słowa, a następnie na znaki interpunkcyjne i inne). Może przyjść Ci do głowy pytanie: Dlaczego nie mogę po prostu użyć wbudowanej metody podziału języka Python i przeprowadzić tokenizację? Metoda split w Pythonie to po prostu surowa metoda dzielenia zdania na tokeny z separatorem. Nie bierze pod uwagę żadnego znaczenia, podczas gdy tokenizacja stara się również zachować znaczenie. Wypróbujmy trochę kodu i zobaczmy, jak działa tokenizacja.

Przykład 1:

doc = nlp(u’Brexit is the impending withdrawal of the U.K. from the

European Union.’)

for token in doc:

print(token.text)

Wyjście:

Brexit

is

the

impending

withdrawal

of

the

U.K.

from

the

EuropeanUnion

Jeśli widzisz na powyższym wyjściu, Wielka Brytania pojawia się jako pojedyncze słowo po procesie tokenizacji, co ma sens, ponieważ Wielka Brytania to nazwa kraju i dzielenie jej byłoby błędne. Nawet po tym, jeśli nie będziesz zadowolony z tokenizacji spaCy, możesz użyć metody add_special_case case, aby dodać własną regułę, zanim całkowicie zaczniesz polegać na metodzie tokenizacji spaCy.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *