https://szkolazpieklarodem.pl/
Tokenizacja to jedna z prostych, ale podstawowych koncepcji NLP, polegająca na dzieleniu tekstu na znaczące segmenty. spaCy najpierw tokenizuje tekst (tj. dzieli go na słowa, a następnie na znaki interpunkcyjne i inne). Może przyjść Ci do głowy pytanie: Dlaczego nie mogę po prostu użyć wbudowanej metody podziału języka Python i przeprowadzić tokenizację? Metoda split w Pythonie to po prostu surowa metoda dzielenia zdania na tokeny z separatorem. Nie bierze pod uwagę żadnego znaczenia, podczas gdy tokenizacja stara się również zachować znaczenie. Wypróbujmy trochę kodu i zobaczmy, jak działa tokenizacja.
Przykład 1:
doc = nlp(u’Brexit is the impending withdrawal of the U.K. from the
European Union.’)
for token in doc:
print(token.text)
Wyjście:
Brexit
is
the
impending
withdrawal
of
the
U.K.
from
the
EuropeanUnion
Jeśli widzisz na powyższym wyjściu, Wielka Brytania pojawia się jako pojedyncze słowo po procesie tokenizacji, co ma sens, ponieważ Wielka Brytania to nazwa kraju i dzielenie jej byłoby błędne. Nawet po tym, jeśli nie będziesz zadowolony z tokenizacji spaCy, możesz użyć metody add_special_case case, aby dodać własną regułę, zanim całkowicie zaczniesz polegać na metodzie tokenizacji spaCy.