Abstract:
Мәтінді классификациялау – бұл табиғи тілді өңдеудің ең маңызды саласы, онда мәтіндік
деректер алдын-ала анықталған кластар жиынтығы бойынша автоматты түрде сұрыпталады.
Мәтінді жіктеу спамды сүзу, шешім қабылдау, шикі деректерден ақпараталу және басқа да
көптеген коммерциялық жұмыстарда кеңінен қолданылады. Мәтінді жіктеу көптеген
кәсіпорындар үшін маңызды, өйткені ол деректерді қолмен жіктеу қажеттілігінен босатады, бұл
қаражатты және уақытты қажет ететін механизм. Бұл мақалада мәтіндердің жіктелуіне
салыстырмалы талдау жасайды, оның барысында әртүрлімәліметтер жиынтығындағы машиналық
оқытудың әртүрлі алгоритмдерінің тиімділігі талданады және салыстырылады. Тірек векторлық
машина (SVM), k-ең жақын көрші (k- NN), логистикалық регрессия (LR), көпмүшелік аңғал Байес
(MNB) және кездейсоқ орман (RF) – бұл қазіргі кезде кеңінен қолданылатын машиналық оқытуға
негізделген алгоритмдер. Осы алгоритмдерді салыстырмалы талдау үшін екі түрлі мәліметтер
жиынтығы қолданылады. Бұл мақалада өнімділік көрсеткіштеріне, атап айтқанда дәлдікке,еске
түсіруге және F1 бағалауға негізделген мәтінді жіктеу үшін қолданылатын машиналық оқыту
әдістері талданады. Нәтижелері логистикалық регрессия мен тірек векторлық машинаның IMDb
деректер жиынындағы басқа модельдерден, ал kNNұсынылған жүйе арқылы алынған нәтижелерге
сәйкес E-mail хабарламалар деректер жиынының басқа үлгілерінен асып түсетінін көрсетеді.