Abstract:
Сөйлеуді танумен қатар сөйлеуді өңдеудің маңызды міндеттерінің бірі сөйлеуді
синтездеу немесе басқаша айтқанда мәтінді сөйлеуге түрлендіру болып табылады. Ең алғашқы компьютерлік дауыс синтезі жүйесі 20 ғасырда жасалды. Артикуляциялық, конкатенативті,
формантты сөйлеу синтезі компьютерлік синтездің алғашқы әдістері болып табылады.
Машиналық оқытудың даму дәуірінде статистикалық параметрлік сөйлеу синтезі ұсынылды.
Компьютерлік технологиялар ресурстарының дамуы күшімен табиғи дыбысты
синтетикалық дауыстарды құру білімге негізделген әрекеттен деректерге негізделген әрекетке
айналды. Егер бұрын жоғары сапалы синтетикалық дауыстарды жасау үшін біз тиісті
контексттерді және әрбір фонетикалық бірлікті қолмен жасасақ, енді бір диктордың әртүрлі
табиғи сөйлеу дерекқорларын пайдаланып жоғары сапалы синтетикалық дауыстарды жасай
аламыз.
Статистикалық параметрлік сөйлеу синтезі соңғы бірнеше жылда танымал бола
бастады. Статистикалық параметрлік синтезді бірдей дыбыстық сөйлеу сегменттерінің кейбір
жиынтығының орташа мәнін генерациялау ретінде сипаттауға болады. Бұл бірліктерді таңдау
кезінде табиғи өзгертілмеген сөйлеу бірліктерін сақтауға деген ұмтылысқа мүлдем қарамақайшы, бірақ параметрлік модельдерді қолданудың басқа да артықшылықтары бар.