4.10: Моделювання мовного сигналу
- Модель голосового тракту людини.


Інформація, що міститься в вимовленому слові, передається мовним сигналом. Оскільки ми проаналізуємо кілька схем передачі та обробки мовлення, нам потрібно зрозуміти структуру мовного сигналу - що особливого в мовному сигналі - і як ми можемо описати та моделювати виробництво мови. Це моделювання зусиль складається з пошуку опису системи того, як відносно неструктуровані сигнали, що виникають з простих джерел, задаються структурою, передаючи їх через взаємозв'язок систем для отримання мови. Для мови та багатьох інших ситуацій вибір системи регулюється фізикою, що лежить в основі фактичного виробничого процесу. Оскільки фундаментальне рівняння акустики - хвильове рівняння - застосовується тут і є лінійним, ми можемо використовувати лінійні системи в нашій моделі з достатньою точністю. Природність лінійних системних моделей для мови не поширюється на інші ситуації. У багатьох випадках основна математика, що регулюється фізикою, біологією та/або хімією проблеми, є нелінійними, залишаючи моделі лінійних систем як наближення. Нелінійні моделі набагато складніше в сучасному стані знань зрозуміти, і інформаційні інженери часто віддають перевагу лінійним моделям, оскільки вони забезпечують більший рівень комфорту, але не обов'язково достатній рівень точності.
На малюнку 4.10.1 показана фактична система виробництва мови, а на малюнку 4.10.2 показана модель системи виробництва мови. Характеристики моделі залежать від того, чи говорите ви голосну чи приголосну. Сконцентруємося спочатку на механізмі виробництва голосних. Коли голосові зв'язки розміщуються під напругою навколишньої мускулатури, тиск повітря з легких змушує голосові зв'язки вібрувати. Щоб візуалізувати цей ефект, візьміть гумку і тримайте її перед губами. Якщо тримати відкритим, коли ви дме крізь нього, повітря проходить більш-менш вільно; ця ситуація відповідає «режиму дихання». Якщо триматися нав'язливо і близько один до одного, продування через отвір призводить до того, що боки гумки вібрують. Такий ефект найкраще працює з широкою гумкою. Ви можете собі уявити, як виглядає повітряний потік на протилежному боці гумки або голосових зв'язок. Ваша легенева сила - це просте джерело, про яке йшлося раніше; його можна змоделювати як постійну подачу тиску повітря. Голосові зв'язки реагують на цей вхід вібрацією, що означає, що вихід цієї системи - це якась періодична функція.
Зверніть увагу, що система голосових зв'язків приймає постійний вхід і виробляє періодичний потік повітря, який відповідає її вихідному сигналу. Це система лінійна або нелінійна? Обґрунтуйте свою відповідь.
Рішення
Якщо щілинні щілини були лінійними, постійний вхід (синусоїда нульової частоти) повинен давати постійний вихід. Періодичний вихід вказує на нелінійну поведінку.
Співаки змінюють напругу голосового зв'язку, щоб змінити висоту тону, щоб створити бажану музичну ноту. Напруга голосового зв'язку регулюється керуючим входом в мускулатуру; в моделах системи ми представляємо керуючі входи як сигнали, що надходять у верхню або нижню частину системи. Звичайно, у випадку мови та в багатьох інших випадках, а також, саме керуючий вхід несе інформацію, вражаючи її на виході системи. Зміна структури сигналу в результаті зміни вхідного сигналу дозволяє передавати інформацію за допомогою сигналу, процес, який зазвичай відомий як модуляція. У співі музикальність значною мірою передається подачею; у західній мові висота тону набагато менш важлива. Речення можна читати монотонно, не знищуючи повністю інформацію, виражену реченням. Однак різниця між заявою та питанням часто виражається змінами висоти тону. Наприклад, зверніть увагу на звукові відмінності між «Підемо в парк» і «Підемо в парк?»
Для деяких приголосних голосові зв'язки вібрують так само, як і в голосних. Наприклад, так звані носові звуки «н» і «м» мають цю властивість. Для інших голосові зв'язки не виробляють періодичного виходу. Повертаючись до механізму, коли виробляються приголосні, такі як «f», голосові зв'язки розміщуються під набагато меншою напругою, що призводить до турбулентного потоку. Отриманий вихідний повітряний потік досить нестійкий, настільки, що ми описуємо його як шум. Ми ретельно визначаємо шум пізніше, коли заглиблюємось у проблеми зв'язку.
Періодичний вихід голосових шнурів може бути добре описаний періодичним ланцюгом імпульсів p T (t), як показано в періодичному імпульсному сигналі, з T позначає період висоти. Спектр цього сигналу містить гармоніки частоти 1/T, що відомо як частота тону або основна частота F0. Основна відмінність дорослої чоловічої та жіночої/передпушеної мови - це висота. До статевого дозрівання частота тону для нормальної мови коливається між 150-400 Гц як для чоловіків, так і для жінок. Після статевого дозрівання голосові зв'язки самців зазнають фізичної зміни, що має ефект зниження їх частоти тону до діапазону 80-160 Гц. Якби ми могли вивчити вихідний сигнал голосового зв'язку, ми могли б, мабуть, розрізнити, чи був динамік чоловіком чи жінкою. Ця різниця також легко проявляється в самому мовному сигналі.
Щоб спростити наші зусилля моделювання мови, ми припустимо, що період тону постійний. При такому спрощенні ми руйнуємо систему вокально-шнурок-легень як просте джерело, що виробляє періодичний імпульсний сигнал (рис. 4.10.2). Вироблений таким чином сигнал звукового тиску надходить в рот за язиком, створює акустичні порушення і виходить переважно через губи і певною мірою через ніс. Фахівці з мовлення схильні називати рот, язик, зуби, губи та носову порожнину голосовими шляхами. Фізика, що керує звуковими порушеннями, що утворюються в голосовому тракті та органної труби, досить схожі. Тоді як органна труба має просту фізичну будову прямої труби, перетин «трубки» голосового тракту змінюється по її довжині через положення мови, зубів та губ. Саме ці позиції контролюються мозком для отримання голосних звуків. Розправлення губ, зведення зубів разом, і приведення мови до передньої частини даху рота видає звук «її». Округлення губ, розправлення зубів і розташування мови у напрямку до задньої частини ротової порожнини видає звук «о». Ці варіації призводять до лінійної, інваріантної в часі системи, яка має частотну характеристику, типізовану кількома піками, як показано на малюнку 4.10.3.

Ці піки відомі як форманти. Таким чином, процесори мовних сигналів скажуть, що звук «ой» має вищу першу формантну частоту, ніж звук «ee», причому F2 набагато вище під час «ee». F2 і F3 (другий і третій форманти) мають більше енергії в «е», ніж в «ой». Замість того, щоб служити фільтром, відкидаючи високі або низькі частоти, голосовий тракт служить для формування спектра голосових зв'язок. У часовій області ми маємо періодичний сигнал, крок, який служить входом в лінійну систему. Ми знаємо, що вихід - мовний сигнал, який ми вимовляємо, і який чують інші та самі - також буде періодичним. Приклад мовних сигналів часової області показаний на малюнку 4.10.3, де періодичність цілком очевидна.
З графіків форми хвилі, показаних на малюнку 4.10.3, визначте період тону та частоту тону.
Рішення
У нижній лівій панелі період становить близько 0,009 с, що дорівнює частоті 111 Гц. Нижня права панель має період близько 0,0065 с, частота 154 Гц.
Оскільки мовні сигнали є періодичними, мова має подання рядів Фур'є, задане відповіддю лінійної схеми на періодичний сигнал. Оскільки акустика голосового тракту лінійна, ми знаємо, що спектр виходу дорівнює добутку спектру сигналу тону та частотної характеристики голосового тракту. Таким чином ми отримуємо фундаментальну модель виробництва мовлення.
S(f)=PT(f)HV(f)
Тут H V (f) - передавальна функція системи голосових шляхів. Ряд Фур'є для виходу голосових шнурів, похідний у цьому рівнянні, є
ck=Ae−iπkΔTsin(πkΔ)Tπk
і наноситься на верхівку на малюнку 4.10.4a. Якщо у нас був, наприклад, чоловічий динамік з кроком приблизно 110 Гц (T ~ 9.1ms), який говорив голосну «о», спектр його мови, передбаченого нашою моделлю, показаний на малюнку 4.10.1.


Трансферна функція голосового тракту, показана як тонка, плавна лінія, накладається на спектр фактичної чоловічої мови, що відповідає звуку «о». Зазначені лінії тону, відповідні гармонікам частоти тангажу.
Спектр моделі ідеалізує виміряний спектр і фіксує всі важливі особливості. Вимірюваний спектр, безумовно, демонструє те, що відомі як лінії тону, і ми розуміємо з нашої моделі, що вони обумовлені періодичним збудженням голосового тракту голосового тракту. Формування голосового тракту лінійного спектра чітко видно, але важко точно розрізнити, особливо на більш високих частотах. Функція передачі моделі для голосового тракту робить форманти набагато більш очевидними.
Коефіцієнти ряду Фур'є для мови пов'язані з передавальною функцією голосового тракту тільки на частотах:kT,k∈{1,2,...}
див. попередній результат. Чи буде чоловіча чи жіноча мова мати більш чітко ідентифіковану формантну структуру, коли обчислюється її спектр? Розглянемо, наприклад, як змінився б спектр, показаний праворуч на малюнку 4.10.4a, якби висота висоти була вдвічі більшою (≈ 300 Гц)?
Рішення
Оскільки самці мають меншу частоту кроку, відстань між спектральними лініями менший. Цей ближчий інтервал більш точно розкриває формантну структуру. Подвоєння частоти тону до 300 Гц для малюнка 4.10.4a означало б видалення будь-якої іншої спектральної лінії.
Коли ми говоримо, висота тону та передавальна функція голосового тракту не є статичними; вони змінюються відповідно до своїх контрольних сигналів, щоб виробляти мову. Інженери зазвичай показують, як мовний спектр змінюється з часом за допомогою того, що відомо як спектрограма. Див. Малюнок 4.10.5 нижче. Зверніть увагу, як лінійний спектр, який вказує на те, як змінюється висота тону, видно під час голосних, але не під час приголосних (як це в «Рис»).

Фундаментальна модель мовлення вказує на те, як інженери використовують фізику, що лежить в основі процесу генерації сигналу, і використовують її структуру для створення системної моделі, яка пригнічує фізику, підкреслюючи, як сигнал «будується». З повсякденного життя ми знаємо, що мова містить безліч інформації. Ми хочемо визначити, як його передавати і приймати. Ефективна та ефективна передача мови вимагає від нас знання властивостей сигналу та його структури (як виражається фундаментальною моделлю виробництва мови). Наприклад, з малюнка 4.10.5 ми бачимо, що мова містить значну енергію від нульової частоти до приблизно 5 кГц.
Ефективні системи передачі мови повинні вміти справлятися з сигналами, що мають цю пропускну здатність. Цікаво, що одна система, яка не підтримує цю пропускну здатність 5 кГц, - це телефон: Телефонні системи діють як смуговий фільтр, що пропускає енергію між приблизно 200 Гц і 3.2 кГц. Найважливішим наслідком такої фільтрації є видалення енергії високої частоти. У нашому вибірковому висловлюванні звук «ce» у «Rice"» містить більшу частину своєї енергії вище 3,2 кГц; цей фільтруючий ефект тому надзвичайно важко розрізнити звуки «s» та «f» по телефону. Спробуйте самі: зателефонуйте одному і визначте, чи зможуть вони розрізнити слова «шість» і «виправити». Якщо ви говорите ці слова ізольовано, щоб жоден контекст не давав натяку на те, яке слово ви говорите, ваш друг не зможе їх розрізнити. Радіо підтримує цю пропускну здатність (див. Докладніше про радіосистеми AM та FM).
Ефективні системи передачі мови використовують особливу структуру мовного сигналу: Що робить мовлення мови? Ви можете викликати багато сигналів, які охоплюють ті ж частоти, що і мова - звуки двигуна автомобіля, музика скрипки, собачий гавкі-але зовсім не звучать як мова. Пізніше ми дізнаємося, що передача будь-якого сигналу пропускної здатності 5 кГц вимагає близько 80 кбіт/с (тисячі біт в секунду) для передачі в цифровому вигляді. Мовні сигнали можуть передаватися за допомогою менше 1 кбіт/с через його особливої структури. Знизити «цифрову пропускну здатність» настільки різко означає, що інженери витратили багато років на розробку методів обробки сигналів і кодування, які могли б зафіксувати особливі характеристики мови, не руйнуючи того, як вона звучить. Якщо ви використовували систему передачі мови для надсилання звуку скрипки, вона надійшла б жахливо спотвореною; мова, передана таким же чином, звучала б нормально.
Експлуатація особливої структури мови вимагає виходу за рамки можливостей аналогових систем обробки сигналів. Багато систем передачі мови працюють, знаходячи висоту динаміка та формантні частоти. По суті, нам потрібно зробити більше, ніж фільтрацію, щоб визначити структуру мовного сигналу; нам потрібно маніпулювати сигналами більшою кількістю способів, ніж це можливо з аналоговими системами. Така гнучкість досяжна (але не без деяких втрат) з програмованими цифровими системами.