9.4: Правопис на відповідність звуку при читанні слів
- Page ID
- 72673
Тепер ми збільшуємо прямий шлях між візуальними входами слів (орфографія) та словесним мовленням (фонологія), використовуючи набагато більший набір слів, що містять більшість односкладових слів англійською мовою (майже 3000 слів). Навчаючись на такому великому виборі слів, вибіркових відповідно до частоти їх виникнення англійською мовою, мережа має шанс витягти «правила», які регулюють відображення між орфографією та звуком англійською мовою (такими, якими вони є), і таким чином мати можливість успішно вимовляти неслова.
Англійська мова є особливо складною мовою з точки зору вимови, оскільки кожен знає, хто намагався придбати її як другу мову. Існує дуже мало (якщо такі є) абсолютних правил. Все це скоріше часткова, залежна від контексту закономірність, яку ще називають підрегулярністю. Наприклад, порівняйте вимову літери i в м'яті і підказку (короткий i звук) з цим на увазі і знайдіть (довго я звучу). Кінцева приголосна (t vs. d) визначає вимову, і, звичайно, завжди є винятки, такі як пінта (довгий я звук).
Один із способів класифікувати, наскільки сильна регулярність, полягає в тому, щоб підрахувати, скільки інших букв залежить вимова. Повний виняток, як пінта або яхта, залежить від усіх букв у слові, тоді як м'ята проти розуму залежить від однієї іншої літери в слові (кінцева t або d). Є багато мовчазних прикладів букв, таких як кінцевий e у багатьох словах. Приємною підрегулярністю є буква m, яка залежить від того, чи є поруч з нею n, і в цьому випадку вона мовчить, як у чорт, колонка або мнемоніка. Багато інших приголосні можуть мовчати з різним ступенем підрегулярності, включаючи b (борг), d (красень), h (чесний), l (вдвічі), p (переворот), r ( залізо), s (прохід), t (замок), w (меч), і z (рандеву).
Ще одним фактором, який визначає, скільки контексту потрібно для вимови даної літери, є перевага багатолітерних груп на кшталт th (think), які мають певну регулярну вимову, яка відрізняється від окремих букв окремо. Інші приклади таких включають: сч (школа), tch (батч), gh (привид), ght (праворуч), кн (стук), ph (фото), wh ( що). Одним з найбільш чутливих до контексту набору букв є група ough, як би, жорсткий, кашель, плуг, наскрізь, ніщо, де вимова варіюється в широких межах.
Так що англійська - це безлад. Побудоване слово ghoti є відомим прикладом того, як божевільний він може отримати. Вимовляється «риба», де gh - це звук як у жорсткий, або це і він звучить як у жінок, і це так само, як вона звучить, як у нації.
Щоб будь-яка система могла мати будь-який шанс створити правильну вимову англійської мови, вона повинна бути здатною враховувати діапазон контексту навколо даної літери в слові, аж до всього самого слова. Впливовий ранній підхід до імітації орфографії до звуку в нейронній мережі (Seidenberg & McClelland, 1989) використовував так зване представлення Wickelfeature (названий на честь Уейна Вікельгрена), де написані букви були закодовані парами по три. Наприклад, слово «думати» буде закодовано як thi, hin та ink. Це добре для захоплення контексту, але це трохи жорстко, і не дозволяє значної кількості регулярності в окремих літерах самих (більшу частину часу m - це просто m). Як результат, ця модель не дуже добре узагальнювала неслова, де літери з'являлися в іншій компанії, ніж у реальних словах, використовуваних у навчанні. Наступна модель Плаута, МакКлелланда, Зайденберга та Паттерсона (1996) (далі PMSP) досягла хорошого узагальнення неслів, представляючи вхідні слова за допомогою кодованої вручну комбінації окремих літер одиниць та корисних багатолітерних контекстів (наприклад, a th одиниця).

Ми використовуємо інший підхід у нашій моделі орфографії до звуку (рис. 9.8), використовуючи ідеї з моделі розпізнавання об'єктів, яка була досліджена в главі сприйняття. Зокрема, ми побачили, що модель розпізнавання об'єктів може навчитися створювати все більш складні комбінації ознак, а також розвивати просторову інваріантність на декількох рівнях обробки в ієрархії від V1 до IT. У контексті розпізнавання слів ці складні особливості можуть включати комбінації літер, тоді як просторова інваріантність дозволяє системі розпізнати, що m у будь-якому місці таке ж, як і будь-який інший m (більшу частину часу).
Один переконливий демонстрація важливості просторової інваріантності в читанні походить з цього прикладу, який зробив раунди в електронній пошті кілька років тому:
- Я не можу повірити, що я міг злоякісно використати те, що я був ренайгом. Знімаючи непереможну владу людського розуму, згідно з дослідженням на Cambrigde Uninervitsy, не має значення, в якому порядку літери в слові, єдине бездоганне - це те, що перша і остання літери знаходяться в прямому місці. Решта може бути тотальною мішею, і ви все одно можете прочитати її бездоганно. Це буцеаза людський розум не читає письмовий лист сам по собі, а слово в цілому. Дивовижний, так? Так, і я завжди думав, що slingpg був важливим! Подивіться, якщо ваші батьки можуть прочитати це теж.
Зрозуміло, що це більше зусиль, ніж правильно написаний текст, але вміння читати його взагалі вказує на те, що просто витяг окремих букв інваріантним способом проходить довгий шлях.
| Набір нетворів | ss Модель | ПМСП | Люди |
| Глушко завсідники | 95.3 | 97.7 | 93.8 |
| Глушко виняток сирої | 79.0 | 72.1 | 78.3 |
| Глушко виключення alt ОК | 97.6 | 100.0 | 95.9 |
| Ctrls «Макканн і Безнер» | 85.9 | 85.0 | 88.6 |
| Макканн і Беснер гомоф | 92.3 | Н/Д | 94.3 |
| Тарабан і МакКлелленд | 97.9 | Н/Д | 94.3 |
Таблиця\(9.1\): Порівняння продуктивності читання без слів для нашої моделі орфографії до звуку (ss Model), моделі PMSP та даних від людей, у діапазоні різних наборів даних, що не містять слів, як описано в тексті. Наша модель працює порівняно з людьми, вивчивши майже 3000 англійських односкладових слів.
Щоб перевірити працездатність цього підходу, заснованого на розпізнаванні об'єктів, ми провели його через набір різних стандартних наборів неслів, кілька з яких також використовувались для тестування моделі PMSP. Результати наведені в табл\(9.1\).
- Завсідники Глушко — неслова, побудовані для відповідності сильним закономірностям, наприклад nust, який є повністю регулярним (наприклад, must, bust, trust тощо).
- Винятки Глушко — неслова, які мають схожі англійські виключення та суперечливі закономірності, такі як bint (може бути як м'ята, але також може бути як пінта). Ми оцінюємо ці пункти або за переважною регулярністю, або також включаючи близькі виняткові випадки (alt OK в таблиці).
- Ctrls McCann & Besner - це псевдо-омофони та відповідні елементи керування, які звучать як фактичні слова, але пишуться по-новому, наприклад choyce (вимовляється як вибір), а відповідне управління - фойс.
- Taraban & McClelland - має частоту, що відповідає регулярним та винятковим несловам, наприклад, poes (як високочастотні слова йде чи робить), і mose, як нижча частота позу або програє.
Результати вказують на те, що модель робить надзвичайно хорошу роботу, фіксуючи продуктивність людей на цих нетворчих наборах для читання. Це говорить про те, що модель здатна засвоювати відповідні закономірності і підзакономірності, які присутні в статистиці англійської вимови.
Розвідка
- Відкрийте Spelling to Sound, щоб вивчити орфографічну модель звуку та перевірити її ефективність як на словах, так і на несловних подразниках.
