4.4: Коли саме є результат, який повинен стимулювати навчання
- Page ID
- 72427

Це найбільше питання, що залишилося для навчання, керованого помилками. Можливо, ви навіть не помітили цієї проблеми, але як тільки ви починаєте думати про реалізацію рівнянь XCAL на комп'ютері, це швидко стає головною проблемою. Ми говорили про те, як навчання, кероване помилками, відображає різницю між результатом та очікуванням, але насправді важливо, щоб короткострокова середня активація, що представляє стан результату, відображає якийсь фактичний результат, про який варто дізнатися. Рисунок 4.12 ілюструє чотири основні категорії ситуацій, в яких може виникнути стан результату, який може відтворюватися безліччю способів в різних реальних ситуаціях.
У наших останніх рамках, описаних коротко вище, терміни очікування-результату вказані з точки зору альфа-випробування 100 msec. І в рамках цього випробування комбінована схема між глибокими неокортикальними шарами та таламусом в кінцевому підсумку виробляє стан результату, який керує прогнозним навчанням авто-кодера, що в основному є останнім випадком (d) на малюнку 4.12, з додатковим поворотом, який протягом кожні 100 мс альфа trial, мережа намагається передбачити, що станеться в найближчі 100 мс — прогнозний аспект ідеї автокодера. Зокрема, глибокі шари намагаються передбачити, як виглядатиме картина активності знизу вгору над таламусом в останньому плюс-фазовому кварталі альфа-випробування, на основі активацій, присутніх під час попереднього альфа-випробування. Через велику двонаправлену зв'язок між ділянками мозку крос-модальна послідовність очікування/виведення, показана на панелі (b) малюнка 4.12, також підтримується цим механізмом. Пізніше доопрацювання цього тексту буде висвітлювати ці ідеї більш детально. Попередні версії доступні: (O'Reilly, Wyatte, & Rohrlich, 2014; Kachergis, Wyatte, O'Reilly, Kleijn, & Hommel, 2014).
Ще одна гіпотеза чогось, що «відзначає» наявність важливого результату, - це фазовий сплеск нейромодулятора, такого як дофамін. Добре встановлено, що сплески дофаміну відбуваються, коли виникає несподіваний результат, принаймні в контексті очікувань винагороди чи покарання (ми детально обговоримо це в розділі навчання з управління двигуном та підкріпленням). Крім того, ми знаємо з ряду досліджень, що дофамін відіграє сильну роль у модуляції синаптичної пластичності. Відповідно до цієї гіпотези, коркова мережа завжди гуде вздовж виконання стандартного BCM-подібного самоорганізованого навчання з відносно низькою швидкістю навчання (через невеликого лямбда-параметра в комбінованому рівнянні XCAL, що, імовірно, відповідає швидкості синаптичної пластичності, пов'язаної з базовою лінією тоніка рівні дофаміну), а потім, коли відбувається щось несподіване, вибух дофаміну призводить до сильнішого навчання, керованого помилками, з негайним короткостроковим середнім «позначенням» розриву дофаміну як пов'язане з цим важливим (виразним) результатом. Навчання XCAL автоматично контрастує це негайне короткострокове середнє значення з одразу доступним середньостроковим середнім, що, імовірно, відображає важливий внесок від попереднього стану очікування, який був щойно порушений результатом.
Є багато інших можливих ідей щодо того, як відзначається час для навчання, керованого помилками, деякі з яких включають локальну динаміку, що виникає в самій мережі, а інші, які включають інші нейромодулятори або мережі з широким підключенням для трансляції відповідного сигналу «навчитися зараз». З усього, що ми знаємо про мозок, ймовірно, є кілька таких навчальних сигналів, кожен з яких корисний у певній підмножині ситуацій. Це активний напрямок поточних досліджень.