Skip to main content
LibreTexts - Ukrayinska

4.4: Коли саме є результат, який повинен стимулювати навчання

  • Page ID
    72427
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    fig_expect_outcome_errs.png
    Малюнок\(4.12\): Різні ситуації, які спричиняють контраст між очікуваннями та результатами. а) Найпростіший випадок явного введення вчителя/батьків - візуальний вхід (наприклад, об'єкт) в той час t призводить до вербального виходу (наприклад, назва об'єкта), а потім вчитель виправляє (або підтверджує) Вихід. б) Той самий сценарій може пройти, фактично не виробляючи словесного результату - замість цього просто очікування того, що може сказати хтось інший, і це можна порівняти з тим, що насправді кажуть, щоб отримувати корисні сигнали про помилки. в) Це конкретний випадок, коли багато очікувань, ймовірно, буде сформовано, коли рухова дія (наприклад, відштовхування їжі з високого стільчика) призводить до очікування щодо візуальних результатів, пов'язаних з дією, які потім відбуваються (до, здавалося б, нескінченного захоплення пустотливого немовляти). г) передбачає «очікування» про те, що ви насправді щойно побачили - реконструкцію або генерування входу (інакше відомого як генеративна модель або автокодер) - сам вхід служить власним навчальним сигналом у цьому випадку.

    Це найбільше питання, що залишилося для навчання, керованого помилками. Можливо, ви навіть не помітили цієї проблеми, але як тільки ви починаєте думати про реалізацію рівнянь XCAL на комп'ютері, це швидко стає головною проблемою. Ми говорили про те, як навчання, кероване помилками, відображає різницю між результатом та очікуванням, але насправді важливо, щоб короткострокова середня активація, що представляє стан результату, відображає якийсь фактичний результат, про який варто дізнатися. Рисунок 4.12 ілюструє чотири основні категорії ситуацій, в яких може виникнути стан результату, який може відтворюватися безліччю способів в різних реальних ситуаціях.

    У наших останніх рамках, описаних коротко вище, терміни очікування-результату вказані з точки зору альфа-випробування 100 msec. І в рамках цього випробування комбінована схема між глибокими неокортикальними шарами та таламусом в кінцевому підсумку виробляє стан результату, який керує прогнозним навчанням авто-кодера, що в основному є останнім випадком (d) на малюнку 4.12, з додатковим поворотом, який протягом кожні 100 мс альфа trial, мережа намагається передбачити, що станеться в найближчі 100 мс — прогнозний аспект ідеї автокодера. Зокрема, глибокі шари намагаються передбачити, як виглядатиме картина активності знизу вгору над таламусом в останньому плюс-фазовому кварталі альфа-випробування, на основі активацій, присутніх під час попереднього альфа-випробування. Через велику двонаправлену зв'язок між ділянками мозку крос-модальна послідовність очікування/виведення, показана на панелі (b) малюнка 4.12, також підтримується цим механізмом. Пізніше доопрацювання цього тексту буде висвітлювати ці ідеї більш детально. Попередні версії доступні: (O'Reilly, Wyatte, & Rohrlich, 2014; Kachergis, Wyatte, O'Reilly, Kleijn, & Hommel, 2014).

    Ще одна гіпотеза чогось, що «відзначає» наявність важливого результату, - це фазовий сплеск нейромодулятора, такого як дофамін. Добре встановлено, що сплески дофаміну відбуваються, коли виникає несподіваний результат, принаймні в контексті очікувань винагороди чи покарання (ми детально обговоримо це в розділі навчання з управління двигуном та підкріпленням). Крім того, ми знаємо з ряду досліджень, що дофамін відіграє сильну роль у модуляції синаптичної пластичності. Відповідно до цієї гіпотези, коркова мережа завжди гуде вздовж виконання стандартного BCM-подібного самоорганізованого навчання з відносно низькою швидкістю навчання (через невеликого лямбда-параметра в комбінованому рівнянні XCAL, що, імовірно, відповідає швидкості синаптичної пластичності, пов'язаної з базовою лінією тоніка рівні дофаміну), а потім, коли відбувається щось несподіване, вибух дофаміну призводить до сильнішого навчання, керованого помилками, з негайним короткостроковим середнім «позначенням» розриву дофаміну як пов'язане з цим важливим (виразним) результатом. Навчання XCAL автоматично контрастує це негайне короткострокове середнє значення з одразу доступним середньостроковим середнім, що, імовірно, відображає важливий внесок від попереднього стану очікування, який був щойно порушений результатом.

    Є багато інших можливих ідей щодо того, як відзначається час для навчання, керованого помилками, деякі з яких включають локальну динаміку, що виникає в самій мережі, а інші, які включають інші нейромодулятори або мережі з широким підключенням для трансляції відповідного сигналу «навчитися зараз». З усього, що ми знаємо про мозок, ймовірно, є кілька таких навчальних сигналів, кожен з яких корисний у певній підмножині ситуацій. Це активний напрямок поточних досліджень.