7.3: Навчання підкріплення дофаміну та тимчасової різниці
- Page ID
- 72618

Хоча ми розглядали вище, як фазові зміни дофаміну можуть змусити Go та NoGo навчитися вибирати найбільш корисні дії та уникати менш корисних, ми не розглядали вище, як нейрони дофаміну представляють ці фазові сигнали для навчання водінню. Одним з найбільш захоплюючих відкриттів за останні роки було висновок, що нейрони дофаміну в вентральній тегментальній області (VTA) та substantia nigra pars compacta (SnC) поводяться відповідно до моделей навчання підкріплення на основі помилки прогнозування винагороди. На відміну від деяких популярних помилок, ці дофамінові нейрони не кодують сире значення винагороди безпосередньо. Натомість вони кодують різницю між отриманою винагородою та очікуванням винагороди. Це показано на малюнку 7.5: якщо немає очікування винагороди, то дофамінові нейрони спалюють до винагороди, відображаючи позитивну похибку прогнозування винагороди (нульове очікування, позитивна винагорода). Якщо умовний стимул (CS, наприклад, тон або світло) надійно пророкує подальшу винагороду, то нейрони більше не стріляють на саму нагороду, відображаючи відсутність помилки прогнозування винагороди (очікування = винагорода). Натомість нейрони дофаміну спаламують до початку КС. Якщо винагороду опускають після КС, то нейрони дофаміну фактично йдуть іншим шляхом («занурення» або «пауза» в інакше низькому тонічному рівні випалу дофамінового нейрона), відображаючи негативну помилку прогнозування винагороди (позитивне прогнозування винагороди, нульова винагорода).
Обчислювально найпростішою моделлю помилки прогнозування винагороди є модель кондиціонування Рескорла-Вагнера, яка математично ідентична правилу дельти, як обговорюється в розділі Механізми навчання, і є просто різницею між фактичною винагородою та очікувана винагорода:
- \(\delta=r-\hat{r}\)
- \(\delta=r-\sum x w\)
де\(\delta\) («дельта») - помилка прогнозування винагороди, r - сума фактично отриманої винагороди, і\(\hat{r}=\sum x w\) сума очікуваної винагороди, яка обчислюється як зважена сума над\(x\) вхідними стимулами з вагами\(w\). Ваги пристосовуються, щоб спробувати точно передбачити фактичні значення винагороди, і насправді це дельта-значення визначає напрямок, в якому ваги повинні змінюватися:
- \(\Delta w=\delta x\)
Це ідентично правилу дельта-навчання, включаючи важливу залежність від стимулюючої активності\(x\) - ви хочете лише змінити ваги для стимулів, які насправді присутні (тобто\(x\) ненульові).
Коли прогноз винагороди є правильним, фактичне значення винагороди скасовується прогнозом, як показано на другій панелі на малюнку 7.5. Це правило також точно прогнозує інші випадки, показані на малюнку теж (позитивні та негативні помилки прогнозування винагороди).
Те, що модель Rescorla-Wagner не вдається захопити, - це випал дофаміну до початку CS на другій панелі на малюнку 7.5. Однак трохи складніша модель, відома як правило навчання тимчасових відмінностей (TD), захоплює цей запуск CS-настання, шляхом введення часу в рівняння (як випливає з назви). Відносно Rescorla-Wagner, TD просто додає один додатковий термін до дельта-рівняння, представляючи майбутні значення винагороди, які можуть з'явитися пізніше:
- \(\delta=(r+f)-\hat{r}\)
де\(f\) представляє майбутні нагороди, і тепер очікування винагороди\(\hat{r}=\sum x w\) має намагатися передбачити як поточну винагороду, так\(r\) і цю майбутню винагороду\(f\). У простому обумовлювальному завданні, де КС надійно прогнозує подальшу винагороду, наступ КС призводить до збільшення цього\(f\) значення, тому що, як тільки КС надійде, велика ймовірність винагороди найближчим часом. Крім того, це\(f\) саме по собі не передбачувано, тому що настання КС не передбачається жодним більш раннім києм (а якщо це було, то що раніше кий був би справжнім КС, а диск дофаміну лопнув). Тому\(\hat{r}\) очікування не може скасувати\(f\) значення, і виникає сплеск дофаміну.
Хоча це\(f\) значення пояснює випал дофаміну CS-настання, воно викликає питання про те, як система може знати, які нагороди приходять в майбутньому? Як і все, що стосується майбутнього, ви принципово просто повинні здогадатися, використовуючи минуле як свого керівництва якнайкраще. TD робить це, намагаючись забезпечити узгодженість оцінок винагороди з плином часу. Фактично, оцінка в часі\(t\) використовується для навчання оцінки в той час\(t-1\), і так далі, щоб зберегти все якомога послідовніше протягом часу, і відповідно до фактичних винагород, які отримуються з часом.
Все це можна отримати дуже задовольняючим способом, вказавши щось відоме як функція значення, V (t), яка є сумою всіх нинішніх та майбутніх нагород, з майбутніми винагородами, зниженими на коефіцієнт «гамма», який фіксує інтуїтивне поняття, яке винагороджує далі в майбутнє коштують менше тих, які настануть раніше. Як каже персонаж Wimpy в Popeye, «Я з радістю заплачу вам у вівторок за гамбургер сьогодні». Ось та функція значення, яка є нескінченною сумою, що йде в майбутнє:
- \(V(t)=r(t)+\gamma^{1} r(t+1)+\gamma^{2} r(t+2) \ldots\)
Ми можемо позбутися нескінченності, написавши це рівняння рекурсивно:
- \(V(t)=r(t)+\gamma V(t+1)\)
А оскільки ми нічого точно не знаємо, всі ці ціннісні терміни дійсно є оцінками, позначаються маленькими «капелюшками» над ними:
- \(\hat{V}(t)=r(t)+\gamma \hat{V}(t+1)\)
Отже, це рівняння говорить нам, якою\(t\) має бути наша оцінка на поточний час, з точки зору майбутньої оцінки в часі\(t+1\). Далі ми віднімаємо\(\hat{V}\) з обох сторін, що дає нам вираз, який є ще одним способом вираження вищевказаної рівності — що різниця між цими термінами повинна дорівнювати нулю:
- \(0=(r(t)+\hat{V}(t+1))-\hat{V}(t)\)
Це математично стверджує, що TD намагається тримати оцінки узгодженими з часом - їх різниця повинна бути нульовою. Але коли ми вивчаємо наші\(\hat{V}\) оцінки, ця різниця не буде нульовою, і насправді ступінь, в якій вона не дорівнює нулю, - це ступінь помилки прогнозування винагороди:
- \(\delta=(r(t)+\hat{V}(t+1))-\hat{V}(t)\)
Якщо порівняти це з рівнянням\(f\) у ньому вище, ви можете побачити, що:
- \(f=\gamma \hat{V}(t+1)\)
і в іншому випадку все інше те ж саме, за винятком того, що ми з'ясували залежність від часу всіх змінних, і наше очікування винагороди тепер є «очікуванням вартості» замість (заміна\(\hat{r}\) на a\(\hat{V}\)). Також, як і у випадку з Rescorla-Wagner, дельта значення тут сприяє вивченню очікувань цінності.
Правило навчання TD може бути використано для пояснення великої кількості різних кондиціонуючих явищ, і його відповідність зі стрільбою нейронів дофаміну в мозку призвело до великого прогресу в дослідженнях. Він являє собою справжній тріумф підходу до обчислювального моделювання для розуміння (і прогнозування) функції мозку.
Розвідка навчання TD
Відкрийте RL для дослідження навчання підкріплення на основі TD у простих парадигмах кондиціонування. Це дослідження повинно допомогти зміцнити ваше розуміння навчання підкріплення, помилки прогнозування винагороди та простого класичного кондиціонування.
Архітектура актор-критик для рухового навчання

Тепер, коли ви маєте краще уявлення про те, як працює дофамін, ми можемо переглянути його роль у модулюванні навчання в базальних гангліях (як показано на малюнку 7.4). З обчислювальної точки зору ключовою ідеєю є відмінність між актором та критиком (рис. 7.6), де передбачається, що винагороди виходять принаймні частково від правильного виконання актором. Базальні ганглії є актором в даному випадку, а сигнал дофаміну - вихід критика, який потім служить тренувальним сигналом для актора (і критика теж, як ми бачили раніше). Сигнал помилки прогнозування винагороди, вироблений системою дофаміну, є хорошим навчальним сигналом, оскільки він сприяє більш сильному навчанню на початку процесу придбання навичок, коли винагороди є більш непередбачуваними та зменшують навчання, оскільки майстерність вдосконалюється, і нагороди, таким чином, більш передбачувані. Якби система замість цього навчилася безпосередньо на основі зовнішніх винагород, вона продовжувала б дізнаватися про навички, які давно освоєні, і це, ймовірно, призведе до ряду поганих наслідків (синаптичні ваги, що ростуть все сильніше, втручання в інші нові навчання тощо).

Крім того, ознака помилки прогнозування винагороди підходить для впливу дофаміну на шляхи Go та NoGo у стріатумі, як ми бачили в проекті моделі BG вище. Позитивні помилки прогнозування винагороди, коли отримані несподівані нагороди, вказують на те, що вибрана дія була кращою, ніж очікувалося, і таким чином Go стрільба за цю дію повинна бути збільшена в майбутньому. Підвищена активація, вироблена дофаміном на цих нейронів Go, матиме цей ефект, припускаючи, що навчання керується цими рівнями активації. І навпаки, негативні помилки прогнозування винагороди полегшать стрільбу NoGo, змушуючи систему уникати цієї дії в майбутньому. Дійсно, складна нейронна модель схеми BG Go/nogo може бути спрощена більш формальним аналізом в модифікованій акторсько-критичній архітектурі під назвою Opponent Actor Learning (OpPal; Рис. 7.7), де актор розділений на незалежні G і N ваги противника, і де їх відносний внесок становить сам впливає на рівень дофаміну під час навчання та вибору (Collins & Frank 2014).
Нарешті, здатність сигналу дофаміну поширюватися назад у часі має вирішальне значення для подолання неминучих затримок між руховими діями та наступними нагородами. Зокрема, реакція дофаміну повинна рухатися від часу винагороди до часу дії, яка надійно прогнозує винагороду, так само, як вона рухається в часі до настання КС у класичній парадигмі кондиціонування.
Модель PVLV біології DA

Можливо, ви помітили, що ми ще не пояснили на біологічному рівні, як нейрони дофаміну в VTA та SnC насправді виявляють свою помилку прогнозування винагороди. Зростає кількість даних, що підтверджують залучення ділянок мозку, показаних на малюнку 7.8:
- Бічний гіпоталамус (LHA) забезпечує основний сигнал винагороди за основні нагороди, такі як їжа, вода тощо.
- Патч-подібні нейрони в черевній смузі (VS-патч) мають прямі інгібуючі зв'язки на нейрони дофаміну в VTA і SnC, і, ймовірно, відіграють роль скасування впливу первинних сигналів винагороди, коли ці нагороди успішно прогнозовані.
- Центральне ядро мигдалини (CNA) має важливе значення для приведення дофаміну до виникнення умовних подразників. Він отримує широко від кори і прямо і опосередковано проектує на VTA і SnC. Нейрони в CNA демонструють стрільбу, пов'язану з CS.

Враховуючи, що існують різні області мозку, що беруть участь у цих різних аспектах випалу дофаміну, виникає питання про те, як, здавалося б, уніфікований алгоритм навчання TD може бути реалізований у таких різних областях мозку? У відповідь на це основне питання була розроблена модель PVLV випалу дофаміну. PVLV розшифровується як первинна цінність, вивчена цінність, і ключова ідея полягає в тому, що різні структури мозку задіяні в той час, коли відчуваються первинні цінності, в порівнянні з тим, коли виникають умовні стимули (вивчені цінності). Це потім вимагає іншої математичної формулювання, в порівнянні з TD.
Сигнал дофаміну в PVLV для первинних значень (PV), який діє в той час, коли зовнішні винагороди доставляються або очікуються, ідентичний Rescorla-Wagner, просто використовуючи різні мітки для змінних:
- \(\delta_{p v}=r-\hat{r}\)
- \(\delta_{p v}=P V_{e}-P V_{i}\)
Де збуджуючі (\(e\)) і інгібіторні (\(i\)) індекси позначають дві складові первинної системи цінностей, і ознака їх впливу на випал дофаміну.
Сигнал дофаміну для вивчених значень (LV) застосовується всякий раз, коли PV не має (тобто, коли зовнішні винагороди відсутні або очікувані), і він має подібну форму:
- \(\delta_{l v}=L V_{e}-L V_{i}\)
Де\(L V_{e}\) знаходиться збудливий привід на дофамін з ЦНС, який вчиться реагувати на КС. \(L V_{i}\)є протидіючим гальмівним приводом, знову вважалося пов'язаним з патч-подібними нейронами черевної смуги. Він вчиться набагато повільніше, ніж\(L V_{e}\) система, і врешті-решт навчиться скасовувати відповіді на дофамін, пов'язані з CS, як тільки ці CS стануть добре знайомими (за короткий проміжок часу більшості експериментів).
\(P V_{i}\)Значення вивчаються так само, як у правилі дельти або Rescorla-Wagner, і\(L V_{i}\) цінності\(L V_{e}\) і вивчаються аналогічним чином, за винятком того, що їх навчальний сигнал керується безпосередньо від значень\(P V_{e}\) винагороди і відбувається лише тоді, коли зовнішні винагороди присутні або очікувані. Це критично важливо для того, щоб дозволити\(L V_{e}\), наприклад, активуватися під час початку CS, коли немає фактичного значення винагороди. \(L V_{e}\)Якби завжди навчився відповідати поточному значенню\(P V_{e}\), то ця відсутність\(P V_{e}\) значення при настанні CS швидко усуне\(L V_{e}\) відповідь тоді. Дивіться PVLV Learning для повного набору рівнянь, що регулюють вивчення компонентів LV та PV.
Існує ряд цікавих властивостей обмежень навчання в системі PVLV. По-перше, КС ще повинна бути активною в момент отримання зовнішньої винагороди, щоб\(L V_{e}\) система дізналася про неї, так як ЛВ вчиться тільки в момент зовнішньої винагороди. Якщо сама CS відключається, то деяка пам'ять про неї повинна бути витримана. Це добре поєднується з відомими обмеженнями на навчання CS у парадигмах кондиціонування. По-друге, сплеск дофаміну під час початку CS не може впливати на навчання в самій системі ЛШ - інакше був би неперевірений цикл позитивного зворотного зв'язку. Одним з наслідків цього є те, що система LV не може підтримувати кондиціонування другого порядку, де перший CS прогнозує другу CS, яка потім прогнозує винагороду. Відповідно до цього обмеження, CNA (тобто\(L V_{e}\)), здається, бере участь лише в кондиціонуванні першого порядку, тоді як базолатеральне ядро мигдалини (BLA) необхідне для кондиціонування другого порядку. Крім того, не існує багато доказів для третіх або вищих замовлень кондиціонування. Нарешті, існує безліч конкретних даних про відмінності в навчанні CS проти США, які відповідають структурі PVLV (див. Hazy et al, 2010 для ретельного огляду).
Коротше кажучи, система PVLV може пояснити, як різні біологічні системи беруть участь у генерації фазових дофамінових реакцій як функції асоціацій винагороди, таким чином, що, здається, відповідає іншим дещо своєрідним обмеженням системи. Крім того, ми побачимо в розділі виконавчої функції, що PVLV забезпечує більш чистий навчальний сигнал для управління роллю базальних гангліїв у системі робочої пам'яті префронтальної кори.
Розвідка ПВЛВ
- Модель PVLV тих же простих випадків кондиціонування, що досліджена в моделі TD: PVLV
