Skip to main content
LibreTexts - Ukrayinska

4.3: Розширена модель навчання контрастивного атрактора (XCAL)

  • Page ID
    72411
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Функція навчання, яку ми приймаємо для моделей у решті цього тексту, називається правилом Extended Contrastive Attractor Learning (XCAL). (Основа для цього неймінга стане зрозумілою пізніше). Ця функція навчання була отримана через конвергенцію підходів знизу вгору (мотивовано детальними біологічними міркуваннями) та зверху вниз (мотивовано обчислювальними дезидератами) підходів. У виведенні знизу вгору ми витягли емпіричну функцію навчання (звану функцією XCAL DWT) з високобіологічно деталізованої обчислювальної моделі відомих синаптичних механізмів пластичності, Уракубо, Хонда, Фромке та Курода (2008) (див. Детальна біологія навчання докладніше). Їх модель будується в детальних параметрах хімічної швидкості та константах дифузії тощо, заснованих на емпіричних вимірах, для всіх основних біологічних процесів, що беруть участь у синаптичній пластичності. Ми фіксуємо більшу частину неймовірної складності моделі Urakubo, Honda, Froemke, & Kuroda (2008) (і, надалі, сподіваюся, складність фактичних механізмів синаптичної пластичності в мозку), використовуючи просту кусково-лінійну функцію, показану нижче, яка виходить з неї. Ця функція XCAL dWT дуже нагадує функцію, показану на малюнку 4.2, будуючи залежність синаптичної пластичності від рівнів Ca++. Це також дуже нагадує функцію навчання Bienenstock, Cooper, & Munro (1982) (BCM).

    Підхід «зверху вниз» використовує ключову ідею, що стоїть за функцією навчання BCM, яка полягає у використанні плаваючого порогу для визначення кількості активності, необхідної для виявлення LTP проти LTD (див. Рисунок 4.2). Зокрема, поріг не фіксується при певному значенні, а натомість коригується як функція середніх рівнів активності розглянутого постсинаптичного нейрона протягом тривалого періоду часу, що призводить до гомеостатичної динаміки. Нейрони, які були відносно неактивними, можуть легше збільшити свою синаптичну вагу при нижчих рівнях активності, і, таким чином, можуть «повернутися в гру». І навпаки, нейрони, які були відносно гіперактивними, частіше зменшують свою синаптичну вагу та «припиняють все».

    Як ми побачимо нижче, ця функція сприяє корисному самоорганізованому навчанню, де різні нейрони приходять для вилучення різних аспектів статистичної структури в даному середовищі. Але чисто самоорганізуючі механізми сильно обмежені в тому, що вони можуть навчитися - вони керуються статистичними узагальненнями (наприклад, тварини мають чотири ноги) і не здатні більш прагматично адаптуватися до функціональних вимог, з якими стикається організм. Наприклад, деякі об'єкти важливіші для розпізнавання, ніж інші (наприклад, друзі та вороги важливі, випадкові рослини або шматки сміття чи сміття, не так багато).

    Для досягнення цих більш прагматичних цілей нам потрібне навчання, кероване помилками, де навчання зосереджено саме на виправленні помилок, а не лише на категоризацію статистичних моделей. На щастя, ми можемо використовувати той самий плаваючий пороговий механізм для досягнення навчання, керованого помилками, в тій же загальній математичній структурі, адаптуючи поріг за швидшою шкалою часу. У цьому випадку ваги збільшуються, якщо стани активності перевищують їх найновіші рівні, і навпаки, ваги зменшуються, якщо рівні активності знижуються відносно попередніх станів. Таким чином, ми можемо думати про останні рівні активності (поріг) як відображення очікувань, які згодом порівнюються з фактичними результатами, з різницею (або «помилкою») навчання водінню. Оскільки обидві форми навчання (самоорганізуючі та керовані помилками) є досить корисними та використовують однакові математичні рамки, ми інтегруємо їх обидві в єдиний набір рівнянь з двома пороговими значеннями, що відображають інтегровані рівні активності в різних часових масштабах (недавній та довгостроковий середній).

    Далі ми опишемо функцію XCAL DWT (DWT = зміна ваги), перш ніж описувати, як вона захоплює обидві форми навчання з подальшою їх інтеграцією в єдину єдину структуру (включаючи обіцяне пояснення її назви!).

    Функція XCAL DWT

    fig_xcal_dwt_fun.png
    Малюнок\(4.4\): Функція XCAL dWT, що показує напрямок та величину синаптичних змін ваги (dWT) як функція короткочасної середньої активності нейрона-відправника (\(x\)) разів приймаючого нейрона (\(y\)). Ця величина є простим математичним наближенням до рівня постсинаптичного Ca++, що відображає залежність каналу NMDA як від посилаючої, так і приймальної нейронної активності. Ця функція була витягнута безпосередньо з детальної біофізичної моделі Urakubo, Honda, Froemke та Kuroda (2008), шляхом встановлення кусково-лінійної функції до синаптичної поведінки зміни ваги, яка виникає з неї як функція широкого діапазону надсилання та отримання шипових моделей.

    Функція XCAL DWT, витягнута з моделі Urakubo, Honda, Froemke та Kuroda (2008), показана на малюнку 4.4. По-перше, основним входом в цю функцію є сумарна синаптична активність, що відображає швидкість стрільби і тривалість активності посилаючих і приймальних нейронів. У математичному плані для моделі коду швидкості з швидкістю надсилання x та швидкістю отримання активності y, це буде просто продукт «Hebbian», який ми описали вище:

    • \(\Delta w=f_{x c a l}\left(x y, \theta_{p}\right)\)

    де\(f_{x c a l}\) - кусково-лінійна функція, показана на малюнку 4.4. Зміна ваги також залежить від додаткового динамічного порогового параметра\(\theta_{p}\), який визначає точку, в якій він перетинає від негативних до позитивних змін ваги — тобто точки, в якій вага змінює зворотний знак. Для повноти, ось математичний вираз цієї функції, але вам потрібно лише зрозуміти її форму, як показано на малюнку:

    • \(f_{x c a l}\left(x y, \theta_{p}\right)=\left\{\begin{array}{ll}{\left(x y-\theta_{p}\right)} & {\text { if } x y>\theta_{p} \theta_{d}} \\ {-x y\left(1-\theta_{d}\right) / \theta_{d}} & {\text { otherwise }}\end{array}\right.\)

    де\(\theta_{d}=.1\) - константа, яка визначає точку, де функція змінює напрямок (тобто назад до нуля в режимі зниження ваги) - ця точка розвороту відбувається в\(\theta_{p} \theta_{d}\), так що вона адаптується відповідно до динамічного\(\theta_{p}\) значення.

    Як зазначалося в попередньому розділі, залежність каналу NMDA від активності як посилаючих, так і приймаючих нейронів можна узагальнити за допомогою цього простого Hebbian продукту, і рівень внутрішньоклітинного Ca ++, ймовірно, відображає це значення. Таким чином, функція XCAL DWT має дуже хороший сенс у цих термінях: вона відображає якісний характер змін ваги як функції Ca++, яка була встановлена з емпіричних досліджень і постулюється іншими теоретичними моделями протягом тривалого часу. Модель Уракубо імітує детальні ефекти до/постсинаптичного спайку часу на рівні Ca ++ та пов'язані з ними LTP/LTD, але те, що випливає з цих ефектів на рівні швидкості стрільби, - це набагато простіша фундаментальна функція.

    Як функція навчання, ця основна функція XCAL DWT має деякі переваги перед простою функцією Hebbian, при цьому поділяє свою основну природу через термін «pre* post» в його основі. Наприклад, через форму функції DWT ваги будуть знижуватися, а також вгору, тоді як функція Hebbian лише змушує збільшуватися ваги. Але все ще є проблема, що ваги будуть збільшуватися без обмежень (до тих пір, поки рівні активності часто перевищують поріг). У наступному розділі ми побачимо, що деякі інші модифікації згори вниз обчислювально-мотивовані можуть призвести до більш потужної форми навчання, зберігаючи цю основну форму.

    Самоорганізоване навчання: довгострокові шкали та модель BCM

    fig_bcm_function.png
    Малюнок\(4.5\): Форма функції навчання BCM. Зверніть увагу на подібність якісної форми як до функції XCAL dWT, так і синаптичної пластичності як функції Ca++.

    Основна обчислювальна мотивація походить від лінії навчальних функцій, яка почалася з Bienenstock, Cooper, & Munro (1982), з цими ініціалами, що породжують назву функції: BCM. (Цікаво, що Леон Купер, лаурат Нобелівської премії з фізики, також був «центральним» в теорії надпровідності БКС). Функція BCM - це модифікована форма навчання Hebbian, яка включає цікавий гомеостатичний механізм, який утримує окремі нейрони від стрільби занадто багато або занадто мало з часом:

    • \(\Delta w=x y(y-\theta)\)

    де знову\(x\) = посилаюча активність,\(y\) = приймальна активність, і\(\theta\) являє собою плаваючий поріг, що відображає тривале середнє значення активності приймального нейрона:

    • \(\theta=\left\langle y^{2}\right\rangle\)

    де\(\langle \rangle\) вказується очікуване значення або середнє, в даному випадку квадрата активації приймаючого нейрона. На малюнку 4.5 показано, як виглядає ця функція в цілому - форма, яка повинна стати досить звичною. Дійсно, той факт, що функція навчання BCM передбачала якісну природу синаптичної пластичності як функції Ca++ (рис. 4.2), є дивовижним прикладом теоретичного передбачення. Крім того, дослідники BCM показали, що він добре справляється з обліком різних явищ поведінкового навчання, забезпечуючи кращу відповідність, ніж порівнянний механізм навчання Hebbian (рис. 4.6, (Cooper, Intrator, Blais, & Shouval, 2004)).

    1200px-fig_kirkwood_et_al_96_bcm_thresh.png
    Малюнок\(4.6\): Дані синаптичної пластичності від темних вирощених (заповнених кіл) та нормально вихованих (відкритих кіл) щурів, що показують, що темні вирощені щури, здається, мають нижчий поріг для LTP, що відповідає плаваючому порогу BCM. Нейрони у цих тварин, мабуть, набагато менш активні в цілому, і, таким чином, їх поріг рухається вниз, що робить їх більш імовірними, щоб показати LTP відносно LTD. Репродуковано з Кірквуда, Ріулта та Ведмідь (1996).

    BCM зазвичай застосовується в простих мережах подачі, в яких, враховуючи схему введення, існує лише одне значення активації для кожного нейрона. Але як слід оновлювати ваги в більш реалістичній двонаправлено пов'язаній системі з динамікою атракторів, в якій стану активності безперервно розвиваються через час? Ми стикаємося з цим питанням у версії XCAL рівнянь BCM:

    • \(\Delta w=f_{x c a l}\left(x y,\langle y\rangle_{l}\right)=f_{x c a l}\left(x y, y_{l}\right)\)

    де\(x y\) розуміється короткочасна середня синаптична активність (за часовою шкалою в кілька сотень мілісекунд — часова шкала накопичення Ca++, що керує синаптичною пластичністю), яка може бути більш формально виражена як:\(\langle x y\rangle_{s}\), і\(y_{l}=\langle y\rangle_{l}\) є довгостроковою середня активність постсинаптичного нейрона (тобто по суті така ж, як і в BCM, але без квадратизації), який грає роль\(\theta_{p}\) плаваючого порогового значення в функції XCAL.

    Після значних експериментів ми знайшли наступний спосіб обчислення\(y_{l}\) плаваючого порогу, щоб забезпечити найкращу здатність контролювати поріг та досягти найкращої загальної динаміки навчання:

    • \(\begin{array}{l}{\text { if } y>.2 \text { then } y_{l}=y_{l}+\frac{1}{\tau_{l}}\left(\max -y_{l}\right)} \\ {\text { else } y_{l}=y_{l}+\frac{1}{\tau}\left(\min -y_{l}\right)}\end{array}\)

    Це створює добре керований експоненціальний підхід до максимальних або мінімальних екстремумів залежно від того, чи перевищує активність приймальної одиниці основний поріг активності 0,2. Константа часу для інтеграції за замовчуванням\(\tau_{l}\) становить 10 - інтеграція близько 10 випробувань. Докладніше про обговорення див. підтему Xcal_details.

    fig_xcal_bcm_selforg_learn.png
    Малюнок\(4.7\): Як плаваючий поріг як функція довгострокової середньої нейронної активності приймача\(\langle y\rangle_{l}\) керує гомеостатичною поведінкою. Нейрони, які мають низьку середню активність, набагато частіше збільшують свою вагу, оскільки поріг низький, тоді як ті, які мають високу середню активність, набагато частіше зменшують свою вагу, оскільки поріг високий.

    На малюнку 4.7 показана основна якісна поведінка цього механізму навчання: коли довгострокова середня активність приймача низька, поріг рухається вниз, і, таким чином, більш імовірно, що короткострокове значення синаптичної активності потрапить на територію позитивної зміни ваги. Це, як правило, збільшить синаптичну вагу в цілому, і, таким чином, зробить нейрон більш схильним до активізації в майбутньому, досягаючи гомеостатичної мети. І навпаки, коли довгострокова середня активність приймача висока, поріг також високий, і, таким чином, короткострокова синаптична активність, швидше за все, зменшує вагу, ніж збільшується. Це призведе ці надмірно активні нейрони вниз на виїмку або два, тому вони не в кінцевому підсумку домінують над діяльністю мережі.

    Динаміка самоорганізованого навчання

    Ця здатність поширювати нейронну активність навколо більш справедливим чином виявляється критичною для самоорганізованого навчання, оскільки вона дозволяє нейронам ефективніше та ефективніше покривати простір речей для представлення. Щоб зрозуміти, чому, ось критичні елементи динаміки самоорганізованого навчання (див. подальше дослідження моделювання, щоб дійсно відчути, як це все працює на практиці):

    • Інгібуюча конкуренція — тільки найбільш сильно керовані нейрони перевищують гальмівний поріг і можуть активізуватися. Це ті, чиї поточні синаптичні ваги найкраще відповідають («виявляють») поточну схему введення.
    • Багаті отримують багатший цикл позитивного зворотного зв'язку - через природу функції навчання, тільки ті нейрони, які насправді стають активними, здатні вчитися (коли активність приймача y = 0, тоді xy = 0 теж, а функція XCAL dWT дорівнює 0 при 0). Таким чином, нейрони, які вже виявляють поточний вхід найкраще, - це ті, які отримують ще більше посилити свою здатність виявляти ці входи. Це найважливіше розуміння, яке Хебб мав, чому функція навчання Hebbian повинна посилити «енграму».
    • гомеостаз, щоб збалансувати позитивний цикл зворотного зв'язку - якщо його залишити без позначення, динаміка багатшого багатства закінчується кількома одиницями, що домінують у всьому, і, як наслідок, всі входи класифікуються на одну марну, надмірно широку категорію («все»). Гомеостатичний механізм в BCM допомагає боротися з цим, підвищуючи плаваючий поріг для високоактивних нейронів, змушуючи їх вагу зменшуватися для всіх, крім найбільш бажаних моделей введення, і тим самим відновлюючи баланс. Аналогічно, недостатньо активні нейрони відчувають збільшення ваги нетто, що змушує їх брати участь і конкурувати більш ефективно, і, отже, вони представляють різні особливості.

    Кінцевим результатом є розробка набору нейронних детекторів, які відносно рівномірно покривають простір різних моделей входів, з систематичними категоріями, що охоплюють статистичні закономірності. Наприклад, кішки люблять молоко, а собаки люблять кістки, і ми можемо навчитися цьому, просто спостерігаючи за надійним поєднанням котів з молоком і собак з кістками. Цей вид надійного спільного виникнення - це те, що ми маємо на увазі під «статистичною регулярністю». Дивіться Hebbian Learning для дуже простої ілюстрації того, чому механізми навчання в стилі геббії фіксують закономірності спільного виникнення. Це дійсно просто варіант на основній максимі, що «речі, які стріляють разом, дроти разом».

    Швидкість навчання

    У вищезазначених рівняннях відсутній важливий фактор, який є швидкістю навчання - ми зазвичай використовуємо грецький епсилон\(\epsilon\) для представлення цього параметра, який просто множить швидкість, з якою змінюються ваги:

    • \(\Delta w=\epsilon f_{x c a l}\left(x y, y_{l}\right)\)

    Таким чином, більший епсилон означає більші зміни ваги, і, таким чином, швидше навчання, і навпаки для меншого значення. Типове початкове значення для швидкості навчання становить 0,04, і ми часто зменшуємо його з часом (що стосується і мозку - молодший мозок набагато пластичніший, ніж старі) - це, як правило, призводить до найшвидшого загального навчання та найкращої кінцевої продуктивності.

    Багато дослідників (і фармацевтичні компанії) мають потенційно небезпечне переконання, що більш швидкий рівень навчання краще, і були розроблені різні препарати, які ефективно збільшують швидкість навчання, змушуючи щурів вивчати якесь стандартне завдання швидше, ніж зазвичай, наприклад. Однак у розділі «Навчання та пам'ять» ми побачимо, що насправді повільний рівень навчання має деякі дуже важливі переваги. Зокрема, більш повільна швидкість навчання дозволяє системі включати більше статистики в навчання - швидкість навчання визначає ефективне часове вікно, протягом якого досвід усереднений разом, а більш повільний рівень навчання дає більш тривале вікно часу, що дозволяє більше інформації бути інтегрований. Таким чином, навчання може бути набагато розумнішим із повільнішим рівнем навчання. Але компроміс, звичайно, полягає в тому, що результати цього розумного навчання займають набагато більше часу, щоб вплинути на фактичну поведінку. Багато хто стверджував, що люди є відмінними в нашому надзвичайно затяжному періоді навчання розвитку, тому ми можемо багато чому навчитися, перш ніж нам потрібно почати заробляти зарплату. Це дозволяє нам мати досить повільний рівень навчання, без занадто багатьох негативних наслідків.

    Дослідження самоорганізованого навчання

    Найкращий спосіб побачити цю динаміку - це обчислювальна розвідка. Відкрийте симуляцію самоорганізації та дотримуйтесь вказівок звідти.

    Навчання, кероване помилками: коротка шкала часу плаваючий поріг

    Хоча самоорганізоване навчання дуже корисно, ми побачимо, що воно значно обмежене у видах речей, які він може навчитися. Він чудово підходить для вилучення загальних, але не настільки великий, коли мова йде про вивчення конкретних, складних шаблонів. Щоб вивчити ці більш складні типи проблем, нам потрібно навчання, кероване помилками. Для більш донизу (обчислювально-мотивованого) обговорення того, як досягти навчання, керованого помилками, та відношення до більш біологічно мотивованих механізмів, які ми розглядаємо тут, див. Підрозділ зворотного розповсюдження (який деякі, можливо, вважають за краще прочитати спочатку). Інтуїтивно, навчання, кероване помилками, набагато потужніше, оскільки воно рухає навчанням на основі відмінностей, а не сирих сигналів. Відмінності (помилки) говорять набагато точніше, що потрібно зробити, щоб усунути проблему. Сирі сигнали (загальні закономірності нервової активності) не настільки інформативні — легко перевантажити ліс і втратити з поля зору дерева. Ми побачимо більш конкретні приклади пізніше, після того, як спочатку з'ясувати, як ми можемо отримати навчання, кероване помилками, працювати в першу чергу.

    fig_xcal_bcm_err_learn.png
    Малюнок\(4.8\): Як плаваючий поріг як функція середньострокової середньої синаптичної активності\(\langle x y\rangle_{m}\) може спричинити навчання, кероване помилками. Цей середній часовий проміжок відображає розвиток моделі нейронної активності, яка кодує очікування про те, що буде далі. Найновіша короткострокова синаптична активність (яка рухає навчанням) являє собою фактичний результат того, що сталося далі. Через (майже) лінійну природу функції DWT вона ефективно обчислює різницю між результатом та очікуванням. Якісно, якщо результат виробляє більшу активацію популяції нейронів, ніж очікування, відповідні ваги піднімаються вгору, тоді як нейрони, які зменшили стан своєї активності в результаті результату, матимуть свою вагу знижуватися. Це проілюстровано вище у випадку низьких та високих очікувань.

    На малюнку 4.8 показано, як однакова поведінка плаваючого порога з BCM-подібного до самоорганізованого аспекту навчання XCAL може бути адаптована для виконання навчання, керованого помилками, у вигляді відмінностей між результатом та очікуванням. Зокрема, ми прискорюємо шкалу часу для обчислення плаваючого порогу (а також маємо його відображати синаптичну активність, а не лише активність приймача):

    • \(\Theta_{p}=\langle x y\rangle_{m}\)
    • \(\Delta w=f_{x c a l}\left(\langle x y\rangle_{s},\langle x y\rangle_{m}\right)=f_{x c a l}\left(x_{s} y_{s}, x_{m} y_{m}\right)\)

    де\(\langle x y\rangle_{m}\) ця нова середньочасова середня синаптична активність, яку ми вважаємо відображенням нових очікувань щодо поточної ситуації, яка розвивається приблизно за 75 мсек нейронної активності. Найновіша, короткострокова (останні 25 мс) нейронна активність (\(\langle x y\rangle_{s}\)) відображає фактичний результат, і це той самий сигнал на основі кальцію, який керує навчанням у випадку Хеббіана.

    У симуляторі період часу, протягом якого це очікування представлено мережею, перш ніж вона побачить результат, називається мінусовою фазою (на основі термінології машини Больцмана; (Ackley, Hinton, & Sejnowski, 1985)). Наступний період, в якому спостерігається результат (і активації розвиваються, щоб відобразити вплив цього результату), називається плюсовою фазою. Саме різниця між цим очікуванням та результатом представляє сигнал помилки в навчанні, керованому помилками (звідси терміни мінус і плюс - активації мінусової фази віднімаються з тих, що знаходяться у фазі плюс, щоб керувати змінами ваги).

    Хоча це порівняння очікувань та результатів є основною вимогою для навчання, керованого помилками, зміна ваги, заснована на цій різниці сама по собі, напрошується питання про те, як нейрони коли-небудь «знають», в якій фазі вони перебувають. Ми вивчили багато можливих відповідей на це питання, і найостанніший включає внутрішньо-генерований альфа-частота (10 Гц, періоди 100 мсек) цикл очікування з подальшим результатом, підтримуваним неокортикальною схемою в глибоких шарах і таламусі (O'Reilly, Wyatte, & Rohrlich, 2014; Качергіс, Уайтт, О'Рейлі, Клейн та Хоммель, 2014). Пізніша редакція цього підручника опише це більш детально. Наразі основними наслідками цієї структури є організація термінів обробки та навчання наступним чином:

    • Випробування триває 100 мсек (10 Гц, альфа-частота) і включає одну послідовність очікування - навчання результату, організоване на 4 чверті.
    • Чверть триває 25 мсек (40 Гц, гамма-частота) — перші 3 чверті (75 мсек) утворюють фазу очікування/мінус, а заключна чверть - фаза результат/плюс.
    • Біологічно поверхневі неокортикальні шари (шари 2, 3) мають коливання гамма-частоти (Buffalo, Fries, Landman, Buschman, & Desimone, 2011), підтримуючи організацію квартального рівня.
    • Цикл являє собою 1 мсек обробки, де кожен нейрон оновлює свій мембранний потенціал відповідно до рівнянь, описаних у розділі Neuron.

    Механізм навчання XCAL координує цей час, порівнюючи найновішу синаптичну активність (переважно керовану станами плюс фаза/результат) з тією, що інтегрована в середньостроковій шкалі, яка ефективно включає як мінусові, так і плюсові фази. Оскільки функція навчання XCAL (в основному) лінійна, асоціація плаваючого порогу з цією синаптичною активністю протягом середніх часових рамок (включаючи стани очікування), з якими порівнюється короткостроковий результат, безпосередньо обчислює їх різницю:

    • \(\Delta w \approx x_{s} y_{s}-x_{m} y_{m}\)

    Інтуїтивно ми можемо зрозуміти, як працює це правило навчання, кероване помилками, думаючи про різні конкретні випадки. Найпростіший випадок, коли очікування еквівалентно результату (тобто правильному очікуванню) — два члени вище будуть однаковими, і, таким чином, їх віднімання дорівнює нулю, а ваги залишаються однаковими. Отже, як тільки ви досягнете досконалості, ви перестаєте вчитися. Що робити, якщо ваші очікування були вищими за ваш результат? Різниця буде негативним числом, і ваги, таким чином, зменшаться, так що ви знизите свої очікування наступного разу. Інтуїтивно, це має ідеальний сенс - якщо у вас є очікування, що всі фільми М. Ніч Шьямалан будуть такими ж крутими, як Шосте почуття, вам може знадобитися зменшити вагу, щоб краще відповідати фактичним результатам. І навпаки, якщо очікування нижче результату, зміна ваги буде позитивним, і таким чином збільшить очікування. Ви, можливо, думали, що цей клас буде смертельно нудним, але, можливо, вас забавило вищезгадка M. Night Shyamalan, і тепер вам доведеться трохи збільшити вагу. Сподіваємось, інтуїтивно зрозуміло, що ця форма навчання буде працювати, щоб мінімізувати різницю між очікуваннями та результатами з часом. Зверніть увагу, що хоча наведений тут приклад був відкинутий з точки зору відхилень від очікувань, що мають цінність (тобто речі виявилися кращими або гіршими, ніж очікувалося), як ми докладніше висвітлюємо в розділі «Управління двигуном та підкріпленням», той самий принцип застосовується, коли результати відхиляються від інших. різновиди очікувань.

    Через свою явно тимчасову природу, є кілька інших цікавих способів мислення про те, що робить це правило навчання, на додаток до явних термінів, визначених вище. Повторюючи, правило говорить, що результат настає відразу після попереднього очікування - це прямий наслідок того, що він навчається короткостроковій (найбільш негайній) середній синаптичній активності, порівняно з трохи довшим середньостроковим середнім, що включає час безпосередньо перед безпосереднім сьогоденням.

    fig_attractor_cal.png
    Малюнок\(4.9\): Ілюстрація принципу навчання контрастивного атрактора (CAL), який є основною ідеєю механізму навчання на основі помилок XCAL. Мережа дізнається про контраст між ранньою фазою відстоювання (мінусова фаза, або середнє значення активації середніх часових кадрів\(\langle x y\rangle_{m}\)) проти пізньої фази відстоювання (плюсова фаза або коротке значення активації часових кадрів\(\langle x y\rangle_{s}\)). Пізня фаза інтегрувала більше загальних обмежень у мережі і, таким чином, являє собою «кращу» загальну інтерпретацію або уявлення про поточну ситуацію, ніж рання фаза, тому пізня фаза має сенс служити «навчальним сигналом» щодо попередньої фази.

    Ми можемо думати про це навчання з точки зору динаміки атракторів, обговорюваної в розділі Мережі. Зокрема, назва Contrastive Attractor Learning (CAL) відображає ідею про те, що мережа осідає в стан атрактора, і це контраст між кінцевим станом атрактора, в який осідає мережа (тобто «результат» в цьому випадку), проти траєкторії активації мережі як вона наближається до атрактора, який рухає навчанням (рис. 4.9). Середнє за короткочасною шкалою відображає кінцевий стан атрактора («ціль»), а середнє за середнім часовим масштабом відображає всю траєкторію під час заселення. Коли модель діяльності, пов'язана з очікуванням, далека від фактичного результату, різниця між цими двома станами атрактора буде великою, і навчання призведе до зміни ваги, так що в майбутніх зустрічах очікування буде більш тісно відображати результат (припускаючи, що навколишнє середовище є надійний). X-частина XCAL просто відображає той факт, що одна і та ж мета досягається без необхідності явно порівнювати два атрактори в дискретні моменти часу, але замість цього за допомогою усередненого за часом стану активності Extended по всій траєкторії заселення як порівняння базової лінії, що більше біологічно реалістичні, оскільки такі змінні легко доступні за допомогою локальної нейрональної активності.

    Математично це правило навчання CAL являє собою простішу версію коливальної функції навчання, розробленої Норманом та колегами - див. Коливальна функція навчання для більш докладної інформації.

    Існують також більш загальні причини для отримання більш пізньої інформації (коротка середня шкала часу) для навчання більш ранньої інформації (середня шкала часу). Як правило, чим довше чекає, тим краща якість інформації - на початку речення ви можете мати якесь уявлення про те, що буде далі, але коли воно розгортається, сенс стає зрозумілішим і зрозумілішим. Ця пізніша інформація може служити для тренування попередніх очікувань, щоб ви могли ефективніше зрозуміти речі наступного разу. Загалом, ці альтернативні способи мислення про навчання XCAL представляють більш самоорганізовуються форми навчання, не вимагаючи явного сигналу навчання результату, використовуючи більш швидкий контраст (короткий проти середнього часу) для механізму навчання, керованого помилками.

    Перш ніж продовжувати, вам може бути цікаво про біологічну основу цієї форми плаваючого порогу, керованої помилками. На відміну від плаваючого порогу в стилі BCM, який має тверді емпіричні дані, узгоджені з ним, ідея про те, що поріг змінюється на цій більш швидкій шкалі часу, щоб відобразити середньочасову середню синаптичну активність, ще не перевірена емпіричним шляхом. Таким чином, він виступає важливим прогнозом цієї обчислювальної моделі. Оскільки це так легко обчислюється і призводить до такої потужної форми навчання, здається правдоподібним, що мозок скористається саме таким механізмом, але нам доведеться побачити, як він витримує емпіричне тестування. Одна початкова пропозиція такої динаміки походить з цієї статті: Lim et al. (2015), яка показала динаміку навчання, подібну до BCM, зі швидкими змінами порогу залежно від недавньої активності. Крім того, є суттєві докази того, що минущі зміни нейромодуляції, які відбуваються під час явних, несподіваних подій, важливі для модифікації синаптичної пластичності - і можуть функціонально сприяти цьому типу механізму навчання, керованого помилками. Крім того, ми обговорюємо трохи пізніше ще одне велике занепокоєння щодо природи та походження очікувань та відмінності результатів, що є центральним для цієї форми навчання, керованого помилками.

    Переваги навчання, керованого помилками

    Як зазначалося вище, навчання, кероване помилками, набагато більш обчислювально-потужне, ніж самоорганізоване навчання. Наприклад, усі обчислювальні моделі, які добре справляються з важким завданням навчання розпізнаванню об'єктів на основі їх візуального вигляду (див. Розділ сприйняття), використовують форму навчання, керованого помилками. Багато хто також використовує самоорганізоване навчання, але це, як правило, відіграє більше допоміжну роль, тоді як моделі були б повністю нефункціональними без навчання, керованого помилками. Навчання, кероване помилками, гарантує, що модель робить види категоричних дискримінацій, які є релевантними, уникаючи при цьому тих, які не мають значення. Наприклад, чи вид збоку автомобіля звернений вліво або вправо, не має значення для визначення того, що це автомобіль. Але наявність коліс дуже важливо для відрізнення автомобіля від риби. Чисто самоорганізуюча модель не має можливості знати, що ці відмінності, які можуть бути досить статистично достовірними і сильними сигналами на вході, відрізняються своєю корисністю для категорій, про які люди піклуються.

    Математично історія функцій навчання, керованих помилками, забезпечує захоплююче вікно в соціологію науки, і як, здавалося б, прості ідеї можуть зайняти деякий час для розвитку. У підрозділі зворотного розповсюдження ми простежуємо цю історію через виведення правил навчання, керованих помилками, від правила дельти (розробленого Відроу та Гоффом у 1960 році) до дуже широко використовуваного правила навчання зворотного розповсюдження (Rumelhart et al., 1986). На початку цього підрозділу ми показуємо, як XCAL форма навчання, керованого помилками (зокрема його версія CAL), може бути отримана безпосередньо з зворотного розповсюдження, тим самим забезпечуючи математично задовольняючий рахунок щодо того, чому вона здатна вирішити стільки складних проблем.

    Ключовою ідеєю функції навчання зворотного розповсюдження є те, що сигнали помилок, що виникають у вихідному шарі, можуть поширюватися назад вниз до попередніх прихованих шарів, щоб керувати навчанням у цих попередніх шарах, так що це вирішить загальну проблему, що стоїть перед мережею (тобто це забезпечить мережа може виробляти правильні очікування або відповіді на вихідному рівні). Це важливо для того, щоб система в цілому вирішувала складні проблеми - як ми обговорювали в розділі «Мережі», багато інтелекту виникає з декількох шарів каскадних кроків категоризації - щоб змусити всі ці втручатися кроки зосередитися на відповідних категоріях, помилка сигнали повинні поширюватися по цих шарах і формувати навчання у всіх них.

    fig_bidir_backprop_intuition.png
    Малюнок\(4.10\): Інтуїція того, як двонаправлені зв'язки дозволяють зворотне поширення навчальних сигналів з інших частин мережі - коли існує різниця між очікуванням і результатом в будь-якій частині мережі, нейрони в інших частинях мережі «відчувають» цю різницю через двонаправлене з'єднання. Всі нейрони відчувають вплив на власну активацію як очікування, так і результату, і, таким чином, коли вони дізнаються про різницю між цими двома моментами часу (пізніше тренування раніше), вони дізнаються про власний вплив на результат - помилку очікування, і зміни ваги на основі цього різниця в кінцевому підсумку мінімізує загальну помилку в мережі в цілому. Нейрони ближче до джерела помилки вчаться найбільше, при цьому похибка зменшується з відстанню від цього джерела.

    Біологічно двонаправлене з'єднання в наших моделах дозволяє цим сигналам помилок поширюватися таким чином (рис. 4.10). Таким чином, зміни в будь-якому заданому місці в мережі випромінюють назад (і кожен шлях з'єднання йдуть), щоб впливати на стани активації в усіх інших шарах, за допомогою двонаправленого зв'язку, і це потім впливає на навчання в цих інших шарах. Іншими словами, XCAL використовує двонаправлену динаміку активації для передачі сигналів помилок по всій мережі, тоді як зворотне розповсюдження використовує біологічно неправдоподібну процедуру, яка поширює сигнали помилок назад по синаптичних з'єднаннях, у зворотному напрямку, як правило, активація потоки. Крім того, мережа XCAL відчуває послідовність станів активації, переходячи від очікування до переживання подальшого результату, і дізнається про різницю між цими двома станами. На відміну від цього, зворотне розповсюдження обчислює одне значення дельта помилки, яке фактично є різницею між результатом та очікуванням, а потім надсилає це єдине значення назад через зв'язки. Див. підрозділ Зворотне розповсюдження, щоб дізнатися, як ці дві різні речі можуть бути математично еквівалентними. Крім того, непогано поглянути на обговорення процесу присвоєння кредиту в цьому підрозділі, щоб отримати більш повне розуміння того, як працює навчання на основі помилок.

    Дослідження навчання, керованого помилками

    Моделювання Pattern Associator забезпечує приємну демонстрацію обмежень самоорганізованого навчання в стилі Hebbian та того, як навчання, кероване помилками, долає ці обмеження, в контексті простого двошарового асоціатора шаблонів, який вивчає основні відображення вхід/виводу. Дотримуйтесь вказівок у цьому посиланні моделювання, щоб запустити розвідку.

    Ви повинні були бачити, що одне з завдань відображення вводу/виводу було неможливо для вирішення навіть помилок навчання в дворівневій мережі. Наступне дослідження, Error Driven Hidden показує, що додавання прихованого шару в поєднанні з потужним механізмом навчання, керованим помилками, дозволяє вирішити навіть цю «неможливу» проблему. Це демонструє обчислювальну потужність алгоритму зворотного розповсюдження.

    Комбіноване самоорганізоване та кероване помилками навчання

    Хоча вчені мають тенденцію сильно вибирати сторони і заявляти, що або самоорганізоване навчання, або навчання, кероване помилками, є найкращий спосіб піти, насправді є багато переваг для поєднання обох форм навчання разом. Кожна форма навчання має додаткові сильні та слабкі сторони:

    • Самоорганізація є більш надійною, оскільки вона залежить лише від локальної статистики стрільби, тоді як навчання, кероване помилками, неявно залежить від сигналів помилок, що надходять з потенційно віддалених районів. Самоорганізація може досягти чогось корисного, навіть коли сигнали помилок віддалені або ще не дуже узгоджені.
    • Але самоорганізоване навчання також дуже короткозоре - воно не координується з навчанням в інших шарах і, отже, має тенденцію бути «жадібним». Навчання, кероване помилками, досягає цієї координації і може навчитися вирішувати проблеми, які вимагають колективних дій декількох одиниць на декількох шарах.

    Одна з аналогій, яка може виявитися корисною, полягає в тому, що навчання, кероване помилками, схоже на ліву політику - воно вимагає, щоб усі різні шари та підрозділи працювали разом для досягнення спільних цілей, тоді як самоорганізоване навчання схоже на праву політику, підкреслюючи місцеві жадібні дії, які так чи інакше також приносять користь суспільство в цілому, без явної координації з іншими. Компроміси цих політичних підходів подібні до відповідних форм навчання. Соціалістичні підходи можуть залишити окремих людей почувати себе не дуже мотивованими, оскільки вони просто маленькі винтики у величезній безликій машині. Так само нейрони, які суворо залежать від навчання, керованого помилками, можуть в кінцевому підсумку не дуже багато вчитися, оскільки їм потрібно лише внести дуже невеликий і дещо «анонімний» внесок у вирішення загальної проблеми. Після того, як сигнали про помилки були усунені (тобто очікування відповідають результатам), навчання припиняється. Ми побачимо, що мережі, які покладаються на чисте навчання, кероване помилками, часто мають дуже випадкові ваги, що відображають цей мінімум зусиль, витрачених на вирішення загальної проблеми. З іншого боку, більш сильно праві капіталістичні підходи можуть закінчитися надмірними позитивними петлями зворотного зв'язку (багаті стають все багатшими), і, як правило, не добре справляються з довгостроковими, масштабними проблемами, які вимагають координації та планування. Аналогічно, чисто самоорганізуючі моделі, як правило, закінчуються більш нерівномірним розподілом «представницького багатства» і майже ніколи не закінчуються вирішенням складних проблем, вважаючи за краще замість цього просто жадібно кодувати будь-яку цікаву статистику. Цікаво, що наші моделі припускають, що баланс обох підходів - центристський підхід - здається, працює найкраще! Можливо, цей урок можна узагальнити назад на політичну арену.

    Барвисті аналогії осторонь, фактична механіка поєднання обох форм навчання в рамках XCAL становить об'єднання двох різних визначень плаваючого порогового значення. Біологічно ми вважаємо, що існує комбіноване середньозважене з двох порогів, використовуючи параметр «лямбда»\(\lambda\) для зважування довготривалого середнього приймача (самоорганізації) щодо середньострокового синаптичного супутнього продукту:

    • \(\theta_{p}=\lambda y_{l}+(1-\lambda) x_{m} y_{m}\)

    Однак обчислювально зрозуміліше і простіше просто об'єднати окремі функції XCAL, кожна зі своєю ваговою функцією — завдяки лінійності функції це математично еквівалентно:

    • \(\Delta w=\lambda_{f} f_{x c a l}\left(x_{s} y_{s}, y_{l}\right)+\lambda_{m} f_{x c a l}\left(x_{s} y_{s}, x_{m} y_{m}\right)\)

    Розумно, що ці лямбда-параметри можуть відрізнятися залежно від площі мозку (тобто деякі системи мозку дізнаються більше про статистичні закономірності, тоді як інші більше зосереджені на мінімізації похибки), і навіть що вона може бути динамічно регульована (тобто перехідні зміни нейромодуляторів, таких як дофамін і ацетилхолін може впливати на ступінь підкреслення сигналів помилок).

    Існують невеликі, але надійні обчислювальні переваги для автоматизації цього балансування самоорганізованого та керованого помилками навчання (тобто динамічно обчислене\(\lambda_{l}\) значення, зберігаючи при цьому\(\lambda_{m}=1\)), засноване на двох факторах: величині y_l приймальної одиниці, що працює середньої активації, і середня величина сигналів помилок, присутніх у шарі (див. Детальніше про Leabra).

    Обмеження ваги та підвищення контрастності

    Останнє питання, яке нам потрібно вирішити обчислювальним шляхом, - це проблема зростання синаптичних ваг без обмежень. В експериментах LTP зрозуміло, що існує максимальне значення синаптичної ваги - ви не можете продовжувати отримувати LTP на тому ж синапсі, керуючи ним знову і знову. Значення ваги насичує. Існує природна прив'язка на нижньому кінці, для LTD, нуля. Математично найпростіший спосіб досягти такого роду обмеження ваги - це функція експоненціального підходу, де зміни ваги стають експоненціально меншими у міру наближення меж. Ця функція найбільш безпосередньо виражається в форматі мови програмування, так як передбачає умовне:

    якщо dwt > 0 то wt = wt + (1 - wt) * dwt;
    інакше wt = wt + вт * dwt;

    У словах: якщо ваг передбачається збільшувати (dwt позитивний), то помножте швидкість приросту на 1-wt, де 1 - верхня межа, а в іншому випадку помножте на саме значення ваги. У міру наближення ваги до 1, вага збільшується стає все менше і менше, і аналогічно, як значення ваги наближається до 0.

    Функція експоненціального підходу добре працює при збереженні ваг, обмежених градуйованим способом (набагато краще, ніж просто відсікання значень ваги на межах, що втрачає весь сигнал для насичених ваг), але це також створює сильну тенденцію для ваг, щоб бовтатися в середині діапазону, близько .5. Це створює проблеми, тому що тоді нейрони не мають достатньо чітких реакцій на різні вхідні шаблони, а потім гальмуюча конкуренція руйнується (багато нейронів стають слабо активованими), що потім заважає позитивному циклу зворотного зв'язку, необхідному для навчання тощо Щоб протидіяти цим задачі, зберігаючи експоненціальне обмеження, введемо функцію посилення контрасту на вагах:

    • \(\hat{w}=\frac{1}{1+\left(\frac{w}{\theta(1-w)}\right)^{-\gamma}}\)

    Як ви можете бачити на малюнку 4.11, ця функція створює більший контраст для значень ваги навколо цього 0.5 центрального значення - вони штовхаються вгору або вниз до крайнощів. Це значення ваги, посилене на контрасті, потім використовується для зв'язку між нейронами, і це те, що відображається як значення wt в тренажері.

    fig_wt_contrast_sigmoid_fun.png
    Малюнок\(4.11\): Функція посилення контрастності ваги, посилення (гамма) = 6, зсув (тета) = 1,25.

    Біологічно ми думаємо про звичайне значення ваги w, яке бере участь у функціях навчання, як внутрішню змінну, яка точно відстежує статистику функцій навчання, тоді як значення ваги, посилене на контрасті, є фактичним значенням синаптичної ефективності, яке ви вимірюєте та спостерігаєте як сила взаємодії між нейронами. Таким чином, звичайне значення w може відповідати стану фосфорилювання CAMKII або деякому іншому відповідному внутрішньому значенню, що опосередковує синаптичну пластичність.

    Нарешті, див Деталі реалізації для декількох реалізаційних деталей про те, як обчислюються середні за часом, які не впливають на щось концептуально, але якщо ви дійсно хочете точно знати, що відбувається..