Skip to main content
LibreTexts - Ukrayinska

6.4: Інваріантне розпізнавання об'єктів на шляху «Що»

  • Page ID
    72481
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Розпізнавання об'єктів є визначальною функцією вентрального «який» шлях візуальної обробки: визначення того, на що ви дивитеся. Нейрони в інферотемпоральній (ІТ) корі можуть виявляти цілі об'єкти, такі як обличчя, автомобілі тощо, на великій ділянці зорового простору. Ця просторова інваріантність (де нейронна реакція залишається незмінною або інваріантною у просторових місцях) має вирішальне значення для ефективної поведінки у світі - об'єкти можуть з'являтися в різних місцях, і нам потрібно розпізнавати їх незалежно від того, де вони з'являються. Досягнення цього результату є дуже складним процесом, який тривалий час заважав дослідників штучного інтелекту (AI) - в перші дні AI, 1960-х, оптимістично вважалося, що розпізнавання об'єктів може бути вирішено як літній дослідницький проект, а через 50 років ми робимо багато прогрес, але він залишається невирішеним в тому сенсі, що люди все ще набагато кращі за наші моделі. Оскільки наш мозок весь час робить розпізнавання об'єктів без особливих зусиль, ми не дуже цінуємо, наскільки це важко проблема.

    fig_objrec_difficulty.png
    Малюнок\(6.10\): Чому розпізнавання об'єктів важко: речі, які слід класифікувати як однакові (тобто мають однакову вихідну мітку), часто не мають перекриття у своїх вхідних функціях сітківки, коли вони з'являються в різних місцях, розмірах тощо, але речі, які слід класифікувати як різні, часто мають високий рівень перекриття, коли вони з'являються в одному місці. Таким чином, структура подібності знизу вгору прямо протилежна бажаній структурі схожості вихідних даних, що робить проблему дуже складною.

    Причина розпізнавання об'єктів настільки важка, полягає в тому, що часто взагалі не може бути перекриття між візуальними входами одного і того ж об'єкта в різних місцях (розміри, повороти, кольори тощо), при цьому можуть бути високі рівні перекриття між різними об'єктами в одному місці (рис. 6.10). Тому ви не можете покладатися на структуру візуальної подібності знизу вгору - натомість вона часто працює безпосередньо проти бажаної категоризації вихідних даних цих подразників. Як ми бачили в розділі «Навчання», успішне навчання в цій ситуації вимагає навчання, керованого помилками, оскільки самоорганізоване навчання, як правило, сильно зумовлене структурою схожості вхідних даних.

    fig_invar_trans.png
    Рисунок\(6.11\): Схема того, як кілька рівнів обробки можуть призвести до інваріантного розпізнавання об'єктів, де об'єкт може бути розпізнаний у будь-якому місці на вхідних даних. Кожен рівень обробки поступово збільшує складність характеристик і просторову інваріантність того, що він виявляє. Роблячи це поступово, система відповідним чином пов'язує між собою функції та їх взаємозв'язки, а також поступово нарощуючи загальну просторову інваріантність.
    1200px-fig_category_hierarch_dist_reps.png
    Малюнок\(6.12\): Інший спосіб представлення ієрархії зростаючої особливої складності, що виникає над областями вентральних зорових шляхів. V1 має елементарні детектори функцій (орієнтовані краї). Далі вони об'єднуються в стики ліній у V2, за якими слідують більш складні візуальні особливості у V4. Окремі обличчя розпізнаються на наступному рівні в ІТ (навіть тут кілька одиниць обличчя активні в градуйованій пропорції до того, як схожі люди виглядають). Нарешті, на найвищому рівні важливі функціональні «семантичні» категорії, які служать хорошою основою для дій, які можна зробити — можливість розвивати такі категорії високого рівня є критичною для інтелектуальної поведінки — цей рівень відповідає більш переднім областям ІТ.

    Найбільш вдалим підходом до проблеми розпізнавання об'єктів, який спочатку відстоював у моделі Фукусіма (1980), є поступове вирішення двох задач над ієрархічно організованою послідовністю шарів (рис. 6.11, рис. 6.12):

    • Проблема інваріантності, завдяки тому, що кожен шар інтегрується в діапазоні місць (і розмірів, обертань тощо) для особливостей попереднього шару, таким чином, що нейрони стають все більш інваріантними, коли людина рухається вгору по ієрархії.
    • Проблема дискримінації за шаблоном (наприклад, відрізняючи A від F), маючи кожен шар створювати більш складні комбінації детекторів ознак, в результаті виявлення комбінацій ознак, присутніх у попередньому шарі, таким чином, що нейрони можуть краще розрізняти навіть аналогічні шаблони введення, коли один рухається вгору по ієрархії.

    Критичне розуміння цих моделей полягає в тому, що розбиття цих двох проблем на покрокові, ієрархічні кроки дозволяє системі вирішувати обидві проблеми, не викликаючи проблем для іншої. Наприклад, якби у вас був простий повністю інваріантний детектор вертикальних ліній, який реагував на вертикальну лінію в будь-якому місці, неможливо було б знати, який просторовий зв'язок має ця лінія з іншими вхідними ознаками, і ця інформація про взаємозв'язок є критичною для розрізнення різних об'єктів (наприклад, T і L відрізняються тільки співвідношенням двох лінійних елементів). Таким чином, ви не можете вирішити проблему інваріантності за один початковий прохід, а потім спробувати вирішити проблему дискримінації шаблонів на вершині цього. Вони повинні бути переплетені, поетапно. Аналогічно, було б абсолютно недоцільно намагатися розпізнати дуже складні моделі об'єктів у кожному можливому місці у візуальному вході, а потім просто зробити інтеграцію просторової інваріантності над місцями після цього. Існує занадто багато різних об'єктів, щоб розрізнити, і вам доведеться дізнатися про них заново в кожному різному візуальному місці. Набагато практичніше поступово створювати «бібліотеку частин» візуальних функцій, які стають все більш інваріантними, так що ви можете дізнатися про складні об'єкти лише до вершини ієрархії, таким чином, який вже є просторово інваріантним і, таким чином, потрібно вивчити лише один раз.

    688px-fig_kobatake_tanaka_94_invariance.png
    Малюнок\(6.13\): Короткий опис властивостей нейронної відповіді у V2, V4 та IT для мавпи макака, відповідно до того, наскільки області реагують на складні та прості візуальні функції (стовпець Smax/MAX, показуючи, як відповідь на прості візуальні входи (Smax) порівнюється з максимальною реакцією на будь-який візуальний вхід зображення тестується (MAX), і загальний розмір зорового сприйнятливого поля, над яким нейрони проявляють відносно інваріантну реакцію на зорові особливості. Для V2 майже всі нейрони максимально реагували на прості подразники, а розміри сприйнятливого поля були найменшими. Для V4 лише 50% нейронів мали прості відповіді як максимальну відповідь, а розміри сприйнятливого поля збільшуються над V2. Задній ІТ збільшується (трохи) на обох вимірах, тоді як передній ІТ демонструє майже повністю складні функціональні реагуючі та значно більші сприйнятливі поля. Ці інкрементні збільшення складності та інваріантності (розмір сприйнятливого поля) точно такі, як передбачено інкрементним обчислювальним рішенням інваріантного розпізнавання об'єктів, як показано на попередньому малюнку. Репродуковано з Кобатаке та Танака (1994).

    У задовольняючій конвергенції обчислювальної мотивації зверху вниз та даних неврології знизу вгору, це інкрементне, ієрархічне рішення забезпечує приємну відповідність відомим властивостям зорових областей уздовж черевного шляху (V1, V2, V4, IT). Рисунок 6.13 підсумовує нейронні записи з цих областей мавпи макаки і показує, що нейрони збільшують складність подразників, які керують їх реагуванням, і розмір сприйнятливого поля, над яким вони виявляють інваріантну реакцію на ці подразники, коли один продовжує ієрархія районів. На малюнку 6.14 показаний приклад складних подразників, які викликали максимальну реакцію в кожній з цих областей, щоб дати зрозуміти, які складні особливості сполучників можуть виявити ці нейрони.

    1200px-fig_kobatake_tanaka_94_v2_v4_it.png
    Малюнок\(6.14\): Складні подразники, які викликали максимальну реакцію нейронів у V2, V4 та ІТ, надаючи певну пропозицію щодо того, які види складних особливостей можуть виявити ці нейрони. Більшість нейронів V2 максимально реагували на прості подразники (орієнтовані краї, не показані). Репродуковано з Кобатаке та Танака (1994).

    Див. Дані вентрального шляху для більш детального обговорення даних про нейронні реакції на особливості візуальної форми в цих вентральних шляхах, включаючи ще кілька фігур даних. У цій літературі є деякі цікаві тонкощі і суперечки, але основні висновки, представлені тут, все ж тримаються.

    Розвідка розпізнавання об'єктів

    fig_objrec_objs.png
    Рисунок\(6.15\): Набір з 20 об'єктів, що складаються з горизонтальних та вертикальних елементів ліній, що використовуються для моделювання розпізнавання об'єктів. Використовуючи обмежений набір візуальних елементів, ми можемо легше зрозуміти, як працює модель, а також перевірити на узагальнення до нових об'єктів (об'єкт 18 і 19 спочатку не навчається, а потім навчається лише у відносно небагатьох місцях - навчання там добре узагальнюється до інших локацій).

    Перейти до Objrec для обчислювальної моделі розпізнавання об'єктів, яка демонструє інкрементний ієрархічний розв'язок задачі розпізнавання об'єктів. Використовуємо спрощений набір «предметів» (рис. 6.15), складених з вертикальних і горизонтальних лінійних елементів. Цей спрощений набір візуальних функцій дозволяє нам краще зрозуміти, як працює модель, а також дозволяє тестувати узагальнення нових об'єктів, що складаються з цих самих наборів функцій. Ви побачите, що модель вивчає простіші комбінації лінійних елементів в області V4, і більш складні комбінації ознак в ІТ, які також є інваріантними над повним сприйнятливим полем. Ці ІТ-уявлення не ідентичні цілим об'єктам — натомість вони представляють інваріантний розподілений код для об'єктів з точки зору їх складових ознак. Тест узагальнення показує, як цей розподілений код може підтримувати швидке вивчення нових об'єктів, якщо вони поділяють цей набір функцій. Хоча вони, ймовірно, набагато складніші та менш чітко визначені, схоже, подібний такий словниковий запас особливостей візуальної форми вивчається в ІТ-представленнях приматів.