6.4: Інваріантне розпізнавання об'єктів на шляху «Що»
- Page ID
- 72481
Розпізнавання об'єктів є визначальною функцією вентрального «який» шлях візуальної обробки: визначення того, на що ви дивитеся. Нейрони в інферотемпоральній (ІТ) корі можуть виявляти цілі об'єкти, такі як обличчя, автомобілі тощо, на великій ділянці зорового простору. Ця просторова інваріантність (де нейронна реакція залишається незмінною або інваріантною у просторових місцях) має вирішальне значення для ефективної поведінки у світі - об'єкти можуть з'являтися в різних місцях, і нам потрібно розпізнавати їх незалежно від того, де вони з'являються. Досягнення цього результату є дуже складним процесом, який тривалий час заважав дослідників штучного інтелекту (AI) - в перші дні AI, 1960-х, оптимістично вважалося, що розпізнавання об'єктів може бути вирішено як літній дослідницький проект, а через 50 років ми робимо багато прогрес, але він залишається невирішеним в тому сенсі, що люди все ще набагато кращі за наші моделі. Оскільки наш мозок весь час робить розпізнавання об'єктів без особливих зусиль, ми не дуже цінуємо, наскільки це важко проблема.

Причина розпізнавання об'єктів настільки важка, полягає в тому, що часто взагалі не може бути перекриття між візуальними входами одного і того ж об'єкта в різних місцях (розміри, повороти, кольори тощо), при цьому можуть бути високі рівні перекриття між різними об'єктами в одному місці (рис. 6.10). Тому ви не можете покладатися на структуру візуальної подібності знизу вгору - натомість вона часто працює безпосередньо проти бажаної категоризації вихідних даних цих подразників. Як ми бачили в розділі «Навчання», успішне навчання в цій ситуації вимагає навчання, керованого помилками, оскільки самоорганізоване навчання, як правило, сильно зумовлене структурою схожості вхідних даних.


Найбільш вдалим підходом до проблеми розпізнавання об'єктів, який спочатку відстоював у моделі Фукусіма (1980), є поступове вирішення двох задач над ієрархічно організованою послідовністю шарів (рис. 6.11, рис. 6.12):
- Проблема інваріантності, завдяки тому, що кожен шар інтегрується в діапазоні місць (і розмірів, обертань тощо) для особливостей попереднього шару, таким чином, що нейрони стають все більш інваріантними, коли людина рухається вгору по ієрархії.
- Проблема дискримінації за шаблоном (наприклад, відрізняючи A від F), маючи кожен шар створювати більш складні комбінації детекторів ознак, в результаті виявлення комбінацій ознак, присутніх у попередньому шарі, таким чином, що нейрони можуть краще розрізняти навіть аналогічні шаблони введення, коли один рухається вгору по ієрархії.
Критичне розуміння цих моделей полягає в тому, що розбиття цих двох проблем на покрокові, ієрархічні кроки дозволяє системі вирішувати обидві проблеми, не викликаючи проблем для іншої. Наприклад, якби у вас був простий повністю інваріантний детектор вертикальних ліній, який реагував на вертикальну лінію в будь-якому місці, неможливо було б знати, який просторовий зв'язок має ця лінія з іншими вхідними ознаками, і ця інформація про взаємозв'язок є критичною для розрізнення різних об'єктів (наприклад, T і L відрізняються тільки співвідношенням двох лінійних елементів). Таким чином, ви не можете вирішити проблему інваріантності за один початковий прохід, а потім спробувати вирішити проблему дискримінації шаблонів на вершині цього. Вони повинні бути переплетені, поетапно. Аналогічно, було б абсолютно недоцільно намагатися розпізнати дуже складні моделі об'єктів у кожному можливому місці у візуальному вході, а потім просто зробити інтеграцію просторової інваріантності над місцями після цього. Існує занадто багато різних об'єктів, щоб розрізнити, і вам доведеться дізнатися про них заново в кожному різному візуальному місці. Набагато практичніше поступово створювати «бібліотеку частин» візуальних функцій, які стають все більш інваріантними, так що ви можете дізнатися про складні об'єкти лише до вершини ієрархії, таким чином, який вже є просторово інваріантним і, таким чином, потрібно вивчити лише один раз.

У задовольняючій конвергенції обчислювальної мотивації зверху вниз та даних неврології знизу вгору, це інкрементне, ієрархічне рішення забезпечує приємну відповідність відомим властивостям зорових областей уздовж черевного шляху (V1, V2, V4, IT). Рисунок 6.13 підсумовує нейронні записи з цих областей мавпи макаки і показує, що нейрони збільшують складність подразників, які керують їх реагуванням, і розмір сприйнятливого поля, над яким вони виявляють інваріантну реакцію на ці подразники, коли один продовжує ієрархія районів. На малюнку 6.14 показаний приклад складних подразників, які викликали максимальну реакцію в кожній з цих областей, щоб дати зрозуміти, які складні особливості сполучників можуть виявити ці нейрони.

Див. Дані вентрального шляху для більш детального обговорення даних про нейронні реакції на особливості візуальної форми в цих вентральних шляхах, включаючи ще кілька фігур даних. У цій літературі є деякі цікаві тонкощі і суперечки, але основні висновки, представлені тут, все ж тримаються.
Розвідка розпізнавання об'єктів

Перейти до Objrec для обчислювальної моделі розпізнавання об'єктів, яка демонструє інкрементний ієрархічний розв'язок задачі розпізнавання об'єктів. Використовуємо спрощений набір «предметів» (рис. 6.15), складених з вертикальних і горизонтальних лінійних елементів. Цей спрощений набір візуальних функцій дозволяє нам краще зрозуміти, як працює модель, а також дозволяє тестувати узагальнення нових об'єктів, що складаються з цих самих наборів функцій. Ви побачите, що модель вивчає простіші комбінації лінійних елементів в області V4, і більш складні комбінації ознак в ІТ, які також є інваріантними над повним сприйнятливим полем. Ці ІТ-уявлення не ідентичні цілим об'єктам — натомість вони представляють інваріантний розподілений код для об'єктів з точки зору їх складових ознак. Тест узагальнення показує, як цей розподілений код може підтримувати швидке вивчення нових об'єктів, якщо вони поділяють цей набір функцій. Хоча вони, ймовірно, набагато складніші та менш чітко визначені, схоже, подібний такий словниковий запас особливостей візуальної форми вивчається в ІТ-представленнях приматів.
