Skip to main content
LibreTexts - Ukrayinska

9.4: Уроки природних обчислень

  • Page ID
    88021
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Зрячим людським сприймачам зорове сприйняття здається легким: ми просто дивимося і бачимо. Можливо, саме тому піонери комп'ютерного зору сприймали бачення як належне. Одному студенту Марвіна Мінського було покладено—як літній проект—завдання програмування зору в комп'ютер (Horgan, 1993). Тільки тоді, коли такі ранні проекти були спроби, і вони зазнали невдачі, дослідники зрозуміли, що зорова система без особливих зусиль вирішує астрономічно складні проблеми обробки інформації.

    Зорове сприйняття особливо важко, коли визначається його мета як побудова внутрішніх моделей світу (Horn, 1986; Marr, 1976, 1982; Ullman, 1979). Такі уявлення, звані дистальними подразниками, повинні зробити явним тривимірну структуру світу. Однак інформація, з якої будується дистальний подразник - проксимальний стимул - недостатньо багата, щоб однозначно вказати 3-D структуру. Як обговорювалося в главі 8, бідність проксимальних подразників недовизначає візуальні уявлення про світ. Єдиний проксимальний подразник узгоджується, в принципі, з нескінченно великою кількістю різних світових моделей. Недостатність зору робить комп'ютерний зір таким викликом для дослідників штучного інтелекту, оскільки інформацію потрібно додавати до проксимального стимулу, щоб вибрати правильний дистальний стимул з багатьох можливих.

    Когнітивна революція в психології призвела до одного підходу до вирішення цієї проблеми: Новий погляд у сприйнятті запропонував, що бачення є формою вирішення проблем (Bruner, 1957, 1992; Gregory, 1970, 1978; Rock, 1983). Загальні знання світу, а також переконання, очікування та бажання, повинні були сприяти нашому візуальному досвіду світу, надаючи інформацію, якої не вистачало проксимальних подразників.

    Новий погляд також вплинув на комп'ютерне моделювання зорового сприйняття. Знання були завантажені в комп'ютерні програми, які будуть використовуватися для керівництва аналізом візуальної інформації. Наприклад, знання візуального вигляду компонентів певних об'єктів, таких як повітряний компресор, можуть бути використані для направлення сегментації необробленого зображення такого пристрою на значущі частини (Tenenbaum& Barrow, 1977). Тобто комп'ютерна програма могла бачити повітряний компресор, використовуючи свої раніше існуючі знання про те, як він виглядав. Цей загальний підхід - використовуючи вже існуючі знання для керівництва візуальним сприйняттям - був широко поширений в літературі інформатики цієї епохи (Barrow & Tenenbaum, 1975). Огляд Барроу та Тененбаума (1975) про стан мистецтва в той час дійшов висновку, що сегментація зображень - це низькорівнева інтерпретація, яка керувалася знаннями, і вони стверджували, що чим більше знань, тим краще.

    Огляд Барроу та Тененбаума (1975) описав Новий погляд у комп'ютерному зорі:

    Більш високі рівні сприйняття можуть включати поділ картини на «значущі» регіони на основі моделей конкретних об'єктів, класів об'єктів, ймовірних подій у світі, ймовірних конфігурацій і навіть на невізуальних подіях. Бачення можна розглядати як велику багаторівневу проблему оптимізації, яка передбачає пошук найкращої інтерпретації одночасно на всіх рівнях знань. (Барроу та Тененбаум, 1975, стор. 2)

    Однак приблизно в той же час з'явилася зовсім інша альтернатива комп'ютерному зору, керована даними (Waltz, 1975).

    Система комп'ютерного зору Waltz (1975) була розроблена для призначення міток регіонам і сегментам ліній в сцені, виробленої шляхом малювання ліній і тіней. «Ці мітки описують геометрію краю, зв'язок або відсутність зв'язку між сусідніми областями, орієнтацію кожної області в трьох вимірах та характер освітленості для кожної області» (стор. 21). Мета програми полягала в тому, щоб призначити один і тільки один ярлик кожній частині сцени, яка може бути позначена, за винятком випадків, коли спостерігач людини знайде неоднозначність.

    Вальс (1975) встановив, що великі, загальні знання світу не потрібні для присвоєння ярликів. Натомість все, що потрібно, - це поширення локальних обмежень між сусідніми мітками. Тобто, якщо два сегмента, що підлягають маркуванню, були з'єднані лінією, то сегментам довелося призначати послідовні мітки. Два кінці відрізка лінії не могли бути позначені таким чином, що один кінець лінії буде дано одне тлумачення, а інший кінець - інше тлумачення, несумісне з першим. Вальс виявив, що цей підхід був дуже потужним і може бути легко застосований до нових сцен, оскільки він не залежить від спеціалізованих, специфічних для сцени знань. Натомість все, що потрібно, - це метод визначення того, які мітки можливі для будь-якого місця сцени, а потім метод порівняння між можливими мітками, щоб вибрати унікальні та сумісні мітки для сусідніх місць.

    Використання обмежень для фільтрації несумісних міток називається маркуванням релаксації (Rosenfeld, Hummel, & Zucker, 1976); оскільки обмеження поширюються через сусідні місця у представленні, представлення переходить у стабільний стан з низькою енергією шляхом видалення непотрібних міток. Обговорення вирішення проблем судоку в розділі 7 ілюструє застосування маркування релаксації. Маркування релаксації виявилося життєздатним підходом, керованим даними, до вирішення проблеми візуального недовизначення.

    Маркування релаксації було переднім краєм широкої перспективи для розуміння бачення. Це був природний обчислювальний підхід до бачення (Хільдрет, 1983; Марр, 1976, 1982; Марр & Хільдрет, 1980; Марр & Нішіхара, 1978; Марр, Палм, & Poggio, 1978; Марр & Poggio, 1979; Марр & Ульман, 1981; Річардс, 1988; Ульман, 1979). Дослідники, які схвалюють природний підхід до обчислень зору, використовують наївний реалізм для вирішення проблем недовизначення.Вони припускають, що візуальний світ є внутрішньо структурованим, і що деяка частина цієї структури вірна будь-якій візуальній сцені. Вони припускають, що зорова система, яка еволюціонувала в такому структурованому світі, здатна скористатися цими візуальними властивостями для вирішення проблем недовизначення.

    Властивості, що цікавлять дослідників природних обчислень, називаються природними обмеженнями. Природне обмеження - це властивість візуального світу, яка майже завжди вірна для будь-якого місця в будь-якій сцені. Наприклад, безліч візуальних властивостей тривимірних сцен (глибина, текстура, колір, затінення, рух) змінюються плавно. Це означає, що два місця, розташовані дуже близько один від одного в сцені, швидше за все, матимуть дуже схожі значення для будь-якої з цих властивостей. Місця, які знаходяться далі, не матимуть подібних значень для цих властивостей.

    Природні обмеження можуть бути використані для вирішення візуальних проблем недовизначення шляхом накладання обмежень на сценові інтерпретації. Природні обмеження - це властивості, які повинні бути вірними для інтерпретації візуальної сцени. Тому вони можуть бути використані для фільтрації інтерпретацій, що відповідають проксимальному стимулу, але не відповідають природному обмеженню. Наприклад, інтерпретація сцени, яка порушила обмеження плавності, оскільки її візуальні властивості не змінювалися плавно в описаному раніше сенсі, може бути автоматично відхилена і ніколи не відчувається.

    Природний підхід до обчислень тріумфував, оскільки він зміг виявити ряд різних природних обмежень для вирішення різноманітних зорових проблем недовизначення (для багатьох прикладів див. Marr, 1982). Як і в описаному вище підході до маркування сцен, використання природних обмежень не вимагало знань, специфічних для сцени. Дослідники природних обчислень не зверталися до вирішення проблем або висновків, на відміну від моделей, заснованих на знаннях, більш раннього покоління (Barrow & Tenenbaum, 1975; Tenenbaum & Barrow, 1977). Це було тому, що природні обмеження можна використовувати за допомогою алгоритмів, керованих даними, таких як нейронні мережі. Наприклад, можна використовувати природні обмеження для маркування сцени, використовуючи обробні одиниці для представлення потенційних міток та визначаючи природні обмеження між мітками, використовуючи ваги зв'язку між процесорами (Dawson, 1991). Динаміка сигналів, що надсилаються через цю мережу, дозволить включити блоки для міток, узгоджених з обмеженнями, і відключити всі інші блоки.

    У контексті сучасного обговорення когнітивних наук природний обчислювальний підхід до бачення пропонує цікавий погляд на те, як можливий корисний синтез розбіжних перспектив. Це пояснюється тим, що природний підхід до обчислень звертається до елементів класичної, коннектиністської та втіленої когнітивної науки. Спочатку природний обчислювальний підхід має сильні класичні характеристики. Він розглядає візуальне сприйняття як прототипове репрезентативне явище, що підтримує обробку сенс-мислення-акт.

    Тому вивчення бачення повинно включати не тільки вивчення того, як витягти з образів різні аспекти світу, які нам корисні, але й вивчення природи внутрішніх уявлень, за допомогою яких ми захоплюємо цю інформацію, і таким чином робимо її доступною як основу для рішення про наші думки і вчинки. (Березень, 1982, стор. 3)

    Теорія раннього бачення Марра запропонувала ряд різних видів уявлень візуальної інформації, починаючи з необробленого первинного ескізу і закінчуючи 2½-D ескізом, який представляв тривимірні місця розташування всіх видимих точок і поверхонь.

    Однак репрезентативний це, хоча, природний підхід обчислень, безумовно, не обмежується вивченням того, що Норман (1980) назвав чистою когнітивною системою. Наприклад, на відміну від теорій людського сприйняття New Look, теорії природних обчислень приділяли серйозну увагу структурі світу. Дійсно, природні обмеження не є психологічними властивостями, а є натомість властивостями світу. Вони не ідентифікуються шляхом проведення перцептивних експериментів, а натомість виявляються ретельним математичним аналізом фізичних структур та їх оптичних проекцій на зображення. «Основним завданням природних обчислень є формальний аналіз та демонстрація того, наскільки унікальні та правильні інтерпретації можуть бути виведені з сенсорних даних, використовуючи законні властивості природного світу» (Річардс, 1988, стор. 3). Наївний реалізм природного обчислювального підходу змусив його приділяти пильну увагу структурі світу.

    У цьому сенсі природний обчислювальний підхід нагадує наріжний камінь втіленої когнітивної науки, екологічної теорії сприйняття Гібсона (1966, 1979). Сам Марр (1982) бачив паралелі між його природним підходом до обчислень та теорією Гібсона, але вважав, що природні обчислення стосуються деяких недоліків екологічної теорії. Критика Марра полягала в тому, що Гібсон відкинув необхідність представлення, оскільки Гібсон недооцінив складність виявлення інваріантів: «Візуальна обробка інформації насправді дуже складна, і Гібсон був не єдиним мислителем, якого ввела в оману очевидна простота акту бачення» (стор. 30). На думку Марра, виявлення візуальних інваріантів вимагало використання природних обмежень для побудови уявлень, з яких інваріанти можуть бути виявлені та використані. Наприклад, виявлення інваріантів, доступних у ключовій концепції Гібсоніана, полі оптичного потоку, вимагає застосування обмежень плавності до локальних уявлень виявленого руху (Hildreth, 1983; Marr, 1982).

    Сильні паралелі також існують між природним підходом до обчислень та когнітивною наукою, оскільки дослідники природних обчислень були високо мотивовані розробляти комп'ютерні симуляції, які були біологічно правдоподібними. Тобто кінцевою метою природної теорії обчислень було забезпечення обчислювальних, алгоритмічних та реалізаційних рахунків візуального процесу. Вимога, щоб візуальний алгоритм був біологічно реалізованим, призводить до переваги паралельних, кооперативних алгоритмів, які дозволяють поширювати локальні обмеження через мережу. В результаті більшість природних обчислювальних теорій можуть бути переведені в коннектиністські мережі.

    Як можна природному обчислювальному підходу схвалити елементи кожної школи думки в когнітивній науці? В цілому такий синтез ідей є результатом дуже прагматичного погляду на візуальну обробку. Дослідники природних обчислень визнають, що «чисті» теорії зору будуть неповними. Наприклад, Марр (1982) стверджував, що бачення має носити репрезентативний характер. Однак він також зазначив, що ці уявлення неможливо зрозуміти, не приділивши серйозної уваги будові зовнішнього світу.

    Аналогічно, книга Марра (1982), Vision, є свідченням ступеня візуальної інтерпретації, яка може бути досягнута за допомогою обробки даних. Однак процеси, керовані даними, не можуть забезпечити повну візуальну інтерпретацію. У якийсь момент - коли, наприклад, 2½-D ескіз пов'язаний з семантичною категорією - повинна бути викликана когнітивна обробка вищого порядку. Ця відкритість до різних видів обробки полягає в тому, що природний дослідник обчислень, такий як Шимон Ульман, може забезпечити новаторську роботу над завданням раннього бачення, таким як обчислення відповідності руху (1979), а також бути піонером у вивченні процесів візуального пізнання вищого порядку (1984, 2000).

    Пошук біологічно правдоподібних алгоритмів є ще одним прикладом прагматизму природного обчислювального підходу. Класичні теорії пізнання піддавалися критиці як розробляються в біологічному вакуумі (Clark, 1989). Навпаки, природні обчислювальні теорії не турбуються про усунення біологічних рахунків низького рівня зі своїх теорій. Замість цього нейронаука зору використовується для інформування алгоритмів природних обчислень, а обчислювальні рахунки візуальної обробки використовуються для надання альтернативних інтерпретацій функцій зорових нейронів. Наприклад, лише завдяки його обчислювальному аналізу вимог виявлення країв Марр (1982) зміг запропонувати, що центральні об'ємні клітини бічного колінчастого ядра були згортаючими зображеннями з різницею гаусових фільтрів.

    Прагматична відкритість дослідників природних обчислень до елементів різних підходів до когнітивної науки, здається, помітно контрастує з очевидною конкуренцією, яка, здається, характеризує сучасну когнітивну науку (Norman, 1993). Одним з рахунків цього конкурсу може бути розглядати його як конфлікт між науковими парадигмами (Kuhn, 1970). З цієї точки зору необхідний певний антагонізм між перспективами, оскільки нові парадигми намагаються показати, як вони здатні замінити старе та вирішувати проблеми поза межами встановлених рамок. Якщо вірити, що вони займаються таким починанням, то слід очікувати гарячого і явного відмови від включення будь-якої старої парадигми в нову.

    За словами Куна (1970), нова парадигма не виникне, якщо не виникне криза в старому підході. Деякі можуть стверджувати, що це саме так і стосується класичної когнітивної науки, кризи якої були виявлені її критиками (Dreyfus, 1972, 1992), і які призвели до нових коннектиністських і втілених парадигм. Однак більш імовірно, що парадигми когнітивної науки передчасно боротися один з одним, тому що когнітивна наука цілком може бути попередньо парадигматичною, у пошуках об'єднуючого тіла віри, яке ще не досягнуто.

    Позиція, викладена в главі 7, про те, що важко визначити сукупність основних принципів, які відрізняють класичну когнітивну науку від коннектиністської та втілених підходів, підтримує цю точку зору. Такий погляд також підтримується існуванням підходів, які спираються на різні «парадигми» когнітивної науки, таких як теорія бачення та візуалізації (Пилишин, 2003c, 2007), обговорювана в главі 8, і природна обчислювальна теорія зору. Якщо когнітивна наука не була передпарадигматичною, то слід легко розрізняти різні її парадигми, а теорії, які черпаються з різних парадигм, повинні бути неможливими.

    Якщо когнітивна наука є допарадигмальною, то вона знаходиться в процесі виявлення своїх основних дослідницьких питань, і вона все ще приймає рішення про технічні вимоги, які повинні відповідати її теоріям. Моя підозра полягає в тому, що буде розвиватися зріла когнітивна наука, яка спирається на основні елементи всіх трьох підходів, які були вивчені. Когнітивна наука все ще в змозі прислухатися до заклику розширеного когнітивізму (Міллер, Галантер, & Pribram, 1960; Норман, 1980). Для цього, замість того, щоб розглядати його сучасні підходи як конкуруючі парадигми, було б краще послужити прийняттям прагматичного підходу природних обчислень та використання переваг, пропонованих усіма трьома підходами до когнітивних явищ.