Skip to main content
LibreTexts - Ukrayinska

2.3: Обробка даних в біосистемній інженерії

  • Page ID
    28775
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Яо Цзе Фен

    Інженерний коледж, сільськогосподарський університет Хуачжун та ключова лабораторія сільськогосподарського обладнання в середній нижній частині річки Янцзи, Міністерство сільського господарства та сільських справ Ухань, Хубей, Китай

    Змінні

    Вступ

    Нові технології зондування та обробка даних відіграють дуже важливу роль у більшості сценаріїв у широких різновидах інженерних застосувань біосистем, таких як контроль та моніторинг навколишнього середовища, харчова обробка та контроль безпеки, проектування сільськогосподарської техніки та її автоматизація, біомаса та виробництво біоенергії, особливо в епоху великих даних. Наприклад, для досягнення автоматичної, неруйнівної класифікації сільськогосподарської продукції відповідно до їх фізико-хімічних властивостей слід збирати та ретельно обробляти вихідні дані з різних типів датчиків, щоб точно описати зразки, щоб продукцію можна було класифікувати на різні категорії правильно (Gowen et al., 2007; Feng et al., 2013; O'Donnell et al., 2014; Baietto and Wilson, 2015; Park and Lu, 2016). Для екологічного контролю теплиць слід визначати температуру, вологість та концентрацію окремих газів шляхом обробки вихідних даних, отриманих з термісторів, ареометрів та електронних носів або оптичних датчиків (Bai et al., 2018). Успішне використання вимірювань значною мірою залежить від обробки даних, яка перетворює необроблені дані в значущу інформацію для полегшення інтерпретації та розуміння цілей, що цікавлять.

    Мета обробки даних полягає в перетворенні необроблених даних в корисну інформацію, яка може допомогти зрозуміти природу об'єктів або процесу. Щоб вся ця процедура була успішною, особливу увагу слід приділити забезпеченню якості необроблених даних. Однак на вихідні дані, отримані з біологічних систем, завжди впливають фактори навколишнього середовища і стан зразків. Наприклад, оптичні профілі м'яса вразливі до зміни температури, умов освітлення, порід, віку та статі тварин, типу кормів та географічного походження, серед інших факторів. Для забезпечення найкращої якості необроблених даних необхідна попередня обробка даних.

    У цьому розділі вводяться методи попередньої обробки даних, включаючи згладжування, похідні та нормалізацію. При якісних даних може бути розроблений процес моделювання, що співвідносить необроблені дані з особливостями об'єкта або процесу, що цікавить. Це може бути реалізовано за допомогою використання різних методів моделювання. Після перевірки встановлена модель може бути використана для реальних додатків.

    Результати

    Прочитавши цю главу, ви повинні мати можливість:

    • • Опишіть принципи різних методів обробки даних
    • • Визначити відповідні методи обробки даних для розробки моделі
    • • Оцініть продуктивність встановлених моделей
    • • Перелік прикладів застосування обробки даних

    Поняття

    Попередня обробка даних

    Згладжування даних

    Щоб зрозуміти особливості біологічних об'єктів, для отримання сигналів, що представляють їх властивості, можуть бути використані різні датчики або прилади. Наприклад, ближній інфрачервоний (NIR) спектрометр використовується для збору оптичних властивостей на різних довжині хвиль, званих спектром, харчового або сільськогосподарського продукту. Однак під час отримання сигналу (тобто спектра) неминуче буде вводитися випадковий шум, який може погіршити якість сигналу. Наприклад, короткочасні коливання можуть бути присутніми в сигналах, що може бути пов'язано з впливом навколишнього середовища, такими як реакція темного струму та шум зчитування приладу. Темний струм складається з електронів, що виробляються варіаціями теплової енергії, а шум зчитування відноситься до інформації, отриманої внаслідок недосконалої роботи електронних пристроїв. Жоден з них не сприяє розумінню досліджуваних об'єктів. Для зменшення таких ефектів зазвичай застосовується згладжування даних. Деякі популярні методи згладжування даних включають згладжування ковзної середньої (MV) та S-G (Savitzky та Golay).

    Ідея ковзної середньої полягає в застосуванні «ковзних вікон» для згладжування випадкових шумів на кожному сегменті сигналу шляхом обчислення середнього значення в сегменті, щоб випадковий шум у всьому сигналі можна було зменшити. Враховуючи вікно з парною кількістю точок даних у певній позиції, обчислюється середнє значення вихідних даних у вікні і використовується як згладжене нове значення для центральної точки. Цю процедуру повторюють до досягнення кінця вихідного сигналу. Для точок даних на двох краях сигналу, які не можуть бути охоплені повним вікном, все ще можна припустити, що вікно застосовано, але лише обчислити середнє значення даних, доступних у вікні. Ширина вікна є ключовим фактором, який слід визначати ретельно. Не завжди вірно, що співвідношення сигнал/шум збільшується з шириною вікна, оскільки занадто велике вікно також має тенденцію згладжувати корисний сигнал. Більше того, оскільки середнє значення обчислюється для кожного вікна, всі точки даних у вікні вважаються рівноправними учасниками сигналу; іноді це призведе до спотворення сигналу. Щоб уникнути цієї проблеми, можна ввести згладжування S-G.

    Замість того, щоб використовувати просте середнє в процесі ковзної середньої, Савіцький і Голай (1964) запропонували призначити ваги різним даними у вікні. З огляду на оригінальний сигнал X, згладжений сигнал XS можна отримати у вигляді:

    \[ XS_{i}=\frac{\sum^{r}_{j=-r} X_{i+j}W_{j}}{\sum{^{r}_{j=-r}W_{j}}} \]

    де 2 r + 1 - ширина вікна, а W i - вага для i й точки даних у вікні. W отримують шляхом підгонки точок даних у вікні до поліноміальної форми за принципом найменших квадратів, щоб мінімізувати похибки між вихідним сигналом X і згладженим сигналом XS і обчисленням центральних точок вікна з полінома. При застосуванні згладжування S-G спочатку слід визначити точки згладжування та порядок многочленів. Після визначення двох параметрів вагові коефіцієнти можуть бути застосовані до точок даних у вікні для обчислення значення центральної точки за допомогою рівняння 2.3.1.

    На малюнку 2.3.1 показаний ефект згладжування шляхом застосування згладжування S-G до спектру зразка яловичини (рис. 2.3.1b-d). Наочно показано, що після згладжування S-G випадковий шум у вихідному сигналі (рис. 2.3.1a) сильно пригнічується, коли ширина вікна дорівнює 3 (рис. 2.3.1b). Ще кращий результат досягається при збільшенні ширини вікна до 5 і 7, де крива стає більш гладкою (рис. 2.3.1d) і короткі коливання ледь помітні.

    Чотири лінійні графіки побудови згладжування спектральних сигналів Савіцького та Голая. Відповідно, графіки будують початковий спектр і спектр з шириною вікна три, п'ять і сім.
    Малюнок\(\PageIndex{1}\): S-G згладжування спектрального сигналу. (а) початковий спектр; (b), (c) і (d) - результати згладжування S-G при ширині вікна (Win) 3, 5 та 7 відповідно.
    похідні

    Похідні - це методи відновлення корисної інформації з даних при видаленні повільної зміни сигналів (або низькочастотних сигналів), які можуть бути марними при визначенні властивостей біологічних зразків. Наприклад, для спектра, визначеного як функція y = f (x), першу і другу похідні можна обчислити як:

    \[ \frac{dy}{dx} = \frac{f(x+\Delta x)-f(x)}{\Delta x} \]

     

    З рівнянь 2.3.2 та 2.3.3 можна зрозуміти, що зміщення (наприклад, постійне зсув сигналів) сигналу може бути усунуто після першої обробки похідних, тоді як зміщення та нахил у вихідному сигналі можуть бути виключені після другої обробки похідних. Зокрема, для першої похідної постійні значення (відповідні зміщенню) можуть бути усунені завдяки різницевій операції в чисельнику Рівняння 2.3.2. Після першої похідної спектральна крива з таким же нахилом може бути перетворена в нове зміщення, і це може бути додатково усунуто за допомогою другої похідної. Оскільки зміни зміщення та інформація про нахил завжди вказують на вплив навколишнього середовища на сигнал та нерелевантні фактори, які тісно корелюють з незалежними змінними, застосування похідних методів допоможе зменшити такі шуми. Крім того, обробка сигналів з похідними пропонує ефективний підхід до підвищення роздільної здатності сигналів шляхом виявлення більшої кількості піків, особливо в спектральному аналізі.

    Для біологічних зразків зі складними хімічними компонентами спектри, як правило, є комбінацією різних піків поглинання, що виникають з цих компонентів. Такі накладені піки, однак, можуть бути добре розділені у других похідних спектрах. Тим не менш, слід зазначити, що відношення сигнал/шум сигналу погіршиться зі збільшенням похідних порядків, оскільки шум також значно посилюється, особливо для похідних вищого порядку, хоча похідні високого порядку іноді виявляються корисними для розуміння детальні властивості об'єктів. Щоб уникнути посилення шуму, можна ввести похідну S-G, де похідні сигналу досягаються шляхом обчислення похідних полінома. Зокрема, точки даних у розсувному вікні підганяються до полінома певного порядку після процедури згладжування S-G. У вікні потім обчислюються похідні придатного полінома, щоб отримати нові ваги для центральної точки. Коли ковзне вікно доходить до кінця сигналу, потім досягаються похідні поточного сигналу.

    На малюнку 2.3.2 показані спектри поглинання та похідні бактеріальних суспензій (Feng et al., 2015). Показано, що після операції похідної S-G з 5 точками згладжування та поліноміальним порядком 2 постійне зміщення та лінійний зсув базової лінії у вихідному спектрі (рис. 2.3.2a) ефективно видаляються у першому (рис. 2.3.2b) та другому (рис. 2.3.2c) похідних спектрах відповідно. Зокрема, друга похідна техніка також є корисним інструментом для розділення перекриваються піків, де пік на ~ 1450 нм вирішується на два піки на 1412 і 1462 нм.

    Лінійний графік, що показує спектри похідних в ближньому інфрачервоному діапазоні бактеріальних суспензій у вихідному спектрі.

    Лінійний графік, що показує спектри похідних в ближньому інфрачервоному діапазоні бактеріальних суспензій у першому спектрі похідних.

    Лінійний графік, що показує спектри похідних в ближньому інфрачервоному діапазоні бактеріальних суспензій у другому спектрі похідних.
    Рисунок\(\PageIndex{2}\): спектри похідних NIR бактеріальних суспензій. (а): вихідний спектр; (b): перший спектр похідних; (c) другий спектр похідних.
    Нормалізація

    Метою нормалізації даних є вирівнювання величини вибіркових сигналів, щоб усі змінні для вибірки могли розглядатися однаково для подальшого аналізу. Наприклад, температура поверхні свиней та фактори навколишнього середовища (температура, вологість та швидкість повітря) можуть бути об'єднані для виявлення ректальної температури свиноматок. Оскільки значення температури поверхні свиней можуть бути близько 39° C, тоді як швидкість повітря в основному нижче 2 м/с, якщо ці значення використовуються безпосередньо для подальшого аналізу даних, температура поверхні по суті відіграватиме більш домінуючу роль, ніж швидкість повітря просто завдяки своїм більшим значенням. Це може призвести до упередженої інтерпретації важливості змінних. Нормалізація даних також корисна, коли сигнали від різних датчиків поєднуються як змінні (тобто злиття даних) для характеристики біологічних зразків, які є складними за складом і легко впливають на умови навколишнього середовища. Однак, оскільки нормалізація даних видаляє середнє, а також стандартне відхилення змінних вибірки, це може дати заплутану інформацію про вибірки, якщо мінливості змінних у різних одиницях важливі для характеристики властивостей вибірки.

    Стандартний нормальний варіат (SNV), або стандартизація, є одним з найпопулярніших методів, що використовуються для нормалізації даних вибірки (Dhanoa et al., 1994). З огляду на вибіркові дані X, нормалізований X nor може бути отриманий як:

    \[ X_{nor}=\frac{X-mean(X)}{SD(X)} \]

    де середнє (X) і SD (X) - середнє і стандартне відхилення X відповідно.

    Після перетворення SNV виробляється новий сигнал із середнім значенням 0 і одиницею стандартного відхилення. Тому SNV корисний для усунення дисперсії розмірів між змінними, оскільки всі змінні порівнюються на одному рівні. Крім того, як показано на малюнку 2.3.3, SNV здатний коригувати ефект розсіювання зразків за рахунок фізичної структури зразків при взаємодіях світломатерії (Feng and Sun, 2013). Зокрема, великі варіації видимих спектрів NIR (Vis-NIR) зразків яловичини (рис. 2.3.3a) істотно пригнічуються, як показано на малюнку 2.3.3b.

    методи моделювання

    Метою моделювання при обробці даних є головним чином встановлення зв'язку між незалежними змінними та залежними змінними. Незалежні змінні визначаються як автономні фактори, які можуть бути використані для визначення значень інших змінних. Оскільки значення інших змінних залежать від незалежних змінних, їх називають залежними змінними. Наприклад, якщо розмір, вага та колір використовуються для класифікації яблук на різні сорти, змінні розміру, ваги та кольору є незалежними змінними, а сорт яблук є залежною змінною. Залежні змінні обчислюються на основі виміряних незалежних змінних. При розробці моделі, якщо використовується лише одна незалежна змінна, результуюча модель є універсальною моделлю, тоді як дві або більше незалежних змінних беруть участь у багатоваріантних моделям. Якщо залежні змінні використовуються під час калібрування або навчання моделі, методи, застосовані при розробці моделі, називаються контрольованими. В іншому випадку застосовується неконтрольований метод. Набір даних, який використовується для розробки моделі, називається набором калібрування (або навчальним набором), а новий набір даних, де модель застосовується для перевірки, - набір перевірки (або набір прогнозів).

    Лінійний графік варіацій вихідного та видимого ближнього інфрачервоного спектрів зразків яловичини, фальсифікованих курячим м'ясом.

    Лінійний графік варіацій стандартних нормальних варіацій оброблених та видимих ближніх інфрачервоних спектрів зразків яловичини, фальсифікованих курячим м'ясом.
    Малюнок\(\PageIndex{3}\): SNV обробка VIS-NIR спектрів яловичини, фальсифікованих курячим м'ясом. (a) Оригінальні спектри; (б) оброблені спектри SNV.

    Розроблені моделі можуть використовуватися для різних цілей. В основному, якщо модель використовується для прогнозування дискретного класу (категоріального), це класифікаційна модель; і якщо вона спрямована на прогнозування безперервної величини, це регресійна модель. Наприклад, якщо спектри зразків використовуються для ідентифікації географічного походження яловичини, спектри (оптичні властивості на різних довжині хвиль) є незалежними змінними, а географічне походження - залежними змінними. Встановлена багатовимірна модель, що описує зв'язок між спектрами та географічним витоком, є класифікаційною моделлю. У класифікаційній моделі залежні змінні є фіктивними змінними (або мітками), де різні довільні числа використовуються для представлення різних класів, але не мають фізичного значення. З іншого боку, якщо спектри зразків використовуються для визначення вмісту води в яловичині, то розроблена модель є регресійною моделлю. Залежні змінні є значущими числами, що вказують фактичний вміст води. Просто класифікаційна модель намагається відповісти на питання «Що це таке?» і регресійна модель намагається визначити «Скільки там?» Існує широкий спектр методів регресійних або класифікаційних моделей. Деякі з них описані нижче.

    Лінійна регресія

    Лінійна регресія - це аналітичний метод, який досліджує лінійну залежність між незалежними змінними (X) та залежними змінними (Y). Проста лінійна регресія використовується для встановлення найпростішої моделі, яка може бути використана для ілюстрації зв'язку між однією незалежною змінною X і однією залежною змінною Y. Модель можна охарактеризувати як:

    \[ y = \beta_{0}+\beta_{1}X+E \]

    де X - незалежна змінна; Y - залежна змінна;\(\beta_{0}\),\(\beta_{1}\), - коефіцієнти регресії; а E - залишковий вектор.

    Проста лінійна регресія використовується, коли тільки одна незалежна змінна повинна бути корельована з залежною змінною. У моделі два важливих коефіцієнта,\(\(\beta_{0}\) і\(\beta_{1}\), можуть бути визначені шляхом знаходження найкращого прилягання лінії через криву розсіювання між X і Y за допомогою методу найменших квадратів. Найкраща лінія підгонки вимагає мінімізації помилок між реальним Y та прогнозованим\(\hat{Y}\). Оскільки помилки можуть бути як позитивними, так і негативними, доцільніше використовувати суму похибок у квадраті. Виходячи з цього,\(\beta_{0}\) і\(\beta_{1}\) можна обчислити як:

    \[ \beta_{1}=\frac{\sum^{n}_{i=1}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{\sum^{n}_{i=1}(X_{i}-\bar{X})^{2}} \]

    \[ \beta_{0}=\bar{Y}-\beta_{1}\bar{X} \]

    де\(\bar{X}\) і\(\bar{Y}\) - середні значення X і Y відповідно, а n - кількість вибірки.

    Множинна лінійна регресія (MLR) - це метод лінійного аналізу регресії, в якому встановлена відповідна модель між декількома незалежними змінними та однією залежною змінною (Ganesh, 2010):

    \[ Y=\beta_{0}+\sum^{n}_{j=i}\beta_{j}X_{j}+E \]

    де\(X_{j}\) -\(j^{th}\) незалежна змінна; Y - залежна змінна;\(\beta_{0}\) - перехоплення;\(\beta_{1}\)\(\beta_{2}\),,. ,\(\beta_{n}\) є коефіцієнтами регресії, а E - залишкова матриця.

    Хоча MLR, як правило, дає кращі результати в порівнянні з простою лінійної регресії, оскільки використовуються більше змінних, MLR підходить тільки для ситуацій, коли кількість змінних менше, ніж кількість зразків. Якщо кількість змінних перевищує кількість зразків, рівняння 2.3.8 буде недостатньо визначеним і можуть бути отримані нескінченні розв'язки для мінімізації залишків. Тому множинна лінійна регресія зазвичай використовується на основі важливих змінних ознак (таких як важливі довжини хвиль у спектральному аналізі) замість всіх змінних, якщо кількість змінних більше, ніж у зразків.

    Подібно до простої лінійної регресії, визначення коефіцієнтів регресії також спирається на мінімізацію залишків прогнозування (тобто суми квадратних залишків між істинними значеннями Y та прогнозованими\(\hat{Y}\)). Конкретні процедури можна знайти в іншому місці (Friedman et al., 2001).

    Аналіз основних компонентів (PCA)

    Через складний характер біологічних зразків дані, отримані для характеристики зразків, зазвичай включають багато змінних. Наприклад, спектральні реакції на сотнях і тисячах довжин хвиль можуть бути використані для характеристики фізичних і хімічних компонентів зразків. Така велика розмірність неминуче приносить труднощі в інтерпретації даних. З оригінальними багатовимірними даними кожна незалежна змінна або змінна комбінація може бути використана для малювання одно-, дво- або тривимірних графіків для розуміння розподілу зразків. Однак цей процес вимагає величезного навантаження і нереальний, якщо задіяно більше трьох змінних.

    Аналіз основних компонентів (PCA) є потужним інструментом для стиснення даних і забезпечує набагато більш ефективний спосіб візуалізації структури даних. Ідея PCA полягає в тому, щоб знайти набір нових змінних, які не співвідносяться між собою, і прикріпити найбільшу інформацію про дані до перших кількох змінних (Hotelling, 1933). Спочатку PCA намагається знайти найкращу координату, яка може представляти найбільше варіацій даних у вихідних даних та записати її як PC1. Інші ПК згодом витягуються, щоб охопити найбільші варіації решти даних. Встановлена модель PCA може виражатися у вигляді:

    \[ X=TP^{T}+E \]

    де X - незалежна змінна матриця, T - матриця оцінки, P T - матриця навантаження, а E - залишкова матриця. Матриця балів може бути використана для візуалізації взаємозв'язку між зразками, а навантаження можуть бути використані для вираження відносин між змінними.

    Після PCA дані можуть бути представлені декількома ПК (зазвичай менше 10). Ці ПК сортуються відповідно до їх внеску в пояснення дисперсії даних. Зокрема, накопичена ставка внеску, визначена як пояснена дисперсія від перших кількох ПК над загальною дисперсією даних, зазвичай використовується для оцінки того, скільки нових змінних (ПК) слід використовувати для представлення даних. Проте, застосовуючи PCA, кількість змінних, необхідних для характеристики дисперсії даних, істотно зменшується. Після проектування вихідних даних у нові простори ПК, структуру даних можна легко побачити, якщо вона існує.

    Часткова регресія найменших квадратів (PLSR)

    Як показано вище, MLR вимагає, щоб кількість зразків була більшою за кількість змінних. Однак біологічні дані зазвичай містять набагато більше змінних, ніж зразки, і деякі з цих змінних можуть співвідноситися один з одним, забезпечуючи надлишкову інформацію. Щоб впоратися з цією дилемою, часткова регресія найменших квадратів (PLSR) може бути використана для зменшення кількості змінних у вихідних даних, зберігаючи при цьому більшу частину інформації та усуваючи надлишкові варіації (Mevik et al., 2011). У PLSR обидва X і Y проектуються на нові простори. У таких просторах визначається багатовимірний напрямок X, щоб найкращим чином враховувати найбільшу дисперсію багатовимірного напрямку Y. Іншими словами, PLSR розкладає як предиктори X, так і залежну змінну Y на комбінації нових змінних (балів), забезпечуючи максимальну кореляцію між X і Y (Geladi and Kowalski, 1986). Зокрема, оцінка T X співвідноситься з Y за допомогою наступних формул:

    \[ Y= XB+ E=XW^{*}_{a}C+E=TC+E \]

    \[ W^{*}_{a}=W_{a}(P^{T}W_{a})^{-1} \]

    де B - коефіцієнти регресії для встановленої моделі PLSR; E - залишкова матриця; W a представляє ваги PLS; a - бажана кількість прийнятих нових змінних; P і C - навантаження для X і Y відповідно. Прийняті нові змінні зазвичай називаються прихованими змінними (LV), оскільки вони не є спостережуваними незалежними змінними, а виведені з них.

    Найважливішим параметром в PLS регресії є визначення кількості ЛВ. На основі моделей PLSR, встановлених з різними LV, для перевірки моделей зазвичай використовується метод, названий перехресною перевіркою «залишати один». Тобто для моделі з певною кількістю LV один зразок з набору даних залишається поза увагою з рештою зразками, використовуваними для побудови нової моделі. Нова модель потім застосовується до зразка, який залишився поза для прогнозування. Ця процедура повторюється до тих пір, поки кожен зразок не буде залишений один раз. Нарешті, кожен зразок матиме два значення, тобто істинне значення та прогнозоване значення. Ці два типи значень можуть бути використані для обчислення середньокореневих похибок у квадраті (RMSes; Рівняння 2.3.13 в розділі Оцінка моделі нижче) для різних чисел LV. Зазвичай оптимальна кількість LV визначається або при мінімальному значенні RMSE, або той, після якого RMSE істотно не відрізняються від мінімального RMSE. Наприклад, на малюнку 2.3.4 використання 6 латентних змінних призведе до дуже схожого значення RMSE до мінімального RMSE, яке досягається за допомогою 11 LV; отже, 6 латентних змінних були б більш придатними для простішої розробки моделі.

    Лінійний графік побудови середньокореневої помилки в квадраті як функція кількості прихованих змінних.
    Рисунок\(\PageIndex{4}\): Графік середньокореневої помилки у квадраті (RMSE) як функція кількості прихованих змінних (LV) для моделі PLSR. Мінімальний RMSE досягається, коли використовуються 11 прихованих змінних. Однак використовувати 6 LV, як вказує червона стрілка, краще з точки зору простоти моделі.

    Крім методів, представлених вище, для розробки моделі доступні ще багато алгоритмів. З швидким зростанням інформатики та інформаційних технологій сучасні методи машинного навчання, включаючи штучні нейронні мережі, глибоке навчання, дерева рішень та підтримуючі векторні машини, широко використовуються в інженерії біосистем (LeCun et al., 2015; Maione and Barbosa, 2019; Pham et al., 2019, Zhao та ін., 2019).

    Описані вище методи розробки моделі можуть бути використані як для задач регресії, так і для класифікації. Для регресії кінцевими виходами є результати, отримані при введенні незалежних змінних у встановлені моделі. Для класифікації потрібна подальша операція для досягнення остаточних чисел для категоричного подання. У нормі приймається операція округлення. Наприклад, прямий вихід 1.1 з моделі має тенденцію округлитися до 1 як кінцевий результат, який може бути міткою для певного класу. Після такої модифікації назва регресійного методу може бути змінена з PLSR на дискримінантний аналіз з найменших квадратів (PLS-DA), як приклад. Однак ці числа не мають фактичних фізичних значень, і тому їх часто називають фіктивними змінними.

    Оскільки модель може бути встановлена за допомогою різних методів моделювання, деякі з яких викладені вище, рішення про те, який тип методу використовувати, є конкретним завданням. Якщо метою є досягнення стабільної моделі з високою точністю, слід використовувати ту, яка може призвести до найкращої продуктивності моделі. Однак, якщо основною проблемою є простота і легка інтерпретація на основі здійсненного застосування, лінійний метод часто буде найкращим вибором. У випадках, коли лінійна модель не може зобразити кореляцію між X і Y, тоді можуть бути застосовані нелінійні моделі, встановлені шляхом застосування штучних нейронних мереж або опорних векторних машин.

    Оцінка моделі

    Повний процес розробки моделі включає калібрування, валідацію та оцінку моделей. Калібрування моделі намагається використовувати різні методи моделювання до навчальних даних, щоб знайти найкращі параметри для представлення зразків. Наприклад, якщо PLSR застосовується до спектральних даних NIR для кількісної оцінки фальсифікації яловичини зі свининою, важливі параметри, включаючи кількість LV та коефіцієнти регресії, визначаються таким чином, щоб при введенні спектрів в модель можна було обчислити прогнозований відсоток рівнів фальсифікації. Зрозуміло, що цей процес просто працює на самих навчальних даних і результуюча модель може найкраще пояснити дані конкретних зразків. Однак, оскільки процес моделювання є специфічним для даних, хороша продуктивність моделі іноді може бути обумовлена моделюванням шуму, і такі моделі не будуть функціонувати з новими незалежними даними. Ця проблема відома як надмірне прилягання і її завжди слід уникати під час моделювання. Тому надзвичайно важливо перевірити працездатність моделей за допомогою незалежних даних, тобто даних, які не входять до набору калібрування і які абсолютно невідомі встановленій моделі.

    Перевірка моделі - це процес перевірки того, чи можна досягти аналогічної продуктивності моделі з калібруванням. Є в основному два способи проведення перевірки моделі. Один - використовувати перехресну перевірку, якщо наявних зразків недостатньо. Перехресна перевірка реалізується на основі навчального набору, і часто приймається підхід «залишити один» (Klanke and Ritter, 2006). Під час перехресної перевірки, один зразок залишається поза набором калібрування, і на основі решти даних розробляється калібрувальна модель. Потім вибірка, що залишилася, вводиться в розроблену модель на основі інших зразків. Ця процедура припиняється, коли всі зразки були залишені один раз. Нарешті, всі зразки будуть прогнозовані для порівняння з виміряними значеннями. Однак цей метод слід застосовувати з обережністю, оскільки це може призвести до надмірно оптимістичної оцінки або переоснащення моделі. Інший підхід, який називається зовнішньою перевіркою, полягає у введенні незалежного набору прогнозів, який не входить до набору калібрування, і застосувати модель до нового, незалежного набору даних. Зовнішня перевірка завжди є кращою для оцінки моделі. Тим не менш, рекомендується застосовувати як методи перехресної перевірки, так і зовнішньої перевірки для оцінки продуктивності моделей. Це особливо важливо в інженерії біосистем, оскільки біологічні зразки дуже складні, і їх властивості можуть змінюватися з часом і навколишнім середовищем. Для зразків м'яса хімічні компоненти м'яса різняться залежно від виду, географічного походження, моделей розмноження та навіть різних частин тіла одного і того ж типу тварин. Атмосфера упаковки та температура також мають великий вплив на варіації якості м'яса. В ідеалі, при хорошій та стабільній моделі результати перехресної перевірки та зовнішньої перевірки повинні бути схожими.

    Оцінка моделі є невід'ємною частиною розробки моделі, метою якої є визначення найкращої продуктивності моделі, а також перевірка її достовірності для майбутніх застосувань шляхом обчислення та порівняння деяких статистичних даних (Gauch et al., 2003). Для задач регресії для вираження продуктивності моделі обчислюються два загальні параметри, коефіцієнт детермінації (R 2) та середня квадратична похибка (RMSE). Вони визначаються наступним чином:

    \[ R^{2} = 1- \frac{\sum^{n}_{i=1}(Y_{i,meas}-Y_{i,pre})^{2}}{\sum^{n}_{i=1}(\bar{Y}-Y_{i,pre})^{2}} \]

    \[ \text{RMSE} = \sqrt{\frac{1}{n} \sum^{n}_{i=1}(Y_{i,meas}-Y_{i,pre})^{2}} \]

    де Y i, pre і Y i, тобто, відповідно, представляють прогнозоване значення і виміряне значення цілей для вибірки i; - середнє цільове значення для всіх зразків. R 2 з 1 і RMSE 0 для всіх наборів даних вказуватиме на «ідеальну» модель. Таким чином, мета полягає в тому, щоб R 2 якомога ближче до 1, а RMSE близький до 0. Крім того, стабільна модель має аналогічні значення R 2 і RMSE для калібрування і перевірки. Слід зазначити, що R, квадратний корінь R 2, або коефіцієнт кореляції, також часто використовується для вираження лінійної залежності між прогнозованими та виміряними значеннями. Крім того, оскільки при розробці моделі можуть використовуватися різні набори даних, зазначені вище параметри можуть бути змінені відповідно. Наприклад, R 2 C, R 2 CV і R 2 P можуть використовуватися для представлення коефіцієнтів визначення для калібрування, перехресної перевірки та прогнозування відповідно. Кореневі середні квадратні помилки для калібрування, перехресної перевірки та прогнозування позначаються як RMSEC, RMSECV та RMSEP відповідно.

    Для задач класифікації загальна правильна класифікація моделі (OCCR) є важливим показником, що використовується для оцінки ефективності класифікації:

    \[ \text{OCCR} = \frac{\text{Number of correctly classified samples}}{\text{Total number of samples}} \]

    Кількість правильно класифікованих зразків визначається шляхом порівняння прогнозованої класифікації з відомою класифікацією. Для дослідження детальної продуктивності класифікації може бути використана матриця плутанини (Townsend, 1971). Матриця плутанини для двійкових класифікацій наведена в таблиці 2.3.1. У матриці плутанини істинний позитивний і істинний негатив вказують на зразки, які передбачені правильно. Помилкові спрацьовування та помилкові негативи зустрічаються, коли те, що не відповідає дійсності, помилково вважається істинним і навпаки. На основі матриці плутанини можуть бути досягнуті параметри для оцінки класифікаційної моделі, включаючи чутливість, специфічність та поширеність, серед інших:

    Таблиця\(\PageIndex{1}\): Матриця плутанини для двійкової класифікації.
      Стан Позитивний Стан негативний

    Прогнозований позитивний

    Справжній позитив (Потужність)

    Хибне спрацювання (помилка типу I)

    Прогнозований негатив

    Помилковий негативний (помилка типу Il)

    Справжній негатив

    \[ \text{Sensitivity} = \frac{\sum \text{True positive}}{\sum \text{Condition positive}} \]

    \[ \text{Specificity} = \frac{\sum \text{True negative}}{\sum \text{Condition negative}} \]

    \[ \text{Prevalence} = \frac{\sum \text{Condition positive}}{\sum \text{Total positive}} \]

    Додатки

    Виявлення фальсифікації яловичини

    Фальсифікація харчових продуктів викликає недовіру до харчової промисловості, що призводить до харчових відходів через відкликання продуктів харчування та втрату довіри споживачів. Тому вкрай важливо використовувати сучасні технології для виявлення навмисного фальсифікації або випадкового зараження. Наприклад, портативний спектрометр може бути використаний для отримання спектрів із зразків яловичини. Сирі спектри можуть бути оброблені спектрометром для кількісної оцінки рівня фальсифікації кожного зразка яловичини, якщо такий є. Щоб правильно обробити необроблені спектри, цілеспрямовані експерименти з забрудненням можуть бути використані для визначення відповідного методу попередньої обробки (або попередньої обробки) для необроблених даних. Наприклад, на малюнку 2.3.5a показані спектри, відповідні різним рівням фальсифікації. Концентрація фальсифікації в такому експерименті повинна коливатися від 0% до 100%, при цьому 0% - чиста свіжа яловичина і 100% - для чистої зіпсованої яловичини. Експеримент повинен включати калібрувальний набір даних для розробки прогнозної залежності від спектрів та незалежний набір даних для перевірки достовірності прогнозування. Наступний процес може бути використаний для визначення найкращого методу попередньої обробки для кількісної оцінки фальсифікації яловичини.

    Лінійний графік, що показує спектри сирої яловичини, що відповідають різним рівням фальсифікації.

    Лінійний графік, що показує стандартні нормальні варіативні попередньо оброблені спектри, що відповідають різним рівням фальсифікації.

    Лінійний графік, що показує спектри, попередньо оброблені першими похідними, що відповідають різним рівням фальсифікації.

    Лінійний графік, що показує спектри, попередньо оброблені з другими похідними, що відповідають різним рівням фальсифікації.
    Малюнок\(\PageIndex{5}\): Попередня обробка спектрів яловичини для фальсифікованої яловичини: (а) сирі спектри; (б) попередньо оброблені спектри SNV; (c) і (d) спектри, попередньо оброблені першими та другими похідними.

    Сирі спектральні дані (рис. 2.3.5a) мають, ймовірно, випадковий шум із сигналом, особливо на нижчих довжині хвиль (400-500 нм). Причиною цього є варіації спектральної величини серед зразків, які не змінюються лінійно з концентрацією фальсифікації. Цілком можливо, що ці варіації (шум у цій програмі) обумовлені відмінностями в хімічних компонентах зразків, оскільки зіпсоване м'ясо сильно відрізняється від свіжого м'яса, тому при змішуванні двох в різних пропорціях повинен бути видно чіткий сигнал. Шум також може бути введений через невеликі відмінності у фізичній структурі зразків, що спричиняють зміну розсіювання світла між зразками. Також зауважте, що є лише обмежені піки і є очевидне зміщення в необроблених спектрах. Тому різні методи попередньої обробки, включаючи згладжування S-G, SNV та перше та друге похідні, можуть бути застосовані до сировинних спектрів (рис. 2.3.5) та їх продуктивності з точки зору поліпшення виявлення фальсифікації яловичини порівняно.

    Таблиця 2.3.2 показує ефективність різних методів попередньої обробки разом з PLSR при визначенні концентрації фальсифікації. Всі застосовані методи попередньої обробки призводять до кращих моделей з меншими RMS, хоча таке вдосконалення не дуже багато. Оптимальна модель була досягнута за допомогою методу попередньої обробки SNV, який мав коефіцієнти визначення 0,93, 0,92 та 0,88, а також RMSE 7,30%, 8,35% та 7,90% для калібрування, перехресної перевірки та прогнозування відповідно. Хоча другі похідні спектри сприяли кращій точності прогнозування (7,37%), відповідна модель дала більші RMSE як для калібрування, так і для перехресної перевірки. Тому найкращим методом попередньої обробки в даному випадку є SNV. Цей метод попередньої обробки може бути вбудований у портативний спектрометр, де сирі спектри отриманих фальсифікованих зразків яловичини можуть бути нормалізовані шляхом видалення середнього, а потім ділення на стандартне відхилення спектрів. Потім модель прогнозування може бути застосована до попередньо оброблених даних SNV для оцінки рівнів фальсифікації яловичини та надання розуміння справжності яловичого продукту.

    Таблиця\(\PageIndex{2}\): Порівняння різних методів попередньої обробки даних у поєднанні з PLSR для прогнозування фальсифікації яловичини.
    Методи РМСЕК (%) РМСЕК (%) RMSEP (%) Р 2 С R 2 РЕЗЮМЕ Р 2 П ЛВ

    Жоден

    8.35

    9.34

    7,99

    0.91

    0,90

    0,88

    4

    1-а похідна

    8.05

    8.78

    7.92

    0,92

    0.91

    0,88

    3

    2-е похідне

    7.92

    10.03

    7.37

    0,92

    0,88

    0,90

    4

    SNV

    7.30

    8.35

    7.90

    0,93

    0,92

    0,88

    4

    С-Г

    7.78

    8.90

    7.91

    0,93

    0.91

    0,88

    5

    C = калібрування

    CV = коефіцієнт варіації

    SEP = стандартна помилка прогнозування

    P = передбачення

    LV = приховані змінні

    Класифікація бактерій

    Ідентифікація та класифікація бактерій важливі для безпеки харчових продуктів, для проектування таких процесів, як термічна обробка, а також для виявлення причин хвороби, коли відбулося бактеріальне зараження. Цей приклад описує, як може бути розроблена система класифікації (Feng et al., 2015). Спектральна матриця була отримана шляхом сканування загалом 196 бактеріальних суспензій різної концентрації за допомогою ближнього інфрачервоного спектрометра в двох діапазонах довжин хвиль, тобто 400—1100 нм і 1100—2498 нм. Також був побудований вектор-стовпчик, який записував мітки для кожної бактерії (тобто її назва або класифікація). Цей набір даних використовувався для класифікації різних бактерій, включаючи три штами кишкової палички та чотири штами Listeria innocua. Оскільки набір даних містить велику кількість (>1000) змінних, було цікаво візуалізувати структуру даних для дослідження потенційної кластеризації вибірки. Використовуючи відповідні методи моделювання, вдалося встановити модель класифікації бактерій на видовому рівні.

    PCA може бути використаний для розуміння структури даних. Оскільки оцінки моделі PCA можуть бути використані для з'ясування розподілу зразків, цікаво намалювати графік оцінки, такий як малюнок 2.3.6. Перші два стовпці матриці балів T є балами для перших двох ПК і генеруються за допомогою першого як осі x, а інший як вісь y. Графіки завантаження на рисунку 2.3.6 можуть бути створені шляхом побудови перших двох стовпців матриці завантаження P T проти назв змінних (довжини хвиль в даному випадку) відповідно.

    Оцінка моделі аналізу основних компонентів для бактеріальних суспензій Escherichia coli та Listeria innocua.

    Графік завантаження однієї з основних компонентів моделі аналізу бактеріальних суспензій Escherichia coli та Listeria innocua.

    Графік завантаження двох основних компонентів моделі аналізу бактеріальних суспензій Escherichia coli та Listeria innocua.
    Рисунок\(\PageIndex{6}\): Графіки оцінки та навантаження моделі PCA (1100—2498 нм) для бактеріальних суспензій кишкової палички та L. innocua. (а) Графік оцінки; (b) і (c) є навантаженнями для перших двох ПК (Feng et al., 2015).

    Перший та другий ПК охопили 58,34% та 35,04% загальної дисперсії набору спектральних даних, що призвело до 93,38% поясненої інформації. На основі такої інформації чітко продемонстровано, що дві бактерії добре відокремлені вздовж першого ПК, хоча дуже мало зразків, змішаних між собою. Досліджуючи навантаження 1, встановлено, що п'ять основних довжин хвиль, включаючи 1392, 1450, 1888, 1950 та 2230 нм, є важливими змінними, які сприяють поділу двох видів бактерій. Крім того, цікаво виявити, що два скупчення з'являються всередині будь-якого з двох видів бактерій, і таке поділ можна потім пояснити чотирма основними довжинами хвиль, зазначеними в навантаженні 2 (рис. 2.3.6c).

    Наступною метою є встановлення класифікаційної моделі в області 400—1100 нм для класифікації цих видів бактерій. Для цього було використано PLS-DA, де спектральні дані та бактеріальні мітки використовуються як незалежні та залежні змінні відповідно. На малюнку 2.3.7 показана продуктивність встановленої моделі. Оптимізована модель приймає чотири приховані змінні для отримання OCCR 99,25% та 96,83% для калібрування та прогнозування відповідно. Для обчислення OCCR прогнозовані значення окремих зразків спочатку округляються, щоб отримати значення 1 або 0, а ці прогнозовані мітки потім порівнюються з істинними мітками, після чого використовується рівняння 2.3.14.

    Матриця плутанини, що показує деталі класифікації для прогнозування, наведена в таблиці 2.3.3. Це показує, що істинним позитивом для виявлення E. coli і L. innocua є 25 і 36 відповідно. Відповідно, чутливість для виявлення видів E. coli і L. innocua становить 0,93 (25/27) і 1 (36/36) відповідно. Всі вищевказані параметри як для калібрування, так і для прогнозування демонструють, що два види бактерій можуть бути добре класифіковані.

    Таблиця\(\PageIndex{3}\): Матриця плутанини для класифікації видів бактерій.
    Фактичний клас Передбачений клас Всього
    кишкова паличка Л. іннокуа

    кишкова паличка

    25

    2

    27

    Л. іннокуа

    0

    36

    36

    Всього

    25

    38

    63

    При інспекції мікробної безпеки харчових продуктів важливо виявити винуватців збудників, які відповідають за захворювання харчового походження. Щоб досягти цього, бактерії на харчових поверхнях можна відбирати, культивувати, ізолювати та підвішувати, а модель може бути застосована до спектрів бактеріальних суспензій, щоб сказати нам, який із цих двох видів бактерій присутній у харчовому продукті.

    Лінійний графік, що показує кількість латентних змінних у моделі класифікації дискримінантного аналізу з частинними найменшими квадратами.Лінійний графік, що показує ефективність моделі для калібрування в моделі класифікації дискримінантного аналізу з частковими найменшими квадратами.

    Лінійний графік, що показує ефективність моделі для прогнозування в моделі класифікації дискримінантного аналізу з частинними найменшими квадратами.
    Рисунок\(\PageIndex{7}\): Продуктивність моделі класифікації PLS-DA у видимому діапазоні SWNIR (400-1100 нм). (а) вибір оптимальної кількості прихованих змінних; (б) продуктивність моделі для калібрування; (c) продуктивність моделі для прогнозування. Пунктирними лініями вказується порогове значення 0,5 (Feng et al., 2015).

    Приклади

    Приклад\(\PageIndex{1}\)

    Приклад 1: Розрахунок ковзної середньої

    Проблема:

    Сорт плодів і стиглість плодів можна визначити неруйнівними методами, такими як NIR спектроскопія. Отримано спектр відбиття зразка персика, частина спектральних даних у діапазоні довжин хвиль 640—690 нм наведена в таблиці 2.3.4. Хоча спектрометр ретельно налаштований, все ще може бути шум у спектрах через умови навколишнього середовища. Застосовуйте метод ковзної середньої, щоб згладити спектр і зменшити потенційний шум.

    Рішення

    Різне програмне забезпечення, включаючи Microsoft, MATLAB та комерційне хіміометричне програмне забезпечення (Unscrambler, PLS Toolbox тощо) доступні для реалізації ковзної середньої. Беручи за приклад Microsoft Excel, потрібна функція «середня». З огляду на спектр, представлений стовпцем (наприклад, стовпець B), значення для згладженого спектра в комірці B10 можна отримати як середнє (B9: B11), якщо розмір вікна 3, і середній (B8: B12) або середній (B7: B13), якщо розмір вікна 5 або 7 відповідно. Для обох кінців спектра розраховується тільки середнє значення значень, присутніх у вікні конкретного розміру. Наприклад, спектральне значення при 639,8 нм після згладжування ковзної середньої під розміром вікна 3 можна отримати як середні значення вихідного спектра при 639,8, 641,1 і 642,2 нм, тобто (0,4728 + 0,4745 + 0,4751) /3 = 0,4741.

    На малюнку 2.3.8 показаний згладжений спектр, результат використання методу ковзної середньої. Зверніть увагу, що спектри зміщуються 0.01, 0.02 та 0.03 одиниці для Win = 3, Win = 5 та Win = 7 спектрів, щоб розділити криві для візуальної презентації. Зрозуміло, що для вихідних даних спостерігається незначне коливання, і така варіація зменшується після згладжування ковзної середньої.

    Таблиця\(\PageIndex{4}\): Спектральні дані зразка персика в діапазоні 640—690 нм.
    Довжина хвилі
    (нм)
    Відбиття Довжина хвилі
    (нм)
    Відбиття

    639,8

    0,4728

    665.2

    0,4755

    641.1

    0,4745

    666.5

    0,4743

    642.4

    0,4751

    667.7

    0,4721

    643.6

    0,4758

    669.0

    0.4701

    644.9

    0,4766

    670.3

    0,4680

    646,2

    0,4777

    671.5

    0,4673

    647,4

    0,4791

    672.8

    0,4664

    648,7

    0.4807

    674.1

    0,4661

    650.0

    0,4829

    675.3

    0,4672

    651.2

    0,4850

    676.6

    0,4689

    652.5

    0,4854

    677.9

    0,4715

    653,8

    0,4854

    679.2

    0,4747

    655.0

    0,4851

    680.4

    0,4796

    656.3

    0,4838

    681.7

    0,4862

    657.6

    0,4826

    683.0

    0,4932

    658.8

    0,4814

    684.3

    0,5010

    660.1

    0.4801

    685.5

    0,5093

    661.4

    0,4789

    686.8

    0.5182

    662.7

    0,4782

    688.1

    0.5269

    663.9

    0,4765

    689.3

    0.5360

    Приклад\(\PageIndex{2}\)

    Приклад 2: Оцінка продуктивності моделі

    Проблема:

    Оскільки свині не можуть потіти, важливо мати можливість швидко підтвердити, що умови в свинарнику не викликають у них стресу. Ректальна температура є найкращим показником теплового стресу у тварини, але її буває складно виміряти. Однак температуру поверхні свині можна легко виміряти за допомогою безконтактних датчиків. У таблиці 2.3.5 показані показники двох моделей PLSR, що використовуються для прогнозування ректальної температури свиней за допомогою змінних, включаючи температуру поверхні та кілька умов навколишнього середовища. Модель 1 - це багатозмінна модель, а модель 2 - спрощена модель, яка використовує оптимізовану підмножину змінних. Визначте, яка модель краще. Продуктивність моделей представлена R та RMSE для калібрування, перехресної перевірки та прогнозування.

    Рішення

    Першим кроком є перевірка, чи R близький до 1, а RMSE до 0. Коефіцієнти кореляції коливаються від 0,66 до 0,87 (табл. 2.3.5), показуючи очевидну кореляцію між прогнозованою ректальною температурою і реальною ректальною температурою. Досліджуючи RMSE, встановлено, що ці похибки є відносно невеликими (0,25° —0,38°C) порівняно з вимірюваним діапазоном (37,8°—40,2° C). Тому обидві моделі корисні для прогнозування ректальної температури свиней.

    Лінійний графік побудови згладжування ковзної середньої спектру персика. Показано вихідний спектр і спектри з шириною вікна три, п'ять і сім.
    Малюнок\(\PageIndex{8}\): Приклад згладжування ковзної середньої спектру персика. Спектри зміщуються 0.01, 0.02 і 0.03 одиниці для Win = 3, Win = 5 і Win = 7 спектрів відповідно для кращої візуальної презентації.

    Другим кроком є перевірка стабільності встановлених моделей шляхом оцінки різниці між Rs або RMS для калібрування, перехресної перевірки та прогнозування. Для конкретного прикладу, хоча для багатозмінної моделі були досягнуті найкращий коефіцієнт кореляції для калібрування (R C) та середню квадратичну похибку для калібрування (RMSEC), її продуктивність у перехресній перевірці та прогнозуванні поступалася показникам спрощеної моделі. Найголовніше, що найбільша різниця між Rs багатозмінної моделі становила 0,21, тоді як лише десята частина такої різниці (0,02) була знайдена для спрощеної моделі. Аналогічна тенденція спостерігалася і для RMSE, де максимальні відмінності 0,05° C та 1,3° C були отримані для спрощеної та багатозмінної моделей відповідно. Ці результати наочно демонструють, що спрощена модель набагато стабільніша, ніж багатозмінна модель.

    Таблиця\(\PageIndex{5}\): Порівняння продуктивності двох моделей, багатозмінної моделі 1 і спрощеної моделі 2 (Feng et al., 2019). RC, RCV та RP - коефіцієнти кореляції для калібрування, перехресної перевірки та прогнозування відповідно.
    Модель RC RCV РП RMSEC
    (° C)
    РМСЕК (°C) RMSEP
    (° C)
    ЛВ

    Модель 1

    0,87

    0.66

    0,76

    0,25

    0,38

    0,37

    4

    Модель 2

    0,80

    0,78

    0,80

    0,30

    0,32

    0,35

    2

    Третім кроком можна оцінити простоту моделі. У цьому прикладі для встановлення багатозмінної моделі було використано чотири приховані змінні, тоді як для спрощеної моделі потрібні лише дві. Перш за все, спрощена модель показала кращу здатність прогнозування, особливо для перехресної перевірки та прогнозування, з меншою кількістю прихованих змінних. Тому він вважається кращою моделлю.

    Зображення Кредити

    Малюнок 1. Фенг, Ю. (CC By 4.0). (2020). S-G згладжування спектрального сигналу.

    Малюнок 2. Фенг, Ю. (CC By 4.0). (2020). Похідні NIR спектри бактеріальних суспензій.

    Малюнок 3. Фенг, Ю. (CC By 4.0). (2020). SNV обробка VIS-NIR спектрів зразків яловичини, фальсифікованих курячим м'ясом.

    Малюнок 4. Фенг, Ю. (CC By 4.0). (2020). Графік середньокореневої похибки у квадраті (RMSE) як функція кількості прихованих змінних (LV) для моделі PLSR.

    Малюнок 5. Фенг, Ю. (CC By 4.0). (2020). Попередня обробка яловичих спектрів.

     

    Малюнок 7. Фенг, Ю. (CC By 4.0). (2020). Продуктивність моделі класифікації PLS-DA у видимому діапазоні SWNIR (400-1000 нм).

    Малюнок 8. Фенг, Ю. (CC By 4.0). (2020). Приклад згладжування ковзної середньої персикового спектра.

    Подяка

    Велике спасибі пану Хай Тао Чжао за допомогу в підготовці цієї глави.

    Посилання

    Бай, Х., Ван, З., Цзоу, Л., і Алсааді, Ф. Е. Спільна оцінка злиття по бездротових сенсорних мережах для моніторингу концентрації CO 2 в теплиці. Інформація Фьюжн, 42, 119-126. https://doi.org/10.1016/j.inffus.2017.11.001.

    Баєтто, М., і Вілсон, А.Д. (2015). Електронно-носові програми для ідентифікації фруктів, стиглості та сортування якості. Датчики, 15 (1), 899-931. https://doi.org/10.3390/s150100899.

    Дханоа, М.С., Лістер, С.Дж., Сандерсон, Р., і Барнс, Р.Дж. (1994). Зв'язок між мультиплікативною корекцією розсіювання (MSC) та стандартними нормальними варіаційними (SNV) перетвореннями NIR спектрів. Дж. ближньої інфрачервоної спектроскопії, 2 (1), 43-47. https://doi.org/10.1255/jnirs.30.

    Фенг, Ю.-З., і Сонце, Д.-З (2013). Близько-інфрачервона гіперспектральна візуалізація в тандемі з частковою регресією найменших квадратів та генетичним алгоритмом неруйнівного визначення та візуалізації синьогнійних навантажень у курячому філе. Таланта, 109, 74-83. https://doi.org/10.1016/j.talanta.2013.01.057.

    Фен, Ю.-З., Дауні, Г., Сан, Д.-В., Уолш, Д., і Сюй, Дж.-Л. (2015). До удосконалення класифікації Escherichia coli, Listeria innocua та їх штамів в ізольованих системах на основі хемометричного аналізу видимих та ближніх інфрачервоних спектроскопічних даних. J. їжа англ. , 149, 87-96. https://doi.org/10.1016/j.jfoodeng.2014.09.016.

    Фен, Ю.-З., ЕльМасрі, Г., Сан, Д.-В., Сканнелл, А.Г., Уолш, Д., і Морсі, Н. (2013). Близько-інфрачервона гіперспектральна візуалізація та часткова регресія найменших квадратів для швидкого та безреагентного визначення Enterobacteriaceae на курячому філе. Харчова хімія. , 138 (2), 1829-1836. https://doi.org/10.1016/j.foodchem.2012.11.040.

    Фен, Ю.-З., Чжао, Х.-Т., Цзя, Г.-Ф., Оджукву, К., і Тан, Х.-К. (2019). Створення валідованих моделей для неінвазивного прогнозування ректальної температури свиноматок за допомогою інфрачервоної термографії та хемометрики. Int. Біометеорол. , 63 (10), 1405-1415. https://doi.org/10.1007/s00484-019-01758-2.

    Фрідман, Дж., Хасті, Т., і Тібширані, Р. (2001). Елементи статистичного навчання. № 10. Нью-Йорк, Нью-Йорк: Спрінгер.

    Ганеш С. Багатоваріантна лінійна регресія. У П. Петерсон, Е. Бейкер, & Б. Макгоу (ред.), Міжнародна енциклопедія освіти (с. 324-331). Оксфорд: Ельзев'є. https://doi.org/10.1016/B978-0-08-044894-7.01350-6.

    Гаух, Г., Хван, Дж., і Фік, Г.В. (2003). Оцінка моделі шляхом порівняння прогнозів на основі моделей та виміряних значень. Агрон. Дж., 95 (6), 1442-1446. doi.org/10.2134/агронь2003.1442.

    Геладі, П., Ковальський Б.Р. (1986). Часткова регресія найменших квадратів: підручник. Анальний. Чим. Акта, 185, 1-17. https://doi.org/10.1016/0003-2670(86)80028-9.

    Гоуен, А., О'Доннелл, К.П., Каллен, П.Дж., Дауні, Г., і Фріас, Дж. М. (2007). Гіперспектральна візуалізація: новий аналітичний інструмент процесу для контролю якості та безпеки харчових продуктів. Тенденції продовольства Sci. Технол. , 18 (12), 590-598. doi.org/10.1016/j.jpgs.2007.06.001.

    Готельлінг, Г. (1933). Аналіз комплексу статистичних змінних на головні компоненти. Дж. ред. Психол. , 24, 417-441. https://doi.org/10.1037/h0071325.

    Кланке, С., & Ріттер, Х. (2006). Схема перехресної перевірки для неконтрольованої регресії ядра. У С.Колліас, А. Стафілопатіс, В.Дух, і Е. Оя (ред.), Proc. Int. Конф. Штучні нейронні мережі. — 4132. — С. 427-436. Пружинна. Код: doi.org/10.1007/11840930_44.

    ЛеКун, Ю., Бенджіо Ю., & Хінтон, Г. Глибоке навчання. Природа, 521 (7553), 436-444. doi.org/10.1038/природа 14539.

    Майон, К., & Барбоза Р.М. (2019). Останні застосування методів аналізу багатовимірних даних при автентифікації рису та найбільш аналізованих параметрів: Огляд. Критичний преподобний Food Sci. Харчування, 59 (12), 1868-1879. https://doi.org/10.1080/10408398.2018.1431763.

    Мевік, Б.-Х., Веренс, Р., і Ліланд, К.Х. (2011). PLS: Часткові найменші квадрати та регресія головного компонента. R пакет вер. 2 (3). Отримано з https://cran.r-project.org/web/packages/pls/pls.pdf.

    О'Доннелл, К.П., Фаган, К., і Каллен, П.Дж. (2014). Процесно-аналітична технологія для харчової промисловості. Нью-Йорк, Нью-Йорк: Спрінгер. doi.org/10.1007/978-1-4939-0311-5.

    Парк, Б., & Лу Р. (2015). Технологія гіперспектральної візуалізації в продовольстві та сільському господарстві Нью-Йорк, Нью-Йорк: Спрінгер. doi.org/10.1007/978-1-4939-2836-1.

    Фам, Б.Т., Джаафарі, А., Пракаш, І., & Буй, Д.Т. (2019). Нова гібридна інтелектуальна модель опорних векторних машин та ансамбль MultiBoost для моделювання схильності до зсувів. Бик. англ. Геол. Навколишнє середовище. , 78 (4), 2865-2886. доі.орг/10.1007/с10064-018-1281-у.

    Савіцький, А., Голай М.Й. (1964). Згладжування та диференціація даних спрощеними процедурами найменших квадратів. Анальний. Хім. , 36 (8), 1627-1639. доі.орг/10.1021/а60214а047.

    Таунсенд, Дж.Т. (1971). Теоретичний аналіз алфавітної матриці плутанини. Психофізика сприйняття, 9 (1), 40-50. doi.org/10.3758/BF03213026.

    Чжао, Х.-Т., Фен, Ю.-З., Чен, В., & Цзя, Г.-Ф. (2019). Застосування інвазивної оптимізації бур'янів та малоквадратної опорної векторної машини для прогнозування фальсифікації яловичини з зіпсованою яловичиною на основі видимого ближнього інфрачервоного (Vis-NIR) гіперспектрального зображення. М'ясо Sci. , 151, 75-81. https://doi.org/10.1016/j.meatsci.2019.01.010.