Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js
Skip to main content
LibreTexts - Ukrayinska

4.11: Ортогональність

Результати
  1. Визначте, чи є дана множина ортогональною або ортонормальною.
  2. Визначте, чи є дана матриця ортогональною.
  3. З огляду на лінійно незалежну множину, скористайтеся процесом Грама-Шмідта, щоб знайти відповідні ортогональні та ортонормальні множини.
  4. Знайти ортогональну проекцію вектора на підпростір.
  5. Знайдіть наближення найменших квадратів для набору точок.

У цьому розділі ми розглянемо, що означає, щоб вектори (і набори векторів) були ортогональними та ортонормальними. По-перше, необхідно переглянути деякі важливі поняття. Ви можете згадати визначення для діапазону множини векторів та лінійного незалежного набору векторів. Ми включимо тут визначення та приклади для зручності.

Визначення4.11.1: Span of a Set of Vectors and Subspace

Колекція всіх лінійних комбінацій множини векторів{u1,,uk} вRn відома як проміжок цих векторів і записується якspan{u1,,uk}.
Ми називаємо колекцію формиspan{u1,,uk} підпросторомRn.

Розглянемо наступний приклад.

Приклад4.11.1: Spanning Vectors

Опишіть проліт векторівu=[110]T іv=[320]TR3.

Рішення

Ви можете бачити, що будь-яка лінійна комбінація векторівu іv дає вектор[xy0]T вXY -площині.

Більш того, кожен вектор вXY -площині насправді є такою лінійною комбінацією векторівu іv. Це тому, що[xy0]=(2x+3y)[110]+(xy)[320]

Таким чином проліт{u,v} є самеXY -площиною.

Проміжок набору векторів вRn є те, що ми називаємо підпросторомRn. ПідпростірW характеризується особливістю того, що будь-яка лінійна комбінація векторів знову ж такиW є вектором, що міститься вW.

Ще одна важлива властивість множин векторів називається лінійна незалежність.

Визначення4.11.2: Linear Independence

Безліч ненульових векторів{u1,,uk} вRn вважається лінійно незалежним, якщо жоден вектор у цій множині не знаходиться в діапазоні інших векторів цієї множини.

Ось приклад.

Приклад4.11.2: Linearly Independent Vectors

Розглянемо векториu=[110]Tv=[320]T, іw=[450]TR3. Перевірте, чи{u,v,w} є набір лінійно незалежним.

Рішення

Ми вже перевірили в прикладі4.11.1, щоspan{u,v} єXY -plane. Оскільки явно такожw знаходиться вXY -площині, то набір{u,v,w} не лінійно незалежний.

З точки зору spanning, набір векторів лінійно незалежний, якщо він не містить непотрібних векторів. У попередньому прикладі ви можете побачити, що векторw не допомагає охопити будь-який новий вектор, який ще не знаходиться в діапазоні двох інших векторів. Однак ви можете переконатися,{u,v} що множина лінійно незалежна, оскільки ви не отримаєтеXY -plane як проліт одного вектора.

Ми також можемо визначити, чи є набір векторів лінійно незалежним шляхом вивчення лінійних комбінацій. Набір векторів лінійно незалежний тоді і тільки тоді, коли лінійна комбінація цих векторів дорівнює нулю, з цього випливає, що всі коефіцієнти дорівнюють нулю. Це хороша вправа для перевірки цієї еквівалентності, і ця остання умова часто використовується як (еквівалентне) визначення лінійної незалежності.

Якщо підпростір охоплюється лінійно незалежним набором векторів, то ми говоримо, що він є основою для підпростору.

Визначення4.11.3: Basis

VДозволяти бути підпросторомRn. Тоді{u1,,uk} є підставою для того,V якщо дотримуються наступні дві умови.

  1. span{u1,,uk}=V
  2. {u1,,uk}лінійно незалежний

Таким чином, множина векторів{u,v} з Прикладу4.11.2 є основою дляXY -plane in,R3 оскільки вона одночасно лінійно незалежна і охоплюєXY -площину.

Нагадаємо з властивостей точкового добутку векторів, що два векториu іv є ортогональними ifuv=0. Припустимо, вектор ортогональний до охоплюючого наборуRn. Що можна сказати про такий вектор? Це обговорення в наступному прикладі.

Приклад4.11.3: Orthogonal Vector to a Spanning Set

Нехай{x1,x2,,xk}Rn і припустимоRn=span{x1,x2,,xk}. Крім того, припустимо, що існує вектор,uRn для якогоuxj=0 для всіхj,1jk. Який тип вектора буваєu?

Рішення

Напишітьu=t1x1+t2x2++tkxk для деякихt1,t2,,tkR (це можливо, тому щоx1,x2,,xk spanRn).

Тоді

З тих пір \| \vec{u} \| ^2 =0, \| \vec{u} \| =0. Ми знаємо, що \| \vec{u} \| =0 якщо і тільки якщо\vec{u}=\vec{0}_n. Тому,\vec{u}=\vec{0}_n. На закінчення, єдиним вектором, ортогональним до кожного вектора охоплюючої множини,\mathbb{R}^n є нульовий вектор.

Тепер ми можемо обговорити, що мається на увазі під ортогональним набором векторів.

Визначення\PageIndex{4}: Orthogonal Set of Vectors

\{ \vec{u}_1, \vec{u}_2, \cdots, \vec{u}_m \}Дозволяти бути набір векторів в\mathbb{R}^n. Тоді цей набір називається ортогональним набором, якщо дотримуються такі умови:

  1. \vec{u}_i \cdot \vec{u}_j = 0для всіхi \neq j
  2. \vec{u}_i \neq \vec{0}для всіхi

Якщо ми маємо ортогональний набір векторів і нормалізуємо кожен вектор так, щоб вони мали довжину 1, результуючий набір називається ортонормальним набором векторів. Їх можна описати наступним чином.

Визначення\PageIndex: {5} Orthonormal Set of Vectors

Набір векторів, як кажуть,\left\{ \vec{w}_{1},\cdots ,\vec{w}_{m}\right\} є ортонормальним набором, якщо\vec{w}_i \cdot \vec{w}_j = \delta _{ij} = \left\{ \begin{array}{c} 1\text{ if }i=j \\ 0\text{ if }i\neq j \end{array} \right.\nonumber

Зауважте, що всі ортонормальні множини є ортогональними, але зворотне не обов'язково вірно, оскільки вектори не можуть бути нормалізовані. Для того щоб нормалізувати вектори, нам просто потрібно розділити кожен на його довжину.

Визначення\PageIndex{6}: Normalizing an Orthogonal Set

Нормалізація ортогональної множини - це процес перетворення ортогонального (але не ортонормального) набору в ортонормальний набір. Якщо\{ \vec{u}_1, \vec{u}_2, \ldots, \vec{u}_k\} є ортогональною підмножиною\mathbb{R}^n, то\left\{ \frac{1}{ \| \vec{u}_1 \| }\vec{u}_1, \frac{1}{ \| \vec{u}_2 \| }\vec{u}_2, \ldots, \frac{1}{ \| \vec{u}_k \| }\vec{u}_k \right\}\nonumber є ортонормальним множиною.

Ми проілюструємо це поняття на наступному прикладі.

Приклад\PageIndex{4}: Orthonormal Set

Розглянемо набір векторів, заданих\left\{ \vec{u}_1, \vec{u}_2 \right\} = \left\{ \left[ \begin{array}{c} 1 \\ 1 \end{array} \right], \left[ \begin{array}{r} -1 \\ 1 \end{array} \right] \right\}\nonumber Show, що це ортогональний набір векторів, але не ортонормальний. Знайдіть відповідну ортонормальну множину.

Рішення

Один легко перевіряє, що\vec{u}_1 \cdot \vec{u}_2 = 0 і\left\{ \vec{u}_1, \vec{u}_2 \right\} є ортогональним набором векторів. З іншого боку, можна обчислити, що \| \vec{u}_1 \| = \| \vec{u}_2 \| = \sqrt{2} \neq 1 і, таким чином, це не ортонормальний набір.

Таким чином, щоб знайти відповідний ортонормальний набір, нам просто потрібно нормалізувати кожен вектор. Напишемо\{ \vec{w}_1, \vec{w}_2 \} для відповідного ортонормального набору. Потім,\begin{aligned} \vec{w}_1 &= \frac{1}{ \| \vec{u}_1 \| } \vec{u}_1\\ &= \frac{1}{\sqrt{2}} \left[ \begin{array}{c} 1 \\ 1 \end{array} \right] \\ &= \left[ \begin{array}{c} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right]\end{aligned}

Аналогічно,\begin{aligned} \vec{w}_2 &= \frac{1}{ \| \vec{u}_2 \| } \vec{u}_2\\ &= \frac{1}{\sqrt{2}} \left[ \begin{array}{r} -1 \\ 1 \end{array} \right] \\ &= \left[ \begin{array}{r} -\frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right]\end{aligned}

Тому відповідним ортонормальним набором є\left\{ \vec{w}_1, \vec{w}_2 \right\} = \left\{ \left[ \begin{array}{c} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right], \left[ \begin{array}{r} -\frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right] \right\}\nonumber

Ви можете переконатися, що цей набір є ортогональним.

Розглянемо ортогональний набір векторів в\mathbb{R}^n, написаних\{ \vec{w}_1, \cdots, \vec{w}_k \} сk \leq n. Проліт цих векторів єW підпростором\mathbb{R}^n. Якби ми могли показати, що цей ортогональний набір також лінійно незалежний, ми б мали основуW. Ми покажемо це в наступній теоремі.

Теорема\PageIndex{1}: Orthogonal Basis of a Subspace

\{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \}Дозволяти бути ортонормальний набір векторів в\mathbb{R}^n. Тоді ця множина лінійно незалежна і утворює основу для підпросторуW = \mathrm{span} \{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \}.

Доказ

Щоб показати, що це лінійно незалежна множина, припустимо, що лінійна комбінація цих векторів дорівнює\vec{0}, наприклад:a_1 \vec{w}_1 + a_2 \vec{w}_2 + \cdots + a_k \vec{w}_k = \vec{0}, a_i \in \mathbb{R}\nonumber Нам потрібно показати, що всеa_i = 0. Для цього візьміть точковий добуток кожної сторони вищевказаного рівняння з вектором\vec{w}_i і отримайте наступне.

\begin{aligned} \vec{w}_i \cdot (a_1 \vec{w}_1 + a_2 \vec{w}_2 + \cdots + a_k \vec{w}_k ) &= \vec{w}_i \cdot \vec{0}\\ a_1 (\vec{w}_i \cdot \vec{w}_1) + a_2 (\vec{w}_i \cdot \vec{w}_2) + \cdots + a_k (\vec{w}_i \cdot \vec{w}_k) &= 0 \end{aligned}

Тепер, оскільки набір ортогональний,\vec{w}_i \cdot \vec{w}_m = 0 для всіхm \neq i, так що ми маємо:a_1 (0) + \cdots + a_i(\vec{w}_i \cdot \vec{w}_i) + \cdots + a_k (0) = 0\nonumber a_i \| \vec{w}_i \| ^2 = 0\nonumber

Оскільки набір ортогональний, ми це знаємо \| \vec{w}_i \| ^2 \neq 0. Звідси випливає, щоa_i =0. Так якa_i був обраний довільно, набір\{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \} лінійно незалежний.

НарештіW = \mbox{span} \{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \}, з тих пір, набір векторів також охоплюєW і тому утворює основуW.

Якщо ортогональна множина є основою для підпростору, ми називаємо це ортогональною основою. Аналогічно, якщо ортонормальний набір є основою, ми називаємо це ортонормальною основою.

Завершуємо цей розділ обговоренням розширень Фур'є. З огляду на будь-який ортогональнийB базис\mathbb{R}^n і довільний вектор\vec{x} \in \mathbb{R}^n, як ми виражаємо\vec{x} як лінійну комбінацію векторів вB? Рішення - розширення Фур'є.

Теорема\PageIndex{2}: Fourier Expansion

VДозволяти підпростір\mathbb{R}^n і припустимо\{ \vec{u}_1, \vec{u}_2, \ldots, \vec{u}_m \} є ортогональною основоюV. Тоді для будь-якого\vec{x}\in V,

\vec{x} = \left(\frac{\vec{x}\cdot \vec{u}_1}{ \| \vec{u}_1 \| ^2}\right) \vec{u}_1 + \left(\frac{\vec{x}\cdot \vec{u}_2}{ \| \vec{u}_2 \| ^2}\right) \vec{u}_2 + \cdots + \left(\frac{\vec{x}\cdot \vec{u}_m}{ \| \vec{u}_m \| ^2}\right) \vec{u}_m\nonumber

Цей вираз називається розширенням Фур'є\vec{x}, і\frac{\vec{x}\cdot \vec{u}_j}{ \| \vec{u}_j \| ^2},\nonumber j=1,2,\ldots,m є коефіцієнтами Фур'є.

Розглянемо наступний приклад.

Приклад\PageIndex{5}: Fourier Expansion

Нехай\vec{u}_1= \left[\begin{array}{r} 1 \\ -1 \\ 2 \end{array}\right], \vec{u}_2= \left[\begin{array}{r} 0 \\ 2 \\ 1 \end{array}\right], і\vec{u}_3 =\left[\begin{array}{r} 5 \\ 1 \\ -2 \end{array}\right], і нехай\vec{x} =\left[\begin{array}{r} 1 \\ 1 \\ 1 \end{array}\right].

ПотімB=\{ \vec{u}_1, \vec{u}_2, \vec{u}_3\} робиться ортогональна основа\mathbb{R}^3.

Обчислити розширення Фур'є\vec{x}, таким чином\vec{x} записуючи як лінійну комбінацію векторівB.

Рішення

Так якB є підставою (перевірити!) існує унікальний спосіб вираження у\vec{x} вигляді лінійної комбінації векторівB. Більше тогоB, оскільки є ортогональною основою (перевірити!) , то це можна зробити, обчисливши розширення Фур'є\vec{x}.

Тобто:

\vec{x} = \left(\frac{\vec{x}\cdot \vec{u}_1}{ \| \vec{u}_1 \| ^2}\right) \vec{u}_1 + \left(\frac{\vec{x}\cdot \vec{u}_2}{ \| \vec{u}_2 \| ^2}\right) \vec{u}_2 + \left(\frac{\vec{x}\cdot \vec{u}_3}{ \| \vec{u}_3 \| ^2}\right) \vec{u}_3. \nonumber

Ми з готовністю обчислюємо:

\frac{\vec{x}\cdot\vec{u}_1}{ \| \vec{u}_1 \| ^2} = \frac{2}{6}, \; \frac{\vec{x}\cdot\vec{u}_2}{ \| \vec{u}_2 \| ^2} = \frac{3}{5}, \mbox{ and } \frac{\vec{x}\cdot\vec{u}_3}{ \| \vec{u}_3 \| ^2} = \frac{4}{30}. \nonumber

Тому,\left[\begin{array}{r} 1 \\ 1 \\ 1 \end{array}\right] = \frac{1}{3}\left[\begin{array}{r} 1 \\ -1 \\ 2 \end{array}\right] +\frac{3}{5}\left[\begin{array}{r} 0 \\ 2 \\ 1 \end{array}\right] +\frac{2}{15}\left[\begin{array}{r} 5 \\ 1 \\ -2 \end{array}\right]. \nonumber

Ортогональні матриці

Нагадаємо, що процес пошуку зворотної матриці часто був громіздким. На відміну від цього, було дуже легко взяти транспонування матриці. На щастя для деяких спеціальних матриць, транспонування дорівнює зворотному. Колиn \times n матриця має всі дійсні записи і її транспонування дорівнює її зворотній, матриця називається ортогональною матрицею.

Точне визначення полягає в наступному.

Визначення\PageIndex{7}: Orthogonal Matrices

Реальнаn\times n матрицяU називається ортогональною матрицею, якщо

UU^{T}=U^{T}U=I.\nonumber

Зверніть увагу, оскількиU вважається квадратною матрицею, достатньо перевірити лише одне з цих рівностейUU^{T}=I абоU^{T}U=I утримує, щоб гарантувати, щоU^T це зворотнеU.

Розглянемо наступний приклад.

Приклад\PageIndex{6}: Orthogonal Matrix

Ортогональна матриця ПоказатиU=\left[ \begin{array}{rr} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right]\nonumber матрицю ортогональну.

Рішення

Все, що нам потрібно зробити, це перевірити (одне з рівнянь від) вимоги визначення\PageIndex{7}.

UU^{T}=\left[ \begin{array}{rr} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right] \left[ \begin{array}{rr} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right] = \left[ \begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right]\nonumber

Так якUU^{T} = I, ця матриця ортогональна.

Ось ще один приклад.

Приклад\PageIndex{7}: Orthogonal Matrix

ОртогональнаU=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] . матриця НехайU ортогональна?

Рішення

Знову ж таки, відповідь так, і це можна перевірити, просто показавши, щоU^{T}U=I:

\begin{aligned} U^{T}U&=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] ^{T}\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] \\ &=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] \left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] \\ &=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right]\end{aligned}

Коли ми говоримо, щоU це ортогонально, ми говоримоUU^T=I, що, це означає, що\sum_{j}u_{ij}u_{jk}^{T}=\sum_{j}u_{ij}u_{kj}=\delta _{ik}\nonumber де\delta _{ij} знаходиться символ Кронекера, що визначається\delta _{ij}=\left\{ \begin{array}{c} 1 \text{ if }i=j \\ 0\text{ if }i\neq j \end{array} \right.\nonumber

У словах, добутокi^{th} рядкаU з рядкомk^{th} дає1 якщоi=k і0 якщо Теi\neq k. ж саме вірно для стовпців, тому щоU^{T}U=I також. Тому,\sum_{j}u_{ij}^{T}u_{jk}=\sum_{j}u_{ji}u_{jk}=\delta _{ik}\nonumber який говорить про те, що добуток одного стовпця з іншим стовпцем дає,1 якщо два стовпці однакові і0 якщо два стовпці різні.

Більш лаконічно це говорить про те, що якщо\vec{u}_{1},\cdots ,\vec{u}_{n} є стовпцямиU, ортогональної матриці, то\vec{u}_{i}\cdot \vec{u}_{j}=\delta _{ij} = \left\{ \begin{array}{c} 1\text{ if }i=j \\ 0\text{ if }i\neq j \end{array} \right.\nonumber

Ми скажемо, що стовпці утворюють ортонормальний набір векторів, причому аналогічно для рядків. Таким чином, матриця є ортогональною, якщо її рядки (або стовпці) утворюють ортонормальний набір векторів. Зверніть увагу, що конвенція полягає в тому, щоб назвати таку матрицю ортогональної, а не ортонормальної (хоча це може мати більше сенсу!).

Пропозиція\PageIndex{1}: Orthonormal Basis

Рядкиn \times n ортогональної матриці утворюють ортонормальну основу\mathbb{R}^n. Крім того, будь-яка ортонормальна основа\mathbb{R}^n може бути використана для побудовиn \times n ортогональної матриці.

Доказ

Нагадаємо з теореми\PageIndex{1}, що ортонормальна множина є лінійно незалежною і становить основу для його прольоту. Оскільки рядкиn \times n ортогональної матриці утворюють ортонормальну множину, вони повинні бути лінійно незалежними. Тепер у нас єn лінійно незалежні вектори, і з цього випливає, що їх проміжок дорівнює\mathbb{R}^n. Тому ці вектори утворюють ортонормальну основу для\mathbb{R}^n.

Припустимо, що тепер у нас є ортонормальна основа для\mathbb{R}^n. Оскільки основа буде міститиn вектори, вони можуть бути використані для побудовиn \times n матриці, причому кожен вектор стає рядком. Тому матриця складається з ортонормальних рядків, що за нашим вище обговоренням означає, що матриця ортогональна. Зверніть увагу, що ми могли б також побудувати матрицю з кожним вектором стає стовпець замість цього, і це знову буде ортогональна матриця. Насправді це просто транспонування попередньої матриці.

Розглянемо наступну пропозицію.

Пропозиція\PageIndex{2}: Determinant of Orthogonal Matrices

Det ПрипустимоU є ортогональною матрицею. Тоді\det \left( U\right) = \pm 1.

Доказ

Цей результат випливає з властивостей детермінант. Нагадаємо, що для будь-якої матриціA,\det(A)^T = \det(A). Тепер якщоU ортогональний, то:(\det \left( U\right)) ^{2}=\det \left( U^{T}\right) \det \left( U\right) =\det \left( U^{T}U\right) =\det \left( I\right) =1\nonumber

Тому(\det (U))^2 = 1 і випливає, що\det \left( U\right) = \pm 1.

Ортогональні матриці діляться на два класи, належні і неправильні. Власні ортогональні матриці - це ті, чиї детермінант дорівнює 1, а неправильні - ті, чиї детермінант дорівнює-1. Причина відмінності полягає в тому, що неправильні ортогональні матриці іноді вважаються не мають фізичного значення. Ці матриці спричиняють зміну орієнтації, яка відповідала б матеріалу, що проходить через себе нефізично. Таким чином, розглядаючи, які системи координат повинні розглядатися в певних додатках, вам потрібно враховувати лише ті, які пов'язані належним ортогональним перетворенням. Геометрично лінійні перетворення, що визначаються власними ортогональними матрицями, відповідають складу обертань.

Закінчуємо цей розділ двома корисними властивостями ортогональних матриць.

Приклад\PageIndex{8}: Product and Inverse of Orthogonal Matrices

ПрипустимоA іB є ортогональними матрицями. ТодіAB іA^{-1} обидва існують і є ортогональними.

Рішення

Спочатку оглядаємо продуктAB. (AB)(B^TA^T)=A(BB^T)A^T =AA^T=I\nonumber Так якAB квадрат,B^TA^T=(AB)^T є зворотнимAB, так іAB є оборотним, а(AB)^{-1}=(AB)^T отже,AB ортогональний.

Далі ми покажемо,A^{-1}=A^T що також ортогонально. (A^{-1})^{-1} = A = (A^T)^{T} =(A^{-1})^{T}\nonumber ТомуA^{-1} також ортогональний.

Процес грам-Шмідта

Процес Грама-Шмідта є алгоритмом перетворення множини векторів в ортонормальну множину, що охоплює той самий підпростір, який генерує ту саму колекцію лінійних комбінацій (див. Визначення 9.2.2).

Мета процесу Грама-Шмідта полягає в тому, щоб взяти лінійно незалежний набір векторів і перетворити його в ортонормальний набір з однаковим прольотом. Перша мета полягає в побудові ортогональної множини векторів з однаковим прольотом, оскільки звідти ортонормальну множину можна отримати простим діленням кожного вектора на його довжину.

Алгоритм\PageIndex{1}: Gram-Schmidt Process

\{ \vec{u}_1,\cdots ,\vec{u}_n \}Дозволяти набір лінійно незалежних векторів в\mathbb{R}^{n}.

I: Побудувати новий набір векторів\{ \vec{v}_1,\cdots ,\vec{v}_n \} наступним чином:\begin{array}{ll} \vec{v}_1 & = \vec{u}_1 \\ \vec{v}_{2} & = \vec{u}_{2} - \left( \dfrac{ \vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1\\ \vec{v}_{3} & = \vec{u}_{3} - \left( \dfrac{\vec{u}_3 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1 - \left( \dfrac{\vec{u}_3 \cdot \vec{v}_2}{ \| \vec{v}_2 \| ^2} \right) \vec{v}_2\\ \vdots \\ \vec{v}_{n} & = \vec{u}_{n} - \left( \dfrac{\vec{u}_n \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1 - \left( \dfrac{\vec{u}_n \cdot \vec{v}_2}{ \| \vec{v}_2 \| ^2} \right) \vec{v}_2 - \cdots - \left( \dfrac{\vec{u}_{n} \cdot \vec{v}_{n-1}}{ \| \vec{v}_{n-1} \| ^2} \right) \vec{v}_{n-1} \\ \end{array}\nonumber

II: Тепер дозвольте\vec{w}_i = \dfrac{\vec{v}_i}{ \| \vec{v}_i \| }i=1, \cdots ,n.

Тоді

  1. \left\{ \vec{v}_1, \cdots, \vec{v}_n \right\}є ортогональним набором.
  2. \left\{ \vec{w}_1,\cdots , \vec{w}_n \right\}є ортонормальним набором.
  3. \mathrm{span}\left\{ \vec{u}_1,\cdots ,\vec{u}_n \right\} = \mathrm{span} \left\{ \vec{v}_1, \cdots, \vec{v}_n \right\} = \mathrm{span}\left\{ \vec{w}_1,\cdots ,\vec{w}_n \right\}.
Рішення

Повний доказ цього алгоритму виходить за рамки цього матеріалу, однак ось вказівка на аргументи.

Щоб показати, що\left\{ \vec{v}_1,\cdots , \vec{v}_n \right\} це ортогональний набір, нехайa_2 = \dfrac{ \vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2}\nonumber тоді:\begin{array}{ll} \vec{v}_1 \cdot \vec{v}_2 & = \vec{v}_1 \cdot \left( \vec{u}_2 - a_2 \vec{v}_1 \right) \\ & = \vec{v}_1 \cdot \vec{u}_2 - a_2 (\vec{v}_1 \cdot \vec{v}_1 \\ & = \vec{v}_1 \cdot \vec{u}_2 - \dfrac{ \vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \| \vec{v}_1 \| ^2 \\ & = ( \vec{v}_1 \cdot \vec{u}_2 ) - ( \vec{u}_2 \cdot \vec{v}_1 ) =0\\ \end{array}\nonumber Тепер, коли ви показали, що\{ \vec{v}_1, \vec{v}_2\} є ортогональним, використовуйте той самий метод, що і вище, щоб показати,\{ \vec{v}_1, \vec{v}_2, \vec{v}_3\} що також ортогональний, і так далі.

Тоді подібним чином ви це показуєте\mathrm{span}\left\{ \vec{u}_1,\cdots ,\vec{u}_n \right\} = \mathrm{span}\left\{ \vec{v}_1,\cdots ,\vec{v}_n \right\}.

Нарешті визначення\vec{w}_i = \dfrac{\vec{v}_i}{ \| \vec{v}_i \| } fori=1, \cdots ,n не впливає на ортогональність і дає вектори довжини 1, отже, ортонормальна множина. Ви також можете помітити, що це також не впливає на проліт, і доказ буде повним.

Розглянемо наступний приклад.

Приклад\PageIndex{9}: Find Orthonormal Set with Same Span

Розглянемо набір векторів,\{\vec{u}_1, \vec{u}_2\} наведених як у прикладі\PageIndex{1}. Тобто\vec{u}_1=\left[ \begin{array}{r} 1 \\ 1 \\ 0 \end{array} \right], \vec{u}_2=\left[ \begin{array}{r} 3 \\ 2 \\ 0 \end{array} \right] \in \mathbb{R}^{3}\nonumber

Використовуйте алгоритм Грама-Шмідта, щоб знайти ортонормальний набір векторів,\{\vec{w}_1, \vec{w}_2\} що мають однаковий проміжок.

Рішення

Ми вже зазначали, що набір векторів в\{\vec{u}_1, \vec{u}_2\} лінійно незалежний, тому ми можемо приступати до алгоритму Грама-Шмідта:\begin{aligned} \vec{v}_1 &= \vec{u}_1 = \left[ \begin{array}{r} 1 \\ 1 \\ 0 \end{array} \right] \\ \vec{v}_{2} &= \vec{u}_{2} - \left( \dfrac{\vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1\\ &= \left[ \begin{array}{r} 3 \\ 2 \\ 0 \end{array} \right] - \frac{5}{2} \left[ \begin{array}{r} 1 \\ 1 \\ 0 \end{array} \right] \\ &= \left[ \begin{array}{r} \frac{1}{2} \\ - \frac{1}{2} \\ 0 \end{array} \right] \end{aligned}

Тепер нормалізувати просто нехай\begin{aligned} \vec{w}_1 &= \frac{\vec{v}_1}{ \| \vec{v}_1 \| } = \left[ \begin{array}{r} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \\ 0 \end{array} \right] \\ \vec{w}_2 &= \frac{\vec{v}_2}{ \| \vec{v}_2 \| } = \left[ \begin{array}{r} \frac{1}{\sqrt{2}} \\ - \frac{1}{\sqrt{2}} \\ 0 \end{array} \right]\end{aligned}

Ви можете перевірити, що\{\vec{w}_1, \vec{w}_2\} це ортонормальний набір векторів, що мають такий же проміжок\{\vec{u}_1, \vec{u}_2\}, а самеXY -plane.

У цьому прикладі ми почали з лінійно незалежної множини і знайшли ортонормальний набір векторів, які мали однаковий проміжок. Виходить, що якщо почати з основи підпростору і застосувати алгоритм Грама-Шмідта, то результатом буде ортогональна основа того ж підпростору. Ми розглянемо це в наступному прикладі.

Приклад\PageIndex{10}: Find a Corresponding Orthogonal Basis

Нехай\vec{x}_1=\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \vec{x}_2=\left[\begin{array}{c} 1\\ 0\\ 1\\ 1 \end{array}\right], \mbox{ and } \vec{x}_3=\left[\begin{array}{c} 1\\ 1\\ 0\\ 0 \end{array}\right],\nonumber і нехайU=\mathrm{span}\{\vec{x}_1, \vec{x}_2,\vec{x}_3\}. Скористайтеся процесом Грама-Шмідта для побудовиB ортогональної основиU.

Рішення

Перший\vec{f}_1=\vec{x}_1.

Далі,\vec{f}_2=\left[\begin{array}{c} 1\\ 0\\ 1\\ 1 \end{array}\right] -\frac{2}{2}\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right] =\left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right].\nonumber

Нарешті,\vec{f}_3=\left[\begin{array}{c} 1\\ 1\\ 0\\ 0 \end{array}\right] -\frac{1}{2}\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right] -\frac{0}{1}\left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right] =\left[\begin{array}{c} 1/2\\ 1\\ -1/2\\ 0 \end{array}\right].\nonumber

Тому\left\{ \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right], \left[\begin{array}{c} 1/2\\ 1\\ -1/2\\ 0 \end{array}\right] \right\}\nonumber є ортогональною основоюU. Однак іноді зручніше мати справу з векторами, що мають цілі записи, в цьому випадку ми беремоB=\left\{ \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right], \left[\begin{array}{r} 1\\ 2\\ -1\\ 0 \end{array}\right] \right\}.\nonumber

Ортогональні проекції

Важливе використання процесу Грама-Шмідта полягає в ортогональних проекціях, фокусі цього розділу.

Ви можете згадати, що підпростір\mathbb{R}^n - це набір векторів, який містить нульовий вектор і закривається при додаванні і скалярному множенні. Назвемо такий підпростірW. Зокрема, площина, в\mathbb{R}^n якій міститься походження\left(0,0, \cdots, 0 \right), є підпростором\mathbb{R}^n.

Припустимо, точкаY в не\mathbb{R}^n міститься вW, то яка точкаZ вW найближчомуY? Використовуючи процес Грама-Шмідта, ми можемо знайти таку точку. \vec{y}, \vec{z}Дозволяти представляти вектори положення точокY іZ відповідно, з\vec{y}-\vec{z} представленням вектора, що з'єднує дві точкиY іZ. Звідси випливає,Z що якщо точка наW найближче доY, то\vec{y} - \vec{z} буде перпендикулярноW (ви бачите, чому?) ; іншими словами,\vec{y} - \vec{z} ортогональнийW (і до кожного вектора, що міститься вW), як на наступній діаграмі.

clipboard_e45fa45daf7ac272bec5db504e1a523d2.png
Малюнок\PageIndex{1}

Вектор\vec{z} називається ортогональної проекцією\vec{y} наW. Визначення дається наступним чином.

Визначення\PageIndex{8}: Orthogonal Projection

WДозволяти бути підпростором\mathbb{R}^n, іY бути будь-якою точкою в\mathbb{R}^n. Тоді ортогональна проекціяY наW задається тим\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right) = \left( \frac{\vec{y} \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2}\right) \vec{w}_1 + \left( \frac{\vec{y} \cdot \vec{w}_2}{ \| \vec{w}_2 \| ^2}\right) \vec{w}_2 + \cdots + \left( \frac{\vec{y} \cdot \vec{w}_m}{ \| \vec{w}_m \| ^2}\right) \vec{w}_m\nonumber , де\{\vec{w}_1, \vec{w}_2, \cdots, \vec{w}_m \} будь-яка ортогональна основаW.

Тому, щоб знайти ортогональну проекцію, ми повинні спочатку знайти ортогональну основу для підпростору. Зауважте, що можна використовувати ортонормальну основу, але це не обов'язково в цьому випадку, оскільки, як ви можете бачити вище, нормалізація кожного вектора включена у формулу проекції.

Перш ніж ми досліджуємо це далі на прикладі, ми покажемо, що ортогональна проекція дійсно дає точкуZ (точку, вектор положення якої є вектором\vec{z} вище), яка є точкоюW найближчого доY.

Теорема\PageIndex{3}: Approximation Theorem

WДозволяти бути підпростором\mathbb{R}^n іY будь-якої точки в\mathbb{R}^n. ZДозволяти точка, вектор положення якої ортогональна проекціяY наW.

Тоді,Z це точка вW найближчому доY.

Доказ

По-першеZ, це, безумовно, точка вW тому що він знаходиться в прольоті основиW.

Щоб показати, щоZ це точкаW найближче доY, ми хочемо показати, що|\vec{y}-\vec{z}_1| > |\vec{y}-\vec{z}| для всіх\vec{z}_1 \neq \vec{z} \in W. Починаємо з написання\vec{y}-\vec{z}_1 = (\vec{y} - \vec{z}) + (\vec{z} - \vec{z}_1). Тепер вектор\vec{y} - \vec{z} ортогональнийW, і\vec{z} - \vec{z}_1 міститься вW. Тому ці вектори ортогональні один одному. За теоремою Піфагора, ми маємо, що \| \vec{y} - \vec{z}_1 \| ^2 = \| \vec{y} - \vec{z} \| ^2 + \| \vec{z} -\vec{z}_1 \| ^2 > \| \vec{y} - \vec{z} \| ^2\nonumber Це випливає, тому що\vec{z} \neq \vec{z}_1 так \| \vec{z} -\vec{z}_1 \| ^2 > 0.

Отже, \| \vec{y} - \vec{z}_1 \| ^2 > \| \vec{y} - \vec{z} \| ^2. Взявши квадратний корінь з кожного боку, отримуємо бажаний результат.

Розглянемо наступний приклад.

Приклад\PageIndex{11}: Orthogonal Projection

WДозволяти площині через початок, заданий рівняннямx - 2y + z = 0. Знайдіть точку вW найближчій до точкиY = (1,0,3).

Рішення

Потрібно спочатку знайти ортогональну основу дляW. Зверніть увагу, щоW характеризується всіма пунктами(a,b,c) деc = 2b-a. Іншими словами,W = \left[ \begin{array}{c} a \\ b \\ 2b - a \end{array} \right] = a \left[ \begin{array}{c} 1 \\ 0 \\ -1 \end{array} \right] + b \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right], \; a,b \in \mathbb{R}\nonumber

Таким чином, ми можемо писатиW як\begin{aligned} W &= \mbox{span} \left\{ \vec{u}_1, \vec{u}_2 \right\} \\ &= \mbox{span} \left\{ \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right], \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] \right\}\end{aligned}

Зверніть увагу, що цей проміжок є основоюW, оскільки він лінійно незалежний. Ми будемо використовувати процес Грама-Шмідта, щоб перетворити це на ортогональну основу,\left\{\vec{w}_1, \vec{w}_2 \right\}. У цьому випадку, як ми помітили, необхідно лише знайти ортогональну основу, і не потрібно, щоб вона була ортонормальною.

\vec{w}_1 = \vec{u}_1 = \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right]\nonumber \begin{aligned} \vec{w}_2 &= \vec{u}_2 - \left( \frac{ \vec{u}_2 \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2} \right) \vec{w}_1\\ &= \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] - \left( \frac{-2}{2}\right) \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right] \\ &= \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] + \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right] \\ &= \left[ \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right]\end{aligned}

Тому ортогональною основоюW є\left\{ \vec{w}_1, \vec{w}_2 \right\} = \left\{ \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right], \left[ \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right] \right\}\nonumber

Тепер ми можемо використовувати цю основу, щоб знайти ортогональну проекцію точкиY=(1,0,3) на підпросторіW. Ми напишемо вектор\vec{y} позиціїY як\vec{y} = \left[ \begin{array}{c} 1 \\ 0 \\ 3 \end{array} \right]. Використовуючи Definition\PageIndex{8}, обчислюємо проекцію наступним чином:\begin{aligned} \vec{z} &= \mathrm{proj}_{W}\left( \vec{y}\right)\\ &= \left( \frac{\vec{y} \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2}\right) \vec{w}_1 + \left( \frac{\vec{y} \cdot \vec{w}_2}{ \| \vec{w}_2 \| ^2}\right) \vec{w}_2 \\ &= \left( \frac{-2}{2} \right) \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right] + \left( \frac{4}{3} \right) \left[ \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right] \\ &= \left[ \begin{array}{c} \frac{1}{3} \\ \frac{4}{3} \\ \frac{7}{3} \end{array} \right]\end{aligned}

Тому точкаZ наW найближчій до точки(1,0,3) є\left( \frac{1}{3}, \frac{4}{3}, \frac{7}{3} \right).

Нагадаємо, що вектор\vec{y} - \vec{z} перпендикулярний (ортогональний) всім векторам, що містяться в площиніW. Використовуючи основу дляW, ми можемо знайти всі такі вектори, які перпендикулярніW. Ми називаємо цей набір векторів ортогональним доповненнямW і позначимо йогоW^{\perp}.

Визначення\PageIndex{9}: Orthogonal Complement

WДозволяти бути підпростором\mathbb{R}^n. Тоді ортогональне доповненняW, написанеW^{\perp}, є сукупністю всіх векторів,\vec{x} таких, що\vec{x} \cdot \vec{z} = 0 для всіх векторів\vec{z} вW. W^{\perp} = \{ \vec{x} \in \mathbb{R}^n \; \mbox{such that} \; \vec{x} \cdot \vec{z} = 0 \; \mbox{for all} \; \vec{z} \in W \}\nonumber

Ортогональне доповнення визначається як набір усіх векторів, які є ортогональними до всіх векторів у вихідному підпросторі. Виявляється, достатньо, щоб вектори в ортогональному доповненні були ортогональними до охоплюючого набору вихідного простору.

Пропозиція\PageIndex{3}: Orthogonal to Spanning Set

WДозволяти бути підпростір\mathbb{R}^n такого, щоW = \mathrm{span} \left\{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_m \right\}. ПотімW^{\perp} - набір усіх векторів, які ортогональні кожному з них\vec{w}_i у наборі.

Наступна пропозиція демонструє, що ортогональне доповнення підпростору сам по собі є підпростором.

Пропозиція\PageIndex{4}: The Orthogonal Complement

WДозволяти бути підпростором\mathbb{R}^n. ТодіW^{\perp} ортогональне доповнення також є підпростором\mathbb{R}^n.

Розглянемо наступну пропозицію.

Пропозиція\PageIndex{5}: Orthogonal Complement of \mathbb{R}^n

Доповненням\mathbb{R}^n є множина, що містить нульовий вектор:(\mathbb{R}^n)^{\perp} = \left\{ \vec{0} \right\}\nonumber Аналогічно,\left\{ \vec{0} \right\}^{\perp} = (\mathbb{R}^n). \nonumber

Доказ

Тут\vec{0} нульовий вектор\mathbb{R}^n. Так як\vec{x}\cdot\vec{0}=0 для всіх\vec{x}\in\mathbb{R}^n,\mathbb{R}^n\subseteq\{ \vec{0}\}^{\perp}. Так як\{ \vec{0}\}^{\perp}\subseteq\mathbb{R}^n, слід рівність, т\{ \vec{0}\}^{\perp}=\mathbb{R}^n. Е.

Знову ж таки, так як\vec{x}\cdot\vec{0}=0 для всіх\vec{x}\in\mathbb{R}^n\vec{0}\in (\mathbb{R}^n)^{\perp}, так\{ \vec{0}\}\subseteq(\mathbb{R}^n)^{\perp}. Припустимо\vec{x}\in\mathbb{R}^n,\vec{x}\neq\vec{0}. Так як\vec{x}\cdot\vec{x}=||\vec{x}||^2 і\vec{x}\neq\vec{0}\vec{x}\cdot\vec{x}\neq 0, так\vec{x}\not\in(\mathbb{R}^n)^{\perp}. (\mathbb{R}^n)^{\perp}\subseteq \{\vec{0}\}Тому і таким чином(\mathbb{R}^n)^{\perp}=\{\vec{0}\}.

У наступному прикладі ми розглянемо, як знайтиW^{\perp}.

Приклад\PageIndex{12}: Orthogonal Complement

WДозволяти площині через початок, заданий рівняннямx - 2y + z = 0. Знайдіть основу для ортогонального доповненняW.

Рішення

З Прикладу\PageIndex{11} ми знаємо, що ми можемо писатиW якW = \mbox{span} \left\{ \vec{u}_1, \vec{u}_2 \right\} = \mbox{span} \left\{ \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right], \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] \right\}\nonumber

Для того, щоб знайтиW^{\perp}, нам потрібно знайти всі,\vec{x} які є ортогональними до кожного вектора в цьому проміжку.

Нехай\vec{x} = \left[ \begin{array}{c} x_1 \\ x_2 \\ x_3 \end{array} \right]. Для того, щоб задовольнити\vec{x} \cdot \vec{u}_1 = 0, має триматися наступне рівняння. x_1 - x_3 = 0\nonumber

Для того, щоб задовольнити\vec{x} \cdot \vec{u}_2 = 0, має триматися наступне рівняння. x_2 + 2x_3 = 0\nonumber

Обидва ці рівняння повинні бути задоволені, тому ми маємо наступну систему рівнянь. \begin{array}{c} x_1 - x_3 = 0 \\ x_2 + 2x_3 = 0 \end{array}\nonumber

Щоб вирішити, налаштуйте доповнену матрицю.

\left[ \begin{array}{rrr|r} 1 & 0 & -1 & 0 \\ 0 & 1 & 2 & 0 \end{array} \right]\nonumber

Використовуючи гаусову ліквідацію, ми знаходимоW^{\perp} = \mbox{span} \left\{ \left[ \begin{array}{r} 1 \\ -2 \\ 1 \end{array} \right] \right\}, що, а отже,\left\{ \left[ \begin{array}{r} 1 \\ -2 \\ 1 \end{array} \right] \right\} є основою дляW^{\perp}.

Наступні результати узагальнюють важливі властивості ортогональної проекції.

Теорема\PageIndex{4}: Orthogonal Projection

WДозволяти бути підпростором\mathbb{R}^n,Y бути будь-якою точкою в\mathbb{R}^n, іZ нехай точка вW найближчому доY. Потім,

  1. Вектор\vec{z} положення точкиZ задається\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right)
  2. \vec{z} \in Wі\vec{y} - \vec{z} \in W^{\perp}
  3. | Y - Z | < | Y - Z_1 |для всіхZ_1 \neq Z \in W

Розглянемо наступний приклад цього поняття.

Приклад\PageIndex{13}: Find a Vector Closest to a Given Vector

Нехай\vec{x}_1=\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \vec{x}_2=\left[\begin{array}{c} 1\\ 0\\ 1\\ 1 \end{array}\right], \vec{x}_3=\left[\begin{array}{c} 1\\ 1\\ 0\\ 0 \end{array}\right], \mbox{ and } \vec{v}=\left[\begin{array}{c} 4\\ 3\\ -2\\ 5 \end{array}\right].\nonumber Ми хочемо, щоб знайти вектор вW =\mathrm{span}\{\vec{x}_1, \vec{x}_2,\vec{x}_3\} найближчому до\vec{y}.

Рішення

Спочатку ми будемо використовувати процес Грама-Шмідта для побудови ортогональної основиB, зW:B=\left\{ \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right], \left[\begin{array}{r} 1\\ 2\\ -1\\ 0 \end{array}\right] \right\}.\nonumber

За теоремою\PageIndex{4},\mathrm{proj}_U(\vec{v}) = \frac{2}{2} \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right] + \frac{5}{1}\left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right] + \frac{12}{6}\left[\begin{array}{r} 1\\ 2\\ -1\\ 0 \end{array}\right] = \left[\begin{array}{r} 3\\ 4\\ -1\\ 5 \end{array}\right]\nonumber це вектор вU найближчому до\vec{y}.

Розглянемо наступний приклад.

Приклад\PageIndex{14}: Vector Written as a Sum of Two Vectors

WДозволяти підпростірW = \mbox{span} \left\{ \left[ \begin{array}{c} 1 \\ 0 \\ 1 \\ 0 \\ \end{array} \right], \left[ \begin{array}{c} 0 \\ 1 \\ 0 \\ 2 \\ \end{array} \right] \right\}, заданий, іY = (1,2,3,4).
Знайдіть точкуZ вW найближчій доY, і, крім того, запишіть\vec{y} як суму вектора вW і вектора вW^{\perp}.

Рішення

З теореми\PageIndex{3} точкаZ вW найближчому доY задається\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right).

Зверніть увагу, що оскільки наведені вище вектори вже дають ортогональну основу дляW, ми маємо:

\begin{aligned} \vec{z} &= \mathrm{proj}_{W}\left( \vec{y}\right)\\ &= \left( \frac{\vec{y} \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2}\right) \vec{w}_1 + \left( \frac{\vec{y} \cdot \vec{w}_2}{ \| \vec{w}_2 \| ^2}\right) \vec{w}_2 \\ &= \left( \frac{4}{2} \right) \left[ \begin{array}{c} 1 \\ 0 \\ 1 \\ 0 \end{array} \right] + \left( \frac{10}{5} \right) \left[ \begin{array}{c} 0 \\ 1 \\ 0 \\ 2 \end{array} \right] \\ &= \left[ \begin{array}{c} 2 \\ 2 \\ 2 \\ 4 \end{array} \right]\end{aligned}

Тому точка вW найближчому доY єZ = (2,2,2,4).
Тепер нам потрібно записати\vec{y} як суму вектора вW і вектора вW^{\perp}. Це можна легко зробити наступним чином:\vec{y} = \vec{z} + (\vec{y} - \vec{z})\nonumber так як\vec{z} знаходиться вW і як ми бачили\vec{y} - \vec{z} вW^{\perp}.
Вектор\vec{y} - \vec{z} задається\vec{y} - \vec{z} = \left[ \begin{array}{c} 1 \\ 2 \\ 3 \\ 4 \end{array} \right] - \left[ \begin{array}{c} 2 \\ 2 \\ 2 \\ 4 \end{array} \right] = \left[ \begin{array}{r} -1 \\ 0 \\ 1 \\ 0 \end{array} \right]\nonumber Таким чином, ми можемо записати\vec{y} як\left[ \begin{array}{c} 1 \\ 2 \\ 3 \\ 4 \end{array} \right] = \left[ \begin{array}{c} 2 \\ 2 \\ 2 \\ 4 \end{array} \right] + \left[ \begin{array}{r} -1 \\ 0 \\ 1 \\ 0 \end{array} \right]\nonumber

Приклад\PageIndex{15}: Point in a Plane Closest to a Given Point

Знайдіть точкуZ в площині3x+y-2z=0, яка найближча до точкиY=(1,1,1).

Рішення

Розчин буде діяти наступним чином.

  1. Знайти основуX підпростору,W\mathbb{R}^3 визначеного рівнянням3x+y-2z=0.
  2. Ортогоналізуйте основу,X щоб отриматиB ортогональну основуW.
  3. ЗнайтиW проекцію на вектора положення точкиY.

Тепер приступаємо до вирішення.

  1. 3x+y-2z=0являє собою систему одного рівняння в трьох змінних. Покладання доповненої матриці в зменшеному рядно-ешелоновому вигляді:\left[\begin{array}{rrr|r} 3 & 1 & -2 & 0 \end{array}\right] \rightarrow \left[\begin{array}{rrr|r} 1 & \frac{1}{3} & -\frac{2}{3} & 0 \end{array}\right]\nonumber дає загальне рішенняx=\frac{1}{3}s+\frac{2}{3}ty=s,z=t для будь-якогоs,t\in\mathbb{R}. ТодіW=\mathrm{span} \left\{ \left[\begin{array}{r} -\frac{1}{3} \\ 1 \\ 0 \end{array}\right], \left[\begin{array}{r} \frac{2}{3} \\ 0 \\ 1 \end{array}\right]\right\}\nonumber нехайX=\left\{ \left[\begin{array}{r} -1 \\ 3 \\ 0 \end{array}\right], \left[\begin{array}{r} 2 \\ 0 \\ 3 \end{array}\right]\right\}. ТодіX є лінійно незалежним і\mathrm{span}(X)=W, таким чином,X є основоюW.
  2. Використовуйте процес Грама-Шмідта, щоб отримати ортогональну основуW:\vec{f}_1=\left[\begin{array}{r} -1\\3\\0\end{array}\right]\mbox{ and }\vec{f}_2=\left[\begin{array}{r}2\\0\\3\end{array}\right]-\frac{-2}{10}\left[\begin{array}{r}-1\\3\\0\end{array}\right]=\frac{1}{5}\left[\begin{array}{r}9\\3\\15\end{array}\right].\nonumber ТомуB=\left\{\left[\begin{array}{r}-1\\3\\0\end{array}\right], \left[\begin{array}{r}3\\1\\5 \end{array}\right]\right\} є ортогональною основоюW.
  3. Щоб знайти точкуZ наW найближчому доY=(1,1,1), обчислити\begin{aligned} \mathrm{proj}_{W}\left[\begin{array}{r} 1 \\ 1 \\ 1 \end{array}\right] & = \frac{2}{10} \left[\begin{array}{r} -1 \\ 3 \\ 0 \end{array}\right] + \frac{9}{35}\left[\begin{array}{r} 3 \\ 1 \\ 5 \end{array}\right]\\ & = \frac{1}{7}\left[\begin{array}{r} 4 \\ 6 \\ 9 \end{array}\right].\end{aligned} Тому,Z=\left( \frac{4}{7}, \frac{6}{7}, \frac{9}{7}\right).

Наближення найменших квадратів

Не повинно бути дивно чути, що багато проблем не мають ідеального рішення, і в цих випадках мета завжди полягає в тому, щоб намагатися зробити найкраще. Наприклад, що робити, якщо немає розв'язків системи лінійних рівняньA\vec{x}=\vec{b}? Виявляється, що те, що ми робимо, - це знаходимо\vec{x}A\vec{x} таке, що\vec{b} максимально наближено до. Дуже важливою технікою, яка випливає з ортогональних проекцій, є найменш квадратна апроксимація, і дозволяє нам робити саме це.

Починаємо з леми.

Нагадаємо, що ми можемо сформувати зображенняm \times n матриціA по\mathrm{im}\left( A\right) = = \left\{ A\vec{x} : \vec{x} \in \mathbb{R}^n \right\}. Теорема перефразування з\PageIndex{4} використанням підпросторуW=\mathrm{im}\left( A\right) дає еквівалентність умови ортогональності з умовою мінімізації. Наступна картина ілюструє цю умову ортогональності та геометричне значення цієї теореми.

clipboard_e4d2bb3369e520ff4aed24c636c452ab5.png
Малюнок\PageIndex{2}
Теорема\PageIndex{5}: Existence of Minimizers

Нехай\vec{y}\in \mathbb{R}^{m} і нехайA будеm\times n матриця.

Вибирайте\vec{z}\in W= \mathrm{im}\left( A\right) дано\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right), і нехай\vec{x} \in \mathbb{R}^{n} таке\vec{z}=A\vec{x}.

Тоді

  1. \vec{y} - A\vec{x} \in W^{\perp}
  2. \| \vec{y} - A\vec{x} \| < \| \vec{y} - \vec{u} \| для всіх\vec{u} \neq \vec{z} \in W

Відзначимо просте, але корисне спостереження.

Лемма\PageIndex{1}: Transpose and Dot Product

AДозволяти бутиm\times n матрицею. ТодіA\vec{x} \cdot \vec{y} = \vec{x}\cdot A^T\vec{y}\nonumber

Доказ

Це випливає з визначень:A\vec{x} \cdot \vec{y}=\sum_{i,j}a_{ij}x_{j} y_{i} =\sum_{i,j}x_{j} a_{ji} y_{i}= \vec{x} \cdot A^T\vec{y}\nonumber

Наступний наслідок дає техніка найменших квадратів.

Слідство\PageIndex{1}: Least Squares and Normal Equation

Конкретне значення\vec{x}, яке вирішує задачу Теореми,\PageIndex{5} виходить при розв'язанні рівняння.A^TA\vec{x}=A^T\vec{y}\nonumber Крім того, завжди існує розв'язок цієї системи рівнянь.

Доказ

Для\vec{x} мінімізатора теореми\PageIndex{5},\left( \vec{y}-A\vec{x}\right) \cdot A \vec{u} =0 для всіх\vec{u} \in \mathbb{R}^{n} і від Лемми\PageIndex{1}, це те саме, що говоритиA^T\left( \vec{y}-A\vec{x}\right) \cdot \vec{u}=0\nonumber для всіхu \in \mathbb{R}^{n}. Це означаєA^T\vec{y}-A^TA\vec{x}=\vec{0}.\nonumber Тому існує рішення рівняння цього наслідку, і воно вирішує задача мінімізації теореми\PageIndex{5}.

Зауважте, що\vec{x} може бути не унікальнимA\vec{x}, але найближча точкаA\left(\mathbb{R}^{n}\right) до\vec{y} є унікальною, як було показано у наведеному вище аргументі.

Розглянемо наступний приклад.

Приклад\PageIndex{16}: Least Squares Solution to a System

Знайдіть рішення для системи найменших квадратів\left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 2 \\ 1 \\ 1 \end{array} \right]\nonumber

Рішення

Спочатку розглянемо, чи існує реальне рішення. Для цього встановіть розширену матрицю, задану Зведеною\left[ \begin{array}{rr|r} 2 & 1 & 2 \\ -1 & 3 & 1 \\ 4 & 5 & 1 \end{array} \right]\nonumber рядково-ешелоновою формою цієї доповненої матриці\left[ \begin{array}{rr|r} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right]\nonumber

Звідси випливає, що реального рішення цієї системи немає. Тому ми хочемо знайти рішення найменших квадратів. Нормальні рівняння є,\begin{aligned} A^T A \vec{x} &= A^T \vec{y} \\ \left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] &=\left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{c} 2 \\ 1 \\ 1 \end{array} \right]\end{aligned} і тому нам потрібно вирішити систему\left[ \begin{array}{rr} 21 & 19 \\ 19 & 35 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{r} 7 \\ 10 \end{array} \right]\nonumber Це звична вправа і рішення\left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} \frac{5}{34} \\ \frac{7}{34} \end{array} \right]\nonumber

Розглянемо ще один приклад.

Приклад\PageIndex{17}: Least Squares Solution to a System

Знайдіть рішення для системи найменших квадратів\left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 3 \\ 2 \\ 9 \end{array} \right]\nonumber

Рішення

Спочатку розглянемо, чи існує реальне рішення. Для цього встановіть розширену матрицю, задану Зведеною\left[ \begin{array}{rr|r} 2 & 1 & 3 \\ -1 & 3 & 2 \\ 4 & 5 & 9 \end{array} \right]\nonumber рядково-ешелоновою формою цієї доповненої матриці\left[ \begin{array}{rr|r} 1 & 0 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 0 \end{array} \right]\nonumber

Звідси випливає, що система має рішення, данеx=y=1. Однак ми також можемо використовувати нормальні рівняння і знайти рішення найменших квадратів. \left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{r} 3 \\ 2 \\ 9 \end{array} \right]\nonumber Тоді\left[ \begin{array}{rr} 21 & 19 \\ 19 & 35 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 40 \\ 54 \end{array} \right]\nonumber

Рішення найменших квадратів - це те саме,\left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 1 \\ 1 \end{array} \right]\nonumber що і рішення, знайдене вище.

Важливим застосуванням слідства\PageIndex{1} є проблема знаходження лінії регресії найменших квадратів у статистиці. Припустимо, вам задані точки наxy площині,\left\{ \left( x_{1},y_{1}\right), \left( x_{2},y_{2}\right), \cdots, \left( x_{n},y_{n}\right) \right\}\nonumber і ви хотіли б знайти константиm іb такі, що лінія\vec{y}=m\vec{x}+b проходить через всі ці точки. Звичайно, це буде неможливо взагалі. Тому намагаємося знайтиm,b таку, щоб лінія була максимально близькою. Бажана система

\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right] =\left[ \begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array} \right] \left[ \begin{array}{c} m \\ b \end{array} \right]\nonumber

який має форму\vec{y}=A\vec{x}. Бажано вибратиm іb зробити

\left \| A\left[ \begin{array}{c} m \\ b \end{array} \right] -\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right] \right \| ^{2}\nonumber

якомога менше. Згідно з теоремою\PageIndex{5} та наслідками\PageIndex{1}, найкращі значення дляm таb зустрічаються як рішення

A^{T}A\left[ \begin{array}{c} m \\ b \end{array} \right] =A^{T}\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right] ,\ \;\mbox{where}\; A=\left[ \begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array} \right]\nonumber

Таким чином, обчислювальніA^{T}A,

\left[ \begin{array}{cc} \sum_{i=1}^{n}x_{i}^{2} & \sum_{i=1}^{n}x_{i} \\ \sum_{i=1}^{n}x_{i} & n \end{array} \right] \left[ \begin{array}{c} m \\ b \end{array} \right] =\left[ \begin{array}{c} \sum_{i=1}^{n}x_{i}y_{i} \\ \sum_{i=1}^{n}y_{i} \end{array} \right]\nonumber

Розв'язування цієї системи рівнянь дляm іb (на прикладі правила Крамера) дає:

m= \frac{-\left( \sum_{i=1}^{n}x_{i}\right) \left( \sum_{i=1}^{n}y_{i}\right) +\left( \sum_{i=1}^{n}x_{i}y_{i}\right) n}{\left( \sum_{i=1}^{n}x_{i}^{2}\right) n-\left( \sum_{i=1}^{n}x_{i}\right) ^{2}}\nonumber іb=\frac{-\left( \sum_{i=1}^{n}x_{i}\right) \sum_{i=1}^{n}x_{i}y_{i}+\left( \sum_{i=1}^{n}y_{i}\right) \sum_{i=1}^{n}x_{i}^{2}}{\left( \sum_{i=1}^{n}x_{i}^{2}\right) n-\left( \sum_{i=1}^{n}x_{i}\right) ^{2}}.\nonumber

Розглянемо наступний приклад.

Приклад\PageIndex{18}: Least Squares Regression

Знайдіть лінію регресії найменших квадратів\vec{y}=m\vec{x}+b для наступного набору точок даних:\left\{ (0,1), (1,2), (2,2), (3,4), (4,5) \right\} \nonumber

Рішення

У цьому випадку у нас є точкиn=5 даних, і ми отримуємо:\begin{array}{ll} \sum_{i=1}^{5}x_{i} = 10 & \sum_{i=1}^{5}y_{i} = 14 \\ \\ \sum_{i=1}^{5}x_{i}y_{i} = 38 & \sum_{i=1}^{5}x_{i}^{2} = 30\\ \end{array}\nonumber а отже\begin{aligned} m &= \frac{- 10 * 14 + 5*38}{5*30-10^2} = 1.00 \\ \\ b &= \frac{- 10 * 38 + 14*30}{5*30-10^2} = 0.80 \\\end{aligned}

Лінія регресії найменших квадратів для множини точок даних:\vec{y} = \vec{x}+.8\nonumber

Цей рядок можна використовувати для наближення інших значень даних. Наприклад, дляx=6 одного можна було б використовуватиy(6)=6+.8=6.8 як приблизне значення для даних.

Наступна діаграма показує точки даних і відповідну лінію регресії.

clipboard_e97fbb2341b3cfee6a11df200c5a5b784.png
Малюнок\PageIndex{3}

Таким же чином можна було б чітко зробити найменші квадрати,y=ax^{2}+bx+c придатні для кривих форми. У цьому випадку ви хочете вирішити якомога краще дляa,b, і системи,\left[ \begin{array}{ccc} x_{1}^{2} & x_{1} & 1 \\ \vdots & \vdots & \vdots \\ x_{n}^{2} & x_{n} & 1 \end{array} \right] \left[ \begin{array}{c} a \\ b \\ c \end{array} \right] =\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right]\nonumber іc один буде використовувати ту ж техніку, що і вище. Багато інших подібних проблем важливі, в тому числі багато в більш високих вимірах, і всі вони вирішуються однаково.