Skip to main content
LibreTexts - Ukrayinska

14.1: Умовне очікування, регресія

  • Page ID
    98702
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Умовне очікування, задане випадковим вектором, відіграє фундаментальну роль у більшій частині сучасної теорії ймовірностей. Різні типи «кондиціонування» характеризують деякі з більш важливих випадкових послідовностей і процесів. Поняття умовної незалежності виражається в терміні умовного очікування. Умовна незалежність відіграє важливу роль в теорії марківських процесів і в більшій частині теорії прийняття рішень.

    Розглянемо спочатку елементарну форму умовного очікування щодо події. Потім розглядаються два дуже інтуїтивних особливих випадку умовного очікування, заданих випадковою величиною. Вивчаючи їх, ми визначаємо фундаментальну властивість, яка є основою для дуже загального розширення. Ми виявляємо, що умовне очікування є випадковою величиною. Базова властивість умовного очікування та властивості звичайного очікування використовуються для отримання чотирьох фундаментальних властивостей, які передбачають «очікуваний» характер умовного очікування. Розширення фундаментальної властивості призводить безпосередньо до розв'язання задачі регресії, що, в свою чергу, дає альтернативну інтерпретацію умовного очікування.

    Кондиціонування за подією

    Якщо\(C\) виникає обумовлююча подія, ми модифікуємо початкові ймовірності, вводячи умовну міру ймовірності\(P(\cdot |C)\). При внесенні форми змін

    \(P(A)\)до\(P(A|C) = \dfrac{P(AC)}{P(C)}\)

    ми ефективно робимо дві речі:

    • Ми обмежуємо можливі результати подією\(C\)
    • Ми «нормалізуємо» масу ймовірності, взявши\(P(C)\) за нову одиницю

    Здається розумним внести відповідну модифікацію математичного очікування, коли\(C\) відомо про виникнення події. Очікування\(E[X]\) - це імовірність середньозважених значень, взятих на себе\(X\). Запропоновано дві можливості виготовлення модифікації.

    • Ми могли б замінити попередню міру\(P(\cdot)\) ймовірності на умовну міру ймовірності\(P(\cdot|C)\) та взяти середньозважене значення щодо цих нових ваг.
    • Ми могли б продовжувати використовувати попередню міру ймовірності\(P(\cdot)\) та модифікувати процес усереднення наступним чином:
      • Розглянемо значення тільки\(P(\omega)\) для таких\(\omega \in C\). Це можна зробити за допомогою випадкової величини,\(I_C X\) яка має значення\(X(\omega)\) for\(\omega \in C\) і нуль в іншому місці. Очікування\(E[I_C X]\) - це імовірність зважена сума цих значень, взятих на себе\(C\).
      • Середньозважене виходить діленням на\(P(C)\).

    Ці два підходи рівнозначні. Для простої випадкової\(X = sum_{k = 1}^{n} t_k I_{A_k}\) величини в канонічній формі

    \(E[I_C X]/P(C) = \sum_{k = 1}^{n} E[t_k I_C I_{A_k}] /P(C) = \sum_{k = 1}^{n} t_k P(CA_k) /P(C) = \sum_{k = 1}^{n} t_k P(A_k |C)\)

    Кінцева сума - очікування щодо умовної міри ймовірності. Аргументи з використанням базових теорем про очікування і наближення загальних випадкових величин простими випадковими величинами дозволяють продовжити загальну випадкову величину\(X\). Поняття умовного розподілу, наведене\(C\), і прийняття середньозважених по відношенню до умовної ймовірності є інтуїтивним і природним в даному випадку. Однак ця точка зору обмежена. Для того, щоб відобразити природний зв'язок з більш загальною концепцією кондиціонування щодо випадкового вектора, ми приймаємо наступне

    Визначення

    Умовним очікуванням\(X\), заданої події\(C\) з позитивною ймовірністю, є величина

    \(E[X|C] = \dfrac{E[I_C X]}{P(C)} = \dfrac{E[I_C X]}{E[I_C]}\)

    Зауваження. Форма продукту часто\(E[X|C] P(C) = E[I_C X]\) буває корисною.

    Приклад\(\PageIndex{1}\) A numerical example

    Припустимо,\(X\) ~ експоненціальна (\(\lambda\)) і\(C = \{1/\lambda \le X \le 2/\lambda\}\). Тепер\(I_C = I_M (X)\) де\(M = [1/\lambda, 2/\lambda]\).

    \(P(C) = P(X \ge 1/\lambda) - P(X > 2/\lambda) = e^{-1} e^{-2}\)і

    \(E[I_C X] = \int I_M (t) t \lambda e^{-\lambda t}\ dt = \int_{1/\lambda}^{2/\lambda} t\lambda e^{-\lambda t}\ dt = \dfrac{1}{\lambda} (2e^{-1} - 3e^{-2})\)

    Таким чином

    \(E[X|C] = \dfrac{2e^{-1} - 3e^{-2}}{\lambda (e^{-1} - e^{-2})} \approx \dfrac{1.418}{\lambda}\)

    Кондиціонування випадковим векторно-дискретним випадком

    Припустимо\(X = \sum_{i = 1}^{n} t_i I_{A_i}\) і\(Y = \sum_{j = 1}^{m} u_j I_{B_j}\) в канонічній формі. Припускаємо\(P(A_i) = P(X = t_i) > 0\) і\(P(B_j) = P(Y = u_j) > 0\), для кожного допустимо\(i, j\). Зараз

    \(P(Y = u_j |X = t_i) = \dfrac{P(X = t_i, Y = u_j)}{P(X = t_i)}\)

    Беремо очікування щодо умовної ймовірності\(P(\cdot |X = t_i)\), щоб отримати

    \(E[g(Y) |X =t_i] = \sum_{j = 1}^{m} g(u_j) P(Y = u_j |X = t_i) = e(t_i)\)

    Так як у нас є значення для кожного\(t_i\) в діапазоні\(X\), функція\(e(\cdot)\) визначається на діапазоні\(X\). Тепер розглянемо будь-який розумний набір\(M\) на реальній лінії і визначаємо очікування.

    \(E[I_M (X) g(Y)] = \sum_{i = 1}^{n} \sum_{j = 1}^{m} I_M (t_i) g(u_j) P(X = t_i, Y = u_j)\)

    \( = \sum_{i = 1}^{n} I_M(t_i) [\sum_{j = 1}^{m} g(u_j) P(Y = u_j|X = t_i)] P(X = t_i)\)

    \(= \sum_{i = 1}^{n} I_M (t_i) e(t_i) P(X = t_i) = E[I_M (X) e(X)]\)

    У нас є викрійка

    \((A)\)\(E[I_M(X) g(Y)] = E[I_M(X) e(X)]\)де\(e(t_i) = E[g(Y)|X = t_i]\)

    для всіх\(t_i\) в асортименті\(X\).

    Повертаємося, щоб вивчити цю властивість пізніше. Але для початку розглянемо приклад, щоб відобразити характер поняття.

    Приклад\(\PageIndex{2}\) Basic calculations and interpretation

    Припустимо, пара\(\{X, Y\}\) має спільний розподіл.

    \(P(X = t_i, Y = u_j)\)

    \(X =\) 0 1 4 9
    \(Y = 2\) 0,05 0,04 0,21 0,15
    0 0,05 0,01 0,09 0,10
    -1 0,10 0,05 0,10 0,05
    \(PX\) 0,20 0,10 0,40 0,30

    Обчисліть\(E[Y|X = t_i]\) для кожного можливого значення,\(t_i\) прийнятого\(X\)

    \(E[Y|X = 0] = -1 \dfrac{0.10}{0.20} + 0 \dfrac{0.05}{0.20} + 2 \dfrac{0.05}{0.20}\)
    \(= (-1 \cdot 0.10 + 0 \cdot 0.05 + 2 \cdot 0.05)/0.20 = 0\)
    \(E[Y|X = 1] = (-1 \cdot 0.05 + 0 \cdot 0.01 + 2 \cdot 0.04)/0.10 = 0.30\)
    \(E[Y|X = 4] = (-1 \cdot 0.10 + 0 \cdot 0.09 + 2 \cdot 0.21)/0.40 = 0.80\)
    \(E[Y|X = 9] = (-1 \cdot 0.05 + 0 \cdot 0.10 + 2 \cdot 0.15)/0.10 = 0.83\)

    Схема роботи в кожному випадку може бути описана наступним чином:

    • Для\(i\) го стовпця помножте кожне значення\(u_j\) на\(P(X = t_i, Y = u_j)\), суму, потім діліть на\(P(X = t_i)\).

    Наступне тлумачення допомагає візуалізувати умовне очікування і вказує на важливий результат в загальному випадку.

    • Для кожного\(t_i\) використовуємо масу, розподілену «над ним». Ця маса розподіляється по вертикальній лінії при значеннях,\(u_j\) взятих на себе\(Y\). Результатом обчислень є визначення центру мас для умовного розподілу вище\(t = t_i\). Як і у випадку зі звичайними очікуваннями, це повинна бути найкраща оцінка, в середньоквадратному сенсі,\(Y\) коли\(X = ti\). Розглянуто цю можливість при лікуванні проблеми регресії в розділі: Проблема регресії.

    Хоча розрахунки не є складними для проблеми такого розміру, основний шаблон може бути реалізований просто за допомогою MATLAB, що робить обробку набагато більших проблем досить простим. Це особливо корисно при роботі з простим наближенням до абсолютно безперервної пари.

    X = [0 1 4 9];             % Data for the joint distribution
    Y = [-1 0 2];
    P = 0.01*[ 5  4 21 15; 5  1  9 10; 10  5 10  5];
    jcalc                      % Setup for calculations
    Enter JOINT PROBABILITIES (as on the plane)  P
    Enter row matrix of VALUES of X  X
    Enter row matrix of VALUES of Y  Y
     Use array operations on matrices X, Y, PX, PY, t, u, and P
    EYX = sum(u.*P)./sum(P);   % sum(P) = PX  (operation sum yields column sums)
    disp([X;EYX]')             % u.*P = u_j P(X = t_i, Y = u_j) for all i, j
             0         0
        1.0000    0.3000
        4.0000    0.8000
        9.0000    0.8333
    

    Розрахунки поширюються на\(E[g(X, Y)|X = t_i]\). Замість значень\(u_j\) ми використовуємо значення\(g(t_i, u_j)\) в розрахунках. Припустимо\(Z = g(X, Y) = Y^2 - 2XY\).

    G = u.^2 - 2*t.*u;         % Z = g(X,Y) = Y^2 - 2XY
    EZX = sum(G.*P)./sum(P);   % E[Z|X=x]
    disp([X;EZX]')
             0    1.5000
        1.0000    1.5000
        4.0000   -4.0500
        9.0000  -12.8333

    Кондиціонування випадковим вектором — абсолютно неперервний випадок

    Припустимо, пара\(\{X, Y\}\) має функцію щільності суглоба\(f_{XY}\). Ми прагнемо використовувати поняття умовного розподілу, наведене\(X = t\). Справа в тому, що\(P(X = t) = 0\) для кожного\(t\) потрібна модифікація підходу, прийнятого в дискретному випадку. Інтуїтивно розглянемо умовну щільність

    \(f_{Y|X} (u|t) \ge 0\),\(\int f_{Y|X} (u|t)\ du = \dfrac{1}{f_X (t)} \int f_{XY} (t, u)\ du = f_X (t)/f_X (t) = 1\)

    Визначаємо, в даному випадку,

    \(E[g(Y)|X = t] = \int g(u) f_{Y|X} (u|t)\ du = e(t)\)

    \(e(\cdot)\)Функція визначена для\(f_X (t) > 0\), отже, ефективно на діапазоні\(X\). Для будь-якого розумного набору\(M\) на реальній лінії,

    \(E[I_M (X) g(Y)] = \int \int I_M (t) g(u) f_{XY} (t, u)\ dudt = \int I_M (t) [\int g(u) f_{Y|X} (u|t) \ du] f_X (u) \ dt\)

    \(= \int I_M (t) e(t) f_X (t) \ dt\), де\(e(t) = E[g(Y)| X = t]\)

    Таким чином, ми маємо, як і в дискретному випадку, для кожного\(t\) в діапазоні\(X\).

    (\(A\))\(E[I_M(X) g(Y)] = E[I_M(X) e(X)]\) де\(e(t) = E[g(Y)|X = t]\)

    Знову відкладаємо розгляд цієї закономірності, поки не розглянемо більш загальний випадок.

    Приклад\(\PageIndex{3}\) Basic calculation and interpretation

    Припустимо, пара\(\{X, Y\}\) має щільність стику\(f_{XY} (t, u) = \dfrac{6}{5} (t + 2u)\) на трикутної області\(t = 0\)\(u = 1\), обмеженої, і\(u = t\) (див. Рис. Тоді

    \(f_X (t) = \dfrac{6}{5} \int_{t}^{1} (t + 2u)\ du = \dfrac{6}{5} (1 + t - 2t^2)\),\(0 \le t \le 1\)

    За визначенням, тоді,

    \(f_{Y|X} (u|t) = \dfrac{t+2u}{1+t- 2t^2}\)на трикутник (нуль в іншому місці)

    Таким чином, ми маємо

    \(E[Y|X = t] = \int u f_{Y|X} (u|t)\ du = \dfrac{1}{1 + t - 2t^2} \int_{t}^{1} (tu + 2u^2)\ du = \dfrac{4 + 3t - 7t^3}{6(1 + t - 2t^2)}\)\((0 \le t < 1)\)

    Теоретично, ми повинні\(t = 1\) виключити, оскільки знаменник дорівнює нулю для цього значення\(t\). Це не викликає жодних проблем на практиці.

    Малюнок перший - це декартовий граф у першому квадранті міченого, затіненого прямокутного трикутника. Горизонтальна вісь позначена, t, а вертикальна вісь позначена, u. Прямокутний трикутник має дві сторони однакової довжини. Дві точки, і тому одна сторона трикутника сидить на вертикальній осі, з однією точкою в початку, а інша далі вгору по графіку. Ця сторона маркується, t = 0. Друга сторона рівної довжини, яка починається з однієї точки в додатній області вертикальної осі, і закінчується в першому квадранті графіка в точці (1, 1), позначається u = 1. Гіпотенуза трикутника, який містить одну точку в початку і одну в першому квадранті графіка в точці (1, 1), позначена, u = t, Існує також більший заголовок всередині графіка, який читає, F_xY (t, u) = (6/5) * (t + 2u).
    Малюнок 14.1.1. Функція щільності для прикладу 14.1.3

    Ми можемо зробити інтерпретацію, цілком аналогічну інтерпретації для дискретного випадку. Це також вказує на шлях до практичних розрахунків MATLAB.

    • Для будь-якого\(t\) в діапазоні\(X\) (від 0 до 1 в даному випадку), розгляньте вузьку вертикальну смугу ширини\(\Delta t\) з вертикальною лінією через\(t\) її центр. Якщо смужка досить вузька, то\(f_{XY} (t, u)\) не відрізняється помітно\(t\) ні з якою\(u\).
    • Маса в смужці приблизно

    \(\text{Mass} \approx \Delta t \int f_{XY} (t, u) \ du = \Delta t f_X (t)\)

    • Момент маси в смужці близько лінії\(u = 0\) приблизно

    \(\text{Momemt} \approx \Delta t \int u f_{XY} (t, u)\ du\)

    • Центр маси в смужці

    \(\text{Center of mass} = \dfrac{\text{Moment}}{\text{Mass}} \approx \dfrac{\Delta \int u f_{XY} (t, u) \ du}{\Delta t f_X (t)} = \int u f_{Y|X} (u|t)\ du = e(t)\)

    Ця інтерпретація вказує шлях до використання MATLAB в наближенні умовного очікування. Успіх дискретного підходу в апроксимації теоретичного значення по черзі підтримує обґрунтованість інтерпретації. Також це вказує на загальний результат регресії в розділі «Проблема регресії».

    При обробці MATLAB спільних абсолютно неперервних випадкових величин ми ділимо область на вузькі вертикальні смуги. Потім розбираємося з кожним з них, розділивши вертикальні смуги, щоб сформувати сітчасту структуру. Центр маси дискретного розподілу над одним з t, обраних для наближення, повинен лежати близько до фактичного центру маси ймовірності в смузі. Розглянемо лікування MATLAB розглянутого прикладу.

    f = '(6/5)*(t + 2*u).*(u>=t)';                  % Density as string variable
    tuappr
    Enter matrix [a b] of X-range endpoints  [0 1]
    Enter matrix [c d] of Y-range endpoints  [0 1]
    Enter number of X approximation points  200
    Enter number of Y approximation points  200
    Enter expression for joint density  eval(f)     % Evaluation of string variable
    Use array operations on X, Y, PX, PY, t, u, and P
    EYx = sum(u.*P)./sum(P);                        % Approximate values
    eYx = (4 + 3*X - 7*X.^3)./(6*(1 + X - 2*X.^2)); % Theoretical expression
    plot(X,EYx,X,eYx)
    % Plotting details             (see Figure 14.1.2)
    

    — □

    Малюнок другий являє собою графік під назвою, теоретичне і приблизне умовне очікування. Горизонтальна вісь маркується, t, а вертикальна вісь маркується E [X | Y = t]. Значення на горизонтальній осі - від 0 до 1 з кроком 0,1. Значення на вертикальній осі коливаються від 0,65 до 1 з кроком 0,05. Усередині графа є підпис, який читає fxY (t, u) = (6/5) * (t + 2u), для 0 ≤ t ≤ u ≤ 1. На цьому графіку є два сюжети. Перша являє собою суцільну плавну лінію з позначкою Aproximate. Друга - плавна пунктирна лінія, позначена теоретичною. Обидві лінії йдуть одним і тим же шляхом на графіку і настільки щільно підігнані, що їх майже не можна розрізнити. Вони починаються з нижньої лівої сторони, приблизно (0, 0,67), і продовжують направо з трохи негативним нахилом для дуже невеликого відрізка, приблизно до (0,08, 0,66), де ділянки починають поступово збільшуватися зі зростаючою швидкістю. На середині графіка, приблизно (0,4, 0,74), нахил графіка залишається позитивним і постійним і продовжується лінійно від цієї точки до правого верхнього кута графіка, в (1, 1).
    Малюнок 14.1.2. Теоретичне і приблизне умовне очікування для вище.

    Узгодження теоретичних і приблизних значень досить добре для практичних цілей. Це також вказує на те, що інтерпретація є розумною, оскільки наближення визначає центр маси дискретизованої маси, який наближає центр фактичної маси в кожній вертикальній смузі.

    Розширення до загального випадку

    Більшість прикладів, для яких ми проводимо числові розрахунки, будуть одним з видів, наведених вище. Аналіз цих випадків будується на інтуїтивному понятті умовних розподілів. Однак ці випадки і таке тлумачення є досить обмеженими і не дають основи для спектру застосувань — теоретичних і практичних, які характеризують сучасну теорію ймовірностей. Ми шукаємо підставу для продовження (що включає в себе особливі випадки). У кожному розглянутому вище випадку ми маємо властивість

    \((A)\)\(E[I_M (X) g(Y)] = E[I_M (X) e(X)]\)де\(e(t) = E[g(Y) | X = t]\)

    для всіх\(t\) в асортименті\(X\).

    У нас є прив'язка до простого випадку кондиціонування щодо події. Якщо\(C = \{X \in M\}\) має позитивну ймовірність, то за допомогою\(I_C = I_M (X)\) ми маємо

    \((B)\)\(E[I_M(X) g(Y)] = E[g(Y)|X \in M] P(X \in M)\)

    Дві властивості очікування тут мають вирішальне значення:

    За властивістю унікальності (E5), оскільки (A) тримає для всіх розумних (Borel) множин, то\(e(X)\) є унікальним a.s. (тобто, крім\(\omega\) множини ймовірності нуля).
    За окремим випадком теореми Радона Нікодима (Е19) функція\(e(\cdot)\) завжди існує і така, що випадкова величина\(e(X)\) є унікальною a.s.

    Виходячи з цих фактів, ми робимо визначення.

    Визначення

    Умовним очікуванням\(E[g(Y)| Y =t] = e(t)\) є унікальна функція a.s. визначена на діапазоні\(X\) такої, що

    \((A)\)\(E[I_M (X) g(Y)] = E[I_M(X) e(X)]\)для всіх наборів Borel\(M\)

    Зверніть увагу, що\(e(X)\) є випадковою величиною і\(e(\cdot)\) є функцією. Очікування\(E[g(Y)]\) - це завжди постійна. Поняття абстрактне. На даний момент він має мало очевидного значення, за винятком того, що він повинен включати два особливих випадки, вивчені в попередніх розділах. Також незрозуміло, для чого слід використовувати термін умовне очікування. Обґрунтування спирається на певні формальні властивості, які базуються на визначальній умові (А) та інших властивостях очікування.

    У додатку F наведено таблицю низку ключових властивостей умовного очікування. Умова (A) називається властивістю (CE1). Розглянемо кілька з цих властивостей. Для детального лікування та доказів можна проконсультуватися з будь-якою низкою книг про теоретичну вірогідність вимірювання.

    (CE1) Визначення умови. \(e(X) = E[g(Y)|X]\)а.с. іфф

    \(E[I_M (X) g(Y)] = E[I_M (X) e(X)]\)для кожного бореля, встановленого\(M\) на кодомені\(X\)

    Відзначимо, що\(X\) і\(Y\) не потрібно реально цінуватися, хоча\(g(Y)\) це реально цінується. Це розширення до можливого вектора цінується\(X\) і\(Y\) є надзвичайно важливим. Наступна умова - це якраз властивість (B), зазначена вище.

    (Ce1a) Якщо\(P(X \in M) > 0\), то\(E[I_M(X) e(X)] = E[g(Y)|X \in M] P(X \in M)\)

    Особливий випадок, який виходить шляхом установки\(M\) включити весь спектр\(X\) так, що\(I_M (X(\omega)) = 1\) для всіх\(\omega\) є корисним у багатьох теоретичних і прикладних задачах.

    (Ce1b) Закон повної ймовірності. \(E[g(Y)] = E\{E[g(Y)|X]\}\)

    Може здатися дивним, що ми повинні ускладнити проблему визначення\(E[g(Y)]\), спочатку отримавши умовне очікування,\(e(X) = E[g(Y)|X]\) а потім приймаючи очікування цієї функції. Часто дані, що надаються в проблемі, робить це доцільною процедурою.

    Вправа\(\PageIndex{4}\) Use of the law of total probability

    Припустимо, час виходу з ладу пристрою - випадкова величина\(X\) ~ експоненціальна (\(\mu\)), де параметром\(u\) є значення параметра випадкової величини\(H\). Таким чином

    \(f_{X|H} (t|u) = u e^{-ut}\)для\(t \ge 0\)

    Якщо параметр випадкова величина\(H\) ~ рівномірний\((a, b)\), визначте\(E[X]\) очікуваний термін служби пристрою.

    Рішення

    Використовуємо закон повної ймовірності:

    \(E[X] = E\{E[X|H]\} = \int E[X|H = u] f_H (u)\ du\)

    Тепер за припущенням

    \(E[X|H = u] = 1/u\)і\(f_H (u) = \dfrac{1}{b - a}\),\(a < u < b\)

    Таким чином

    \(E[X] = \dfrac{1}{b -a} \int_{a}^{b} \dfrac{1}{u} du = \dfrac{\text{ln} (b/a)}{b - a}\)

    Для\(a =1/100\),\(b = 2/100\),\(E[X] = 100 \text{ln} (2) \approx 69.31\).

    Наступні три властивості, лінійність, позитивність/монотонність та монотонна збіжність, поряд з визначальною умовою забезпечують характер «очікуваного подібного». Ці властивості для очікування дають більшість інших необхідних властивостей для очікування. Подібний розвиток стосується умовного очікування, з деяким застереженням того факту, що\(e(X)\) є випадковою величиною, унікальною a.s. Це обмеження викликає мало проблем для додатків на рівні цього лікування.

    Для того щоб отримати певне уявлення про те, як ці властивості вкорінюються в основних властивостях очікування, розглянемо одне з них.

    (CE2) Лінійність. Для будь-яких констант\(a, b\)

    \(E[ag(Y) + bh(Z) |X] = aE[g(Y)|X] + bE[h(Z)|X]\)а.с.

    ПЕРЕВІРКА

    Нехай\(e_1 (X) = E[g(Y)|X]\)\(e_2 [X] = E[h(Z)|X]\), і\(e(X) = E[ag(Y) + bh (Z) |X]\) a.s.

    \(\begin{array} {lcrlc} {E[I_M (X) e(X)]} & = & {E\{I_M(X)[ag(Y) + bh(Z)]\} \text{ a.s.}} & & {\text{by(CE1)}} \\ {} & = & {aE[I_M (X)g(Y)] + bE[I_M(X) h(Z)] \text{ a.s.}} & & {\text{by linearity of expectation}} \\ {} & = & {aE[I_M (X)e_1(X)] + bE[I_M(X) e_2(X)] \text{ a.s.}} & & {\text{by (CE1)}} \\ {} & = & {E\{I_M(X) [ae_1 (X) + be_2 (X)]\} \text{ a.s.}} & & {\text{by linearity of expectation}}\end{array}\)

    Оскільки рівності тримаються для будь-якого Бореля\(M\), властивість унікальності (E5) для очікування передбачає

    \(e(X)= ae_1 (X) = be_2 (X)\)а.с.

    Це власність (CE2). Розширення до будь-якої скінченної лінійної комбінації легко встановлюється математичною індукцією.

    — □

    Власність (CE5) забезпечує ще одну умову незалежності.

    (CE5) Незалежність. \(\{X, Y\}\)є незалежною парою

    iff\(E[g(Y)|X] = E[g(Y)]\) a.s. для всіх функцій Borel\(g\)
    iff\(E[I_N(Y)|X] = E[I_N (Y)]\) a.s. для всіх наборів Borel\(N\) на codomain\(Y\)

    Так як знання\(X\) не впливає на ймовірність того, що\(Y\) візьме на себе будь-який набір значень, то на умовне очікування не повинно впливати значення\(X\). Отримана постійна величина умовного очікування повинна бути для\(E[g(Y)]\) того, щоб тримався закон повної ймовірності. Офіційне доказ використовує унікальність (E5) та правило продукту (E18) для очікування.

    Властивість (CE6) є основою для вирішення задачі регресона в наступному розділі.

    (CE6)\(e(X) = E[g(Y)|X]\) a.s. якщо\(E[h(X) g(Y)] = E[h(X)e(X)]\) a.s. для будь-якої функції Borel\(h\)

    Експертиза показує, що це результат заміни\(I_M (X)\) в (CE1) на довільний\(h(X)\). Знову ж таки, щоб отримати деяке уявлення про те, як виникають різні властивості, ми накидаємо ідеї доказу (CE6).

    ІДЕЇ ДОКАЗУ (CE6)

    Для\(h(X) = I_M(X)\), це (CE1).

    Бо\(h(X) = \sum_{i = 1}^{n} a_i I_{M_i} (X)\), результат випливає за лінійністю.

    Бо\(h \ge 0\)\(g \ge 0\), існує послідовність ненегативних, простих\(h_n nearrow h\). Тепер позитивністю,\(e(X) \ge 0\). За монотонної конвергенції (CE4),

    \(E[h_n (X) g(Y)] \nearrow E[h(X) g(Y)]\)і\(E[h_n(X) e(X)] \nearrow E[h(X) e(X)]\)

    Оскільки відповідні члени в послідовностях рівні, межі рівні.
    Для\(h = h^{+} - h^{-}\)\(g \ge 0\), результат випливає за лінійністю (CE2).
    Бо\(g = g^{+} - g^{-}\), результат знову випливає за лінійністю.

    — □

    Властивості (CE8) і (CE9) властиві умовному очікуванню. Вони відіграють істотну роль у багатьох теоретичних розробках. Вони мають важливе значення при вивченні марковських послідовностей та класу випадкових послідовностей, відомих як підводні човни. Перерахуємо їх тут (як і в додатку F) для довідки.

    (CE8)\(E[h(X) g(Y)|X] = h(X) E[g(Y)|X]\) a.s. для будь-якої функції Borel\(h\)

    Ця властивість говорить про те, що будь-яка функція обумовлюючого випадкового вектора може розглядатися як постійний фактор. Це в поєднанні з (CE10) нижче надає корисні допоміжні засоби для обчислень.

    (CE9) Повторне кондиціонування

    Якщо\(X = h(W)\), то\(E\{E[g(Y)|X|W\} = E\{E[g(Y)|W|X\} = E[g(Y)|X]\) a.s.

    Це кілька формальне властивість дуже корисно в багатьох теоретичних розробках. Ми наводимо інтерпретацію після розробки теорії регресії в наступному розділі.

    Наступне властивість дуже інтуїтивно зрозуміле і дуже корисне. Його легко встановити в двох елементарних випадках, розроблених в попередніх розділах. Його доказ в загальному випадку досить складний.

    (CE10) За умов\(g\), що майже завжди виконуються на практиці

    \(E[g(X, Y)|X = t] = E[g(t, Y)|X = t]\)a.s.\([P_X]\)
    якщо\(\{X, Y\}\) незалежний, то\(E[g(X, Y) |X = t] = E[g(t, Y)]\) a.s.\([P_X]\)

    Звичайно, здається розумним припустити, що якщо\(X = t\), то ми повинні бути в змозі замінити\(X\) на\(t\)\(E[g(X, Y)| X =t]\) в отримати\(E[g(t, Y)|X =t]\). Власність (CE10) це запевняє. Якщо\(\{X, Y\}\) це незалежна пара, то значення не\(X\) повинно впливати на значення\(Y\), так що\(E[g(t, Y)|X = t] = E[g(t, Y)]\) a.s.

    Приклад\(\PageIndex{5}\) Use of property (CE10)

    Розглянемо ще раз дистрибутив на прикладі 14.1.3. Пара\(\{X, Y\}\) має щільність

    \(f_{XY} (t, u) = \dfrac{6}{5} (t + 2u)\)на трикутній області,\(t = 0\) обмеженої\(u = 1\), і\(u = t\)

    Ми показуємо в прикладі 14.1.3, що

    \(E[Y|X = t] = \dfrac{4 + 3t - 7 t^3}{6(1 + t - 2t^2)}\)\(0 \le t < 1\)

    Нехай\(Z = 3X^2 + 2XY\). Визначте\(E[Z|X = t]\).

    Рішення

    За лінійності, (CE8), і (CE10)

    \(E[Z|X = t] = 3t^2 + 2tE[Y|X =t] = 3t^2 + \dfrac{4t + 3t^2 - 7t^4}{3(1 + t - 2t^2)}\)

    умовна ймовірність

    При трактуванні математичного очікування відзначимо, що ймовірність може виражатися як очікування

    \(P(E) = E[I_E]\)

    Для умовної ймовірності, заданої події, ми маємо

    \(E[I_E|C] = \dfrac{E[I_E I_C]}{P(C)} = \dfrac{P(EC)}{P(C)} = P(E|C)\)

    Таким чином ми розширюємо поняття умовне очікування.

    Визначення

    Умовна ймовірність події\(E\), задана\(X\), дорівнює

    \(P(E|X) = E[I_E|X]\)

    Таким чином, немає необхідності в окремій теорії умовної ймовірності. Ми можемо визначити функцію умовного розподілу

    \(F_{Y|X} (u|X) = P(Y \le u|X) = E[I_{(-\infty, u]} (Y)|X]\)

    Тоді, за законом повної ймовірності (Ce1b),

    \(F_Y (u) = E[F_{Y|X} (u|X)] = \int F_{Y|X} (u|t) F_X (dt)\)

    Якщо є умовна щільність\(f_{Y|X}\) така, що

    \(P(Y \in M|X = t) = \int_M f_{Y|X} (r|t)\ dr\)

    потім

    \(F_{Y|X} (u|t) = \int_{-\infty}^{u} f_{Y|X} (r|t)\ dr\)так що\(f_{Y|X} (u|t) = \dfrac{\partial}{\partial u} F_{Y|X} (u|t)\)

    Ретельне, теоретико-мірне лікування показує, що це може бути неправдою, що\(F_{Y|X} (\cdot |t)\) є функцією розподілу для всіх\(t\) в діапазоні\(X\). Однак в додатках це рідко буває проблемою. Моделювання припущень часто починається з такого сімейства функцій розподілу або функцій щільності.

    Приклад\(\PageIndex{6}\) The conditional distribution function

    Як і в прикладі 14.1.4, припустимо\(X\) ~ експоненціальний\((u)\), де параметром\(u\) є значення параметра випадкової величини\(H\). Якщо параметр випадкова величина\(H\) ~ рівномірний\((a, b)\), визначте розподіл fuction\(F_X\).

    Рішення

    Як і в прикладі 14.1.4, візьміть припущення про умовний розподіл на середнє

    \(f_{X|H} (t|u) = ue^{-ut}\)\(t \ge 0\)

    Тоді

    \(F_{X|H} (t|u) = \int_{0}^{1} u e^{-us}\ ds = 1 - e^{-ut}\)\(0 \le t\)

    За законом повної ймовірності

    \(F_X (t) = \int F_{X|H} (t|u) f_H (u) \ du = \dfrac{1}{b - a} \int_{a}^{b} (1 - e^{-ut}) \ du = 1 - \dfrac{1}{b - a} \int_{a}^{b} e^{-ut} \ du\)

    \( = 1 - \dfrac{1}{t(b - a)} [e^{-bt} - e^{-at}]\)

    Диференціація щодо\(t\) дає вираз для\(f_X (t)\)

    \(f_X (t) = \dfrac{1}{b - a} [(\dfrac{1}{t^2} + \dfrac{b}{t}) e^{-bt} - (\dfrac{1}{t^2} + \dfrac{a}{t}) e^{-at}]\)\(t > 0\)

    Наступний приклад використовує дискретний умовний розподіл та граничний розподіл для отримання спільного розподілу для пари.

    Приклад\(\PageIndex{7}\) A random number \(N\) of Bernoulli trials

    Число\(N\) вибирається випадковим вибором з цілих чисел від 1 до 20 (скажімо, малюючи картку з коробки). Пара кубиків кидається\(N\) раз. \(S\)Дозволяти кількість «сірників» (тобто обидва, обидва двійки і т.д.). Визначте розподіл суглоба для\([N, S]\).

    Рішення

    \(N\)~ рівномірний на цілі числа від 1 до 20. \(P(N = i) = 1/20\)для\(1 \le i \le 20\). Оскільки існує 36 пар чисел для двох кубиків і шести можливих матчів, ймовірність матчу на будь-якому кидку дорівнює 1/6. Оскільки\(i\) кидки кубиків складають послідовність Бернуллі з ймовірністю 1/6 успіху (матчу), ми маємо\(S\) умовно біноміальний (\(i\), 1/6), заданий\(N = i\). Для будь-якої пари\((i, j)\)\(0 \le j \le i\),

    \(P(N = i, S = j) = P(S = j|N = i) P(N = i)\)

    Тепер\(E[S|N = i) = i/6\), щоб

    \(E[S] = \dfrac{1}{6} \cdot \dfrac{1}{20} \sum_{i = 1}^{20} i = \dfrac{20 \cdot 21}{6 \cdot 20 \cdot 2} = \dfrac{7}{4} = 1.75\)

    Наступна процедура MATLAB обчислює спільні ймовірності і влаштовує їх «як на площині».

    % file randbern.m
    p  = input('Enter the probability of success  ');
    N  = input('Enter VALUES of N  ');
    PN = input('Enter PROBABILITIES for N  ');
    n  = length(N);
    m  = max(N);
    S  = 0:m;
    P  = zeros(n,m+1);
    for i = 1:n
      P(i,1:N(i)+1) = PN(i)*ibinom(N(i),p,0:N(i));
    end
    PS = sum(P);
    P  = rot90(P);
    disp('Joint distribution N, S, P, and marginal PS')
    randbern                           % Call for the procedure
    Enter the probability of success  1/6
    Enter VALUES of N  1:20
    Enter PROBABILITIES for N  0.05*ones(1,20)
    Joint distribution N, S, P, and marginal PS
    ES = S*PS'
    ES =  1.7500                          % Agrees with the theoretical value

    Задача регресії

    Введено задачу регресії при лікуванні лінійної регресії. Тут нас турбує більш загальна регресія. Пара\(\{X, Y\}\) дійсних випадкових величин має спільний розподіл. \(X(\omega)\)Спостерігається значення. Бажаємо правила отримання «найкращої» оцінки відповідної величини\(Y(\omega)\). Якщо\(Y(\omega)\) є фактичним значенням і\(r(X(\omega))\) є кошторисом, то\(Y(\omega) - r(X(\omega))\) є похибка кошторису. Найкращим правилом оцінки (функцією)\(r(\cdot)\) прийнято вважати те, для якого середній квадрат похибки є мінімальним. Тобто ми шукаємо\(r\) таку функцію, що

    \(E[(Y - r(X))^2]\)є мінімумом

    При лікуванні лінійної регресії ми визначаємо найкращу афінну функцію,\(u = at + b\). Оптимальна функція цієї форми визначає лінію регресії\(Y\) on\(X\). Тепер перейдемо до проблеми пошуку найкращої функції\(r\), яка може в деяких випадках бути афінною функцією, але частіше не є.

    У нас є кілька натяків на можливості. При обробці очікування ми знаходимо, що найкращою константою для наближення випадкової величини в середньоквадратному сенсі є середнє значення, яке є центром маси для розподілу. У інтерпретаційному прикладі 14.2.1 для дискретного випадку ми знаходимо\(E[Y|X = t_i]\) умовне очікування - центр маси для умовного розподілу в\(X = t_i\). Аналогічний результат, розглядаючи тонкі вертикальні смужки, зустрічається в прикладі 14.1.3 для абсолютно суцільного випадку. Це говорить про можливість, яка\(e(t) = E[Y|X = t]\) може бути найкращою оцінкою\(Y\) при\(X(\omega) = t\) дотриманні значення. Ми досліджуємо цю можливість. Майно (CE6) виявляється ключовим для отримання результату.

    Нехай\(e(X) = E[Y|X]\). Ми можемо написати (CE6) у формі\(E[h(X) (Y - e(X))] = 0\) для будь-якої розумної функції\(h\). Розглянемо

    \(E[(Y - r(X))^2] = E[(Y - e(X) + e(X) - r(X))^2]\)

    \(= E[(Y - e(X))^2] + E[(e(X) - r(X))^2] + 2E[(Y - e(X))(r(X) - e(X))]\)

    Тепер\(e(X)\) фіксований (a.s.) і для будь-якого вибору\(r\) ми можемо взяти,\(h(X) = r(X) - e(X)\) щоб стверджувати, що

    \(E[Y - e(X)) (r(X) - e(X))] = E[(Y - e(X)) h(X)] = 0\)

    Таким чином

    \(E[(Y - r(X))^2] = E[(Y - e(X))^2] + E[(e(X) - r(X))^2]\)

    Перший член з правого боку фіксований; другий член невід'ємний, з мінімумом на нулі, якщо\(r(X) = e(X)\) a.s., Таким чином,\(r = e\) є найкращим правилом. Для заданого значення\(X(\omega) = t\) найкращою середньоквадратною оцінкою\(Y\) є

    \(u = e(t) = E[Y|X = t]\)

    Графік\(u = e(t)\) vs\(t\) відомий як крива регресії Y на X. Це визначається для аргументу\(t\) в діапазоні\(X\), і є унікальним, за винятком, можливо, на множині\(N\) такого, що\(P(X \in N) = 0\). Визначення кривої регресії, таким чином, є визначенням умовного очікування.

    Приклад\(\PageIndex{8}\) Regression curve for an independent pair

    Якщо пара\(\{X, Y\}\) незалежна, то\(u = E[Y|X = t] = E[Y]\), так що крива регресії\(Y\) на\(X\) є горизонтальною лінією наскрізь\(u = E[Y]\). Це, звичайно, погоджується з лінією регресії, так як\(\text{Cov} [X, Y] = 0\) і лінія регресії є\(u = 0 = E[Y]\).

    Результат поширюється на функції\(X\) і\(Y\). Припустимо\(Z = g(X, Y)\). Тоді пара\(\{X, Z\}\) має спільний розподіл, і найкраща середня квадратна оцінка\(Z\) даної\(X = t\) є\(E[Z|X = t]\).

    Приклад\(\PageIndex{9}\) Estimate of a function of \(\{X, Y\}\)

    Припустимо, пара\(\{X, Y\}\) має щільність стику\(f_{XY} (t, u) = 60t^2 u\) для\(0 \le t \le 1\),\(0 \le u \le 1 - t\). Це трикутна область, обмежена\(t = 0\)\(u = 0\), і\(u = 1 - t\) (див. Рис. Інтеграція показує, що

    \(f_X (t) = 30t^2 (1 - t)^2\),\(0 \le t \le 1\) А\(f_{Y|X} (u|t) = \dfrac{2u}{(1 - t)^2}\) на трикутнику

    Розглянемо

    \(Z = \begin{cases} X^2 & \text{for } X \le 1/2 \\ 2Y & \text{for } X > 1/2 \end{cases} = I_M(X) X^2 + I_N (X) 2Y\)

    де\(M =\) [0, 1/2] і\(N\) = (1/2, 1]. Визначте\(E[Z|X = t]\).

    Рисунок третій - це декартовий графік у першому квадранті, що містить великий, затінений прямокутний трикутник. Горизонтальна вісь позначена, t, а вертикальна вісь позначена, u. Позначено відповідним чином, що обидві коротші сторони трикутника сидять на вертикальній і горизонтальній осях і обидві довжини один, а вершина трикутника містить прямий кут, що сидить біля початку. Гіпотенуза трикутника, який знаходиться по прямій від точки (0, 1) до точки (1, 0), є єдиною міченою стороною трикутника, а його мітка читає, u = 1 - t. всередині трикутника знаходиться рівняння, яке читає, f_xy (t, u) = 60t^2 u.
    Малюнок 14.1.3. Функція щільності для прикладу 14.1.9.

    Рішення По лінійності і (CE8).

    \(E[Z|X = t] = E[I_M (X) X^2||X = t] + E[I_N (X) 2Y||X = t] = I_M (t) t^2 + I_N (t) 2E[Y|X = t]\)

    Зараз

    \(E[Y|X = t] = \int u f_{Y|X} (u|t) \ du = \dfrac{1}{(1 - t)^2} \int_{0}^{1 - t} 2u^2\ du = \dfrac{2}{3} \cdot \dfrac{(1 - t)^3}{(1 - t)^2} = \dfrac{2}{3} (1 - t)\),\(0 \le t < 1\)

    щоб

    \(E[Z|X = t] = I_M (t) t^2 + I_N (t) \dfrac{4}{3} (1 - t)\)

    Зверніть увагу, що функції індикатора розділяють два вирази. Перший тримається на інтервалі\(M =\) [0, 1/2], а другий тримається на інтервалі\(N =\) (1/2, 1]. Два вирази не\(t^2\0 and (4/3)\((1 - t)\) повинні бути додані, бо це дасть вираз, некоректний для всіх t в діапазоні\(X\).

    НАБЛИЖЕННЯ

    tuappr
    Enter matrix [a b] of X-range endpoints  [0 1]
    Enter matrix [c d] of Y-range endpoints  [0 1]
    Enter number of X approximation points  100
    Enter number of Y approximation points  100
    Enter expression for joint density  60*t.^2.*u.*(u<=1-t)
    Use array operations on X, Y, PX, PY, t, u, and P
    G = (t<=0.5).*t.^2 + 2*(t>0.5).*u;
    EZx = sum(G.*P)./sum(P);                       % Approximation
    eZx = (X<=0.5).*X.^2 + (4/3)*(X>0.5).*(1-X);   % Theoretical
    plot(X,EZx,'k-',X,eZx,'k-.')
    % Plotting details                             % See Figure 14.1.4

    Підгонка цілком достатня для практичних цілей, незважаючи на помірну кількість точок наближення. Різниця в виразах для двох інтервалів\(X\) значень цілком зрозуміла.

    Рисунок четвертий - це графік з маркуванням, теоретичні та приблизні криві регресії. Горизонтальна вісь позначається t, а вертикальна вісь - E [Z | X = t]. Значення на горизонтальній осі коливаються від 0 до 1 з кроком 0,1, а вертикальна вісь - від 0 до 0,7, з кроком 1. На цьому графіку є два сюжети. Перша є пунктирною лінією, позначеною теоретичні, а друга - суцільна лінія, позначена приблизною. Обидві лінії йдуть однаковим шляхом і формою на графіку, за винятком того, що суцільна лінія іноді трохи менш плавна, коливається, але все ще уважно слідує за більш послідовною пунктирною лінією. Форма сюжету з'являється в трьох великих з'єднаних ділянках. Перший розділ починається в нижньому лівому куті графіка і починається праворуч з неглибоким, але зростаючим нахилом. Графік збільшується зі зростаючою швидкістю до середини графіка, приблизно (0,5, 0,25). Другий розділ починається в цій точці, оскільки шлях триває вертикально від (0,5, 0,25) до (0,5, 0,65). У цьому місці починається третя ділянка і є приблизно лінійною, з постійним негативним нахилом, що рухається до нижнього правого кута графіка, де він закінчується в точці (1, 0).
    Малюнок 14.1.4. Теоретичні та наближені криві регресії для прикладу 14.1.9

    Приклад\(\PageIndex{10}\) Estimate of a function of \(\{X, Y\}\)

    Припустимо, пара\(\{X, Y\}\) має щільність стику\(f_{XY} (t, u) = \dfrac{6}{5} (t^2 + u)\), на\(0 \le t \le 1\) одиничному\(0 \le u \le 1\) квадраті, (див. Рис. Звичайна інтеграція показує

    \(f_X (t) = \dfrac{3}{5} (2t^2 + 1)\),\(0 \le t \le 1\), і\(f_{Y|X} (u|t) = 2 \dfrac{t^2 + u}{2t^2 +1}\) на площі

    Розглянемо

    \(Z = \begin{cases} 2X^2 & \text{for } X \le Y \\ 3XY & \text{for } X > Y \end{cases} I_Q (X, Y) 2X^2 + I_{Q^c} (X, Y) 3XY\), де\(Q = \{(t, u): u \ge t\}\)

    Визначте\(E[Z|X = t]\).

    Рішення

    \(E[Z|X = t] = 2t^2 \int I_Q (t, u) f_{Y|X} (u|t) + 3t\int I_{Q^c} (t, u) u f_{Y|X} (u|t)\ du\)

    \(= \dfrac{4t^2}{2t^2+1} \int_{t}^{1} (t^2 + u)\ du + \dfrac{6t}{2t^2 + 1} \int_{0}^{t} (t^2u + u^2)\ du = \dfrac{-t^5 + 4t^4 + 2t^2}{2t^2 + 1}\),\(0 \le t \le 1\)

    Рисунок п'ять являє собою декартовий графік, що містить два рівних прямокутних трикутника, які разом на їх гіпотенузі створюють великий квадрат. Горизонтальна вісь маркується, t, а вертикальна вісь позначена, u Кожна вісь відзначається тільки значенням 1. Точки (0, 0), (0, 1), (1, 1) і (1, 0) є вершинами квадрата. Діагональна пунктирна лінія від точки (0, 0) до точки (1, 1) позначається u = t і ділить квадрат на два трикутника. Дві сторони трикутника, що не сидить на осі, позначені, з позначкою горизонтальної сторони від (0, 1) до (1, 1), u = 1, а вертикальна сторона від (1, 0) до (1, 1) позначена, t = 1. Трикутник над діагональною лінією позначається, Q, а трикутник нижче позначений Q^C. Під графіком друкується велике рівняння, що читає: F_xY (t, u) = (6/5) * (t^2 + u).
    Малюнок 14.1.5. Щільність і регіони для Приклад 14.1.10

    Зверніть увагу на іншу роль індикаторних функцій, ніж у прикладі 14.1.9. Там вони забезпечують поділ двох частин результату. Тут вони служать для встановлення ефективних меж інтеграції, але сума двох частин потрібна для кожної\(t\).

    Малюнок шостий - це графік з маркуванням, теоретичними та приблизними кривими регресії. Горизонтальна вісь маркується, t, а вертикальна вісь маркується, E [Z | X = t]. Значення на горизонтальній осі коливаються від 0 до 1 з кроком 0,1. Значення на вертикальній осі коливаються від 0 до 1,8 з кроком 0,2. На графіку є два графіки, але обидва дотримуються однієї і тієї ж форми настільки тісно, що їх неможливо розрізнити. Один являє собою суцільну лінію, позначену наближеною, а інша - пунктирною лінією, позначеною теоретичні. Форма починається в правому нижньому куті графіка з (0, 0). Вона спочатку рухається вправо на неглибокому позитивному схилі. Коли він продовжує рухатися вправо, він починає збільшуватися зі зростаючою швидкістю приблизно до (0, 6, 7), де він підтримує постійний позитивний нахил. Графік продовжує цей нахил до правого верхнього кута графіка, де він закінчується приблизно (1, 1,65).
    Малюнок 14.1.6. Теоретичні та наближені криві регресії для прикладу 14.1.10

    НАБЛИЖЕННЯ

    tuappr
    Enter matrix [a b] of X-range endpoints  [0 1]
    Enter matrix [c d] of Y-range endpoints  [0 1]
    Enter number of X approximation points  200
    Enter number of Y approximation points  200
    Enter expression for joint density  (6/5)*(t.^2 + u)
    Use array operations on X, Y, PX, PY, t, u, and P
    G = 2*t.^2.*(u>=t) + 3*t.*u.*(u<t);
    EZx = sum(G.*P)./sum(P);                        % Approximate
    eZx = (-X.^5 + 4*X.^4 + 2*X.^2)./(2*X.^2 + 1);  % Theoretical
    plot(X,EZx,'k-',X,eZx,'k-.')
    % Plotting details                              % See Figure 14.1.4
    

    Теоретичне і приблизне ледь помітні на сюжеті. Хоча використовується така ж кількість точок наближення, як на малюнку 14.1.4 (приклад 14.1.9), той факт, що вся область включена в сітку, означає більшу кількість ефективних точок в даному прикладі.

    Враховуючи наш підхід до умовного очікування, той факт, що він вирішує задачу регресії, є справою, яка потребує доказів з використанням властивостей умовного очікування. Альтернативний підхід полягає в тому, щоб просто визначити умовне очікування, яке буде вирішенням проблеми регресії, а потім визначити її властивості. Це дає, зокрема, нашу визначальну умову (CE1). Після того, як це встановлено, властивості очікування (включаючи властивість унікальності (E5)) показують істотну еквівалентність двох понять. Існують деякі технічні відмінності, які не впливають на більшість програм. Альтернативний підхід передбачає, що другий момент\(E[X^2]\) - кінцевий. Не всі випадкові величини мають цю властивість. Однак ті, які зазвичай використовуються в додатках на рівні цього лікування, матимуть дисперсію, отже, кінцевий другий момент.

    Ми використовуємо інтерпретацію\(e(X) = E[g(Y)|X]\) як найкращого середнього квадратного оцінювача\(g(Y)\), наведеного\(X\), для інтерпретації формальної власності (CE9). Оглядаємо спеціальну форму

    (Се 9а)\(E\{E[g(Y)|X]|X, Z\} = E\{E|g(Y)|X, Z]|X\} = E[g(Y)|X]\)

    Покладіть\(e_1 (X,Z) = E[g(Y)|X,Z]\), найкраще середнє квадратне оцінювач\(g(Y)\), наведено\((X, Z)\). Тоді (Ce9b) може бути виражений

    \(E[e(X)|X, Z] = e(X)\)а.с. та\(E[e_1 (X, Z)|X] = e(X)\) а.с.

    На словах, якщо взяти найкращу оцінку\(g(Y)\), наведену\(X\), то візьмемо найкращу середню квадратну оцінку, яка, враховуючи\((X,Z)\), що ми не змінюємо оцінку\(g(Y)\). З іншого боку, якщо ми спочатку отримаємо найкращу середню квадратну оцінку\(g(Y)\), задано\((X, Z)\), а потім взяти найкращу середню квадратну оцінку, що, враховуючи\(X\), ми отримаємо найкращу середню квадратну оцінку\(g(Y)\), задано\(X\).