Skip to main content
LibreTexts - Ukrayinska

10.1: Інформація

  • Page ID
    75735
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Ми хочемо дати кількісну оцінку ідеї інформації. Спочатку це пов'язано з К.Шенноном.

    Розглянемо випадкову величину\(x\) з розподілом ймовірностей с\(p(x)\). Для простоти спочатку ми\(x\) приймаємо дискретну випадкову величину, з\(N\) можливими значеннями\(x_1, x_2, · · · , x_N\),\(p_i ≡ p(x_i)\) з ймовірністю для\(x_i\). Ми можемо думати про експеримент, для якого є результати\(x_i\), і ймовірність\(x_i\) бути\(p_i\) в пробному запуску експерименту. Ми хочемо визначити поняття інформації,\(I(p)\) пов'язаної з\(p(x)\). Ключова ідея полягає в тому, щоб відзначити, що якщо результат має ймовірність 1, виникнення цього результату не несе ніякої інформації, оскільки було зрозуміло, що це обов'язково станеться. Якщо результат має ймовірність менше 1, то його виникнення може нести інформацію. Якщо ймовірність дуже мала, а результат настає, навряд чи це буде випадкова подія і тому має сенс розглядати його як несучу інформацію. Виходячи з цієї інтуїтивної ідеї, ми очікуємо, що інформація буде функцією ймовірності. За умовністю вибираємо\(I(p\)) бути позитивним. Далі від того, що ми сказали,\(I(1) = 0\). Тепер розглянемо два абсолютно самостійних події, з ймовірностями\(p\) і\(\widetilde{p}\). Імовірність того, і іншого статися є\(p \; \widetilde{p}\), і буде нести інформацію\(I(p \; \widetilde{p})\). Так як виникнення кожної події окремо несе інформацію\(I(p)\) і\(I(\widetilde{p})\), ми очікуємо

    \[ I(p \; \widetilde{p}) = I(p) + I(\widetilde{p}) \label{10.1.1} \]

    Нарешті, якщо ймовірність якоїсь події зміниться на невелику суму, ми очікуємо, що інформація про подію також буде змінена на невелику суму. Це означає, що ми хотіли\(I(p)\) б бути безперервною і диференційованою функцією\(p\). Таким чином, нам потрібна безперервна і диференційована функція,\(I(p)\) яка підпорядковується вимогам\(I(p) ≥ 0\),\(I(1) = 0\) і\( I(p \; \widetilde{p}) = I(p) + I(\widetilde{p}) \). Єдина функція, яка підпорядковується цим умовам, дається

    \[ I(p) = − \log p \label{10.1.2} \]

    Це в основному визначення інформації Шеннона. База, що використовується для цього логарифма, не визначається тим, що було сказано досі; мова йде про вибір одиниці для інформації. Умовно для систем, що використовують двійкові коди, ми використовуємо\( \log_2 p\), тоді як для більшості статистичних систем ми використовуємо натуральні логарифми.

    Розглянемо тепер результат xi, який має ймовірність\(p_i\). Обсяг інформації для\(x_i\) є\( −\log p_i\). Припустимо, що тепер ми робимо\(N\) випробування експерименту, де\(N\) дуже великі. Тоді кількість разів xi буде реалізована\(N\; p_i\). Таким чином, має сенс визначити середнє або очікуване значення для інформації як

    \[S = \sum_i p_i \; I(p_i) = -\sum_i p_i \; \log p_i \label{10.1.3}\]

    Це очікуване значення для інформації є визначенням ентропії Шеннона.

    Дане визначення ентропії вимагає деякого уточнення. Це означає кількість інформації, яка може бути закодована за допомогою наявних результатів. Це можна зробити зрозумілішим, розглянувши приклад, скажімо,\(N\) кидків монети або еквівалентно потоку 0 і 1s,\(N\) одиниць довжини. Кожен результат - це рядок 0s і 1s; ми будемо називати це словом, оскільки ми можемо думати про це як двійкове кодування слова. Ми приймаємо їх, щоб бути впорядковані так, що перестановки 0s і 1s в даному слові будуть зараховані як різні. Загальна кількість можливостей для цього є\(2^N\), і кожна відбувається з однаковою ймовірністю. Таким чином, кількість інформації в реалізації конкретного результату є\(I = N\; \log 2\), або\(N\) біти, якщо ми використовуємо логарифм для основи 2. Ентропія розподілу становить

    \[S = \sum \frac{1}{2^N} \log 2^N = N\; \log 2 \label{10.1.4} \]

    Тепер розглянемо ситуацію, коли ми вказуємо або фіксуємо деякі слова. Наприклад, скажімо, що всі слова починаються з 0, Тоді ймовірність будь-якого слова серед цього обмеженого набору тепер\(\frac{1}{2^{N−1}}\), і стає ентропія\(S = (N − 1) \log 2\). Таким чином, ентропія зменшилася, тому що ми зробили вибір; ми використали деяку інформацію. Таким чином, ентропія - це кількість інформації, яка потенційно може бути закодована за допомогою розподілу ймовірностей.

    Це визначення ентропії по суті таке ж, як визначення Больцмана або те, що ми використовували при досягненні різних функцій розподілу частинок. Для цього розглянемо формулу ентропії, яку ми використовували в розділі 7, Рівняння 7.2.5,

    \[ S ≈ k \left[ N \log N - N - \sum_i (n_i \log n_i - n_i) \right] \label{10.1.5} \]

    Ось номер окупації для держави\(i\).\(n_i\) У межах великих\(N\),\(\frac{n_i}{N}\) може трактуватися як ймовірність для держави\(i\). Використовуючи\(p_i\) для цього символ, ми можемо переписати Equation\ ref {10.1.5} як

    \[ \frac{S}{k} = - \sum_i p_i \log p_i \label{10.1.6} \]

    показуючи, що ентропія, визначена Больцманом у статистичній фізиці, така ж, як інформаційно-теоретичне визначення Шеннона. (У термодинаміці ми вимірюємо\(S\) в\(\frac{J}{K}\); ми можемо розглядати константу Больцмана\(k\) як коефіцієнт перетворення одиниці. Таким чином,\(\frac{S}{k}\) з термодинаміки є величина, яку слід порівняти з визначенням Шеннона.) Стани в термодинаміці задаються значеннями позицій і моментів для частинок, тому результати є безперервними. Потім відбувається узагальнення континууму рівняння\ ref {10.1.6}

    \[ \frac{S}{k} = d \mathcal{N} p \log p \label{10.1.7} \]

    де\( d \mathcal{N} \) є відповідною мірою, як міра фазового простору в Рівнянні 7.4.1.

    Зазвичай ми максимізуємо ентропію за умови певних середніх показників, таких як середня енергія та середня кількість частинок, що задаються. Це означає, що спостерігач шляхом спостережень визначив ці значення, а значить і кількість доступних станів обмежена. Допускаються лише ті стани, які сумісні із заданою середньою енергією та кількістю частинок. Це обмежує розподіл ймовірностей, який максимізує ентропію. Якщо вказати більше середніх, то максимальна ентропія нижче. Аргумент схожий на те, що було дано після Equation\ ref {10.1.4}, але ми можемо побачити це і більш безпосередньо. \(A_α, α = 1, 2, · · · , n\)Дозволяти бути набір спостережуваних. Максимізація ентропії за умови вказівки середніх значень цих величин задається максимізацією

    \[ \frac{S}{k} = \int \left[ -p \log p - \sum_α^n λ_αA_α p \right] + \sum_α^n λ_α \langle A_α \rangle \label{10.1.8} \]

    \( \langle A_α \rangle \)Ось середні значення, які були вказані, і\(λ_α\) є множниками Лагранжа. Варіації щодо\(λ\) s дають необхідну обмеженість

    \[ \langle A_α \rangle = \int A_α\;p \label{10.1.9} \]

    Розподіл\(p\), який екстремізує рівняння\ ref {10.1.8}, задається

    \[\bar{p}_n = \frac{1}{Z_n} e^{-\sum_α^n λ_αA_α}, \;\;\;\;\;\;Z_n = \int e^{-\sum_α^n λ_αA_α} \label{10.1.10} \]

    Відповідна ентропія задається

    \[ \frac{\bar{S}_n}{k} = \log Z_n + \sum_α^n λ_α \langle A_α \rangle \label{10.1.11} \]

    Тепер розглянемо уточнення\(n + 1\) середніх показників. У цьому випадку ми маємо

    \ [\ почати {рівняння}
    \ почати {спліт}
    \ бар {p} _ {n+1} & =\ розриву {1} {Z_ {n+1}} e^ {-\ sum_α^ {n+1} λ_αa_α},\;\;\;\;\;\;\; Z_ {n+1} =\ int e^ {-\ sum_α_ {n+1} αa_α}\\ [0.125in]
    \ гідророзриву {\ бар {S} _ {n+1}} {k} & =\ журнал Z_ {n+1} +\ sum_α^ {n+1} λ_α\ кут a_α\ діапазон
    \ кінець { спліт}
    \ кінець {рівняння}\ мітка {10.1.12}\]

    Цей розподіл повертається до\(\bar{p}_n\), і так само\(\bar{S}_{n+1} → \bar{S}_n\), якщо ми\(λ_{n+1}\) встановимо нуль.

    Якщо ми обчислюємо\( \langle A_{n+1} \rangle\) за допомогою розподілу\(\bar{p}_n\) і відповідь виходить вказаним значенням, то немає ніякої інформації в переході\(\bar{p}_{n+1}\). Таким чином, це тільки в тому випадку, якщо розподіл, який реалізує вказане значення,\( \langle A_{n+1} \rangle\) відрізняється від\(\bar{p}_n\) того, що є додаткова інформація у виборі\( \langle A_{n+1} \rangle\). Це відбувається, якщо\(λ_{n+1} \neq 0\). Тому корисно розглянути, як\(\bar{S}\) змінюється с\(λ_α\). Ми знаходимо, безпосередньо з Рівняння\ ref {10.1.11},

    \ [\ почати {рівняння}
    \ почати {спліт}
    \ гідророзриву {\ частковий\ бар {S}} {\ частковий λ_α} & =\ sum_ {\ бета} λ_β\ гідророзриву {\ частковий} {\ частковий λ_α}\ лангл A_β\ діапазон =\ сума {\ бета} λ_β [-\ лангл A_α-β\ діапазон +\ langle\ діапазон\ кут a_β\ діапазон]\\ [0.125in]
    & = -\ sum_ {\ бета } M_ {αβ} λ_β\\ [0.125in] M_ {αβ} & =\ лангл a_αa_β\ діапазон -\ лангл a_α\ діапазон\ кут a_β\ діапазон
    \ кінець {спліт}
    \ кінець {рівняння}\ мітка {10.1.13}\]

    Зміна максимальної ентропії з\(λ\) s задається набором кореляційних функцій, позначених як\(M_{αβ}\). Ми легко бачимо, що ця матриця є позитивною напіввизначеною. Для цього ми використовуємо нерівність Шварца

    \[ \left[ \int B^* B \right] \left[ \int C^* C \right] \geq \left[ \int B^* C \right] \left[ \int C^* B \right] \label{10.1.14}\]

    Для будь-якого набору комплексних чисел\(γ_α\) беремо\(B = γ_αA_α\) і\(C = 1\). Потім ми бачимо з (10.14) що\(γ_αγ_β^*M_{αβ} ≥ 0\). (Інтеграли в Equation\ ref {10.1.14} повинні бути кінцевими, щоб нерівність мала сенс. Будемо вважати, що хоча б один з λs, скажімо, відповідний гамільтону. завжди включається так, щоб середні були кінцевими.) Рівняння\ ref {10.1.13} потім повідомляє нам, що\(\bar{S}\) зменшується, оскільки все більше і більше\(λ\) s підбирають ненульові значення. Таким чином, ми повинні інтерпретувати ентропію як міру інформації в державах, які все ще знаходяться у вільному доступі для кодування після обмежень, накладених середніми показниками вже виміряних. Це також означає, що збільшення ентропії в системі, залишеній собі, означає, що система прагне до розподілу ймовірностей, який є абсолютно випадковим, за винятком заданих значень збережених величин. Середні показники всіх інших спостережуваних мають тенденцію до значень, заданих таким випадковим розподілом. У такому стані спостерігач володіє мінімальними знаннями про спостережувані, крім збережених величин.