5.6: Інформація
- Page ID
- 29777
Ми хочемо кількісно висловити інформацію, яку ми маємо або бракуємо про вибір символу. Після того, як ми дізнаємося результат, ми не маємо невизначеності щодо обраного символу або його різних властивостей, а також про те, які події могли статися в результаті цього вибору. Однак перед тим, як буде зроблений відбір або принаймні до того, як ми дізнаємось результат, у нас є певна невизначеність. Скільки?
Після того, як ми дізнаємося результат, інформацію, яку ми зараз володіємо, можна було б повідомити іншому, вказавши обраний символ. Якщо є два можливих символів (наприклад, голови або хвости монети фліп), то один біт може бути використаний для цієї мети. Якщо є чотири можливі події (наприклад, масть карти, витягнутої з колоди), результат може бути виражений двома бітами. Більш загально, якщо є\(n\) можливі результати, то\(\log_2n\) біти потрібні.
Поняття тут полягає в тому, що кількість інформації, яку ми дізнаємося, почувши результат, є мінімальною кількістю бітів, які могли б бути використані, щоб сказати нам, тобто, щоб вказати символ. Цей підхід має деякі переваги, але має два недоліки.
По-перше, фактична специфікація одного символу за допомогою послідовності бітів вимагає інтегрального числа бітів. Що робити, якщо кількість символів не є цілісною силою двох? Для одного вибору може бути не так багато, що можна зробити, але якщо джерело робить повторювані виділення, і всі вони повинні бути вказані, їх можна згрупувати разом, щоб відновити дробові біти. Наприклад, якщо існує п'ять можливих символів, то для одного символу знадобляться три біти, але 25 можливих комбінацій двох символів можуть бути передані з п'ятьма бітами (2,5 біта на символ), а 125 комбінацій з трьох символів могли б обійтися сімома бітами (2,33 біта на символ). Це не набагато більше\(\log_2(5)\), ніж це 2.32 біта.
По-друге, різні події можуть мати різну ймовірність вибору. Ми бачили, як моделювати наш стан знань з точки зору ймовірностей. Якщо ми вже знаємо результат (один\(p(A_i)\) дорівнює 1, а всі інші дорівнює 0), то ніякої додаткової інформації не отримується, тому що раніше не було невизначеності. Наше визначення інформації має охоплювати цей випадок.
Розглянемо клас з 32 учнів, з яких двоє - жінки і 30 - чоловіки. Якщо обраний один студент, і наша мета полягає в тому, щоб знати, який з них, наша невизначеність спочатку становить п'ять біт, оскільки саме це було б необхідно для уточнення результату. Якщо студент вибирається випадковим чином, ймовірність того, що кожен буде обраний 1/32. Вибір студента також призводить до гендерної події, або «жінка обрана» з ймовірністю\(p(W)\) = 2/32, або «чоловік обраний» з ймовірністю\(p(M)\) = 30/32.
Скільки інформації ми отримуємо, якщо нам кажуть, що вибір - жінка, але не кажуть, яка з них? Наша невизначеність зменшується з п'яти біт до одного біта (сума, необхідна для уточнення, яка з двох жінок це була). Тому інформація, яку ми отримали, становить чотири біти. Що робити, якщо нам скажуть, що вибір - чоловік, а не який? Наша невизначеність зменшується з п'яти біт до\(\log_2(30)\) або 4.91 біт. Таким чином ми дізналися 0, 09 біт інформації.
Справа тут в тому, що якщо у нас є розділ, події якого мають різні ймовірності, ми дізнаємося різні суми з різних результатів. Якщо результат був ймовірним, ми дізнаємося менше, ніж якби результат був малоймовірним. Ми проілюстрували цей принцип у випадку, коли кожен результат залишив невирішеним вибір події з базового, фундаментального розділу, але принцип застосовується, навіть якщо ми не дбаємо про фундаментальний розділ. Інформація, отримана з результату\(i\), є\(\log_2(1/p(A_i))\). Зверніть увагу на цю формулу, що якщо\(p(A_i)\) = 1 для деяких i, то інформація, отримана з цього результату, дорівнює 0, оскільки\(\log_2(1)\) = 0. Це узгоджується з тим, що ми очікуємо.
Якщо ми хочемо кількісно оцінити нашу невизначеність перед вивченням результату, ми не можемо використовувати будь-яку інформацію, отриману за конкретними результатами, оскільки ми не знаємо, що використовувати. Натомість ми повинні усереднити всі можливі результати, тобто по всіх подіях у розділі з ненульовою ймовірністю. Середню інформацію на подію можна знайти шляхом множення інформації для кожної події\(A_i\) на\(p(A_i)\) і підсумовування по розділу:
\(I = \displaystyle \sum_{i} p(A_i)\log_2\Big(\dfrac{1}{p(A_i)}\Big) \tag{5.14} \)
Ця величина, що має принципове значення для характеристики інформації джерел, називається ентропією джерела. Формула працює, якщо ймовірності всі рівні, і вона працює, якщо їх немає; вона працює після того, як результат відомий і ймовірності скориговані так, що одна з них дорівнює 1, а всі інші 0; вона працює, чи є події, про які повідомляється, з фундаментального розділу чи ні.
У цій та інших формулах для інформації необхідно бути обережним з подіями, які мають нульову ймовірність. Ці випадки можна розглядати так, ніби вони мають дуже малу, але ненульову ймовірність. У цьому випадку логарифм, хоча він наближається до нескінченності для аргументу, що наближається до нескінченності, робить це дуже повільно. Добуток цього фактора разів ймовірність наближається до нуля, тому такі терміни можуть бути безпосередньо встановлені на нуль, навіть якщо формула може запропонувати невизначений результат, або процедура обчислення може мати помилку «ділити на нуль».