6.20: Ентропія
- Шеннон показав силу ймовірнісних моделей для символічних сигналів. Суха величина, що характеризує такий сигнал, - це ентропія його алфавіту.
Теорія зв'язку була сформульована найкраще для символічних сигналів. Клод Шеннон опублікував у 1948 році «Математичну теорію спілкування», яка стала наріжним каменем цифрової комунікації. Він показав силу ймовірнісних моделей для символічно-значущих сигналів, що дозволило йому кількісно оцінити інформацію, присутню в сигналі. У найпростішій моделі сигналу кожен символ може зустрічатися за індексом n з ймовірністю Pr [a k], k= {1,... , К}. Ця модель говорить про те, що для кожного значення сигналу K -sided монета перевертається (зверніть увагу, що монета не повинна бути справедливою). Щоб ця модель мала сенс, ймовірності повинні бути числами від нуля до одиниці і повинні сумувати одиницю.
0≤Pr[ak]≤1
K∑k=1Pr[ak]=1
Ця модель перегортання монет передбачає, що символи відбуваються незалежно від того, якими були попередні або наступні символи, помилкове припущення для набраного тексту. Незважаючи на надмірну простоту цієї імовірнісної моделі, ідеї, які ми розробляємо тут, також працюють, коли використовуються більш точні, але все ще ймовірнісні моделі. Ключовою величиною, що характеризує символічно-значний сигнал, є ентропія його алфавіту.
H(A)=−∑kKPr[ak]log2Pr[ak]
Оскільки ми використовуємо логарифм base-2, ентропія має одиниці бітів. Щоб це визначення мало сенс, ми повинні взяти до уваги символи, що мають нульову ймовірність виникнення. Символ нульової ймовірності ніколи не виникає; таким чином, ми визначаємо
0log20=0
щоб такі символи не впливали на ентропію. Максимальне значення, яке досягається ентропією алфавіту, виникає, коли символи однаково вірогідні.
Pr[ak]=Pr[al]
При цьому ентропія дорівнює log 2 K. Мінімальне значення виникає, коли виникає лише один символ; він має ймовірність одного, а решта мають нуль ймовірності.
Вивести результати максимальної ентропії, як числовий аспект (ентропія дорівнює журналу 2 K), так і теоретичний (однаково ймовірні символи максимізують ентропію). Вивести значення мінімальної ентропії алфавіту.
Рішення
Однаково ймовірні символи мають ймовірність 1/K. Таким чином,
H(A)=−∑kK1Klog21K=log2K
Щоб довести, що це привласнення ймовірності максимальної ентропії, треба явно враховувати, що ймовірності сумуються одиниці. Орієнтуйтеся на конкретний символ, скажімо перший. Pr [a 0] з'являється двічі у формулі ентропії: терміни
Pr[a0]log2Pr[a0]and(1−Pr[a0]+...+Pr[aK−2])log2(1−Pr[a0]+...+Pr[aK−2])
Похідна щодо цієї ймовірності (і всіх інших) повинна дорівнювати нулю. Похідна дорівнює
log2Pr[a0]−log2(1−Pr[a0]+...+Pr[aK−2])
і всі інші похідні мають однакову форму (просто замініть індекс вашого листа). Таким чином, кожна ймовірність повинна дорівнювати іншим, і ми зробили. Для мінімальної відповіді ентропії один термін дорівнює
1log21=0
а інші
0log20
який ми визначаємо як нуль також. Мінімальне значення ентропії дорівнює нулю.
Чотирисимвольний алфавіт має такі ймовірності.
Pr[a0]=12
Pr[a1]=14
Pr[a2]=18
Pr[a3]=18
Зауважте, що ці ймовірності складають одну, як слід. Як
12=2−1,log212=−1
Ентропія цього алфавіту дорівнює
H(A)=−(12log212+14log214+18log218+18log218)
H(A)=−(12−1+14−2+18−3+18−3)
H(A)=1.75bits