2.1: Відображення даних
Стеблові та листові графіки (Stemplots), лінійні графіки та гістограми
Один простий графік, граф стебла і листя або стовбур, походить з області розвідувального аналізу даних. Це хороший вибір, коли набори даних невеликі. Для створення ділянки розділіть кожне спостереження даних на стебло і лист. Лист складається з кінцевої значущої цифри. Наприклад, 23 має стебло два і три листа. Число 432 має стебло 43 і два листа. Так само число 5432 має стебло 543 і два листа. Десятковий 9.3 має стебло дев'ять і три листа. Випишіть стебла вертикальною лінією від найменшого до найбільшого. Намалюйте вертикальну лінію праворуч від стебел. Потім напишіть листя у порядку збільшення поруч із відповідним стеблом.
Приклад2.1.2.1
Для весняного класу попереднього обчислення Сьюзан Дін бали за перший іспит були наступними (від найменших до найбільших):
33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 90; 92; 94; 94; 94; 94; 94; 94; 94; 96; 100
\ (\ pageIndex {1}\) Графік стебла і листа «>Стебло | Лист |
---|---|
3 | 3 |
4 | 2 9 9 |
5 | 3 5 5 |
6 | 1 3 7 8 8 9 9 |
7 | 2 3 4 8 |
8 | 0 3 8 8 |
9 | 0 2 4 4 4 6 |
10 | 0 |
Stemplot показує, що більшість балів впали в 60-х, 70-х, 80-х і 90-х роках. Вісім з 31 балів або приблизно 26% (831) (831) були в 90-х або 100, досить висока кількість As.
Вправа2.1.2.1
Для баскетбольної команди Парк-Сіті бали за останні 30 ігор були наступними (від найменших до найбільших):
32; 32; 33; 34; 38; 40; 42; 42; 43; 44; 46; 47; 47; 48; 48; 49; 50; 50; 51; 52; 52; 53; 54; 56; 57; 57; 60; 61
Побудувати стовбуровий графік для даних.
Stemplot - це швидкий спосіб графіків даних і дає точну картину даних. Ви хочете шукати загальний візерунок і будь-які викиди. Викид - це спостереження за даними, які не відповідають решті даних. Його іноді називають екстремальним значенням. Коли ви графуєте викид, він, здається, не відповідає шаблону графіка. Деякі викиди пов'язані з помилками (наприклад, записуючи 50 замість 500), тоді як інші можуть вказувати на те, що відбувається щось незвичайне. Потрібна деяка довідкова інформація, щоб пояснити викиди, тому ми розглянемо їх більш детально пізніше.
Приклад2.1.2.2
Дані - відстані (у кілометрах) від будинку до місцевих супермаркетів. Створіть stemplot, використовуючи дані:
1.1; 1.5; 2.3; 2.5; 2.7; 3.2; 3.3; 3.3; 3.5; 3.8; 4.0; 4.2; 4,5; 4.5; 4.7; 4.8; 5.5; 5.6; 6.5; 6.7; 12.3
Здається, дані мають якусь концентрацію значень?
ПРИМІТКА
Листя знаходяться праворуч від десяткової.
- Відповідь
-
Значення 12.3 може бути викидом. Значення, здається, концентруються на трьох і чотирьох кілометрах.
\ (\ індекс сторінки {2}\) «>Стебло Лист 1 1 5 2 3 5 7 3 2 3 3 5 8 4 0 2 5 5 7 8 5 5 6 6 5 7 7 8 9 10 11 12 3 Таблиця2.1.2 2.
Вправа2.1.2.2
Наступні дані показують відстані (у милі) від будинків студентів статистики поза кампусом до коледжу. Створіть стовбурову ділянку, використовуючи дані, і визначте будь-які викиди:
0.5; 0,7; 1.1; 1.2; 1.2; 1.3; 1.3; 1.5; 1.5; 1.7; 1.7; 1.8; 1,9; 2.0; 2.2; 2.5; 2.6; 2.8; 2.8; 2.8; 3.5; 3.8; 4.4; 4.8; 4.9; 5.2; 5,5; 5.7; 5.8; 8.0
Приклад2.1.2.3
Бічний графік стебла та листа дозволяє порівнювати два набори даних у двох стовпцях. На ділянці зі стеблом та листям два набори листя мають один і той же стебло. Листя знаходяться зліва і праворуч від стебел. У таблиці2.1.2 .4 та табл.2.1.2 5 показано вік президентів під час їх інавгурації та смерті. Побудуйте пліч-о-пліч ділянку стебла та листа, використовуючи ці дані.
- Відповідь
-
\ (\ Індекс сторінки {3}\) «>
Вік на інавгурації Віки на смерть 9 9 8 7 7 7 6 3 2 4 6 9 8 7 7 7 6 6 6 5 5 5 5 4 4 4 4 4 2 2 1 1 1 1 1 1 0 5 3 6 6 7 7 8 9 8 5 4 2 1 1 1 0 6 0 0 3 3 4 4 5 6 7 7 7 8 7 0 0 1 1 4 7 8 8 9 8 0 1 3 5 8 9 0 0 3 3 Таблиця2.1.2 3.
Президент | Вік | Президент | Вік | Президент | Вік |
---|---|---|---|---|---|
Вашингтон | 57 | Лінкольн | 52 | Гувер | 54 |
Адамс Дж. | 61 | Джонсон А. | 56 | Рузвельт Ф.М. | 51 |
Джефферсон | 57 | Грант | 46 | Трумен | 60 |
Медісон | 57 | Хейс | 54 | Ейзенхауер | 62 |
Монро | 58 | Гарфілд | 49 | Кеннеді | 43 |
Адамс Дж. | 57 | Артур | 51 | Джонсон Л. | 55 |
Джексон | 61 | Клівленд | 47 | Ніксон | 56 |
Ван Бюрен | 54 | Б. Гаррісон | 55 | Ford | 61 |
Гаррісон У. | 68 | Клівленд | 55 | Картер | 52 |
Тайлер | 51 | Мак-Кінлі | 54 | Рейган | 69 |
Полк | 49 | Рузвельт Т. | 42 | Буш Г.У. | 64 |
Тейлор | 64 | Taft | 51 | Клінтон | 47 |
Філмор | 50 | Вілсон | 56 | Буш-молодший | 54 |
Пірс | 48 | Хардінг | 55 | Обама | 47 |
Б'юкенен | 65 | Кулідж | 51 | Трамп | 70 |
Президент | Вік | Президент | Вік | Президент | Вік |
---|---|---|---|---|---|
Вашингтон | 67 | Лінкольн | 56 | Гувер | 90 |
Адамс Дж. | 90 | Джонсон А. | 66 | Рузвельт Ф.М. | 63 |
Джефферсон | 83 | Грант | 63 | Трумен | 88 |
Медісон | 85 | Хейс | 70 | Ейзенхауер | 78 |
Монро | 73 | Гарфілд | 49 | Кеннеді | 46 |
Адамс Дж. | 80 | Артур | 56 | Джонсон Л. | 64 |
Джексон | 78 | Клівленд | 71 | Ніксон | 81 |
Ван Бюрен | 79 | Б. Гаррісон | 67 | Ford | 93 |
Гаррісон У. | 68 | Клівленд | 71 | Рейган | 93 |
Тайлер | 71 | Мак-Кінлі | 58 | ||
Полк | 53 | Рузвельт Т. | 60 | ||
Тейлор | 65 | Taft | 72 | ||
Філмор | 74 | Вілсон | 67 | ||
Пірс | 64 | Хардінг | 57 | ||
Б'юкенен | 77 | Кулідж | 60 |
Іншим типом графіка, який корисний для конкретних значень даних, є лінійний графік. У конкретному лінійному графіку, показаному в прикладі2.1.4, вісь x (горизонтальна вісь) складається зі значень даних, а вісь y (вертикальна вісь) складається з точок частоти. Частотні точки з'єднуються за допомогою відрізків ліній.
Приклад2.1.2.4
В ході опитування 40 матерів запитали, скільки разів на тиждень підлітку потрібно нагадувати, щоб він займався своїми справами. Результати наведені в табл.2.1.2 6 і на малюнку2.1.2 .2.
\ (\ Індекс сторінки {6}\) «>Кількість разів нагадують підлітку | Частота |
---|---|
0 | 2 |
1 | 5 |
2 | 8 |
3 | 14 |
4 | 7 |
5 | 4 |
Вправа2.1.4
В ході опитування 40 людей запитали, скільки разів на рік вони мали свій автомобіль в цеху для ремонту. Результати наведені в табл2.1.7. Побудувати лінійний графік.
\ (\ Індекс сторінки {7}\) «>Кількість разів у магазині | Частота |
---|---|
0 | 7 |
1 | 10 |
2 | 14 |
3 | 9 |
Гістограми складаються з стовпчиків, які відокремлені один від одного. Бруски можуть бути прямокутниками або це можуть бути прямокутні коробки (використовуються в об'ємних ділянках), причому вони можуть бути вертикальними або горизонтальними. Гістограма, показана2.1.5 у прикладі, містить вікові групи, представлені на осі x, і пропорції на осі y.
Вправа2.1.1
Додайте сюди текст вправ.
- Відповідь
-
Рішення 2.5
Малюнок2.1.2 3.
Приклад2.1.5
До кінця 2011 року Facebook налічував понад 146 мільйонів користувачів у Сполучених Штатах. У таблиці2.1.2 .8 наведено три вікові групи, кількість користувачів у кожній віковій групі та частка (%) користувачів у кожній віковій групі. Побудувати гістограму, використовуючи ці дані.
\ (\ Індекс сторінки {8}\) «>Вікові групи | Кількість користувачів Facebook | Частка (%) користувачів Facebook |
---|---|---|
13—25 | 65 082 280 | 45% |
26—44 | 53 300 200 | 36% |
45—64 | 27 885 100 | 19% |
Рішення
Вправа2.1.5
Додайте сюди текст вправ.
- Відповідь
-
Населення в Парк-Сіті складається з дітей, дорослих працездатного віку та пенсіонерів. Таблиця2.1.9 показує три вікові групи, кількість людей у місті від кожної вікової групи та частку (%) людей у кожній віковій групі. Побудувати гістограму, що показує пропорції.
\ (\ Індекс сторінки {9}\) «>Вікові групи Кількість людей Частка населення Діти 67 059 19% Дорослі працездатного віку 152 198 43% Пенсіонери 131 662 38%
Приклад2.1.2.6
Стовпці в таблиці2.1.2 .10 містять: расу або етнічну приналежність учнів державних шкіл США для класу 2011 року, відсотки для розширеного розміщення досліджують населення для цього класу та відсотки для загальної кількості учнів. Створіть гістограму зі студентською расою або етнічною приналежністю (якісні дані) на осі x, а також відсотки населення досліджуваного Advanced Placement на осі y.
\ (\ Індекс сторінки {10}\) «>Раса/етнічна приналежність | Обстежуване населення AP | Загальне студентське населення |
---|---|---|
1 = Азіатський, азіатсько-американський або тихоокеанський остров'янин | 10,3% | 5,7% |
2 = Чорний або афроамериканець | 9.0% | 14,7% |
3 = латиноамериканський або латиноамериканський | 17.0% | 17,6% |
4 = Американський індійський або Аляска корінних | 0,6% | 1,1% |
5 = Білий | 57,1% | 59,2% |
6 = Не повідомляється/інше | 6.0% | 1,7% |
- Відповідь
-
Рішення 2.6
2.1.2Малюнок 4.
Вправа2.1.2.6
Додайте сюди текст вправ.
- Відповідь
-
Паркове місто розбито на шість виборчих округів. У таблиці наведено відсоток від загальної кількості зареєстрованих виборців, що проживає в кожному окрузі, а також відсоток загальної кількості всього населення, що проживає в кожному окрузі. Побудувати гістограму, яка показує зареєстроване населення виборців за районами.
\ (\ Індекс сторінки {11}\) «>Район Зареєстроване населення виборців Загальна чисельність населення міста 1 15,5% 19,4% 2 12,2% 15,6% 3 9,8% 9.0% 4 17,4% 18,5% 5 22,8% 20,7% 6 22,3% 16,8% Таблиця2.1.2 1.1
Приклад2.1.2.7
Нижче наведена двостороння таблиця із зазначенням типів домашніх тварин, якими володіють чоловіки та жінки:
\ (\ Індекс сторінки {12}\) «>Собаки | Кішки | Риба | Всього | |
---|---|---|---|---|
Чоловіки | 4 | 2 | 2 | 8 |
Жінкам | 4 | 6 | 2 | 12 |
Всього | 8 | 8 | 4 | 20 |
З огляду на ці дані, обчислити умовні розподіли для субпопуляції чоловіків, які володіють кожним типом вихованця.
- Відповідь
-
- Чоловіки, які володіють собаками = 4/8 = 0,5
- Чоловіки, які володіють кішками = 2/8 = 0,25
- Чоловіки, які володіють рибою = 2/8 = 0,25
Примітка: Сума всіх умовних розподілів повинна дорівнювати одиниці. У цьому випадку 0,5 + 0,25 + 0,25 = 1; отже, рішення «перевіряє».
Гістограми, частотні багатокутники та графіки часових рядів
Для більшої частини роботи, яку ви виконуєте в цій книзі, ви будете використовувати гістограму для відображення даних. Однією з переваг гістограми є те, що вона може легко відображати великі набори даних. Емпіричне правило полягає у використанні гістограми, коли набір даних складається з 100 значень або більше.
Гістограма складається з суміжних (прилеглих) коробок. Він має як горизонтальну вісь, так і вертикальну вісь. Горизонтальна вісь позначається тим, що представляють дані (наприклад, відстань від вашого будинку до школи). Вертикальна вісь позначається або частотою, або відносною частотою (або відсотковою частотою або ймовірністю). Графік матиме однакову форму з будь-якою міткою. Гістограма (наприклад, стовбур) може дати вам форму даних, центр та розкид даних.
Відносна частота дорівнює частоті для спостережуваного значення даних, поділеного на загальну кількість значень даних у вибірці. (Пам'ятайте, частота визначається як кількість разів, коли виникає відповідь.) Якщо:
- f= частота
- n= загальна кількість значень даних (або сума окремих частот), і
- RF= відносна частота,
потім:
\ [\ RF=\ frac {f} {n}\ nonnumber]
Наприклад, якщо троє учнів у класі англійської мови пана Ахаба з 40 студентів отримали від 90% до 100%, тоf=3,n=40,, іRF=fn=340=0.075. 7,5% учнів отримали 90— 100%. 90— 100% - кількісні показники.
Щоб побудувати гістограму, спочатку визначте, скільки барів або інтервалів, які також називаються класами, представляють дані. Багато гістограми складаються з п'яти-15 барів або класів для наочності. Кількість брусків потрібно вибирати. Виберіть початкову точку, щоб перший інтервал був менше найменшого значення даних. Зручна відправна точка - це менша величина, винесена на один десятковий розряд більше, ніж значення з найбільшою кількістю десяткових знаків. Наприклад, якщо значення з найбільшою кількістю десяткових знаків дорівнює 6,1 і це найменша величина, зручною відправною точкою буде 6,05 (6,1 — 0,05 = 6,05). Ми говоримо, що 6.05 має більшу точність. Якщо значення з найбільшою кількістю десяткових знаків дорівнює 2,23, а найменше - 1,5, зручною відправною точкою буде 1,495 (1,5 — 0,005 = 1,495). Якщо значення з найбільшою кількістю десяткових розрядів дорівнює 3,234, а найменше - 1,0, зручною відправною точкою буде 0,9995 (1,0 — 0,0005 = 0,9995). Якщо всі дані виявляються цілими числами, а найменше значення - два, то зручною відправною точкою буде 1,5 (2 — 0,5 = 1,5). Крім того, коли початкова точка та інші межі переносяться до одного додаткового знака після коми, жодне значення даних не потраплятиме на межу. Наступні два приклади докладно розповідають про те, як побудувати гістограму з використанням безперервних даних і як створити гістограму за допомогою дискретних даних.
Приклад2.1.2.8
Наступні дані - це висоти (в дюймах до найближчої половини дюйма) 100 чоловіків-напівпрофесійних футболістів. Висоти є безперервними даними, так як висота вимірюється.
60; 60.5; 61; 61; 61.5 63.5;
63.5 64; 64; 64; 64;
64; 64; 64; 64; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66;
66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66.5; 66,5; 66,5; 66,5; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67.5; 67.5; 67.5; 67.5; 67.5; 67.5
68; 68; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69.5; 69.5; 69.5; 69.5
; 69.5 70; 70; 70; 70; 70; 70; 70; 70; 70.5; 70.5; 71
; 71; 72; 72.5; 2.5; 73; 73,5
74
Найменше значення даних - 60. Оскільки дані з найбільшою кількістю десяткових знаків мають одну десяткову кому (наприклад, 61,5), ми хочемо, щоб наша початкова точка мала два знака після коми. Так як числа 0,5, 0,05, 0,005 і т.д. є зручними числами, використовуйте 0,05 і відніміть його з 60, найменшого значення, для зручної відправної точки.
60 - 0,05 = 59,95, що є більш точним, ніж, скажімо, 61,5 на один десятковий знак. Тоді відправною точкою є 59,95.
Найбільше значення - 74, тому 74 + 0,05 = 74,05 - кінцеве значення.
Далі обчислюємо ширину кожного бару або інтервал класу. Щоб розрахувати цю ширину, відніміть початкову точку від кінцевого значення і розділіть на кількість брусків (необхідно вибрати потрібну кількість брусків). Припустимо, ви вибрали вісім барів.
74.05−59.958=1.76\non
ПРИМІТКА
Ми округляємо до двох і зробимо кожен бар або інтервал класу двома одиницями шириною. Округлення до двох - це один із способів запобігти падінню значення на межі. Округлення до наступного числа часто необхідно, навіть якщо воно йде врозріз зі стандартними правилами округлення. Для цього прикладу також працюватиме використання 1.76 як ширини. Орієнтир, за яким слідують деякі для ширини бару або інтервалу класу, полягає в тому, щоб взяти квадратний корінь кількості значень даних, а потім округлити до найближчого цілого числа, якщо це необхідно. Наприклад, якщо є 150 значень даних, візьміть квадратний корінь 150 і округляйте до 12 стовпчиків або інтервалів.
Межею є:
- 59,95
- 59,95 + 2 = 61,95
- 61,95 + 2 = 63,95
- 63,95 + 2 = 65,95
- 65,95 + 2 = 67,95
- 67,95 + 2 = 69,95
- 69,95 + 2 = 71,95
- 71,95 + 2 = 73,95
- 73,95 + 2 = 75,95
Висоти від 60 до 61,5 дюймів знаходяться в інтервалі 59,95—61,95. Висоти, які становлять 63,5, знаходяться в інтервалі 61,95—63,95. Висоти, які від 64 до 64,5 знаходяться в інтервалі 63,95—65,95. Висоти від 66 до 67,5 знаходяться в інтервалі 65,95—67,95. Висоти з 68 по 69,5 знаходяться в інтервалі 67,95—69,95. Висоти від 70 до 71 знаходяться в інтервалі 69,95—71,95. Висоти від 72 до 73,5 знаходяться в інтервалі 71,95—73,95. Висота 74 знаходиться в інтервалі 73,95—75,95.
Наступна гістограма відображає висоту на осі x та відносну частоту на осі y.
Вправа2.1.2.8
Наступні дані - розміри взуття 50 студентів-чоловіків. Розміри є безперервними даними, оскільки вимірюється розмір взуття. Побудувати гістограму і обчислити ширину кожного бару або інтервалу класу. Припустимо, ви вибрали шість брусків.
9; 9; 9,5; 10; 10; 10; 10; 10; 10; 10; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11;
11; 11; 11; 11; 11; 11; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5;
11.5; 11.5; 11.5; 11.5;; 12; 12; 12; 12; 12,5; 12.5; 12.5; 12.5; 14
Приклад2.1.2.9
Створіть гістограму для наступних даних: кількість книг, придбаних 50 студентами заочного коледжу ABC College. Кількість книг - це дискретні дані, так як книги підраховуються.
1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1;
2; 2; 2; 2; 2; 2; 2; 3; 3;
3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3;
4; 4; 4; 4; 4; 4; 4;
5; 5; 5; 5;
6;
Одинадцять студентів купують одну книгу. Десять студентів купують дві книги. Шістнадцять учнів купують три книжки. Шість учнів купують чотири книжки. П'ятеро студентів купують п'ять книг. Двоє студентів купують шість книг.
Оскільки дані є цілими числами, відніміть 0.5 з 1, найменше значення даних і додайте 0.5 до 6, найбільше значення даних. Тоді початкова точка дорівнює 0,5, а кінцеве значення - 6,5.
Далі обчислюємо ширину кожного бару або інтервал класу. Якщо дані дискретні і різних значень не дуже багато, то ширина, яка розміщує значення даних посередині бару або інтервалу класів, є найбільш зручною. Так як дані складаються з чисел 1, 2, 3, 4, 5, 6, а початкова точка дорівнює 0,5, ширина одного ставить 1 в середині інтервалу від 0,5 до 1,5, 2 в середині інтервалу від 1,5 до 2,5, 3 в середині інтервалу від 2,5 до 3,5, 4 в середині інтервалу від _____ __ до _______, 5 в середині інтервалу від _______ до _______, і _______ в середині інтервалу від _______ до _______.
Рішення
Розраховують кількість брусків наступним чином:
6.5−0.5number of bars=1
де 1 - ширина бруса. Тому брусків = 6.
Наступна гістограма відображає кількість книг на осі x та частоту на осі y.
Приклад2.1.2.10
Використовуючи цей набір даних, побудувати гістограму.
\ (\ Індекс сторінки {13}\) «>Кількість годин, які мої однокласники проводили за відеоіграми у вихідні дні | ||||
---|---|---|---|---|
9,95 | 10 | 2.25 | 16.75 | 0 |
19.5 | 22.5 | 7.5 | 15 | 12.75 |
5.5 | 11 | 10 | 20.75 | 17.5 |
23 | 21.9 | 24 | 23.75 | 18 |
20 | 15 | 22,9 | 18.8 | 20.5 |
- Відповідь
-
Рішення 2.10
2.1.2Малюнок 7. Деякі значення в цьому наборі даних потрапляють на межі інтервалів класів. Значення підраховується в класовому інтервалі, якщо воно потрапляє на ліву межу, але не якщо воно потрапляє на праву межу. Різні дослідники можуть встановлювати гістограми для одних і тих же даних по-різному. Існує більш ніж один правильний спосіб налаштувати гістограму.
Багатокутники частоти
Частотні полігони аналогічні лінійним графікам, і так само, як лінійні графіки роблять безперервні дані візуально легко інтерпретувати, так само як і частотні полігони.
Щоб побудувати частотний багатокутник, спочатку вивчіть дані та визначте кількість інтервалів, або інтервалів класу, які слід використовувати на осі x та осі y. Після вибору відповідних діапазонів приступайте до побудови точок даних. Після того як всі точки нанесені, проведіть відрізки лінії, щоб з'єднати їх.
Приклад2.1.2.11
Багатокутник частоти був побудований з таблиці частот нижче.
\ (\ Індекс сторінки {14}\) «>Нижня межа | Верхня межа | Частота | Накопичувальна частота |
---|---|---|---|
49.5 | 59,5 | 5 | 5 |
59,5 | 69.5 | 10 | 15 |
69.5 | 79.5 | 30 | 45 |
79.5 | 89.5 | 40 | 85 |
89.5 | 99.5 | 15 | 100 |
Перша мітка на осі x - 44.5. Це являє собою інтервал, що простягається від 39,5 до 49,5. Оскільки найнижчий показник тесту дорівнює 54,5, цей інтервал використовується лише для того, щоб графік стосувався осі x. Точка з позначкою 54,5 представляє наступний інтервал, або перший «реальний» інтервал з таблиці, і містить п'ять балів. Це міркування дотримується для кожного з інших інтервалів з точкою 104,5, що представляє інтервал від 99,5 до 109,5. Знову ж таки, цей інтервал не містить даних і використовується лише для того, щоб графік стосувався осі x. Дивлячись на графік, ми говоримо, що цей розподіл перекошений, оскільки одна сторона графіка не відображає іншу сторону.
Вправа2.1.2.11
Побудувати частотний багатокутник віку президентів США на інавгурації показано в табл2.1.15.
\ (\ Індекс сторінки {15}\) «>Вік на інавгурації | Частота |
---|---|
41.5—46.5 | 4 |
46.5—51.5 | 11 |
51.5—56.5 | 14 |
56.5—61.5 | 9 |
61,5—66,5 | 4 |
66,5—71,5 | 2 |
Частотні полігони корисні для порівняння розподілів. Це досягається шляхом накладання частотних полігонів, намальованих для різних наборів даних.
Приклад2.1.2.12
Ми побудуємо багатокутник частоти накладення, порівнюючи бали з Прикладу2.1.11 з підсумковим числовим оцінкою учнів.
\ (\ Індекс сторінки {16}\) «>Нижня межа | Верхня межа | Частота | Накопичувальна частота |
---|---|---|---|
49.5 | 59,5 | 5 | 5 |
59,5 | 69.5 | 10 | 15 |
69.5 | 79.5 | 30 | 45 |
79.5 | 89.5 | 40 | 85 |
89.5 | 99.5 | 15 | 100 |
Нижня межа | Верхня межа | Частота | Накопичувальна частота |
---|---|---|---|
49.5 | 59,5 | 10 | 10 |
59,5 | 69.5 | 10 | 20 |
69.5 | 79.5 | 30 | 50 |
79.5 | 89.5 | 45 | 95 |
89.5 | 99.5 | 5 | 100 |
Побудова графіка часових рядів
Припустимо, що ми хочемо вивчити температурний діапазон того чи іншого регіону протягом цілого місяця. Кожен день опівдні відзначаємо температуру і записуємо це в журнал. З цими даними можна було б провести різноманітні статистичні дослідження. Ми могли знайти середню або середню температуру за місяць. Ми могли б побудувати гістограму, яка відображає кількість днів, коли температури досягають певного діапазону значень. Однак усі ці методи ігнорують частину даних, які ми зібрали.
Однією з особливостей даних, які ми можемо захотіти розглянути, є час. Оскільки кожна дата поєднується з показаннями температури за день, нам не потрібно думати про дані як про випадкові. Натомість ми можемо використовувати дані часи, щоб накласти хронологічний порядок даних. Графік, який розпізнає цей порядок і відображає зміну температури в міру прогресування місяця, називається графіком часових рядів.
Щоб побудувати графік часових рядів, ми повинні розглянути обидві частини нашого парного набору даних. Почнемо зі стандартної декартової системи координат. Горизонтальна вісь використовується для побудови приросту дати або часу, а вертикальна вісь використовується для побудови значень змінної, яку ми вимірюємо. Роблячи це, ми робимо кожну точку на графіку відповідною датою і виміряної величиною. Точки на графіку зазвичай з'єднуються прямими лініями в тому порядку, в якому вони відбуваються.
Приклад2.1.2.13
Наступні дані показують щорічний індекс споживчих цін щомісяця протягом десяти років. Побудуйте графік часових рядів лише для даних річного індексу споживчих цін.
\ (\ Індекс сторінки {18}\) «>Рік | Січ | лют. | бер. | Квітень | Травень | черв. | Лип |
---|---|---|---|---|---|---|---|
2003 | 181.7 | 183.1 | 184.2 | 183.8 | 183.5 | 183.7 | 183.9 |
2004 | 185.2 | 186.2 | 187.4 | 188.0 | 189.1 | 189,7 | 189.4 |
2005 | 190.7 | 191.8 | 193.3 | 194.6 | 194.4 | 194.5 | 195.4 |
2006 | 198.3 | 198,7 | 199.8 | 201.5 | 202.5 | 202.9 | 203.5 |
2007 | 202.416 | 203.499 | 205.352 | 206.686 | 207.949 | 208.352 | 208.299 |
2008 | 211.080 | 211.693 | 213.528 | 214.823 | 216.632 | 218.815 | 219.964 |
2009 | 211.143 | 212.193 | 212.709 | 213.240 | 213 856 | 215.693 | 215.351 |
2010 | 216.687 | 216.741 | 217.631 | 218.009 | 218.178 | 217.965 | 218.011 |
2011 | 220.223 | 221.309 | 223.467 | 224,906 | 225.964 | 225.722 | 225.922 |
2012 | 226,665 | 227.663 | 229.392 | 230.085 | 229.815 | 229.478 | 229.104 |
Рік | серп. | вер. | Жовт | Лис | Груд | Щорічний |
---|---|---|---|---|---|---|
2003 | 184.6 | 185.2 | 185.0 | 184.5 | 184.3 | 184.0 |
2004 | 189.5 | 189,9 | 190.9 | 191.0 | 190.3 | 188.9 |
2005 | 196.4 | 198.8 | 199.2 | 197.6 | 196.8 | 195.3 |
2006 | 203.9 | 202.9 | 201.8 | 201.5 | 201.8 | 201.6 |
2007 | 207.917 | 208.490 | 208.936 | 210.177 | 210.036 | 207.342 |
2008 | 219.086 | 218.783 | 216.573 | 212.425 | 210.228 | 215.303 |
2009 | 215.834 | 215.969 | 216.177 | 216.330 | 215.949 | 214.537 |
2010 | 218.312 | 218.439 | 218.711 | 218.803 | 219.179 | 218.056 |
2011 | 226.545 | 226.889 | 226.421 | 226.230 | 225.672 | 224,939 |
2012 | 230.379 | 231.407 | 231.317 | 230.221 | 229.601 | 229.594 |
- Відповідь
-
Рішення 2.13
Малюнок2.1.2 1.0
Вправа2.1.2.13
Наступна таблиця є частиною набору даних з www.worldbank.org. Використовуйте таблицю для побудови графіка часових рядів для викидів CO 2 для США.
\ (\ Індекс сторінки {20}\) «>Рік | Україна | Сполучене Королівство | Сполучені Штати |
---|---|---|---|
2003 | 352 259 | 540 640 | 5 681 664 |
2004 | 343 121 | 540 409 | 5 790 761 |
2005 | 339 029 | 541 990 | 5 826 394 |
2006 | 327 797 | 542 045 | 5 737 615 |
2007 | 328 357 | 528 631 | 5 828 697 |
2008 | 323 657 | 522 247 | 5 656 839 |
2009 | 272 176 | 474 579 | 5 299 563 |
Використання графіка часових рядів
Графіки часових рядів є важливими інструментами в різних додатках статистики. При запису значень однієї і тієї ж змінної протягом тривалого періоду часу іноді важко розрізнити будь-яку тенденцію або закономірність. Однак, як тільки ті ж точки даних відображаються графічно, деякі функції вискакують. Графіки часових рядів дозволяють легко помітити тенденції.
Як не брехати зі статистикою
Важливо пам'ятати, що сама причина, по якій ми розробляємо різноманітні методи представлення даних, полягає в тому, щоб розробити уявлення про предмет того, що представляють спостереження. Ми хочемо отримати «відчуття» даних. Чи всі спостереження дуже схожі, або вони поширюються по широкому діапазону значень, вони згруповані на одному кінці спектра або вони розподілені рівномірно і так далі. Ми намагаємося отримати наочну картину числових даних. Незабаром ми розробимо формальні математичні заходи даних, але наше візуальне графічне уявлення може сказати багато про що. Це, на жаль, також може сказати багато, що відволікає, заплутано і просто неправильно з точки зору враження, яке залишає візуальний. Багато років тому Даррелл Хафф написав книгу «Як брехати зі статистикою». Він пройшов 25 плюс друків і продано понад півтора мільйона примірників. Його перспектива була суворою і використовувала багато реальних прикладів, які були покликані ввести в оману. Він хотів, щоб люди знали про такий обман, але, можливо, важливіше виховувати, щоб інші ненароком не допускали однакових помилок.
Знову ж таки, мета полягає в тому, щоб просвітити візуальні ефекти, які розповідають історію даних. Кругові діаграми мають ряд загальних проблем, коли використовуються для передачі повідомлення даних. Занадто багато шматочків пирога переповнюють читача. Більше, ніж, можливо, п'ять-шість категорій повинні дати уявлення про відносну важливість кожного твору. Це врешті-решт мета кругової діаграми, яка підмножина має найбільше значення щодо інших. Якщо є більше компонентів, ніж це, то, можливо, альтернативний підхід був би кращим або, можливо, деякі можуть бути об'єднані в категорію «інша». Кругові діаграми не можуть відображати зміни з часом, хоча ми бачимо цю спробу занадто часто. У федеральних, державних та міських фінансових документах часто представлені кругові діаграми, щоб показати компоненти доходів, доступних керівному органу для присвоєння: податок на прибуток, податок з продажів, податки на транспортні засоби тощо. Сама по собі це цікава інформація і може бути красиво зроблено за допомогою кругової діаграми. Помилка виникає, коли два роки встановлені пліч-о-пліч. Оскільки загальні доходи змінюються з року в рік, але розмір пирога фіксований, реальної інформації не надається і відносний розмір кожного шматка пирога не може бути осмислено порівнювати.
Гістограми можуть бути дуже корисними для розуміння даних. Правильно представлені, вони можуть бути швидким візуальним способом представити ймовірності різних категорій простим візуальним порівнянням відносних областей у кожній категорії. Тут помилка, цілеспрямована чи ні, полягає в варіюванні ширини категорій. Це, звичайно, робить порівняння з іншими категоріями неможливим. Це прикрашає важливість категорії з розширеною шириною, оскільки вона має більшу площу, недоречно, і, таким чином, візуально «говорить», що ця категорія має більшу ймовірність виникнення.
Графіки часових рядів, мабуть, є найбільш зловживаними. Графік деякої змінної протягом часу ніколи не повинен бути представлений на осях, які змінюють шлях частини сторінки або у вертикальному або горизонтальному вимірі. Можливо, часові рамки змінюються від років до місяців. Можливо, це для економії місця або тому, що щомісячні дані були недоступні протягом перших років. У будь-якому випадку це ставить в тупик уявлення і знищує будь-яке значення графіка. Якщо це зробити не для того, щоб цілеспрямовано заплутати читача, то це, безумовно, або лінива, або неакуратна робота.
Зміна одиниць виміру осі може згладити падіння або акцентувати одну. Якщо ви хочете показати великі зміни, то вимірюйте змінну в невеликих одиницях, копійки, а не в тисячах доларів. І звичайно, щоб продовжити шахрайство, будьте впевнені, що вісь починається не з нуля, нуля. Якщо вона починається з нуля, нуля, то стає очевидним, що віссю маніпулювали.
Можливо, у вас є клієнт, який стурбований волатильністю портфеля, яким ви керуєте. Простий спосіб представити дані полягає у використанні тривалих періодів часу на графіку часових рядів. Використовуйте місяці або краще, квартали, а не щоденні або щотижневі дані. Якщо це не знижує волатильність, то розподіліть вісь часу відносно швидкості прибутковості або осі оцінки портфеля. Якщо ви хочете показати «швидке» різке зростання, то зменшіть часову вісь. Будь-яке позитивне зростання покаже візуально «високі» темпи зростання. Зверніть увагу, що якщо зростання буде негативним, то цей трюк покаже, що портфель руйнується з різкою швидкістю.
Знову ж таки, мета описової статистики полягає в тому, щоб передати змістовні візуальні ефекти, які розповідають історію даних. Цілеспрямована маніпуляція - це шахрайство і неетично в гіршому випадку, але навіть в кращому випадку внесення такого роду помилок призведе до плутанини з боку аналізу.