9.1: Графічне представлення категоріальних даних
- Page ID
- 66292
Категоричні, або якісні, дані - це фрагменти інформації, які дозволяють класифікувати досліджувані об'єкти за різними категоріями. Ми зазвичай починаємо роботу з категоріальними даними, узагальнюючи дані в частотну таблицю.
Таблиця частот - це таблиця з двома стовпцями. В одному стовпці наведено категорії, а в іншому - частоти, з якими зустрічаються елементи в категоріях (скільки елементів вписується в кожну категорію).
Страхова компанія визначає страхові внески транспортних засобів на основі відомих факторів ризику. Якщо людина вважається більш високим ризиком, то їх премії будуть вище. Одним з потенційних факторів є колір вашого автомобіля. Страхова компанія вважає, що люди з якимись кольоровими автомобілями частіше потрапляють в аварії. Щоб дослідити це, вони вивчають поліцейські звіти щодо недавніх зіткнень із загальною втратою. Дані зведені в таблиці частот нижче.
Колір | Частота |
Синій | 25 |
Зелений | 52 |
Червоний | 41 |
Білий | 36 |
Чорний | 39 |
Сірий | 23 |
Іноді нам потрібен ще більш інтуїтивний спосіб відображення даних. Тут з'являються діаграми та графіки. Існує багато, багато способів відображення даних графічно, але ми зосередимося на одному дуже корисному типі графіка, який називається гістограма. У цьому розділі ми будемо працювати з гістограмами, які відображають категоріальні дані; наступний розділ буде присвячений графікам, які відображають кількісні дані.
Гістограма - це графік, який відображає смугу для кожної категорії з довжиною кожного стовпчика, що вказує на частоту цієї категорії.
Зверніть увагу, гістограма використовується лише для відображення категоричних даних.
Щоб побудувати гістограму, нам потрібно намалювати вертикальну вісь і горизонтальну вісь. Вертикальний напрямок матиме масштаб і вимірює частоту кожної категорії; горизонтальна вісь не має масштабу в даному випадку, а лише назви кожної категорії. Побудова гістограми найпростіше описати на прикладі.
Використовуючи наші дані автомобіля зверху, зверніть увагу, що найвища частота 52, тому наша вертикальна вісь повинна йти від 0 до 52, але ми могли б також використовувати від 0 до 55, так що ми можемо поставити хеш-позначку кожні 5 одиниць:
Зверніть увагу, що висота кожної планки визначається частотою відповідного кольору. Горизонтальні лінії сітки - приємний штрих, але не обов'язково. На практиці вам буде корисно малювати гістограми за допомогою графічного паперу, тому лінії сітки вже будуть на місці, або за допомогою технології. Замість ліній сітки ми можемо також перерахувати частоти у верхній частині кожної смуги, як це:
У цьому випадку наша діаграма може отримати вигоду від переупорядкування від найбільших до найменших значень частоти. Таке розташування може полегшити порівняння аналогічних значень на графіку, навіть без ліній сітки. Коли ми організовуємо категорії в порядку зменшення частоти, як це, це називається діаграмою Парето.
Діаграма Парето - це гістограма, впорядкована від найвищої до найнижчої частоти.
Перетворюючи нашу гістограму з раннього в діаграму Парето, ми отримуємо:
Під час опитування [1] дорослих запитували, чи турбуються вони особисто з приводу різноманітних екологічних проблем. Цифри (з 1012 опитаних), які вказали, що вони «сильно турбуються» про деякі вибрані проблеми, узагальнені нижче.
Екологічна проблема | Частота |
Забруднення питної води | 597 |
Забруднення грунту і води токсичними відходами | 526 |
Забруднення повітря | 455 |
Глобальне потепління | 354 |
Ці дані можуть бути показані графічно на гістограмі:
Щоб показати відносні розміри, зазвичай використовується кругова діаграма.
Кругова діаграма - це коло з клинами, вирізаними різного розміру, позначені як скибочки пирога або піци. Відносні розміри клинів відповідають відносним частотам категорій.
Для даних кольорів нашого автомобіля кругова діаграма може виглядати наступним чином:
Кругові діаграми часто можуть отримати вигоду від включення частот або відносних частот (відсотків) у діаграмі поруч із круговими фрагментами. Часто наявність назв категорій поруч із фрагментами пирога також робить діаграму чіткішою.
Кругова діаграма праворуч показує відсоток виборців, які підтримують кожного кандидата, який балотується на місцеве місце в сенаті.
Якщо в окрузі є 20 000 виборців, кругова діаграма показує, що близько 11% з них, близько 2200 виборців, підтримують Рівза.
Кругові діаграми виглядають добре, але їх важче намалювати вручну, ніж гістограми, оскільки, щоб намалювати їх точно, нам потрібно буде обчислити кут, який кожен клин вирізає з кола, а потім виміряти кут за допомогою транспортира. Комп'ютери набагато краще підходять для малювання кругових діаграм. Загальні програмні програми, такі як Microsoft Word або Excel, OpenOffice.org Write або Calc або Google Docs, здатні створювати гістограми, кругові діаграми та інші типи графіків. Існують також численні онлайн-інструменти, які можуть створювати графіки [2].
Створіть гістограму та кругову діаграму, щоб проілюструвати оцінки на іспиті з історії нижче.
A: 12 студентів,
Б: 19 студентів,
C: 14 студентів,
Д: 4 студенти,
F: 5 студентів
Не отримуйте фантазії з графіками! Люди іноді додають до графіків функції, які не допомагають передати їх інформацію. Наприклад, тривимірні гістограми, подібні до наведеної нижче, зазвичай не настільки ефективні, як їх двовимірні аналоги.
Ось ще один спосіб, яким химерність може привести до неприємностей. Замість простих барів спокусливо замінити значущі зображення. Цей тип графіка називається піктограмою.
Піктограма - це статистична графіка, в якій розмір зображення призначений для представлення частот або розміру значень, що представляються.
Профспілка може скласти графік праворуч, щоб показати різницю між середньою заробітною платою керівника та середньою заробітною платою працівника.
Дивлячись на картину, розумно було б здогадатися, що зарплата менеджера в 4 рази більше зарплати працівника — площа сумки виглядає приблизно в 4 рази більше. Однак зарплати керівника насправді лише вдвічі більші, ніж зарплати робітників, що відбилося на картині, зробивши сумку менеджера вдвічі вище.
Інше спотворення на гістограмах виникає внаслідок встановлення базової лінії на значення, відмінне від нуля. Базова лінія - це нижня частина вертикальної осі, що представляє найменшу кількість випадків, які могли статися в категорії. У нормі це число має дорівнювати нулю.
Порівняйте два графіки нижче, що показують підтримку прав одностатевих шлюбів з опитування, проведеного в грудні 2008 року [3]. Різниця у вертикальній шкалі на першому графіку свідчить про іншу історію, ніж справжня відмінність у відсотках; другий графік робить його схожим на вдвічі більше людей проти шлюбних прав, ніж підтримують його.
Було проведено опитування, запитуючи людей, чи згодні вони з позиціями 4 кандидатів в окружну канцелярію. Чи дає кругова діаграма гарне уявлення цих даних? Поясніть.