2.1: Графік якісних змінних
- Page ID
- 98145
Цілі навчання
- Створіть таблицю частот
- Визначте, коли кругові діаграми цінні, а коли ні
- Створення та інтерпретація гістограм
- Визначте поширені графічні помилки
Коли Apple Computer представила комп'ютер iMac в серпні\(1998\), компанія хотіла дізнатися, чи розширює iMac частку ринку Apple. Чи був iMac просто залучати попередніх власників Macintosh? Або його придбали новачки на ринку комп'ютерів і попередні користувачі Windows, які переключалися? Щоб дізнатися, клієнти\(500\) iMac були опитані. Кожен клієнт був класифікований як попередній власник Macintosh, попередній власник Windows або новий покупець комп'ютера.
У цьому розділі розглядаються графічні методи відображення результатів інтерв'ю. Ми дізнаємося деякі загальні уроки про те, як графувати дані, які потрапляють в невелику кількість категорій. У більш пізньому розділі буде розглянуто, як графувати числові дані, в яких кожне спостереження представлено числом в деякому діапазоні. Ключовим моментом щодо якісних даних, які займають нас у цьому розділі, є те, що вони не надходять із заздалегідь встановленим порядком (спосіб впорядкування номерів). Наприклад, немає природного сенсу, в якому категорія попередніх користувачів Windows приходить до або після категорії попередніх користувачів Macintosh. Така ситуація може контрастувати з кількісними даними, такими як вага людини. Люди однієї ваги природно замовляються по відношенню до людей різної ваги.
Таблиці частот
Всі графічні методи, наведені в цьому розділі, походять від частотних таблиць. Таблиця\(\PageIndex{1}\) показує частотну таблицю для результатів дослідження iMac; вона показує частоти різних категорій відгуку. Він також показує відносні частоти, які є часткою відповідей у кожній категорії. Наприклад, відносна частота для «none» дорівнює\(85/500 = 0.17\).
| Попередня власність | Частота | Відносна частота |
|---|---|---|
| Жоден | 85 | 0,17 |
| Вікна | 60 | 0,12 |
| Macintosh | 355 | 0,71 |
| Всього | 500 | 1.00 |
Кругові діаграми
Кругова діаграма на малюнку\(\PageIndex{1}\) показує результати дослідження iMac. У круговій діаграмі кожна категорія представлена шматочком пирога. Площа зрізу пропорційна процентному співвідношенню відповідей у категорії. Це просто відносна частота, помножена на\(100\). Хоча більшість покупців iMac були власниками Macintosh, Apple заохочувалася покупцями, які були колишніми користувачами Windows, і покупцями, які купували комп'ютер вперше.\(12\%\)\(17\%\)

Кругові діаграми ефективні для відображення відносних частот невеликої кількості категорій. Вони не рекомендуються, однак, коли у вас велика кількість категорій. Кругові діаграми також можуть бути заплутаними, коли вони використовуються для порівняння результатів двох різних опитувань або експериментів. У впливовій книзі про використання графіків Едвард Тафте стверджував: «Єдиний гірший дизайн, ніж кругова діаграма, - це кілька з них».
Ось ще один важливий момент щодо кругових діаграм. Якщо вони засновані на невеликій кількості спостережень, може ввести в оману маркування шматочків пирога відсотками. Наприклад, якби просто\(5\) люди були опитані Apple Computers, і\(3\) були колишніми користувачами Windows, було б оманливим відображати кругову діаграму з показом фрагмента Windows\(60\%\). Оскільки так мало опитаних людей, такий великий відсоток користувачів Windows міг би легко статися, оскільки випадковість може спричинити великі помилки з невеликими зразками. В цьому випадку краще попередити користувача кругової діаграми про фактичні задіяні цифри. Тому фрагменти повинні бути позначені фактичними частотами, що спостерігаються (наприклад,\(3\)), а не відсотками.
Гістограми
Гістограми також можуть бути використані для представлення частот різних категорій. Гістограма закупівель iMac показана на малюнку\(\PageIndex{2}\). Частоти відображаються на\(Y\) -осі, а тип комп'ютера, який раніше володів, відображається на\(X\) -осі. Як правило,\(Y\) -вісь показує кількість спостережень у кожній категорії, а не відсоток спостережень, як це характерно для кругових діаграм.

Порівняння дистрибутивів
Часто нам потрібно порівнювати результати різних опитувань або різних умов в рамках одного і того ж загального опитування. У цьому випадку ми порівнюємо «розподіли» відповідей між опитуваннями або умовами. Гістограми часто є чудовими для ілюстрації відмінностей між двома розподілами. \(\PageIndex{3}\)На малюнку показано кількість людей, які грають у карткові ігри на веб-сайті Yahoo у неділю та в середу навесні\(2001\). Ми бачимо, що в середу було більше гравців порівняно з неділею. Кількість людей, які грають Пінохль, тим не менш, була однаковою в ці два дні. На відміну від цього, у середу було приблизно вдвічі більше людей, які грали серця, ніж у неділю. Такі факти чітко випливають із добре розробленої гістограми.

Бруски на малюнку\(\PageIndex{3}\) орієнтовані горизонтально, а не вертикально. Горизонтальний формат корисний, коли у вас багато категорій, оскільки для міток категорій є більше місця. Ми будемо мати більше сказати про гістограми, коли ми розглянемо числові величини пізніше в розділі Гістограми.
Деякі графічні помилки, яких слід уникати
Не отримуйте фантазії! Люди іноді додають до графіків функції, які не допомагають передати їх інформацію. Наприклад,\(3\) -мірні гістограми, такі як показана на малюнку\(\PageIndex{4}\), зазвичай не настільки ефективні, як їх двовимірні аналоги.

Ось ще один спосіб, яким химерність може привести до неприємностей. Замість простих барів спокусливо підставити значущі зображення. Наприклад, на малюнку\(\PageIndex{5}\) представлені дані iMac за допомогою зображень комп'ютерів. Висоти картинок точно відображають кількість покупців, але малюнок вводить в\(\PageIndex{5}\) оману, оскільки увага глядача буде захоплена зонами. Області можуть перебільшувати відмінності в розмірах між групами. У процентному співвідношенні відношення попередніх власників Macintosh до попередніх власників Windows ось-ось\(6\) до\(1\). Але співвідношення двох областей на малюнку\(\PageIndex{5}\) ось-ось\(35\) до\(1\). Упереджена людина, яка бажає приховати той факт, що багато власників Windows придбали iMac, буде спокуса використовувати Figure\(\PageIndex{5}\) замість Figure\(\PageIndex{2}\)! Едвард Туфте придумав термін «фактор брехні» для позначення співвідношення розміру ефекту, показаного на графіку, до розміру ефекту, показаного в даних. Він припускає, що фактори брехні більше\(1.05\) або менше, ніж\(0.95\) виробляють неприйнятні спотворення.

Інше спотворення на гістограмах виникає внаслідок встановлення базової лінії на значення, відмінне від нуля. Базова лінія - це нижня частина\(Y\) -осі, що представляє найменшу кількість випадків, які могли статися в категорії. У нормі, але не завжди, це число має дорівнювати нулю. \(\PageIndex{6}\)На малюнку показані дані iMac з базовою лінією\(50\). Знову ж таки, відмінності в областях говорять про іншу історію, ніж справжні відмінності у відсотках. Відсоток Windows-комутаторів здається незначним порівняно з його істинним значенням\(12\%\).

Нарешті, зауважимо, що використання лінійного графіка є серйозною помилкою, коли\(X\) -вісь містить лише якісні змінні. Лінійний графік - це, по суті, гістограма з вершинами барів, представленими точками, з'єднаними лініями (решта бар пригнічується). Малюнок\(\PageIndex{7}\) неналежним чином показує лінійний графік даних карткових ігор від Yahoo. Недоліком Figure\(\PageIndex{7}\) є те, що він створює помилкове враження, що ігри природно впорядковані числовим способом, коли насправді вони впорядковані в алфавітному порядку.

Малюнок\(\PageIndex{7}\): Лінійний графік, який використовується неналежним чином для зображення кількості людей, які грають у різні карткові ігри в неділю та середу.
Резюме
Кругові діаграми та гістограми можуть бути ефективними методами зображення якісних даних. Гістограми краще, коли є більше, ніж кілька категорій і для порівняння двох або більше розподілів. Будьте обережні, щоб уникнути створення оманливих графіків.
