Skip to main content
LibreTexts - Ukrayinska

8.2: Отримання сенсу даних

  • Page ID
    86284
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Цілі навчання

    До кінця цього розділу ви зможете:

    • Визначте різні типи графіків
    • Поясніть міри центральної тенденції, включаючи режим, медіану та середню
    • Зрозумійте заходи дисперсії, включаючи відхилення, дисперсію та стандартне відхилення

    У дослідженнях політології деякі вчені в першу чергу зацікавлені в описі світу, а інші зацікавлені в поясненні того чи іншого явища в світі. Іншими словами, дослідження політології передбачає подвійні цілі опису та пояснення. Важливо відзначити, що ремесло опису і пояснення носять інтерактивний характер, і вони часто підживлюються один одному. Однак у більшості випадків ми спочатку повинні щось знати про світ, перш ніж приступати до завдання пояснити щось, що відбувається в цьому світі. У цьому розділі ми розглянемо різні методи узагальнення даних.

    Незалежно від того, чи збирають вихідні дані або компілюють набір даних на основі існуючих джерел даних, першим кроком є організація необроблених даних у більш керований формат. Johnson, Reynolds та Mycoff (2020) пропонують спочатку перетворити необроблені дані в матрицю даних, де кожен рядок представляє унікальний запис, а кожен стовпець представляє різні змінні (див. Таблицю 8-2). Хоча такий формат організації даних дозволяє дослідникам чітко бачити інформацію про кожне спостереження і порівнювати кілька спостережень, він не є найбільш підходящим форматом для узагальнення даних, щоб дослідник міг зрозуміти загальну інформацію про світ, який її цікавить. Отже, який правильний формат подання числових даних для опису інформації, яка цікавить дослідника? Все залежить від рівня вимірювання змінних (тобто номінального, порядкового, інтервалу та співвідношення), які включає ваш набір даних.

    Таблиця 8.1
    Графство Рівень безробіття Тривалість життя Середня висока температура (за Цельсієм) Найпоширеніша мова

    Бельгія

    7 81 6 Голландська
    Франція 10 82 7 Французький
    Ірландія 6 81 8 Англійська мова
    Люксембург 6 82 2 люксембурзька
    Монако 2 89 13 Французький
    Нідерланди 5 81 6 Голландська
    Сполучене Королівство 4 81 8 Англійська мова

    Важливо відзначити, що представлення даних в табличному форматі саме по собі не було недоліками таблиці 8-2. Саме тип інформації, включеної в таблицю, був проблемою тут, в меті таблиці було представити зведену інформацію про спостережувані дані тут. Часто ми називаємо це описовою статистикою, або числовим представленням певних характеристик і властивостей всіх зібраних даних. Мета таблиці описової статистики полягає в тому, щоб просто представити числа, які описують випадки, або що основні особливості даних при дослідженні. Погляньте на таблицю 8-3 нижче. Це приклад частотної таблиці, яка включає частоту, пропорцію, відсоток і сукупний відсоток конкретного спостереження. Навіть в цій таблиці деякі більш корисні з точки зору розуміння одного конкретного спостереження щодо решти в світі, яке зацікавлене в описі і поясненні. Пропорція і відсоток (міри відносної частоти) дозволяють нам легко проводити порівняння між різними спостереженнями однієї і тієї ж змінної.

    Таблиця 8.2: Частотний розподіл: аеропорт у країнах Західної Європи
    Графство Частота Пропорція Відсоток Накопичувальний відсоток
    Бельгія 41 0,04 4 4
    Франція 464 0,45 45 49
    Ірландія 40 0,04 4 53
    Люксембург 2 0.00 0 53
    Монако 0 0.00 0 53
    Нідерланди 29 0,03 3 56
    Сполучене Королівство 460 0,44 44 100
    Всього 1036 1.00 100

    Джерело: Джонсон, Рейнольдс і Мікофф (2015) 020)

    Частотний розподіл для кількісної змінної може бути представлений у форматі графіка, який називається гістограмою. Це тип графіка, тут висота і площа смуг пропорційні частотам в кожній категорії змінної. Гістограма може бути використана для змінної інтервалу або співвідношення з відносно великою кількістю випадків. Для категоріальних змінних (порядкових або номінальних) дослідник може відображати дату аналогічним чином за допомогою гістограми. Гістограма - це візуальне представлення даних, зазвичай малюється за допомогою прямокутних смуг, щоб показати, наскільки значним є кожне значення. Бруси можуть бути вертикальними або горизонтальними. Враховуючи характер порядкових або номінальних даних, гістограма має справу з набагато меншою кількістю категорій, ніж його двоюрідний брат гістограми, який займається даними інтервалу або співвідношення.

    Знімок екрана 2020-11-16 в 2.00.13 PM.png

    Якщо дослідник зацікавлений у представленні зв'язку між двома змінними в графічному форматі, розсіювач буде відмінним вибором. Ця форма графіка використовує декартові координати (тобто площину, яка складається з осі x та осі y) для відображення значень двох змінних з набору даних, щоб відобразити, як одна змінна може впливати на іншу змінну.

    Знімок екрана 2020-11-16 в 2.00.31 PM.png

    Соціальні науковці, загалом, і політологи і економісти часто цікавляться тенденцією змінної з плином часу. Графік часових рядів може бути використаний для відображення змін у значеннях змінної, виміряної в іншій точці історії. Для цього графіка вісь x представляє змінну часу (наприклад, місяці, рік тощо), а вісь y - змінну, що цікавить. На відміну від розсіювача, кожна точка (спостереження) пов'язана один з одним для відображення змін значення цікавить змінної. Ми можемо, наприклад, відобразити кількість запропонованих конституційних змін у Сполучених Штатах з моменту його знаходження або кількість жінок у Конгресі США протягом багатьох років. Для останнього прикладу ми можемо використовувати дві лінії, щоб розрізнити присутність представниць жіночої статі в Палаті представників та Сенаті, використовуючи дві окремі рядки на одній графічній площині.

    Знімок екрана 2020-11-16 о 3.03.46 PM.png

    Як уже згадувалося вище, дослідники можуть описувати дані, спираючись на описову статистику. Описова статистика - це числове уявлення тих чи інших характеристик і властивостей всіх зібраних даних. Однією з основних цілей описової статистики є «вивчення даних і зведення їх до більш простих і зрозумілих термінів, не спотворюючи і не втрачаючи значної частини наявної інформації». (Агресті і Фінлі 1997). Найбільш часто використовувана описова статистика - це інформація, яка знаходить центр або середину розподілу даних і інформація про те, як розподіляються дані щодо розташованого центру.

    Міри центральної тенденції - моду, медіану і середню - розташовують центр розподілу того чи іншого набору даних. Іншими словами, міра центральної тенденції визначає «найбільш типовий випадок» у цьому розподілі даних. По-перше, режим - це категорія з найбільшою частотою. По-друге, медіана - це точка в розподілі, яка розділяє спостереження на дві рівні частини. Це середня точка розподілу даних, коли спостереження впорядковуються за їх числовими значеннями. Якщо в даних є непарні числа спостережень, то одиничне вимірювання посередині є медіаною. У разі парних чисел спостережень середнє значення двох середніх вимірювань є медіаною. Нарешті, середнє або середнє - це, мабуть, найпоширеніший спосіб ідентифікації центру розподілу. Вона являє собою суму спостережуваної величини кожного предмета, поділену на кількість суб'єктів. Вона може бути виражена більш формально:

    \[Y_underbar = \dfrac{ΣY_i}{n} \label{8.1}\]

    де\(Y_underbar\) являє собою середнє значення (середнє значення),\(Σ\) засоби\(Y_1 + Y_2 + ... Y_n\) (\(Y\)s) - вимірювання кожного спостереження і\(n\) являє собою кількість спостережень. Наприклад, якщо є 5 студентів з проміжними балами іспиту 80, 77, 91, 62 та 85, n = 5, і = 395 (додайте всі бали тесту). Середній бал для цього проміжного іспиту становить 395÷5, що становить 79.

    На додаток до заходів центральних тенденцій, дослідники часто покладаються на міру мінливості даних, щоб повністю зрозуміти дані, які використовуються в своїх дослідженнях. Мабуть, найпростішим вимірюванням варіації даних є діапазон. Діапазон - це різниця в значенні між максимальним і мінімальним значенням. Наприклад, якщо найвищий середньостроковий бал тесту для класу становив 100, а найнижчий бал - 70, діапазон для цього конкретного набору даних становить 100 - 70 = 30. Ще одне пов'язане вимірювання мінливості називається інтерквартильним діапазоном або IQR. IQR - це різниця між 75-м процентилем (де 75% значень розташовані під цією точкою) та 25-м процентилем (де 25% спостережень знаходяться нижче цієї точки). Іншими словами, IQR - це діапазон, де максимальні значення це третій квартиль (Q3), а мінімальні значення - перший квартиль (Q1). Це вимірювання говорить нам, як розповсюджуються середні 50% спостережень. Деякі вчені використовують boxplot для графічного відображення, квартилей і медіани

    Іншим способом вимірювання дисперсії даних є вивчення того, наскільки віддалені включені спостереження від середнього. Відстань спостереження від середнього називається відхиленням. Дисперсія просто визначається як середнє квадратне відхилення. Щоб обчислити дисперсію, ви спочатку вимірюєте відстань кожного спостереження від середнього і квадратуєте їх. Складіть всі квадратні відхилення і розділіть його на кількість спостережень (для дисперсії популяції) або розділіть на кількість спостережень мінус одиниця (для дисперсії вибірки). Позначимо дисперсію за допомогою σ 2 (вимовляється сигма в квадраті).

    Дисперсія населення:

    \[σ^2 = \dfrac{Σ(Y_i - μ)^2}{N} \label{8.2}\]

    Зразок дисперсії:

    \[σ^2= \dfrac{ΣY_i Y_underbar}{n-1} \label{8.3}\]

    У Equation\ ref {8.2}, μ (виражений mu) є середнім (або середнім) популяції змінної\(Y\) і\(Y_i\) представляє кожне спостереження. Рівняння дещо відрізняється для дисперсії вибірки (Equation\ ref {8.3}). Робити це вручну досить утомливо для даних з великою сукупністю або вибіркою. В результаті багато дослідників покладаються на різне програмне забезпечення для статистичного аналізу або електронні таблиці, такі як Excel.

    Стандартне відхилення - квадратний корінь дисперсії. Він являє собою типове відхилення спостереження на відміну від середньої відстані в квадраті від середнього.

    Дисперсія населення:

    \[σ^2 = \dfrac{Σ(Y_i - μ)^2}{N} \label{8.4}\]

    Зразок дисперсії:

    \[σ^2= \dfrac{ΣY_i Y_underbar}{n-1} \label{8.5}\]

    Стандартне відхилення корисно при подальшій інтерпретації наявних даних. Як правило, близько 68% спостережень потрапляють в межах першого відхилення від середнього. Що це означає? Що ж, розглянемо наступний приклад. Ваш професор політології говорить вам, що середній/середній бал для іспиту, який ви щойно склали, склав 85 зі стандартним відхиленням 5. Це означає, що бали 68% учнів падають між 80 - середнє значення 85 мінус стандартне відхилення 5 - і 90 - середнє 85 плюс стандартне відхилення 5. Важливо відзначити, що спостереження відхиляється від середнього як в позитивному, так і в негативному напрямку.

    Знімок екрана 2020-11-16 в 3.16.49 PM.png

    Як показує малюнок 8.1, близько 95% даних припадає на друге стандартне відхилення. Це означає, що 95% балів іспиту повинні потрапляти між 75 і 95. Отже, якщо ви набрали 96 на цьому іспиті, що ми можемо сказати про ваш рахунок? Ну, ви могли б сказати, що ви зробили дуже добре, оскільки ваш рахунок перевищує друге відхилення, а це означає, що є лише менше 5% людей, які набрали вище, ніж ви. По-іншому кажучи, є близько 95% ваших однолітків, які набрали нижче вашого балу.

    У наступному розділі ми будемо спиратися на зміст цього розділу і досліджувати засоби тестування відносин.