Skip to main content
LibreTexts - Ukrayinska

4.2: Використання R для узагальнення даних

  • Page ID
    17598
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)

    Однією з сильних сторін R є його пакет Stats, який забезпечує доступ до багатого набору інструментів для аналізу даних. Пакет є частиною базової установки R і доступний кожного разу, коли ви використовуєте R без необхідності використовувати бібліотеку (), щоб зробити його доступним. Майже всі статистичні функції, які ми будемо використовувати в цьому підручнику, включені в пакет Stats.

    Введення ваших даних в R

    У цьому розділі використовуються дані M&M, наведені в таблиці 1 глави 3.1. Ви можете завантажити копію даних у вигляді таблиці.csv за цим посиланням. Перш ніж ми зможемо узагальнити наші дані, нам потрібно зробити їх доступними для R. Код нижче використовує функцію read.csv для читання даних з файлу MandM.csv () як кадр даних. Текст "MandM.csv" передбачає, що файл знаходиться у вашій робочій директорії.

    мм_даних = read.csv (» MandM.csv «)

    Знаходження центральної тенденції використання даних R

    Щоб повідомити про середнє значення набору даних, ми використовуємо функцію mean (x), де x - об'єкт, який містить наші дані, як правило, вектор або один стовпець з кадру даних. Важливим аргументом цього, і для багатьох інших функцій, є те, як обробляти відсутні або значення NA. За замовчуванням їх зберігати, що призводить до помилки при спробі обчислити середнє значення. Це розумний за замовчуванням, оскільки він вимагає від нас записати відсутні значення та встановити na.rm = TRUE, якщо ми хочемо видалити їх з розрахунку. Оскільки наш вектор даних не пропускає жодних значень, нам не потрібно включати na.rm = TRUE тут, але ми робимо це, щоб проілюструвати його важливість.

    середнє (мм_дані$ нетто_вага, na.rm = ІСТИНА)

    [1] 48.9803

    Щоб повідомити про медіану набору даних, ми використовуємо функцію mediana (x), де x - об'єкт, який містить наші дані, як правило, вектор або один стовпець з кадру даних.

    медіана (мм_дані$ нетто_вага, na.rm = ІСТИНА)

    [1] 48.7345

    Пошук поширення даних за допомогою R

    Щоб повідомити про дисперсію набору даних, ми використовуємо функцію var (x), де x - об'єкт, який містить наші дані, як правило, вектор або один стовпець з кадру даних.

    var (мм_дані$ нетто_вага, na.rm = ІСТИНА)

    [1] 2.052068

    Щоб повідомити про стандартне відхилення, ми використовуємо функцію sd (x), де x - об'єкт, який містить наші дані, як правило, вектор або один стовпець з кадру даних.

    sd (мм_дані$ нетто_вага, na.rm = ІСТИНА)

    [1] 1.432504

    Щоб повідомити про діапазон, ми повинні бути творчими, оскільки функція R range () безпосередньо не повідомляє про діапазон. Натомість він повертає мінімум як перше значення, а максимум - як друге значення, яке ми можемо витягти за допомогою оператора дужки, а потім використовувати для обчислення діапазону.

    діапазон (мм_дані$ нетто_вага, na.rm = ІСТИНА) [2] - діапазон (мм_дані$ нет_вага, na.rm = ІСТИНА) [1]

    [1] 5.325

    Інший підхід для обчислення діапазону полягає у використанні функцій R's max () та min ().

    макс (мм_дані$ нетто_вага) - хв (мм_дані$ нетто_вага)

    [1] 5.325

    Щоб повідомити про інтерквартильний діапазон, ми використовуємо функцію IQR (x), де x - це об'єкт, який містить наші дані, як правило, вектор або один стовпець з кадру даних. Функція має дев'ять різних алгоритмів обчислення IQR, ідентифікованих за допомогою type як аргументу. Щоб отримати еквівалент IQR, що генерується функцією boxplot () R, ми використовуємо type = 5 для парної кількості значень і тип = 7 для непарної кількості значень.

    IQR (мм_дані$ нетто_вага, na.rm = ІСТИНА, тип = 5)

    [1] 1.841

    Щоб знайти серединне абсолютне відхилення, ми використовуємо функцію mad (x), де x - об'єкт, який містить наші дані, як правило, вектор або один стовпець з кадру даних. Функція включає в себе константу масштабування, значення за замовчуванням для якої не відповідає нашому опису для обчислення MAD; аргумент константа = 1 дає результат, який відповідає нашому опису MAD.

    божевільний (мм_дана$ нетто_вага, na.rm = ІСТИНА, константа = 1)

    [1] 0.818