Глосарій
- Page ID
- 100113
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)
старт
- Середній
- також називається середнім або середнім арифметичним; число, яке описує центральну тенденцію даних
- осліплення
- не повідомляючи учасникам, яке лікування отримує суб'єкт
- Категорична змінна
- змінні, які приймають значення, які є іменами або мітками
- Кластерна вибірка
- метод вибору випадкової вибірки і поділу популяції на групи (кластери); використовувати просту випадкову вибірку для вибору набору кластерів. Кожна людина в обраних кластерах включається до вибірки.
- Безперервна випадкова величина
- випадкова величина (RV), результати якої вимірюються; висота дерев у лісі є безперервним RV.
- Контрольна група
- група в рандомізованому експерименті, яка отримує неактивне лікування, але в іншому випадку управляється точно так само, як і інші групи
- Зручність вибірки
- невипадковий метод відбору вибірки; цей метод відбирає осіб, які легко доступні і можуть призвести до упереджених даних.
- Накопичувальна відносна частота
- Термін застосовується до впорядкованого набору спостережень від найменшого до найбільшого. Сукупна відносна частота - це сума відносних частот для всіх значень, які менше або рівні заданому значенню.
- Дані
- сукупність спостережень (сукупність можливих результатів); більшість даних можна помістити в дві групи: якісні (атрибут, значення якого позначається міткою) або кількісні (атрибут, значення якого позначається числом). Кількісні дані можна розділити на дві підгрупи: дискретні і неперервні. Дані дискретні, якщо це результат підрахунку (наприклад, кількість учнів даної етнічної групи в класі або кількість книг на полиці). Дані є безперервними, якщо це результат вимірювання (наприклад, пройдена відстань або вага багажу)
- Дискретна випадкова величина
- випадкова величина (RV), результати якої підраховуються
- Подвійне сліпуче
- акт засліплення як суб'єктів експерименту, так і дослідників, які працюють з суб'єктами
- Експериментальна одиниця
- будь-яка фізична особа або об'єкт, що підлягає вимірюванню
- Пояснювальна змінна
- незалежна змінна в експерименті; значення, контрольоване дослідниками
- Частота
- кількість разів виникає значення даних
- Інформована згода
- Будь-який суб'єкт людини в дослідницькому дослідженні повинен усвідомлювати будь-які ризики або витрати, пов'язані з дослідженням. Суб'єкт має право знати характер процедур, включених у дослідження, їх потенційні ризики та їх потенційні переваги. Згода повинна надаватися вільно інформованим, придатним учасником.
- Інституційна оглядова рада
- комітет, якому доручено здійснювати контроль за дослідницькими програмами, які стосуються людських суб'єктів
- Змінна ховається
- змінна, яка впливає на дослідження, хоча це ні пояснювальна змінна, ні змінна відповідь
- Математичні моделі
- опис явища з використанням математичних понять, таких як рівняння, нерівності, розподіли і т.д.
- Помилка без дискретизації
- проблема, яка впливає на надійність даних вибірки, крім природних змін; вона включає різні людські помилки, включаючи поганий дизайн дослідження, упереджені методи вибірки, неточну інформацію, надану учасниками дослідження, помилки введення даних та поганий аналіз.
- Чисельна змінна
- змінні, які приймають значення, які позначаються числами
- Спостережне дослідження
- дослідження, в якому незалежна змінна не маніпулюється дослідником
- Параметр
- число, яке використовується для представлення характеристики популяції і які, як правило, не можуть бути визначені легко
- Плацебо
- неактивне лікування, яке не має реального впливу на пояснювальну змінну
- Населення
- всі особи, об'єкти або вимірювання, властивості яких вивчаються
- Імовірність
- число між нулем і одиницею включно, що дає ймовірність того, що відбудеться конкретна подія
- Пропорція
- кількість успіхів, поділене на загальну кількість у вибірці
- Якісні дані
- Див. Дані.
- Кількісні дані
- Див. Дані.
- Випадкове призначення
- акт організації експериментальних одиниць в лікувальні групи з використанням випадкових методів
- Випадкова вибірка
- метод вибору вибірки, яка дає кожному члену населення рівні шанси бути відібраними.
- Відносна частота
- відношення кількості разів значення даних, що виникають у множині всіх результатів, до кількості всіх результатів до загальної кількості результатів
- Представницький зразок
- підмножина населення, яка має ті ж характеристики, що і популяції
- Змінна відповіді
- залежна змінна в експерименті; значення, яке вимірюється для зміни в кінці експерименту
- Зразок
- підмножина досліджуваної популяції
- Ухил вибірки
- не всі члени населення однаково схильні до вибору
- Помилка вибірки
- природна варіація, яка виникає в результаті вибору вибірки для представлення більшої популяції; ця варіація зменшується зі збільшенням розміру вибірки, тому відбір більших зразків зменшує похибку вибірки.
- Відбір проб з заміною
- Після того, як член населення обраний для включення до вибірки, цей член повертається до населення для відбору наступної особи.
- Відбір проб без заміни
- Член населення може бути обраний для включення в вибірку тільки один раз. Якщо вибрано, учасник не повертається населенню до наступного відбору.
- Проста випадкова вибірка
- простий метод вибору випадкової вибірки; дати кожному члену населення число. Використовуйте генератор випадкових чисел для вибору набору міток. Ці випадково вибрані мітки ідентифікують членів вашого зразка.
- Статистика
- числова характеристика вибірки; статистика оцінює відповідний параметр популяції.
- Статистичні моделі
- опис явища з використанням розподілів ймовірностей, які описують очікувану поведінку явища і мінливість в очікуваних спостереженнях.
- Стратифікований відбір проб
- метод відбору випадкової вибірки, що використовується для забезпечення адекватного представлення підгруп населення; поділу населення на групи (шари). Використовуйте просту випадкову вибірку, щоб визначити пропорційну кількість осіб з кожного шару.
- Умовна ймовірність
- ймовірність того, що подія відбудеться з огляду на те, що інша подія вже сталася
- Таблиця непередбачених ситуацій
- метод відображення частотного розподілу у вигляді таблиці з рядками і стовпцями, щоб показати, як дві змінні можуть бути залежними (залежними) один від одного; таблиця надає простий спосіб обчислення умовних ймовірностей.
- Залежні події
- Якщо дві події НЕ є незалежними, то ми говоримо, що вони залежні.
- Однаково ймовірно
- Кожен результат експерименту має однакову ймовірність.
- Подія
- підмножина множини всіх результатів експерименту; множина всіх результатів експерименту називається простором вибірки і зазвичай позначається S. Подія є довільною підмножиною в S. Вона може містити один результат, два результати, відсутність результатів (порожня підмножина), весь простір вибірки тощо. Стандартними позначеннями для подій є великі літери типу A, B, C і так далі.
- Експеримент
- планова діяльність, що здійснюється в контрольованих умовах\(P(A|B) = P(A)\)
\(P(B|A) = P(B)\)
\(P(A \cap B) = P(A)P(B)\)
- Незалежні заходи
- Виникнення однієї події ніяк не впливає на ймовірність виникнення іншої події. Події A і B є незалежними, якщо виконується одне з наведених нижче дій:
- Взаємовиключні
- Дві події є взаємовиключними, якщо ймовірність того, що вони обидва відбуваються одночасно, дорівнює нулю. Якщо події А і В взаємовиключні, то\(P(A \cap B) = 0\).
- Результат
- конкретний результат експерименту\(0 ≤ P(A) ≤ 1\)
Якщо A і B є будь-якими двома взаємовиключними подіями, то\(P(A \cup B) = P(A) + P(B)\).
\(P(S) = 1\)
- Імовірність
- число між нулем і одиницею, включно, що дає ймовірність того, що відбудеться конкретна подія; основу статистики дають наступні 3 аксіоми (А.Н.Колмогорова, 1930-х рр.): Нехай S позначають простір вибірки, а A і B - дві події в S. Потім: (1) Є лише два можливі результати, які називаються» успіх» і «невдача» для кожного судового розгляду і (2)\(p\) Імовірність успіху однакова для будь-якого судового розгляду (тому\(q = 1 − p\) ймовірність невдачі однакова для будь-якого судового розгляду).
- Випробування Бернуллі
- експеримент з наступними характеристиками: Існує фіксована кількість випробувань,\(n\). Існує лише два можливі результати, які називаються «успіх» та «невдача» для кожного судового процесу. Буква\(p\) позначає ймовірність успіху на одному випробуванні, і\(q\) позначає ймовірність невдачі на одному випробуванні. \(n\)Випробування незалежні і повторюються з використанням однакових умов.
- Біноміальний експеримент
- статистичний експеримент, який задовольняє наступним трьом умовам:
- Біноміальний розподіл ймовірностей
- дискретна випадкова величина (RV), яка виникає з випробувань Бернуллі; є фіксоване число\(n\), незалежних випробувань. «Незалежний» означає, що результат будь-якого судового розгляду (наприклад, пробного) не впливає на результати наступних випробувань, і всі судові процеси проводяться в однакових умовах. За цих обставин біноміальний RV\(X\) визначається як кількість успіхів у n випробуваннях. Середнє значення є\(\mu=n p\) і стандартне відхилення є\(\sigma=\sqrt{n p q}\). Імовірність рівно х успіхів у\(n\) випробуваннях є\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Геометричний розподіл
- дискретна випадкова величина (RV), яка виникає в результаті випробувань Бернуллі; випробування повторюються до першого успіху. Геометрична змінна X визначається як кількість випробувань до першого успіху. Середнє значення є\(\mu=\frac{1}{p}\) і стандартне відхилення є\(\sigma = \sqrt{\frac{1}{p}\left(\frac{1}{p}-1\right)}\). Імовірність рівно х невдач перед першим успіхом задається формулою:\(P(X=x)=p(1-p)^{x-1}\) де хочеться знати ймовірність кількості випробувань до першого успіху:\(x\) й слід - перший успіх. Альтернативна формулювання геометричного розподілу ставить питання: яка ймовірність\(x\) невдач до першого успіху? У цій формулюванні не зараховується судовий процес, який призвів до першого успіху. Формула такого подання геометричного:\(P(X=x)=p(1-p)^{x}\). Очікувана величина в такому вигляді геометричного розподілу дорівнює\(\mu=\frac{1-p}{p}\). Найпростіший спосіб зберегти ці дві форми геометричного розподілу прямими - пам'ятати, що p -\((1−p)\) це ймовірність успіху і ймовірність невдачі. У формулі показники просто підраховують кількість успіхів і кількість невдач бажаного результату експерименту. Звичайно, сума цих двох чисел повинна додати до кількості випробувань в експерименті.
- Є одне або кілька випробувань Бернуллі з усіма невдачами, крім останнього, який є успішним.
- Теоретично кількість випробувань могло тривати назавжди. Повинен бути хоча б один судовий розгляд.
- Імовірність успіху та ймовірність невдачі не змінюються\(q\) від судового розгляду до судового розгляду.\(p\)
- Геометричний експеримент
- статистичний експеримент з наступними властивостями:
- Гіпергеометричний експеримент
- статистичний експеримент з наступними властивостями:
- Ви берете проби з двох груп.
- Вас турбує група за інтересами, яка називається першою групою.
- Ви вибірку без заміни з комбінованих груп.
- Кожен підбір не є самостійним, так як відбір проб проводиться без заміни.
- Нормальний розподіл
- безперервна випадкова величина\((RV)\) з pdf\(f(x) =\)\[\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\nonumber\], де\(\mu\) середнє значення розподілу і\(\sigma\) є стандартним відхиленням; позначення:\(X \sim N(\mu, \sigma)\). Якщо\(\mu = 0\) і\(\sigma = 1\), то\(RV\),\(Z\), називається стандартним нормальним розподілом. Стандартний нормальний розподіл безперервна випадкова величина\((RV) X \sim N(0, 1)\); коли\(X\) слідує за стандартним нормальним розподілом, вона часто відзначається як\(Z \sim N(0, 1)\). z-оцінка лінійного перетворення форми\(z=\frac{x-\mu}{\sigma}\) або записується як\(z=\frac{|x-\mu|}{\sigma}\); якщо це перетворення застосовується до будь-якого нормального розподілу \(X \sim N(\mu, \sigma)\)в результаті виходить стандартний нормальний розподіл\(Z \sim N(0,1)\). Якщо це перетворення застосовується до будь-якого конкретного значення\(x\)\(RV\) із середнім\(\mu\) та стандартним відхиленням\(\sigma\), результат називається z-score of\(x\). Z-оцінка дозволяє нам порівнювати дані, які зазвичай розподіляються, але масштабуються по-різному. Z-оцінка - це кількість стандартних відхилень, які конкретний\(x\) знаходиться далеко від середнього значення.
- Біноміальний розподіл
- дискретна випадкова величина (RV), яка виникає з випробувань Бернуллі; існує фіксоване\(n\) число незалежних випробувань. «Незалежний» означає, що результат будь-якого судового розгляду (наприклад, судового розгляду 1) не впливає на результати наступних випробувань, і всі випробування проводяться в однакових умовах. За цих обставин біноміал\(RV\)\(X\) визначається як кількість успіхів у n випробуваннях. Позначення це:\(X \sim B(\bf{n,p})\). Середнє значення є\(\mu = np\) і стандартне відхилення є\(\sigma=\sqrt{n p q}\). Імовірність точно\(x\) успіхів у\(n\) випробуваннях є\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Довірчий інтервал (CI)
- інтервальна оцінка для невідомого параметра популяції. Це залежить від:
- бажаний рівень довіри,
- відомості, які відомі про розподіл (наприклад, відоме стандартне відхилення),
- зразок і його розмір.
- Рівень довіри (CL)
- процентний вираз для ймовірності того, що довірчий інтервал містить істинний параметр популяції; наприклад, якщо КЛ = 90%, то в 90 з 100 вибірок інтервальну оцінку буде укладати істинний параметр популяції.
- Ступені свободи (df)
- кількість об'єктів у зразку, які вільно варіюються
- Помилка прив'язана до середнього значення популяції (EBM)
- похибка; залежить від рівня довіри, розміру вибірки та відомого або передбачуваного стандартного відхилення населення.
- Помилка прив'язана до пропорції населення (EBP)
- похибка; залежить від рівня довіри, розміру вибірки та оцінюваної (від вибірки) частки успіхів.
- Статистика інференційних висновків
- також називається статистичним висновком або індуктивною статистикою; ця грань статистики стосується оцінки параметра популяції на основі вибіркової статистики. Наприклад, якщо чотири з 100 вибіркових калькуляторів несправні, ми можемо зробити висновок, що чотири відсотки виробництва є дефектними.
- Нормальний розподіл
- безперервна випадкова величина (RV) з pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-(x-\mu)^{2} / 2 \sigma^{2}}\), де\(\mu\) середнє значення розподілу і\(\sigma\) є стандартним відхиленням, позначення:\(X \sim N(\mu,\sigma)\). Якщо\(\mu = 0\) і\(\sigma = 1\), то РВ називається стандартним нормальним розподілом.
- Біноміальний розподіл
- дискретна випадкова величина (RV), яка виникає в результаті випробувань Бернуллі. Є фіксоване число, n, незалежних випробувань. «Незалежний» означає, що результат будь-якого судового розгляду (наприклад, судового розгляду 1) не впливає на результати наступних випробувань, і всі випробування проводяться в однакових умовах. За цих обставин біноміальний RV визначається як кількість успіхів у\(n\) випробуваннях. Позначення таке:\(X \sim B(n, p) \mu = np\) а стандартне відхилення є\(\sigma=\sqrt{n p q}\). Імовірність точно\(x\) успіхів у\(n\) випробуваннях є\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Центральна гранична теорема
- Дано випадкову величину (RV) з відомим середнім\(\mu\) і відомим стандартним відхиленням\(\sigma\). Ми проводимо вибірку з розміром n і нас цікавлять два нових RV - середнє значення вибірки,\(\overline X\). Якщо розмір n зразка досить великий, то\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\). Якщо розмір n вибірки досить великий, то розподіл вибіркових засобів буде наближатися до нормального розподілу незалежно від форми популяції. Очікуване значення середнього вибіркового засобу буде дорівнювати середньому чисельності населення. Стандартне відхилення розподілу засобів вибірки\(\frac{\sigma}{\sqrt{n}}\), називається стандартною похибкою середнього.
- Бажаний рівень довіри.
- Відомості, які відомі про розподіл (наприклад, відоме стандартне відхилення).
- Зразок і його розмір.
- Довірчий інтервал (CI)
- інтервальна оцінка для невідомого параметра популяції. Це залежить від:
- Критичне значення
- \(Z\)Значення\(t\) або, встановлене дослідником, яке вимірює ймовірність помилки типу I,\(\sigma\).
- гіпотеза
- твердження про значення параметра популяції, в разі двох гіпотез твердження, яке вважається істинним, називається нульовою гіпотезою (нотацією\(H_0\)) і суперечливе твердження називається альтернативною гіпотезою (нотацією\(H_a\)).
- Тестування гіпотез
- Виходячи з зразкових доказів, процедура визначення того, чи є викладена гіпотеза розумним твердженням і не повинна бути відхилена, або є необґрунтованою і повинна бути відхилена.
- Д. Коена
- міра розміру ефекту на основі відмінностей між двома засобами. Якщо\(d\) знаходиться в межах від 0 до 0,2, то ефект невеликий. Якщо\(d\) підходи 0,5, то ефект середній, а якщо\(d\) наближається до 0,8, то це великий ефект.
- a - символ для Y-перехоплення
- Іноді пишуть як\(b_0\), тому що при написанні теоретичної лінійної моделі\(\beta_0\) використовується для представлення коефіцієнта для популяції.
- b - символ схилу
- Слово коефіцієнт буде використовуватися регулярно для нахилу, тому що це число, яке завжди буде поруч з буквою «»\(x\). Він буде написаний як\(b_1\) при використанні зразка, так і\(\beta_1\) буде використовуватися з сукупністю або при написанні теоретичної лінійної моделі.
- Двоваріантний
- дві змінні присутні в моделі, де одна є «причиною» або незалежною змінною, а інша - «ефект» залежної змінної.
- Лінійний
- модель, яка приймає дані та регресує їх у рівняння прямої лінії.
- Мультиварка
- система або модель, де більше однієї незалежної змінної використовується для прогнозування результату. Там може бути тільки одна залежна змінна, але немає обмежень на кількість незалежних змінних.
- R2R2 — Коефіцієнт визначення
- Це число від 0 до 1, яке представляє відсоткову варіацію залежної змінної, яка може бути пояснена варіацією незалежної змінної. Іноді обчислюється рівнянням,\(R^{2}=\frac{S S R}{S S T}\) де\(SSR\) є «Сума квадратів регресії» і\(SST\) є «Сумою квадратів загальної». Відповідний коефіцієнт визначення, про який слід повідомити, завжди слід спочатку коригувати для ступенів свободи.
- Залишкова або «помилка»
- значення, обчислене з віднімання\(y_{0}-\hat{y}_{0}=e_{0}\). Абсолютне значення залишкової величини вимірює відстань по вертикалі між фактичним значенням y і розрахунковим значенням y, яке з'являється на оптимальній лінії.
- RR - коефіцієнт кореляції
- Число між −1 та 1, яке відображає силу та напрямок зв'язку між «\(X\)» та «»\(Y\). Значення «\(r\)» дорівнюватиме 1 або −1, лише якщо всі побудовані точки утворюють ідеально пряму лінію.
- Сума квадратних помилок (SSE)
- розрахункове значення від складання всіх квадратних залишкових членів. Сподіваємося, що ця величина дуже мала при створенні моделі.
- X — незалежна змінна
- Іноді це буде називатися змінною «предиктор», оскільки ці значення вимірювалися для того, щоб визначити, які можливі результати можна передбачити.
- Y — залежна змінна
- Крім того, за допомогою літери «\(y\)» відображаються фактичні значення, а\(\hat{y}\) прогнозовані або передбачувані значення. Прогнозовані значення будуть надходити від підключення\(x\) спостережуваних значень до лінійної моделі.
- всі популяції, що представляють інтерес, нормально розподілені.
- популяції мають рівні стандартні відхилення.
- зразки (не обов'язково однакового розміру) вибираються випадковим чином і незалежно від кожної популяції.
- є одна незалежна змінна і одна залежна змінна.
Тестовою статистикою для аналізу дисперсії є\(F\) -ratio.
- Аналіз дисперсії
- також називають ANOVA, це метод тестування, чи рівні засоби трьох або більше популяцій. Метод застосовується в тому випадку, якщо:
- Одностороння ANOVA
- метод перевірки того, чи рівні засоби трьох або більше популяцій; метод застосовується, якщо:
- всі популяції, що представляють інтерес, нормально розподілені.
- популяції мають рівні стандартні відхилення.
- зразки (не обов'язково однакового розміру) вибираються випадковим чином і незалежно від кожної популяції.
Тестовою статистикою для аналізу дисперсії є\(F\) -ratio.
- дисперсія
- середнє квадрат відхилень від середнього; квадрат стандартного відхилення. Для набору даних відхилення може бути представлено як\(x – \overline{x}\) де значення даних і\(x\)\(\overline{x}\) є вибірковим середнім. Дисперсія вибірки дорівнює сумі квадратів відхилень, поділеної на різницю розмірів вибірки і одиниці.
- Таблиця непередбачених ситуацій
- таблиця, яка відображає вибіркові значення для двох різних факторів, які можуть залежати або залежати один від одного; це полегшує визначення умовних ймовірностей.
- Добросо-of-Fit
- тест гіпотези, який порівнює очікувані та спостережувані значення з метою пошуку значних відмінностей в межах однієї непараметричної змінної. Використовувані ступені свободи дорівнюють (кількість категорій — 1).
- Тест на однорідність
- тест, який використовувався для того, щоб зробити висновок про те, чи дві популяції мають однаковий розподіл. Використовувані ступені свободи дорівнюють (кількість стовпців — 1).
- Випробування на незалежність
- тест гіпотези, який порівнює очікувані та спостережувані значення для таблиць надзвичайних ситуацій, щоб перевірити незалежність між двома змінними. Використовувані ступені свободи дорівнюють (кількість стовпців — 1), помноженому на (кількість рядків — 1).
- Незалежні групи
- дві вибірки, які відібрані з двох популяцій, і значення з однієї популяції ніяк не пов'язані зі значеннями з іншої популяції.
- Підібрані пари
- два зразки, які залежні. Відмінності між сценарієм до і після перевіряються шляхом тестування однієї популяції середнього значення відмінностей.
- Об'єднана дисперсія
- середньозважене значення двох дисперсій, які потім можуть бути використані при розрахунку стандартної похибки.
- Нормальний розподіл
- безперервна випадкова величина (RV) з pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\), де\(\mu\) середнє значення розподілу, і\(\sigma\) є стандартним відхиленням, позначення:\(X \sim N(\mu, \sigma)\). Якщо\(\mu = 0\) і\(\sigma = 1\), то РВ називається стандартним нормальним розподілом.
- Стандартне відхилення
- число, яке дорівнює квадратному кореню дисперсії і вимірює, наскільки далекі значення даних від їх середнього; позначення: s для стандартного відхилення вибірки і σ для стандартного відхилення населення.
- Студентський Т-дистрибутив
- досліджував і повідомив Вільям С. Госсетт в 1908 році і опублікований під псевдонімом Студент. Основними характеристиками випадкової величини (RV) є:
- Вона є безперервною і передбачає будь-які реальні цінності.
- PDF симетричний щодо середнього значення нуля. Однак він більш розкинутий і плоский на вершині, ніж нормальний розподіл.
- Він наближається до стандартного нормального розподілу, оскільки n стає більшим.
- Існує «сім'я» з t розподілів: кожен представник сімейства повністю визначається кількістю ступенів свободи, яка на одиницю менше, ніж кількість елементів даних.
- Тестова статистика
- Формула, яка підраховує кількість стандартних відхилень на відповідному розподілі, що оцінюваний параметр знаходиться далеко від гіпотезованого значення.
- Помилка типу I
- Рішення полягає в тому, щоб відхилити нульову гіпотезу, коли насправді нульова гіпотеза вірна.
- Помилка типу II
- Рішення полягає в тому, щоб не відкидати нульову гіпотезу, коли насправді нульова гіпотеза є помилковою.
- Параметр
- числова характеристика популяції
- Оцінка точки
- єдине число, обчислене з вибірки і використовується для оцінки параметра популяції
- Стандартне відхилення
- число, яке дорівнює квадратному кореню дисперсії і вимірює, наскільки далекі значення даних від їх середнього; позначення:\(s\) для зразка стандартного відхилення і\ sigma для стандартного відхилення населення
- Студентський т -розподіл
- досліджений і повідомив Вільям С. Госсетт в 1908 році і опублікований під псевдонімом Студент; основними характеристиками цієї випадкової величини (\(RV\)) є:
- Вона є безперервною і передбачає будь-які реальні цінності.
- PDF симетричний щодо середнього значення нуля.
- Він наближається до стандартного нормального розподілу, оскільки\(n\) стає більшим.
- Існує «сім'я» t—розподілів: кожен представник сімейства повністю визначається кількістю ступенів свободи, яке залежить від застосування, для якого використовується t.
- Середній
- число, яке описує центральну тенденцію даних; існує ряд спеціалізованих середніх, включаючи середнє арифметичне, середньозважене, медіану, моду та середнє геометричне.
- Центральна гранична теорема
- З огляду на випадкову величину з відомим середнім μ і відомим стандартним відхиленням, σ, ми проводимо вибірку з розміром n, і нас цікавлять два нових RV: середнє значення вибірки,\(\overline X\). Якщо розмір (\(n\)) зразка досить великий, то\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\). Якщо розмір (\(n\)) вибірки досить великий, то розподіл вибіркових засобів буде наближатися до нормальних розподілів незалежно від форми популяції. Середнє значення вибіркового засобу дорівнюватиме середньому чисельності населення. Стандартне відхилення розподілу засобів вибірки\(\frac{\sigma}{\sqrt{n}}\), називається стандартною похибкою середнього.
- Коефіцієнт корекції кінцевого населення
- коригує дисперсію розподілу вибірки, якщо популяція відома і відбирається понад 5% населення.
- Середнє
- число, яке вимірює центральну тенденцію; загальною назвою для середнього є «середній». Термін «середнє» - це скорочена форма «середнє арифметичне». За визначенням середнє значення для вибірки (позначається\(\overline x\)) є\(\overline x =\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\), а середнє для популяції (позначається\(\mu\)) -\(\mu=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\).
- Нормальний розподіл
- безперервна випадкова величина з pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\), де\(\mu\) середнє значення розподілу і\(\sigma\) є стандартним відхиленням.; позначення:\(X \sim N(\mu, \sigma)\). Якщо\(\mu = 0\) і\(\sigma = 1\), випадкова величина\(Z\), називається стандартним нормальним розподілом.
- Розподіл вибірки
- Враховуючи прості випадкові вибірки розміру\(n\) з даної сукупності з виміряною характеристикою, такою як середнє, пропорційне або стандартне відхилення для кожної вибірки, розподіл ймовірностей всіх виміряних характеристик називається розподілом вибірки.
- Стандартна похибка середнього значення
- стандартне відхилення розподілу зразка кошти, або\(\frac{\sigma}{\sqrt{n}}\).
- Стандартна похибка пропорції
- стандартне відхилення вибірки розподілу пропорцій
- Умовна ймовірність
- ймовірність того, що подія відбудеться з огляду на те, що інша подія вже сталася.
- параметр розпаду
- Параметр розпаду описує швидкість, з якою ймовірності падають до нуля для збільшення значень\(x\). Це значення m у функції\(f(x)=m e^{(-m x)}\) щільності ймовірності експоненціальної випадкової величини. Вона також дорівнює тому\(m = \frac{1}{\mu}\), де\(\mu\) знаходиться середнє значення випадкової величини.
- Експоненціальний розподіл
- безперервна випадкова величина (RV), яка з'являється, коли ми зацікавлені в інтервалах часу між деякими випадковими подіями, наприклад, тривалість часу між надзвичайними прибуття в лікарню. Середнє значення є\(\mu = \frac{1}{m}\) і стандартне відхилення є\(\sigma = \frac{1}{m}\). Функція щільності ймовірності є\(f(x)=m e^{-m x} \text { or } f(x)=\frac{1}{\mu} e^{-\frac{1}{\mu} x}, x \geq 0\) і функція кумулятивного розподілу є\(P(X \leq x)=1-e^{-m x} \text { or } P(X \leq x)=1-e^{-\frac{1}{\mu} x}\).
- майно, що не запам'ятовується
- Для експоненціальної випадкової\(X\) величини властивість memoryless - це твердження про те, що знання того, що сталося в минулому, не впливає на майбутні ймовірності. Це означає, що ймовірність, яка\(X\) перевищує\(x + t\), враховуючи, що вона перевищила\(x\), така ж, як ймовірність, яка перевищила\(X\) б t, якби ми не знали про це. У символах ми говоримо, що\(P(X > x + t|X > x) = P(X > t)\).
- розподіл Пуассона
- Якщо існує відоме середнє значення\ mu подій, що відбуваються за одиницю часу, і ці події не залежать один від одного, то кількість подій X, що відбуваються в одній одиниці часу, має розподіл Пуассона. Імовірність x подій, що відбуваються за одну одиницю часу, дорівнює\(P(X=x)=\frac{\mu^{x} e^{-\mu}}{x !}\).
- Рівномірний розподіл
- безперервна випадкова величина (RV), яка має однаково ймовірні результати над доменом\(a < x < b\); її часто називають прямокутним розподілом, оскільки графік PDF має форму прямокутника. Середнє значення є\(\mu=\frac{a+b}{2}\) і стандартне відхилення є\(\sigma=\sqrt{\frac{(b-a)^{2}}{12}}\). Функція щільності ймовірності дорівнює\ (f (x) =\ frac {1} {b-a}\ text {for} a
- Гіпергеометрична ймовірність
- дискретна випадкова величина (RV), яка характеризується:
- Фіксована кількість випробувань.
- Імовірність успіху не однакова від судового розгляду до суду.
- Розподіл ймовірностей Пуассона
- дискретна випадкова величина (RV), яка підраховує кількість разів, коли певна подія відбудеться в конкретному інтервалі; характеристики змінної:
- Імовірність того, що подія відбудеться в заданому інтервалі, однакова для всіх інтервалів.
- Події відбуваються з відомим середнім і незалежно від часу з моменту останньої події.
- Функція розподілу ймовірностей (PDF)
- математичний опис дискретної випадкової величини (RV), наведеного або у вигляді рівняння (формули), або у вигляді таблиці з перерахуванням всіх можливих результатів експерименту і ймовірності, пов'язаної з кожним результатом.
- Випадкова величина (RV)
- характеристика інтересу до досліджуваної сукупності; загальним позначенням для змінних є великі латинські літери\(X, Y, Z\),...; загальні позначення для конкретного значення з області (набір всіх можливих значень змінної) - це малі латинські літери\(x, y\), і\(z\). Наприклад, якщо\(X\) кількість дітей в сім'ї, то\(x\) являє собою конкретне ціле число 0, 1, 2, 3,... Змінні в статистиці відрізняються від змінних в проміжній алгебрі двома наступними способами.
- Область випадкової величини (RV) не обов'язково є числовим набором; область може бути виражена словами; наприклад, якщо колір\(X =\) волосся, то область {чорний, блонд, сірий, зелений, оранжевий}.
- Ми можемо сказати, яке конкретне значення х\(X\) приймає випадкова величина тільки після виконання експерименту.
- Простір зразків
- сукупність всіх можливих результатів експерименту
- Відбір проб з заміною
- Якщо кожен член популяції замінюється після його вибору, то цей член має можливість бути обраним більше одного разу.
- Відбір проб без заміни
- Коли відбір проб проводиться без заміни, кожен член популяції може бути обраний лише один раз.
- Подія «Доповнення»
- Доповнення події А складається з усіх результатів, які НЕ є в А.
- Умовна ймовірність\(A | B\)
- P (A||B) - ймовірність того, що подія A відбудеться, враховуючи, що подія B вже відбулася.
- Перехрестя:\(\cap \) подія
- Результат є у події | (A\ cap B\), якщо результат знаходиться в обох\(A \cap B\) одночасно.
- Союз:\(\cup\) подія
- Результат є в тому випадку,\(A \cup B\) якщо результат знаходиться в A або знаходиться в B або знаходиться як в A, так і в B.
- Діаграма дерева
- корисне візуальне представлення простору вибірки та подій у вигляді «дерева» з гілками, позначеними можливими наслідками разом з пов'язаними з ними ймовірностями (частоти, відносні частоти)
- Діаграма Венна
- візуальне представлення зразка простору і подій у вигляді кіл або овалів, що показують їх перетину
- Опитування
- дослідження, в якому дані збираються, як повідомляють особи.
- Систематична вибірка
- метод вибору випадкової вибірки; перерахувати членів населення. Використовуйте просту випадкову вибірку, щоб вибрати початкову точку в популяції. Нехай k = (кількість особин в популяції)/(Кількість особин, необхідних в вибірці). Виберіть кожного kth індивіда у списку, починаючи з тієї, яка була вибрана випадковим чином. При необхідності поверніться до початку списку населення, щоб заповнити свій зразок.
- лікування
- різні значення або компоненти пояснювальної змінної, застосованої в експерименті
- Змінна
- характеристика інтересу для кожної людини або об'єкта в популяції
- Частота
- кількість разів виникає значення даних
- Таблиця частот
- представлення даних, в якому згруповані дані відображаються разом з відповідними частотами
- Гістограма
- графічне представлення у формі x - y розподілу даних у наборі даних; x представляє дані, а y - частоту, або відносну частоту. Графік складається з суміжних прямокутників.
- Міжквартильний діапазон
- або IQR, - це діапазон середніх 50 відсотків значень даних; IQR виявляється шляхом віднімання першого квартиля з третього квартиля.
- Середнє (арифметичне)
- число, яке вимірює центральну тенденцію даних; загальною назвою середнього значення є «середнє». Термін «середнє» є скороченою формою «середнє арифметичне». За визначенням середнє значення для вибірки (позначається\(\overline{x}\)) є\(\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\), а середнє значення для популяції (позначається μ) дорівнює\(\boldsymbol{\mu}=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\)
- Середнє (геометричне)
- міра центральної тенденції, яка забезпечує міру середнього геометричного зростання протягом декількох періодів часу.
- Медіана
- число, яке розділяє впорядковані дані навпіл; половина значень - це те саме число або менше медіани, а половина значень - те саме число або більше медіани. Медіана може бути частиною даних, а може і не бути.
- Середина
- середнє значення інтервалу в таблиці частот
- Режим
- значення, яке найчастіше з'являється в наборі даних
- викиди
- спостереження, яке не відповідає решті даних
- Процентиль
- число, яке ділить впорядковані дані на соті частки; процентилі можуть бути або не бути частиною даних. Медіана даних - другий квартиль і 50-й процентиль. Перший і третій квартилі - 25-й і 75-й процентилі відповідно.
- Квартілі
- числа, які розділяють дані на чверті; квартилі можуть бути або не бути частиною даних. Другий квартиль - це медіана даних.
- Відносна частота
- відношення кількості разів значення даних, що виникають у множині всіх результатів, до кількості всіх результатів
- Стандартне відхилення
- число, яке дорівнює квадратному кореню дисперсії і вимірює, наскільки далекі значення даних від їх середнього; позначення: s для стандартного відхилення вибірки і σ для стандартного відхилення населення.
- дисперсія
- середнє квадратичне відхилення від середнього, або квадрат стандартного відхилення; для набору даних відхилення може бути представлено у вигляді x —\(\overline{x}\) де x - значення даних і\(\overline{x}\) є середнім зразком. Дисперсія вибірки дорівнює сумі квадратів відхилень, поділеної на різницю розмірів вибірки і одиниці.