14.1: Кореляції
- Page ID
- 52976
Кореляція - це зв'язок або асоціація між двома видами речей. Наприклад, вчених цікавить не тільки статистика про те, у кого рак легенів, але і те, як куріння пов'язане з раком легенів. Цей зв'язок є одним із очевидних зв'язків, і він описується математично, кажучи, що значення змінної «кількість курців у групі» та змінної «кількості випадків раку легенів у цій групі» співвідносяться. Слово корельоване - це технічний термін. Пошук кореляції у ваших даних між двома змінними A та B - це підказка про те, що вам може бути якась причинна історія, наприклад, що A викликає B, або навпаки.
Припустимо, що наукова стаття повідомляє, що куріння позитивно корелює з раком легенів. Що це означає або означає, що групи людей з високим відсотком курців зазвичай також мають високий відсоток випадків раку легенів, а групи з низьким відсотком курців зазвичай також мають низький відсоток випадків раку легенів.
Ось ще один спосіб зробити той же момент. Два відсотки, як правило, зростають і падають разом у багатьох групах. Якщо A = відсоток курців у будь-якій групі і B = відсоток випадків раку легенів в тій же групі, то наукова стаття повідомляє, що значення змінної A мають тенденцію йти вгору і вниз, оскільки значення змінної B також йдуть вгору і вниз.
Визначення
Якщо значення змінної А мають тенденцію до збільшення і зменшення синхронно (паралельно) зі значеннями змінної B, то існує позитивна кореляція між значеннями A і значеннями B.
Коли значення A і значення B позитивно співвідносяться, ми також говоримо про те, що самі змінні позитивно корелюють.
Тиск і об'єм газу, що міститься, негативно корелюють. При підвищенні тиску зазвичай помічаєте зменшення обсягу, і навпаки.
Визначення
Якщо А має тенденцію до збільшення при зменшенні В і навпаки, то існує негативна кореляція між А і В.
Визначення
Якщо A змінюється випадково, коли змінюється B, то немає кореляції між A і B.
Бути корельованим - це питання ступеня. Також кореляція негативно або позитивно означає, що дві змінні не є незалежними один від одного. Якби ми видалили фразу, як правило, з перших двох визначень, ми мали б ідеальні кореляції. Коли А завжди збільшується зі збільшенням В, і завжди зменшується зі зменшенням В, то А і В прекрасно позитивно корелюють. Коли вчені кажуть, що дві змінні прямо пропорційні, вони означають, що між ними існує ідеальна позитивна пряма кореляція. Ідеальна негативна кореляція між двома змінними, такими як тиск і об'єм ідеального газу, часто виражається тим, що вони обернено пропорційні. Супровідні графіки показують деякі з цих можливих зв'язків між двома змінними A і B.
У двох верхніх, прямолінійних графіках ми маємо докази того, що A прямо пропорційний B. У другому ми маємо докази того, що A обернено пропорційний B. Коли A співвідноситься з B, то з упевненістю випливає, що B буде корелювати з A, і навпаки. Іншими словами, кореляція - це симетричні відносини. 1
Ми ввели кореляції, говорячи про змінні, але кореляції також можуть зустрічатися між характеристиками. Наприклад, існує кореляція між характеристикою бути канадкою та характеристикою володіння теплим пальто з капюшоном. Характеристика «бути канадцем» можна розглядати як змінну з двома значеннями «характеристика присутня» і «характеристика відсутня». Іншими словами, характеристику C можна розглядати як змінну з можливими значеннями «присутній» і «відсутній» або значеннями C і Not-C. З такого роду змінної немає сенсу говорити про їх значення «змінюються синхронно». Ось кілька нових визначень кореляції, які застосовуються до таких видів характеристик:
Визначення
A позитивно корелює з B в даній популяції, коли відсоток A серед B більше, ніж відсоток A серед не-B
Визначення
A негативно корелює з B в даній популяції, коли відсоток A серед B менше, ніж відсоток A серед не-B.
Визначення
A і B не співвідносяться, якщо відсотки A серед B такі ж, як і серед не-B.
Наприклад, високий рівень позитивно корелює з професійним баскетболістом, тому що ви знайдете більший відсоток високих людей серед гравців, ніж серед не-гравців. Застосовуючи вищевказане визначення позитивної кореляції, ми б дозволили
A = високі люди
B = професійні баскетболісти
Non-B = люди, які не є професійними баскетболістами
Чи існує якась кореляція між тим, щоб бути канадцем і мати бананове дерево на задньому дворі? Так, однозначно. Випадковим чином досліджуйте групи людей. Чим вище відсоток канадців, тим менше людей у групі, які матимуть бананове дерево на задньому дворі. Існує негативна кореляція.
Вправа\(\PageIndex{1}\)
Враховуючи наші загальні знання про скачки та жокеїв, які їздять на конях, чи існує якась кореляція між масою тіла людини та їх професійним жокеєм?
а. так, вони позитивно співвідносяться.
б. так, вони негативно співвідносяться.
c Ні, вони не співвідносяться.
- Відповідь
-
Відповідь (б). У групі жокеїв можна очікувати, що середня вага буде меншою, ніж середня вага більшості людей у суспільстві.
Кореляція - це питання ступеня. Деякі кореляції сильні; деякі слабкі. Якби відсоток людей з раком легенів був лише трохи вищим серед курців, ніж некурящих, кореляція між раком легенів та курінням була б слабкою. Однак насправді відсоток людей з раком легенів у двадцять разів вище серед курців, ніж некурящих, тому кореляція дуже сильна.
Визначення
Сила кореляції між характеристиками A і B пропорційна різниці між відсотками B, які є A, і відсотком Not-B, які є A 2.
Вправа\(\PageIndex{2}\)
Чи співвідносяться податки на прибуток США з валовими доходами громадян? Позитивно чи негативно? Сильно чи слабо? Прекрасно?
- Відповідь
-
Податки на прибуток США позитивно корелюють з валовими доходами громадян. Кореляція не ідеальна, але вона досить сильна. Кореляція є слабкою у найвищих доходах, де ці особи, як правило, платять пропорційно досить невеликий відсоток своїх доходів у вигляді податків завдяки податковим притулкам.
Деякі люди знаходять кореляції там, де інші цього не роблять. Ось суперечка, яка сталася багато років тому. Лобіст для асоційованих рибалок річки Колорадо стверджував, що існує кореляція між кількістю смугастих бас в річці Колорадо і кількістю води, вивезеної з річки штату Невада. Забудовник житла в Лас-Вегасі заявив, що не бачить кореляції. Хто правий? Що ж, давайте подивимося на дані. Лобіст і розроблене житло не розходяться в необроблених даних. Ось кілька графіків цих даних попереднього століття:
Як ви можете подивитися на ці два набори даних і сказати, чи існує кореляція? Якщо шукати тенденції в даних, то помітите, що з часом експорт води збільшився, тоді як кількість риби більш-менш зменшилася. Коли один піднімається вгору, інший спускається вниз, що є ознакою негативної кореляції. Тільки статистик може сказати, наскільки сильна кореляція, але з тенденцій можна сказати, що кореляція присутня і що це навряд чи буде пов'язано з випадковими коливаннями рівнів води та риби.
1 Ми використовували дискретні, а не безперервні змінні; тобто точки на графіках роз'єднані. Багато змінних є безперервними, а не дискретними, наприклад, час, висота та ступінь задоволеності політиком. Безперервні змінні завжди можна перетворити на дискретні змінні, розділивши континуум на окремі категорії; наприклад, безперервний змінний час може бути замінений дискретною змінною час до найближчої хвилини. Кореляція між двома змінними насправді може бути кількісно визначена. Тобто до кореляції може бути присвоєно число. Число, зване коефіцієнтом кореляції, може варіюватися від мінус одиниці для негативної кореляції до плюс один для позитивної кореляції. У цьому розділі ми не будемо досліджувати, як розрахувати ці коефіцієнти. Коефіцієнт кореляції - це міра того, наскільки добре графік прямої лінії буде представляти дані. Розглянемо графік, який виглядає так:
Цей графік має невеликий коефіцієнт кореляції, тому пряма лінія не робить хорошої роботи з представленням цього графіка. Тим не менш, явно існує якась кореляція між А і Б. Це нелінійна кореляція.
2 Статистики вважають за краще використовувати дещо складнішу міру сили для кореляцій, але це визначення може бути досить корисним, як правило.