15.3: Кореляція
- Page ID
- 51358
Деякі змінні, як правило, пов'язані між собою. Вищі люди, як правило, важать більше, ніж коротші люди. Люди з більшою освітою, як правило, заробляють більше, ніж люди з меншою. Курці, як правило, мають більше інфарктів, ніж у некурящих. Є винятки, але «в середньому» ці твердження відповідають дійсності.
Є багато випадків, коли ми хочемо знати, наскільки пов'язані дві змінні. Який взаємозв'язок між кількістю сигарет, які хтось курить, та їхніми шансами захворіти на рак легенів? Чи існує певний зв'язок між роками навчання в школі та середнім доходом дорослих? Який зв'язок між відвідуваністю занять та оцінками в цьому курсі? Вивчення відповідей на такі питання важливо для виявлення того, як досягти наших цілей («Оскільки шанси захворіти на рак зростають багато, я спробую кинути палити, хоча мені це дуже подобається».).
Кореляція - це міра ступеня, до якої дві змінні пов'язані— ступінь, до якої вони змінюються разом («коварія»). Якщо дві речі, як правило, йдуть разом, то між ними існує позитивна кореляція. Наприклад, зріст і вага людей позитивно корелюють; загалом більший зріст означає більшу вагу. З іншого боку, якщо дві речі, як правило, змінюються обернено, між ними існує негативна кореляція. Наприклад, роки навчання в школі та дні, проведені у в'язниці, негативно співвідносяться; загалом більше років навчання в школі означає менше часу перебування у в'язниці. І якщо дві речі абсолютно не пов'язані між собою, вони зовсім не співвідносяться.
Кореляції між змінними надзвичайно важливі при прогнозуванні. Якби ви знали висоти всіх учнів у вашому класі критичних міркувань, ви могли б зробити більш точні прогнози щодо ваги кожного студента, ніж якби ви не знали їх висоти. Ви все одно зробили б деякі помилки, але в середньому ваші прогнози були б більш точними.
Існує формула для обчислення кореляцій, а отримані значення - числа між +1,0 (для повної позитивної кореляції) і 10 (для повної негативної кореляції); кореляція 0 означає, що між двома змінними немає закономірності взаємозв'язку. Це дозволяє дуже точно говорити про кореляції. Ми не будемо турбуватися про таку точність тут, але просто зупинимося на основних ідеях.
Кореляція та ймовірність
Ми могли б застосувати речі, які ми дізналися про ймовірність, щоб охопити всі випадки кореляції, але тут ми просто отримаємо загальне уявлення, розглядаючи випадок двох дихотомічних змінних (змінних, які мають лише два значення).
Розглянемо змінну куріння та її два значення, курця та некурця, а також змінну серцевого нападу, і це два значення, що мають серцевий напад і не мають серцевого нападу. Дві змінні не є незалежними. Курці частіше за некурящих мають серцеві напади, тому існує позитивна кореляція між курінням та інфарктами. Це означає, що Pr (H|S) > Pr (H) > Pr (H |~S). Або на словах властивість мати серце виникає з більшою швидкістю в одній групі (курці), ніж в іншій групі (люди взагалі, а також у групи людей, які не палять). Отже, кореляція порівнює швидкість, з якою властивість (як наявність інфаркту) виникає в двох різних групах.
Якби кореляція була негативною, ми б замість цього мали Pr (H|S) < Pr (H). І якби не було кореляції взагалі, дві змінні були б незалежними один від одного, тобто Pr (H|S) = Pr (H). Кореляція симетрична. Це означає, що це вулиця з двостороннім рухом. Якщо S позитивно корелює з H, то H позитивно корелює з S, і аналогічно для негативних кореляцій і для некореляцій. З точки зору ймовірностей це означає, що якщо Pr (A|B) > Pr (A), то Pr (B|A) > Pr (B) (вправа для експертів: довести це).
Кореляція є порівняльною
Твердження про те, що існує позитивна кореляція між курінням та серцевим нападом, не означає, що курець має високу ймовірність серцевого нападу. Це навіть не означає, що у курця частіше, ніж не трапиться інфаркт. Більшість людей не матимуть серцевих нападів, навіть якщо вони курять.
Твердження про те, що існує позитивна кореляція між курінням та серцевим нападом, просто означає, що серед курців більше жертв серцевого нападу, ніж серед некурящих.
Хороший спосіб отримати приблизне уявлення про кореляцію між двома змінними - заповнити деякі числа в таблиці на малюнку 15.3.1. Він має чотири осередки. + означає наявність ознаки (куріння, серцевий напад) і - означає відсутність цієї функції (бути некурящим, не маючи серцевого нападу). Так, клітина у верхньому лівому курі представляє людей, які обидва курці і страждають інфарктами, клітина внизу ліворуч представляє людей, які не палять, але все одно отримують інфаркти, і так далі. Потім ми могли б зробити опитування і заповнити цифри в кожній з чотирьох комірок.
Ключовим моментом, який слід пам'ятати, є те, що куріння та інфаркти співвідносяться на всякий випадок Pr (S|H) > Pr (S|~H). Отже, ви не можете визначити, чи співвідносяться вони, просто подивившись на Pr (S|H). Це число може бути високим просто тому, що ймовірність перенесення серцевого нападу висока для всіх, курців і некурящих. Кореляція є порівняльною: ви повинні порівняти Pr (S|H) з Pr (S|~H), щоб визначити, чи корелюють куріння та інфаркти чи ні.
Порівняльні діаграми для ілюстрації кореляції
Одним з найпростіших способів зрозуміти основи кореляції є використання подібної діаграми на малюнку 15.3.2. Схеми на зразок цієї більш грубі і готові, ніж схема вище, але їх простіше малювати. Відсотки є гіпотетичними і просто використовуються для ілюстрації. Тут ми припускаємо, що відсоток курців, які страждають інфарктами, становить 30%, і що відсоток некурців, які страждають серцевими нападами, становить 20% (ці круглі цифри вибираються, щоб полегшити приклад; вони не є фактичними відсотками).
На цій порівняльній діаграмі горизонтальна лінія в колонці курців вказує на те, що 30% всіх курців страждають інфарктами, а нижня горизонтальна лінія в колонці для некурящих вказує на те, що 20% некурящих страждають інфарктами.
Той факт, що процентна лінія вище в колонці курців, ніж у стовпці для некурящих, вказує на позитивну кореляцію між курцем та інфарктом. Саме зв'язок між цими двома горизонтальними лініями означає позитивну кореляцію. Аналогічно, той факт, що процентна лінія нижча в стовпці для некурящих, вказує на те, що існує негативна кореляція між тим, що некурящий і серцевий напад. Чим далі лінії знаходяться на подібній діаграмі, тим сильніше кореляція. Отже, малюнок 15.3.3 ілюструє ще більш сильну позитивну кореляцію між курінням і інфарктами.
Нарешті, якби лінії були натомість однакової висоти, скажімо, на 30% (як на малюнку 15.3.4), куріння та серцевий напад були б незалежними один від одного: вони не співвідносяться ні позитивно, ні негативно.
Зверніть увагу, що для малювання таких діаграм не потрібно знати точні відсотки. Потрібно лише знати, який стовпець повинен мати більший відсоток, тобто вище горизонтальна лінія.
Кореляція та причинно-наслідковий зв'язок
Кореляції часто вказують на причини; вони є доказом для претензій про те, що викликає. Коли дві змінні, як куріння і серцевий напад, Коварія ми підозрюємо, що повинна бути якась причина для їх кореляції— безумовно, щось повинно змусити їх йти разом. Але кореляція - це не те саме, що причинно-наслідковий зв'язок. З одного боку, кореляція симетрична (куріння і інфаркти співвідносяться між собою), але причинно-наслідковий зв'язок - це вулиця з одностороннім рухом (куріння викликає інфаркти, але інфаркти рідко змушують людей палити). Отже, просто знайти позитивну кореляцію не говорить нам, що викликає те, що.
Коли педіатр вашої дитини каже: «Такі плями зазвичай означають кір», вони покладаються на позитивну кореляцію між наявністю плям та кіром. Ми знаємо, що плями не викликають кору, і здоровий глузд говорить про те, що кір викликає плями. Але іноді змінні співвідносяться між собою, навіть коли жодна з них не має ніякого причинного впливу на іншого. Наприклад, щовесни очі починають свербіти і через день-два у мене з'являються напади чхання. Але свербіж очей не викликає чхання; ці два симптоми є спільною дією третього фактора, алергії на пилок, що викликає їх обох (рис. 15.3.5).
Так само існує позитивна кореляція між падаючим барометром і зливом, але жоден не викликає іншого. Обидва вони викликані наближається холодним фронтом. Так, іноді змінні співвідносяться, тому що вони мають спільну причину, а не тому, що або викликає інший. Існує багато прикладів кореляцій між речами, які є наслідками якоїсь третьої, загальної причини. Оцінки однакових близнюків, вирощених у дуже різних середовищах, співвідносяться з декількома поведінковими змінними, такими як introversion— екстраверсія. Якщо близнюки були розділені при народженні і вирощені окремо, високий ступінь екстраверсії одного близнюка не може бути причиною екстраверсії іншого. У цьому випадку їх високі ступені екстраверсії - це спільні ефекти третьої речі - поширеної причини - а саме того ж генотипу (генетичний склад).
Деякі ранні представники (всі вони були чоловіками в ті часи) для тютюнових компаній намагалися переконати громадськість, що щось подібне вірно у випадку куріння. Вони закликали, що куріння та серцеві напади співвідносяться, оскільки вони є загальними наслідками якогось третього фактора. Генетичний склад деяких людей, припустили представники, обидва привели їх до куріння і зробили їх більш сприйнятливими до серцевих захворювань. Незважаючи на багато досліджень, поширена генетична причина куріння та раку так і не була знайдена, але дослідження були необхідні, щоб виключити таку можливість. Ми ніколи не можемо виключити можливість поширених причин без емпіричних спостережень.
У багатьох випадках важко визначити, що викликає те, що, навіть коли ми знаємо багато про кореляції. Наприклад, наприкінці 1990-х років рівень насильницької злочинності у багатьох містах США знизився. Падіння супроводжувалося декількома факторами, наприклад, більшою кількістю поліції на такті, більш жорсткими законами про призначення покарань, різними освітніми програмами. Таким чином, існує (негативна) кореляція між кількістю поліцейських і кількістю злочинів, між більш жорсткими покараннями і кількістю злочинів (більше поліції, менше злочинів) тощо. Але існує велика дискусія про те, що саме спричинило падіння злочинності (природно, кожен учасник хоче взяти на себе кредит). Звичайно, може бути, що кожен з цих факторів, наприклад, більше поліції, підвищення освіти, зіграв певну причинно-наслідкову роль. Дуже важко визначити, наскільки різниця має кожен з факторів, але нам потрібно це зробити, якщо ми збираємося впроваджувати ефективні заходи щодо зниження злочинності.
Відомо також, що самооцінка і депресія негативно співвідносяться. Зниження самооцінки, як правило, йде з депресією. Але що викликає те, що? Зниження самооцінки цілком може призвести до депресії, але депресія також може знизити самооцінку. Звичайно, тут може виникнути замкнуте коло, де кожен стан погіршує інше. Але також можливо, що є якась третя причина, наприклад, низький рівень нейромедіаторів у мозку або негативні події в житті.
Як показують ці приклади, пошук причин часто важливий для вирішення серйозних проблем, таких як злочинність та депресія. Але хоча кореляції часто можна виявити при ретельному спостереженні, відстеження причин часто набагато складніше. Найкраще це робити в експериментальній обстановці, де ми можемо контролювати вплив відповідних змінних.
Кореляційна та інференційна статистика
Після того, як ми визначимо, чи співвідносяться дві змінні у вибірці, ми можемо зробити висновки про те, чи співвідносяться вони в популяції. Тут актуальний матеріал, який був раніше в цьому розділі, присвячений статистиці висновків.
Вправи
- Визначте, чи є кореляція між наступними парами змінних сильною, помірною або слабкою, а в тих випадках, які не стосуються дихотомічних змінних, визначте, чи є кореляція позитивною чи негативною. Захистіть свою відповідь (якщо ви не впевнені у відповіді, поясніть, яка додаткова інформація вам знадобиться для її виявлення); у кожному випадку думайте про цифри як про особливості вимірювання дорослих у Сполучених Штатах:
- зріст і вага
- вага і зріст
- вага і калорійність
- вага і дохід
- вага і бал на АКТ
- вага і кількість вправ
- вага і стать
- роки навчання та доходи
- Наявність шизофренії та перебування з неблагополучної сім'ї позитивно корелюють. Перерахуйте кілька можливих причин такої кореляції. Які тести можуть визначити, які можливі причини насправді грають?
- Як ви можете визначити, чи співвідносяться перегляд телевізійних шоу, що зображують насильство та вчинення насильницьких дій у дітей до десяти років? Припустимо, що вони були: які можливі причини можуть пояснити цю кореляцію?
- Багато злочинців приїжджають з будинків-одинаків. Детально поясніть, що вам потрібно знати, щоб визначити, чи дійсно існує кореляція між злочинцем і приходом з одного батьківського будинку. Потім поясніть, що ще вам потрібно знати, щоб мати які-небудь обґрунтовану думку про те, чи приходить з одного батьківського будинку змушує людей стати злочинцями.
- Як би ви йшли про оцінку твердження про те, що існує сильна позитивна кореляція між курінням марихуани та виникненням проблем із законом?
- Ми часто чуємо про силу позитивного мислення, і про те, як люди, які мають хороший, позитивний настрій, мають більше шансів одужати після багатьох серйозних захворювань. Яку претензію це робить щодо кореляцій? Як би ви йшли про оцінку цього твердження?
- Припустимо, що 30% тих, хто курить марихуану, потрапляють в біду із законом, а 70% - ні. Припустимо далі, що 27% тих, хто не палить марихуану, потрапляють у біду із законом, а 73% - ні. Які значення Pr (T|M) і Pr (T|~M). Чи корелюють куріння марихуани і потрапляння в біду з законом? Якщо так, то кореляція позитивна чи негативна? Начебто вона велика чи маленька?
- Припустимо, ми отримаємо наступну статистику для випускного класу середньої школи Вілбура: 46 учнів (це фактична кількість учнів, а не відсоток), які курили марихуану, потрапили в біду з законом, а 98 - ні. А 112 з тих, хто не курив марихуану, потрапили в біду із законом, а 199 - ні. Які значення Pr (T|M) і Pr (T|~M)? Чи корелюють куріння марихуани і потрапляння в біду з законом? Якщо так, то кореляція позитивна чи негативна? Начебто вона велика чи маленька?
- Припустимо, що минулого року дорожній патруль в сусідньому стані повідомив про наступне: 10 осіб, які загинули в автомобільних аваріях, були пристебнуті ременями безпеки, а 37 не були в ременях безпеки. Крім того, 209 людей, які не загинули (але були залучені) у аваріях, носили ремені безпеки, тоді як 143 не носили їх. Чи дає це якісь докази того, що ремені безпеки запобігають смерті в разі ДТП? Чи існує ненульова кореляція між носінням ременів безпеки та загибеллю в аварії? Якщо так, то позитивний він чи негативний, і який відносний розмір (великий, помірний, малий)? Обов'язково виправдайте свої відповіді.
Додаткові послуги для експертів. Довести, що позитивна кореляція симетрична. Тобто довести, що Pr (A|B) > Pr (A) на всякий випадок Pr (B|A) > Pr (B)
