6.2: Вимірювання
- Page ID
- 98213
Цілі навчання
- Опишіть надійність з точки зору справжніх балів і помилок
- Визначте стандартну похибку вимірювання та вкажіть, чому вона цінна
- Розрізняють надійність і валідність
- Визначте, як надійність визначає верхню межу дійсності
Збір даних передбачає вимірювання. Вимірювання деяких характеристик, таких як зріст і вага, є відносно простим. Вимірювання психологічних атрибутів, таких як самооцінка, може бути складним. Хороша шкала вимірювань повинна бути і надійною, і дійсною. Ці поняття будуть розглянуті по черзі.
Надійність
Поняття надійності обертається навколо того, чи отримаєте ви хоча б приблизно такий же результат, якщо ви вимірюєте щось двічі за допомогою одного і того ж вимірювального приладу. Поширеним способом визначення надійності є кореляція між паралельними формами тесту. Нехай «тест» представляє паралельну форму тесту, символ\(r_{test,test}\) використовується для позначення достовірності тесту.
Справжні оцінки та помилки
Припустімо, що ви хочете виміряти середній час реакції людини на початок стимулу. Для простоти припустимо, що немає навчання над тестами, що, звичайно, насправді не відповідає дійсності. Людині даються\(1,000\) випробування на завдання, і ви отримуєте час відповіді на кожне випробування.
Середній час відгуку над\(1,000\) випробуваннями можна розглядати як «справжню» оцінку людини або, принаймні, дуже гарне наближення його. Теоретично, справжня оцінка - це середнє значення, до якого буде наближатися, оскільки кількість випробувань збільшується до нескінченності.
Індивідуальний час відгуку можна вважати складеною з двох частин: справжньої оцінки та похибки вимірювання. Таким чином, якби справжня оцінка людини була\(345\) і їх відповідь на одне з випробувань була\(358\) б похибка вимірювання\(13\). Аналогічно, якби час відгуку був\(340\), похибка вимірювання була б\(-5\).
Тепер розглянемо більш реалістичний приклад класу студентів, які здають іспит\(100\) -point true/false. Припустимо, що кожен студент знає відповідь на деякі питання і поняття не має про інші питання. Заради простоти ми припускаємо, що немає часткового знання жодного з відповідей і на задане питання студент або знає відповідь, або здогадується. Нарешті, припустимо, що тест оцінений таким чином, що студент отримує один бал за правильну відповідь і втрачає бал за неправильну відповідь. У цьому прикладі справжня оцінка студента - це кількість питань, на які вони знають відповідь, і їх оцінка помилок - це їх оцінка на питаннях, на які вони здогадалися. Наприклад, припустимо, що студент\(90\) знав відповіді і правильно вгадав про\(7\) решту\(10\) (і тому неправильно на\(3\)). Їх справжня оцінка була б,\(90\) оскільки це кількість відповідей, які вони знали. Їх оцінка помилок буде,\(7 - 3 = 4\) і тому їх фактична оцінка тесту буде\(90 + 4\).
Кожен тестовий бал можна розглядати як суму двох незалежних компонентів, істинної оцінки та оцінки помилок. Це можна записати як:
\[y_{test}=y_{true}+y_{error}\]
Наступний вираз випливає безпосередньо з Закону суми дисперсії:
\[\sigma _{Test}^{2}=\sigma _{True}^{2}+\sigma _{Error}^{2}\]
Надійність з точки зору справжніх балів і помилок
Показано, що достовірністю тесту\(r_{test,test}\), є відношення дисперсії істинної оцінки до дисперсії тест-балів. Це можна записати як:
\[r_{test,test}=\frac{\sigma _{True}^{2}}{\sigma _{Test}^{2}}=\frac{\sigma _{True}^{2}}{\sigma _{True}^{2}+\sigma _{Error}^{2}}\]
PDF деривації
Важливо розуміти наслідки ролі, яку відіграє дисперсія справжніх балів у визначенні надійності: якби тест був проведений у двох популяціях, для яких дисперсія справжніх балів відрізнялася, надійність тесту була б вищою у популяції з вищим істинним балом дисперсія. Тому надійність - це не властивість тесту як такої, а надійність тесту в даній сукупності.
Оцінка похибки вимірювання
Надійність тесту не показує безпосередньо, наскільки близькі тестові бали до справжніх балів. Тобто, це не показує, наскільки тестовий бал людини буде відрізнятися в паралельних формах тесту. За визначенням, середнє значення за великою кількістю паралельних тестів було б справжньою оцінкою. Стандартне відхилення тестових балів людини вказувало б на те, наскільки показники тесту варіюються від справжньої оцінки. Це стандартне відхилення називається стандартною похибкою вимірювання. На практиці непрактично давати тест знову і знову одній і тій же особі та/або припускати, що практичних ефектів немає. Замість цього для оцінки стандартної похибки вимірювання використовується наступна формула.
\[S_{measurement}=S_{test}\sqrt{1-r_{test,test}}\]
де\(S_{measurement}\) стандартна похибка вимірювання,\(S_{test}\) є стандартним відхиленням тестових балів і\(r_{test,test}\) надійність тесту. Беручи крайності, якщо надійність є,\(0\) то стандартна похибка вимірювання дорівнює стандартному відхиленню тесту; якщо надійність ідеальна (\(1.0\)), то стандартна похибка вимірювання є\(0\).
Підвищення надійності
Важливо зробити заходи максимально надійними, наскільки це практично можливо. Припустимо, дослідник вивчає зв'язок між просторовою здатністю і набором інших змінних. Чим вище надійність тесту просторової здатності, тим вище будуть кореляції. Аналогічно, якщо експериментатор прагне визначити, чи знижує той чи інший полк вправ артеріальний тиск, чим вище достовірність міри артеріального тиску, тим чутливіше експеримент. Точніше, чим вище надійність, тим вище потужність експерименту. Потужність детально висвітлюється тут. Нарешті, якщо тест використовується для відбору студентів для вступу в коледж або співробітників для роботи, чим вище надійність тесту, тим сильніше буде відношення до критерію.
Два основних способи підвищення надійності:
- для поліпшення якості предметів і
- збільшити кількість предметів.
Предмети, які або занадто прості, так що майже кожен отримує їх правильно або занадто важко, так що майже ніхто не отримує їх правильно, не є хорошими предметами: вони надають дуже мало інформації. У більшості контекстів пункти, які приблизно половина людей отримують правильними, є найкращими (за інших рівних умов).
Елементи, які не співвідносяться з іншими предметами, зазвичай можуть бути поліпшені. Іноді пункт заплутаний або неоднозначний.
Збільшення кількості позицій підвищує надійність способом, показаним за такою формулою:
\[r_{new,new}=\frac{kr_{test,test}}{1+(k-1)r_{test,test}}\]
де\(k\) - коефіцієнт, за допомогою якого збільшується довжина тесту,\(r_{new,new}\) - це надійність нового більш тривалого тесту, а також\(r_{test,test}\) поточна надійність. Наприклад, якщо тест з\(50\) предметами має надійність,\(0.70\) то надійність тесту, який є в\(1.5\) рази довше (\(75\)елементи), буде обчислюватися наступним чином:
\[r_{new,new}=\frac{(1.5)(0.70)}{1+(1.5-1)(0.70)}\]
який дорівнює\(0.78\). Таким чином, збільшення кількості елементів від\(50\) до\(75\) підвищило б надійність від\(0.70\) до\(0.78\).
Важливо відзначити, що дана формула передбачає, що новинки мають ті ж характеристики, що і старі предмети. Очевидно, додавання поганих елементів не підвищить надійність, як очікувалося, і навіть може знизити надійність.
Більше інформації про надійність від джерела знань Вільяма Трохіма
Термін дії
Термін дії тесту стосується того, чи вимірює тест те, що він повинен вимірювати. Три найпоширеніші типи дійсності - це дійсність особи, емпірична валідність та дійсність конструкції. Ці види дійсності ми розглянемо нижче.
- Дійсність обличчя: Обґрунтованість обличчя тесту стосується того, чи здається тест вимірювати те, що він повинен вимірювати. Тобто, чи здається, що тест «на обличчі» вимірює те, що він повинен вимірювати. Азіатський історичний тест, що складається з низки питань про азіатську історію, мав би високу валідність обличчя. Якби тест включав в першу чергу питання про американську історію, то він мало б або взагалі не мав би дійсності обличчя як тест азіатської історії.
- Прогнозна валідність: Прогнозна валідність (іноді її називають емпіричною валідністю) стосується здатності тесту передбачати відповідну поведінку. Наприклад, основним способом перевірки тестів SAT є їх здатність прогнозувати оцінки коледжу. Таким чином, наскільки ці тести успішні при прогнозуванні оцінок коледжу, вони, як кажуть, мають прогнозну валідність.
- Construct Validity: Побудуйте валідність визначити складніше. Загалом, тест має конструктивну валідність, якщо його закономірність кореляцій з іншими заходами відповідає конструкції, яку він має на меті виміряти. Конструкція валідності може бути встановлена, показавши, що тест має як конвергентну, так і розбіжну валідність. Тест має конвергентну дійсність, якщо він корелює з іншими тестами, які також є заходами даної конструкції. Дивергентна валідність встановлюється, показуючи, що тест не сильно корелює з випробуваннями інших конструкцій. Звичайно, деякі конструкції можуть перекриватися, тому встановлення конвергентної та дивергентної дійсності може бути складним.
Щоб взяти приклад, припустимо, що хтось бажає встановити конструктивну валідність нового тесту просторової здатності. Конвергентну та розбіжну валідність можна встановити, показавши, що тест відносно високо корелює з іншими показниками просторової здатності, але менш високо з тестами вербальних здібностей або соціального інтелекту.
Надійність та прогнозна валідність
Надійність тесту обмежує розмір кореляції між тестом та іншими заходами. В цілому співвідношення тесту з іншою мірою буде нижче, ніж надійність тесту. Зрештою, як тест міг співвідносити з чимось іншим настільки високим, наскільки він корелює з паралельною формою себе? Теоретично можна для тесту співвіднести настільки ж високо, як квадратний корінь надійності з іншою мірою. Наприклад, якщо тест має надійність,\(0.81\) то він може співвідносити так само високо, як і\(0.90\) з іншим заходом. Це може статися, якби інший захід був абсолютно надійним випробуванням тієї ж конструкції, що і тест, про який йде мова. На практиці це дуже малоймовірно.
Кореляція вище верхньої межі, встановленої надійністю, може виступати червоним прапором. Наприклад, Vul, Harris, Winkielman та Paschler (\(2009\)) виявили, що в багатьох дослідженнях кореляції між різними моделями активації фМРТ та особистісними показниками були вищими, ніж дозволяє їх надійність. Ретельне вивчення цих досліджень виявило серйозні недоліки в способі аналізу даних.
Vul, E., Harris, C., Winkielman, P., & Paschler, H. (2009) Загадково високі кореляції в fMRI досліджень емоцій, особистості та соціального пізнання. Перспективи психологічної науки, 4, 274-290.
