9.1: Обробка даних
- Page ID
- 97646
«З огляду на достатню кількість очних яблук, всі клопи неглибокі».
—Ерік Реймонд
Ми говорили про поширені помилки, допущені вченими, і про те, як найкращий спосіб їх виявити - це трохи зовнішньої уваги. Рецензування надає деяку цю перевірку, але рецензент не має часу для широкого повторного аналізу даних та читання коду для помилок - рецензенти можуть лише перевірити, чи має сенс методологія. Іноді вони помічають очевидні помилки, але тонкі проблеми зазвичай пропускаються. 52
Ось чому багато журналів та професійних товариств вимагають, щоб дослідники надавали свої дані іншим вченим за запитом. Повні набори даних зазвичай занадто великі для друку на сторінках журналу, тому автори повідомляють про свої результати та надсилають повні дані іншим вченим, якщо вони попросять копію. Можливо, вони знайдуть помилку або закономірність, яку пропустили оригінальні вчені.
Або так це йде в теорії. У 2005 році Єлте Вічертс і його колеги з Амстердамського університету вирішили проаналізувати кожну недавню статтю в декількох відомих журналах Американської психологічної асоціації, щоб дізнатися про їх статистичні методи. Вони обрали APA частково тому, що це вимагає від авторів погоджуватися поділитися своїми даними з іншими психологами, які прагнуть перевірити свої претензії.
З 249 досліджень, для яких вони шукали дані, вони отримали дані лише за 64 шість місяців пізніше. Майже три чверті авторів дослідження ніколи не надсилали свої дані. 61
Звичайно, вчені - зайняті люди, і, можливо, у них просто не було часу на складання своїх наборів даних, виготовлення документів, що описують, що означає кожна змінна і як вона вимірювалася, і так далі.
Вічертс і його колеги вирішили, що випробують це. Вони пройшли всі дослідження, шукаючи загальні помилки, які можна було помітити, читаючи статтю, такі як суперечливі статистичні результати, неправильне використання різних статистичних тестів та звичайні помилки. Щонайменше половина статей мала помилку, як правило, незначну, але\(15\)% повідомили щонайменше один статистично значущий результат, який був значним лише через помилку.
Далі вони шукали кореляцію між цими помилками і небажанням ділитися даними. З'явилися чіткі відносини. Автори, які відмовилися ділитися своїми даними, швидше за все, допустили помилку у своїй роботі, і їх статистичні дані, як правило, були слабшими. 60 Оскільки більшість авторів відмовилися ділитися своїми даними, Вічертс не міг копати більш глибокі статистичні помилки, і багато інших можуть ховатися.
Це, звичайно, не є доказом того, що автори приховували свої дані, побоюючись, що їх помилки можуть бути виявлені, або навіть те, що автори взагалі знали про помилки. Кореляція не означає причинно-наслідкового зв'язку, але вона виляє бровами сугестиво і жест крадькома під час рота «дивитися там». \(^{[1]}\)
Виноски
[1] Жарт безсоромно вкрадений з альтернативного тексту http://xkcd.com/552/.
