Text
                    Р. Майкл Фер • Верн Р. Бакарак
ПСИХОМЕТРИКА
Введение

PSYCHOMETRICS An Introduction R. Michael Furr Wake Forest University Verne R. Bacharach Appalachian State University ® SAGE Publications Los Angeles • London • New Delhi • Singapore
Copyright © 2008 by Sage Publications, Inc. All rights reserved. No part of this book may be reproduced or utilized in any form or by any means, electronic or mechanical, including photocopying, recording, or by any information storage and retrieval system, without permission in writing from die publisher. For information: Sage Publications, Inc. 2455 Teller Road Thousand Oaks. California 91320 E-mail: order@sagepub.com Sage Publications Ltd. 1 Oliver's Yard 55 City Road London ECI Y ISP United Kingdom Sage Publications India Pvt. Ltd. В 1/1 1 1 Mohan Cooperative Industrial Area Mathura Road, New Delhi 110 044 India Sage Publications Asia-Pacific Pte. Ltd. 33 Pekin Street #02-01 Far East Square Singapore 048763 Printed in the United States of America Library of Congress Cataloging-in-Publication Data Furr, R. Michael. Psychometrics: An introduction/R. Michael Furr, Verne R. Bacharach. p. cm. Includes bibliographical references and index. ISBN 978-1-4129-2760-4 (cloth) 1. Psychometrics. I. Bacharach, Veme R. II. Title. BF39.F87 2008 150.Г5195—dc22 2007016663 Printed on acid-free paper. 07 08 09 10 11 10 987654321 Acquiring Editor: Editorial Assistant: Production Editor: Copy Editor: Proofreader: Indexer: Typesetter: Cover Designer: Marketing Manager: Cheri Dellelo Anna Mesick and Lara Grambling Sarah K. Quesenberry Gillian Dickens Kris Bergstad Ellen Slavitz C&M Digitals (P) Ltd. Janet Foulger Stephanie Adams
Р. Майкл Фер Верн Р. Бакарак ПСИХОМЕТРИКА Введение
Майкл Фер посвящает эту книгу отцу и матери. Верн Бакарак посвящает эту книгу своим детям - Ли, Сэму и Уиллу — и их матерям
Министерство образования и науки Российской Федерации Федеральное агентство по образованию Южно-Уральский государственный университет Кафедра «Психологическая диагностика и консультирование» ПСИХОМЕТРИКА Введение Р. Майкл Фер Уэйк-Форестский университет Верн Р. Бакарак Государственный университет Аппалачей Перевод с английского Под ред. Н.А. Батурина, Е.В. Эйдмана SAGE Publications Los Angeles. London. New Delhi. Singapore Челябинск Издательский центр ЮУрГУ 2010
УДК 159.938.3 + 159.9.07:51-07 ББК Ю9.В6 Ф43 Перевод с английского: А.С. Науменко, А.Ю. Попов Под редакцией Н.А. Батурина, Е.В. Эйдмана Рецензенты: Г.Г. Горелова, доктор психологических наук, профессор; А.А. Волочков, доктор психологических наук, профессор Р. Майкл Фер Ф43 Психометрика: Введение / Р. Майкл Фер, Верн Р. Бакарак; пер. с англ. А.С. Науменко, А.Ю. Попова; под ред. Н.А. Батурина, Е.В. Эйдмана. - Челябинск: Издательский центр ЮУрГУ, 2010. - 445 с. ISBN 978-5-696-04037 В книге представлены основы психометрики, рассмотрены базовые понятия измерения, основы надежности и валидности, угрозы психометрическому качеству теста, а также современные психометрические подходы. Книга предназначена для студентов старших курсов, аспирантов и профессионалов из различных областей наук о поведении УДК 159.938.3 + 159.9.07:51-07 ББК Ю9.В6 © 2008 Los Angeles, London, New Dehli, Singapore SAGE PUBLICATIONS, INC © Южно-Уральский государственный университет, перевод на русский язык, 2009 ISBN 978-5-696-04037 © Издательский центр ЮУрГУ, 2010 Права на издание получены по соглашению с SAGE PUBLICATIONS. INC. Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме и какими бы го ни было средствами без письменного разрешения владельцев авторских прав.
ОГЛАВЛЕНИЕ Предисловие к русскому изданию xvi Предисловие xxviii Концептуальная направленность данной книги и предполагаемая xxviii аудитория Обзор содержания xxix Благодарности xxxii Глава 1. Психометрика и важность психологического измерения 1 Наблюдаемое поведение и ненаблюдаемые психологические 3 характеристики Психологические тесты: определение и типы 5 Что такое психологический тест? 5 Типы тестов 6 Психометрика 8 Что такое психометрика? 8 Фрэнсис Гальтон и предметная область психометрики 9 Проблемы измерения в психологии 11 Тема: важность индивидуальных различий 14 Рекомендуемая литература 15 Часть I. БАЗОВЫЕ ПОНЯТИЯ ИЗМЕРЕНИЯ 17 Глава 2. Шкалирование 18 Фундаментальные особенности чисел 19 Свойство идентичности 19 Свойство порядка 20 Свойство количества 21 Число нуль 21 Единицы измерения 23 Сложение и подсчет 25 Сложение 25 Подсчет: когда он может служить мерой психологического 27
свойства? Четыре шкалы измерения 27 Шкалы наименования 28 Шкалы порядка 29 Шкалы интервалов 30 Шкалы отношений 30 Дополнительные вопросы, связанные со шкалами измерения 31 Резюме 32 Рекомендуемая литература 33 Глава 3. Индивидуальные различия и корреляции 34 Природа дисперсии 34 Важность индивидуальных различий 35 Дисперсия и распределение тестовых баллов 37 Центральная тенденция 37 Дисперсия 39 Формы распределений и нормальное распределение 43 Измерение связи между распределениями 45 Интерпретация связи между двумя переменными 45 Ковариация 47 Корреляция 49 Дисперсия составных переменных 51 Бинарные пункты 51 Интерпретация тестовых баллов 54 Z-баллы (стандартные баллы) 56 Преобразованные стандартные баллы (стандартизованные 60 баллы) Процентильные ранги 61 Нормализованные баллы 64 Тестовые нормы 65 Репрезентативность выборки стандартизации 66 Резюме 67 Рекомендуемая литература 68 Глава 4. Измерения теста и факторный анализ 70 Измерения теста 72 Одномерные тесты 73 Многомерные тесты со связанными измерениями (тесты с факторами более высокого порядка) 75 Многомерные тесты с несвязанными измерениями 77 Психологический смысл измерений теста 78 Факторный анализ: изучение измерений теста 78 Логика и цель факторного анализа 79 Результаты факторного анализа 81
Резюме 87 Рекомендуемая литература 88 Часть II. НАДЕЖНОСТЬ 89 Глава 5. Надежность: понятийный аппарат 90 Обзор надежности и классической теории тестов 92 Наблюдаемые баллы, истинные баллы и ошибка измерения 93 Дисперсии наблюдаемых баллов, истинных баллов и ошибки 97 измерения Четыре подхода к пониманию надежности 99 Надежность как отношение дисперсий истинного балла и 100 наблюдаемого балла Отсутствие дисперсии ошибки 102 Квадрат корреляции между наблюдаемыми и истинными 104 баллами Нулевой квадрат корреляции между наблюдаемыми баллами и 107 ошибкой Надежность и стандартная ошибка измерения 110 Параллельные тесты 112 Теория отбора тестовых заданий 115 Резюме 116 Рекомендуемая литература 117 Глава 6. Эмпирическая оценка надежности 118 Альтернативные формы надежности 119 Тест-ретестовая надежность 122 Надежность как внутренняя согласованность 126 Оценка надежности расщеплением пополам 127 «Сырой» коэффициент альфа 130 «Стандартизованный» коэффициент альфа 133 Сырая альфа для бинарных пунктов: KR20 135 Точность и использование оценки надежности как внутренней 137 согласованности: теория и реальность Внутренняя согласованность и измерения теста 139 Факторы, влияющие на надежность тестовых баллов 140 Однородность выборки и генерализация надежности 148 Надежность баллов различия 149 Тесты с различными метриками и необходимость 154 стандартизации баллов Различные типы баллов различия 156 Баллы различия: резюме и предостережение 157 Резюме 157 Рекомендуемая литература 158
Глава 7. Важность надежности 160 Исследования поведения 160 Надежность, истинные корреляции и наблюдаемые корреляции 160 Ошибка измерения (низкая надежность) ослабляет корреляцию 163 между переменными Надежность и затухание: значение для исследований 168 Анализ поведения в практике: оценка индивидуального тестового 172 балла Точечная оценка истинных баллов 173 Доверительные интервалы истинных баллов 177 Конструирование и доработка теста 180 Дискриминативность пунктов и другие вопросы, связанные с 182 внутренней согласованностью Сложность пунктов (среднее) и дисперсия пунктов 186 Резюме 187 Рекомендуемая литература 188 Часть III. ВАЛИДНОСТЬ 189 Глава 8. Валидность: теоретические основы 190 Что такое валидность? 191 Эмпирические свидетельства валидности: содержание теста 196 Угрозы содержательной валидности 196 Содержательная валидность и очевидная валидность 198 Эмпирические свидетельства валидности: внутренняя структура 199 теста Эмпирические свидетельства валидности: процесс ответа 203 респондента на пункт Эмпирические свидетельства валидности: взаимосвязи с другими 205 переменными Эмпирические свидетельства валидности: последствия 209 тестирования Другие подходы к проблеме валидности 212 Сопоставление надежности и валидности 215 Важность исследований валидности 216 Резюме 219 Рекомендуемая литература 219 Глава 9. Валидность: вычисление и оценка конвергентной и 221 дивергентной валидности Методы оценки конвергентной и дивергентной валидности 222 Прицельные корреляции 223 Наборы корреляций 226
Мультипризнаковые-мультиметодные матрицы 230 Квантификация конструктной валидности 239 Факторы, влияющие на коэффициент валидности 245 Взаимосвязь конструктов 245 Ошибка измерения и надежность 245 Ограниченная амплитуда значений 247 Процентное соотношение респондентов в дихотомических 252 переменных Эффект метода 256 Время 257 Прогнозирование единичных событий 257 Интерпретация коэффициента валидности 259 Корреляции в квадрате и «доля объяснимой дисперсии» 260 Оценка практических эффектов: эффект контрастных групп, 262 таблицьг Тейлора-Расселла, анализ прагматической полезности и чувствительности/специфичности Нормативы или стандарты в определенной области 268 Статистическая значимость 269 Резюме 275 Рекомендуемая литература 276 Часть IV. УГРОЗЫ ПСИХОМЕТРИЧЕСКОМУ КАЧЕСТВУ 277 ТЕСТА Глава 10. Установки на ответ 278 Типы установок респондента на ответ 279 Установка на согласие (установка на положительный или 280 отрицательный ответ) Установка на крайние ответы и установка на промежуточные 284 ответы Социальная желательность 288 Симуляция неблагополучия 293 Бездумные или случайные ответы 295 Угадывание 295 Методы борьбы с установками на ответ 296 Контроль за ситуацией тестирования с целью предотвращения 296 установок на ответ Контроль содержания теста с целью предотвращения 299 установок на ответ Контроль содержания теста и процесса вычисления тестовых 300 баллов для минимизации последствий от установок на ответ Контроль содержания теста с целью обнаружения установок на 304 ответ и дальнейшего вмешательства Использование специализированных тестов для обнаружения 308
установок на ответ и дальнейшего вмешательства Внешние и внутренние факторы, определяющие установки на ответ 310 Резюме 311 Рекомендуемая литература 311 Глава 11. Необъективность теста 313 В чем важность необъективности тестовых баллов? 315 Обнаружение неадекватности конструкта: внутренняя оценка теста 316 Индекс дискриминативности пунктов 318 Факторный анализ 319 Анализ дифференциального функционирования пунктов 320 Ранжирование 323 Определение прогностической ошибки: внешняя оценка теста 324 Основы регрессионного анализа 326 «Универсальная мера»: общее регрессионное уравнение 328 Систематическая ошибка свободного члена регрессии 330 Систематическая ошибка углового коэффициента регрессии 331 Смешанная систематическая ошибка свободного члена и 333 углового коэффициента регрессии Систематическая ошибка критериальной переменной 334 Эффект надежности 334 Другие статистические методы 335 Справедливость теста 335 Резюме 336 Рекомендуемая литература 337 Часть V. СОВРЕМЕННЫЕ ПСИХОМЕТРИЧЕСКИЕ ПОДХОДЫ: 338 ВЫСШАЯ ПСИХОМЕТРИКА Глава 12. Теория генерализуемости тестовых баллов 339 Множественные компоненты измерения 341 Генерализуемость тестовых баллов и компоненты дисперсии 343 G-анализ и D-анализ 345 Проведение и интерпретация анализа генерализуемости: 346 однокомпонентный исследовательский дизайн Стадия 1: G-анализ 347 Стадия 2: D-анализ 351 Проведение и интерпретация анализа генерализуемости: 355 двухкомпонентный исследовательский дизайн Стадия 1: G-анализ 358 Стадия 2: D-анализ 363 Другие измерительные дизайны 367 Количество компонентов измерения 367 Рандомизированные и фиксированные компоненты измерения 367 Перекрестные и вложенные дизайны 369
Относительные и абсолютные решения 370 Резюме 372 Рекомендуемая литература 373 Глава 13. Теория ответов на пункты и модели Раша 374 Основы теории ответов на пункты 374 Уровень выраженности признака как фактор ответа на пункт . 375 Уровень сложности пункта как фактор ответа на пункт 375 Дискриминативная способность пункта как фактор ответа на 377 пункт Измерительные модели IRT 379 Пример из области IRT: модель Раша 382 Информативность пунктов и теста 385 Характеристические кривые пунктов 385 Информативность теста 387 Области применения IRT 392 Разработка и усовершенствование тестов 393 Дифференциальное функционирование пунктов 393 Необычные паттерны ответов 394 Компьютеризированное адаптивное тестирование 395 Резюме 397 Рекомендуемая литература 397 Библиография 399 Предметно-именной указатель 407 Об авторах 413
Предисловие к русскому изданию «Если что-то существует, оно обязательно существует в каком-то количестве — и, следовательно, может быть измерено» — это наблюдение Терстоуна (Thurstone, 1938) десятилетиями вдохновляло развитие теории измерений и одного из наименее очевидных ее подразделов - теории психологических измерений. Психометрика - дисциплина, обобщающаяся практику психологических измерений, за годы выросла из занятия в основном академического в развитую индустрию, с обилием прикладных задач, измерительного инструментария (тестов) и хорошо обоснованными «правилами игры». Главное предназначение психологических тестов - помогать в принятии решений. От диагностики эмоциональных нарушений у детей до оценки интеллекта и социальных навыков при приеме на работу. Тесты в руках квалифицированного профессионала дают возможность оценить способности и черты личности с уверенностью, недоступной невооруженному наблюдателю. С другой стороны, исследование человеческих способностей и черт личности, факторов, их определяющих, а также параметров деятельности, зависящих от них, невозможно без создания валидных и надежных методов измерения и диагностики психологических конструктов. В перечисленных вопросах пересекаются и оказываются неразрывно связанными, с одной стороны, чисто исследовательские интересы, а с другой - сугубо практические, прикладные задачи. Будущее профессионального психологического инструментария — в конструктивном сочетании обоих подходов, когда психодиагностический тест - это не только средство «тиражировать» готовое знание о человеке, но и новый источник такого знания. Психометрика - это наука, лежащая в основе создания психодиагностических измерительных инструментов, а также в основе анализа качества и оптимизации существующих психологических тестов. На протяжении многих лет на столе у отечественных разработчиков и пользователей психодиагностического инструментария не было xvi
специализированной книги по психометрике1. Этот пробел частично восполнялся материалами из разделов по психометрике в отечественных учебниках по психодиагностике и в зарубежных по тестированию. К сожалению, российские специалисты так и не отважились написать полноценную книгу по психометрике. Именно поэтому и возникла необходимость в переводе зарубежной книги. Выбрать самую подходящую из множества зарубежных монографий и учебников по психометрике нам помог американский коллега Том Окланд (Тот Oakland). Он попал не в бровь, а в глаз, прислав нам для ознакомления книгу Фера и Бакарака (Furr & Bacharach, 2008) - предугадав таким образом, что нам нужна книга, написанная простым языком о сложных вещах. В Предисловии к оригиналу авторы так и пишут: «...психометрику не обязательно преподавать сложно. Мы писали эту книгу для того, чтобы представить основы психометрики тем, кто должен понимать суть измерений, используемые в психологии и других науках о поведении. Наша книга предназначена студентам старших курсов, аспирантам и профессионалам из различных областей науки о поведении. Она будет полезна тем, кто хорошо разбирается в основных понятиях и логике психометрики. Она была написана для опытных психометристов и тех, кто только собирается ими стать». Знакомство с книгой Фера и Бакарака и сравнение ее с тем материалом по психометрике, который обычно фигурирует в отечественных книгах, выявляет существенную разницу, как в объеме, так и в разнообразии и тонкости психометрической информации. Многие проблемы с легкостью изложенные в книге, в отечественной психометрике просто никогда не обсуждаются, особенно разработчиками тестов. До сих пор создание тестов в России не стало объектом сколько-нибудь широкого обсуждения психологов. Обучение разработке тестов, а вместе с тем углубленное изучение психометрики не проводится ни на каком уровне обучения отечественных психологов. До сих пор разработка тестов - это либо вид полупрофессионального любительства, либо вынужденное занятие, поскольку исследователь (чаще всего диссертант) не нашел для изучаемой им проблемы профессионально разработанного теста. Даже прочитав книгу, от начала до конца остается непонятным, в каком жанре она написана: это учебник для начинающих, пособие для «продвинутых» или руководство для опытных психометристов? Авторы правы, она подойдет всем, поскольку начинается с самых простых, базовых понятий измерения (часть I), затем переходит к классическим темам - надежность, валидность и достоверность (части II, III, IV), наполняя их множеством неклассических подходов и примеров, а заканчивается книга главами для опытных специалистов, в которых рассматриваются принципиально новые (особенно для отечественных психодиагностов) темы по «теории генерализуемое™» и известной, но кажущейся недоступной в своей сложности Теории ответов на пункты (Item Response Theory - IRT). 'Какое-то исключение составляет книга Пола Клайна «Справочное руководство по конструированию тестов», изданная по инициативе Л.Ф. Бурлачука в Киеве в 1994 году. Сейчас она не только стала раритетом, но в ней, естественно, нет информации о новых достижениях психометрики. xvii
Читая книгу, ее научные редакторы, авторы этих строк, много лет занимающиеся психодиагностикой и тестированием, не уставали удивляться неожиданным поворотам авторов в разработке давно знакомых тем. неожиданным решениям для задач, остававшихся долгое время без ответа. Чтобы обратить на такие темы особое внимание отечественных специалистов, в это Предисловие включены краткие резюме по соответствующим главам книги. Эти резюме рассчитаны на то, чтобы вызвать читательский интерес к главам, а не заменить их детальное прочтение. В то же время, их можно рассматривать как «взгляд с птичьего полета» на содержание соответствующих глав, который может помочь читателю сформировать индивидуальную последовательность их чтения. Одним из важнейших достоинств этой книги является простота изложения. Авторьг не скрывают своей озабоченности тем, что начинающие психологи плохо знают математику и многие из них боятся всего, что связано с расчётами. Считая себя заядлыми гуманитариями, такие психологи нередко блокируют в себе попытки преодолеть этот страх. Поэтому авторьг очень спокойно и терпеливо, подробно разбирая множество различных примеров, разъясняют, что такое «свойство порядка», «свойство количества», «число нуль» в психологии, в чём специфика математических операций при измерении в психологическом мире. Думаем, что такая неторопливость и подробность изложения материала более чем оправдана. Более того, наверно так и надо знакомить с азами измерений в психологии, поскольку они во многом отличаются от более знакомых измерений в физическом мире. На множестве простых примеров авторы стремятся к тому, чтобы читателям стал понятен так называемый «физический смысл», а в данном случае лучше сказать «психологический смысл» измерения в очень специфической сфере - сфере «объектов», подавляющее большинство из которых относятся к категории ненаблюдаемых психологических характеристик, являясь не очевидными, то есть не доступными обычному восприятию. Их нельзя увидеть, потрогать, а можно только понять и опосредованно измерить. К сожалению, желание всё объяснить просто и доступно приводит к многочисленным повторам одного и того же содержания разными словами. Специалистам эти повторы могут показаться навязчивыми. Однако дидактическая их ценность для начинающих вряд ли вызовет сомнения. В последние годы разработано несколько мощных статистических софтвенных пакетов, таких как SPSS, позволяющих проводить обработку, расчёты почти всех мыслимых и не мыслимых статистических показателей. Появились даже книги для «чайников» по статистике, которые позволяют пользоваться этими стат, пакетами, нажимая на последовательность кнопок, изображённых на скриншотах в этих книгах. Складывается впечатление, что обработать экспериментальные данные человеку, плохо знающему статистику, не составит принципиальных проблем. Печальным последствием этого оказывается то, что психологи перестают понимать, да и интересоваться внутренним смыслом проводимых внутри компьютера расчётов. Это приводит к тому, что ошибки, возникшие на разных xviii
этапах исследования - от проведения измерения до распечатки результатов - становятся практически недоступными для обнаружения, а отпечатанные результаты обработки данных, даже самые бессмысленные, интерпретируются психологами нередко без всяких попыток оценить их реальность. Мало кому приходит в голову, что такие оценки просто обязаны предварять содержательную интерпретацию результатов. Всё это подтверждает необходимость, даже при наличии стат, пакетов, понимания смысла производимой обработки данных, смысла каждого статистического показателя, в том числе параметров, используемых в психометрике. Книга Фера и Бакарака является примером того, как важно учить именно осмысленной работе с данными. Авторы'затрачивают много времени и сил для того, чтобы донести до психолога смысл производимых расчётов: среднего, дисперсии, стандартного отклонения, корреляции, ковариации и т.д. (главы 2, 3, 4). Книга обладает ещё одним важным достоинством: она демонстрирует отечественным психологам возможности куда более строго подхода к планированию, проведению измерения, также интерпретации данных, чем принято у нас. Прекрасные примеры, точные и одновременно простые даже для неискушенных в психометрике, позволяют наблюдать за процессом приложения строгих психометрических подходов к вполне реальным исследованиям. Например, анализ надёжности, основанный на сравнении истинных и наблюдаемых корреляций (см. первый раздел главы 7) или демонстрация того, насколько низкая надёжность даже одного измерительного инструмента ослабляет корреляцию между переменными. Особенно показательно в этом отношении уравнение 7.4, известное как «поправка на затухание», вызванное низкой надёжностью инструментов. Использование уравнения 7.4 дает большое преимущество по сравнению с принятой у нас оценкой статистической значимости корреляции, зависящей только от величины выборки. Это также иллюстрирует более универсальное преимущество оценок величины статистического эффекта и ограниченность анализа статистической значимости любых параметров, долгое время преобладавшего в мировой психологии. То, что в книге по психометрике три отдельных главы (5, 6 и 7) посвящены анализу надёжности теста может показаться непривычным отечественному читателям. Для многих из них надёжность, это в лучшем случае величина, которая содержится в руководстве к тесту и, если она удовлетворительна, то на нее больше не обращают внимания вообще. Высокие показатели надёжности по умолчанию позволяют исследователю быть уверенным в полученных данных. Из содержания книги становится очевидно, что отечественные подходы к оценке надежности отличаются от описанных в книге. Во-первых, книгу отличает значительно большее внимание к научной базе анализа надежности теста. Целая глава (5-я) посвящена кропотливому разбору теоретических основ надежности с точки зрения классической теории тестов. При этом авторы показывают, что «надежность - это теоретическое свойство теста, и что она не может быть рассчитана прямо. Она выявляется из истинных баллов и ошибки измерения и может быть лишь примерно оценена на основе реальных данных». xix
Во-вторых, в отечественных работах по оценке надежности обычно опускают «понятие параллельных (или альтернативных) форм», которому придается ключевое значение в теоретических доказательствах оценки надежности теста. В-третьих, все привыкли к нескольким интуитивно понятным способам эмпирической проверки надежности, не задумьгваясь об их теоретическом обосновании, что при сравнении с более строгими подходами -даже эмпирических в своей сути методов, описанных в книге, обнаруживает пропуски в понимании природы надежности. Так, существует убежденность, что увеличение количества пунктов (длины теста или отдельной шкалы) всегда приводит к увеличению надежности теста. Авторы убедительно показывают ограниченность такого подхода: «добавление новых пунктов - это палка о двух концах. С одной стороны, при прочих равных длинные тесты надежнее коротких. С другой стороны, иногда может быть небезопасно предполагать, что все «прочее» (в первую очередь равенство новых пунктов по согласованности с исходными — Ред.) останется постоянным. На само деле, если средняя межпунктовая корреляция более длинного теста достаточно маленькая, тогда более длинный тест будет менее надежным, чем исходный». Авторы приводят очень полезный график (рис. 6.1), на котором показаны вязи между пунктами теста и надежностью, для теста с межпунктовой корреляцией 0.30. на котором хорошо видно, что надежность существенно возрастает до 0,72 при увеличении пунктов от 2 до 10. После этого добавление еще восьми пунктов, увеличивает внутреннюю согласованность только на 0,1 и доводит ее до 0,82. «Польза от добавления новых пунктов уменьшается с количеством добавленных пунктов», делают вывод авторы. Кроме того, увеличение пунктов имеет и практические ограничения - возрастает время на проведение и усталость испытуемых. Аналогичные выводы появлялись в отечественной литературе (Эйдман, Модина, 1992), однако они остались, в целом, незамеченными. Следующая тема, содержание которой отличается от кажущихся общепринятыми для нас тем - это валидность теста. Авторы книги указывают на то, что понятие валидности развивалось на протяжении более 60 лет, и за это время претерпело существенные изменения. Воспринимаемое как классическое определение валидности звучит так: «валидность это степень того, насколько тест измеряет именно то, для чего он предназначен». Однако Стандарты психологических тестов «The Standards for Educational and Psychological Testing" 1999 года, разработанные американской ассоциацией исследований в области образования (AERA), американской психологической ассоциацией (АРА) и национальным советом по измерениям в образовании (NCME), определяют валидность как «степень эмпирической и теоретической поддержки интерпретации тестовых баллов в предполагаемых сферах использования теста». Из этого следует, что валиден тест не сам по себе, а то насколько интерпретации результатов тестирования и способы их использования способствуют применению теста в соответствующих сферах его использования.
Величина валидности теста зависит от дополнительных условий, которые определяют ограничения областей содержательной интерпретации. Например, тест Добросовестности описанный авторами в Главе 8, не претендует на обладание высокой валидностью для всех случаев жизни, всех сфер деятельности и может быть равно пригодным для диагностики на мужской и женской выборках. Достаточно большой период времени развития психодиагностики (пока это условие было не общепринятым), исследователи, проверяя тест на «своих» выборках и в «своих» условиях могли обнаружить весьма высокие показатели валидности и тогда могли хвалить тест или низкие показатели - и указывать на то, что валидность теста явно недостаточна. Эта книга поможет разработчикам тестов у нас в стране уяснить для себя и разъяснить потребителям, что валидность теста ограничена областью содержательной интерпретации результатов теста. Обходится молчанием в отечественной психодиагностике и такой аспект валидности как её зависимость от возможных последствий (благоприятных или неблагоприятных), вызываемых самим процессом прохождения тестирования и особенностями интерпретации полученных результатов. Разработчики тестов здесь выходят в область этических или даже политических последствий тестирования. Еще одна проблема отечественных психологов, которые не хотят углубляться в «дебри» психометрики - это доминирование такого неизвестного в научной психометрике подхода как а «интуитивная валидность» (заметьте, не «очевидная», а именно «интуитивная»). Этот подход означает, что автор- разработчик просто уверен, «ему так кажется», что именно такой перечень пунктов хорошо выявляет исследуемое им свойство. А то, что инструмент должен измерять психологические характеристики в строгом значении этого слова - многие авторы-разработчики даже не задумываются. При этом среди методик, основанных на интуитивной валидности, известны не только простые одношкальные опросники, но и сложные семантические и проективные процедуры. В книге Фера и Бакарака целая глава (9) посвящена оценке степени конвергентной и дивергентной валидности теста. Авторы справедливо полагают, что это тема является краеугольным камнем проверки психометрического качества теста. В книге приводятся несколько способов такой проверки: от достаточно простых до весьма сложных. Если простые методы хотя и редко, но всё-таки используются в отечественной психометрике, то сложные методы - практически никогда. Особого внимания, на наш взгляд, заслуживает весьма тонкий анализ сложных взаимных корреляций между различными признаками и различными методами, используемыми при проверке валидности, предложенный еще Кемпбелом и Фиске (1959). В книге он переведён как «Мультипризнаковые мультиметодные матрицы» (МТМММ). Такой тонкий анализ взаимного и конкурентного влияния множества признаков и множества методов при проверке конструктной валидности xxi
совершенно не характерен для отечественных разработчиков психодиагностических методик. Авторы книги вслед за Кемпбелом и Фриске, демонстрируют «высший пилотаж» психометрического анализа, разбирая в качестве примера гипотетический случай проверки валидности учебного опросника «социальной компетентности», который проверяется путем предсказания величины и направления корреляций с другим опросником, измеряющим признаки родственного конструкта «эмоциональной устойчивости», с другими (экспертными) методами измерения тех же самых конструктов. В табл. 9.2 собраны все возможные сочетания четырёх типов корреляции: 1) гетеропризнаковые - гетерометодные; 2) гетеропризнаковые - монометодные; 3) монопризнаковые - гетерометодные и 4) монопризнаковые - монометодные. И хотя авторы книги сетуют, что в современной психометрике этот метод проверки конвергентной и дивергентной валидности используется, не так часто (в 2-х статьях из 13-и в журнале Psychological Assessment (АРА) за 2005 год), тем не менее, они делают такой вывод: «...Несмотря на не высокую частоту его применения, анализ МТМММ является важным шагом вперед в теории и методах оценки конвергентной и дивергентной валидности тестов. Данный подход во многом сформировал само понимание конструктной валидности, и без его рассмотрения невозможно полное понимание пс ихометрии ». В следующем параграфе рассматривается еще один «сложный» метод проверки конструктной (конвергентной и дивергентной) валидности, который, по мнению авторов, является еще более точным и более объективным методом «Квантификация конструктной валидности» (QCV). Этот относительно недавно (2003) разработанный метод безусловно достоин рекомендации для широкого использования. Основная идея метода состоит в проверке уровня соответствия двух паттернов корреляции - между эмпирически полученных корреляций показателей разрабатываемого (проверяемого) теста с совокупностью показателей других тестов (реальные корреляции) и теоретически предсказанных группой экспертов корреляций между конструктами тех же самых тестов или их отдельных показателей. Рассчитанные в итоге два показателя связи между паттернами реальных и теоретически предсказанных корреляций позволяют делать более точные и объективные выводы о конструктной валидности теста. Новый аспект валидности, редко обсуждаемый в отечественной литературе, представляет анализ совпадения между психологическими процессами, которые респондент в действительности (при выполнении теста) задействуют в процессе выполнения теста и теми процессами, которые они должны задействовать, согласно предположениям разработчиков теста. Авторы книги ссылаются на ряд экспериментов, в которых было показано различие между действительными (реальными) процессами и планируемыми при создании теста. Это позволяет сделать вывод о необходимости при проверке валидности теста контролировать и такой аспект как различия этих процессов. xxii
Совершенно новой для отечественной психодиагностики является детальное обсуждение проблемы «Необъективности теста» (глава И). В этой главе авторы продолжают анализ факторов, начатый в Главе 10, представляющих угрозу надежности и валидности в интерпретации и использовании тестовых баллов. Если в Главе 10 рассматривалась погрешность тестового балла, вызванная намеренными или неосознанными стратегиями ответов респондента (установки на ответ), то Глава 11 сфокусирована на источниках такой погрешности внутри самого теста, которые могут приводить к искаженным различиям между группами - например, к иллюзорным гендерным или возрастным различиям при реальном отсутствии таковых. Рассматриваются два важных типа необъективности теста - погрешность конструкта и предсказательная погрешность. Погрешность конструкта связана с возможным смещением в интерпретации смысла измерительного конструкта при переходе от одной группы к другой (например, между мужчинами и женщинами), что может привести к смещению зависимости между «истинным» тестовым баллом и его наблюдаемыми величинами на выборке. Погрешность тестового конструкта диагностируется методами внутреннего анализа теста - такими как оценка силы (дискриминативности) отдельных пунктов, построение полных характеристических кривых пунктов или факторный анализ. Например, если индекс «силы» отдельно взятого пункта рассчитанного на женской выборке, оказывается отличным от того же индекса в мужской выборке - другими словами, этот пункт сильнее (или слабее) дифференцирует женщин чем мужчин - то это свидетельствует о конструктной погрешности теста и, скорее всего, потребует пересмотра или полной замены такого пункта. До подобных тонкостей в анализе погрешностей теста отечественная психодиагностика еще просто не дошла. Как не дошла и до обсуждения того, что в отличие от конструктной, предсказательная погрешность связана со смещениями во взаимосвязи тестового балла с параметрами жизнедеятельности (внешними критериями), которые этот тест пытается предсказать. Таким внешним критерием может служить успеваемость, здоровье или результаты по другому тесту. Однако в этой главе авторы ограничиваются «результатами по другому тесту» в качестве внешнего критерия. Надо отметить, что это упущение довольно типично - в силу своего удобства, поэтому «результаты по другому тесту» слишком часто предпочитаются более реальным внешним критериям, что является источником хорошо известной проблемы недостаточной «калиброванности» психологических тестов (Sechrest, McKnight & McKnihgt, 1996). Читателям стоит не забывать о важности реальных жизненных критериев не только для снижения предсказательной погрешности, но и повышения качества тестов в целом. Предсказательная погрешность диагностируется методами внешней оценки теста - такими как регрессионный анализ и структурное моделирование, с помощью которых оценивается связь между суммарным баллом или отдельными пунктами теста с внешними по отношению к этому тесту критериями. Основной смысл выделения и разработки методов выявления необъективности теста заключается в противодействии постоянным ошибкам, xxiii
которые проявляются в неправомерной разнице в набранных баллах в двух различных по какому-то признаку группах: мужчины и женщины, молодые и старики, европейцы и африканцы и т.д. При этом очень важно подчеркнуть, что «разница» в тестовых баллах в двух группах не обязательно означает наличие систематической ошибки. Эта разница может быть проявлением реальных различий, существующих между группами. Необходимость разработки методов такой проверки, реально обнаруживаемых при тестировании различий между группами, вызвана, на наш взгляд, социальной значимостью таких различий и особой чувствительностью развитого общества к безупречной обоснованности выводов о наличии реальных различий между социальными и национальными группами. Наше общество ещё просто не созрело до контроля за результатами психологических исследований, в которых обнаруживаются (возможно совершенно ошибочно) гендерные различия или различия между этническими и социальными группами. Тематика этой главы является тем более важной, что при контроле за психодиагностическими методиками можно превентивно избежать ошибок тестирования в социально чувствительных зонах. Заметим, что предсказательная погрешность не зависит от конструктной и, как следствие, требует отдельной проверки. Так. например, существует немало тестов с выраженной предсказательной погрешностью при отсутствии сколько- нибудь заметной конструктной погрешности. К достоинствам 11 главы, кроме всего прочего, стоит также отнести компактное и очень доступное изложение основ регрессионного анализа. Завершая обзор 11-й главы, важно отметить, что само ее название (Test bias) нередко приводит к смешению ключевого понятия систематической ошибки (смещения оценок) с необъективностью или предвзятостью теста. Первое относится к науке о психологических измерениях, второе - к области моральных суждений. С научной точки зрения важно не то, насколько несправедливыми могут показаться различия между группами (хотя и этого игнорировать не стоит), а насколько аккуратно тестовые баллы отражают эти различия (или их отсутствие). К примеру, никому не придет в голову подозревать в предвзятости измерение роста или веса тела только потому, что гендерные различия по этим показателям хорошо известны. Последние две главы книги выделены в отдельную связку под заголовком «Современные психометрические подходы: высшая психометрика». Это не случайно - в главах представлены современные подходы к психометрике, выходящие за привычные рамки классической теории тестов (на которой основаны все предыдущие главы). В 12-й главе описаны основные понятия и задачи теории генерализуемости (Generalizability Theory - GT). Основу GT составляет понятие «совокупной популяции» всех возможных заданий теста. Как следствие, надежность интерпретируется в терминах способности обобщать результаты с небольшого набора пунктов на всю эту «совокупность». Преимущества GT над классической теории тестов особенно заметны при сложных измерениях с несколькими xxiv
источниками ошибки. К примеру, GT позволяет разделить погрешность наблюдателя, погрешность пункта, и целый ряд других источников погрешности измерения. Долю вариативности, вызванную каждым из этих источников ошибки, можно рассчитать с помощью дисперсионного анализа. Сравнивая эту вариативность с вариативностью, вызванной реальными индивидуальными различиями, можно рассчитать коэффициент генерализуемости измерительной стратегии. Таким способом можно сравнивать генерализусмость разных измерительных стратегий - в самом простом случае это варианты шкалы с разным количеством пунктов. А такие сравнительные данные весьма полезны при дизайне окончательной версии шкалы, при этом, как правило, выбирается минимальное количество пунктов, достигающее заданного уровня генерализуемости - или же находится такое количество пунктов, после которого добавление новых уже почти не улучшает гснерализуемость. Примеры расчетов вариативности и коэффициентов генерализуемости отличает завидная доступность — даже в довольно сложном случае с применением двухфакторного дисперсионного анализа. В случае простого, однофакторного дизайна обращает на себя внимание идентичность рассчитанного коэффициента генерализуемости и классического коэффициента альфа Кронбаха - что подчеркивает преемственность и взаимопереходы между GT и классической теорией тестов. Как в случае с теорией относительности и классической механикой, классическая теория тестов оказывается частным случаем GT при достаточно простых источниках ошибки измерения. В Главе 13 представлен наиболее продвинутый на сегодня подход в психометрике - Item Response Theory (IRT). Однозначного русскоязычного эквивалента самому термину IRT до сих пор не существует. Варианты перевода включают «теория тестовых заданий», «теория ответов на пункты теста», «алгоритмическая теория измерений» и целый рад других. В настоящем издании термин IRT переведен как «Теория ответов на пункты» - с тем, чтобы подчеркнуть сфокусированность этого подхода «на поведении» отдельных пунктов, а не агрегированной шкалы. В то же время, по сложившейся традиции, в книге часто используется уже привычная отечественному читателю англоязычная аббревиатура IRT. Подобное узнавание теории частично снимает проблему адекватности перевода ее названия. Уже только по аббревиатуре IRT становится понятно, о чем идет речь. В основе подхода IRT лежит довольно очевидное наблюдение, что ответ конкретного респондента на данный пункт шкалы определяется как свойствами респондента, так и свойствами пункта. В разных вариантах IRT разработаны методы расчета вероятностных характеристик отдельных пунктов относительно реальных свойств респондента. Так, сила (или сложность) пунктов в IRT выражается в терминах выраженности измеряемого признака у респондента - точнее, она определена как степень выраженности черты или способности, дающая респонденту 50-процентный шанс справиться с заданием. Самая простая версия IRT - модель Раша - определяет ответ респондента как вероятностную функцию сложности пункта и выраженности измеряемого признака. Графическая форма этой функции - XXV
характеристическая кривая пункта - является полезным инструментом отбора и оптимизации пунктов. Здесь необходимо отметить, что долгое время в отечественной психодиагностике использование IRT на практике упиралось в чем-то обоснованное предубеждение, что модель Раша пригодна только для очень ограниченного типа методик. В первую очередь для тестов достижения, в которых довольно очевидна зависимость ответа респондента на пункт (задание) как от его знаний (способностей), так и трудности пункта. Второе ограничение распространения модели Раша связано с требованием только дихотомического формата ответов (да - нет, верно - неверно и т.д.) на пункты тестов. Поэтому очень важно, что авторы, кроме модели Раша, рассматривают и более современные версии IRT, в которых указанные ограничения уже преодолены. Следующее поколение моделей IRT учитывают другие важные параметры пунктов. Так, такой важный параметр в IRT - дискриминативность пункта - определяется тем, насколько различны ответы на этот пункт у респондентов с высокой и низкой выраженностью измеряемого признака. Добавление дискриминативности пункта как дополнительной детерминанты ответа респондента на пункт расширяет модель Раша до так называемой двухфакторной логистической модели и заметно повышает ее полезность. Дельнейшее расширение возможно как через добавление факторов (например, в трехфакторной логистической модели добавлена третья характеристика пункта - вероятность угадывания), так и через расширение формата ответов: от дихотомического до включения градаций ответа по степени согласия с пунктом (например, полностью согласен - пожалуй, не согласен) или по степени корректности ответов (при оценке способностей). Подобранная модель IRT позволяет правильно оценить информативность как теста в целом, так и отдельных его пунктов - с последующим их отбором и оптимизацией. Более того, в отличие от классического понятия надежности теста, информативность не является константой, а может меняться в зависимости от уровня выраженности измеряемого признака. Например, тест (и даже отдельный пункт) может обладать более высокой информативностью в середине диапазона выраженности измеряемой черты или способности, чем на его краях. В таком случае различимость экстремальных значений выраженности черты ухудшена по сравнению со средними ее значениями. Полезность такого рода данных несомненна - как для улучшения качества тестов, так и для повышения адекватности процедур тестирования в целом. Особенно ценен вклад IRT при диагностике нетипичных или подозрительных паттернов ответов, а также в приложениях компьютеризованного адаптивного тестирования, когда каждый последующий пункт теста подбирается из банка заданий на основании мгновенного анализа всех предыдущих ответов респондента. Подкупающая доступность изложения довольно сложного материала в Главе 13, достигнутая без излишних упрощений и потери аккуратности, подчеркивает преимущества IRT в детальной оценке и оптимизации психометрических параметров теста. Можно с уверенностью предположить, что xxvi
этот материал перекочует из категории «продвинутый» в категорию «полезный каждому» значительно скорее, чем может показаться - и во многом благодаря книге, которую вы держите в руках. Завершая анализ книги Фера и Бакарака, хочется отметить весьма качественную работу ее переводчиков - кандидатов психологических наук Анны Науменко и Алексея Попова, а также огромный труд аспиранта кафедры «Психологическая диагностика и консультирования» ЮУрГУ Татьяны Ким, благодаря которому эта книга увидела свет. Хочется также от имени всего психодиагностического сообщества поблагодарить Ректора ЮУрГУ д.т.н., проф. А. Л. Шестакова за поддержку в реализации этого непростого проекта. Научные редакторы перевода: Профессор Николай Батурин (ЮУрГУ, Россия) и Профессор Евгений Эйдман (Kingston University London & University of Adelaide, Australia) xxvii
Предисловие Измерение лежит в сердце всех наук и их практических приложений. Это утверждение верно для любых наук, включая научные попытки понять или предсказать человеческое поведение. Исследования поведения, проводимые педагогами, психологами или другими специалистами в области социальных наук, полагаются на успешное измерение поведения или психологических особенностей человека, которые предположительно влияют на это поведение. Точно так же практикующие психологи и педагоги полагаются на успешное измерение на уровне, который не менее важен, чем в исследовании. Научно обоснованные клинические или образовательные программы также требуют измерения поведения или психологических особенностей людей, участвующих в этих программах. Эта книга посвящена методам оценки качества измерений, получаемых с помощью психологических тестов, используемых в исследованиях и практике психологами и другими специалистами, интересующимися человеческим поведением. Научное изучение качества психологических измерений называется психометрикой. Психометрика - это чрезвычайно важная область науки, которая может быть весьма сложной. В статье, опубликованной в New York Times (Herszenhom, 2006), было отмечено, что «психометрика - это одна из самых неизвестных, интеллектуальных, недоступных простым смертным и... в то же время желанных профессий в Америке». Концептуальная направленность книги и предполагаемая аудитория Несмотря на потенциальную «недоступность простым смертным и интеллектуальность», психометрика не обязательно должна преподаваться сложно. Мы написали эту книгу, чтобы представить основы психометрики тем, кто должен понимать особенности измерений, используемых в психологии и других науках о поведении. Наша книга предназначена для студентов старших курсов, аспирантов и профессионалов из различных областей наук о поведении. Она будет полезна тем. кто хочет хорошо разбираться в основных понятиях и логике психометрики. Она была написана для психометристов и тех, кто собирается ими стать, но также может служить полезным дополнением к более сложным специальным текстам. xxviii
Мы обсуждаем психометрику глубоко, но наглядно и без использования большого количества специальных подробностей. С одной стороны, наше изложение шире и глубже, чем многие обзорные тексты по психометрике, которые можно найти в большинстве студенческих учебников «Тесты и измерение». С другой стороны, наше изложение более наглядно и концептуально, чем многие специальные книги или статьи в журналах для профессионалов в области психометрики. Мы уверены в том, что любой человек, знакомый с элементарной алгеброй и чем-то вроде курса статистики для студентов, легко освоит материал этой книги. В целом мы надеемся, что читатели приобретут прочное и глубокое понимание важности, значения и оценки множества фундаментальных психометрических понятий и вопросов. Для того чтобы темы, которые мы обсуждаем, были доступны нашей предполагаемой аудитории, в качестве иллюстрации важных психометрических понятий мы придумали несколько тестовых ситуаций и небольшие искусственные наборы данных. Наборы данных мы используем параллельно с алгебраическими доказательствами для того чтобы подчеркнуть и прояснить концептуальное значение основных психометрических понятий. Кроме того, мы отказались от стандартной практики включения в книгу отдельной главы, посвященной «статистике». Вместо этого по мере необходимости мы вводим статистические понятия по ходу текста и представляем их как инструменты для решения конкретных психометрических задач. Например, мы начинаем обсуждать факторный анализ в контексте анализа измерений (шкал) теста. Таким образом, мы привязываем статистические процедуры к важным и наглядным теоретическим вопросам. Наш преподавательский опыт свидетельствует о том, что студенты лучше усваивают материал, когда количественные понятия увязаны с теоретическими вопросами - подобные связки помогают улучшить одновременно понимание и статистических процедур, и психометрических понятий. Обзор содержания книги Книга устроена таким образом, чтобы читателям было легче проникнуть в суть психометрических понятий и методов. В главе 1 будет обсуждаться значение психологического измерения и психометрики и, кроме того, несколько важных вопросов и тем, которые принципиальны для понимания всех остальных глав. Главы 2-4 посвящены важным вопросам теории измерения и статистическим основам психометрической теории. Эти главы являются основополагающими для полного понимания следующих глав, в которых психометрическая теория рассматривается более глубоко. А именно: в этих главах обсуждаются вопросы шкалирования в психологическом измерении, понятия количественного измерения психологических различий и количественной оценки связей между переменными для интерпретации тестовых баллов, значения и оценки тестовых измерений. Несмотря на то что эти темы могут касаться специальных вопросов, в этих главах объяснение ведется на концептуальном и наглядном уровне. xxix
В главах с 5-й по 7-ю рассматривается понятие надежности. Здесь остановимся на трех фундаментальных свойствах надежности. В главе 5 объясняются теоретические основы надежности с позиций классической теории тестов. В главе 6 обсуждаются распространенные методы оценки надежности тестовых баллов. В главе 7 остановимся на важности надежности в контексте прикладного тестирования, научного исследования и разработки тестов. Выделение этих трех аспектов надежности поможет читателям сделать понимание надежности более ясным и глубоким, чем при других способах рассмотрения этой темы. Во всех трех главах подчеркивается психологический смысл понятий и процедур. Надеемся, что это поможет читателям научиться осмысленно интерпретировать информацию, касающуюся надежности. Главы 8 и 9 посвящены психометрическому понятию валидности. В этих главах объясняются теоретические основы этого важного вопроса, обсуждается ряд методов, используемых для оценки валидности и отдельно выделены важные вопросы, которые следует иметь в виду в процессе оценки. В этих главах валидность рассматривается с позиций самых современных подходов, рекомендованных тремя национальными организациями, имеющими непосредственное отношение к психологическому тестированию: Американской психологической ассоциацией, Американской ассоциацией педагогических исследований и Национальным советом по измерению в образовании. Несмотря на то что там обсуждается традиционная трехсоставная модель валидности (содержательная валидность, критериальная валидность и конструктная валидность), которая представлена в большинстве существующих учебников по измерению, основной фокус нашего обсуждения - более современный взгляд на валидность теста и эмпирические свидетельства, важные для оценки валидности теста. В главах 10 и 11 обсуждаются две важные угрозы психометрическому качеству тестов. Совершенно необходимо знать и понимать проблемы, с которыми сталкиваются те, кто разрабатывают, проводят и интерпретируют психологические тесты. Более того, необходимо владеть творческими и эффективными методами, разработанными для борьбы со многими угрозами психометрическому качеству. В главе 10 рассматриваются установки на ответ, искажающие истинные различия между людьми, проходящими психологические тесты. В этой главе (которая является уникальной) описывается несколько типов установки на ответ и показывается их разрушительное воздействие на психологическое измерение, а также говорится о некоторых методах предотвращения или минимизации этих эффектов. Глава 11 посвящена необъективности теста, которая искажает истинные различия между группами людей. В этой главе остановимся на важности объективности теста, методах обнаружения различных форм необъективности и важной разнице между необъективностью и справедливостью теста. Наконец, главы 12 и 13 посвящены двум современным подходам к психометрике. В большей части книги речь идет о психометрическом подходе, наиболее распространенном в науках о поведении и их практическом воплощении, - о классической теории тестов. В двух заключительных главах XXX
книги дается обзор двух подходов, выходящих за традиционные рамки. В главе 12 обсуждаются основные понятия и цель теории генерализуемости, которая может рассматриваться как развитие более традиционных подходов к психометрической теории. В главе 13 обсуждается теория ответов на пункты (или IRT, или теория латентных черт, или современная теория тестов), которая представляет собой совершенно иную концептуализацию психометрического качества тестов, хотя и имеет определенные сходства с классической теорией. В обеих главах, для того чтобы помочь читателям достичь более глубокого понимания этих важных современных подходов, мы приводим полные примеры применения и интерпретации этих подходов. Несмотря на то что глубокое понимание этих современных подходов требует более высокой статистической подготовки, чем остальные главы книги, нашей целью было представить эти теории на уровне, который больше внимания уделяет теоретическим основам, чем их статистической реализации. xxxi
Р. Майкл Фер, Верн Р. Бакарак ПСИХОМЕТРИКА: Введение Перевели с английского: А.С. Науменко, А. Ю. Попов Ответственный редактор Научные редакторы Компьютерная верстка Технический редактор Н. А. Батурин Н.А. Батурин, Е.В. Эйдман Т.Д. Ким А.В. Миних Издательский центр Южно-Уральского государственного университета Подписано в печать 06.07.2010 . Формат 70x100 1/16. Печать офсетная. Усл. печ. л. 36,12. Уч-изд. л. 29,73. Тираж 1000 экз. Заказ 279/473. Цена С. Отпечатано в типографии Издательского центра ЮУрГУ. 454080, г. Челябинск, пр. им. В.И. Ленина, 76.
ГЛАВА 1 Психометрика и важность психологического измерения Мы совершенно уверены, что все должны понимать базовые принципы психологического измерения. Если вы хотите быть практикующим психологом, психологом-исследователем или просто членом современного общества, вам придется столкнуться с психологическими измерениями. То, что вы читаете эту книгу, может означать, что вы собираетесь заниматься психологическими измерениями профессионально. Возможно, кто- то из вас хочет посвятить себя прикладной психологии. Клиническим психологам, школьным психологам, директорам по персоналу, учителям - всем им приходится принимать решения на основании результатов того или иного психологического теста. Проводя психопатологическое обследование пациента, прося студента выполнить тест умственных способностей или предлагая соискателю заполнить личностный опросник, мы пытаемся измерить какую-то психологическую характеристику. Во всех этих случаях базовая информация об измерении должна быть тщательно проверена - ведь она используется для принятия решений о жизнях людей. Не имея глубокого понимания основных принципов психологического измерения, пользователи тестов могут неверно истолковать или неправильно использовать результаты тестирования, тем самым нанести вред пациентам, студентам, клиентам, сотрудникам или соискателям. Последствием таких действий для пользователя тестов может стать уголовная ответственность. В то же время верная интерпретация и правильное использование тестовых результатов могут быть очень полезны как для пользователей тестов, так и для самих тестируемых. Вероятно, кто-то из вас думает о карьере исследователя. Будь это психология, образование или другая наука о поведении, измерение всегда будет центром вашего исследовательского процесса. Проводите ли вы 1
экспериментальное исследование, опрос или любое другое количественное исследование, измерение всегда находится в самом сердце вашего исследования. Интересуетесь ли вы индивидуальными различиями, изменениями, происходящими с людьми с течением времени, гендерными различиями, разницей между школьными классами, различиями между условиями лечения или межкультурными различиями, вы всегда опираетесь на измерение. Если объект исследования не измерен или измерен плохо, он не может- быть достоверно научно изучен. Если вы хотите дать разумную и точную интерпретацию результатам своего исследования, вы должны критически оценить собранные данные. Даже если вы не планируете карьеру, предполагающую психологические измерения, вы почти наверняка прямо или косвенно столкнетесь с последствиями психологического измерения. Абитуриенты университетов и других профессиональных институтов должны выполнять тесты знаний и достижений. Соискатели могут быть приняты (или не приняты) на работу частично на основании результатов личностного тестирования. Работники могут получить (или не получить) повышение отчасти на основании оценок, которые руководители дадут их установкам, способностям или командным качествам. Родителям приходится сталкиваться с последствиями школьного тестирования их детей. Люди, обращающиеся за психологической помощью, могут получить диагноз и лечение отчасти на основании их ответов на различные психологические тесты. Наше общество буквально наполнено информацией и рекомендациями, основывающимися на результатах исследований. Являетесь (или станете) ли вы соискателем вакансии, родителем, клиентом психологической консультации или информированным членом общества - чем больше вы будете знать о психологических измерениях, тем более взыскательным потребителем вы будете. Вы будете лучше понимать, когда стоит доверять результатам тестирования, когда ставить под сомнение интерпретацию тестовых баллов и какая информация вам нужна для того, чтобы делать такие важные суждения. В самом деле, психологические измерения могут решать вопросы жизни и смерти. В некоторых странах и отдельных штатах США заключенным, которые признаны умственно отсталыми, не может быть вынесен смертный приговор. Например, Генеральная Ассамблея Северной Каролины говорит о том, что «умственно отсталый человек, признанный виновным в убийстве с отягчающими обстоятельствами, не может быть приговорен к смерти» (Criminal Procedure Act, 2007). А что такое умственная отсталость? Как можно понять, что заключенный действительно страдает умственной отсталостью? В Северной Каролине умственная отсталость определяется как «общие умственные способности значительно ниже среднего уровня наряду со значительно ограниченными возможностями адаптации при условии, что обе эти особенности проявились до 18 лет». Это определение прямо отсылает к другому вопросу - что понимается под «общими умственными способностями значительно ниже среднего уровня»? Генеральная Ассамблея Северной Каролины определяет «общие умственные способности значительно ниже 2
среднего уровня» как IQ, равный или ниже 70. Таким образом, результат по тесту интеллекта может буквально определить, будет ли человек жить или умрет. • Зная о том, насколько важны и как часто используются психологические измерения, важно понимать, что влияет на качество таких измерений. Эта книга о важных особенностях инструментов, которые психологи используют для измерения психологических свойств и процессов. Наблюдаемое поведение и ненаблюдаемые психологические черты Люди используют различные инструменты для измерения наблюдаемых свойств физического мира. Например, если человек хочет измерить длину куска бревна, он, скорее всего, воспользуется рулеткой. Люди также используют множество инструментов для измерения ненаблюдаемых свойств физического мира. Например, часы используют для измерения времени, а вольтметры - для измерения изменения напряжения между двумя точками электрической цепи. Аналогично психологи используют инструменты (психологические тесты) для измерения наблюдаемых событий в физическом мире. В науках о поведении эти наблюдаемые события обычно представляют собой определенные типы поведения, а сами измерения производятся с двумя целями. Иногда психологи измеряют поведение, поскольку оно интересует их само по себе. Например, некоторые психологи изучали, каким образом выражения лица влияют на восприятие эмоций. Система кодирования выражений лица (Facial Action Coding System, FACS; Ekman, Friesen, 1978) была разработана для того, чтобы исследователи могли фиксировать движения специфических лицевых мышц. Исследователи, использующие FACS, могут измерять точное «мимическое поведение» для того, чтобы оценить, какие движения лица человека влияют на восприятие эмоций другими людьми. В этом случае исследователей интересует специфическое мимическое поведение само по себе; они не рассматривают его как сигнал о каких-то психологических процессах или характеристиках, лежащих в его основе. Гораздо чаще, однако, ученые наблюдают какое-то поведение человека для того, чтобы оценить ненаблюдаемые психологические характеристики. В этом случае выделяются определенные типы наблюдаемого поведения, которые, предположительно, могут служить индикаторами определенных ненаблюдаемых психологических черт, состояний или процессов. Затем используются различные методы измерения наблюдаемого поведения и дается интерпретация накопленных данных с оглядкой на ненаблюдаемые психологические характеристики, которые, предположительно, отражаются в этом поведении. В большинстве случаев (но не во всех) психологи разрабатывают психологические тесты для того, чтобы измерить поведение, которое, по их мнению, отражает лежащие в его основе психологические черты.
Например, представим, что мы хотим определить, у кого из студентов — Сэма или Уильяма - больше объем рабочей памяти. Для того чтобы ответить на этот вопрос, необходимо определить объект рабочей памяти каждого из них. К сожалению, прямого способа определения объема рабочей памяти не существует - мы не можем прямо увидеть «память» внутри головы другого человека. Поэтому нам надо придумать задание, включающее наблюдаемое поведение, которое позволит измерить рабочую память. Например, можно попросить студентов повторить последовательность цифр, предъявленных по одной в быстром темпе. Если два студента по-разному справятся с заданием, можно предположить, что объем рабочей памяти у них различен. Если Сэм сможет воспроизвести больше цифр, чем Уильям, можно заключить, что рабочая память Сэма в определенном смысле лучше памяти Уильяма. Такой вывод предполагает допущение о том, что количество воспроизводимых цифр систематически связано с ненаблюдаемой мыслительной характеристикой — рабочей памятью. Есть три вещи, на которые следует обратить внимание в связи с данной попыткой измерить рабочую память. Во-первых, был сделан переход от наблюдаемого поведения к ненаблюдаемой психологической характеристике. Мы предположили, что определенное поведение, которое мы наблюдали, было на самом деле индикатором рабочей памяти. Если это допущение правдоподобно, то можно сказать, что наша интерпретация поведения обладает определенной валидностью. Строго говоря, валидность - это количественная характеристика, то есть это вопрос степени, а не простого присутствия или отсутствия. Тем не менее, если баллы по инструменту действительно измеряют состояние или процесс, который мы стремимся измерить, мы говорим, что наша интерпретация полученных баллов валидна. Во-вторых, для того чтобы наша интерпретация количества воспроизводимых цифр могла считаться валидной, задание по воспроизведению должно быть теоретически связано с рабочей памятью. С теоретической точки зрения, например, нет смысла измерять рабочую память, засекая время, за которое Сэм и Уильям пробегут стометровку. В науках о поведении часто совершаются переходы от наблюдаемого поведения к ненаблюдаемым психологическим характеристикам. Поэтому измерение в психологии часто (но не всегда) включает теоретическое построение, связывающее психологические черты, процессы или состояния с наблюдаемым поведением, которое предположительно отражает различия в этих психологических характеристиках. И, наконец, есть третья важная особенность нашей попытки измерить рабочую память. Рабочая память — сама по себе теоретический конструкт. Когда мы измеряем рабочую память, мы предполагаем, что рабочая память - это нечто большее, чем просто плод нашего воображения. Психологи, педагоги и другие исследователи социальных наук часто обращаются к теоретическим конструктам типа рабочей памяти для объяснения различий в поведении людей. Психологи называют эти теоретические концепты гипотетическими конструктами или латентными переменными. Это теоретические психологические характеристики, свойства, процессы или состояния, которые 4
недоступны непосредственному наблюдению. Среди них, например: научение, интеллект, самооценка, мечты, установки, чувства. Операции или процедуры, используемые для измерения этих гипотетических конструктов или, в более широком смысле, для измерения чего угодно, называются операционализацией. В нашем примере количество воспроизведенных цифр служило операционализацией отдельного аспекта рабочей памяти, которая сама по себе является ненаблюдаемым гипотетическим конструктом. Читателя не должно смущать то, что психологи, педагоги и другие специалисты в области социальных наук полагаются на ненаблюдаемые гипотетические конструкты для того, чтобы объяснять человеческое поведение. Измерение в естественных науках, равно как и в науках о поведении, часто включает выводы о ненаблюдаемых событиях, вещах и процессах на основании наблюдаемых событий. Например, физики пишут о существовании во вселенной четырех типов взаимодействий: а) сильного, б) электромагнитного, в) слабого, г) гравитационного. Каждое из этих взаимодействий невидимо, но можно увидеть их влияние на поведение наблюдаемых объектов. Например, предметы не улетают в космос с поверхности нашей планеты. Теоретически этого не дает им сделать гравитационное взаимодействие (или сила притяжения). Физики построили множество различных установок, для того чтобы иметь возможность наблюдать воздействие некоторых из этих сил на наблюдаемые феномены. В результате установки используются для того, чтобы создавать условия для измерения наблюдаемых феноменов, которые считаются результатом действия невидимых сил. Все науки отличаются по количеству и характеру ненаблюдаемых характеристик, событий и процессов, которые их интересуют. Некоторые полагаются лишь на несколько, другие - на много таких атрибутов. В части наук накоплена большая эмпирическая база, свидетельствующая о существовании ненаблюдаемых конструктов (например, силы притяжения), другие концепты могут иметь слабую эмпирическую базу (например, зависть к пенису). Однако в той или иной степени все науки полагаются на ненаблюдаемые конструкты, и все они оценивают искомые конструкты по изменениям в наблюдаемом поведении или событиях. Психологические тесты: определение и типы Что такое психологический тест? Согласно Кронбаху (Cronbach, 1960), психологический тест - «это систематическая процедура для сравнения поведения двух или более людей» (с. 21). Это определение включает три важных компонента: а) тесты предполагают определенное поведение, б) образцы поведения должны отбираться систематически, в) цель теста - сравнение поведения двух или более людей. Мы бы изменили третий компонент так, чтобы он включал еще и сравнение 5
показателей одного и того же человека в разные моменты времени, однако в остальном считаем это определение удачны^!. В этом определении привлекательна его обобщенность. Ведь часто тесты сводят только к бумажным тестам. Например, Опросник депрессии Бека (Beck Depression Inventory, BDI; Beck, Steer, Brown, 1996) - это тест из 21 пункта с выборами ответа, предназначенный для измерения депрессии. Люди, проходящие этот тест, читают каждый вопрос и выбирают один из нескольких предложенных ответов. Уровень депрессии определяется путем суммирования определенных ответов на каждый из вопросов. Опросник депрессии Бека - это определенно тест, но и другие методы систематического наблюдения тоже являются тестами. Например, в лабораторных условиях исследователи просят испытуемых отвечать различным образом на определенные стимулы; например, испытуемых просят следить за каким-то зрительным сигналом и как можно быстрее нажимать на кнопку ответа. В других экспериментах испытуемых просят оценивать интенсивность какого-то стимула, например звукового сигнала. Согласно определению Кронбаха, эти процедуры тоже являются тестами. Обобщенность определения Кронбаха также увеличивает число возможных типов данных, получаемых в результате тестирования. Результаты некоторых тестов могут быть представлены в виде чисел, которые могут рассматриваться как величины каких-то психологических черт, которыми обладает человек. Например, при создании теста «Национальная оценка образовательного прогресса» (National Assessment of Education Progress, NAEP; http://nces.ed.gov/nationsreportcard/nde/help/qs/NAEP Scales.asp) для отбора пунктов используются статистические процедуры, по крайней мере, в теории позволяющие получить данные, которые могут быть проинтерпретированы как отражающие объем знаний или уровень развития навыков у детей в различных академических областях (например, навыков чтения). Другие тесты дают категорийные данные - люди, выполнившие тест, могут быть разделены на группы на основании результатов тестирования. Тест «Дом - дерево - человек» (Bums, 1987) - как раз пример такого теста. Рисунки оцениваются по определенным параметрам, на основе которых дети разделяются на группы (впрочем, эта процедура может не быть «систематической» в терминах Кронбаха). Обратите внимание на то, что мы не говорим ничего о качестве информации, получаемой с помощью тестов, которые были использованы в качестве примеров. Данные, получаемые с помощью психологических тестов, мы обсудим во второй главе. Типы тестов Сегодня в публичном доступе существуют десятки тысяч психологических тестов (Educational Testing Service, 2006). Эти тесты отличаются друг от друга десятками различных измерений. Например, различным может быть содержание тестов - существуют тесты достижений, тесты способностей, тесты интеллекта, личностные тесты, опросники установок и т. д. Тесты также различаются по типу ответа, требуемого от испытуемого: есть тесты с открытыми вопросами - 6
такие, в которых люди могут сами формулировать ответы на вопросы, есть тесты с закрытыми вопросами - в которых испытуемого просят выбирать из предложенных ответов. Тесты различаются fio способу проведения - есть тесты, которые проводятся индивидуально, а есть такие, которые проводятся в группах. Другое важное отличие касается цели использования тестовых баллов. Психологические тесты бывают критериально-ориентированными и нормативно-ориентированными. Критериально-ориентированные тесты можно встретить там, где решение принимается на основании уровня навыков человека. В этих случаях устанавливается фиксированный балл отсечения. Балл отсечения используется для того, чтобы разделить людей на две группы - тех, кто показал уровень выше балла отсечения, и тех, кто набрал балл ниже. Наоборот, нормативно-ориентированные тесты обычно используются для того, чтобы сравнить тестовый балл испытуемого с определенной выборкой. Характеристики выборки считаются репрезентативными для какой-то строго определенной популяции. Балл испытуемого сравнивают с ожидаемым или средним баллом по тесту, который был бы получен, если бы тест был проведен на всей популяции. Баллы по нормативно-ориентированному тесту имеют мало смысла, если выборка стандартизации нерепрезентативна для определенной популяции людей, если референтная выборка плохо определена или если есть сомнение в том, что протестированный испытуемый является членом релевантной популяции. Ни одно из этих обстоятельств не возникает в принципе при оценке балла по критериально-ориентированному тесту. На практике разница между нормативно-ориентированным и критериально-ориентированным тестом часто размывается. Критериально- ориентированные тесты всегда в определенном смысле «нормируются». То есть балл отсечения не случаен - как правило, он связан со стандартным или ожидаемым уровнем выполнения теста людьми, которые могут проходить тест. Многие из вас наверняка сталкивались с письменным экзаменом на водительские права. Это критериально-ориентированный тест, поскольку человек, его выполняющий, должен набрать балл, превышающий определенный балл отсечения. Вопросы в тестах на водительские права подобраны так, что средний хорошо подготовленный человек с большой вероятностью может ответить на достаточное количество вопросов, чтобы справиться с тестом. Разница между критериально-ориентированным и нормативно- ориентированным тестом размывается еще сильнее, когда определенные баллы по нормативно-ориентированному тесту используются в качестве баллов отсечения. Для того чтобы быть зачисленным в учебное заведение или претендовать на стипендию, студенты в американских высших учебных заведениях обычно должны показать определенные баллы по тесту SAT1 (Scholastic Assessment Test) или по тесту ACT" (American College Testing). 1 SAT - один из самых популярных тестов для опенки академических способностей школьников в США. существуют самостоятельные версии для всех классов с 7-го по 12-й (Прим, перев.). 9 ACT - еще один популярный в США тест для поступления в колледж. От SAT он отличается прежде всего 7
Государственные школы используют балл отсечения по тестам интеллекта для того, чтобы делить детей на группы. В некоторых случаях использование баллов нормативно-ориентированных тестов может иметь очень важные последствия. Помимо проблем с различением критериально-ориентированных и нормативно- ориентированных тестов, как мы увидим позднее, методы для оценки качества критериально ориентированных и нормативно-ориентированных тестов также слегка отличаются. Еще одно распространенное деление — на тесты скорости и тесты возможностей. В тестах скорости есть временные ограничения. Как правило, предполагается, что люди, проходящие тест, не успеют выполнить все задания за отведенное время. Баллы по тестам скорости рассчитываются как количество заданий, выполненных за отведенное время. Предполагается, что на все вопросы будут получены правильные ответы, и поэтому задания должны быть сравнимы по сложности. Напротив, в тестах возможностей время не ограничено, и предполагается, что испытуемые ответят на все задания. Общий балл по тестам возможностей рассчитывается как сумма правильных ответов. Тестовые задания должны различаться по сложности, если баллы по таким тестам используются для того, чтобы разделять людей относительно интересующего психологического атрибута. Как в случае с критериально-ориентированными и нормированными тестами, методы для оценки качества тестов силы и возможности немного отличаются. Небольшое пояснение, касающееся терминологии: существует несколько различных терминов, которые могут быть использованы как синонимы слова «тест». Слова «инструмент», «шкала», «опросник», «анкета» и «батарея» разными авторами в разных контекстах используются как синонимы слова «тест». Мы тоже иногда будем называть тесты инструментами. Слово «батарея» мы будем использовать только по отношению к нескольким тестам, которые проводятся совместно, но необязательно направлены на измерение одного и того же психологического свойства. Больше всего путаницы в психологической литературе связано со словом «измерение». Во второй главе мы подробно остановимся на использовании его в значении глагола: «Опросник депрессии Бека разработан для измерения депрессии». Слово «измерение» также часто используется в значении существительного: «Опросник депрессии Бека - хорошее измерение депрессии». Мы будем использовать обе формы и будем полагаться на контекст, для того чтобы прояснить значение этого термина. своим более сильным акцентом на знания в конкретных предметных областях, а не на общие неспецифические склонности и умения. (Прим, перев.). 8
Психометрика Что такое психометрика? В предыдущем разделе мы определили тест как процедуру систематического анализа поведения. Образцы поведения, по крайней мере, в определенном смысле представляют собой попытки измерения психологических характеристик людей. Проведение психологических тестов на людях называют тестированием. В этой книге нас не будет интересовать процесс тестирования, скорее нас будут интересовать тесты сами по себе. Однако нас также не будут интересовать какие-то конкретные тесты, за исключением тех случаев, когда определенный тест можно использовать для иллюстрации каких-то важных принципов. Иными словами, мы будем говорить о свойствах тестов. Психологические тесты созданы для измерения психологических свойств людей (например, тревожности), а психометрика - это наука о свойствах психологических тестов. Наибольший интерес для нас будут представлять три следующих свойства тестов: а) тип данных (в большинстве случаев - баллов), являющихся результатом тестирования, б) надежность данных, получаемых при помощи психологических тестов, в) вопросы, связанные с валидностью данных, получаемых при помощи психологических тестов. В остальных главах этой книги будут описаны процедуры, которые психометристы используют для оценки этих свойств тестов. Обратите внимание: так же, как психологические свойства людей (например, тревожность) часто концептуализируются как гипотетические конструкты (например, абстрактные теоретические свойства мышления), так и у психологических тестов есть свойства, представленные теоретическими концептами, такими как валидность и надежность. Важная аналогия, которую здесь можно привести: психологические тесты сообщают информацию о теоретических свойствах людей, а психометрика - о теоретических свойствах психологических тестов. У людей есть психологические свойства; у психологических тестов есть свойства. Как психологические свойства людей должны быть измерены, так и психометрические свойства тестов должны быть оценены. Психометрика изучает процедуры, используемые для оценки и измерения этих свойств тестов. Фрэнсис Гальтон и предметная область психометрики Страсть к измерению, кажется, преследовала Фрэнсиса Гальтона (1822 - 1911). Среди прочего, он пытался измерить эффективность молитвы (Gallon, 1883), количество мазков кисточки, необходимое для создания картины, степень волнения у детей в классе (в частности по количеству телодвижений, которые они совершали на стуле, Galton. 1885). Гальтон был метеорологом (Galton, 1863) и генетиком (Galton, 1869) и внес большой вклад в развитие измерений в обеих науках. Но наиболее интересны для нас его разработки в области, которую он называл «антропометрикой» и под которой понимал измерение таких 9
человеческих параметров, как размер головы, длина рук и физическая сила. Для Гальтона (Gallon. 1879) в список этих параметров входили и психологические характеристики. Измерение особенностей мышления он называл «психометрией» и определял как «искусство приложения измерения и количественных показателей к операциям ума» (с. 149). Сегодня это «искусство» мы называем психометрикой; термин, однако, сменил множество значений с тех пор, как его впервые использовал Гальтон. Гальтон считается отцом-основателем современной психометрики. Он стал автором множества концептуальных и технических инноваций, которые легли в основу психометрической теории и практики. Наверное, некоторые из гальтоновских инноваций вам уже знакомы. Например, он показал пользу от применения нормального распределения (Galton, 1907) для моделирования многих человеческих характеристик, он придумал идею коэффициента корреляции (Galton, 1889), а также впервые применил идею использования выборки для обнаружения и оценки погрешности измерения (Galton, 1902; это важная статья, идеи которой получили основательное развитие в работах Карла Пирсона). Все эти идеи мы подробно рассмотрим в следующих главах данной книги. Гальтон также пытался измерять умственные способности, используя умственные тесты. Конкретно его усилия в этой области не увенчались успехом, однако сама идея о возможности использования относительно простых, несложных в проведении тестов умственных способностей легла в основу современного тестирования интеллекта. В то время как первые исследователи в психологии пытались вывести общие законы и изучить особенности мышления, которые были бы характерны для всех людей, Гальтона интересовала изменчивость человеческих свойств. То есть Гальтона, в первую очередь, интересовало то, чем люди отличаются друг от друга. Некоторые люди выше других, некоторые - умнее других, некоторые - привлекательнее, некоторые - агрессивнее. Насколько велики эти различия, чем они вызваны и каковы их последствия? Подход Гальтона к психологии стал позднее называться дифференциальной психологией, или психологией индивидуальных различий. Обычно эту область психологии противопоставляют экспериментальной психологии, в которой индивидуальные различия исследователей интересуют меньше, чем поведение «среднего человека». Поскольку Гальтон тесно связан и с психометрикой, и с дифференциальной психологией, современные авторы иногда считают, что психометрика должна интересовать только тех. кто изучает индивидуальные различия. Они полагают, что психометрика не применима к более экспериментальным исследованиям человеческого поведения. Мы с таким взглядом совершенно не согласны. Наше понимание психометрики, равно как и использование самого термина, не ограничивается дифференциальной психологией. Мы считаем, что все психологи, независимо от сферы их исследований или практики, должны интересоваться вопросами измерения поведения (в данном случае нас интересует только человеческое поведение) и психологических свойств. Все они должны разбираться в вопросах измерения поведения и психологических черт, а 10
эти вопросы и являются предметом психометрики. В независимости от конкретной области интересов, все науки о поведении и все приложения наук о поведении строятся на способности определять и измерять изменчивость поведения и связывать эти измерения с психологическими феноменами. Проблемы измерения в психологии Никогда нельзя быть уверенным в том, что измерение безупречно. Как вы думаете, ваши бытовые весы совершенно точны? А одометр в вашей машине безошибочно измеряет транспортный путь? А ваша новая рулетка измеряет на 100% правильно? Может ли медсестра, измеряя вам давление, немного ошибиться? Даже используя высокоточные научные измерительные инструменты, мы не застрахованы от различных ошибок, и не в последнюю очередь от ошибок человека, считывающего показания. Во всех измерениях, а значит, и во всех науках существуют факторы, снижающие точность измерений. Но, несмотря на сходство измерений во многих науках, измерения в поведенческих науках осложняются факторами, которые не существуют или незначительны в естественных науках. Эти факторы влияют на нашу уверенность в правильности нашего понимания и интерпретации наблюдений поведения. Как мы увидим в дальнейшем, один из таких факторов связан со сложностью психологических феноменов; такие понятия, как интеллект, самооценка, тревожность, депрессия имеют множество различных аспектов. Одна из наших задач - попытаться обнаружить и поймать важные аспекты таких психологических свойств в одном числе. Реакции испытуемых - это еще одна проблема. В большинстве случаев психологам приходится измерять психологические характеристики людей, которые знают о том, что производится измерение, и сам акт измерения может влиять на интересующее исследователя состояние или процесс. Предположим, у нас есть опросник, измеряющий уровень расизма. На ответы испытуемого скорее будет влиять его желание не выглядеть расистом, чем его реальные установки по отношению к представителям других этнических или расовых групп. То есть знание людей о том, что за ними наблюдают, может вызвать реакции, искажающие интерпретацию наблюдаемого поведения. Да простит нас кот Шредингера, но обычно проблем с измерением особенностей физических объектов, не обладающих сознанием, не возникает; на вес грозди винограда не влияет акт взвешивания. Реактивность испытуемых может принимать различные формы. В ситуации исследования многие испытуемые могут попытаться «вычислить» замысел исследователя и изменить свое поведение в соответствии с ним (продемонстрировать требуемые характеристики). В ситуации исследования или экспертизы многие люди испытывают тревогу, другие пытаются изменить свое поведение, чтобы произвести хорошее впечатление на экспериментатора (социальная желательность), а третьи, наоборот, стараются произвести на экспериментатора плохое впечатление (симуляция). Во всех этих случаях 11
валидность измерения оказывается под угрозой - «реальная» характеристика человека искажается временной мотивацией или состоянием, возникающим как реакция на акт измерения. Вторая проблема измерения возникает из-за того, что в психологии люди, собирающие данные о поведении (наблюдающие поведение, обсчитывающие тест, интерпретирующие словесный ответ и т. д.), могут привносить в данные свои ожиданиями и установки. Качество измерения оказывается под угрозой, когда наблюдатели позволяют этим влияниям искажать собственные наблюдения. Эффекты ожиданий и установок могут быть непросто обнаружены. В большинстве случаев мы можем быть уверены в том, что люди, собирающие данные, не обманывают сознательно; однако даже малейшие, неосознаваемые установки могут влиять на результаты. Представим, что исследователь дает тесты интеллекта детям в рамках исследования эффективности программы по стимулированию умственного развития детей. Исследователь может быть «заинтересован» в определенных тестовых баллах, поэтому он может, пусть даже неосознанно, повлиять на процедуру тестирования. Подобный эффект наблюдателя или экспериментатора может возникнуть и в естественных науках, но это менее вероятно, поскольку физики больше, чем социальные исследователи, полагаются на механические приборы в качестве устройств сбора данных. Третий источник различий между измерениями в физике и психологии состоит в использовании психологами составных баллов. Многие психологические тесты включают серию вопросов, каждый из которых направлен на измерение определенного аспекта психологической характеристики. Например, личностный тест может включать 10 вопросов на экстраверсию. Тесты для измерения уровня знаний также обычно состоят из нескольких вопросов. Обычно за каждый вопрос проставляется балл, затем баллы суммируются или комбинируются иным образом суммарного или составного показателя. Суммарный балл считается окончательной величиной измеряемого конструкта. Несмотря на то что у составных баллов есть свои преимущества, на которых мы остановимся позднее, множество слагаемых усложняют использование и оценку составных баллов. Естественные науки реже полагаются на составные баллы в своих измерительных процедурах. При измерении физического свойства мира, например длины бревна, веса молекулы или скорости движущегося объекта, физики обычно используют один замер. Четвертая проблема психологического измерения — чувствительность баллов. Под чувствительностью мы подразумеваем способность инструмента различать осмысленные количества или единицы объекта, который он измеряет. В качестве примера из физического мира представим, что кто-то пытается измерить толщину волоса рулеткой. Деления на рулетке слишком велики, чтобы быть полезными в этой ситуации. Точно так же психолог может обнаружить, что процедура измерения какого-то психологического свойства или процесса может быть недостаточно чувствительна к реальным различиям, существующим в этом свойстве или процессе. 12
Пусть клинический психолог хочет следить за изменениями эмоционального состояния своего клиента от одной терапевтической сессии к другой. Если он выберет инструмент, не способный уловить тонкие оттенки настроения, то может упустить небольшие, но важные изменения настроения. Например, он может просить своего клиента отвечать на очень «прямой» вопрос после каждой сессии. Отметьте, какое из прилагательных лучше описывает ваше общее эмоциональное состояние на прошедшей неделе: Хорошее? Плохое? Психолога может расстроить явное отсутствие прогресса у его клиента, потому что клиент редко (если вообще когда-либо) бывает достаточно счастлив, чтобы поставить галочку в квадратике «хорошее». Такой инструмент может маскировать реальные, весьма существенные успехи клиентов - люди, которые сначала испытывали огромную тревогу и чувствовали себя очень подавленно, могут стать гораздо менее тревожными и подавленными. Однако они все еще могут себя чувствовать недостаточно «хорошо», хотя и гораздо лучше, чем в начале терапии. К сожалению, шкала, которую выбрал наш психолог, слишком груба, или нечувствительна, и предлагает всего два ответа, не различая важные уровни «хорошего» и «плохого». Более точная и чувствительная шкала может выглядеть так: Отметьте число, которое лучше всего описывает ваше общее эмоциональное состояние на прошедшей неделе: 123456789 Очень хорошее Весьма хорошее Весьма плохое Очень плохое По сравнению с первой такая шкала позволяет улавливать более тонкие различия между плохим и хорошим. У психологов проблема чувствительности усложняется, поскольку необходимо подобрать разумную единицу различий для измеряемого психологического свойства. Несмотря на то что такая проблема может 13
возникнуть и в естественных науках, ученые там ооычно разрешают ее до того, как приступают к исследованию. В социальных науках исследователь может не знать чувствительность шкалы даже после того, как он произвел свои измерения. Последняя проблема измерения, которую мы обсудим, касается непонимания важности психометрической информации. В науках о поведении, особенно в их прикладных аспектах, психологическое измерение часто является социальной или культурной деятельностью. Психологическое измерение используется в самых разных контекстах - оно дает почву для обсуждения психиатрических симптомов между терапевтом и клиентом, становится предметом разговора о знаниях студента между студентом и преподавателем, дает информацию работодателю о личностных качествах и навыках соискателя. Во всех этих случаях психологическое измерение служит улучшению информационных потоков между людьми. К сожалению, часто измерение проводится без оглядки на психометрические качества тестов. Например, многие учителя в школе проводят тесты. И только в редких случаях у учителей есть информация о психометрических свойствах тестов, которые они дают. Иногда учителя даже не могут четко объяснить, зачем они проводят тестирование - пытаются ли они измерить знания (латентную переменную или гипотетический конструкт), пытаются ли они определить, кто из студентов может ответить на большинство вопросов, или пытаются усилить учебную мотивацию студентов. Поэтому многие школьные тесты являются сомнительными индикаторами различий между знаниями студентов по конкретному предмету. Но даже в этом случае тесты могут выполнять важную мотивирующую роль, побуждая студентов лучше учиться. Несмотря на то что плохо сконструированные тесты могут выполнять важную функцию в некоторых случаях (например, мотивировать студентов на изучение важной информации), психометрически точная информация лучше неточной. Более того, если тест или измерительный инструмент предназначен для того, чтобы отражать психологические различия между людьми, он должен обладать хорошими психометрическими качествами. Понимание этих качеств должно лежать в основе конструирования или выбора теста - при прочих равных условиях пользователи должны использовать психометрически качественные инструменты. В общем и целом этот обзор сложностей должен подвести нас к пониманию того, что, несмотря на некоторые сходства измерений в естественных и социальных науках, между ними существуют и важные различия. Мы должны всегда учитывать эти различия при объяснении психологических данных. Например, мы должны понимать, что реактивность испытуемого может повлиять на его ответы по тесту. В то же время мы надеемся показать читателям, что психологи разработали надежные методы обнаружения, минимизации и учета различных видов систематических ошибок в ответах. Точно так же психологи разработали способы уменьшения влияния экспериментатор 14а на процесс измерения. В этой книге мы обсудим методы, которые психометристы разработали для того, чтобы бороться с проблемами, 14
связанными с разработкой, оценкой и процессом измерения психологических черт или особенностей поведения. ж Тема: Важность индивидуальных различий Эта фундаментальная тема связывает следующие главы. Тема касается того факта, что все измерения в психологии и все методы, используемые для того, чтобы оценивать тестовые баллы и свойства пунктов теста, основываются на нашей способности находить психологические различия и давать им характеристику. Цель измерения в психологии - обнаружить и оценить психологические различия, существующие между людьми, во времени и в разных ситуациях. Эти различия вносят вклад в дисперсию тестовых баллов и являются основой всей психометрической информации. Даже когда психолог- практик, педагог или консультант на основании тестового балла принимает решение, касающееся одного человека, значение или качество этого балла может быть понято только в контексте способности теста обнаруживать различия между людьми. Все измерения в психологии требуют наличия определенной выборки. Выборка может включать баллы по бумажному тесту, письменные или устные ответы на вопросы или структурированные наблюдения поведения. Важная психометрическая информация о выборке может быть получена только в том случае, если люди отличаются по отношению к поведению, которое нас интересует. Если между членами выборки присутствуют индивидуальные различия, тогда психометрические свойства баллов, полученных на этой выборке, могут быть оценены по целому ряду параметров. В данной книге мы представим логику и аналитические процедуры, связанные с этими психометрическими свойствами. Если мы полагаем, что поведение, которое мы измерили, является мерой ненаблюдаемого психологического свойства, мы должны уметь доказать, что индивидуальные различия по наблюдаемой переменной действительно связаны с индивидуальными различиями соответствующей психологической характеристики. Например, психолог хочет измерить зрительное внимание. Поскольку зрительное внимание - это ненаблюдаемый гипотетический конструкт, психолог должен создать процедуру измерения, которая будет отражать индивидуальные различия в уровне зрительного внимания. Прежде чем заключить, что данную процедуру можно интерпретировать как меру зрительного внимания, психолог должен собрать доказательства того, что между индивидуальными баллами по тесты и «реальным» уровнем зрительного внимания существует связь. Процесс сбора таких доказательств называется валидизацией, его мы рассмотрим в следующих главах. В следующих главах мы покажем, как оцениваются индивидуальные различия и что их оценка является первым шагом в решении многих проблем измерения в психологии, которые мы уже упоминали. Индивидуальные 15
различия являются валютой психометрического анализа. Индивидуальные различия дают информацию для психометрического анализа тестов. Рекомендуемая литература Об истории первых разработок в области психологического тестирования можно прочесть в книге: DuBois. Р.Н. (1970). A history of psychological testing. Boston: Allyn & Bacon. Современное историческое и философское осмысление истории измерения в психологии дано в статье: Michell, J. (2003). Epistemology of measurement: The relevance of its history for quantification in the social sciences. Social Science Information, 42, 515-534. 16
Часть I Базовые понятия измерения
Шкалирование Если что-то существует, оно должно существовать в каком-то количестве (Thorndike, 1918). Многие психологи считают, что людям присущи такие психологические свойства, как мысли, чувства, эмоции, личностные качества, интеллект, стили обучения и т. д. Если мы верим в это, то должны предполагать, что каждое психологическое свойство существует и существует в каком-то количестве. Психологическое измерение - это процесс приписывания чисел определенным количествам психологических качеств. Процесс измерения можно считать успешным, если приписанные значения отражают реальные количества данной психологической характеристики. Стандартное определение измерения (заимствовано у Стивенса; Stevens, 1946), которое можно найти в любом вводном тексте по тестам и измерениям, звучит примерно так: «Измерение - это приписывание числовых форм объектам или событиям в соответствии с определенными правилами». В случае психологии или педагогики «события», которые представляют интерес, - это обычно какие-то образцы индивидуального поведения. «Правила», упомянутые в этом определении, обычно означают шкалы измерения, предложенные Стивенсом (Stevens, 1946). Это определение, впрочем, не лишено концептуальных проблем. В этой главе речь пойдет о шкалировании, которое связано с тем, каким образом числовые значения приписываются психологическим свойствам. Шкалирование является фундаментальным вопросом измерения. Глубокое понимание шкалирования и его приложений требует понимания целого ряда абстрактных понятий. В этой главе мы обсудим значение цифр, то, каким образом цифры могут быть использованы для представления психологических свойств, а также проблемы, возникающие при попытке связать психологические свойства с цифрами. Основной акцент будет на психологических тестах, которые предназначены для измерения ненаблюдаемых психологических свойств, таких как установки, личностные черты и интеллект. Мы обсудим несколько проблем, возникающих при попытке измерить эти ненаблюдаемые психологические характеристики, а также возможные решения этих проблем. 18
Фундаментальные особенности чисел В психологических измерениях числа используются для представления уровня психологической характеристики, присущего определенному человеку. Однако в зависимости от особенностей использованных цифр психологические свойства могут быть выражены различным образом. В этом разделе мы опишем важные свойства цифр и покажем, каким образом эти свойства могут влиять на способы представления психологических характеристик. Мы должны понимать три основных свойства чисел, а также значение нуля. Свойства идентичности, порядка и количества отражают то, каким образом числа могут выражать возможные различия в психологических характеристиках. Помимо этого, сложным числом является нуль, и эта сложность имеет определенные последствия для значения различных типов тестовых баллов. Тестовый балл, равный нулю, может иметь очень разное значение в различных измерительных контекстах. Эти вопросы важны, поскольку помогают понять, чем отличаются шкалы измерения, а значит, понять, как по-разному психологи могут использовать числовые значения в своих измерениях. Различия между шкалами измерения также влияют на использование и интерпретацию тестовых баллов. Свойство идентичности Наиболее фундаментальным свойством измерения является способность отражать «одинаковость» против «различности». То есть самые простые измерения - это те, которые позволяют различать категории людей, обладающих какой-то характеристикой. Например, можно попросить учителей первого класса назвать среди их учеников трудных детей. Дети, которые будут отнесены в группу трудных, должны быть похожи друг на друга в отношении своего поведения. Кроме того, трудные дети должны отличаться от детей, в эту группу не попавших. То есть люди внутри категории должны быть похожи в смысле обладания определенной психологической характеристикой, а также должны отличаться от людей из другой категории. В данном случае различия между представителями разных групп являются качественными, а не количественными. Чтобы это стало возможным, нам необходимо уметь разделять поведенческие характеристики людей как минимум на две категории. Основная идея состоит в том, что объекты или события могут быть отнесены к категориям по сходству характеристик. Характеристики, как правило, являются особенностями поведения, отражающими такие психологические свойства, как радостный или грустный, интровертированный или экстравертированный и т. д. Существуют определенные правила, которых следует придерживаться при классификации поведения на категории. Во-первых, категории должны быть взаимоисключающими. Если человек отнесен к интровертам, он не может быть одновременно определен в группу экстравертов. Во-вторых, категории должны быть исчерпывающими. Если вы считаете, что все люди могут быть либо интровертами, либо экстравертами, тогда эти две категории исчерпывающи. 19
Если же вы можете представить кого-то, кто не может быть с уверенностью отнесен ни к одной из категорий, тогда вам нужна еще одна категория, описывающая поведение этого человека. Например, вы можете классифицировать людей как интровертов, экстравертов и «других». В-третьих, для того чтобы ввести категорию, поведение внутри категории должно удовлетворять свойству идентичности. То есть люди внутри каждой категории должны быть «идентичны» по отношению к свойству, отражаемому данной категорией. В терминах количественных значений свойство идентичности отражает фундаментальную особенность чисел - отражение одинаковости против различности. То есть числа обладают свойством идентичности, когда они используются для представления категорий людей, «одинаковых» в терминах данной психологической характеристики. На этом уровне числа служат метками категорий. Категории могут быть обозначены буквами, именами или цифрами. Мы можем назвать категорию «Трудные дети», можем назвать - «Категория Б», а можем приписать ей номер. Например, мы можем обозначить группы «О», «1» или «100». На этом уровне цифры не несут реального математического смысла. Например, если «1» используется для обозначения категории трудных детей, а «2» - для обозначения детей, таковыми не являющимися, мы не станем интерпретировать разницу в единицу между числовыми обозначениями категорий как имеющую какой-то количественный смысл. Свойство порядка Несмотря на то что свойство идентичности отражает наиболее фундаментальную форму измерения, свойство порядка более информативно. Идентичность несет информацию о том, одинаковы ли два человека или различны, и ничего больше. Свойство порядка дает информацию об относительном количестве свойства, которым обладают люди. В этом контексте число отражает положение человека по отношению к другим людям в рамках одного измерения. Цифра 1 может быть приписана человеку, поскольку он обладает наибольшим количеством какого-то свойства по сравнению с другими людьми из группы. Цифра 2 может быть приписана человеку, который обладает следующим количеством этого же свойства, и т. д. Например, можно попросить учителя ранжировать детей в классе по их интересу к учебе. Можно попросить учителя присвоить номер 1 ученику, который больше всех интересуется учебой, номер 2 - ученику, чей интерес к учебе больше всех остальных учеников за исключением первого, и так продолжать до тех пор, пока все ученики в классе не будут «пронумерованы» по их интересу к учебе. Когда числа используются для обозначения порядка, они тоже служат метками. Например, цифра 1 указывает на человека, который обладает наибольшим количеством свойства в группе. Ребенку, демонстрирующему наибольший интерес к учебе, была приписана цифра 1 как метка, указывающая его ранг. Никакой особенной причины для того, чтобы приписать этому ребенку именно цифру 1, не было. С тем же успехом цифру 1 можно было приписать 20
ребенку с наименьшим интересом к учебе. Более того, мы могли бы даже использовать буквы для того, чтобы указать ранг ребенка. Ребенок с наибольшим (наименьшим) интересом к учебе мог бы получить букву «А» в качестве обозначения его или ее ранга. Каждый человек в группе получает число (или букву), указывающее на его относительное положение в группе по уровню определенного свойства. Для того чтобы эта информация была однозначно понята, важно, чтобы значение символа, использованного для обозначе.ния ранга, было четко определено. Мы должны знать, что означает 1 или А в каждом конкретном контексте. Свойство количества Несмотря на то что свойство порядка более информативно, чем свойство идентичности, свойство количества несет еще больше информации. Хотя свойство порядка сообщает о том, кто из двух человек обладает большим уровнем какой-то психологической характеристики, оно не несет информации о конкретном количестве этого свойства. А вот свойство количества как раз и отражает способность чисел давать информацию о величине различий между людьми. На этом уровне цифры являются реальными числами. Число «1» используется для определения базовой единицы каждой конкретной шкалы. Все остальные значения кратны единице или являются долями единицы. Каждое число (например, число 4) представляет собой определенное количество базовых единиц. Подумайте о единицах, в которых вы измеряете свой вес; фунт - это базовая единица измерения, используемая на большинстве бытовых весов в США. Чтобы узнать, сколько вы весите, вы можете сосчитать эти единицы, начиная с 1. Единицы измерения - это стандартизованные количества; величина единицы определяется каким-то соглашением. Мы продолжим эти рассуждения чуть позже. Реальные числа также обладают свойством непрерывности. В принципе любое число может быть разделено на бесконечно много малых частей. В контексте измерения реальные числа обычно называют скалярными, метрическими или просто количественными значениями. Сила реальных чисел состоит в том, что они могут быть использованы для измерения свойств вещей, людей или событий. Когда они правильно применяются к свойствам, они указывают количество чего-то. Например, 10 литров воды не только больше 5 литров воды, они еще и ровно на 5 единиц (литров) больше. Когда психологи используют психологические тесты для измерения психологических характеристик, они часто предполагают, что тестовые баллы обладают свойством количества. Как мы увидим позднее, это редко бывает верным предположением. Число нуль Число нуль - это странное число, имеющее множество значений. На самом деле только в последние пару сотен лет цифра 0 стала восприниматься как целое число. У цифры 0 есть два возможных значения. Чтобы правильно 21
проинтерпретировать нулевой тестовый балл, необходимо понимать, какое значение несет этот балл. В одном из возможных значений нуль обозначает состояние, в котором свойство объекта или события не существует. Если вы скажете про объект, что его длина равняется 0,0 см, это будет означать, что у объекта нет длины, по крайней мере, в обычном понимании термина «длина». Нуль в данном случае воспринимается как абсолютный нуль. В психологии лучшим примером поведенческого измерения с абсолютной нулевой точкой может быть время реакции. Второе возможное значение нуля - произвольное количество свойства. Нуль этого типа называется произвольным нулем. Примерами из физического мира могут быть такие свойства, как время (календарь, часы) или температура, измеряемая термометром. В этих примерах нуль - это произвольная точка на шкале, которой измеряется этот объект. Например, нулевая температура по шкале Фаренгейта произвольна в том смысле, что она не представляет собой «отсутствие» чего-либо. Психологический мир полон (по крайней мере, потенциально) такого рода свойствами. Трудно поверить, что у человека, обладающего сознанием, может не быть интеллекта, самооценки, интроверсии, социальных навыков, установок и т. д. Все люди в какой-то степени обладают этими характеристиками. И, тем не менее, психологические тесты, измеряющие эти свойства, могут давать нулевой балл. В этих случаях нуль произволен и не означает реального отсутствия свойства. Более того, как мы увидим позднее, многие (если не большинство) тестовые баллы могут быть представлены в виде z-баллов, которые мы будем обсуждать в главе 3. Среднее z-баллов всегда равняется 0. Нуль в данном случае является произвольным нулем. В психологии определение нуля как относительного или как абсолютного представляет собой серьезную проблему. Проблема касается разницы между особенностями измеряемого психологического свойства. Воспользуемся примером из Торндайка (Thorndike, 2005), чтобы проиллюстрировать данную проблему. Торндайк описывает ситуацию, когда шестиклассникам предлагают словарный диктант. Он предлагает нам представить, что один из учеников не смог правильно написать ни одного слова из диктанта. Это означает, что ребенок получает за диктант 0 баллов. В данном случае словарный диктант является инструментом для измерения свойства ребенка - его грамотности. У данного теста (диктанта) есть абсолютная нулевая отметка. Нулевой тестовый балл означает, что ребенок не смог верно написать ни одного слова. Однако сложно представить, что шестиклассник вообще не знает правописания; его грамотность (способность правильно писать слова), скорее всего, все-таки не равняется нулю. Тогда возникает вопрос: как нам следует обращаться с тестовым баллом ученика? Следует ли нам считать его абсолютным или относительным нулем? Интерпретация тестовых баллов будет зависеть от типа нуля, связанного с тестом. Технически, предполагая, что у теста есть абсолютный нуль, мы получаем возможность спокойно производить арифметические операции умножения и деления тестовых баллов. А вот если тест имеет относительную 22
нулевую точку, нам придется ограничить операции над тестовыми баллами сложением и вычитанием. Для того чтобы правильно оценивать тесты, важно знать, что означает 0 - что человек, получивший 0 баллов, не обладает измеряемым свойством вообще или что человек не обладает измеряемым количеством свойства, по крайней мере, измеряемым выбранным тестом? Подводя итоги, повторим, что три свойства чисел и значение нуля являются фундаментальными вопросами, которые определяют наше понимание тестовых баллов. Если было обнаружено, что два человека обладают одной и той же характеристикой, значит, мы установили свойство идентичности. Если обнаружено, что два человека обладают одной характеристикой, но один - в большей степени, чем другой, значит, мы установили порядок. Если может быть установлен порядок, и мы можем определить, насколько большим количеством свойства обладает один человек по сравнению с другими, значит, мы установили свойство количества. Идентичность - самый базовый уровень измерения. Для того чтобы измерить что-либо, должна быть установлена идентичность объекта измерения. Когда установлена идентичность, может быть установлен порядок. Порядок, в свою очередь, является фундаментом количества. Как мы увидим, числа играют различную роль в представлении психологических характеристик в зависимости от уровня измерения. С большинством психологических тестов обращаются так, как если бы они давали численные баллы, обладающие свойством количества. В следующих двух разделах мы остановимся на двух фундаментальных вопросах, касающихся значения и использования количественных тестовых баллов. В частности мы обсудим значение «единицы измерения» и способы подсчета этих единиц. Единицы измерения Свойство количества требует, чтобы была четко определена единица измерения. Как мы увидим в этом разделе, количественное измерение основано на возможности считать эти единицы. Прежде чем обсуждать процесс и результаты подсчета единиц измерения, нужно понять, что имеется в виду под единицей измерения. Во многих знакомых случаях физического измерения единицы измерения очевидны сразу. Если человек хочет измерить длину бревна, он, скорее всего, воспользуется какой-то рулеткой с нанесенными на нее единицами - дюймами или сантиметрами. Длина бревна определяется подсчетом количества единиц от одного конца до другого. В психологических измерениях единицы измерения часто гораздо менее очевидны. Когда мы измеряем такие психологические особенности, как скромность, рабочая память, внимание или интеллект, какими единицами мы пользуемся? Предположительно, это определенного рода ответы, например, на серию вопросов или заданий. Но откуда мы знаем, связаны ли и в какой степени эти ответы с самими психологическими свойствами? Мы вернемся к этим вопросам чуть позже, поскольку они являются одной из самых неприятных 23
проблем в психометрике. Сейчас же сосредоточимся на понятии единицы измерения. Поскольку значение этого понятия легче всего проиллюстрировать на примере измерения физических объектов (Mitchell, 1990). представим его именно таким образом. Представьте на минуту, что вы хотите придумать новый способ измерения длины бревна. Вот один из способов, который вы можете использовать. Для начала найдите стальной прут. Не важно, какова его длина, но он должен быть достаточно длинным, чтобы его можно было разрезать на куски. Диаметр прута тоже не имеет значения - но, конечно, он должен быть таким, чтобы вам было удобно с ним работать. Теперь отрежьте маленький кусочек прута. Его длина не имеет для нас значения. Давайте назовем этот кусок прута - «икс-прут». Нам понадобится какое-то количество икс-прутов, поэтому можно использовать исходный икс-прут в качестве шаблона для того, чтобы нарезать набор икс- прутов. Теперь с помощью наших икс-прутов мы можем измерить длину бревна. Совместите один из кусочков икс-прута с одним из концов бревна и укладывайте икс-пруты друг за другом встык, пока не дойдете до второго конца бревна. Теперь посчитайте количество икс-прутов, которое поместилось на бревне. Например, вы можете узнать, что длина бревна составляет 8 икс-прутов. Вы только что измерили длину объекта в «единицах икс-прутов». Ваша мера ничем не хуже других мер длины за исключением того, что только вы и знаете, что такое икс-прут. Свойство произвольности важно для понимания разницы между различными типами единиц измерения. Произвольность единиц измерения может быть трех видов. Во-первых, для некоторых единиц измерения сама величина единицы произвольна. То есть конкретная величина единицы может быть любой. В нашем примере с икс-прутом длина исходного икс-прута могла быть любой. В этом смысле реальная длина нашей единицы измерения (икс- прута) был совершенно произвольной. Точно так же произвольно количество веса, которое содержит фунт. Несмотря на то что сейчас количество веса, которое содержится в фунте, имеет очевидные последствия, мы можем спросить, почему фунт должен содержать именно это конкретное количество веса. Скорее всего, это был произвольный выбор. Вторая форма произвольности - отсутствие связи между некоторыми единицами измерения и другими объектами. То есть нет никакого ограничения по объектам, к которым единица измерения может быть применена. Наши икс- пруты могут быть использованы для измерения всего, что имеет пространственное измерение. Например, мы можем ими измерять длину стола, расстояние между двумя объектами, глубину воды в бассейне. Точно так же и фунт может быть использован для измерения веса разных объектов. Третья форма произвольности состоит в том, что некоторые единицы измерения, будучи облечены в физическую форму, могут быть использованы для измерения разных свойств объектов. Например, икс-пруты, которые мы использовали для измерения длины бревна, могли с одинаковой легкостью быть использованы как единицы веса и как единицы длины. Представьте себе весы, на одну чашу которых вы положите объект, а на другую - кучку икс-прутов. 24
Когда весы придут в равновесие, вы сможете сказать, что объект весит, скажем, 4 икс-прута. Точно так же, если у нас есть, например, куски металла, весящие ровно фунт, мы можем использовать их и'для измерения длины, укладывая встык. Когда единицы измерения, называемые стандартными мерами, принимают физическую форму, они оказываются основанными на произвольных единицах измерения во всех смыслах этого термина. В физическом измерении стандартные единицы - это фунты, литры и миллисекунды. Тот факт, что они выражаются произвольными единицами, дает гибкость и обобщенность. Например, вы можете использовать миллисекунды для измерения чего угодно - от времени реакции человека на предъявление стимула до времени, которое требуется машине, чтобы проехать по улице. Предвосхищая наше обсуждение измерения в психологическом мире, следует заметить, что психологические единицы измерения (например, баллы по тесту механических способностей или тесту интеллекта) произвольны лишь в первом смысле термина «произвольный», о котором мы говорили выше. То есть большинство психологических единиц измерения имеют произвольную величину, но обычно привязаны к каким-то конкретным объектам или измерениям. Например, «единица» измерения по тесту IQ связана с интеллектом не произвольным образом и неприложима ни к какому другому измерению. Из- за этой особенности баллов по тесту IQ они называются «пунктами IQ»; эти пункты не имеют никакого значения за пределами тестов, используемых для измерения интеллекта. Есть одно важное исключение из описанного наблюдения: для измерения психологических свойств иногда используются стандартные единицы измерения. Например, для измерения многих когнитивных процессов используют время реакции. Сложение и подсчет Необходимость подсчета является центральной для всех попыток измерения. В независимости от того, что мы измеряем - свойства физического или психологического мира, любое измерение включает подсчет. Например, когда мы использовали икс-пруты для измерения бревна, мы располагали их друг за другом от одного конца до другого и затем пересчитывали. Полученная сумма и являлась измерением длины. Точно так же, когда мы анализируем поведение, чтобы измерить самооценку человека (например, проводим тест), мы складываем ответы определенного типа. Сложение Важно отметить, что процесс подсчета как часть процесса измерения включает предположение, которое верно далеко не во всех случаях психологического измерения. Это предположение состоит в том, что величина единицы остается постоянной в процессе их подсчета. Сложение возможно, если каждый раз, когда к сумме единиц мы прибавляем еще одну единицу, общая 25
сумма всех единиц увеличивается на 1 постоянную или фундаментальную единицу. В случае с икс-прутами, если у нас было 2 икс-прута, к которым мы добавили еще 1 икс-прут, то в сумме мы получим 3 икс-прута. Аналогично, если к 40 икс-прутам мы прибавим 1, то получим 41 икс-прут. Разница в обоих случаях составит 1 икс-прут. Сложение требует, чтобы величина единицы все время оставалась постоянной; прибавление 1 единицы должно быть одинаковым, в какой бы точке процесса измерения это ни происходило. Представьте, что вместо набора из одинаковых икс-прутов у вас был бы набор из икс-прутов разной длины. Тогда, если бы мы попытались дважды измерить длину бревна, мы бы могли получить разные суммы икс-прутов, и это не позволило бы нам определить истинную длину бревна. Кроме того, величина нашей единицы не должна изменяться со сменой условий измерения. Например, величина икс-прута должна оставаться постоянной независимо от времени суток, в которое происходит измерение бревна. То есть на самом деле мы хотим, чтобы независимо от условий, существующих в момент и в месте измерения, на наше измерение влияло только одно свойство измеряемого объекта. Этот вопрос рассматривается в теории параллельного измерения (Luce, Tukey, 1964), он достаточно сложен и лежит за пределами данной книги (хорошее объяснение см. в статье Green, Rao, 1971). А теперь представьте, что вы пытаетесь измерить такое психологическое свойство, как знание американской истории. Обычно для этого людям задают ряд вопросов, которые по замыслу свидетельствуют об их уровне знаний, и записывают их ответы на эти вопросы. Затем ответы каким-то образом складывают, чтобы получить общий (суммарный) балл, который интерпретируется как мера знаний американской истории. Представьте, что один из вопросов вашего теста - «Кто был первым президентом США?», а другой вопрос - «Кто был первым европейцем, заплывшим в Пьюджит Саунд?» Совершенно очевидно, что объем знаний американской истории, необходимый для того, чтобы правильно ответить на первый вопрос, меньше, чем объем знаний, необходимый для ответа на второй. Представим в качестве иллюстрации, что для того, чтобы правильно ответить на первый вопрос, вам нужна 1 единица знаний американской истории, а чтобы верно ответить на второй - 3 единицы. Если для расчета общего балла вы просто складываете количество правильных ответов, то некто, кто ответил верно на оба вопроса, получит 2 балла, что будет означать, что у человека есть 2 единицы знаний американской истории, в то время как на самом деле их у него 4. Ваша ошибка является следствием того, что ответы на вопросы не являются функцией одинаковых единиц знания, то есть правильные ответы на вопросы нельзя складывать. Таким образом, сумма правильных ответов не может быть мерой объема знаний. В психологии часто предполагается, что такие психологические свойства, как знание американской истории, действительно существуют в каких-то количествах. Но точно так же, как мы можем прямо видеть «длину» бревна, мы не можем прямо видеть «знание американской истории». В результате мы не 26
можем просто увидеть, соответствует ли сумма вопросов по американской истории реальному объему знаний по американской истории, которым обладает человек. В этом парадокс: мы хотим перевести количество психологического свойства в набор цифр, чтобы измерить это свойство, но получается, что это не может быть сделано, поскольку мы не знаем, какое количество свойства на самом деле существует. В следующем разделе мы предложим варианты решений этой проблемы, но прежде необходимо разобраться еще с несколькими аспектами измерения. Подсчет: когда он может служить мерой психологического свойства? Несмотря на то что всякое измерение предполагает подсчет, не всякая сумма может служить мерой психологического свойства. Противоречие между подсчетом и измерением возникает тогда, когда мы считаем вещи, а не свойства (Lord, Novick, 1968; Wright, 1997). Например, если вы подсчитаете количество вилок на столе, вы что-нибудь измерите? Или если вы подсчитаете количество детей в классе, вы что-нибудь измерите? Некоторые эксперты считают, что простой подсчет каких-то объектов не может считаться «измерением». Подсчет будет являться измерением только, если он производится для того, чтобы отразить количество какого-то свойства или характеристики объекта. Например, если физик использует счетчик Гейгера для того, чтобы подсчитать радиоактивное излучение от объекта, тогда он измеряет радиоактивность объекта, где «радиоактивность» является свойством объекта. Аналогично профессор, подсчитывающий количество правильных ответов в тесте по математике с выбором вариантов ответа, может измерять «количество математического знания» студента, где «количество математического знания» является психологическим свойством студента. Четыре шкалы измерения Измерение включает приписывание числовых значений или символов наблюдениям так, чтобы числа или символы отражали реальные отличия, существующие в уровне наблюдаемого психологического свойства. Шкалирование - это особый способ, с помощью которого числа или символы связываются с наблюдениями поведения для создания измерительного инструмента (Allen, Yen, 1979; Crocker, Algina, 1986; Guilford, 1954; Magnusson, 1967). На самом деле определение шкалирования внутренне противоречиво. Некоторые авторы могут посчитать наше определение шкалирования чересчур либеральным и могут ограничить шкалирование приписыванием чисел, обладающих, по меньшей мере, свойством порядка (Magnusson, 1967; McDonald, 1999). Еще более строгие определения требуют использования скаляров (Wright, 1997). Это еще одно противоречие в литературе по измерениям, которое мы не 27
будем пытаться разрешить. Наше определение достаточно широко, чтобы включать все точки зрения. Кроме того, важно заметить, что некоторые авторы используют термины «шкалирование» * и «измерение» как синонимы (Bartholomew, 1996). Стивенс (Stevens, 1946) выделял 4 уровня измерения. Согласно стандартному определению измерения, приписывание числовых значений наблюдениям поведения должно производиться «в соответствии с правилами». В большинстве случаев под «правилами» понимают шкалы измерения, предложенные Стивенсом (Stevens, 1946, 1951). Шкалы измерения Стивенса являются правилами в том смысле, что они определяют, каким образом свойства чисел или символов могут быть привязаны к наблюдениям поведения, связанного с психологическими свойствами. В таблице 2.1 эти уровни измерения объединены с фундаментальными свойствами чисел, о которых мы говорили ранее. Таблица 2.1 Связь между числовыми принципами и уровнями измерения Принцип Уровень измерения Наименование Порядок Интервал Отношение Идентичность X X X X Порядок X X X Количество X X Абсолютный нуль X Пример Пол Ранг в классе Температура Расстояние Шкалы наименования Самый базовый уровень измерения - шкала наименования. В шкале наименования символы или числа, обладающие свойством идентичности, используются для обозначения наблюдений, которые были разделены на категории по отношению к какому-то психологическому свойству. Например, дети в классе делятся на категории по уровню их способности к обучению. Всего есть три категории - «быстро обучаются», «обучаются в среднем темпе», «медленно обучаются». Обратите внимание, что вместо названий мы могли бы использовать числа. Для обозначения быстро обучающихся детей мы бы использовали 1, для обучающихся в среднем темпе - 2, для обучающихся 28
медленно - 3. Также для обозначения категорий мы могли бы использовать буквы. Если мы уверены в том, что наши категории взаимоисключающи и исчерпывающи, нашей единственной заботой будет наша способность правильно отнести детей к группам. Важно понимать разницу между наименованиями категорий, использованными в предьщущем примере, и именами отдельных людей. Наименования категорий обозначают группы людей, которые обладают общим свойством, не присущим людям из других групп. Цифры, которые используются для обозначения отдельных людей (например, номера социального страхования) не предназначены для обозначения принадлежности к группе. Это различие становится не столь прозрачным, когда цифры приписываются отдельным людям каким-то систематическим образом. Например, можно разделить людей на группы по году их рождения или по их номерам социального страхования. Номера игроков в футбол могут быть знакомым примером этой проблемы (в статье Lord, 1953 можно найти юмористическое обсуждение этой проблемы). У каждого игрока есть индивидуальный номер, который выполняет функцию имени, однако существует традиция раздачи номеров на основании игровой позиции футболиста. Например, куортербекам обычно дают маленькие номера, а защитникам - большие. Используя цифры для обозначения людей, надо понимать, для чего вы это делаете - для того, чтобы указать на их принадлежность к группе, или в качестве меток, выполняющих функции индивидуального имени? Шкалы порядка Шкала порядка связывает наблюдения поведения, отражающие качественные различия в количествах характеристики, с символами или числами, которые обладают свойством порядка. Шкалы порядка ранжируют людей согласно количествам характеристики, которым они обладают. Например, спортсмены в команде могут быть проранжированы по уровню атлетизма. Тренер команды может строить ранги, опираясь на свою собственную оценку атлетизма каждого спортсмена. Спортсмен, получивший наивысшую оценку, будет обозначен числом 1, следующий по атлетизму спортсмен - числом 2. Числа в данном случае являются просто метками, указывающими на относительную позицию спортсменов, соответствующую их уровню атлетизма по оценкам тренера. В данном примере атлетизм - это характеристика, присущая каждому спортсмену. Шкала порядка, однако, не предполагает оценки конкретного количества этой характеристики у каждого спортсмена. Числа просто указывают на то, что у одного спортсмена атлетизма больше, чем у другого. Чтобы лучше понять это, попробуйте представить, что у вас есть две спортивные команды - профессиональных спортсменов и студентов. Тренер каждой из команд оценивает своих подопечных по уровню атлетизма; профессионалов сравнивают между собой, студентов - между собой. Самый атлетический член команды профессионалов получает ранг 1 и самый атлетический член студенческой команды - тоже ранг 1. Очевидно, было бы 29
глупо предполагать, что эти два спортсмена обладают одним и тем же количеством атлетизма. Шкалы интервалов Свойство количества характеризует две оставшиеся шкалы измерения. Существует поведение людей, которое по отношению к некой характеристике можно классифицировать в упорядоченные единицы. Если есть уверенность в том, что между всеми единицами равные расстояния, то можно смело приписывать этим единицам числа. В этом случае каждое число показывает количество измеряемой характеристики. Таким образом, две оставшиеся шкалы отражают количественные различия между людьми; различие же между этими двумя типами шкал основано, в первую очередь, на значении нуля. Шкалы интервалов имеют относительный нуль. Температуры в градусах Фаренгейта - это классический пример характеристики (температуры), измеренной в шкале интервалов. Как мы уже обсуждали ранее, температура в О градусов Фаренгейта является относительным нулем, поскольку не указывает на отсутствие какой-то характеристики, то есть она не указывает отсутствие тепла. В шкале интервалов размер единицы измерения постоянен и аддитивен, но на этой шкале невозможна операция умножения. То есть вы можете прибавить 2 градуса к 30 градусам и получить 32 градуса или 2 градуса к 80 градусам и получить 82 градуса. В обоих случаях 2 градуса будут представлять собой одно и то же изменение в «количестве температуры». Однако нельзя сказать, что температура в 80 градусов Фаренгейта «в два раза теплее», чем в 40 градусов. Согласно мнению многих экспертов в области измерения, редкие психологические тесты достигают уровня шкалы интервалов (Ghiselli, Campbell, & Zedeck, 1981). Возможно, что баллы по некоторым известным академическим тестам, например по Тесту академической оценки (Scholastic Assessment Test, SAT) и Американскому тесту для колледжей (American College Test, ACT), являются баллами на шкале интервалов, однако для большинства психологических тестов это не так. Шкалы отношений В отличие от интервальных шкал с относительным нулем, шкалы отношений имеют абсолютную нулевую точку. Например, физическое расстояние измеряется на шкале отношений. Мы можем захотеть измерить расстояние между двумя объектами и выяснить, что расстояние между ними равняется нулю. В этом случае 0 будет означать реальное «отсутствие расстояния». Иными словами, 0 здесь указывает на отсутствие измеряемой характеристики. Будучи шкалами более высокого уровня измерения, чем шкалы интервалов, порядка и наименований, шкалы отношений позволяют совершать не только операции сложения, но и умножения. Например, расстояние в 80 миль можно рассматривать как «в два раза большее», чем расстояние в 40 миль. Этот момент очень важен, поскольку влияет на нашу интерпретацию различий между объектами. На практике шкалы отношений позволяли бы пользователю тестов 30
делать такие заключения: «Психические нарушения у пациента А в два раза сильнее, чем у пациента Б». В исследовательском контексте шкала отношений позволила бы психологам интерпретировать результаты определенных статистических процедур в величинах измеряемых психологических характеристик. По мнению экспертов в области тестирования, вероятно, не существует психологических тестов, которые дают данные уровня шкалы отношений. Это может вам показаться удивительным, поскольку многие из вас встречались с попытками измерять психологические характеристики, используя стандартные измерения. Например, время реакции является частой единицей измерения в когнитивной психологии и становится все более популярным в психологии личности. Такие стандартные измерения, как время реакции, делаются на шкалах отношений. Почему же мы тогда утверждаем, что психологические тесты не дают результатов уровня шкалы отношений? Обратите внимание на то, что шкалы отношений имеют абсолютную нулевую точку. Если вы на минуту задумаетесь, то поймете, что человек не может ответить ни на какой стимул за 0 секунд (или миллисекунд). Измерительный прибор - например, таймер - имеет абсолютный нуль, но время реакции человека никогда не может быть равно 0. Мы не утверждаем, что измерения времени реакции - это плохие измерения психологического процесса. Более того, мы согласны с Дженсеном (Jensen, 2005), что время реакции является одним из наиболее естественных способов измерения психической деятельности. Мы привели этот пример, чтобы обратить внимание на то, что пользователь тестов должен различать нуль, связанный с измерительным прибором, и нуль, связанный с особенностями измеряемой психологической характеристики. Несмотря на то что измерительный инструмент может иметь абсолютный нуль, психологическая характеристика,, измеряемая с его помощью, может не иметь абсолютного нуля (Blanton, Jaccard, 2006). Дополнительные вопросы, связанные со шкалами измерения Несмотря на то что до конца неясно, различал ли Стивенс (Stevens, 1946) нуль, получаемый с помощью измерительного устройства (например, теста), и нуль, связанный с измеряемой психологической характеристикой, мы предполагаем, что относительный нуль в его определении шкалы интервалов относится к относительной точке на психологическом измерении. То есть теоретически возможен такой тест, дающий результаты на шкале интервалов, в которых балл, равный 0, представляет осмысленное количество характеристики, причем это не означает, что человек, набравший 0 баллов, обладает нулевым количеством рассматриваемой характеристики. Правила, предложенные Стивенсом для приписывания символов (включая приписывание чисел поведенческим наблюдениям, использующимся в качестве тестов), следует понимать как эвристики, а не как алгоритмы шкалирования. Вообще говоря, другие авторы предлагали дополнительные уровни измерения и соответствующие им правила создания шкал. Например. Кумбс (Coombs, 1950) 31
считал, что существует еще один уровень измерения между шкалами наименования и порядка и еще один - между шкалами порядка и интервалов. Подсчет может считаться самостоятельном уровнем измерения. Когда он используется для определения количества психологической характеристики, он может считаться шкалой с абсолютным нулем и фиксированной, не произвольной единицей измерения (числом 1). Несмотря на то что их часто используют для иллюстрации шкал наименований, дихотомические переменные, которым присваиваются бинарные коды (например, 1 и 0), могут иногда считаться дающими данные уровня шкалы интервалов. Если у вас есть причина полагать, что в основе этих дискретных дихотомических категорий лежит количественная психологическая характеристика, тогда бинарные коды будут обладать всеми свойствами, связанными с количеством. Например, представьте, что у вас есть тест для измерения депрессии. Вы даете тест большой группе людей и делите людей на два категорий на основании тестового балла - страдающие и не страдающие депрессией. Если вы припишете этим категориям числовые коды, тогда числа будут отражать различия в количестве депрессии у двух категорий людей. В этом случае значения могут быть рассмотрены как числа на шкале интервалов. С другой стороны, если разделение на категории происходит на основании не количественной характеристики, тогда не имеет смысла рассматривать коды как имеющие количественное значение. Примером может быть деление людей на категории по критерию употребления или неупотребления запрещенных наркотиков Резюме В этой главе были рассмотрены важные теоретические вопросы, составляющие основу психологического измерения. Основная цель шкалирования в контексте этой книги состоит в привязке числовых значений к психологическим характеристикам, которыми обладают люди. Как было показано в данной главе, фундаментальные вопросы шкалирования связаны: а) со связью между наблюдениями поведения и числовыми символами и б) степенью, в которой эти символы указывают на реальные различия, существующие между наблюдаемым поведением. Шкалирование психологических характеристик людей связано со сложностями, которые отчасти возникают из-за того, что психологические характеристики (например, черты, способности, навыки, установки) невозможно наблюдать прямо. Поэтому во многих случаях психологического измерения психологи полагаются на неколичественные измерения психологических характеристик или просто предполагают, что модели количественного измерения работают достаточно хорошо для того, чтобы предсказывать количества психологической характеристики. Тем не менее, все процедуры психологического шкалирования имеют одну общую особенность: они все используются для того, чтобы представить различия между людьми. В 32
следующей главе будут рассмотрены статистические процедуры, которые используются для описания и оценки этих психологических различий. Рекомендуемая литература Классическая статья по психологическому шкалированию: Stevens, S. S. (1946). On the theory of scales of measurement. Science, 1103. 677-680. Статья, в которой рассматриваются возможные вариации на тему шкал измерения Стивенса: Coombs, С. Н., Raiffa, Н., & Thrall, R. М. (1954). Some views on mathematical models and measurement theory. Psychological Review, 61, 132-144. Статья, в которой дано хорошее обсуждение одной из наиболее фундаментальных проблем измерения в психологии: Blanton, Н., & Jaccard, J. (2006). Arbitrary metrics in psychology. American Psychologist, 61, 27-41.
ГЛАВА 3 Индивидуальные различия и корреляции В этой главе речь пойдет о «трех китах» психологического измерения - дисперсии, ковариации и интерпретации тестовых баллов. Эти три раздела составляют основу теории измерения, оценки тестов и использования тестов. Большая часть материала в этой главе носит статистический характер, и некоторые понятия, которые мы будем обсуждать, могут быть знакомы многим из вас, Тем не менее, необходимо очень хорошо разобраться в этих понятиях, прежде чем перейти к рассмотрению психометрики и смысла тестовых баллов. Данная глава объединяет все три перечисленных блока. Начнем с обсуждения дисперсии - различий внутри набора тестовых баллов или между значениями психологической переменной. Сначала поговорим о важности этого понятия, затем опишем процедуры, с помощью которых определяют величину дисперсии тестовых баллов, а потом остановимся на понятии ковариации - степени соответствия между дисперсиями двух различных наборов тестовых баллов. Обсудим важность этого понятия и статистические процедуры оценки ковариации между двумя наборами данных и, наконец, опишем процедуры, помогающие испытуемым и пользователям тестов интерпретировать тестовые баллы. Эти процедуры тесно связаны с понятием дисперсии. Природа дисперсии Как уже было упомянуто, психологическое измерение основывается на предположении о том, что между людьми существуют (или могут существовать) различия, которые проявляются в поведении или других психологических характеристиках. В некоторых случаях это предположение формулируется явно, как, например, в исследовании, пытающемся обнаружить источник и значение 34
психологических различий между людьми. Однако иногда это предположение лишь подразумевается. Пользователю теста может быть интересно понять отдельного человека, как, например, при Постановке диагноза, касающегося задержки развития. И даже в этой ситуации анализа «единичного случая» процесс измерения основывается на предположении о том, что между людьми существуют различия и что диагностический инструмент способен их обнаруживать. Существует как минимум два типа различий, которые психологи стремятся измерить. Межиндивидуальные различия - это различия, которые существуют между людьми. Например, когда школьники выполняют Тест академической оценки (Scholastic Assessment Test, SAT), все они получают разные баллы. Различия между тестовыми баллами разных школьников представляют собой межиндивидуальные различия. Интраиндивидуальные различия - это различия, которые возникают в поведении или личностных характеристиках одного и того же человека с течением времени или в разных обстоятельствах. Например, интраиндивидуальные различия можно наблюдать, если фиксировать силу симптома у пациента психиатрической клиники в период лечения. Для того чтобы создать, оценить и использовать психологический измерительный инструмент, психологические различия должны существовать и быть измеряемыми. В этой главе внимание будет, прежде всего, сосредоточено на межиндивидуальной дисперсии, которая возникает при проведении многих психологических измерений. Важность индивидуальных различий Вряд ли возможно переоценить важность индивидуальных различий в психологии. Ф. Гальтон отмечал, что разнообразие является не только движущей силой эволюции, но и психологии. По большому счету психология и состоит в изучении разнообразия поведения отдельных людей. Науки о поведении, как и измерения, которые являются необходимым компонентом этих наук, в большой степени нацелены на изучение индивидуальных различий. Как уже было отмечено, разнообразие (дисперсия) стоит в центре психологических исследований и их практических приложений в науках о поведении. В рамках своих исследований психологи часто стремятся понять важные различия между людьми или группами людей. Когда психологи и другие исследователи изучают агрессию, интеллект, психопатологии, счастье, удовлетворенность браком или способности к обучению, они пытаются обнаружить и понять истоки и последствия индивидуальных различий между людьми. Почему одни люди более агрессивны, чем другие? Определяется ли разница в интеллекте биологическими предпосылками? Связаны ли различия в удовлетворенности супругов браком с различиями в самооценке их детей? Все подобные вопросы начинаются с предположения, о том, что между людьми существуют важные различия и что эти различия могут быть измерены. В прикладном контексте психологи также предполагают, что психологические 35
характеристики разных людей могут различаться и различаются. Работодатели пытаются обнаружить различия между такими качествами, как сознательность, честность и интеллект, для того чтобы* повысить эффективность найма персонала. Приемные комиссии колледжей анализируют различия в способностях абитуриентов к обучению, для того чтобы улучшить отбор студентов. Клинические психологи стремятся найти различия в симптомах психологических расстройств, для того чтобы понять, какая терапия нужна разным клиентам. Индивидуальные различия также являются основой психологического измерения. Как мы уже сказали, теория измерения базируется на простом и очень важном допущении о том, что психологические различия существуют и поддаются измерению с помощью грамотно подобранных измерительных инструментов. Как мы увидим позже в этой книге, существование и обнаружение индивидуальных различий лежит в основе конструирования и оценки тестов. Более того, такие психометрические понятия, как надежность и валидность, также полностью зависят от возможности измерить различия между людьми. Традиционно индивидуальные различия считались прерогативой разработчиков и пользователей психологических тестов. На самом же деле все исследования в психологии, а также все научные приложения психологии зависят от способности измерять индивидуальные различия. Например, в исследованиях по экспериментальной психологии людей помещают в разные ситуации и затем анализируют влияние различных условий на их поведение. Таким образом экспериментальные психологи пытаются доказать, что индивидуальные различия отчасти являются функцией того опыта, который приобретает человек, будучи помещен в определенные экспериментальные условия. Аналогично любое научное приложение психологии требует, чтобы индивидуальные различия были, как минимум, измерены. Например, психопатологический диагноз предполагает способность клинициста измерить патологию. Иными словами, клиницист должен уметь показать, каким образом человек с патологией отличается от тех людей, у которых ее нет. Если клиницист интересуется научной психологией, он попытается также проверить, происходят ли в состоянии пациента изменения с течением времени, и если происходят, то могут ли они считаться результатом примененного лечения. Мы считаем, что необходимо понимать, что любая область научной психологии - экспериментальная или неэкспериментальная, общая или прикладная - принимает как данность существование и измеряемость индивидуальных различий. Процесс измерения индивидуальных различий начинается с понимания того, что баллы по психологическому тесту могут различаться у разных людей, а также у одного и того же человека в разное время. Тестовые баллы группы людей или одного и того же человека в разных ситуациях составляют распределение тестовых баллов. Различия между тестовыми баллами в рамках одного распределения обычно называют дисперсией. Ключевым элементом 36
большинства исследований является точное определение величины дисперсии распределения тестовых баллов. Дисперсия и распределение тестовых баллов Для того чтобы понять фундаментальные основы психодиагностики, необходимо разобраться в некоторых базовых статистических понятиях. В частности, нужно понимать, как соотносятся и каким образом рассчитываются дисперсия и ковариация. Дисперсия - это количественный показатель разнообразия, или индивидуальных различий в распределении тестовых баллов, а ковариация - это степень соответствия дисперсии одного распределения и дисперсии другого распределения. Многие фундаментальные понятия теории психологических измерений опираются на возможность обнаруживать и описывать распределение тестовых баллов. Когда группа людей проходит психологический тест, каждый участник получает тестовый балл. Обычно баллы разных людей различаются - кто-то получает высокий балл, кто-то - низкий, а кто-то - средний. Набор тестовых баллов группы и составляет распределение баллов. В табл. 3.1 представлен небольшой пример, в котором 6 людей проходят тест на интеллект. Как вы видите, это небольшое распределение из 6 значений отражает индивидуальные различия - тестовые баллы изменяются от 130 до 90. Одна из главных целей статистики состоит в осмысленном описании распределения тестовых баллов, и для этого могут быть использованы как минимум три источника информации. Многие из вас уже, вероятно, знакомы с понятиями центральной тенденции, дисперсии и формы распределения. Обсудим их таким образом, чтобы от них легко перейти к психометрическим понятиям надежности и валидности. Центральная тенденция Наверное, самое базовая характеристика распределения - это центральная тенденция. Что такое «типичный» балл распределения, или какой балл является наиболее показательным для всего распределения? Несмотря на то что существует несколько мер центральной тенденции (например, медиана или мода), чаще всего используют среднее значение. Арифметическое среднее - это значение, которое является «типичным» для распределения баллов. Многим из вас наверняка знакомо уравнение для вычисления среднего: - Xх Среднее = X = -- (3.1) 37
Таблица 3.1 Пример описания распределения тестовых баллов X IQ Отклонение (X-Jf)2 Отклонение в квадрате • ПО 0 0 120 10 100 100 -10 100 90 -20 400 130 20 400 ПО 0 0 Сумма (£¥) = 660 1000 = SS = £( X - X )2 Среднее (Х)= ПО 166,67 = Дисперсия (s2) 12,91 = Станд. отклон.(з) В этом уравнении балл каждого респондента обозначен как «X». Те из вас, кто знаком с обозначением суммирования, вспомнят, что значок сигма указывает нам на то, что в числителе стоит сумма всех X. N используется для обозначения общего числа людей в группе (или в общем случае суммарного числа значений X в распределении). Для данных из таблицы 3.1 средний коэффициент интеллекта (IQ) равен: Х= 100 +120 + 100 + 90 + 130 + ПО 6 б ’ X- 110. Таким образом «средний представитель» данной группы имеет IQ, равный НО. Несмотря на то что среднее может давать интересную и полезную информацию, нас гораздо больше интересует то, насколько люди в группе отличаются друг от друга. Один из способов определить это - рассчитать, насколько балл каждого респондента отличается от группового среднего. Подробнее этот вопрос будет рассмотрен в следующем параграфе. 38
Дисперсия Как уже отмечалось (и будет неоднократно отмечаться далее), измерение основано на существовании различий. Для того чтобы наши методики были полезны, они должны быть чувствительны к психологической изменчивости и должны позволять регистрировать различия в психологических свойствах. Иными словами, необходимо уметь точно оценивать величину дисперсии (разброса) тестовых баллов. Несмотря на то что для оценки разброса тестовых баллов может быть использовано несколько статистических показателей, мы подробно остановимся на двух - дисперсии и ее близком родственнике - стандартном отклонении. Мы рассмотрим именно эти показатели, поскольку они наиболее часто используются в качестве меры изменчивости в науках о поведении в целом, а также потому, что они составляют основу всей психометрической теории. Дисперсия и стандартное отклонение выражают разброс тестовых баллов как степень, в которой баллы в распределении отклоняются (отличаются) от среднего. Если вернуться к таблице 3.1, то можно увидеть, что баллы IQ действительно различаются. Один респондент набрал на целых 20 баллов больше среднего, а другой - на 10; на другом конце распределения один респондент набрал на 20 баллов меньше среднего, а другой - на 10. При расчете дисперсии учитывают именно эти отклонения. Дисперсия является ключевым понятием психометрики, поэтому давайте хорошенько разберемся, откуда она берется и что означает. Дисперсия учитывает отклонения каждого индивидуального балла от среднего и рассчитывается в три шага. Сначала рассчитывается отклонение от среднего для каждого значения в распределении (обратите внимание, что среднее нужно рассчитать уже до этого). Отклонение от среднего обозначается Х — Х, как показано в столбце «Отклонение» таблицы 3.1. Значения в этом столбце показывают, насколько каждый индивидуальный балл отличается от среднего. Далее возводим каждое отклонение в квадрат (Х — Х)2, как показано в столбце «Квадрат отклонения» табл. 3.1. И, наконец, усредняем все квадраты отклонений и получаем значение дисперсии (s'): , У(Х-Х)2 Дисперсия = s' =----—-----. (3.2) Для данных в табл.-3.1 дисперсия s' =166.67: , (ПО-ПО)2 +(120-110)2 + (100-П0)2 +(90-110)2 + (130 - ПО)2 + (ПО-ПО)2 s =------------:’ 6 S-’ = (р)2 +(10)2 +(-Ю)2 +(-20)2 +(20)2 +(0)2 6 39
= 0+ 100+ 100+ 400+ 400 + 0 6 , 1000 5'=-----, 6 s2 =166.67. Числитель дисперсии иногда называют «сумма квадратов отклонений от среднего», но чаще сокращают просто до «суммы квадратов». В определенном смысле дисперсия сама по себе является средним. Точнее говоря, дисперсия - это среднее квадратов отклонений. Как уже было отмечено, квадрат отклонения индивидуального балла (Х-Х)~ показывает, насколько данный индивид отличается от среднего. Усредняя квадраты отклонений, мы получаем число, указывающее на среднюю степень отличий между людьми и, следовательно, являющееся мерой разброса. Близким родственником дисперсии является стандартное отклонение, которое рассчитывается просто как квадратный корень из дисперсии: Стандартное отклонение = s = Для данных из таблицы 3.1 стандартное отклонение s = 12,91 : 5= 7166,67 s= 12,91. В качестве показателя изменчивости стандартное отклонение имеет преимущество перед дисперсией в том смысле, что отражает изменчивость в размерности, соответствующей размерности сырых баллов, в то время как дисперсия отражает изменчивость в размерности квадрата сырых баллов. По этой причине стандартное отклонение иногда считают более интуитивно понятным. Несмотря на то что дисперсия и стандартное отклонение являются ключевыми понятиями психометрики, не все знают, как их интерпретировать. Величина дисперсии (а следовательно, и стандартного отклонения) определяется двумя факторами. Во-первых, это степень, в которой баллы в распределении отличаются друг от друга. В гипотетических баллах IQ, представленных в табл. 3.1, дисперсия равна 166,67. Однако если бы у нас было распределение с меньшим разбросом баллов, у нас была бы и меньшая дисперсия. Например, у нас могло бы быть следующее распределение IQ-баллов: 111, 110, 109. 112, 110, 108. Обратите внимание на то, что это распределение плотно «сгруппировано» 40
вокруг среднего ПО; индивидуальные значения отличаются от среднего максимум на 2 балла. Дисперсия этого распределения составила бы всего s' = 1,67. Таким образом, при прочих равны?? большая дисперсия (и большее стандартное отклонение) указывает на больший разброс данных в распределении. Однако есть и второй фактор, который влияет на величину дисперсии. Второй фактор, определяющий значение дисперсии, - это единица измерения баллов в распределении. Давайте рассмотрим разницу между 1Q- баллами и баллами GPA1. Абсолютные значения TQ значительно больше значений GPA - средние значения IQ располагаются около 100, и разброс от 80 до 130 является весьма типичным, a GPA принимает значения между 0 и 4. Таким образом, шкалы измерения GPA и IQ существенно отличаются. Обратимся к данным GPA, представленным в таблице 3.2. Обратите внимание на то, что среднее здесь - 2,7 и что значения GPA изменяются от 1,5 до 3,4, то есть их разброс составляет почти 2 балла. Очевидно, что «разброс в 2 балла» на шкале GPA и на шкале 1Q означает совершенно разные вещи. Так, дисперсия IQ- баллов составляет s' =166,67, а дисперсия GPA-баллов - «всего» s' = 0,39, но это не означает, что баллы IQ у разных людей отличаются сильнее, чем баллы GPA. Огромная разница в величинах дисперсии возникает в основном из-за большой разницы в шкале измерений двух наборов баллов. Принимая во внимание природу и факторы, влияющие на величину дисперсии, при интерпретации дисперсии и стандартного отклонения следует учитывать 4 фактора. Во-первых, ни один из этих показателей не может быть отрицательным. Минимальное значение, которое они оба могут принимать, - 0, это будет означать, что баллы в распределении вообще не отличаются. Положительное значение означает, что в распределении присутствует определенный разброс баллов. И математически, и концептуально ни дисперсия, ни стандартное отклонение не могут быть отрицательными. Во-вторых, по одному только значению дисперсии или стандартного отклонения невозможно судить наверняка о том, большие они или маленькие. Представьте, что вам скажут, что дисперсия распределения равна 56,23, но не скажут, к чему относится это распределение (к баллам по тесту SAT, миллисекундам по заданию на принятие решений или баллам по опроснику на самооценку) - или о том, каков «типичный» разброс такого рода баллов (например, какова обычно дисперсия баллов по данному тесту). В этом случае вы не сможете, определить, является ли s' = 56,23 большой или маленькой дисперсией. В-третьих (тесно связано со вторым), дать наиболее осмысленную интерпретацию дисперсии распределения можно, если известен определенный контекст. Так, имеет смысл сравнение дисперсий двух разных распределений (например, если оба являются распределениями IQ-баллов или оба являются распределениями GPA). В этом случае можно говорить о том. что распределение *GPA (Grade Point Average) - широко используемый в США усредненный показатель успеваемости. Его особенность заключается в том, что он зависит от двух параметров - количества отработанных часов и полученных отметок. Значение GPA, как правило, варьируется от 0 до 4. (Прим, перев.). 41
с большей дисперсией имеет больший разброс. Обратите внимание на то. что сравнение двух дисперсий имеет смысл только, если это дисперсии распределений одной и той же величины. Не’имеет смысла сравнение дисперсий IQ и GPA и заключение о том, что IQ у людей различается сильнее, чем GPA. Таблица 3.2 Пример расчета ковариации и корреляции (X) IQ- балл (Y) GPA Откло- нение IQ Y-Y Откло- нение GPA (Х-Х) a-Y) Векторное произве- дение НО 2.6 0 -0,1 0 120 3 10 0,3 3 100 2.5 -10 -0,2 2 90 1,50 -20 -1,2 24 130 3.2 20 0.5 10 ПО 3,4 0 0,7 0 Среднее (X )= НО 2.70 39 =У( X - X X Y - Y) Дисперсия = 166,67 0,39 6,5 = Ковариация (сху) Стандартное отклонение = 12,92 0,62 0,81 = Корреляция (гху) В-четвертых, важность дисперсии и стандартного отклонения определяется во многом их влиянием на другие величины, которые могут быть более прямо и однозначно проинтерпретированы. Дисперсия и стандартное отклонение - это фундаментальные компоненты многих психометрических понятий, процедур и величин. Например, в этой книге показано, что дисперсия и стандартное отклонение являются частью таких понятий, как коэффициент корреляции, коэффициент надежности, доверительные интервалы и систематическая ошибка теста. Поэтому, несмотря на то что вы не так часто встретите или услышите интерпретацию дисперсии самой по себе, от вашего понимания дисперсии и стандартного отклонения как мер разброса данных в распределении будет зависеть понимание других ключевых понятий психометрики (например, корреляций и надежности). 42
Для того чтобы избежать возможной путаницы и недопонимания, нужно сделать небольшое дополнение, касающееся уравнений 3.2 и 3.3. Те из вас. кто уже сталкивался с уравнениями дисперсии и стандартного отклонения, могли обратить внимание на то, что выражения 3.2 и 3.3 несколько отличаются о тех, что приводятся в других курсах и учебниках. В частности, в знаменателе дисперсии и стандартного отклонения часто стоит N - 1 вместо N. Вариант с N - 1 применим к расчету статистик вывода (например, /-тестов), относящихся к популяции. Однако в этой книге мы не будем вычислять статистики вывода или делать заключения относительно популяций, поэтому будем использовать более простой и логичный вариант с N. Эти соображения, лежащие несколько в стороне от нашей темы, не меняют основной идеи о дисперсии и стандартном отклонении как о важных индикаторах разброса данных внутри распределения. Формы распределений и нормальное распределение Последняя характеристика распределения, которую мы обсудим, касается его формы. Распределение баллов может быть графически представлено в виде кривой. На рис. 3.1 показано распределение IQ-баллов. По оси X отложены различные значения IQ, а по оси Y - доли испытуемых, получивших соответствующий балл. Таким образом, кривая показывает соотношение людей, имеющих определенный показатель 1Q. Из рисунка 3.1 мы видим, что у наибольшего количества людей IQ лежит в районе 100. Также видно, что совсем немного людей имеют IQ, существенно выше или существенно ниже 100. Ю Рисунок 3.1. Кривая нормального распределения Кривая на рис. 3.1 представляет симметричное распределение - оно имеет зеркальную форму с двух сторон от 100. Один из типов распределений, который может быть представлен кривой такой формы, называется нормальным распределением. Идея нормального распределения важна и часто 43
подразумевается в различных статистических процедурах и понятиях. Так, многие статистические процедуры, которые производятся на распределениях, основываются на предположении о том, чТо баллы распределены нормально (или, по крайней мере, предполагается, что значения конструкта, лежащего в основе измеряемой переменной, распределены нормально). Более того, как скоро станет понятно, само понятие тестового балла подразумевает нормальное распределение баллов. Рисунок 3.2. Кривые асимметричных распределений 44
Несмотря на то что многие процедуры, которые будут рассмотрены, опираются на допущение о нормальности, нормальное распределение является теоретическим идеалом. Когда мы работаем с распределениями реальных тестовых баллов, они редко (если вообще) бывают идеально «нормальными». Например, в одном распределении может быть несколько больше людей, расположившихся в области низких баллов, чем в области высоких баллов (например, набравших меньше 100 IQ-баллов) - см. рис. 3.2а. А в другом реальном распределении может быть, наоборот, больше людей, получивших высокие IQ-баллы, чем людей, получивших низкие IQ-баллы (см. рис. 3.26). Такие распределения асимметричны и потому не являются полностью нормальными (хотя они могут быть к нему близки). Но, несмотря на то что реальные тестовые баллы редко распределены строго нормально, во многих случаях они близки к нормальному распределению настолько, что эта модель может быть использована для интерпретации тестовых баллов. Измерение связи между распределениями Несмотря на то что измерение в поведенческих науках основано на идее разброса (вариативности), не менее важным понятием является ковариация, или мера связи. Ковариация показывает, в какой степени разброс одного распределения схож с разбросом другого распределения. Например, можно обнаружить, что в популяции существует разброс значений IQ, а также разброс значений GPA. Два эти факта становятся гораздо более интересными, если мы проанализируем возможную связь разброса значений IQ с разбросом значений GPA - склонны ли люди с относительно высоким IQ получать также и относительно высокие GPA? И если да, то насколько сильна эта связь? Подобные вопросы лежат в центре большинства наук о поведении и психометрической теории. Для того чтобы ответить на вопросы о связи между распределениями, каждый респондент должен иметь баллы как минимум по двум переменным. Например, если необходимо исследовать связь между IQ и GPA, нам нужна выборка респондентов, каждый из которых прошел тест на IQ, а также имеет определенный GPA. Таким образом, необходим набор данных, состоящий из двух распределений баллов, где каждое распределение определяется своей переменной. Затем можно рассчитать статистические показатели, отражающие степень связи между двумя переменными. Интерпретация связи между двумя переменными Есть два типа информации, касающихся связи между двумя переменными (например, между двумя распределениями баллов), которые могут интересовать исследователя. Во-первых, это направление связи. Склонны ли люди, которые получают высокие баллы по одной переменной, получать высокие баллы и по второй? Если да. то можно сделать вывод о существовании положительной, или прямой, связи между двумя переменными. Возможна и другая ситуация: люди, 45
получающие высокие баллы по одной переменной, склонны получать низкие баллы по другой. В этом случае— связь между переменными называется отрицательной, или обратной. ' Второй тип информации, который интересует исследователей, — это величина связи. Связаны ли две переменные друг с другом сильно или слабо! Например, необходимо выяснить силу связи между баллами по тесту SAT и академической успеваемостью (GPA). Многие колледжи и университеты полагаются на результаты тестирования по SAT как на основной критерий оценки абитуриентов1, считая, что между результатами SAT и академической успеваемостью есть сильная положительная связь. Члены приемных комиссий действуют, исходя из предположения, что люди, показывающие высокие результаты по SAT, склонны получать и относительно высокие GPA. Но какова реальная связь между результатами SAT и академической успеваемостью? Наверное, каждый знает хотя бы одного человека, который, показав низкие результаты по SAT, хорошо учился в колледже, и, наоборот, каждый знает человека, который получил высокий балл по SAT. но плохо учился в колледже. Очевидно, что связь между GPA и баллами по SAT не идеальна, но является ли она хотя бы столь же сильной, как предполагают члены приемных комиссий? Значительное количество было посвящено изучению силы связи между важными поведенческими переменными. Согласованность — это важное понятие, на которое стоит обратить внимание при рассмотрении связей между переменными. Можно интерпретировать сильную связь между двумя переменными как свидетельство того, что индивидуальные различия внутри переменных согласуются друг с другом. Например, сильная положительная связь между GPA и баллами по SAT будет означать, что различия в баллах по SAT согласуются с различиями в GPA - у людей с относительно высокими баллами по SAT есть сильная тенденция получать и высокие GPA. В общем-то, и сильная отрицательная связь тоже может быть проинтерпретирована в терминах согласованности. Например, сильная отрицательная связь между «количеством пропущенных занятий» и GPA может означать, что различия в количестве пропущенных занятий согласуются с GPA с обратным знаком - студенты, пропускающие много занятий, склонны получать относительно низкие GPA. Если сильные связи (положительные или отрицательные) говорят о высоком уровне согласованности между двумя переменными, то слабые связи указывают на отсутствие согласованности. Если выясняется, что между двумя переменными нет явной связи, это означает, что индивидуальные различия внутри одной переменной не согласуются с индивидуальными различиями внутри другой. Например, можно обнаружить отсутствие связи между размером обуви и GPA: у людей, которые носят относительно большой размер обуви, нет явной тенденции получать более высокие (или низкие) GPA, чем у людей с маленьким размером обуви. Другими словами, вероятность встретить человека с В России показателем итоговой академической успеваемости выпускников школы являются баллы по ЕГЭ, что по смыслу близко к GPA. Аналога SAT в российском образовании нет. (Прим. ред.). 46
большим размером обуви и высоким GPA так же высока, как встретить человека с маленьким размером обуви и высоким GPA. При обсуждении надежности (см. главу 5) мы также будем опираться на идею согласованности. В оставшейся части этого раздела обсуждаются два статистических понятия, которые могут быть использованы для измерения связи между двумя распределениями баллов. Будет показано, что эти два понятия - ковариация и корреляция -являются производными статистик, которые уже были рассмотрены ранее. Это обсуждение поможет читателям сформировать интуитивное и ясное представление о том, что означают и откуда берутся эти величины. Ковариация Ковариация является мостиком между понятиями дисперсии и интерпретируемым показателем связи между двумя распределениями. Вспомните, что дисперсия рассчитывается для одного распределения баллов. Напротив, ковариация рассчитывается для двух разных распределений баллов. Ковариация представляет собой меру связи между разбросом двух распределений баллов. Как уже было отмечено, для того чтобы оценить связь между распределениями, нужны респонденты, для которых измерены, по крайней мере, два показателя. Тогда каждое значение одного распределения (например, балл IQ) имеет одну и только одну пару в другом распределении (например, GPA). Обратимся вновь к таблице 3.2, в которой приведены данные об испытуемых, имеющих баллы по 2 переменным, - IQ и GPA. Расчет ковариации между двумя распределениями может быть выполнен в три шага. На первом шаге, как и при расчете дисперсии, вычисляются отклонения, а именно отклонения каждого значения от среднего его распределения. В таблице 3.2 эти значения представлены в столбцах «Отклонения IQ» и «Отклонения GPA». Если назвать баллы IQ переменной X. а баллы GPA - переменной Y, то отклонения можно обозначить X - X и Y - Y соответственно. На втором шаге два отклонения одного и того же респондента перемножаются для получения их векторного произведения (см. столбец «Векторное произведение» в таблице 3.2). Формально векторное произведение - это (X - X)(Y — У) . Задумайтесь на минуту о смысле этой величины. Обратите внимание на то, что несколько таких произведений в табл. 3.2 положительные, - почему? Положительное произведение получается, когда баллы респондента согласуются друг с другом - либо балл испытуемого по обеим переменным положительный, либо балл по обеим переменным отрицательный. А теперь задумайтесь о смысле отрицательного произведения. Отрицательное произведение возникает, когда баллы респондента не согласуются друг с другом - по одной переменной испытуемый набрал балл выше среднего (и, следовательно, получает положительное отклонение), а по другой - ниже среднего (следовательно, и отклонение по этой переменной отрицательное). 47
На заключительном третьем шаге рассчитывается среднее двух векторных произведений. При этом нужно учитывать общее направление векторных произведений для всех испытуемых в выборке. В целом у людей в данной выборке векторные произведения положительные или отрицательные? Или векторные произведения взаимоуничтожают друг друга и равняются нулю? Результатом третьего шага является уравнение ковариации: Ковариация = сп, =--------------. (3.4) N Если проделать все эти шаги, то для данных из табл. 3.2, получится ковариация, равная 6,5: (0)(-0,1) + (10)(0,3) + (-10)(-0,2) + (-20)(-0,2) + (20)(0,5) + (0)(0,7) 0 + 3 + 2 + 24 + 10 + 0 сху 6 39 сху = 6,5. Как уже было отмечено, есть два важных момента, касающихся связи между переменными, - направление и сила. Ковариация сообщает информацию лишь об одном из них, но не о другом. Ковариация дает информацию о направлении связи. Если ковариация положительная, как в нашем примере, можно говорить о положительной, или прямой, связи между двумя переменными. Поскольку в нашем примере ковариация положительная, это означает, что в определенной степени люди с высокими баллами IQ склонны иметь высокие GPA. Если бы значение ковариации было отрицательным, это означало бы, что между переменными существует обратная связь. К сожалению, ковариация не дает информации о силе связи между двумя переменными. В определенном смысле ковариация сходна с дисперсией, как это уже обсуждалось ранее. В частности, есть два фактора, которые влияют на силу или величину ковариации - при прочих равных большие значения ковариации (большие положительные или большие отрицательные) указывают на сильные 48
связи. Так, в случае исследования связи между баллами IQ и GPA ковариация 6,5 указывает на более сильную связь, чем ковариация 2,3. Однако шкала измерения двух переменных также влияет на величину ковариации. Так, независимо от силы связи ковариация между двумя «крупномасштабными» переменными (например, SAT и IQ), скорее всего, будет больше, чем ковариация, которая включает одну или две «мелкомасштабные» переменные (например, GPA). Поэтому мы можем обнаружить, что ковариация между IQ и SAT (скажем. сху = 154,32) гораздо больше, чем ковариация между IQ и GPA (сЛ). = 6.5, как в нашем примере), но это необязательно означает, что баллы IQ связаны с баллами по SAT сильнее, чем с GPA. Таким образом, ковариация - это важное статистическое понятие, но возможности его прямой интерпретации ограничены. Ковариация важна, поскольку, как и дисперсия, она служит основой многих других статистических понятий и процедур. Прежде всего, она перекидывает мостик между разбросом и легко интерпретируемой мерой связи. Такой мерой является корреляция, которая будет рассмотрена в следующем параграфе. Корреляция Коэффициент корреляции представляет собой легко интерпретируемый показатель линейной связи. Коэффициенты корреляции могут принимать весьма ограниченный набор значений - от -1 до +1. Отчасти из-за этой ограниченности коэффициенты корреляции интерпретировать гораздо легче, чем ковариации. Как и ковариация, коэффициент корреляции показывает направление связи между двумя переменными. Корреляция между 0 и +1 говорит о существовании положительной связи между двумя переменными. Напротив, корреляция между О и -1 указывает на отрицательную связь между переменными. Большое преимущество корреляции состоит в том, что она отражает величину связи между переменными гораздо более явно, чем это делает ковариация. Одно и то же абсолютное значение коэффициента корреляции (например, rxv = 0,30 и = - 0,30) указывает на одну и ту же величину связи, независимо от переменных, для которых она рассчитана. Независимо от шкалы измерения переменных большая корреляция (в абсолютном значении) указывает на сильную связь, а маленькая корреляция (близкая к 0) указывает на слабую связь1. Например, корреляция 0,30 указывает на более сильную связь, чем корреляция 0,20, и в то же время на более слабую связь, чем корреляция 0,40. Кроме того, мы знаем, что корреляция 0,30 указывает на связь той же силы, что и корреляция -0,30. Более того, максимально возможная корреляция равняется 1 (или -1), независимо от того, идет ли речь о связи между IQ и GPA или о связи между IQ и SAT. Как мы уже говорили, в случае с ковариацией это неверно. Корреляция опирается на статистики, которые мы уже обсуждали. Будучи мерой связи, корреляция использует ковариацию между двумя переменными. А Очень важно понимать, что ни направление связи, ни величина связи ничего не говорят о влиянии одной переменной на другую. (Прим, ред.) 49
свои границы (от -1 до +1) корреляция приобретает за счет деления ковариации на стандартные отклонения обеих переменных. Сху Корреляция = г„ =---- S X, (3.5) Между переменными в табл. 3.2 корреляция очень сильная. гп = 0,81. 6,5 Г’У (12,91X0,62) ’ 6,5 гху = 0,81. Значение корреляции сложно переоценить. Начиная с этого момента практически в каждой главе в том или ином виде будет использоваться понятие коэффициента корреляции. Вы узнаете, что коэффициент корреляции является важной частью теории надежности, оценки надежности, концептуальной основой валидности и ее оценки, эффектов установки на ответ и самой идеи систематической ошибки теста. Опять же корреляцию полезно рассматривать как показатель согласованности индивидуальных различий. Сильная положительная корреляция указывает на тенденцию людей с относительно высокими баллами по одной переменной иметь относительно высокие баллы и по другой (а для людей с относительно низкими баллами по одной переменной иметь также относительно низкие баллы по другой). Сильная отрицательная корреляция указывает на обратную тенденцию людей с относительно высокими баллами по одной переменной иметь относительно низкие баллы по другой. Слабая корреляция - близкая к нулю - говорит об отсутствии согласованности в индивидуальных различиях. То есть люди с относительно высокими показателями по одной переменной с равной вероятностью могут иметь как высокие, так и низкие показатели по другой переменной. 50
Дисперсия составных переменных1 Во многих, если не в большинстве, случаев психологическое тестирование представляет собой несколько наблюдений поведения или серию вопросов, на которые отвечают испытуемые. Эти наблюдения или ответы на вопросы обычно суммируются или усредняются для вычисления составного балла. Например, Опросник депрессии Бека (Beck Depression Inventory, BDI; Beck, Ward, Mendelson, Mock, & Erbaugh, 1961) состоит из 21 пункта, относящегося к различным симптомам, которые имеют отношение к депрессии. Ответ испытуемого на каждый вопрос оценивается по шкале от 0 до 3. Индивидуальный балл по Опроснику представляет собой сумму баллов по 21 пункту и, следовательно, лежит в границах от 0 до 63. Дисперсия составных баллов может быть рассчитана по формуле, приведенной выше (см. уравнение 3.2). Важно также понимать, что дисперсия составных баллов определяется дисперсией каждого пункта, входящего в состав сложного балла, а также корреляциями между пунктами. В качестве простейшего примера мы рассмотрим случай, когда составной балл вычисляется на основании всего лишь двух пунктов. Эти два пункта мы назовем i и /. Дисперсия составного балла будет равняться: S' составной “Ь S~j+ 2Гц Sj Sj, (3.6) где составной ~ дисперсия составного балла, и s2j — дисперсии пунктов i и /, Гу — корреляция между пунктами, st и Sj — стандартные отклонения обоих пунктов. Для более чем одной пары пунктов выражение в правой части равенства расширяется и повторяется для каждой дополнительной пары пунктов. Для наших целей надо знать, что данное уравнение показывает зависимость общего балла от дисперсий отдельных пунктов и корреляций между парами пунктов. Этот момент важен для понимания теории надежности. Бинарные пункты Некоторые психологические измерения основаны на дихотомических ответах на вопросы теста или поведенческих наблюдениях, которые обрабатываются дихотомически. Например, можно попросить людей отвечать на вопросы «да» или «нет» или предложить соглашаться или не соглашаться с утверждениями. В других случаях в тесте могут быть правильные и Дисперсия «составных баллов (переменных)» и бинарных баллов редко выделяется в отечественных книгах и статьях по психометрике. Несмотря на это, дисперсия этих видов переменных является показателем, очень важным для психометрики. (Прим. ред.). 51
неправильные ответы или нас может интересовать какое-то конкретное поведение, поэтому будет фиксироваться только сам факт - произошло оно или нет. Пункты теста, которые предполагают выбор одного из двух возможных вариантов ответа, называются бинарными. Как уже. вероятно, стало ясно читателю, дисперсия - это одно из самых важных понятий психометрики, поэтому имеет смысл рассмотреть, что происходит с дисперсией бинарных пунктов. Представьте, что есть тест, состоящий всего из одного вопроса, на который можно ответить лишь «да» или «нет». Например, испытуемых просто спрашивают: «Чувствуете ли вы себя подавленно?» и обозначают ответ «нет» как «0», а ответ «да» как «1». Достаточно часто бинарные ответы кодируют таким образом - используя 0 для обозначения отрицательно «окрашенных» ответов. Отрицательно «окрашенные» ответы - это «нет», «никогда», «не согласен», «неверно», «неправильно». Положительно «окрашенные» ответы кодируют 1 (это ответы «да», «всегда», «согласен», «верно», «правильно»). Если ответы кодируются таким образом (0 и 1), тогда среднее бинарного пункта будет соответствовать доле положительных ответов. Обозначим долю положительно «окрашенных» ответов р: N (3.7) Эта формула, разумеется, верна для вычисления среднего любых количественных значений. Представим, что 10 человек прошли тест депрессии, состоящий из 1 вопроса, причем 6 испытуемых ответили «да», а 4 - «нет». В этом случае доля ответов «да» составляет р = 0,6: 10 6 10 Теперь, когда стало понятно, что р равно среднему для бинарного тестового пункта, можно использовать эту информацию для того, чтобы представить дисперсию бинарного пункта в более простой форме долей. Для этого обозначим долю негативно окрашенных ответов q. Поскольку доля может принимать значения от 0 до 1, очевидно, что q = 1 -р. Вспомним (см. уравнение 3.2). что формула для расчета дисперсии распределения для обычных баллов выглядит так: 52
Есу-л2 N Для бинарных пунктов X равняется р, поэтому в нашей формуле заменим N Если раскрыть скобки, то мы получим: N N X Но поскольку это бинарный пункт, то X может принимать лишь два значения - 0 или 1. Следовательно, N N ' что равняется р (см. уравнение 3.7). Подставив это в уравнение, получаем: , 1.Р2 , , 5' = р-\-------2р . N А поскольку р является константой для всех испытуемых, то получаем: N N Р ‘ Подставив это в наше первоначальное выражение, получаем: г = р + р1 -2р2, 7 7 S- = р - р-, s2 = p(l -р). 53
Поскольку 1 - р было обозначено» как q (доля людей, которые дали отрицательный ответ), дисперсия бинарного пункта может быть обозначена как: s2 = pq. (3.8) Для выборки, в которой 6 человек ответили «да» на тест депрессии, состоящий из одного пункта, дисперсия будет равняться: s’ = (0.6) (0,4), s~ = 0,24. Уравнение 3.8 важно, поскольку оно показывает, что дисперсия бинарного пункта зависит от р и q. Дисперсия бинарного пункта максимальна, когда половина опрошенных дает положительный, а половина - отрицательный ответ, то есть р = q = 0,50. В этом случае дисперсия пункта будет равняться s~ = pq = (0,50) (0,50) = 0,25. Любое другое значение р будет снижать дисперсию. Если р = 1 или 0, то такой пункт не будет иметь дисперсии. Возвращаясь к нашему определению ковариации, важно понимать, что если тестовые баллы не имеют дисперсии, посчитать корреляцшо между ними и любым другим набором баллов невозможно. Интерпретация тестовых баллов В первых главах этой книги было показано, что результаты многих психологических тестов могут быть представлены в виде баллов, которые сами по себе неоднозначны. Если испытуемый при заполнении личностного опросника получлено 34 балла по шкале нейротизма, как можно интерпретировать этот балл? Что означают 34 балла? Может быть, у испытуемого 34 «единицы» нейротизма? Он набрал высокий балл? Или низкий? Если его друг прошел другой тест и получил 98 баллов по шкале нейротизма, означает ли это, что он гораздо менее эмоционально стабилен? В реальности это может означать, что друг испытуемого более устойчив, чем он. В большинстве психологических тестов сам по себе тестовый балл не несет особого смысла и потому с трудом поддается интерпретации. Существует как минимум два аспекта, касающиеся «смысла» тестовых баллов в психологическом измерении. Во-первых, это принципиальная возможность интерпретировать тестовый балл как относительно высокий или низкий. Даже этот элементарный вопрос весьма туманен для многих психологических тестов. В оставшейся части данной главы будут рассмотрены некоторые базовые идеи и процедуры, которые были придуманы, чтобы помочь пользователям интерпретировать тестовые результаты. Многие из этих процедур опираются на понятия, которые обсуждались в начале этой главы, - 54
средние, стандартные отклонения и нормальные распределения. Второй аспект значения тестовых баллов более абстрактен и психологичен. В частности, это вопросы, связанные с психологическим приложением тестовых баллов. Что в психологическом смысле означает высокий балл по конкретному тесту? Вы можете пройти тест и с помощью материала, изложенного в оставшейся части данной главы, узнать, что ваш балл действительно высокий. Однако вам все еще может быть непонятен психологический смысл вашего высокого балла. Разработчик или пользователь теста могут утверждать, что этот тест измеряет нейротизм, но так ли это на самом деле? Бывает ли, что пользователь теста неправильно интерпретирует тестовые баллы? А если тест действительно измеряет нейротизм, то что означает иметь высокий уровень нейротизма? Ответы на эти вопросы ученые пытаются найти в психологических исследованиях, теориях и статистическом анализе. Обо всем этом речь пойдет чуть позже в данной книге - в главах, посвященных валидности. Итак, в оставшейся части этой главы будут рассмотрены фундаментальные проблемы интерпретации величины тестовых баллов как низких, средних или высоких. Решения этой проблемы построены на том, что уже известно читателю об измерении индивидуальных различий в распределении баллов. То есть, чтобы проинтерпретировать индивидуальный балл, нужно соотнести его со всем распределением баллов по тесту и определить, куда в распределении попадает данный испытуемый. Когда человек выполняет психологический тест, он получает тестовый балл. Тестовые баллы могут быть представлены разными способами. Например, когда студенты пишут экзаменационную работу, преподаватель может представить их результаты в разной форме - он может сообщить «количество правильных ответов» (например, 40) или процент правильных ответов (например, 80%). Как уже говорилось в этой книге,, одна из самых серьезных проблем с психологическими тестами состоит в том, что баллы по тесту часто сложно интерпретировать. Например, что означает написать работу на 40 баллов? Тестовые баллы основываются на образцах поведения и редко сами отражают количество психологической переменной. Поэтому для понимания значения конкретного числа нужен контекст. В большинстве приложений психологического тестирования интерпретационный контекст состоит из двух вещей, которые необходимо знать о тестовом балле и его отношении ко всему распределению. Во-первых, важно понять, лежит ли тестовый балл выше или ниже среднего значения распределения тестовых баллов (или, возможно, совпадает со средним). Например, можно сравнить 40 баллов за экзамен со средним баллом в классе. Предположим, что средний результат по классу - 36 баллов. Среднее по классу дает контекст для интерпретации конкретного балла. Поскольку 40 баллов - это результат выше среднего по классу, то эта информация существенно помогает в интерпретации тестового балла. Знание о том, что тестовый балл выше или ниже среднего, говорит об уровне ученика относительно его одноклассников, но эта информация была бы еще более ценной, если бы было известно, насколько выше или ниже среднего 55
этот результат. 40 баллов - это немного выше среднего, умеренно выше среднего или значительно выше среднего? Решение этого вопроса требует знания о разбросе тестовых баллов. Напрймер, если разброс баллов в группе велик, то 40 может быть баллом, немного выше среднего. С другой стороны, если большая часть учеников в классе получили от 34 до 38 баллов (то есть различия между людьми были незначительными), тогда 40 баллов могут оказаться умеренно выше или даже значительно выше среднего. То, что. чаще всего нужно для интерпретации, - это число, которое несет информацию об относительном расстоянии между конкретным баллом и средним. Поэтому вторая вещь, необходимая для понимания тестового балла, - это разброс внутри распределения. Чаще всего, чтобы оценить расстояние между конкретным баллом и средним данного распределения, используется стандартное отклонение. Как уже обсуждалось, стандартное отклонение говорит о степени, в которой баллы в распределении отличаются друг от друга. Зная стандартное отклонение распределения, можно калибровать расстояние от индивидуального балла до среднего, что в свою очередь помогает интерпретировать балл как немного выше, умеренно выше или значительно выше среднего. Два эти источника информации - является ли балл выше или ниже среднего и расстояние от балла до среднего - используются для расчета z- баллов (их иногда называют стандартными баллами), которые рассматриваются в следующем параграфе. Z-баллы (стандартные баллы) В этом параграфе будет показано, откуда берутся, каким образом рассчитываются и как интерпретируются s-баллы. Кроме того, будут проанализированы некоторые преимущества и ограничения s-баллов как способа представления результатов психологического тестирования. Наконец, будут приведены их наиболее важные статистические свойства. В попытке осмысления тестовых баллов можно преобразовать индивидуальный тестовый балл в s-балл, который показывает расстояние от данного балла до среднего. Для преобразования тестового балла в s-балл необходимо разделить разницу между тестовым баллом и средним на стандартное отклонение этого распределения: Например, для того чтобы рассчитать s-баллы для результата на экзамене из примера предыдущего параграфа, давайте сначала представим, что между тестовыми баллами были большие индивидуальные различия. То есть у распределения было достаточно большое стандартное отклонение, скажем, 5 = 8. Тогда s-балл будет равен: 56
_ 40 - 36 8 ’ • __ 4 8 ’ s = 0,5. Z-баллы имеют специфическую, хотя и несколько абстрактную, интерпретацию. Они могут быть проинтерпретированы в единицах «стандартного отклонения». То есть r-балл следует понимать как лежащий «на 0,5 (или на половину) стандартного отклонения выше среднего». Другой вариант - рассматривать r-балл как показатель близости балла к экстремуму. Больший s-балл (по модулю) указывает на балл, более близкий к экстремуму. Так, тот факт, что s-балл составляет всего 0,5, означает, что он не слишком близок к экстремуму. Другими словами, он достаточно близок к среднему. Теоретически л-баллы не ограничены - они могут быть сколь угодно большими, однако в реальности они обычно распределены нормально и редко превышают 3 или 4 (или оказываются меньше -3 или -4). А теперь представим случай, когда разброс тестовых баллов не очень велик, то есть распределение имеет относительно маленькое стандартное отклонение (например, 5 = 2), указывающее на то, что тестовые баллы тесно сгруппированы вокруг среднего. Тогда л-балл был бы равен: _ _ 40 - 36 2 ’ __4 2’ и = 2. Можно интерпретировать это как показатель того, что балл из примера на два стандартных отклонения выше среднего, то есть это достаточно «экстремальный» балл (относительно далекий от среднего). Для того чтобы полностью понимать и уметь интерпретировать з-баллы. важно знать об их уникальных и важных статистических свойствах. Если взять распределение тестовых баллов и преобразовать каждое значение в s-балл, то получится распределение s-баллов, которое будет иметь среднее, равное 0, и стандартное отклонение, равное 1. Эти свойства ^-распределения важны, поскольку они влияют на допустимые значения определенных статистик, например, корреляции. 57
Z-баллы имеют несколько преимуществ в контексте интерпретации тестовых балов. Во-первых, они выражают тестовые баллы таким образом, что позволяют избежать неоднозначности 'многих психологических оценок. Представляя тестовый балл в терминах «расстояния до среднего», s-баллы освобождают от необходимости контроля за единицами измерения первоначального тестового балла. Во-вторых, z-баллы могут быть использованы для сравнения баллов по тестам, имеющим разный масштаб шкалы измерения. Допустим, два человека прошли два различных теста на нейротизм - Адам получил 34 балла по одному тесту, а Барбара - 98 баллов по другому. Как уже было сказано, сами по себе такие баллы невозможно сравнивать. Но можно обойти эту проблему, переведя тестовые результаты в s-баллы (на основании среднего и стандартного отклонения каждого распределения). В итоге получится, что балл Барбары соответствует 0,4 z-баллам, а балл Адама равен 1,3 s-баллам. В этом случае можно сделать вывод о том, что уровень нейротизма у Адама выше, чем у Барбары. Z-преобразование может быть также полезно, когда поведение измеряется хорошо известными единицами, например миллисекундами. Несмотря на то, что известно, что такое миллисекунда, и можно прямо сравнить время реакции разных людей или в разных условиях простым вычитанием, может возникнуть необходимость сравнить время реакции с индикаторами поведения, которые измерены в иных стандартных единицах (например, веса) или нестандартных единицах (например, баллах по тесту оптимизма). Такое сравнение станет возможным после преобразования миллисекунд и баллов по тесту в s-баллы. Необходимо обратить внимание еще на один важный факт, касающийся s- баллов, - они выражают тестовый балл в его соотношении со всем распределением. То есть они выражают баллы в относительных величинах. Например, 2 s-балла за экзамен говорят о достигнутом уровне относительно всего остального класса, а именно: неся информацию о расстоянии от вашего балла до среднего, s-балл сообщает, насколько достигнутый уровень отличается от уровня среднего представителя группы. Однако s-балл не несет информации об общем уровне в абсолютных единицах. Например, может быть известно, что балл за экзамен по биологии на 1 стандартное отклонение выше среднего (то есть s = 1). Это говорит о том, что школьник знает биологию лучше, чем средний ученик, но это ничего не говорит о том, «сколько» у него биологического знания в абсолютных единицах. Однако, несмотря на то что z- баллы выражают тестовые результаты в виде относительных, а не абсолютных значений, не следует это рассматривать как проблему. В конце концов, как уже было отмечено, «абсолютное» значение многих психологических тестов неоднозначно. Z-баллы очень полезны, поскольку они дают точку отсчета, а именно опираются на соотношение между тестовыми баллами. Иногда бывает полезно понимать корреляцию как согласованность индивидуальных различий, выраженных в s-баллах. Часто бывает сложно оценить согласованность сырых баллов, когда они представляют собой значения на шкалах с различным масштабом. Представим, что вы собрали у 100 студентов 58
данные об их GPA и хотите узнать, коррелирует ли GPA с количеством часов, которое они тратят на учебу еженедельно. Значения GPA будут выражены относительно небольшими числами (например, 3,2), в то время как часы будут выражены относительно большими числами (например, 10). Более того, эти переменные измеряются различными единицами - единицами GPA и часами в неделю. Преобразуя обе переменные в s-баллы, можно выразить оба набора баллов одними единицами - s-баллами. Теперь, например, можно спросить, правда ли, что студенты, которые учатся больше, чем средний студент, имеют GPA выше, чем у среднего студента. Это можно сделать прямо, сравнивая s- баллы GPA и s-баллы часов, затраченных на учебу. Если различия между респондентами согласованны, вы можете ожидать, что каждому человеку будет соответствовать пара z-баллов примерно одинакового значения (необязательно одного знака). Формула для расчета корреляции между переменными с использованием z- баллов выглядит так: (3.10) где У ZxZr - сумма произведений z-баллов для каждого респондента. Можно показать, что математически уравнение 3.10 эквивалентно уравнению 3.5. Несмотря на удобство s-значений для интерпретации тестовых баллов, некоторые пользователи тестов и испытуемые могут посчитать их не слишком интуитивно понятными. Есть как минимум два момента, которые могут мешать пользователям при интерпретации s-значений. Во-первых, некоторые тестовые баллы выражаются отрицательными числами. Если балл респондента ниже среднего, его s-балл будет отрицательным. Для людей, не знакомых с понятиями «стандартное отклонение» и «расстояние до среднего», отрицательный уровень нейротизма, самооценки или интеллекта может показаться непонятным. Вторая причина, по которой z-значения могут быть потенциально неудобными, состоит в том, что z-значения часто выражаются дробными числами. Для некоторых людей тестовый балл 1,24 может быть просто непонятен. Для того чтобы преодолеть определенные неудобства, связанные с s- баллами, разработчики и пользователи тестов дополнительно преобразуют z- баллы. Баллы, которые рассматриваются в следующем параграфе, называют преобразованными стандартными баллами, стандартизованными баллами, или производными баллами. 59
Преобразованные стандартные баллы (стандартизованные баллы) Преобразованные стандартные баллы - это всего лишь z-баллы, которые преобразованы в значения, более простые для понимания. Это сделано за счет изменения масштаба шкалы так, что шкала преобразованных баллов имеет другое среднее и стандартное отклонение. Например, баллы по Миннесотскому многофазному личностному опроснику-2 (Minnesota Multiphasic Personality Inventory-2, MMPI-2; Butcher, Dahlstrom, Graham, Tellegen,& Kaemmer, 1989) часто преобразуются таким образом, чтобы среднее было равно 50, а стандартное отклонение — 10. Предполагается, что пользователям будет легче понимать балл 45 или 65 по шкале паранойи, чем балл 1.5 или 0,5. Преобразование может быть выполнено в два шага. Сначала разработчики или пользователи тестов выбирают новое среднее (X ,„тк) и новое стандартное отклонение (s„,wue) для распределения преобразованных баллов. Как мы уже говорили, разработчики МРР1 выбрали среднее 50 и стандартное отклонение 10. На втором шаге индивидуальный z-балл преобразуется с помощью следующего уравнения: Т Z (SHOaoe) 4- X новое. где Т - преобразованный стандартный балл, az- исходный индивидуальный балл. Например, человек с z-баллом 1,5 по шкале паранойи MMPI-2 получит 65 Г-баллов: Т= 1,5(10) + 50, Т= 15 4-50, Г=65 7”-балл 65 говорит нам о том, что человек находится на 1,5 стандартных отклонения выше среднего по шкале паранойи. Кто-то может подумать, что есть что-то «подозрительное» во всем этом процессе. Разве может пользователь теста сам решать, какое среднее и стандартное отклонение он хочет для своих баллов? Законность такого процесса преобразования вытекает из неоднозначности многих психологических измерений. Как уже говорилось, сам по себе балл 34 по шкале нейротизма имеет мало смысла. Для большинства психологических измерений смысл индивидуального балла возникает лишь при его соотнесении с баллами других людей. Исследователь не может сказать, что означают 34 балла по шкале нейротизма, до тех пор, пока он не знает, меньше это или больше, чем у других людей, и насколько меньше или больше. Именно поэтому z-баллы информативны: они дают четкое представление о том, где находится 60
индивидуальный балл по отношению к среднему - выше или ниже и на каком расстоянии от среднего. Преобразованные стандартные баллы столь же информативны, поскольку они просто выражают с-баллы в виде, который может быть более понятен большинству людей. Смысл преобразованных баллов тот же, что и у s-баллов: они говорят, насколько индивидуальный балл больше или меньше среднего. Секрет интерпретации преобразованных баллов в том, что необходимо знать среднее и стандартное отклонение. Эта (или аналогичная) информация должна быть доступна от пользователей и разработчиков тестов. Неизвестно, действительно ли процесс преобразования улучшает понимание между пользователями тестов и испытуемыми, но это является распространенной практикой среди разработчиков психологических тестов. Преобразованные стандартные баллы используются в отчетах по многим тестам, включая SAT. American College Test (ACT), Graduate Record Examination (GRE). Medical College Admission Test (MCAT) и Law School Admission Test (LSAT)1. Процентильные ранги Один из распространенных способов представления и интерпретации тестовых баллов - с помощью процентилей, которые указывают на процент баллов, лежащих ниже определенного тестового балла. Если балл испытуемого соответствует 85-му процентилю, он понимает, что получил достаточно высокий результат. Конкретно испытуемый знает, что его балл выше, чем баллы 85% других людей, выполнивших тест. Таким образом, процентильный ранг - это еще один способ представления тестовых баллов в относительных величинах. Существует два способа определения процентильного ранга индивидуального тестового балла. Прямой или эмпирический способ может быть использован, если у вас есть доступ ко всем баллам распределения. В этом случае, чтобы рассчитать процентиль, надо вычислить точное количество баллов в распределении, которые меньше индивидуального тестового балла, и разделить на общее количество баллов в распределении. Например, если 75 человек прошли тест и Кэрол получила 194 балла, нам может быть интересно рассчитать ее процентильный ранг. Чтобы это сделать, мы выясняем, что 52 человека набрали меньше 194 баллов. Затем, чтобы получить процентильный ранг, мы просто делим это число на 75 и умножаем на 100: (52/75) (100) = 69%. Это говорит нам о том, что балл Кэрол соответствует 69-му процентилю. Прямой или эмпирический способ вычисления процентиля немного усложняется, если еще несколько людей набрали такой же балл, как и Кэрол, но общая идея и интерпретация от этого не меняются. Второй способ вычисления индивидуального процентиля может быть использован, когда доступа к полному распределению баллов нет. Если есть только информация о среднем и стандартном отклонении, можно для каждого человека рассчитать стандартный балл (например, r-балл) и связать его с процентилем. Если (и это важное допущение) можно предположить, что 1 Для российских читателей более знакомы примеры перевода «сырых» баллов в шкальные баллы по тестам MMPI, WAIS, W1SC. (Прим. ред.). 61
индивидуальные различия в психологической характеристике, измеренной тестовыми баллам, распределены нормально, тогда можно связать стандартные баллы со стандартным нормальным распределением (его также называют «единичное нормальное распределение», или «стандартная нормальная кривая»). Стандартное нормальное распределение - это идеально нормальное распределение стандартных тестовых баллов. Стандартное нормальное распределение обладает определенным свойством, позволяющим нам связать конкретный стандартный балл с процентилем. Этот процесс может быть также полезен для того, чтобы сделать z-баллы более понятными для некоторых испытуемых. Существует как минимум два общепринятых способа использования стандартного нормального распределения для связи стандартных баллов с процентилями. Первый и наиболее современный вариант - для вычисления процентиля по стандартному баллу использовать вебсайт вроде http://davidmlane.eom/hyperstat/z table.html или компьютерные программы, например Microsoft Excel (с помощью функции «NORMDIST»1). Второй и более традиционный - использовать таблицы стандартного нормального распределения из учебников по статистике (пример фрагмента распределения приведен в табл. 3.3). Как только рассчитан индивидуальный стандартный балл (например, z = 1,5), можно обратиться к этой таблице и найти процентиль, соответствующий нашему баллу. К сожалению, в разных учебниках по статистике таблицы стандартного нормального распределения представлены различным образом, однако в любом случае они содержат достаточно информации для того, чтобы разобраться, как ими пользоваться. В табл. 3.3 дан достаточно типичный вариант, включающий всего два столбца. В одном столбце приведены возможные z-баллы, поэтому надо просто найти ту строку, где находится z-балл, который был получен на предыдущем шаге. Во втором столбце, как следует из его названия, приведено количество баллов, которые попадают между средним и баллом, для которого был рассчитан z-балл. Например, для z-балла 1.5 табл. 3.3 сообщает, что 43,32% значений распределения попадают между средним и индивидуальным баллом. Для того чтобы рассчитать общее количество баллов, лежащих ниже индивидуального балла, мы добавляем 50% к значению из таблицы 3.3 и получаем 93,32%. Короче говоря, таблицы, аналогичные 3.3, могут быть использованы для определения процентильного ранга, соответствующего любому z-баллу. Необходимо лишь помнить о двух моментах - процедурном и теоретическом. Процедурное соображение касается способа использования таблицы: если z- балл положительный, мы добавляем 50% к проценту, полученному из табл. 3.3 (как это сделано в примере, описанном выше). Однако если z-балл отрицательный, вычитаем процент из 1. Например, если испытуемый получил z- балл 1,5, процентиль рассчитывается как 1- 0,4332 = 0,0668. Это говорит о том, что всего 6,68% баллов распределения меньше балла данного человека. Теоретическое соображение относится к предположению о нормальности В русскоязычной версии Microsoft Excel данная функция называется «НОРМРАСП». (Прим, перев.). 62
распределения. Если можно точно предположить, что распределение баллов действительно нормальное, тогда стандартное нормальное распределение может быть использовано для связи стандартных баллов с процентилями. Однако если есть серьезные основания подозревать, что распределение не нормальное, тогда использовать стандартное нормальное распределение для того, чтобы связать стандартные баллы с процентилями, нельзя. Таблица 3.3 Фрагмент таблицы стандартного нормального распределения Z Область между средним и z-баллом 1,40 0,4192 1,41 0,4207 1,42 0,4222 1,43 0,4236 1,44 0,4251 1,45 0,4265 1,46 0,4279 1,47 0.4292 1,48 0,4306 1,49 0,4319 1,50 0,4332 1,51 0,4345 1,52 0,4357 1,53 0,4370 1,54 0,4382 1,55 0,4394 1,56 0,4406 1,57 0,4418 1,58 0,4429 1,59 0,4441 1,60 0.4452 63
Нормализованные баллы Разработчики тестов часто считают свои тесты инструментами, измеряющими психологические характеристики, нормально распределенные в популяции. Например, многие теоретики разделяют предположение о том, что распределение интеллекта в общей популяции по форме близко к нормальному. Так, если автор разработал новый тест на интеллект, он может захотеть предложить пользователям методику обработки результатов, которая выдает нормально распределенные баллы. Это может быть нужно для того, чтобы предоставить пользователям инструкции по интерпретации (например, «нормы»), которые отражают предполагаемую нормальность конструкта. Сложность в этом процессе может возникнуть, если результаты, полученные от испытуемых в процессе разработки и апробации теста, окажутся распределенными не нормально. То есть может возникнуть противоречие между нашим теоретическим предположением о психологической характеристике (например, интеллект распределен нормально) и реальными данными (например, значения IQ, полученные в эксперименте, не распределены нормально). В этом случае разработчики теста могут сделать два предположения: а) их теория верна (например, психологическая характеристика распределена нормально), б) реальные результаты тестирования (в данном случае IQ-баллы) неточно отражают распределение самого конструкта. Один из способов, которым разработчики тестов пытаются решить проблему ненормальности распределения, - преобразование несовершенного (ненормального) распределения тестовых баллов в распределение, которое больше похоже на нормальное. Эти процедуры иногда называют нормализацией, нормальным преобразованием, или преобразованием области. Нормализация представляет собой трехступенчатый процесс. Первый шаг - расчет прямых или эмпирических процентильных рангов по полученным тестовым баллам. То есть балл каждого испытуемого по IQ-тесту преобразуется в процентильный ранг при помощи первой процедуры, описанной для процентильных рангов (с доступом ко всем значениям распределения). Второй этап нормализации - преобразование процентильных рангов в стандартные баллы (например, r-баллы). Для того чтобы это сделать, в таблице стандартного нормального распределения (см. таблицу 3.3), в столбце с процентильными рангами находим нужный нам процентильный ранг из шага 1 и соответствующий ему '-балл. Затем по r-баллу (стандартному баллу) и нужным нам параметрам (среднему и стандартному отклонению) рассчитываем преобразованный стандартный балл. Например, разработчик хочет, чтобы баллы по IQ-тесту были представлены на шкале со средним значением 100 и стандартным отклонением 15, а также чтобы был рассчитан преобразованный стандартный балл для исходного балла 28. Сначала необходимо найти процентильный ранг, соответствующий 28 баллам. Предположим, что 28 - это достаточно высокий балл, которому соответствует процентильный ранг 92%. В табл. 3.3 находим, что стандартный балл, соответствующий процентилю 92%, 64
равняется +1.41 (0.92 - 0.50 = 0,42. это и есть значение, которое связано со стандартным баллом +1,41). Поскольку баллы должны быть представлены на шкале со средним 100 и стандартным отклонением 15, преобразуем их в стандартный балл: Т= 1,41 (15) +100, Т= 21,15 +100, Т= 121,15. Таким образом, человек, набравший 28 баллов по тесту, получит «нормализованный» стандартный балл 121,15. Если бы разработчики теста хотели сделать общее руководство по интерпретации для пользователей, нужно было бы проделать эту процедуру нормализации для всех возможных исходных баллов по тесту. Пользователи теста могли бы использовать наше руководство для будущих измерений для перевода всех индивидуальных баллов в нормализованные преобразованные стандартные баллы. Описанное выше нормальное преобразование - это один из возможных вариантов работы с ненормальными тестовыми данными. Другие варианты включают расчет «эквивалентов нормальной кривой», или «стэнайнов». Подробности этих процедур выходят за рамки текущей дискуссии, но они доступны в других источниках, в особенности касающихся измерений в сфере образования. Тестовые нормы В психологии многие тесты нормируются для облегчения интерпретации пользователями. Часто в процессе разработки авторы проводят новый тест на большой группе людей, которая считается репрезентативной относительно какой-то популяции. Как только эта большая группа пройдет тест и результаты будут обработаны, пользователи теста могут использовать полученные баллы как отправную точку для интерпретации результатов людей, которые будут тестироваться в будущем. Большая группа людей, используемая в процессе разработки теста, называется выборкой стандартизации, а их баллы - «нормами» теста. Таким образом, разработчики тестов часто применяют описанные процедуры при подготовке руководств по интерпретации для пользователей тестов, которые с их помощью могут соотносить любой новый тестовый балл с тестовыми нормами. Например, разработчики теста используют баллы выборки стандартизации для расчета «преобразованных стандартных баллов», соответствующих любому возможному баллу по исходному тесту. И когда пользователь получает результат нового испытуемого, он просто берет нормы выборки стандартизации для того, чтобы автоматически связать исходный балл 65
испытуемого с более удобным для интерпретации 7-баллом (преобразованным стандартным баллом) или процентильным рангом. Поскольку разработчики уже произвели все необходимые преобразовайия, о которых мы говорили выше, пользователи не должны беспокоиться обо всех этих процедурах. Подобный процесс нормирования делает пользование тестом и его интерпретацию гораздо более простой и эффективной. В исследовательских целях пользователи тестов не всегда могут полагаться на тестовые нормы, по крайней мере, по двум причинам. Во-первых, тестовые нормы, стандартные баллы и процентильные ранги могут быть не доступны для многих инструментов, использующихся в исследованиях. Нормированию и стандартизации, о которых мы говорили, обычно подвергаются психологические тесты, популярные в прикладных областях, - например, в клинике или оценке персонала. Когда тесты разрабатываются для более узких исследовательских целей, разработчики реже тратят время и силы на расчет норм и стандартизованных баллов. Вторая причина, по которой исследователи меньше заинтересованы в нормах и стандартизованных баллах, состоит в том, что исследователям обычно не важна интерпретация индивидуальных баллов. Исследователям, как правило, важен поиск связей между переменными - вычисление корреляций и других статистик, для того чтобы понять, как индивидуальные различия по одной переменной связаны с индивидуальными различиями по другой переменной. Поскольку ученым не важны баллы конкретных людей, их мало волнуют процентильные ранги и стандартизованные баллы испытуемых, которые согласились участвовать в исследовательском проекте. Репрезентативность выборки стандартизации Как мы только что выяснили, тесты нормируются, чтобы получить точку отсчета для интерпретации индивидуальных тестовых баллов. Ценность нормированных данных, однако, зависит от степени, в которой выборка стандартизации представляет популяцию, и от степени, в которой человек, выполняющий нормированный тест, может считаться представителем этой популяции. В обоих случаях целевая популяция должна быть четко определена и исследователи должны быть уверены в том, что выборка стандартизации действительно репрезентативна относительно популяции. Например, представьте, что вы хотите разработать тест самооценки для того, чтобы использовать его в консультационном центре университета. Для того чтобы проинтерпретировать тестовый балл клиента, вы хотите нормировать тест. Первое, что вы должны сделать, - грамотно определить целевую популяцию. В этом примере популяция может включать студентов дневного отделения, обучающихся по 4-годичной программе американских университетов. Поскольку маловероятно, что вы сможете провести свой тест на самооценку на всех этих студентах, вам нужно будет выбрать группу студентов (выборку стандартизации) из целевой популяции. Выборка стандартизации должна быть репрезентативна относительно популяции (должна представлять, моделировать популяцию). Репрезентативность предполагает, что баллы по 66
самооценке в выборке стандартизации должны иметь статистические свойства, сходные со статистическими свойствами баллов по всей популяции. Подбор испытуемых для выборки стандартизации, которая должна быть действительно репрезентативна относительно целевой популяции, - весьма непростое дело. Есть целые книги, посвященные формированию выборки, но нам необходимо обсудить всего два вопроса: а) вероятностное формирование выборки, б) детерминированное формирование выборки. Вероятностные выборки создаются с использованием процедур, обеспечивающих репрезентативность. Никаких гарантий репрезентативности нет, если речь идет о детерминированной выборке. Вам, наверное, знакома идея случайной выборки. Если люди для выборки отбираются действительно случайным образом, можно говорить о том, что это случайная выборка. Выборки такого типа относятся к вероятностным. А теперь представьте, что вы идете в университеты из вашего района и просите студентов принять участие в вашем исследовании. Ваша выборка будет детерминированной, поскольку студенты, добровольно согласившиеся принять участие в вашем исследовании, могут несколько отличаться от всех студентов и. следовательно, не являться репрезентативной выборкой. Обратите внимание на то, что тип выборки определяется самой процедурой, а не результатами ее применения. Вы никогда не сможете знать наверняка, является ли какая-то конкретная выборка репрезентативной относительно конкретной целевой популяции, но если выборка создается вероятностным методом, вы можете быть достаточно уверены в ее репрезентативности. Резюме Индивидуальные различия составляют основу всех статистических процедур, используемых для оценки психометрических характеристик психологических тестов. Психологические тесты являются инструментами для выявления индивидуальных различий, причем хороший психологический тест точно фиксирует эти различия. В этой главе было показано, что индивидуальные различия в тестовых баллах или уровне выраженности черт могут быть оценены путем вычисления дисперсии и/или стандартного отклонения. Дисперсия - это показатель, который отражает среднюю величину различий в распределении баллов. Каждый испытуемый получает тестовый балл, который может отличаться от среднего; эти различия используются для расчета дисперсии. Также были отмечены важность и смысл ковариации - степени, в которой разброс одного набора значений соответствует разбросу другого набора значений. Возникая из логики дисперсии и ковариации, коэффициенты корреляции являются величинами, показывающими, в какой степени разброс одного набора баллов систематически связан с разбросом другого набора. Они играют чрезвычайно важную роль в психометрике. 67
Наконец, мы обсудили неоднозначность интерпретации тестовых баллов и описали некоторые способы преодоления этой неоднозначности. В частности, были описаны стандартные баллы (s-баллы) и производные стандартные баллы (например, Г-баллы). Такие баллы позволяют сравнивать результаты человека по двум различным тестам, даже если тестовые баллы выражены разными единицами измерения. Вместе с нормальным распределением они также могут быть использованы для предсказания по одной ситуации тестирования результатов в другой ситуации тестирования. Они могут быть преобразованы в процентильные ранги для того, чтобы сделать выводы об уровне данного человека относительно других. Обсуждение этих вопросов показало, что стандартные баллы и процентили встроены в интерпретационный контекст, в котором индивидуальный тестовый балл определяется относительно баллов других людей. То есть они основаны на описании тестовых баллов как величин, отражающих индивидуальные различия между испытуемыми. Рекомендуемая литература Многие вводные курсы по статистике хорошо объясняют такие фундаментальные понятия, как среднее, дисперсия и стандартное отклонение. Одним из таких источников может быть глава 2 в книге: Howell, D.C. (2002). Statistical methods for psychology’ (5th ed.). Belmont, CA: Duxbury’ Press. Чтобы разобраться с важностью индивидуальных различий, надо начинать с Дарвина, а чтобы разобраться с Дарвином, надо начинать с книги: Darwin, С. (1859). On the origin of species by means of natural selection. London: John Murray. Тем, кому интересен подробный отчет о том, как индивидуальные различия играют роль в важной области экспериментальной когнитивной психологии, стоит обратиться к книге: Jensen, A. R. (2006). Clocking the mind: Mental chronometry and individual differences. Oxford, UK: Elsevier. Индивидуальные различия всегда были в центре теорий и исследований личности. Классикой в этой области является книга: Eysenck, H.J., & Eysenck, M.W. (1985). Personality’ and individual differences: A natural science approach. New York: Plenum Press. Хороший обзор методов формирования выборки можно найти в Главе 9 в книге: Rosenthal, R., & Rosnow, R.L. (2008). Essentials of behavioral research, methods, and data analysis (3rd ed.). New York: McGraw-Hill. 68
Математически полное, но очень простое для понимания обсуждение коэффициента корреляции Пирсона можно найти в маленькой книжке, почти монографии (особенно интересны главы 4 - 8)* Edwards, A.L. (1976). An introduction to linear regression and correlation. San Francisco: W.H. Freeman. Обзор 13 способов концептуализации и определения корреляции представлен в статье: Rodgers, J.L., & Nicewander, W.A. (1988). Thirteen ways to look at the correlation coefficient. The American Statistician, 42, 59-66. Краткое, но всестороннее обсуждение различных типов тестовых норм можно найти в Главе 3 в книге: Thorndike, R.M. (2005). Measurement and evaluation in psychology and education. Upper Saddle River, NJ: Pearson Education. 69
Измерения теста и факторный анализ Представьте, что ваш коллега хочет использовать личностный опросник, состоящий из 6 прилагательных: разговорчивый, уверенный, фантазирующий, творческий, общительный, интеллектуальный. В этом кратком тесте испытуемых просят определить, в какой степени каждое из слов описывает их личностные особенности в целом. Коллега спрашивает ваше мнение об этом инструменте. Вы задумываетесь на минуту и начинаете спрашивать: «А что на самом деле измеряет этот опросник? Он измеряет шесть различных характеристик личности, каждая из которых описывается одним прилагательным? Или он измеряет один конструкт? Если так, то что это за конструкт - что общего у этих шести прилагательных как у психологической характеристики или измерения? Или эти прилагательные описывают два или три независимых конструкта? Как будет обрабатываться этот опросник?» Подумайте немного об этих шести прилагательных из краткого опросника и сгруппируйте их в кластеры по сходному значению. То есть сгруппируйте их так, чтобы в каждой группе оказались прилагательные, сходные по значению. Кто-то может предположить, что в этом опроснике всего две группы прилагательных. Например, некоторые сочтут, что разговорчивый, уверенный и общительный описывают вариации одного и того же свойства (назовем его экстраверсия), а фантазирующий, творческий и интеллектуальный - это три вариации другого свойства (назовем его открытостью опыту). С этой точки зрения, ответы на шесть вопросов опросника будут отражать два базовых измерения: один набор прилагательных будет измерять экстраверсию, второй - открытость опыту. 70
Кто-то другой может, однако, предположить, что эти шесть прилагательных отражают не два, а три измерения. В частности, разговорчивый, уверенный и общительный группируются вместе, фантазирующий и творческий тоже вместе, а вот интеллектуальный принципиально отличается от всех пяти. С этой точки зрения, ответы на шесть вопросов опросника будут отражать три базовых измерения. Иными словами, эти шесть пунктов будут отражать три психологических свойства. Этот пример иллюстрирует тему измерений теста, которая является основополагающей для разработки, оценки и использования тестов. Есть как минимум три фундаментальных вопроса, касающиеся измерений теста, и необходимо как следует разобраться в них, чтобы грамотно оценивать психометрические свойства и пользоваться любым психологическим тестом. Во- первых, сколько измерений отражают пункты теста? Как мы увидим, некоторые тесты отражают всего одно измерение, в то время как другие - два и более. Этот вопрос важен, поскольку баллы по каждому измерению подсчитываются отдельно и каждое измерение требует своего психометрического анализа. Второй важный вопрос, касающийся измерений тестов: если в тесте более одного измерения, то как они связаны между собой? В некоторых тестах есть несколько связанных измерений, а в других - несколько независимых. Этот вопрос важен также потому, что характер связи между измерениями теста влияет на то, какой смысл имеет «общий балл» по всему тесту. И, наконец, третий фундаментальный вопрос: если в тесте несколько измерений, что это за измерения? Какие психологические свойства отражают измерения теста? Например, в тесте из 6 пунктов, описанном выше, первое измерение - это экстраверсия или что-то другое? Важность этого вопроса должна быть ясна и очевидна: если мы обсчитываем тест и интерпретируем его, мы должны понимать психологическое значение полученных баллов. В этой главе обсуждаются вопросы, связанные с измерениями теста, и их связь с тремя разными типами тестов. Как показано на рис. 4.1, ответы на эти вопросы определяют тесты, которые существенно отличаются друг от друга. Это одномерные тесты, многомерные тесты со связанными измерениям и многомерные тесты с независимыми измерениями. В этой главе также будет рассмотрено: каким образом на вопросы об измерениях теста можно ответить количественно; как разработчики, рецензенты и пользователи тестов узнают, сколько измерений отражает тест; что означают эти измерения и насколько они связаны между собой. Статистическая процедура, которая называется факторный анализ, - это чрезвычайно полезный инструмент в копилке психометриста. Несмотря на то что факторный анализ является достаточно сложной технической процедурой, мы доступно опишем его основную логику и принципы использования, чтобы это стало понятно даже тем, у кого нет специальных знаний и интереса к статистике. Базовые знания факторного анализа могут стать прочным фундаментом для понимания нескольких других важных психометрических вопросов. 71
Измерения теста Если вы встанете на весы, то число, которое вы увидите, скажет вам нечто о ваших физических свойствах или характеристиках - о вашем весе. Как человек вы обладаете многими другими физическими характеристиками - такими, как рост, цвет кожи, длина волос и т. д. Когда вы взвешиваетесь, на число, которое показывает ваш вес, не должны влиять другие характеристики - например, цвет волос, рост или возраст. «Балл» на весах должен отражать (и отражает) одно единственное физическое измерение. Аналогично, если есть психологический тест, который дает некий количественный показатель, хотелось бы думать, что это число отражает одно психологическое свойство или одну характеристику. Представьте, что у вас есть тест смелости. Если с баллами по тесту можно совершать операции как с реальными числами, то балл по тесту, набранный испытуемым, должен указывать на количество смелости, которым он обладал во время выполнения теста. Мы можем рассматривать смелость как свойство этого человека, а его тестовый балл - как показатель количества его смелости. Балл по тесту смелости должен отражать одно-единственное психологическое измерение. В общем случае (но не всегда), когда измеряется физическое или психологическое свойство объекта или человека, исследователь стремится измерить одно- единственное свойство этого объекта или человека. В случае с весом стараются измерить вес так, чтобы на наше измерение не влияли другие свойства взвешиваемого человека. Более того, было бы бессмысленно сначала измерить чей-то вес, затем его же длину волос и сложить эти две величины для получения «общего балла». Очевидно, что такой общий балл будет смесью двух практически не связанных между собой физических характеристик и их сумма не будет иметь хоть сколько-нибудь осмысленной интерпретации. То есть общий балл не будет однозначно связан ни с одним из двух физических измерений и потому не будет иметь ясного значения. Точно так же бессмысленно измерить сначала чью-то смелость, затем вербальные способности и сложить показатели, чтобы получить «общий» балл. Опять же общий балл будет смесью двух измерений, не связанных друг с другом (предполагается, что смелость не связана с вербальными способностями). Как уже обсуждалось в разделе про составные баллы, баллы по многим психологическим тестам рассчитываются как сумма баллов по нескольким вопросам или пунктам теста. Например, различные личностные тесты включают от 5 или менее вопросов до нескольких сотен вопросов. При обработке результатов по этим тестам ответы на вопросы суммируются различным образом - обычно рассчитывается один или несколько различных баллов, и эти суммарные баллы используются как показатели по одному или нескольким измерениям теста. 72
Рисунок 4.1. Три ключевых вопроса измерений теста и три типа тестов Как было отмечено, ключевые вопросы измерений теста - это количество измерений внутри определенного набора пунктов, значение этих измерений и степень связи между ними. Ответы на эти вопросы позволяют выделить 3 типа тестов, принципиально отличных друг от друга. Одномерные тесты Первый вопрос касается количества измерений, содержащихся внутри набора пунктов теста. Некоторые тесты содержат пункты, относящиеся к единственному измерению, а другие - включают пункты, отражающие различные психологические характеристики. Когда психологический тест содержит пункты, отражающие единственную характеристику человека, и ответы на эти пункты не зависят от других характеристик человека, мы говорим, что тест одномерный. Представьте себе 73
стандартный тест с вариантами ответов - один из тех, которые дают студентам на экзаменах. Пройдя тест, студент получает балл, который складывается из количества вопросов, на которые он ответил правильно. Балл студента обычно интерпретируется как уровень «знаний учебного материала по какой-то теме». Предположим, что тест был сконструирован грамотно и что не было иных факторов, влияющих на тестовые баллы, тогда мы можем заключить, что балл каждого студента является функцией единственной психологической характеристики - знания учебного материала. В этом случае можно предположить, что ответы на каждый вопрос теста определяются одной- единственной характеристикой. Такой тест будет считаться одномерным. Кроме того, пункты или вопросы теста будут обладать свойством концептуальной гомогенности - ответы на каждый пункт будут функцией одной и той же психологической характеристики. Понятие одномерного теста проиллюстрировано на рис. 4.2. На этом рисунке было использовано оформление, стандартное для графического отображения размерности теста (или факторной структуры, о которой будет рассказано позже). На таких рисунках гипотетическую психологическую черту обозначают кругом или овалом, а ответы на тестовые вопросы - квадратами или прямоугольниками. Направление стрелок (от черты к ответам) соответствует идее о том, что психологическая черта влияет на ответы . Поскольку на данном рисунке всего одна психологическая черта влияет на ответы респондентов, этот рисунок изображает одномерный тест. Рисунок 4.2. Одномерный тест Как мы уже отмечали, количество измерений теста важно для обработки его результатов, оценки и практического использования. В одномерных тестах рассчитывается только один балл, который отражает единственную психологическую характеристику, измеряемую этим тестом. То есть ответы на все вопросы каким-то образом объединяются (обычно усредняются, суммируются или подсчитываются) для получения «общего» балла. Например, стандартный школьный тест знаний дает один балл (например, общее количество вопросов, на которые получены правильные ответы), отражающий «знание учебного материала». При психометрической оценке теста оценивается 74
психометрическое качество единственного балла, набранного по одномерному тесту. В следующих главах будут обсуждаться надежность и валидность, которые отражают психометрическое качество тестовых баллов. Для одномерных тестов надежность и валидность рассчитываются и оцениваются применительно к общему баллу по тесту. Пользователи тестов также рассчитывают и интерпретируют общий балл по одномерному тесту. Многомерные тесты со связанными измерениями (тесты с факторами более высокого порядка) Психологический тест, включающий пункты, отражающие более одной психологической характеристики, считаются многомерными. В этом случае мы сталкиваемся со вторым вопросом: связаны ли тестовые измерения между собой? Как показано на рис. 4.3, ответ на этот вопрос различает два типа тестов. Когда несколько измерений теста связаны между собой, тест считается многомерным со связанными измерениями (такие тесты еще называют тестами с факторами более высокого порядка). Тесты интеллекта - например, детский тест Векслера (Wechsler Intelligence Scale for Children; WiSC-IV, Wechsler, 2003a, 2003b) или тест Стэнфорда-Бине (Stanford-Binet; SB5; Roid, 2003) - являются примерами многомерных тестов со связанными измерениями. Эти тесты включают группы вопросов, относящихся к различным психологическим характеристикам. Группы вопросов называются субтестами, и каждый из них отражает определенный аспект интеллекта. Например, тест Стэнфорда-Бине имеет 5 субтестов: 1) текучего интеллекта, 2) общих знаний, 3) вычислительных способностей, 4) зрительно- пространственных способностей, 5) рабочей памяти. Повторимся, что каждый из субтестов направлен на измерение различных гипотетических конструктов. Исследования разработчиков и рецензентов тестов показали, что субтесты Стэнфорда-Бине коррелируют между собой. То есть респондент, получающий высокий балл по одному из субтестов, также с большой вероятностью получит высокий балл по другим субтестам. Как уже упоминалось, измерения теста важны для обработки его результатов, оценки и практического применения. Многомерные тесты со связанными измерениями могут давать целый ряд различных баллов. Как правило, свой балл рассчитывается по каждому субтесту. Каждый субтест сам по себе является одномерными, и вопросы внутри него концептуально гомогенны. Например, субтест вычислительных способностей теста Стэнфорда- Бине может предлагать испытуемому 10 вопросов (заданий). Предположительно, каждое из 10 заданий измеряет вычислительные способности, а не один из конструктов, представляемый другими субтестами. То есть на ответы человека влияют его вычислительные способности, а не какая-то иная психологическая характеристика. Если субтест одномерный, то балл по субтесту можно интерпретировать как меру единственной психологической характеристики. 75
Рисунок 4.3. Многомерный тест со связанными измерениями (тест с факторами более высокого порядка). Кроме баллов по каждому субтесту, в многомерных тестах со связанными измерениями обычно рассчитывается общий балл, который складывается из баллов по нескольким субтестам. То есть баллы по субтестам объединяются друг с другом (путем суммирования или усреднения) для получения общего тестового балла. Например, баллы по 5 субтестам теста Стэнфорда-Бине объединяются для получения балла по «Полной шкале», которая представляет общий интеллект, или G. Мы можем считать, что G (общая психологическая черта) влияет на более узкие психологические характеристики, которые, в свою очередь, влияют на то, как люди отвечают на вопросы или выполняют задания. Тестовая структура такого типа представлена на рисунке 4.3. Обратите внимание на то, что существует два уровня психологических характеристик. Отдельная характеристика, или фактор, влияет на то, как человек отвечает на каждый вопрос теста. Например, на ответы вычислительного субтеста теста Стэнфорда-Бине влияет способность человека к операциям с количественной информацией. А на ответы визуально-пространственного субтеста влияет способность человека к визуально-пространственным операциям. В дополнении к этим специфическим психологическим характеристикам есть общая психологическая характеристика, влияющая на все остальные специфические свойства. Например, способность человека к вычислительным операциям и способность к зрительно-пространственным операциям частично определяются его общими когнитивными способностями, или интеллектом. Эту общую характеристику часто называют фактором более высокого порядка, поскольку она находится на более общем (более высоком) уровне по сравнению со специфическими факторами или характеристиками. 76
В отношении оценки качества тестов многомерные тесты отличаются от одномерных. Одномерные тесты дают всего один-единственный балл, психометрическое качество которого и оценивается. Напротив, многомерные тесты дают баллы для каждого субтеста, поэтому оценивается психометрическое качество каждого из них. Возможно, что при оценке выяснится, что часть субтестов многомерного теста имеет высокое психометрическое качество, а часть - низкое. Поэтому каждый субтест должен быть оценен по отдельности. Например, разработчики и пользователи теста Стэнфорда-Бине должны тщательно проверить (и проверили) надежность и валидность каждого из пяти его субтестов. Кроме того, многомерный тест со связанными измерениями может иметь общий тестовый балл, который рассчитывается по всем его субтестам. Этот общий балл тоже нуждается в психометрической проверке. То есть разработчики и пользователи теста Стэнфорда-Бине должны проверить (и проверили) надежность и валидность балла по «Полной шкале. В плане практического использования многомерные тесты со связанными измерениями предоставляют множество возможностей. Пользователи могут использовать балл по любому субтесту в зависимости от конкретной исследовательской или практической задачи. Кроме того, пользователи могут использовать общий балл по всему тесту, если он обладает приемлемыми психометрическими свойствами. Многомерные тесты с несвязанными измерениями Как уже было отмечено, второй вопрос, связанный с измерениями теста, - это степень, в которой измерения многомерного теста связаны между собой (см. рис. 4.1). Если измерения теста не коррелируют друг с другом, тогда тест может считаться многомерным тестом с несвязанными измерениями. Есть несколько многомерных личностных тестов, измерения которых считаются не связанными. Например, пятифакторный опросник NEO-FFI (NEO Five Factor Inventory; Costa & McCrae, 1992) - это опросник из 60 пунктов, которые отражают 5 измерений, или факторов личности. NEO-FFI разработан для того, чтобы измерять пять относительно независимых личностных черт, и эти 5 характеристик считаются факторами высокого порядка. Испытуемые получают 5 тестовых баллов - по одному для каждого из измерений, и каждый балл сам по себе рассматривается как одномерный. В определенном смысле такие тесты можно считать набором несвязанных одномерных тестов, предъявляющихся совместно с перемешиванием пунктов, относящихся к каждому измерению. 77
Рисунок 4.4. Многомерный тест с несвязанными измерениями В том, что касается расчета баллов, оценки и использования, многомерные тесты с несвязанными измерениями похожи на многомерные тесты со связанными измерениями с одним важным исключением. В тестах с несвязанными измерениями не рассчитывается общий балл. Для каждого из измерений рассчитывается свой балл, но эти баллы не объединяются для получения общего балла. Психометрические свойства оцениваются для каждого из 5 измерений, и каждое измерение может быть использовано исследователями или практикующими психологами. Например, NEO-FFI дает всего 5 баллов - по одному для каждого из 5 факторов, однако общий балл для опросника не подсчитывается. Такой тип тестовой структуры представлен на рис. 4.4. Как и на рис. 4.3, здесь присутствуют две психологические черты, каждая из которых влияет на ответы на набор вопросов. Однако на рис. 4.4 две психологические черты не связаны между собой, то есть они обозначают черты, не коррелирующие между собой. Психологический смысл измерений теста Ранее мы уже обсудили первые два вопроса, связанные с измерениями теста (количество измерений, которые отражают пункты теста, и связь между несколькими измерениями), и теперь вплотную подошли к третьему вопросу. Разработчики, рецензенты и пользователи тестов должны понимать психологический смысл измерений теста. Для того чтобы точно понимать и правильно использовать тестовые измерения, разработчики и рецензенты тестов должны провести исследование, которое поможет обнаружить психологические черты, представляемые каждым измерением теста. В следующем разделе обсуждается способ, с помощью которого такие исследования обычно проводятся. Мы представим основы статистической процедуры, которая называется факторным анализом и является фундаментальным инструментом изучения измерений теста, а также обсудим 78
логику факторного анализа и информацию, которую он дает для понимания каждого из ключевых вопросов тестовых измерений. Факторный анализ: изучение измерений теста Разработчики тестов могут использовать целый ряд статистических процедур для оценки измерений теста. Несмотря на существование техник кластерного анализа и многомерного шкалирования, факторный анализ используется для этих целей наиболее часто. С помощью факторного анализа исследователи могут получить ответы на вопросы, обозначенные выше, а также понять, как лучше использовать психологический тест, оценивать его психометрическое качество и производить обработку результатов. Логика и цель факторного анализа В начале этой главы был предложен гипотетический личностный опросник из 6 пунктов, включающий следующие прилагательные: разговорчивый, уверенный, фантазирующий, творческий, общительный, интеллектуальный. Мы обсуждали вопрос о том, сколько различных характеристик отражают эти прилагательные. Как уже было сказано, люди могут иметь различные мнения по данному вопросу. В зависимости от индивидуальной интерпретации прилагательных и понимания личности, кто-то может посчитать, что эти 6 прилагательных отражают одно, два, три или более измерений. Сложность при использовании такого подхода - основанного только на нашей интерпретации смысла пунктов - состоит в сложности сравнения разных мнений между собой. Если вы считаете, что опросник имеет двухфакторную структуру, а ваш коллега считает - что трехфакторную, как вы определите, кто из вас прав, и прав ли кто-то из вас вообще? Вместо того чтобы полагаться на индивидуальные интерпретации смысла пунктов, разработчики и пользователи тестов предпочитают полагаться на эмпирические данные. Опросник из 6 пунктов можно дать группе людей из 100 человек, ввести их ответы в компьютерную программу и рассчитать корреляции между 6 пунктами. Затем можно использовать корреляции для того, чтобы определить и проинтерпретировать измерения, которые отражают эти пункты. Например, представим на минуту, что получилась следующая матрица корреляций (см. табл. 4.1). Обратите внимание, что три пункта - разговорчивый, уверенный и общительный - имеют высокие интеркорреляции. Люди, которые оценивают себя относительно высоко по одной из этих характеристик, также оценивает себя высоко и по двум другим. Три другие пункта - фантазирующий, творческий, интеллектуальный - также связаны между собой высокими корреляциями. Важно и то, что эти два кластера пунктов независимы друг от друга. Например, корреляция между разговорчивыми и творческим равняется 0, равно как и корреляции между разговорчивым и фантазирующим, между общительным и интеллектуальным и т. д. То есть тот факт, что человек оценивает себя как уверенного, разговорчивого и общительного, ничего не 79
говорит о его уровне креативности, фантазии или интеллекта. Получившиеся корреляции начинают открывать нам ответ на вопрос об измерениях личностного теста из 6 пунктов. Основываясь на этих корреляциях, можно сделать вывод, что опросник имеет двухфакторную структуру. Три пункта объединяются вместе в одно измерение, а три другие - во второе. Более того, можно полагать, что эти два измерения не связаны друг с другом, поскольку пункты внутри одного измерения имеют нулевые корреляции с пунктами из другого измерения. Таблица 4.1 (Гипотетическая) матрица корреляций для двухфакторного набора пунктов Разговор- чивый Уверен- ный Общи- тельный Твор- ческий Фантази- рующий Интел- лекту- альный Разговорчивый 1.00 Уверенный 0,66 1,00 Общительный 0.54 0,59 1,00 Творческий 0.00 0.00 0,00 1,00 Фангазии- рующий 0,00 0.00 0,00 0,46 1.00 Интеллек- туальный 0,00 0,00 0,00 0,57 0.72 1.00 Иными словами, этот тест кажется нам многомерным тестом с несвязанными измерениями. Проанализировав таким образом корреляции, можно произвести очень простой вариант факторного анализа. К сожалению, такой упрощенный «лобовой» подход редко работает на реальных данных. Реальные данные обычно включают гораздо больше пунктов. В нашем примере мы рассмотрели всего 6 пунктов, а обычно тесты состоят из гораздо большего числа заданий. Например, шкала Сознательности опросника NEO-PI-R (Costa, McCrae, 1992) состоит из 48 пунктов. Сложности возникают из-за того, что большее количество пунктов дает больше корреляций для анализа. Например, если бы мы решили рассмотреть корреляционную матрицу для 48 пунктов, нам пришлось бы проанализировать более 1100 корреляций. Очевидно, что зрительный анализ такой громадной корреляционной матрицы практически невозможен. Помимо большого количества корреляций, реальные данные никогда не бывают столь же очевидными, как в табл. 4.1. Гипотетические корреляции в табл. 4.1 включают несколько очень высоких положительных и несколько нулевых корреляций, больше ничего. В реальных данных корреляции часто оказываются ближе к 0.18 80
или -0.32, чем к 0.70. Кластеры пунктов в реальных данных бывают гораздо менее очевидны, чем в таблице 4.1, и эта неочевидность затрудняет процесс оценки числа измерений теста. Факторный анализ - это статистическая процедура, упрощающая этот процесс. Вместо того чтобы зрительно анализировать матрицы из десятков или даже сотен корреляций, можно использовать факторный анализ. Результаты факторного анализа позволяют, по меньшей мере, ответить на три вопроса, касающиеся измерений теста. Результаты факторного анализа Для того чтобы показать, как обычно представляется и интерпретируется информация в факторном анализе, мы провели факторный анализ корреляций из табл. 4.1. Был использован мощный статистический пакет SAS; можно использовать и многие другие статистические пакеты (например, Minitab, SPSS), они дадут такой же результат. Факторный анализ можно проводить, используя сырые данные испытуемых - их ответы на каждый вопрос теста. Однако некоторые статистические пакеты позволяют факторизовать матрицу корреляций, которая показывает связь между пунктами теста. Поэтому, если у вас есть доступ к подходящему программному обеспечению, вы можете повторить анализ, который провели и интерпретируем мы. Выражаясь техническими терминами, мы использовали метод главных компонент, который часто считается одним из вариантов факторного анализа (хотя некоторые эксперты указывают на различия между методом главных компонент и настоящим факторным анализом). Как показано на рис. 4.5, факторный анализ дает информацию для ответа на три основных вопроса, касающихся измерений теста, которые обсуждаются в этой главе. Как мы уже говорили и как показывает рис. 4.5, первый вопрос - это число измерений или факторов, второй касается корреляций между измерениями (если в пунктах теста обнаружено более одного измерения), и третий вопрос - о психологическом смысле измерений. Несмотря на то что эти вопросы кажутся независимыми друг от друга, ответы на них часто оказываются взаимосвязаны. Например, ответ на вопрос о количестве измерений иногда зависит от возможности дать психологическую интерпретацию потенциальному набору измерений. На рис. 4.6 представлен фрагмент результатов анализа наших гипотетических данных (обратите внимание на то, что факторный анализ обычно дает гораздо больше выкладок, чем показано на рис. 4.6). Сразу оговоримся, что приведенные результаты очень прозрачны относительно ответа на три вопроса об измерениях теста (поскольку корреляции, представленные в табл. 4.1, очень понятны и легко интерпретируются). Факторизация реальных данных нередко дает менее очевидный результат. Однако, несмотря на искусственность наших данных, простота полученных результатов поможет лучше понять фундаментальные аспекты факторного анализа. Сколько факторов/измерений содержат пункты? Чтобы ответить на этот вопрос, разработчики и пользователи тестов часто обращаются к статистике, 81
которая называется собственные значения. На рис. 4.6 эта информация представлена в таблице «Eigenvalues of the Correlation Matrix» (Собственные значения корреляционной матрицы). Не будем здесь приводить технического определения собственных значений, поскольку для настоящего обсуждения важно, как они используются, а не что они собой представляют. Есть много способов использования этой информации, остановимся на трех наиболее распространенных. Рисунок 4.5. Три ключевых вопроса, касающиеся измерения теста, три типа тестов и факторный анализ. Один из способов использования собственных значений - это оценка их относительной величины. Обратите внимание, что на рис. 4.6 таблица с собственными значениями включает шесть строк. Каждый ряд представляет потенциальное количество измерений, которые содержит тест из 6 пунктов. То есть число рядов в такой таблице всегда равняется общему числу пунктов теста, и каждый пункт отражает отдельное измерение. Анализируя информацию, которую можно извлечь из собственных значений, мы сосредоточим свое внимание на столбце «Eigenvalues» (Собственные значения). Глядя на убывающие значения в этом столбце, пытаемся найти точку, после которой значения становятся существенно меньше предыдущего. Например, в наших результатах есть достаточно большая разница 82
между вторым (2.17) и третьим (0.56) собственными значениями. Эта разница существенно больше всех остальных разниц между соседними строками, то есть разница между первым и вторым значениями невелика, равно как и невелика разница между третьим и четвертым и т. д. Определение большей разницы важно для ответа на вопрос о «количестве измерений». Найдя большую разницу, заключаем, что количество измерений в тесте равно номеру строки, содержащей большее значение. На рис. 4.6 замечая разницу между строками 2 и 3, заключаем, что тест имеет два измерения. Если бы большая разница была между строками 1 и 2, тогда можно было бы сделать вывод, что в тесте одно измерение (то есть это одномерный тест). Аналогично, если бы большая разница была между строками 4 и 5, можно было бы решить, что в тесте 4 измерения. Второй способ использования собственных значений состоит в анализе графика каменистой осыпи (scree plot of eigenvalues), который отображает собственные значения графически. На рис. 4.6 представлен график каменистой осыпи, получившийся в результате факторного анализа. Аналогично с анализом собственных значений, описанным выше, нужно найти на графике относительно большое различие или резкий перепад в представленных значениях. Например, на данном графике есть два относительно больших значения для первой и второй точек (если смотреть слева направо вдоль оси X) и гораздо более низкие значения для остальных точек. То есть между второй и третьей точкой есть резкий перепад (отражающий большое различие между вторым и третьим собственным значениями). Из этого заключаем, что тест имеет два измерения. В более общем виде необходимо найти резкий перепад на графике и взять число на оси X, которое соответствует точке слева от падения. Несмотря на то что иногда правило «собственное значение больше единицы» подвергают критике, это третий способ использования собственных значений для оценки количества измерений. Как показывает тот факт, что несколько популярных статистических пакетов (например, SPSS и SAS) используют это правило как опцию по умолчанию для ответа на вопрос о «количестве измерений», многие специалисты, использующие факторный анализ, строят свои суждения на количестве собственных значений выше 1.0. Например, из 6 собственных значений на рис. 4.6 только два больше 1,0, то есть можно заключить, что тест содержит два измерения. Если бы проведенный анализ дал три собственных значения больше 1.0, тогда можно было бы сделать вывод о том, что в тесте три измерения. Важно, однако, повторить, что, несмотря на свою популярность, правило «собственное значение больше 1» критикуется как неподходящее для определения количества измерений во многих приложениях факторного анализа (Fabrigar, Wegener, MacCallum, & Strahan, 1999). В качестве последнего замечания по поводу определения количества измерений еще раз отметим, что приведенный пример «чище», чем это обычно бывает. Несмотря на то что в гипотетическом примере собственные значения давали предельно ясную информацию о количестве измерений в тесте, важно понимать, что реальные данные обычно менее очевидны. В реальных 83
психологических данных бывает не так просто обнаружить единственное большое различие. В некоторых случаях вы можете столкнуться с набором собственных значений, в котором есть несколько больших различий. В такой ситуации ответ на вопрос о «количестве измерений» будет зависеть от другой информации. Позже мы вернемся к этому вопросу при обсуждении факторных нагрузок. После решения вопроса о «количестве измерений» можно переводить к оставшимся вопросам. Для этого необходимо сообщить статистической программе, сколько измерений было обнаружено. Ответ на вопрос о «количестве измерений» определяет дальнейшие шаги факторного анализа. Для выполнения следующих шагов мы задали в программе SAS анализ двух факторов. Связаны ли измерения друг с другом? Для того чтобы ответить на этот второй вопрос, разработчики и пользователи тестов часто используют дополнительную полезную информацию из результатов факторного анализа. На самом деле частично этот вопрос находится под контролем человека, который проводит факторный анализ и выбирает тип факторного вращения. Один из элементов факторного анализа - это процедура «вращения» факторов. Как и многие другие аспекты факторного анализа, вращение представляет собой достаточно сложный технический вопрос-лучше сосредоточимся на том, как его использовать, а не на том, что это такое. В большинстве статистических программ вращение используется для того, чтобы прояснить смысл факторов (о чем поговорим чуть позже). Существует два основных типа вращения, которые обычно применяются, и они имеют значение для возможной связи между факторами или измерениями. Если исследователь выбирает ортогональное вращение, тогда он обнаружит измерения, которые не связаны между собой. Если исследователь выбирает косоугольное вращение, тогда он обнаружит измерения, которые могут быть связаны между, собой. То есть ортогональное вращение обеспечивает выделение несвязанных измерений, а косоугольное позволяет обнаружить связанные измерения (хотя и не гарантирует, что связанные измерения будут найдены). В нашем примере было использовано косоугольное вращение, результаты которого представлены на рис. 4.6. Косоугольное вращение дает матрицу «межфакторных корреляций» (reference axis correlations). Эта небольшая таблица показывает корреляции между двумя факторами, которые были выделены на первой стадии анализа. Наши результаты указывают на нулевую корреляцию между двумя измерениями, что говорит об отсутствии связи между ними. Важно отметить, что другие данные могут дать другие результаты - вполне возможно, что косоугольное вращение даст измерения, высоко коррелирующие друг с другом. До настоящего момента факторный анализ позволил получить важную информацию о нашем тесте, но на третий вопрос ответ пока так и не найден. А именно: мы выяснили, что наш опросник из 6 пунктов содержит 2 несвязанных измерения, однако пока не дали содержательного объяснения этим измерениям. Это третий вопрос, который нас интересует. 84
Eigenvalues ci the Ccrrdatron Matrix: Tctsl = 6 Average Eigenvalue Difference Prcporticn Cumulative i 2.19470247 0.02137685 0.3658 O.365S 2.17332563 1.610388:9 0 3622 0.7280 4 0.56293743 0.C939O2CS 0.0938 0.3218 4 0.47203535 0.138773’7 0.0787 0.9C05 5 0.333262 IS 0.06952523 0.8555 0.9560 6 0.26373694 0.0440 1.0000 Scree Pict of Eiseuvalues 2 25 E 2 1.50 ff> trn n a 1 u г s 1.00 0.75 0.50 Number 6 85
Factor 1 Factor! The FACTOR Procedure Rotation method: Promax (power = 3) Reference Axis Correlations Factor 1 Factor 2 1.00000 0.00000 0.00000 1.00000 Factor Structure (Correlations) Factor 1 Factor 2 Уверен 0.88165 0.00000 Разговор 0.85944 0.00000 Общителен 0.823 S6 0.00000 Интеллект 0.00000 0.90742 Фантазир 0.00000 0.S6217 Творческ 0.00000 0.77SS3 Рисунок 4.6. Избранные результаты факторного анализа опросника из 6 пунктов Что представляют собой измерения? Как станет ясно из глав, посвященных тестовой валидности, глубокое понимание психологического смысла тестовых измерений требует тщательного анализа. Однако факторный анализ дает нам информацию, которая может стать важной частью этого анализа. Значения, которые называются факторными нагрузками, содержат эту информацию. Факторные нагрузки - это ниточка, связывающая пункты и факторы. Основываясь на этих связях, интерпретируется психологический смысл каждого измерения, то есть смысл измерений выявляется исходя из того, какие пункты теста сильнее всего связаны с этим измерением. Разумеется, исследователь надеется, что будут обнаружены объяснимые связи, то есть что каждый пункт окажется связан лишь с одним-единственным измерением. На рис. 4.6 нужная табличка называется «Factor Structure (Correlations)» (Факторная структура (корреляции)). Значения, представленные в этой матрице,-это корреляции между каждым пунктом и каждым фактором (обратите внимание на то, что есть и другие виды факторных нагрузок, которые могут быть получены из факторного анализа). Факторные нагрузки в столбце «Factorl» (Фактор 1) показывают степень связи каждого пункта и первого измерения. Видно, что пункты «уверенный», «общительный» и «разговорчивый» связаны с первым измерением, а пункты «интеллектуальный», «фантазирующий» и «творческий» с этим измерением не связаны. Основываясь на обнаруженных связях между факторными нагрузками, можно перейти к следующему вопросу: что общего между уверенностью, общительностью и разговорчивостью? Как можно выразить ключевой смысл 86
этих трех личностных характеристик? Психологический смысл первого измерения тесно связан с тем фактом, что эти три пункта имеют большие нагрузки на это измерение. Если считать, что эти три пункта являются аспектами экстраверсии, тогда можно заключить, что экстраверсия - это первое измерение, которое содержится в нашем личностном тесте из 6 пунктов. Анализируя факторные нагрузки в столбце «Factor?» (Фактор 2), мы приходим к выводу о смысле второго измерения. Обратите внимание,, что интеллектуальный, фантазирующий и творческий относятся ко второму измерению, но уверенный, общительный и разговорчивый к нему не относятся. То есть интеллектуальный, фантазирующий и творческий представляют собой единое измерение, которое можно назвать открытостью опыту. Хотя факторные нагрузки, прежде всего, дают ответ на третий вопрос (что представляют собой измерения?), они также могут играть роль в ответе на первый вопрос о количестве измерений, содержащихся в пунктах теста. Как уже отмечалось, собственные значения не всегда дают прозрачную информацию о количестве измерений. Например, собственные значения и график каменистой осыпи могут указывать на то, что тест имеет два или три измерения. В этом случае помогут факторные нагрузки. Сначала нужно в статистической программе задать анализ двух факторов и оценить понятность и объяснимость полученных факторов. Затем можно задать анализ трех факторов и оценить понятность этих результатов. Один набор результатов может оказаться более осмысленным и хорошо интерпретируемым, чем другой. Эту информацию можно использовать для принятия решения о количестве измерений и выбрать психологически более очевидную структуру. В этом смысле факторный анализ является обратимым процессом, в котором одна и та же информация полезна для решения нескольких вопросов, связанных с измерениями теста. Резюме В этой главе обсуждалось понятие размерности теста и то, каким образом ее можно оценить. Было выделено три ключевых вопроса, связанных с измерениями теста: количестве измерений, содержащихся в наборе пунктов, степени связи между измерениями и психологическом смысле измерений теста. Эти вопросы позволяют различать три типа тестов, что имеет большое значение для обсчета результатов, оценки и использования теста. Кроме того, в этой главе дан обзор факторного анализа - смысла и возможностей его использования для анализа измерений теста. Несмотря на то что факторный анализ - это сложная техническая процедура, нам удалось обсудить и проиллюстрировать основные его аспекты. Заинтересованные читатели могут более подробно узнать об этом методе в различных доступных источниках (например, Gorsuch, 1983; Meyers, Gainst, & Guarino, 2006). Первые четыре главы этой книги сформировали понятийный и статистический аппарат, необходимый для понимания оставшихся глав. В них внимание будет сосредоточено на ключевых психометрических свойствах 87
тестов. Анализ надежности и валидности потребует понимания основных понятий и процедур, таких как дисперсия, корреляции и измерения теста. Следующая глава посвящена надежности/ Рекомендуемая литература Для более глубокого понимания факторного анализа можно обратиться к главам 12А-13В книги: Meyers. L.S., Gamst, G.. & Guarino, A. (2006). Applied multivariate research: Design and interpretation. Thousand Oaks, CA: Sage. Более детальное обсуждение процедур можно найти в книге: Gorsuch, R.L. (1983). Factor Analysis. Hillsdale, NJ: Lawrence Erlbaum. Комментарии и рекомендации, касающиеся основных тенденций в использовании факторного анализа, есть в статье: Fabrigar, L.R., Wegener, D.T., MacCallum, R.C., & Strahan, E.J. (1999). Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, 4, 272-299. Подробное, но лаконичное обсуждение использования факторного анализа в определении измерений теста см. в книге: Netemeyer, R.G., Bearden, W.O., & Shanna, S. (2003). Scaling procedures. Thousand Oaks, CA: Sage. 88
Часть II Надежность
лава 5 Надежность Понятийный аппарат Медсестры пытаются измерять рост ребенка при рождении и после рождения через равные интервалы. Если вы когда-нибудь видели, как измеряют рост младенца, вы не будете удивлены тому, что это непростая задача. Младенцы извиваются и всячески сопротивляются попыткам «вытянуть» их в полный рост. Из-за того что малыши извиваются, медсестрам бывает сложно измерить их рост точно. Но некоторые дети более сговорчивы, чем другие, и извиваются чуть меньше. Таким образом, это создает различия между детьми: некоторые оказываются измерены более точно, чем другие. Такого рода проблемы заставляют некоторых исследователей (например, Johnson, Engstrom, & Gelhar, 1997; Johnson, Engstrom, Haney, & Mulcrone, 1999) ставить под сомнение надежность этих измерений. Представьте, что медсестру попросили измерить рост 10 разных малышей и что каким-то образом до этого вы знали (но медсестра - нет) реальный рост каждого младенца. Тогда теоретически вы могли бы сравнить истинный и измеренный роста ребенка. Более того, вы могли бы сопоставить различия между истинными ростами детей с различиями между измеренными ростами. В идеале вы бы надеялись обнаружить согласованность между этими двумя наборами различий, то есть могли бы ожидать, что различия между измеренными ростами младенцев согласованы с различиями между их истинными ростами. В этом случае вы могли бы заключить, что измерительная процедура дает надежные результаты. На протяжении всей этой книги мы делали акцент на важности понимания психологического разнообразия - психологические тесты полезны только до тех 90
пор, пока они точно отражают реальные психологические различия. Научные исследования поведения стремятся объяснить, насколько различия в одной переменной (например, интеллекте) связаны с различиями в другой переменной (например, в родительских стилях, дошкольном опыте, возрасте, академических успехах, агрессии и т. д.). Психологические измерительные инструменты используются для того, чтобы оценивать и представлять эти различия. В прикладном контексте практики хотят принимать решения, касающиеся людей, и используют психологические инструменты, чтобы подкреплять свои решения. Подобные решения основаны на предположении, что различия между людьми существуют и имеют большое значение. Итак, психологические измерения всегда зависят от возможности точно отражать реальные психологические различия между людьми. Эта способность находится в центре измерения надежности. В этой главе мы расскажем о классической теории тестов (КТТ), которая является теорией измерения и определяет понятийный аппарат надежности и процедуры для оценки надежности психологических измерений (Gulliksen, 1950; Magnusson, 1967). Например, предположим, что группе людей был предложен опросник на эмоциональное выгорание и было обнаружено, что люди набрали различные баллы по опроснику. Хотелось бы думать, что различия в баллах по тесту точно отражают реальные различия в уровнях эмоционального выгорания у этих людей. Согласно классической теории тестов, надежность теста указывает на степень, в которой различия в тестовых баллах респондентов являются функцией от истинных различий между ними, а не ошибкой измерения. Психологи всегда надеются, что их измерительные инструменты высоконадежны. Несмотря на то что люди иногда говорят о надежности в терминах «есть- нет», на самом деле надежность представляет собой континуум. Измерительная процедура может быть более или менее надежной. Заметьте, что надежность - это само по себе теоретическое понятие. Надежность - это свойство, предположительно, присущее результатам процедуры измерения характеристик объектов или психологических характеристик людей. Так же, как интеллект является ненаблюдаемой характеристикой человека, надежность - это ненаблюдаемая характеристика тестовых баллов. Более того, точно так же, как мы должны оценить уровень интеллекта человека, мы должны оценить надежность теста. В этой главе описаны теоретические основы надежности с точки зрения классической теории тестов. В следующей главе основное внимание будет уделено процедурам оценки надежности. Будет показано, что, опираясь на определенные положения классической теории тестов, можно рассчитать количественное значение, показывающее степень, в которой баллы, полученные с помощью измерительного инструмента, не надежны. 91
Обзор надежности и классической теории тестов Согласно классической теории тестов, надежность — это свойство теста, которое выводится из наблюдаемого балла, истинного балла и ошибки измерения. Значения, которые получаются в результате измерения какой-то характеристики человека, называются наблюдаемым баллом. Напротив, реальное количество этой характеристики называется истинным баллом. В нашем примере с ростом рост, который определяет медсестра, будет наблюдаемым баллом, а реальный рост ребенка - истинным баллом. В идеале пользователи тестов хотели бы считать наблюдаемые баллы хорошим приближением к истинным баллам, поскольку поведенческие исследования и принятие решений направлены на то, чтобы отражать истинные психологические характеристики испытуемых. Надежность отражает степень, в которой различия между наблюдаемыми баллами испытуемых согласованы с различиями в их истинных баллах. Более точно, надежность процедуры измерения зависит от степени, в которой наблюдаемые баллы респондентов могут быть приписаны различиям в их истинных тестовых баллах, а не другим (часто неизвестным) характеристикам теста и процедуры тестирования. Степень, в которой эти «другие» характеристики вносят вклад в различия в наблюдаемых баллах, называется ошибкой измерения, или просто ошибкой, поскольку она вносит рассогласование между наблюдаемыми и истинными баллами. При измерении количества чего-нибудь, включая свойства физических объектов или психологические характеристики людей, результаты измерения всегда до известной степени будут ненадежными. То есть не существует идеально надежных инструментов измерения. Даже если бы такой инструмент существовал в неком идеальном мире, мы бы не смогли по достоинству оценить его идеальную надежность из-за ограниченности наших эмпирических способностей. Обычно невозможно знать все источники ошибки измерения, влияющие на тестовые баллы. В случае измерения роста младенцев можно предположить, что часть погрешности будет связана с тем, сколько младенец извивается в процессе измерения: некоторые малыши делают это больше, чем другие. Если на измерение роста влияет «количество извиваний» младенца, тогда точность измерения будет зависеть от того, сколько извивается каждый малыш. Извивания одних малышей приведут к тому, что медсестра недооценит их истинный рост, а извивания других - к тому, что медсестра, наоборот, переоценит их истинный рост. Последствия извивания могут считаться ошибкой измерения, поскольку они мешают точно измерить истинный рост младенцев. Другим источником ошибки измерения может быть то, что измерения записывают разные медсестры. Если всех младенцев измеряют разные медсестры, и если какие-то медсестры более аккуратны в измерении, то определенные малыши могут оказаться измерены более точно. Различия в «измерительной тщательности» медсестер исказят различия между истинными 92
ростами младенцев. Есть множество возможных источников ошибки, способных влиять на наблюдаемые измерения и тем самым искажающих истинные различия между младенцами. Некоторые нз этих источников могут быть достаточно слабыми (например, тщательность медсестер), другие могут быть более существенными (например, извивания младенцев). Учесть все возможные слабые факторы, которые могут повлиять на измерения, невозможно. Такие же ошибки влияют и на измерение психологических характеристик. Представьте, что может произойти, если в школьном классе будет проводиться тест по математике. Нам бы хотелось думать, что балл ребенка по тесту - это точная оценка истинных знаний ученика по математике; однако очевидно, что другие факторы, кроме знаний математике, могут повлиять на балл школьника. Некоторые дети, выполняющие тест, могут быть простужены в день проведения теста. Простуда может вызвать у ребенка слабость, из-за которой школьник выполнит тест хуже, чем он «на самом деле» мог бы, исходя из его реальных математических способностей. Другие дети могли съесть с утра питательный завтрак, который дает им заряд бодрости и энергии и помогает выполнить тест хорошо. Кому-то из детей может повезти, и он может случайно угадать много правильных ответов, что повысит его тестовый балл по сравнению с баллом, соответствующим его реальным математическим способностям. Другие дети могут правильно решить задачу, но по ошибке пометить неверный ответ, тогда их тестовый балл будет искусственно занижен по сравнению с их «истинными» математическими способностями. Такие ситуативные факторы - количество сна, эмоциональное состояние, физическое самочувствие, угадывание, ошибочная запись ответа - могут искусственно повысить или понизить тестовый балл ребенка относительно его истинного балла. Каждый из этих факторов может стать источником ошибки измерения и поставить под сомнение качество тестовых баллов. Для того чтобы оценить надежность баллов, полученных по любому инструменту, мы должны сравнить степень, в которой индивидуальные различия в наблюдаемых баллах являются функцией ошибки измерения, со степенью, в которой они являются функцией истинных различий между респондентами. Наблюдаемые баллы, истинные баллы и ошибка измерения Надежность теста зависит от двух вещей: а) степени, в которой различия в тестовых баллах могут считаться следствием истинных меж- или внутрииндивидуальных различий и б) степени, в которой эти различия являются функцией ошибки измерения. В классической теории тестов наблюдаемый балл человека по тесту - это функция от истинного балла испытуемого плюс ошибка измерения. Пусть Хо - это наблюдаемый тестовый балл испытуемого, X, - истинный балл испытуемого по психологической характеристике, а Хе - ошибка, 93
влияющая на ответы испытуемого, тогда мы можем записать следующее уравнение, чтобы представить наше предположение: ж Хо = Х, + Хе (5.1) Чтобы проиллюстрировать это положение, мы составили искусственный набор данных, представляющий ответы людей на опросник самооценки (см. табл. 5.1а). Для данного примера будем считать, будто знаем истинный уровень самооценки (то есть истинный балл испытуемого. X,). Разумеется, на самом деле мы никогда не будем знать истинный балл испытуемого - этот пример предназначен только для того, чтобы объяснить теоретическую основу надежности. Из нашей «всезнающей» точки видно, что в нашей выборке самая высокая самооценка у Эшли (ее X, = 130), следующий в этом списке - Боб (его X, = 120), и т. д. Кроме всего прочего, сделаем вид, что знаем, в какой степени на наблюдаемый балл каждого испытуемого влияет ошибка измерения. Например, Эшли проходила опросник через час после того, как узнала, что получила плохую отметку за тест по биологии. Из-за этой неприятности во время выполнения теста она думала о себе хуже, чем обычно. Заметьте, что ошибка измерения у Эшли (ее X) равняется -10, что указывает на то, что неприятное событие временно снизило ее истинный балл по самооценке. Наоборот, Боб проходил тест через час после того, как узнал, что поступил на юридический факультет. Несмотря на то что у Боба и так обычно достаточно высокая самооценка (т. е. его истинный балл самооценки достаточно высок по сравнению с остальной выборкой), благодаря хорошей новости он стал думать о себе еще лучше, чем обычно. Заметьте, что ошибка балла Боба (его Х>) равна +25, что говорит о том, что хорошая новость временно повысила его актуальную самооценку. Как показывает таблица 5.1а, наблюдаемые баллы испытуемых по опроснику самооценки определяются их истинным уровнем самооценки и «ошибкой» случайных событий и состояний. Например, наблюдаемый балл Эшли: Хо Эшли = Xt Эшли + Хе Эшли, ХоЭшли= 130 +(—10), Хо Эшли = 120. Повторимся, этот «всезнающий» пример иллюстрирует первое, но фундаментальное теоретическое положение классической теории тестов - о том, что наблюдаемые баллы по психологическому инструменту определяются истинным баллом респондента и ошибкой измерения. 94
Подход КТТ к надежности предполагает также выполнение очень важного положения об ошибке измерения. Это допущение о случайности ошибки измерения. * Таблица 5.1 Ответы на первоначальный опросник самооценки и переработанный опросник самооценки (а) Ответы на первоначальный опросник самооценки Испытуемый (Хо) Наблюдаемый балл (Xt) Истинный балл (Хе) Ошибка Эшли 120 = 130 + -10 Боб 145 = 120 + 25 Карл 95 = 110 + -15 Дениза 85 = 100 + -15 Эрик 115 = 90 + 25 Фелиция 70 = 80 + -10 Среднее 105,00 105 0 Дисперсия 608,33 291,67 316,67 Стандартное отклонение 24,.66 17,08 17,80 Надежность = Rxx 0,48 rot = 0,69 Гое 0,72 Йе = 0..000 fot2== 0,48 о Гое ” 0,52 (б) Ответы на переработанный опросник самооценки Испытуемый (Хо) Наблюдаемый балл (Xt) Истинный балл (Хе) Ошибка Эшли 135 = 130 4- 5 Боб 130 120 + 10 Карл 95 ПО + 15 Дениза 85 — 100 + 15 Эрик 100 — 90 + 10 Фелиция 85 = 80 + 5 Среднее 105 105 0 Дисперсия 408,33 291,67 116,67 Стандарное отклонение 20,21 17,08 10,80 Надежность = Rxx 0,48 lot ~ 0,69 Гое ” 0,72 rte = 0,000 fot2 = 0,48 г 2 = 1 ое 0,52 95
В частности, это означает, что ошибка измерения с одинаковой вероятностью может повышать или понижать конкретный тестовый балл. Предполагается, что на ответы испытуемого на психологический тест влияют непредсказуемые факторы, которые искусственно могут как повысить, так и понизить тестовый балл. Возьмем, к примеру, Эшли и Боба. То, что Эшли проходила опросник всего через час после получения плохой новости, было случайным стечением обстоятельств, однако это снизило ее наблюдаемый балл по сравнению с ее истинным, стабильным уровнем самооценки. Аналогично, это была просто случайность, что Боб проходил опросник через час после получения хорошей новости, что повысило его наблюдаемый балл по сравнению с его истинным, стабильным уровнем самооценки. Во всей выборке ошибка измерения искусственно повышает балл одних людей и искусственно снижает балл других. Поскольку ошибка влияет на тестовый балл случайным образом, повышение или понижение балла, вызванное ошибкой, не связано с истинным уровнем самооценки респондента. То есть ошибка измерения может повлиять на человека с высоким истинным уровнем самооценки таким же образом (и в такой же степени), как она влияет на человека с низким уровнем. Возьмем снова Эшли и Боба. События, которые временно влияют на их ответы, не имеют ничего общего с их истинным уровнем самооценки. Получение новости об оценке по биологии и поступлении на юридический факультет совершенно не связаны с тем, насколько высок или низок их истинный уровень самооценки. Искусственные данные в табл. 5.1а иллюстрируют это общее положение. Обратите внимание на то, что размер и знак (положительный или отрицательный) ошибки равномерно распределены между всеми возможными истинными баллами. Для каждого человека с высокой самооценкой, чей наблюдаемый балл был искусственно занижен ошибкой измерения, есть человек с высокой самооценкой, чей наблюдаемый балл был искусственно завышен. То же самое верно для людей с низким истинным уровнем самооценки. Это положение об ошибке имеет два важных следствия. Во-первых, ошибки имеют тенденцию взаимно уничтожаться по всей выборке. То есть ошибка увеличивает балл одних респондентов и уменьшает балл других так, что в сумме средний эффект ошибки по всем респондентам оказывается равным 0. Действительно, таблица 5.1а показывает, что среднее шести ошибок равняется 0 ( X е = 0). Второе следствие очевидной случайности ошибки состоит в том, что ошибки не коррелируют с истинными балами. Как было описано выше, ошибка влияет на наблюдаемый балл независимо от истинных уровней самооценки респондента. Поэтому если рассчитать корреляцию между истинными баллами людей и их ошибками измерения по таблице 5.1а, видно, что корреляция равняется 0 (то есть rte = 0). Эти два следствия имеют большое значение для надежности. 96
Дисперсии наблюдаемых баллов, истинных баллов и ошибок измерения . Как было отмечено выше, надежность основана на степени, в которой различия в наблюдаемых баллах согласованы с различиями в истинных баллах. Иначе говоря, надежность зависит от дисперсии наблюдаемых баллов, дисперсии истинных баллов и дисперсии ошибок. Зная о важности дисперсии для интерпретации и оценки психологических инструментов, можно понять, каким образом первое положение классической теории тестов (о том, что для каждого испытуемого Х„ = X, + Хе) приводит нас к различиям между людьми. Начнем с того, каким образом истинные различия между людьми могут искажаться различиями в ошибке измерения. Посмотрим на истинные баллы респондентов в таблице 5.1а и рассмотрим различия между Эшли и Бобом. Заметьте, что истинный балл Эшли (X, Эшли = 130) на 10 пунктов выше, чем истинный балл Боба (Х,Боба = 120). Однако наблюдаемый балл Эшли (Х„ Эшли = 120) на 25 пунктов ниже наблюдаемого балла Боба (ХеБоба - 145). Очевидно, что разница между истинными баллами Эшли и Боба не согласована с разницей между их наблюдаемыми баллами - истинный балл Эшли выше, чем истинный балл Боба, но наблюдаемый балл Эшли ниже наблюдаемого балла Боба. Xt Эшли — Xt Боба = 130-120 = +10 Хо Эшли - Хо Боба = 120 - 145 = -25 Эта несогласованность создается ошибкой измерения, которая искусственно понизила наблюдаемый балл Эшли и в то же время искусственно повысила балл Боба. Очевидно, эта несогласованность означает, что наблюдаемая разница в 25 пунктов между Эшли и Бобом (между их баллами по опроснику самооценки) плохо отражает реальную разницу в 10 пунктов между Эшли и Бобом (в их истинном, стабильном уровне самооценки). Поскольку подобные несогласованности потенциально влияют на различия между всеми респондентами, давайте рассмотрим дисперсию по всем испытуемым. Дисперсия для гипотетических данных рассчитываются стандартным образом. Например, дисперсия между ошибками измерения (.s/) рассчитывается по следующей формуле, в которой Хе - ошибка измерения: (5-2) ,= (-10 - О)2 + (25 - О)2 + (-15 - О)2 +(-15- О)2 + (25 - О)2 + (-10 - О)2 97
? 10)2 + (25)2 + (— 15)2 + (— 15)2 + (25)2 + (—10)2 Se 6 , 100 + 625 + 225 + 225 + 625 + 100 зе~=-------------------------------, 6 2 1900 Se 6 ’ V=316,67. Это значение представляет степень, в которой ошибка измерения по- разному повлияла на разных испытуемых. Повторимся, тот факт, что ошибка по- разному влияет на респондентов - искусственно повышая балл одних и искусственно понижая балл других, искажает истинные различия между людьми. Таким образом, высокая дисперсия ошибки указывает на потенциально плохое качество измерительного инструмента. Используя стандартную формулу дисперсии, можно также рассчитать дисперсию наблюдаемых баллов (so~) и дисперсию истинных баллов (•$/), как показано в табл. 5.1а. Из предположения о том, что наблюдаемый балл испытуемого равен сумме его истинного балла и ошибки измерения (А”о = Xt + Хе), следует, что общая дисперсия наблюдаемых баллов группы испытуемых равняется сумме дисперсий всех истинных баллов и ошибок измерения: SO2 = S? + Se2. (5.3) Если вы посмотрите на значение дисперсии наблюдаемых баллов (,s„2) в табл. 5.1а, вы увидите, что это действительно сумма дисперсий истинных баллов и ошибки измерения: зо2= 291,67 +316,67, s2 = 608,33’. Читатель мог заметить, что уравнение 5.3 не согласуется с формулой для составных переменных, приведенной в главе 3. В третьей главе показано, что дисперсия набора переменных равняется сумме дисперсий плюс выражение, которое представляет меру связи между отдельными переменными. На самом деле наблюдаемый балл - это составная переменная, сумма двух переменных (переменной истинного балла и переменной ошибки). Таким образом, можно ожидать, что дисперсия наблюдаемых баллов будет равняться: 1 ПРИМЕЧАНИЕ. Разница между 608.33 и 608,34 образовалась из-за округления, см. таблицу 5.1а. 98
2 2 2 So St "b Se “b 21teStSe. (5-4) Иными словами, общая дисперсия наблюдаемых баллов должна равняться дисперсии истинных баллов плюс дисперсии ошибок плюс ковариации между истинными баллами и ошибками (cle = 2rleslse). Однако, как было отмечено выше, мы предполагаем, что ошибка не зависит от истинных баллов, то есть корреляция между истинными баллами и ошибкой равняется нулю (г1е = 0). Поэтому крайнее правое выражение (ковариация) будет равняться нулю и может быть опущено из уравнения, в котором останется: 2_ , 2 So St + Se . Уравнение 5.3 - это ключевая формула классической теории надежности. Как мы покажем ниже, надежность может быть рассмотрена разными способами относительно дисперсий наблюдаемого балла, истинного балла и ошибки. Четыре подхода к пониманию надежности В классической теории тестов есть как минимум четыре подхода к пониманию надежности. Так или иначе, в основе каждого из этих концептуальных подходов лежат связи между наблюдаемыми баллами, истинными баллами и ошибкой измерения, как было описано выше. На одном уровне эти подходы отличаются только методами, которые используются для алгебраических операций с выражениями, связанными с этими дисперсиями. На другом уровне они представляют различные способы концептуализации или характеристики понятия надежности. Как показывает табл. 5.2, эти четыре подхода отражают два различия в концептуализации надежности. Первое различие касается того, понимается ли надежность в терминах «долей дисперсии» или в терминах корреляций. Второе различие касается того, понимается ли надежность как отношение наблюдаемых баллов к истинным баллам или к ошибке измерения. Есть как минимум две причины на то, чтобы разобраться в этих различных пониманиях надежности. Во-первых, понимание нескольких подходов к определению одного и того же понятия поможет сформировать более глубокое понимание общего смысла надежности. Во-вторых, в литературе и обсуждениях тестов и их надежности вы столкнетесь с тем, что разные люди говорят о надежности по-разному. Понимание этих различных вариантов и того, как они соотносятся друг с другом, помогут избежать путаницы, когда вы столкнетесь с одним из них в этих обсуждениях. 99
Таблица 5.2 Четырехклеточная таблица для концептуализации надежности. Концептуальная основа надежности: наблюдаемые баллы в отношении к... Статистическая основа надежности в терминах.. Доли дисперсии Истинные баллы Ошибка измерения Надежность — это отношение дисперсии истинных баллов к дисперсии наблюдаемых баллов. Надежность — это отсутствие дисперсии ошибки Корреляции Надежность — это (квадратная) корреляция между наблюдаемыми и истинными баллами Надежность - это отсутствие корреляции между наблюдаемыми баллами и ошибкой Надежность как отношение дисперсий истинного балла и наблюдаемого балла Вероятно, наиболее распространенное определение надежности - это доля дисперсии наблюдаемого балла, которая может быть отнесена на счет дисперсии истинного балла: R Ivxx 2 ’ (5.5), где Ryx - это коэффициент надежности. Например, для ответов, представленных в табл. 5.1а: 291,67 608,33 Rxx = 0,48. Это значение говорит о том, что 48% различий, которые мы видим между наблюдаемыми баллами, могут считаться следствием различий между истинными уровнями признака. Величина коэффициента надежности отражает надежность теста. Надежность изменяется от 0 до 1, более высокие значения Rxx указывают на более высокое психометрическое качество, поскольку с увеличением 100
большая доля различий между наблюдаемыми баллами может быть приписана различиям в истинных баллах. Заметьте, что если дисперсия истинных баллов равна 0, то и /?ЛЛ- = 0, поскольку Rxx, равная 0, означает, что у всех людей одинаковый истинный балл. Это подчеркивает тот факт, что надежность внутренне связана с различиями между людьми - если между испытуемыми нет отличий по уровню оцениваемой тестом характеристики (то есть если st~ = 0), значит, надежность равна 0. Наоборот, если дисперсия истинных баллов равняется дисперсии наблюдаемых баллов, тогда /?д_, = 1.0. Это будет означать, что вообще отсутствует ошибка измерения, влияющая на наблюдаемые баллы. В реальности какая-то ошибка измерения присутствует всегда. Несмотря на то что не существует точного балла отсечения, отделяющего плохую надежность от хорошей, надежность для данных в таблице 5.1а, равная 0,48, - это достаточно низкий показатель. Идеальная надежность (Rxx = 1,0) недостижима, однако было бы гораздо лучше, если бы в исследовании была получена надежность 0,70 или 0,80. Если менее половины дисперсии наблюдаемых баллов может быть приписано дисперсии истинных баллов, это повод для беспокойства. Поэтому психолог, применявшая опросник самооценки в примере, приведенном в табл. 5.1а, может пожелать улучшить надежность опросника. Представим, что она переработала опросник, изменив формулировки части пунктов - например, пояснив потенциально двусмысленные фразы и удостоверившись, что она везде спрашивает о том, как люди «обычно» думают о себе. Она надеется, что такие исправления помогут улучшить надежность опросника. Кроме того, представим, что она попросила тех же людей заполнить исправленную версию опросника. Гипотетические ответы представлены в табл. 5.16. Помогли ли ее доработки улучшить психометрические свойства опросника? Присмотритесь на минутку к данным в таблицах 5.1а (исходная версия опросника) и 5.16 (переработанная версия опросника). Во-первых, обратите внимание, что истинные баллы испытуемых одинаковы для исходной и переработанной версий. Это так, поскольку опросник измеряет самооценку и предполагается, что истинный уровень самооценки у испытуемых стабилен в этих двух тестовых ситуациях. То есть самооценка - это признак, который обычно достаточно стабилен. Несмотря на то что у людей случаются небольшие колебания самооценки, мы предполагаем, что человеку присущ определенный общий уровень, который отражает его типичные представления о себе. Опросник самооценки нацелен на измерение этих стабильных уровней самооценки. Во-вторых, заметьте различия между испытуемыми. Давайте опять возьмем Эшли и Боба. Как уже отмечалось при обсуждении исходного теста, различия в их истинных уровнях самооценки были не согласованы с различиями в их наблюдаемых уровнях самооценки. Истинный балл Эшли был на 10 пунктов выше истинного балла Боба, но ее наблюдаемый балл был на 25 пунктов ниже наблюдаемого балла Боба. Это отражает значительный эффект ошибки измерения. По сравнению с этими результатами по переработанному 101
опроснику их наблюдаемые и истинные баллы оказались гораздо более согласованны. Конкретно, наблюдаемый балл Эшли на 5 пунктов выше, чем наблюдаемый балл Боба. Несмотря на то что различие в 5 пунктов все еще не до конца точно отражает реальное различие в 10 пунктов между их истинными баллами, это сравнительно незначительная несогласованность. Кроме того, разница в наблюдаемых баллах по переработанному опроснику, по крайней мере, имеет «правильный» знак. То есть по новому тесту Эшли получила балл выше Боба, что соответствует различиям между их истинными баллами. Иными словами, можно думать, что по сравнению с исходным тестом переработанный лучше отражает истинные различия между респондентами. Наше предположение подтверждается, когда была рассчитана надежность для переработанного теста: п _ 291,67 408,33 /?лл = 0,71. Для переработанного опросника 71% дисперсии наблюдаемых баллов может быть приписан дисперсии истинных баллов. Надежность переработанного опросника гораздо выше надежности исходного. Это говорит о том, что изменение формулировок пунктов оправдало себя и что в будущем пользователям следует работать с новой версией теста. Отсутствие дисперсии ошибки Второй способ рассмотрения надежности - как отсутствия ошибки измерения. Как уже было отмечено, дисперсия ошибки (5/) представляет степень, в которой ошибка измерения по-разному влияет на результаты тестирования разных людей - искусственно повышая баллы одних людей и понижая баллы других. Эти эффекты искажают истинные различия между людьми, как показывают наши сравнения Эшли и Боба. Поэтому надежность можно рассматривать как степень, в которой ошибка измерения минимальна по сравнению с дисперсией наблюдаемых баллов. Можно это выразить формально. В предыдущем разделе уже отмечалось, что надежность может быть рассмотрена как доля дисперсии наблюдаемых баллов, которая может быть приписана дисперсии истинных баллов: s2 Rxx=^t- (5.6) Также отмечалось, что дисперсия наблюдаемых баллов представляет собой сумму7 дисперсии истинных баллов и дисперсии ошибки (уравнение 5.3): 102
2 2,2 So — St + . Это выражение можно преобразовать следующим образом: 2 _ 2 2 St s0 - se . Подставив это выражение в числитель уравнения 5.6, получаем: R s~o~s. Снова преобразуем: И упрощаем: С" Rxx=l-^. (5.7). 7 Обратите внимание на то, что -у - это доля дисперсии наблюдаемых s; баллов, которая является функцией дисперсии ошибки измерения. Надежность относительно высока, когда эта доля относительно мала. То есть надежность теста высока, когда дисперсия ошибки мала по сравнению с дисперсией наблюдаемых баллов. Для данных из исходного опросника самооценки: Rxx Rxx Rxx 316,67 608,33 = 1 - 0.52, = 0,48. 103
Таким образом. 52% дисперсии в наблюдаемых баллах респондентов по исходному опроснику порождается ошибкой измерения, оставляя только 48% на счет истинных различий между испытуемыми. Что будет означать небольшая дисперсия ошибки? Она будет означать, что баллы испытуемых по тесту лишь в незначительной степени зависят от ошибки измерения. Более конкретно она будет означать, что ошибка, влияющая на балл одного испытуемого, не слишком отличается от ошибки, искажающей балл другого испытуемого. Можно видеть эту тенденцию в данных для переработанного опросника, где абсолютное значение ошибки составляет всего от 15 до +10 баллов. Кроме того, стандартное отклонение ошибки равняется 10.8, то есть в среднем ошибка для каждого человека составляет 11 баллов. В этом втором примере ошибка измерения отвечает только за 29% дисперсии в наблюдаемых баллах. В данных по исходному опроснику ошибка лежала в гораздо более широком диапазоне - от 15 до 25 баллов. Стандартное отклонение ошибки для первого опросника составляло 17,8 баллов, указывая на то, что в среднем для каждого испытуемого ошибка составляла 18 баллов. Все эти факты отражают большее влияние ошибки в первом опроснике, где она отвечала полностью за 52% дисперсии в наблюдаемых баллах. Конечно, если у ошибки нулевая дисперсия, тогда 100% наблюдаемой дисперсии связано с дисперсией истинного балла и, значит, тест идеально надежен. Квадрат корреляции между наблюдаемыми и истинными баллами Эта глава начиналась с утверждения о том, что надежность - это степень, в которой различия в наблюдаемых баллах согласованы с различиями в истинных баллах. В главе 3 было показано, что коэффициент корреляции сообщает нам степень, в которой различия в одной переменной согласованы (соответствуют) различиям в другой переменной. Таким образом, надежность может быть рассмотрена как (квадратная) корреляция между наблюдаемыми и истинными баллами: Rxx = rot2. (5.8) Коэффициент корреляции между наблюдаемыми и истинными баллами равен г,„ = 0.69. Если возвести это значение в квадрат, то получим го1~ = 0.48, что равно /?„, как было показано ранее. Сама по себе корреляция (до возведения в квадрат) между наблюдаемыми и истинными баллами иногда называется «показателем надежности» (Ghiselli, et al., 1981). Пусть это вас не смущает. Если вы возведете в квадрат показатель надежности, вы получите коэффициент надежности. Когда люди говорят о надежности, они обычно имеют в виду «коэффициент» надежности (7?ет). Редко когда вы столкнетесь с тем, что люди 104
говорят об индексе надежности (г(,Д однако понимание связи между ними поможет вам глубже понять природу надежности. Потратим немного времени для торо, чтобы доказать, что квадрат корреляции между наблюдаемыми и истинными баллами (г„,“) равняется отношению между дисперсиями истинных и наблюдаемых баллов и это наиболее распространенный способ выражения коэффициента надежности: Вспомните из главы 3, что корреляция может быть определена как ковариация, деленная на произведение стандартных отклонений: гху Таким образом, корреляция между наблюдаемыми и истинными баллами равняется: Г = * ot ------- (5.9) Ковариация между наблюдаемыми и истинными баллами равняется: (5.10) Из уравнения 5.1 известно, что: 105
Поскольку средняя ошибка предполагается равной 0 (то есть Хе = 0, как было показано выше), средний наблюдаемый балл равен среднему истинному баллу: Подставив это выражение и уравнение 5.1 в формулу ковариации (уравнение 5.10), получаем: Со, Алгебраически упрощая выражение, можно обнаружить, что ковариация между наблюдаемыми и истинными баллами равняется сумме -а) дисперсии истинных баллов и б) ковариации между истинными баллами и ошибкой измерения: 2 Cot ®t Т Get- Однако, как мы пояснили выше, мы также предполагаем, что ошибка и истинный балл не зависят друг от друга, то есть корреляция, а значит, и ковариация между ними равна 0 (rte = 0, с1е = 0). То есть ковариация между наблюдаемыми и истинными баллами просто равняется дисперсии истинных баллов: cot “ . (5.П) Возвращаясь к корреляции между истинными и наблюдаемыми баллами (уравнение 5.9), подставляем уравнение 5.11 в числитель: Упрощая это выражение, получаем: 106
Возведя это выражение в квадрат, обнаружим, что квадрат корреляции между наблюдаемыми и истинными баллами равняется отношению между дисперсиями истинных и наблюдаемых баллов: Таким образом, надежность может быть рассмотрена как квадрат корреляции между наблюдаемыми и истинными баллами. Надежность, равная 1.0, будет означать, что различия между наблюдаемыми баллами респондента идеально согласованы с различиями между их истинными баллами. Надежность, равная 0, будет означать, что различия между наблюдаемыми баллами респондента абсолютно не согласованы с различиями между их истинными баллами. В этом случае тест абсолютно бесполезен как инструмент для измерения психологической характеристики. На практике надежность обычно лежит между двумя крайностями. Нулевой квадрат корреляции между наблюдаемыми баллами и ошибкой В связи с предыдущим подходом надежность может быть также рассмотрена как степень, в которой наблюдаемые баллы не связаны с ошибкой измерения. В той степени, в которой различия в наблюдаемых баллах отражают различия в эффектах ошибки (а не истинных баллов), тест ненадежен. То есть: Rxx । fое t (5-12) где г„е - квадрат корреляции между наблюдаемыми баллами и ошибкой. Еще раз повторимся, что данные в таблице 5.1а демонстрируют это равенство. Корреляция была рассчитана между наблюдаемыми баллами и ошибкой (гое = 0,72). Квадрат этого значения равен 0.52, что равно отношению дисперсии ошибки к дисперсии наблюдаемых баллов: О s; е 107
Как было показано ранее, единица минус это значение равняется надежности: = 1 -(0,72)2, /?xv = 1 - 0,52, /?ЛД. = 0,48. Докажем алгебраически, что квадрат корреляции между наблюдаемыми баллами и ошибкой (г„е") равняется отношению дисперсии ошибки к дисперсии наблюдаемых баллов: Корреляция между наблюдаемыми баллами и ошибкой равняется: (5.13) Ковариация между наблюдаемыми баллами и истинными баллами равняется: (5.14) Опять же из уравнения 5.1 помним, что: Хо= Xt + Xe. А поскольку средняя ошибка предполагается равной нулю (Хе= 0). средний наблюдаемый балл равен среднему истинному баллу. 108
Подставим это выражение и уравнение 5.1 в формулу ковариации (уравнение 5.14): . _Е(а-,+т,-т,хт,-л;) Упрощая алгебраически это уравнение, обнаруживаем, что ковариация между наблюдаемыми баллами и ошибкой равна дисперсии ошибки: Сое . (5.15) Возвращаясь к корреляции между ошибкой и наблюдаемыми баллами (уравнение 5.13), подставим уравнение 5.15 в числитель: Упростив это выражение, получаем: S' 'т' — _______! ое S Возведя обе части уравнения в квадрат, обнаруживаем, что квадратная корреляция между наблюдаемыми баллами и ошибкой равняется отношению дисперсии ошибки к дисперсии наблюдаемых баллов: 109
Таким образом, ^XV 1 ?ОС 1 1 • S' О Возможно, лучший способ думать об этом - понять, что если корреляция (г„е) между наблюдаемыми баллами и ошибкой равна 0, тогда Rxx равняется 1.0. С ростом корреляции между наблюдаемыми баллами и ошибкой Rxx будет снижаться. Например, сравните денные в табл. 5.1а (исходный опросник самооценки) с данными в табл. 5.16 (переработанный опросник самооценки). Для исходного опросника корреляция между наблюдаемыми баллами и ошибкой была относительно высока (гое = 0,72), что приводило к относительно низкой надежности (Rxx = 0,48). Однако уже в ответах на переработанный опросник корреляция между наблюдаемыми баллами и ошибкой была относительно невысокой (гж - 0,53), а надежность, напротив, сравнительно высокой (Rxx = 0,71). Таким образом, надежность будет достаточно высокой, когда наблюдаемые баллы относительно слабо связаны с ошибкой. Надежность и стандартная ошибка измерения Коэффициент надежности - это полезный показатель, особенно для сравнения надежностей нескольких различных психологических тестов. Представьте, что у вас есть два теста на самооценку и вы хотите узнать, какой из них более надежен. Коэффициент надежности, впрочем, не решает напрямую проблему оценки ошибки измерения, связанной с тестом. Величина Rxx может сказать нам, какой из тестов более надежен, однако она не сообщает нам, какую среднюю величину ошибки в единицах тестовых баллов можно ожидать при проведении теста на группе людей. Как будет показано позднее, величина ошибки измерения имеет важные последствия для интерпретации точности тестовых баллов и для расчета вероятностей баллов в тестовой и исследовательской ситуациях. Стандартное отклонение ошибки измерения - это полезный способ выражения величины ошибки, влияющей на ответы на тест. Давайте на минуту задумаемся о стандартных отклонениях ошибки для двух версий опросника самооценки. Для первоначальной версии опросника (табл. 5.1а) стандартное отклонение ошибки (л;,) равняется 17,8, что отражает средние абсолютные значения ошибки измерения. В этом случае число 17,8 указывает нам на то, что в среднем наблюдаемые баллы испытуемых отличаются от их истинных баллов почти на 18 баллов. Однако если вы посмотрите на стандартное отклонение 110
ошибки для переработанного опросника (табл. 5.16), вы увидите, что оно меньше, чем для исходного опросника. В этом случае стандартное отклонение ошибки, равное 10,8, указывает на то, что наблюдаемые баллы испытуемых по переработанному опроснику отличаются от их истинных баллов всего на 11 баллов. Таким образом, баллы по переработанному опроснику более точны (то есть ближе к истинным баллам), чем наблюдаемые баллы по исходному опроснику. Стандартное отклонение ошибки имеет специальное название; оно называется стандартная ошибка измерения (sem) и является одним из важнейших понятий теории измерения. Стандартная ошибка измерения представляет среднюю величину ошибки измерения. Чем больше стандартная ошибка измерения, тем больше средняя разница между наблюдаемыми и истинными баллами и тем менее надежен тест. Как вы могли догадаться, стандартная ошибка измерения теста тесно связана с его надежностью. Как будет видно позже, нам потребуется рассчитать se,„ исходя из величины надежности. Для этого можно использовать коэффициент надежности, чтобы вычислить стандартную ошибку измерения (se,„y. (5.16) где s„ - стандартное отклонение наблюдаемых баллов. Анализируя данные из табл. 5.1а, видим, что стандартное отклонение наблюдаемых баллов равняется 24.66, а надежность равняется 0,48. То есть: зет = 24,66^/1-0,48, sem = 24,66 (0,72), se„, - 17,80. Это значение (17,8) точно равняется стандартному отклонению, вычисленному напрямую из значений ошибки. Для того чтобы доказать, что 2 se — s J1 — R, вспомните, что Rxx = -у-, что равнозначно (см. уравнение 5.7) s: 111
Отсюда следует, что Ц- = 1 - /?„. Умножая далее на s„2, получаем: Помня, что sj = sem и извлекая квадратный корень, получаем: senl=soyl\-Rxx. Данное уравнение показывает, каким образом стандартная ошибка измерения связана с надежностью. Обратите внимание на то, что если /?„.= 1, то se,„ = 0 и что se„, никогда не может быть больше s„. Скоро можно будет убедиться в том, что стандартная ошибка измерения - это важное психометрическое значение, которое находит применение в прикладных измерениях. Параллельные тесты Если вы внимательно следили за обсуждением надежности до настоящего момента, вы могли заметить один неприятный факт. До сих пор теория надежности формулировалась в терминах истинных баллов, ошибки и наблюдаемых баллов. Однако реальность измерений не так прекрасна, как элегантная теория надежности: в действительности исследователи ничего не знают ни об истинных баллах испытуемых по измеряемым психологическим характеристикам, ни об ошибке измерения, связанной с их ответами. Таким образом, может показаться, что не существует способа перенести теорию надежности в реальную практику измерений. Может показаться, что на самом деле невозможно оценить надежность теста или стандартную ошибку измерения. Сторонники классической теории тестов обходят эту проблему с помощью еще одного допущения. Они предполагают, что два психологических теста могут быть сконструированы таким образом, что будут «параллельны». Пара тестов считается параллельной, если все предыдущие предположения КТТ выполняются и если выполняются еще два положения: Тест измеряет тот же самый психологический конструкт (это условие называют «тау-эквивалентность»). То есть истинные баллы испытуемых по одному тесту в точности равняются их истинным баллам по второму тесту. Тесты обладают одинаковой дисперсией ошибки. 112
Следствием этих допущений является то, что наблюдаемые баллы по тестам будут иметь одинаковые средние и стандартные отклонения. Если два теста параллельны, тогда можно рассчитать коэффициент надежности и стандартную ошибку измерения на основании наблюдаемых баллов по этим тестам. Представьте, что у вас есть два опросника, которые, по вашему мнению, измеряют самооценку - назовем их Хи К, и вы просите одну и ту же группу людей пройти оба теста. Если тесты измеряют одно и то же психологическое свойство (в данном случае предположительно самооценку) и если у них одинаковая дисперсия ошибки (то есть л\ = л\, ), тогда X и Y - параллельные тесты. Обратите внимание на то, что гипотетические тесты самооценки, результаты по которым представлены в табл. 5.1а и 5.16, не являются параллельными. Несмотря на то что их истинные баллы одинаковы (измеряют один и тот же конструкт), и средние наблюдаемых баллов одинаковы, у них разная дисперсия ошибки, что создает также разницу в стандартных отклонениях наблюдаемых баллов. То есть эти опросники не удовлетворяют одному из положений параллельности тестов. Однако если два теста - X и Y - параллельны, то можно рассчитать корреляцию между двумя наборами баллов по тесту. Например, если 100 человек выполнили тесты Хи К, то каждый испытуемый получил два балла и можно рассчитать коэффициент корреляции между наблюдаемыми баллами по тестам по формуле, приведенной в главе 3 (г^.). Согласно классической теории тестов, корреляция между двумя параллельными тестами равняется надежности. Можно показать, что при выполнении положений классической теории тестов гху равняется J?xx. Во-первых, вспомните, что корреляция между наблюдаемыми баллами по двум наборам данных равняется ковариации тестов, деленной на произведение их стандартных отклонений: Если два теста параллельны, тогда по определению наблюдаемые баллы по ним имеют равные стандартные отклонения (если = лг , то sx = si, , что просто называем л„): С*У S,A 113
-) • ss Помня определение наблюдаемого балла, согласно которому Хо = X, + Хе, можно рассматривать наблюдаемые баллы как составные переменные (состоящие из двух компонентов). Тогда ковариация между тестовыми баллами будет рассчитываться как ковариация между составными переменными. А ковариация между двумя составными переменными - это сумма ковариаций между компонентами составных переменных: где х,у,~ это ковариация между истинными баллами по тесту X и с истинными баллами по тесту Y, х,}е - ковариация между истинными баллами с по тесту X и ошибкой по тесту Y, - ковариация между ошибкой по тесту X с и истинными баллами по тесту Y, - ковариация между ошибкой по тесту X и ошибкой по тесту Y. По определению ошибка является случайной величиной, поэтому ошибка не связана с истинными баллами. Кроме того, ошибка по тесту X не связана с ошибкой по тесту V. Следовательно, три ковариации, включающие ошибку ( с , с , с ), равняются 0, то есть: х(Уе хеУ t хеУе Поскольку истинные баллы для двух тестов равны (то есть каждый Xt = К,), то ковариация между истинными баллами по двум тестам равняется дисперсии истинных баллов (сх t, = s~ ). То есть корреляция между параллельными тестами равняется: 114
Итак, корреляция между баллами по параллельным тестам, равняется отношению дисперсии истинных баллов к дисперсии наблюдаемых баллов, что является определением надежности (/?ЛЛ). Предположение о возможности конструирования параллельных тестов будет ключевым для следующей главы, в которой будут обсуждаться процедуры оценки надежности в реальных ситуациях тестирования. Теория множественных выборок тестовых заданий Теория множественных выборок тестовых заданий была разработана в 1950-х годах в качестве альтернативы классической теории тестов (Ghiselli et al., 1981). Теория множественных выборок тестовых заданий представляет альтернативу классической теории тестов в том смысле, что оба подхода приходят к одним и тем же заключениям, касающимся надежности, но исходят из разных посылок. Например, в классической теории тестов измерение надежности основано на предположении о возможности создания двух параллельных тестов. Теория множественных выборок тестовых заданий такого допущения не делает, однако в конце концов приходит к параллельным тестам по сути. Теория множественных выборок тестовых заданий основана на положении о том, что пункты любого теста представляют собой выборку из бесконечного пула потенциальных тестовых заданий. Ответы на каждое задание считаются функцией измеряемой психологической характеристики. Например, представьте, что у вас есть тест на самооценку из 10 вопросов. Различия в ответах на каждый из 10 вопросов должны быть связаны с различиями в самооценке людей, которые проходят тест. Кроме того, набор пунктов теста считается случайной выборкой из множества аналогичных заданий, каждое из которых измеряет самооценку. Если вы создали один тест, случайно выбрав N пунктов из совокупности всех возможных заданий данного теста, а затем создали другой тест, случайным образом выбрав другие N пунктов из совокупности всех возможных заданий данного теста, в какой-то момент эти пары тестов будут иметь одинаковые средние и стандартные отклонения. Другими словами, в среднем все пары тестов, отобранные таким образом, будут параллельны друг другу. Если у вас есть два параллельных теста, тогда между тестовыми баллами по этим тестам должна быть высокая корреляция. Если они не коррелируют высоко друг с другом, то виной тому ошибка отбора заданий. С этой точки зрения, надежность 115
- это средняя величина корреляций между всеми возможными парами тестов, содержащими W пунктов, выбранных из всего множества тестовых заданий. Логика теории отбора тестовых заданий составляет основу современного подхода к надежности, который получил название теории генерализуемости тестовых баллов. Подробно эта тема будет рассмотрена в главе 12. Резюме В этой главе была рассмотрена теория надежности с точки зрения классической теории тестов. Несмотря на то что существуют другие подходы к надежности, классическая теория тестов наиболее известна и служит основой для оценки многих психометрических инструментов. Классическая теория тестов базируется на нескольких фундаментальных предположениях о тестовых баллах и факторах, которые на них влияют. Как уже обсуждалось, классическая теория основывается на предположении о том, что наблюдаемые баллы по тесту являются простой суммой истинного балла и ошибки измерения (то есть Хо = X, + Хе). Кроме того, классическая теория тестов основана на допущении о случайности ошибки измерения. Предположение о случайности имеет несколько важных следствий - например, ошибка не связана с истинными баллами, средняя ошибка равна 0, ошибка по одному тесту не связана с ошибкой по другому тесту. Эти положения важны для понимания природы разнообразия тестовых баллов. Как неоднократно отмечалось на протяжении данной книги, смысл психологических измерений тесно связан с необходимостью обнаруживать и количественно оценивать различия между людьми. Так, различия между наблюдаемыми баллами разных людей по тесту отражают различия в их истинных баллах и различия в степени, в которой ошибка измерения влияет на их ответы. С этой точки зрения, надежность отражает связь между наблюдаемыми баллами, истинными баллами и ошибками. Как было сказано, существует четыре подхода к рассмотрению надежности. Надежность может быть рассмотрена в терминах дисперсии. Это отношение дисперсии истинных баллов к дисперсии наблюдаемых баллов, а также отсутствие дисперсии ошибки. Таким образом, надежность высока, когда различия между наблюдаемыми баллами испытуемых по тесту по большей части отражают различия между их истинными баллами. Надежность также может быть рассмотрена в терминах согласованности и корреляций. Это степень, в которой наблюдаемые баллы связаны с истинными баллами, или степень, в которой истинные баллы не связаны с ошибкой. Таким образом, надежность высока, когда различия между наблюдаемыми баллами респондентов по тесту согласованы с различиями в их истинных баллах. Эта глава также коснулась стандартной ошибки измерения и понятия параллельных тестов. Эти два понятия, которые появляются в классической 116
теории тестов, станут важными инструментами для перенесения теории надежности в практику психометрической уценки реальных тестовых данных. Эта глава была посвящена теоретическим основам надежности. Для того чтобы проиллюстрировать достаточно сложные технические понятия, пришлось «притвориться», будто можно знать истинные баллы испытуемых и природу ошибки, влияющей на них. Разумеется, работая с реальными тестовыми данными, никто не может знать всех этих вещей. Поэтому никогда невозможно рассчитать надежность теста (так же, как никогда нельзя узнать истинный уровень самооценки человека). Тем не менее, понятие параллельных тестов позволит нам оценить надежность теста на реальных данных. В следующих главах будут описаны соответствующие оценочные процедуры. Рекомендуемая литература Классическая работа по разработке классической теории тестов: Gulliksen, Н. (1950). Theory of mental tests. New York: John Wiley. Подробное рассмотрение теории отбора тестовых заданий: Ghiselli, Е.Е., Campbell, J.P., & Zedeck, S. (1981). Measurement theory for the behavioral sciences. San Francisco: W.H. Freeman 117
ГЛАВА 6 Эмпирическая оценка надежности В главе 5 обсуждались теоретические основы надежности с точки зрения классической теории тестов. В ней также было показано, что теоретически надежность тестовых баллов можно оценить количественно, однако мы не объяснили, каким образом можно получить информацию о надежности из реальных данных. Как было показано, надежность - это теоретическое свойство теста, и она не может быть рассчитана прямо. Она выводится из истинных баллов и ошибки измерения и может бьгть лишь примерно оценена на основе реальных данных. В этой главе будет показано, что исходя из положений классической теории тестов наблюдаемые (эмпирические) тестовые баллы могут быть использованы для оценки истинных значении надежности баллов и оценки истинных значений ошибки измерения. Существует, как минимум, три метода оценки надежности. Все три метода опираются на понятие параллельных тестов, и оценки, которые они дают, могут быть проинтерпретированы, как было описано в предыдущей главе в обсуждении надежности (например, как доля дисперсии наблюдаемых баллов, которая может быть приписана дисперсии истинных баллов). Однако эти три метода отличаются друг от друга характером используемых данных и допущениями, на которые они опираются. В данной главе будут приведены примеры, обсуждение и объяснение этих трех методов. Важное наблюдение заключается в том, что ни один из методов в отдельности не дает абсолютно точных оценок надежности во всех случаях. Как будет показано, точность этих методов зависит в значительной степени от множества теоретических посылок об испытуемых и тестовых процедурах. Если эти допущения не выполняются полностью, тогда оценки надежности не будут до конца точными. Более того, в некоторых случаях данные однозначно указывают на то, что одно или несколько допущений не выполняется. В этих 118
случаях нам придется рассмотреть альтернативные методы оценки надежности или придется признать, что наши оценки надежности могут быть не очень точны. Помимо базовых методов оценки надежности тестовых баллов, в этой главе будет обсуждаться надежность «баллов различия», которые могут использоваться для изучения таких феноменов, как интеллектуальное развитие, ослабление симптомов, личностные изменения, соответствие личности и среды, чрезмерная уверенность в себе и точность первого впечатления. Несмотря на их интуитивную понятность, баллы различия известны своим низким психометрическим качеством (возможно, не совсем заслуженно; Rogosa, 1995). Надежность альтернативных форм Надежность альтернативных форм теста (иногда ее называют надежностью параллельных форм теста1) - это один из методов оценки надежности тестовых баллов. Имея тестовые баллы по двум формам теста, пользователи могут рассчитать корреляцию между двумя формами и рассматривать полученную корреляцию как оценку надежности теста. Тест надежен в той степени, в которой различия в наблюдаемых баллах по одной форме согласуются с различиями в наблюдаемых баллах по другой форме. Корреляция между альтернативными формами может считаться оценкой надежности, только если две формы теста параллельны, как это было описано в предшествующей главе. Вероятно, вы помните, что тесты считаются параллельными, если а) они измеряют один и тот же набор истинных баллов, б) они обладают одинаковой дисперсией ошибки. Кроме того, вы должны помнить, что корреляция между двумя параллельными формами теста в точности равняется надежности тестовых баллов. Несмотря на теоретическую логику параллельных форм и статистическую базу, связывающую параллельные формы с надежностью, на деле здесь существует серьезная проблема. А именно: никогда нельзя быть совершенно уверенным в том, что параллельные формы теста на самом деле параллельны в теоретическом смысле. Эта неуверенность порождается тем, что невозможно знать, действительно ли две формы теста удовлетворяют очень строгим положениям классической теории тестов и параллельных форм тестов. Наиболее проблематично то, что в реальности никогда нет уверенности в том, что баллы по параллельным формам теста отражают одно и то же психологическое свойство. Более конкретно, никогда нет уверенности в том, что истинные баллы, измеряемые первой формой теста, равны истинным баллам, измеряемым второй формой теста. Отчасти эта проблема возникает оттого, что разные формы тестов отличаются содержательно. Из-за различий в содержании разные формы могут оценивать различные психологические конструкты. В русскоязычной литературе более принято название «параллельные» формы теста, поэтому далее мы будем использовать в основном этот термин. (Прим, перев.). 119
Например, можно составить две формы опросника на самооценку и надеяться, что они параллельны. Однако первый опросник может включать несколько пунктов, относящихся к самооценке в отношениях с другими людьми, а второй опросник - всего один такой пункт. В этом случае эти две формы теста могут на самом деле оценивать немного разные конструкты (например, социальную самооценку и несоциальную самооценку). Тогда истинные баллы испытуемых по первому опроснику не будут равны истинным баллам испытуемых по второму опроснику и две формы теста на самом деле не будут параллельны. Из этого следует, что если две формы не параллельны, то и корреляция между ними не будет хорошей оценкой надежности. Более тонкую проблему, связанную с параллельными формами теста, представляет возможный эффект переноса вследствие повторного тестирования. Вполне вероятно, что факт выполнения первой формы теста будет влиять на результаты второй формы - воспоминания о содержании теста, установки или непосредственные настроения испытуемых могут изменить результаты тестирования по обеим формам теста. Подобные эффекты будут означать, что ошибки измерения по одной форме теста будут коррелировать с ошибками по второй форме. Хорошо известно, что фундаментальное предположение классической теории тестов - это случайность ошибки. Следствием допущения о случайности является отсутствие корреляции между ошибками по двум различным тестам. Однако если испытуемые выполняют оба теста одновременно, то определенные ошибки, влияющие на ответы на одну форму, могут переноситься и влиять на ответы на вторую форму. Это нарушает фундаментальное предположение классической теории тестов и означает, что эти две формы на самом деле не параллельны. В табл. 6.1 представлен возможный пример того, как может действовать эффект переноса. Представим, что 6 человек отвечают на вопросы двух форм теста. В табл. 6.1 приведены их наблюдаемые баллы по двум формам, а также их истинные баллы и баллы ошибки измерения (как и раньше, будем притворяться всезнающими и представим, будто знаем истинные баллы и баллы ошибки испытуемых). Заметьте, что две формы теста удовлетворяют нескольким положениям классической теории тестов, и в частности теории параллельных форм. Например, наблюдаемый балл каждого испытуемого равен сумме его истинного балла и ошибки измерения (Хо = X + X)- Кроме того, истинные баллы по двум формам абсолютно идентичны, сумма ошибок для каждой формы равняется 0, истинные баллы не связаны с ошибками, и дисперсии ошибок для двух форм равны (5/ = 4,67 для обеих форм). Как показано в табл. 6.1, эти характеристики обеспечивают одинаковую надежность этих двух форм теста - для обеих форм соотношение дисперсии истинных баллов и дисперсии наблюдаемых баллов /?Л, = 0,38. То есть из нашей «всезнающей» позиции понятно, что надежность теста равна 0,38, что существенно ниже, чем нам хотелось бы. Если все положения классической теории и параллельных форм выполняются, тогда корреляция между наблюдаемыми баллами по двум формам должна равняться точно 0,38. К сожалению, данные в табл. 6.1 нарушают фундаментальное положение о природе ошибки. Повторимся, предполагается, 120
что ошибки измерения влияют на тесты как случайные величины, из чего следует, что баллы ошибки по одному тесту не коррелируют с баллами ошибки по другому. На самом деле между двумя наборами ошибок в табл. 6.1 присутствует очень высокая корреляция (г = 0.93)- Как отмечалось выше, эта ‘V’z корреляция может быть результатом эффекта переноса - из-за настроения или памяти. Таблица 6.1 Пример влияния эффекта переноса на оценку надежности с помощью альтернативных форм теста Форма 1 Форма 2 Наблю- даемый балл Истинный балл Ошиб- ка Наблю- даемый балл Истинный балл Ошиб- ка Участник Х. = \ + Xei = 4- 1 14 — 15 4- -1 13 = 15 4 -2 2 17 = 14 4- +3 17 14 + +3 3 11 = 13 4 -2 12 = 13 4 -1 4 10 = 12 4 -2 11 = 12 4 -1 5 14 = 11 4- +3 14 = И 4 +3 6 9 = 10 4 -1 8 = 10 + -2 Среднее 12.5 12,5 0 12,5 12.5 0 Дисперсия 7.58 2.92 4,67 7.58 2,92 4.67 Надежность для формы 1 Надежность для формы 2 2 92 ? 92 = 0,38 = — = 0,38 7.58 7,58 =о,оо г.е =0,00 С = 0,00 ге^_ =0.93 Корреляция тест-ретест: го,о2 = 0,96 121
Если любой из этих элементов ошибки сохраняется относительно стабильным в двух формах теста, это обеспечивает положительную корреляцию между двумя наборами наблюдаемых баллов. Обратите внимание на то, что корреляция между наблюдаемыми баллами для двух форм весьма высока (г = о,96 )• Таким образом, корреляция между двумя формами теста в данном примере дает крайне неточную оценку надежности теста, которая, как нам «известно», составляет всего 0,38. Пользователь теста, не знающий о возможных проблемах, связанных с параллельными формами теста, может чрезвычайно сильно переоценить надежность теста. Несмотря на то что никогда нельзя быть до конца уверенным в том, что две формы теста действительно параллельны, иногда можно получить две формы теста, которые, на первый взгляд, удовлетворяют нескольким критериями параллельности. Как уже говорилось в предыдущей главе, следствием двух допущений о параллельности тестов (равенство истинных баллов и равенство дисперсий ошибки) является совпадение средних и стандартных отклонений у параллельных тестов. Если есть две формы теста, которые имеют сходные средние и сходные стандартные отклонения, и если есть твердая уверенность в том, что оба теста измеряют один и тот же конструкт, тогда можно считать, что формы «достаточно близки» для того, чтобы считаться параллельными. Если считать, что две формы теста достаточно близки, чтобы быть параллельными, для оценки надежности теста можно рассчитать корреляцию между двумя формами. В этом случае будет получена оценка надежности, получившая название — надежность альтернативных (параллельных) форм. Тест-ретестовая надежность Тест-ретестовый метод оценки надежности позволяет избежать части проблем, связанных с надежностью параллельных форм, и потенциально весьма полезен для инструментов, измеряющих стабильные психологические конструкты, как, например, интеллект или экстраверсия. Как только что упоминалось, важным поводом для беспокойства по поводу оценки надежности параллельных форм является то, что разные формы могут различаться содержательно и, следовательно, измерять разные конструкты. Это будет нарушать важное допущение о параллельных формах и, следовательно, делать невозможным их использование в качестве метода оценки надежности. Другой подход заключается в том, что одним и тем же людям предлагают пройти один и тот же тест более одного раза (например, протестироваться в первый раз и затем пройти тест повторно). Если окажутся верны несколько допущений, тогда корреляция между первым и повторным прохождением теста (ретестом) может быть использована в качестве оценки надежности теста. Ретестовый метод оценки надежности во многом сходен с методом параллельных форм и во многом опирается на те же допущения. Как мы только что рассуждали в контексте параллельных форм, первое предположение - о том, 122
что истинные баллы испытуемых стабильны в двух тестовых ситуациях. То есть нужна уверенность в том, что истинные баллы испытуемых не изменятся от первого тестирования ко второму. Необходимо быть уверенным в том, что испытуемые с наиболее высокими истинными баллами во время первого обследования - это те же самые испытуемые с наиболее высоким истинным уровнем интересующего нас признака на втором обследовании. Второе допущение, которое должно быть сделано, - о том, что дисперсия ошибки первого теста равна дисперсии ошибки второго теста. Помимо прочих следствий, эти два допущения означают, что две тестовые ситуации дают одинаково надежные результаты в теоретическом смысле - соотношения дисперсии истинного балла и дисперсии ошибки. Если эти допущения выполняются, то корреляция между наблюдаемыми баллами по двум тестированиям может считаться оценкой надежности. Давайте обсудим, когда выполняются эти два допущения. Начнем со второго (о равенстве дисперсий ошибки): оно вполне может быть правомерно, если тестирование проведено аккуратно. Вспомните, что ошибка измерения (а следовательно, и ее дисперсия) тесно связана с временными элементами непосредственной ситуации тестирования - шумами. отвлечениями, присутствием или отсутствием других людей и т. д. Такие элементы ситуации тестирования могут влиять на ответы испытуемых случайным образом и, таким образом, маскировать различия в истинных баллах респондентов. Однако при правильной подготовке можно создать две тестовые ситуации, которые будут сравнимы между собой. Если тщательно спланировать тестирование и проконтролировать внешние переменные, которые могут повлиять на тестовые баллы, можно быть уверенным в том, что две тестовые ситуации идентичны. Например, можно оба раза проводить тестирования в одном и том же помещении, примерно в одно и то же время дня и в одинаковых «межличностных» условиях (например, в большой группе, в маленькой группе, индивидуально). Сохраняя подобные элементы постоянными в обеих тестовых ситуациях, можно быть достаточно уверенным в том, что ошибка влияет на ответы испытуемых примерно в равной степени. Несколько сложнее обстоит дело с первым допущением - о том, что истинные баллы людей стабильны на протяжении временного промежутка между первым и вторым тестированиями. Несмотря на то что процедура ретеста помогает избежать проблемы содержательных различий, которая появляется при использовании параллельных форм, возникает другая сложность. Мы должны допустить, что истинные баллы испытуемых остаются стабильными в двух ситуациях тестирования, но вполне вероятно, что какие-то изменения могли произойти в уровне психологической характеристики у испытуемых (и, следовательно, в их истинных баллах). Есть, по меньшей мере, три фактора, которые влияют на нашу уверенность в допущении о стабильности. Во-первых, некоторые конструкты склонны быть менее стабильными, чем другие. Конструкты, которые отражают состояния, менее стабильны по сравнению с конструктами, отражающими более устойчивые характеристики, такие как личностные черты. Например, представим, что есть тест настроения, 123
измеряющий настроение человека в конкретный момент времени. Обычно предполагается, что настроение - это психологическая характеристика, которая различна в разные дни, часы или даже моменты. Из-за подобных колебаний, вероятно, не имеет смысла рассчитывать на то, что истинные баллы по опроснику настроения будут стабильны на протяжении сколько-нибудь длительного периода между первым и повторным тестированием. Кроме того, изменения в настроении склонны быть функцией различных факторов, влияющих на колебания настроения по-разному у разных людей. Например, в период между первым и повторным тестированием кто-то из испытуемых может испытать физический стресс, который ухудшит его настроение. Другой человек может, напротив, узнать, что он получил награду, что улучшит его настроение. В результате настроение человека во время первого тестирования может существенно отличаться от его настроения во время ретеста. То есть различия между истинными уровнями конструкта нестабильны в двух тестовых ситуациях. Для таких конструктов, характеризующих текущее состояние человека, ретестовый метод будет плохим способом оценки надежности. Заметьте, что при этом в каждый конкретный момент времени тест настроения может быть вполне надежным в смысле отражения тестовыми баллами разных людей различий между их истинными баллами. Однако ретестовый метод может дать очень низкие оценки надежности из-за того, что настроение людей изменилось от первого к повторному тестированию. С другой стороны, ретест может дать вполне адекватные оценки надежности инструмента, измеряющего психологические черты. Например, интеллект обычно считается достаточно стабильной психологической характеристикой. Существует солидная теоретическая база и множество эмпирических доказательств того, что интеллект остается более-менее стабильным начиная с подросткового возраста. В этом случае будет логично предположить, что истинные баллы по интеллекту не изменятся в промежуток времени между тестом и ретестом. Если это предположение верно, тогда различия в наблюдаемых баллах в двух тестированиях будут свидетельствовать об ошибке измерения, величина которой будет отражена в ретестовом коэффициенте надежности. Второй фактор, влияющий на нашу уверенность в выполнении допущения о стабильности, - это продолжительность периода между первым и повторным тестированием. Более продолжительные промежутки повышают вероятность психологических изменений. Истинные баллы изменятся с большей вероятностью по прошествии нескольких лет, чем нескольких недель или дней. Несмотря на то что существуют исследования, в которых ретесты проводились через несколько лет после первого тестирования, в таких анализах есть риск смешения изменений в истинных баллах и ошибки измерения. С другой стороны, на коротких интервалах времени велик риск эффекта переноса, о котором говорилось в разделе про оценку надежности с помошью параллельных форм. В большинстве случаев ретест для инструментов, измеряющих психологические черты, проводится через 2-8 недель после первого обследования. 124
Третий фактор, который может повлиять на нашу уверенность в выполнении допущения о стабильности, - это период, на который приходится промежуток между двумя тестированиями. Вполне возможно, что в определенные периоды жизни человека изменения происходят с большей вероятностью, чем в другие периоды. Например, изменения в познавательных способностях и знаниях с большей вероятностью происходят в школьные годы, чем на более поздних жизненных этапах. У детей такие конструкты, как навыки чтения, математические навыки и знания в некоторых областях, могут изменяться в результате школьного обучения, которое могло произойти в промежутке между тестом и ретестом. Прогресс в навыках и знаниях у некоторых детей бывает более существен, чем у других. Такого рода изменения - когда истинные баллы разных людей меняются в разной степени - нарушают важное допущение параллельности форм тестов (а также нарушают допущения других теоретических моделей, которые еще менее требовательны, чем модель параллельных форм). Следовательно, такие изменения не дают использовать корреляции между тестом и ретестом в качестве оценки надежности. Подводя итоги, можно сказать, что ретестовый подход к надежности в большой степени зависит от допущения о том, что истинные баллы остаются стабильными в период между первоначальным и повторным тестированием. По этой причине коэффициент корреляции между тестом и ретестом иногда называют коэффициентом стабильности. Если истинные баллы устойчивы в течение промежутка времени между тестом и ретестом (или, по крайней мере, различия между истинными баллами испытуемых остаются стабильными), тогда корреляция между первым и повторным тестированием отражает лишь одну вещь - насколько ошибка измерения влияет на наблюдаемые баллы. Чем ниже корреляция между первым и повторным тестированием, тем больше эффект ошибки измерения и тем ниже надежность теста. Сложность состоит в том, что в действительности никогда неизвестно, насколько стабильны истинные баллы. Поэтому если истинные баллы меняются в промежутке между тестом и ретестом, тогда корреляция между ними отражает два независимых фактора: насколько ошибка измерения влияет на наблюдаемые баллы и величину изменения истинных баллов. При использовании простого корреляционного подхода трудно разделить эти два фактора. В этом случае «несовершенная» корреляция между наблюдаемыми баллами (ниже 1.0) указывает на совместный эффект ошибки измерения и нестабильности истинных баллов. Действительно, теоретически возможно (хотя вряд ли так бывает на деле), что тест идеально надежен, но дает низкие корреляции с ретестом. Такое может произойти, если истинные баллы нестабильны на промежутке времени между первоначальным и повторным тестированием. Очевидно, что в этом случае корреляция между тестом и ретестом не будет хорошей оценкой надежности теста. Основная мысль, которую следует запомнить: корреляции между тестом и ретестом надо интерпретировать осторожно, с оглядкой на возможную стабильность самого измеряемого конструкта. Несмотря на то что оценка надежности с помощью параллельных форм и ретеста имеет серьезную теоретическую проработку, эти методы страдают от 125
ряда практических трудностей. Например, они требуют, чтобы одни и те же люди как минимум дважды прошли тестирование, что может быть дорого, затратно по времени, сложно или даже невозможно. Кроме того, как уже было отмечено, должны быть выполнены несколько допущений для того, чтобы коэффициенты корреляции, полученные с помощью этих процедур, могли считаться хорошими показателями надежности. К сожалению, в некоторых или даже во многих случаях эти допущения не выполняются, поэтому параллельные формы и ретест могут быть использованы в достаточно ограниченном числе случаев. Надежность как внутренняя согласованность Третий подход к оценке надежности - через внутреннюю согласованность - предлагает хорошую альтернативу процедурам с использованием параллельных форм и ретеста. Подход со стороны внутренней согласованности имеет несколько практических преимуществ: он требует от испытуемых проходить всего один тест за один раз, он не требует разработки более одной формы теста и не требует заполнять тест более одного раза. Если тест содержит несколько пунктов и если общий балл по тесту рассчитывается из ответов на эти пункты, общий балл по тесту называется составным. Как вы уже успели убедиться, большинство тестов относятся к этому типу и большинство тестовых баллов являются составными. Подход со стороны внутренней согласованности позволяет оценить надежность таких тестов, состоящих из множества пунктов. Основная идея, стоящая за подходом, основанным на внутренней согласованности, - в том, что различные «части» теста (пункты или группы пунктов) могут рассматриваться как различные формы теста. Во многих областях наук о поведении оценка внутренней согласованности - это наиболее широко используемый способ оценки надежности. В этом разделе будет рассмотрено несколько способов оценки внутренней согласованности. Со стороны внутренней согласованности существует два фундаментальных фактора, влияющих на надежность тестовых баллов. Первый - это согласованность между частями теста. Как будет показано, если части теста тесно связаны друг с другом, тогда весьма вероятно, что тест надежен. То есть если наблюдаемые различия по одной части теста (например, пункту) согласованы с наблюдаемыми различиями по другим частям (например, другим пунктам), тогда мы склонны заключить, что наблюдаемые баллы по тесту в целом согласованы с истинными баллами. Второй фактор, который влияет на надежность, - это длина теста: длинный тест скорее будет надежным, чем короткий тест. Как станет понятно, причиной этого является природа ошибки измерения и ее связь с надежностью. Ниже обсуждаются три хорошо известных подхода к оценке внутренней согласованности - расщепление пополам, «сырая альфа» и «стандартизованная альфа». 126
Оценка надежности расщеплением пополам Если бы пункты теста можно было, разделить на два параллельных субтеста равного размера, тогда можно было бы рассчитать составной балл для каждого субтеста и корреляцию между двумя составными баллами. В результате было бы создано два. параллельных теста из пунктов одного теста. Баллы по субтестам можно использовать для оценки надежности всего теста; такой способ оценки надежности называют расщеплением пополам. Посмотрите на небольшой набор данных в табл. 6.2, показывающий гипотетические ответы четырех людей на тест из четырех пунктов. Несмотря на то что эти данные не удовлетворяют всем релевантным допущениям (которые обсудим позднее), они дают интуитивно понятный пример логики и процесса использования метода расщепления пополам для оценки надежности. Эта процедура может быть разделена на 3 этапа. Таблица 6.2 Пример оценки внутренней согласованности расщеплением пополам Расщепление 1 Расщепление 2 Люди Пункты Общий балл Нечетный субтест Четный субтест Субтесты 1 и 4 Субтесты 2 иЗ 1 2 3 4 1 4 4 5 4 17 9 8 8 9 2 5 2 4 2 13 9 4 7 6 3 5 4 2 2 13 7 6 7 6 4 2 3 1 2 8 3 5 4 4 Среднее Дисперсия 4 1.5 3,25 0,6875 3 2.5 2.5 0.75 12.75 10,1875 7 6 5,75 2,1875 6,5 2,25 6,25 3,1875 На первом этапе рассчитывают баллы для двух субтестов. Например, можно создать один субтест, суммируя нечетные пункты, а второй - суммируя четные. Баллы для субтестов представлены в табл. 6.2, в столбце «Расщепление 1». На втором шаге рассчитываем корреляцию между двумя субтестами. Мы надеемся, что баллы респондентов по «нечетной» части согласованы с их баллами по «четной» части. По нашим данным корреляция между половинками равняется гЛЛ = 0,28 (будем называть ее «корреляция расщепления», rW(). Корреляция расщепления отражает степень, в которой две части теста согласованы между собой. На третьем этапе подставляем корреляцию расщепления в специальную формулу для расчета надежности. Многие формулы для расчета внутренней согласованности были предложены Чарльзом , Спирменом (отцом теории надежности истинных баллов) и Уильямом Брауном. В литературе формулы 127
встречаются под разными названиями - формула расщепления Спирмена - Брауна, формула предсказания Спирмена - Брауна, формула Спирмена - Брауна - и записываются в разной форме. Наиболее часто используемая формула для оценки надежности методом расщепления - это: <61> В нашем примере подставляем корреляцию расщепления в уравнение и получаем оценку надежности, равную /?.„= 0,44: /? д л - = 1 + 0,28 0,56 1,28 0,44 Подумайте немного о том, почему нельзя просто использовать корреляцию расщепления в качестве оценки надежности, ведь в подходах, основанных на использовании параллельных форм и ретеста, корреляция сама по себе (между двумя формами или между двумя тестированиями) используется в качестве оценки надежности. Однако при расщеплении пополам необходимо подставить корреляцию расщепления в специальную формулу для того, чтобы получить оценку надежности. Разница между этими подходами состоит в том, что корреляция расщепления показывает надежность лишь одной «половины» нашего теста. Вспомните,' что оценка надежности с помощью параллельных форм и ретеста требует двукратного прохождения теста - респонденты либо заполняют две формы полного теста, либо выполняют один и тот же тест дважды. Таким образом, при использовании параллельных форм или ретеста применяются корреляции между двумя версиями полного теста. А корреляция расщепления - это корреляция между двумя половинами теста. Уравнение 6.1, приведенное выше, придумано для того, чтобы от корреляции между двумя половинами теста «перейти» к надежности целого теста. Поскольку данный коэффициент надежности выводится из теста самого по себе, то оценку надежности расщепления называют оценкой внутренней согласованности. Исходное предположение состоит в том, что если пункты теста сходны друг с другом, тогда разбиение теста на две части должным образом (обычно используется процедура, которая дает случайное разбиение пунктов на группы) даст два параллельных «субтеста». Повторимся, что, к сожалению, адекватность процедуры расщепления базируется на допущении о том, что две половины являются параллельными тестами. То есть половины должны иметь одинаковые истинные баллы и 128
дисперсию ошибки. Как уже говорилось, если все положения классической теории тестов и параллельности тестов выполняются, тогда две половины должны иметь равные средние и равные «дисперсии ошибки. Заметьте, что четная и нечетная части, на которые был разделен тест в табл. 6.2, не удовлетворяет условиям параллельности тестов (две части теста явно имеют различные средние и стандартные отклонения). Поскольку эти две половины не являются параллельными формами теста, то коэффициент, который был рассчитан (/?«= 0.44), является неточной оценкой надежности. На самом деле можно разделить данные в табл. 6.2 и другим образом и получить совершенно иные показатели надежности. Например, можно было разделить тест на две части, из которых первая включала бы пункты 1 и 4, а вторая - пункты 2 и 3. Данные по этим двум частям представлены в табл. 6.2, в столбце «Расщепление 2». Рассчитывая корреляцию между этими двумя половинами, получим гораздо большую величину (гЛЛ = 0,89), чем для четной и нечетной частей. Подставив это значение в уравнение 6.1, получаем следующее: _ 2(0,89) Л — ” 1 + 0,89 = 0.94 Очевидно, что если половины теста не удовлетворяют критерию «параллельности», то оценки надежности могут существенно отличаться в зависимости от способа формирования половинок. В нашем примере при одном «расщеплении» получилась очень низкая оценка надежности теста (7?хч= 0,44), однако другое расщепление дало очень высокую оценку надежности (/?ДЛ= 0,94). Эта проблема стоит еще более остро для длинных тестов, которые могут быть разбиты на половины множеством способов, каждый из которых может гипотетически давать разные оценки надежности. Более того, не существует способа разбиения теста, который бы давал наиболее точную оценку надежности. По этой причине расщепление пополам редко используется в современной психометрике. Дополнительная проблема с мерами надежности как внутренней согласованности, такими как расщепление пополам, связана с различием между тестами скорости и тестами возможностей, которое обсуждалось в главе 1. Вспомните, что тесты возможностей включают множество вопросов разного уровня сложности. В большинстве случаев у людей, проходящих тест, есть достаточно времени, чтобы попытаться ответить на каждый вопрос теста. В результате каждый респондент получает тестовый балл, отражающий количество верных ответов, которые он дал. Большинство тестов с множественным выбором ответа, которые приходится выполнять школьникам и студентам, относится именно к этому типу. Напротив, тесты скорости, как правило, состоят из серии заданий одинаковой сложности. Испытуемым дают ограниченное время и ставят задачу ответить на максимально возможное 129
количество вопросов. Обычно предполагается, что все полученные ответы будут верными. Балл по тесту скорости будет отражать количество заданий, с которыми респондент справился в отведенное время. Если разделить тест скорости на две половины и рассчитать количество верных ответов для каждой половины, то надежность теста окажется близка к идеальной. В этом случае надежность теста будет отражать надежность скорости ответа испытуемого. То есть нет оснований предполагать, что скорость ответа испытуемого на -любой вопрос должна отличаться от скорости правильного ответа на любой другой вопрос. В целях иллюстрации представьте, что человек выполняет тест скорости и в отведенное время отвечает верно на 10 вопросов. Если бы вам надо было разбить тест на две половины таким образом, чтобы любой из пунктов теста с равной вероятностью мог оказаться в любой из половин, тогда в каждой половине оказалось бы по 5 правильных ответов на воросы. Поскольку все пункты обладают одинаковой сложностью, то время, потраченное на 5 вопросов из первой части, будет примерно равняться времени, затраченному на 5 вопросов из второй. Так как надежность, рассчитанная методом расщепления пополам, для тестов скорости всегда близка к 1, то для того, чтобы оценить их истинную надежность, обычно используют другие меры - например, параллельные формы теста. Даже несмотря на то, что процедура расщепления пополам не используется очень широко, считается, что студенты, изучающие психометрику, должны быть с ней знакомы. Эта процедура важна исторически, поэтому весьма вероятно, что вы услышите, что люди ее упоминают. Кроме того, она создает базу для обсуждения подхода, который используется гораздо чаще. Несмотря на то что исследователи все еще иногда используют расщепление пополам (см., например. Wechsler, 2003а, 2003b), для оценки надежности были разработаны и другие методы. Как будет показано, другие методы имеют как минимум два преимущества перед расщеплением пополам. Во-первых, они используют больше информации о тесте, чем процедура расщепления, а во-вторых, они требуют меньше допущений относительно статистических свойств пунктов. «Сырой» коэффициент альфа Метод расщепления пополам основан на предположениях о том, что две половинки внутри теста представляют собой параллельные субтесты и что надежность целого теста основана на связи между двумя субтестами. Подходы «на уровне пунктов» также используют логику внутренней согласованности, но делают шаг вперед, предполагая, что каждый пункт является субтестом. Следовательно, связь между пунктами может быть использована в качестве оценки надежности целого теста. Для оценки надежности на уровне пунктов может быть использован целый ряд различных подходов. Эти подходы отличаются друг от друга по применимости к различным форматам ответов (например, бинарные и небинарные пункты), по применимости к данным, отвечающим или не отвечающим различным требованиям (например, требованию параллельности 130
тестов или более щадящему набору предположений) и по использованию различных типов информации (например, дисперсии пунктов, межпунктовой ковариации или межпунктовой корреляции). • Все подходы к надежности как согласованности на уровне пунктов могут быть рассмотрены как двухступенчатые процессы. На первом шаге рассчитываются статистики для пунктов и/или статистики для теста. Как уже было отмечено, различные подходы опираются на различную информацию. Некоторые методы основаны преимущественно на связях между пунктами, другие используют и информацию об отдельных пунктах, и информацию о баллах по всему тесту. На втором этапе статистики, касающиеся пунктов и/или теста, подставляются в специальные уравнения для расчета надежности целого теста. Начнем с «сырого» коэффициента альфа (его также часто называют альфой Кронбаха), который наиболее широко используется для оценки надежности. Первый этап расчета альфы - получение набора статистик для отдельных пунктов. Сначала рассчитываеися дисперсия баллов по всему тесту (sv“). Как показано в табл. 6.2, х/ = 10,18. Затем вычисляются ковариации между всеми парами пунктов (вспомните, что ковариация отражает степень связи между двумя переменными). Возвращаясь к данным в табл. 6.2, получаем следующую матрицу ковариаций между 4 пунктами: Таблица 6.2 Пример внутренней согласованности методов оценки надежности Пункт 1 Пункт 2 Пункт 3 Пункт 4 Пункт 1 0,00 1,00 0,00 Пункт 2 0,00 0,00 0,38 Пункт 3 1,00 0,00 1,00 Пункт 4 0,00 0,38 1,00 Если присмотреться к этим ковариациям, то можно увидеть гипотетическую угрозу внутренней согласованности теста - несколько ковариаций равняются нулю. Например, баллы за пункт 1 не связаны с баллами за пункт 2, что свидетельствует о несогласованности. То есть различия между испытуемыми в ответах на пункт 1 не согласованы с различиями между их ответами на пункт 2. Если бы эти два пункта хорошо измеряли один и тот же конструкт, тогда между ними существовала бы положительная ковариация. Значит, либо пункты не измеряют один и тот же конструкт, либо по меньшей мере на один из них сильно влияет ошибка измерения (например, пункт 1 сформулирован очень двусмысленно, и это приводит к тому, что люди дают ответы, которые оказываются не связанными с их истинными баллами). Исследователь надеется показать, что внутри теста, который предположительно измеряет единственный конструкт, все пункты имеют положительные 131
ковариации друг с другом, то есть в какой-то степени коррелируют между собой. Данные в табл. 6.2 несколько разочаровывают, показывая, что у этого теста из 4 пунктов есть определенные проблемы. После того как ковариации между всеми парами пунктов (все «попарные» ковариации) рассчитаны, их складывают. Сумела межпунктовых ковариаций отражает степень, в которой ответы на все пункты в целом согласованы друг с другом. При прочих равных, чем больше сумма ковариаций, тем выше согласованность пунктов между собой. Сумму этих ковариаций можно обозначить знаком , который показывает, что это сумма (отсюда сигма) ковариаций для любого пункта (обозначается /) и любого другого пункта (обозначено У')- На втором шаге надо рассчитать оценку надежности, подставив дисперсию баллов по всему тесту й сумму ковариаций в следующее уравнение: а - оценка _ Ra (6.2), где k - количество пунктов в тесте. Например, для наших данных: а — оценка _ 4 V 4.75 А 4-1 Д10.1875 / а - оценка_ /?та= (1.333)(.4663), а — оценка _ Rxx = 0,62. Таким образом, получаем, что для теста из 4 пунктов из табл. 6.2 оценка надежности равняется 0,62. Несмотря на то что надежность 0,62 не очень низкая, все же она ниже, чем нам хотелось бы. В следующей главе будет показано, каким образом информация о надежности может быть использована в разработке и доработке психологических измерительных инструментов. Многие статистические программы рассчитывают надежность, используя сырую альфу. Например, процедура «Анализ надежности» в SPSS четко называет это значение «альфа Кронбаха». Аналогично, в статистическом пакете SAS это значение называется «Коэффициент альфа Кронбаха для сырых переменных». В других руководствах по надежности, вы можете столкнуться с другой формой уравнения для расчета альфы: а = оценка (6.3) 132
Уравнение 6.3 дает ту же самую альфу, что и уравнение 6.2. Представим его таким образом, чтобы в будущем (надеемся) можно было избежать путаницы, которая может возникнуть из-за несколько различной формы записи. В уравнении 6.3 используются дисперсия общих баллов 4$/) и дисперсия пунктов (значения s;2) вместо межпунктовых ковариаций. Обратите внимание на то, что сумма дисперсий пунктов из табл. 6.2 равняется: V 7 2 2 2 ? / — 5’l + + Л’3 + <S’4 , S7- = 1.50 + 0.6875 + 2.50 + 0.75, ^s2 =5.4375. Подставляя это значение в уравнение 6.3, мы получаем то же значение альфы, которое получили ранее: а — оценка _ Rxx ( 4 V --- 1 14-1Д 5.4375 10.1875 / а = оценка _ Rxx = (1,333)(1-0,5337), а - оценка _RXX= (1,333)(0.4663), а = оценка _ R^ = 0,62. Повторим, уравнения 6.2 и 6.3 дают одно и то же значение альфы, они отличаются только необходимой входной информацией (дисперсия пунктов или межпунктовые ковариации). «Стандартизованный» коэффициент альфа Другой метод оценки надежности часто называют обобщенной формулой Спирмена — Брауна или стандартизованной оценкой альфы. Мы рассказываем об этом методе по трем основным причинам. Во-первых, он дает другие оценки надежности, чем метод сырой альфы (уравнения 6.2 и 6.3), хотя нередко оценки, получаемые этими методами, оказываются достаточно близкими. Практические различия между этими оценками происходят из-за того, что между этими двумя методами существуют небольшие теоретические расхождения. А именно: стандартизованная альфа дает оценку надежности теста, в котором перед сложением для получения общего балла по тесту все пункты стандартизуются (то есть переводятся в метрику со средним, равным нулю, и стандартным отклонением, равным 1). Напротив, метод сырой альфы, представленный выше, дает оценку надежности теста, в котором никаких трансформаций с пунктами не производилось. 133
Вторая причина для включения метода стандартизованной альфы в обсуждение, - его популярность и присутствие в большинстве статистических пакетов наряду с сырой альфой. Например, в SPSS процедура «Анализ надежности» называет это значение «Альфа Кронбаха по стандартизованным пунктам». Аналогично, в пакете SAS это значение называется «Коэффициент альфа Кронбаха для стандартизованных переменных». Ввиду популярности этих статистических пакетов мы считаем необходимым сообщить читателям-о том, чем отличаются эти два подхода. Третья причина, по которой обсуждается этот метод, состоит в том, что с определенной точки зрения он является наиболее прямым подходом к оценке надежности. Например, Нунналли и Бернштейн (Nunnally, Bernstein, 1994) отмечают, что «вряд ли возможно переоценить важность этого подхода для теории ошибки измерения» (с. 232). Вероятно, отчасти такой высокой оценкой данный подход обязан своей очевидной простоте. Данный подход представляет надежность в терминах, которые в определенном смысле являются наиболее фундаментальными и интуитивно понятными. Как было показано выше, для расчета сырой альфы используются ковариации или дисперсии, которые для многих людей не являются интуитивно понятными. Напротив, стандартизованная альфа использует в своем расчете только корреляции, которые для большинства, вероятно, более знакомы и понятны. Таким образом, обсуждение этого метода может помочь осветить важные моменты в понимании надежности и факторов, которые на нее влияют. К этому вопросу мы вернемся чуть позже в данной главе. Пара пунктов Корреляция 1 и2 t\, = 0,00 1 иЗ г13=0,52 1 и 4 г14 = 0,00 2 и 3 г23 = 0,00 2и4 г24=0,52 3 и4 г34 = 0,73 На первом этапе для расчета стандартизованной альфы необходимо получить набор статистик, касающихся пунктов теста. Для начала рассчитываем межпунктовые корреляции. Как и в первом уравнении для сырой альфы (уравнение 6.2), эти значения отражают степень, в которой различия между ответами испытуемых согласованы друг с другом. Возвращаясь к табл. 6.2, рассчитываем 6 коэффициентов корреляции: 134
После того как рассчитаны корреляции между всеми парами пунктов (то есть все «попарные» корреляции), вычисляется среднее значение корреляций. Эта средняя межпунктовая корреляция отражает степень, в которой ответы на все пункты в целом согласованы друг с другом. Например, среднее шести корреляций равняется 0,295, что указывает на то, что в среднем пункты умеренно связаны друг с другом. Эта корреляция иногда обозначается как rv , что указывает на то, что это среднее (значок «-» над г) корреляций между каким-то пунктом (обозначается z) и любым другим пунктом (обозначается как о. На втором этапе для расчета оценки надежности средняя межпунктовая корреляция подставляется в следующее уравнение, которое представляет формулу Спирмена - Брауна в обобщенном виде: 1+СЛ-1Х.. где к - количество пунктов в тесте. Например, для наших данных: 4(0,295) 1 + (4 -1)(0,295) 1,180 1,885 Rxx = 0-63 Таким образом, получается, что если стандартизировать пункты, то надежность теста из табл. 6.2 равняется 0,63. Эта оценка лишь незначительно отличается от оценки сырой альфы, которая была получена выше (а=0,62). В действительности процедуры вычисления стандартизованной и сырой альфы часто дают сходные (хотя и не идентичные) оценки. Сырая альфа для бинарных пунктов: KR2o Многие психологические инструменты используют бинарные пункты. Например, Миннесотский многофакторный личностный опросник-2 (MMPI-2), наиболее широко используемый инструмент для оценки психопатологии, состоит из 567 пунктов, оценивающих большой спектр психопатологических характеристик. На каждый из 567 пунктов испытуемый может дать только один из двух ответов («да» или «нет»), поэтому такие пункты называют бинарными. Так же и многие тесты с множественным выбором ответа обсчитываются бинарно - ответы на тест считаются либо верными, либо неверными. Несмотря на то что уравнение для расчета сырой альфы может использоваться для оценки надежности теста, состоящего из бинарных пунктов, вы также можете 135
столкнуться с более специализированной формулой для бинарных ответов - формулой Кьюдера - Ричардсона 20 (JCJRitb- Алгебраически KR^o идентична уравнению 6.3 для сырого коэффициента альфа, однако она записана таким образом, что отражает специфические характеристики бинарных пунктов. Т аблица 6.3 Пример расчета надежности для бинарных пунктов Пункт Человек 1 2 3 4 Общий балл 1 1 1 1 1 4 2 1 0 1 0 2 3 1 1 0 0 2 4 0 1 0 0 1 Сумма 3 3 2 1 9 Среднее 0,75 0,75 0,5 0,25 2.25 Дисперсия 0,1875 0,1875 0,25 0,1875 1,1875 Р 0,75 0,75 0,5 0,25 Q 0,25 0,25 0.5 0,75 PQ 0,1875 0,1875 0,25 0,1875 Как и вычисление сырой альфы, процедура для бинарных пунктов двухступенчатая. В качестве примера будем использовать гипотетические данные из табл. 6.3, в которой представлены ответы четырех людей на тест, состоящий из четырех бинарных пунктов. Первый шаг двухступенчатого процесса — расчет набора статистик, относящихся к отдельным пунктам и к целому тесту. Для каждого из пунктов рассчитываются доли каждого из двух возможных ответов. Например, для школьного теста с множественным выбором вычисляется доля учеников, ответивших на каждый пункт верно (для каждого пункта назовем эту долю р), и доля испытуемых, ответивших на каждый пункт неверно (назовем ее q). Для данных в табл. 6.3 видно, что 75% выборки ответили на вопрос правильно (р = 0,75), что, разумеется, означает, что 25% выборки ответили на вопрос неправильно (q = 0,25). Затем подсчитываем дисперсию для каждого пункта, которая равняется sf = pq, как было показано в главе 3. В табл. 6.3 представлены эти значения. Кроме того, рассчитываем общую дисперсию баллов по тесту (з2 = 1,1875 для данных из табл. 6.3), где общий балл равен сумме всех ответов на пункты. На втором шаге для расчета оценки надежности подставляем общую дисперсию и сумму дисперсий отдельных пунктов в следующее уравнение KR^,. 136
Vp-W. U-iJl ) Для данных из табл. 6.3 сумма дисперсий пунктов равняется: pq = о, 1875 +0.1875 +0.25 +0,1875 = 0.8125. Подставляя эти значения в уравнение 6.5, получаем: (6.5) D ( 4 V, 0.8125) = ----- 1----------- <4-1Д 1-1875 J /?^Л = (1,333) (0,316), Av = 0,42. Если сравнить вторую формулу для сырой альфы (уравнение 6.3) с KR20, то видно, что они отличаются только тем, как выражается дисперсия. Точность и использование оценки надежности как внутренней согласованности: теория и реальность В нашем обсуждении коэффициента а мы не останавливались на различных теоретических предположениях. Как говорилось применительно к оценке надежности с помощью альтернативных форм, ретеста и расщепления пополам, оценки надежности верны только в том случае, если выполняются определенные допущения. В этом кратком разделе рассмотрим эти вопросы в отношении альфы, но начнем с зарисовки реальности измерения в «ежедневной» практике и исследованиях. .Несмотря на огромную важность допущений, лежащих в основе оценки надежности, большинство пользователей тестов склонны полностью игнорировать эти вопросы. Большинство исследователей, использующих показатели надежности, рассчитывают их и указывают значения альфа, вероятно, вообще не подозревая о необходимости выполнения каких бы то ни было допущений. Стандартный «выбор» альфы в качестве оценки надежности, по всей видимости, обязан двум сугубо практическим обстоятельствам. Во- первых, как уже упоминалось, большинство популярных статистических пакетов используют коэффициент альфа по умолчанию в любом анализе надежности. То есть получить значение альфы для набора данных легко. Во- вторых, как упоминалось, вычисление альфы требует относительно небольших усилий по сравнению с другими методами оценки надежности. Нет необходимости создавать несколько форм теста, как того потребовал бы анализ надежности с помощью альтернативных форм. Кроме того, нет необходимости просить испытуемых проходить тест более одного раза, как того потребовал бы ретестовый метод. И, наконец, нет необходимости волноваться о том, как расщепить тест пополам, как потребовал бы метод расщепления пополам. Таким 137
образом, альфа использует данные, которые относительно легко получить и использовать. Несмотря на то что многие пользователи тестов выбирают альфу в качестве оценки надежности, не особенно (если вообще) задумываясь о том, какие допущения должны выполняться для того, чтобы ее использование стало возможным, в большинстве случаев этот выбор является вполне оправданным. Все оттого, что допущения, лежащие в основе использования альфы, достаточно либеральны (то есть менее строги и, следовательно, достаточно легко выполнимы) по сравнению с допущениями, которых требуют другие методы. Попытаемся, не особенно углубляясь в технические подробности, разобраться, какие положения должны выполняться для использования альфы. Альфа будет надежным показателем надежности теста, если пункты обладают свойством существенной тау-эквивалентности (Feldt, Brennan, 1989). Понятие тау- эквивалентности пунктов отличается от понятия «параллельности» пунктов друг другу. В основе существенной тау-эквивалентности лежат более либеральные допущения, чем те, что лежат в основе параллельных тестов - то есть не требуется равенства дисперсии ошибки. По этой причине значения альфы гораздо чаще будут оказываться точными, чем значения, полученные, например, с помощью расщепления пополам. В том редком случае, когда пункты окажутся отвечающими строгим требованиям параллельности, значения сырой альфы, KR20 и оценки, полученной расщеплением пополам, будут идентичными и точными оценками надежности. Если пункты являются существенно тау-эквивалентными, но не параллельными, KR20 и альфа дадут точные оценки надежности, а расщепление пополам - нет. Если пункты не обладают ни тау-эквивалентностью, ни параллельностью, то KR20 и альфа дадут заниженные оценки надежности (Feldt, Brennan, 1989; Osburn, 2000). Поэтому часто говорят, что KR20 и коэффициент а дают величину надежности тестовых баллов по нижней границе. В целом KR20 и коэффициент а дают более низкие по сравнению с реальными оценки надежности тестовых баллов (доказательство этого утверждения см. в Crocker, Algina, 1986, рр. 120-122). Несмотря на то что часто говорят о занижении реальных показателей надежности методами расчета альфы, необходимо признать, что все методы оценки надежности как внутренней согласованности могут до известной степени завышать показатели надежности. Поскольку методы оценки внутренней согласованности используют ответы только по одной ситуации измерения, они не учитывают ошибку измерения, которая может не присутствовать при единичном измерении. Как отмечают Фельт и Бреннан (Feldt, Brennan, 1989): «Если наблюдения поведения собираются в течение часа или менее, определенные источники ошибки могут «бездействовать». Их эффекты искажают истинные различия между людьми, но не отражаются дисперсией ошибки теста» (с. 110). То есть определенные источники ошибки (например, усталость) могут стать очевидны только, если испытуемые тестируются неоднократно. Таким образом, подход, основанный на оценке внутренней 138
согласованности, может давать заниженные оценки дисперсии ошиоки и, следовательно, завышенные показатели надежности. Подведем итог: существует множество методов оценки надежности тестовых баллов. Методы, которые обсуждались в данной главе, относятся к наиболее популярным (более подробное обсуждение можно найти в Feldt, Brennan, 1989; Osburn, 2000). Точность оценки надежности каждым из методов полагается на набор предположений, некоторые из которых выполнимы легче, чем другие. На практике большинство пользователей тестов для оценки надежности используют методы анализа внутренней согласованности. А именно: они полагаются на коэффициент а, чаше всего на сырую альфу, о которой рассказывалось выше. Этот выбор, по крайней мере, в какой-то степени определяется соображениями удобства и практическими преимуществами расчета альфы. Однако этот выбор можно в большинстве случаев считать оправданным, поскольку расчет альфы требует выполнения менее строгих допущений, чем многие другие методы, и по сравнению с другими методами он дает достаточно точные оценки (Osburn, 2000). Внутренняя согласованность и измерения теста Некоторые пользователи тестов могут подумать, что высокие показатели внутренней согласованности теста являются указанием на то, что тест измеряет одну черту (то есть что это одномерный или концептуально однородный тест). Однако подобная интерпретация может быть неверна. Важно не смешивать идею внутренней согласованности пунктов теста и идею о том, что пункты теста представляют одно измерение или концептуально однородны. Каждый пункт концептуально однородного теста отражает единственную психологическую черту или измерение. Такие меры внутренней согласованности, как альфа, должны с осторожностью рассматриваться в качестве измерений концептуальной однородности пунктов теста (Cortina, 1993; Netemeyer, Bearden, Shanna, 2003). Дело в том, что оценки надежности как внутренней согласованности могут быть высоки (например, а = 0.75), даже если тест многомерный или концептуально неоднородный. Составной тест может включать два набора пунктов, таких, что: а) пункты внутри каждого набора высоко коррелируют друг с другом, б) пункты из разных наборов слабо коррелируют друг с другом. В этом случае тест многомерный — низкая корреляция между двумя наборами пунктов указывает на то, что наборы измеряют различные психологические характеристики (Schmitt. 1996). Несмотря на то что МакДоналд (McDonald, 1999) утверждает, что это различение более важно в теории, чем на практике, все-таки рассмотрение мер надежности как внутренней согласованности (например, альфы) в качестве мер концептуальной однородности или измерений теста нехорошо. Такие статистические процедуры, как факторный анализ, являются более адекватными для оценки измерений или концептуальной однородности пунктов теста. 139
Факторы, влияющие на надежность тестовых баллов Как было отмечено выше, подход со стороны внутренней согласованности оттеняет два фундаментальных фактора, которые влияют на надежность тестовых баллов. В этом разделе будет рассмотрен смысл этих факторов и приведены иллюстрации их влияния на надежность. Первый фактор, влияющий на внутреннюю согласованность, - это согласованность между частями теста. Как уже указывалось, согласованность между частями теста имеет прямое влияние на оценки надежности. При прочих равных, тест с большей внутренней согласованностью - измеренной корреляцией между половинами теста, межпунктовой ковариацией или средней межпунктовой корреляцией - будет обладать большей надежностью. Давайте еще раз обратимся к нашему примеру теста из 4 пунктов, представленному в табл. 6.2. Для этих данных средняя межпунктовая корреляция равняется гп, = 0,29, а стандартизованная альфа - 0,63. „ 4(0,29) Л = ---------------- “ 1+(4-1)(0,29) /?„ = 0,63 Средняя межпунктовая корреляция, равная 0,29, является небольшой или умеренной и указывает нам на то, что четыре пункта в целом положительно связаны друг с другом. То есть она говорит нам, что, по крайней мере, пункты более-менее согласованы друг с другом - если испытуемый дает относительно высокий ответ (например, 4 или 5) на один пункт, тогда с большой вероятностью он также дает высокий ответ и на другие пункты. Высокий уровень согласованности между пунктами интерпретируется как указание на высокий уровень согласованности между наблюдаемыми тестовыми баллами и истинными тестовыми баллами. Несмотря на то что исследователи должны быть довольны уже тем, что межпунктовые корреляции положительные, тест может быть улучшен, если это значение повысится. Надежность, равная 0,63, находится на нижней границе того, что считается приемлемым, поэтому разработчик может захотеть усовершенствовать тест. Например, некоторые пункты можно переписать, чтобы сделать их более понятными, или заменить целиком один или два пункта - удалить их из теста и заменить их пунктами, более релевантными измеряемому конструкту. Представьте, что применялось одно из этих решений, что сохранило прежнюю длину теста (4 пункта). Затем были собраны данные для 140
переработанной версии теста от новых испытуемых, пересчитали средние межпунктовые корреляции. Давайте представим, что средняя межпунктовая корреляция для переработанного теста стала выше и равняется, скажем, = 0,40. что указывает на более высокую внутреннюю согласованность переработанного теста. Пункты более согласованы друг с другом, и это говорит в пользу того, что все вместе они лучше отражают измеряемый конструкт. Рассчитав стандартизованную альфу в качестве оценки надежности переработанного теста, мы получаем значение 0,73: 4(0,40) 1 + (4 -1)(0,40) 1,60 2,20 /?хт = 0,73 Выходит, что переработанный тест позволяет получать более надежные баллы, чем исходный. Если бы средняя межпунктовая корреляция по исправленному тесту оказалась выше ги, = 0.40, показатели надежности были бы еще выше. Подводя итог, можно сказать, что тесты, в которых части (будь то пункты или половины) высоко согласованы друг с другом, являются более надежными по сравнению с тестами, части которых не столь хорошо согласованы друг с другом. Иными словами, более высокая внутренняя согласованность дает большую надежность. Второй фактор, который влияет на надежность, - длина теста. При прочих равных длинный тест надежнее короткого. Этот эффект своим появлением обязан природе истинных баллов и ошибки измерения, а также их связи с надежностью. С увеличением длины теста дисперсия истинных баллов растет быстрее, чем дисперсия баллов ошибки. Чтобы понять, почему это происходит, вспомните, что согласно классической теории тестов, надежность может рассматриваться как отношение дисперсий истинных баллов и наблюдаемых баллов. Кроме того, вспомните, что дисперсия наблюдаемых баллов определяется дисперсией истинных баллов и дисперсией ошибки: S<> = S'+Se 141
Таким образом, надежность можно рассматривать как: То есть то, что повышает дисперсию истинных баллов сильнее, чем дисперсию ошибки, будет повышать надежность. Если удлинение теста происходит с помощью добавления новых «частей», которые являются параллельными тестами оцениваемого конструкта, получается как раз такой эффект - добавление пунктов увеличивает дисперсию- истинных баллов в большей степени, чем дисперсию наблюдаемых баллов и, следовательно, повышает надежность теста. Давайте покажем, почему это верно. Представьте, что проверка начинается с теста, состоящего из одной части. Дисперсия истинных баллов для этой части равняется . Если увеличить длину теста вдвое, добавив еще одну часть (такой же длины, как и первая) с дисперсией истинных баллов, равной хД, то дисперсия истинных баллов удвоенного теста (s~_Yi)riKu) будет равняться: si= sa + so. + 2/;i,2^i5,2- Однако если части являются параллельными тестами, то rlll2 = 1, sti = sl2 (согласно допущениям о параллельных тестах). Поскольку дисперсия истинных баллов одной части в точности равняется дисперсии истинных баллов второй части, мы можем просто использовать Л',2 п. для обозначения дисперсии истинных баллов «одной части». Следовательно, х^ = xf = часть, и формула сокращается до: 4- 2s2 t-удвоен ** t-одна _частъ t—одна часть Суммируя слагаемые в правой части, получаем: s~ ~ 4s t-уовоен t-оона _часть Таким образом, при удлинении теста вдвое, дисперсия истинных баллов увеличивается вчетверо. Вы можете легко подтвердить этот кажущийся противоестественным результат, используя программное обеспечение вроде Excel: а) создав набор чисел (представляющих истинные баллы по одной части теста); б) рассчитав 142
дисперсию этого набора (вы получите sf_№)lul чжть - дисперсию истинных баллов для одной части теста); в) добавив к первому набору его точную копию, «удвоив» таким образом этот набор (представляющий истинные баллы, получающиеся в результате удлинения исходного теста вдвое); г) рассчитать дисперсию удвоенного набора (вы получите sf_n)evcn - дисперсию истинных баллов удвоенного теста). Теперь можно рассмотреть эффект, который удвоение теста оказывает на дисперсию ошибки. Опять же пусть дисперсия ошибки первой части равняется , дисперсия ошибки второй части - s^2, а дисперсия ошибки удлиненного теста- . Тогда дисперсия удвоенного теста будет равняться: =^1 + 4 +2';h.2 Ve- Согласно классической теории тестов гЛе2 = 0, поскольку ошибки считаются случайными. Следовательно, дисперсия ошибки удвоенного теста сокращается до: Se-удвоен ~Sel + Se2‘ Кроме того, если две части являются параллельными тестами, тогда их дисперсии ошибки равны (то есть = s?,, по определению параллельных тестов). Поскольку дисперсия ошибки одной части в точности равняется ДИСПерСИИ ОШИбкИ ВТОРОЙ ЧаСТИ, МОЖНО ИСПОЛЬЗОВаТЬ \Lod„„ ЧцапьДЛЯ обозначения дисперсии ошибки «одной части». Следовательно, 4 = se2 = s2e-odHa_m , и формула сокрашается до: 52 = 2s~ е—удвоен е—одна _ часть * Таким образом, удвоение теста вдвое увеличивает дисперсию ошибки. Иными словами, проведенный анализ показывает, что если части теста соответствуют положениям о параллельности тестов, то увеличение длины теста вдвое повышает дисперсию истинных баллов в большей степени, чем дисперсию ошибки. Давайте теперь проследим влияние этого эффекта на надежность. Обозначим надежность исходного теста, который, как мы помним, состоит всего из одной «части», RXX.IIC_W<> (заметьте, что это всего лишь другой вариант написания уравнения 6.6 выше): 143
7 S" > _ 1-одна чаеть ^хх-исход 7 2 S~ ~ 4- v“ t -одна _ часть в- одна часть В дополнение пусть Ra_Vf)eoeH обозначает надежность удвоенного теста, который является суммой двух параллельных тестов. Подставляя в это уравнение значения, полученные ранее, находим, что надежность удвоенного теста может быть выражена через дисперсию истинных баллов и дисперсию ошибки одной части: । часть) V f —одна _ часть ' ** х е-одма часть После нескольких алгебраических преобразований, которые мы опустим, можно показать, что надежность удвоенного теста является функцией надежности исходного теста: 2R хх-исход 'хх-удвоен 1 ^хх-нсход Например, оценка надежности теста, данные по которому приведены в табл. 6.2, составляет 0,62 (из наших более ранних вычислений сырой альфы). Если удлинить тест вдвое, добавив к нему еще четыре пункта, которые вместе в точности параллельны исходным четырем пунктам, тогда можно получить следующую оценку надежности удвоенного теста: _ 2(0,63) t + 0,63 ’ R^y^-0,77 Кто-то из читателей мог заметить, что уравнение выше похоже на приведенное ранее уравнение надежности расщеплением пополам. Действительно, в определенном смысле уравнение надежности для расщепления пополам оценивает надежность «удвоенного» теста, в котором каждая часть является половиной теста. В более общем виде формула для оценки надежности переработанного теста (то есть укороченного или удлиненного) является версией формулы предсказания Спирмена - Брауна: 144
1 + (и-1)7?дд ’ (6.7) В этом уравнении Rxx_„epepa6 - это оценка надежности переработанного теста, и - это фактор укорочения или удлинения теста, R„_HCXM- опёнка надежности исходной версии теста. Например, если утроить длину теста из 4 пунктов в табл. 6.2 (добавив два набора параллельных тестов по 4 пункта), можно получить тест из 12 пунктов с оценкой надежности 0,84: 3(0,63) ^„ерсраб l + q_ 1)(0,63) ~ 0-^4 Уравнение 6.7 называют формулой предсказания, поскольку оно может быть использовано для прогноза того, что произойдет, если тест будет переработан тем или иным образом. Это может быть очень полезно в процессе конструирования теста. Например, можно разработать тест определенной длины и обнаружить, что он обладает низкой надежностью. Прежде чем начинать собирать данные по переработанному тесту, можно предсказать его надежность, зная, что он был удлинен на определенное количество пунктов. Например, можно использовать формулу предсказания для того, чтобы понять, что увеличения количества пунктов вдвое будет достаточно для достижения адекватной надежности. Такого рода информация позволяет более эффективно использовать время и усилия в процессе разработки и оценки теста. Вы можете также столкнуться с другой версией формулы предсказания Спирмена - Брауна. Уравнение для расчета стандартизованной альфы (уравнение 6.4) также может быть использовано для того, чтобы прогнозировать изменения надежности. Вспомните еще раз это уравнение: R кг"' _ В то время как первая версия формулы предсказания требует думать в терминах «фактора переработки теста» (то есть и), вторая версия (уравнение 6.4) позволяет учитывать лишь количество пунктов в переработанном тесте (то есть к). Например, известно, что средняя межпунктовая корреляция для теста из четырех пунктов в табл. 6.2 равняется гп, = 0,29. Если мы размышляем о том, 145
чтобы добавить к тесту три пункта, и предполагаем, что они будут ровно так же хороши, как исходные четыре пункта, то мы можем предположить, что средняя межпунктовая корреляция останется равной = 0,29. Тогда можно предсказать, что стадартизованная альфа для новой версии из семи пунктов будет равняться: „ 7(0,29) Л — ---------------- 1 + (7 -1)(0,29) = 0 J4 Итак, существует две версии формулы предсказания, и обе они показывают эффект удлинения теста на оценки надежности. Повторим, что эти уравнения могут быть использованы для прогноза надежности тестов, которые изменяются различным образом. Заметим также, что иногда бывает достаточно трудоемко рассчитывать средние межпунктовые корреляции между большими наборами пунктов. Большинство статистических пакетов вычисляют значение стандартизованной альфы, а также все межпунктовые корреляции, однако они не рассчитывают среднее этих корреляций. Некоторые исследователи хотели бы использовать формулу стандартизованной альфы, но ленятся считать среднее по большому количеству межпунктовых корреляций. К счастью, искомое среднее можно получить, алгебраически преобразовав уравнение стандартизованной альфы (уравнение 6.4). Сделав это, читатель обнаружит, что среднюю межпунктовую корреляцию легко посчитать, если известно значение стандартизованной альфы и количество пунктов в тесте: (6.8) Идея о росте надежности с увеличением длины теста имеет важные практические следствия для конструирования тестов. Для тех, кто занимается разработкой тестов (например, преподавателей и профессоров), вывод может быть таким: длинные тесты будут более надежны, чем короткие тесты. Действительно, это так: при прочих равных более длинные тесты надежнее более коротких. Однако важно также понимать, что «прочие равные» могут оказаться «не равны». Например, связь между длиной теста и надежностью существует только, если дополнительные пункты параллельны исходным. Это означает, например, что средняя межпунктовая корреляция будет оставаться прежней, что мы предположили в примере выше. Если новые пункты не идеально согласованы с исходными (по крайней мере, в среднем), тогда средняя 146
межпунктовая корреляция может уменьшиться. Это отрицательно скажется на надежности теста. Таким образом, добавление новых п/нктов - это палка о двух концах. С одной стороны, при прочих равных длинные тесты надежнее коротких. С другой стороны, иногда может быть небезопасно предполагать, что все «прочее» остается постоянным. На самом деле, если средняя межпунктовая корреляция более длинного теста достаточно маленькая, тогда более длинный тест -будет менее надежным, чем исходный. Кроме того, есть и практические ограничения по количеству пунктов, которые могут быть включены в тест. Необходимо принимать в расчет временные ограничения и усталость испытуемых. Более того, при прочих равных, выгода от удлинения теста будет невелика для тех тестов, которые уже достаточно длинны. Говоря техническим языком, величина повышения надежности является отрицательно возрастающей функцией от длины исходного теста. Например, добавление 10 пунктов к короткому тесту будет иметь больший эффект для надежности переработанного теста, чем добавление 10 пунктов к длинному тесту. Польза от добавления новых пунктов уменьшается с количеством добавляемых пунктов. Этот эффект показан на рис. 6.1. 1.00 .00 4—---------------—।-г——i——»——--------:--—->---!-——----- 2 3 4 5 в 7 8 9 10 11 12 13 14 15 16 17 18 15 20 количество пунктов Рисунок 6.1. Связь между пунктами теста и надежностью (для теста со средней межпунктовой корреляцией 0,3) На этом рисунке рассчитаны и показаны величины стандартизованной альфы для теста со средней межпунктовой корреляцией 0,3, кривая на рисунке 147
показывает оценки надежности тестов различной длины. Например, мы видим, что оценка надежности для теста из двух пунктов равняется всего лишь /?хт = 0,33. Добавление 5 пунктов дает повышение надежности примерно до Rxx = 0,64. Обратите внимание, что удлинение теста на 5 пунктов дает существенное увеличение надежности на 0,31 (0,64-0,33=0,31) - практически удваивает надежность теста. Если добавить еще 5 пунктов (до 12 пунктов), тогда надежность теста станет равной Rxx = 0,75. Несмотря на то что 5 новых пунктов увеличивают надежность, выгода от перехода от 7 к 12 пунктам явно существенно меньше, чем выгода от перехода от 2 к 7 пунктам. Добавление еще 5 пунктов дает еще меньшее повышение надежности. Поэтому есть и практические границы выгоды от добавления все большего и большего количества пунктов к тесту. Однородность выборки и генерализация надежности Другой фактор, который имеет небольшое, но важное влияние на величину коэффициента надежности - это разнородность людей, проходящих тест, или, более точно, разнородность их истинных баллов. При прочих равных, чем больше разнообразие между людьми в группе по отношению к измеряемой психологической характеристике, тем выше коэффициент надежности. Вы можете понять, почему это так, вспомнив определяющую формулу надежности, которая выглядит так: Из нее следует, что все, что увеличивает sf относительно , будет увеличивать величину Rxx. Вспомните, что 5,2 представляет разнородность истинных баллов; чем более разнородны истинные баллы, тем выше s~. Разнородность истинных баллов важна отчасти потому, что она подчеркивает тот факт, что надежность тестовых баллов в определенной степени зависит от природы выборки, на которой проводится тестирование. Если тест проводится на выборке, которая очень разнородна (в смысле баллов по измеряемому тестом психологическому конструкту), тогда оценка надежности будет выше, чем при проведении теста на более однородной выборке. У этого факта есть, по меньшей мере, два важных следствия. Во- первых, он подчеркивает важность теоретического положения о том, что надежность - это характеристика тестовых баллов, а не свойство самого теста. То есть тест может давать высоко надежные баллы на одной выборке (на 148
относительно разнородной выборке), но менее надежные баллы на другой выборке (относительно однородной). Во-вторых, разнородность выборки выделяет пользу исследований по генерализации надежности. Исследование по генерализации (или обобщению) надежности призвано понять степень, в которой тест дает различные показатели надежности в различных типах исследований и на различных выборках испытуемых (Vacha-Haase. 1998). В исследовании по генерализации надежности ученый собирает информацию из ранее опубликованных источников об использовании какого-то конкретного теста. Исследователь фиксирует информацию о показателях надежности теста, полученных в предыдущих исследованиях. Эта информация может пролить свет на несколько важных психометрических вопросов. Например, в одном исследовании генерализации надежности теста MMPI (Vacha-Haase, Kogan, Tani, Woodall, 2001) изучались типичная надежность клинических шкал MMPI, степень, в которой надежность шкал отличалась в различных исследованиях, и факторы, которые влияли на надежность тестовых баллов. В этой работе было проанализировано 150 исследований, в которых использовались клинические шкалы MMPI и сообщались показатели надежности, вычисленные по экспериментальным данным. Выяснилось, что большинство клинических шкал MMPI обычно давали баллы с приемлемой надежностью, но надежность в разных исследованиях все же отличалась. Кроме того, обнаружилось, что для многих клинических шкал MMPI тестовые баллы были более надежны на выборках для врозрослых (в противовес подростковым) и на клинических выборках (в противовес неклиническим). Итак, исследования по генерализации надежности могут использоваться для того, чтобы выявить и понять, каким образом характеристики выборки влияют на надежность тестовых баллов. Надежность баллов различия До настоящего момента обсуждалось психометрическое качество баллов по одному тесту, например, чтобы понять и оценить надежность тестов, измеряющих интеллект, способности, самооценку, удовлетворенность работой, депрессию и т. д. Однако существуют ситуации, в которых исследователей интересует разница между двумя баллами. Например, представьте, что необходимо оценить, способствует ли программа по чтению улучшению навыков одних детей в большей степени, чем других. В этом случае вас интересует улучшение навыков чтения. Для того чтобы изучить этот вопрос, можно дать выборке детей какой-то тест по чтению до того, как они примут участие в программе, и тот же самый тест после завершения программы. Вас будет интересовать изменение в тестовых баллах школьников, и вы захотите узнать, были ли изменения у одних детей сильнее, чем у других. Обратите внимание на то, что вопрос касается разнообразия - необходимо оценить степень, в которой дети отличаются по величине изменений их навыков чтения. 149
Один из возможных вариантов изучения изменений - использование баллов различия. Имея два тестовых балла для каждого ребенка, можно рассчитать «балл различия», вычтя исходйый балл по тесту чтения из итогового балла. Вы можете захотеть истолковать разницу в тестовых баллах ребенка как степень, в которой улучшились его навыки чтения. Заметьте, что положительная разность между итоговым и исходным тестовым баллом будет означать улучшение - итоговый балл больше исходного. Кроме того, обратите внимание, что нулевая разность будет означать отсутствие изменений, а отрицательный балл различия будет указывать на ухудшение навыков чтения у ребенка. Итак, если один и тот же человек дважды проходит один тест, можно вычесть один тестовый балл из другого и получить балл различия. Балл различия - это просто один балл минус другой. В этом примере балл различия интерпретируется как мера психологического свойства - улучшения навыков чтения. Поскольку балл различия сам по себе является измерительным инструментом (хотя он и получен из двух других инструментов), он будет в определенной степени ненадежным. Психометрически подкованный исследователь может захотеть узнать надежность балла различия по тем же самым причинам, по которым ему интересна надежность баллов, полученных с помощью любого другого инструмента. А именно: он захочет узнать степень, в которой наблюдаемые баллы различия отражают истинные различия в прогрессе навыка у школьников. Тогда встает вопрос о том, как оценить надежность баллов различия. Как мы можем оценить надежность баллов, представляющих различия между двумя баллами, полученными по тестам, которые сами по себе в некоторой степени ненадежны? Надежность баллов различия будет функцией двух факторов: а) надежности тестов, используемых для расчета баллов различия, и б) корреляции между баллами, полученными по двум тестам. Формула надежности баллов различия показывает влияние этих двух факторов: одахт + /?л)-гу1. (6.9) где Rd - надежность баллов различия, Rxx и Rn - надежности двух наборов тестовых баллов, используемых для расчета баллов различия (скажем, по тесту X и по тесту Y), а г„, - корреляция между баллами по двум тестовым ситуациям. Для того чтобы понять, как это работает, обратите внимание, что все, что уменьшает величину числителя относительно величины знаменателя в этой формуле, будет уменьшать Rd. Один из факторов, влияющих на величину числителя - это надежность тестовых баллов, используемых для расчета баллов различия (Rxx и R„). При прочих равных условиях тесты, которые имеют высокие надежности, будут давать баллы различия, которые также буду обладать относительно высокой надежностью. В качестве примера предположим, что два теста коррелируют друг с другом с коэффициентом гЛУ = 150
0,50, и предположим, что два теста высоконадежны (скажем. /?хт = 0,90 и Rrr = 0,90): 0,5(0,90+ 0,90)-0,50 1-0,50 0,90 - 0,50 1-0,50 0,50 Rd = 0,80 Теперь давайте рассчитаем надежность баллов различия при условии, что надежность исходных тестов ниже (скажем, Rxx = 0.60 и /?„ = 0.60): Rd 0,5(0,60+ 0,60)-0,50 Rd 1-0,50 0,60-0,50 1-0,50 Rd=—^— 0,50 Rd = 0,20 Таким образом, относительно надежные тесты дали баллы различия, более надежные, чем тесты, которые были сами по себе менее надежны (Rj = 0,80 и Rj = 0,20, соответственно). Второй фактор, который влияет на числитель (и знаменатель) уравнения надежности, - это корреляция между тестами (то есть г»). Несмотря на то что это поначалу может показаться противоречащим здравому смыслу, тесты, которые высоко коррелируют друг с другом, дадут баллы различия, обладающие низкой надежностью. То есть при прочих равных с увеличением г„ величина Rd уменьшается. Для того чтобы убедиться в этом, давайте начнем с одной крайности - что произойдет, если тесты абсолютно независимы (то есть го. = 0)? В этом случае давайте представим, что два теста имеют несколько отличающиеся показатели надежности (скажем, Rxx = 0,75 и Rvv = 0,85). Оказывается, что Rd просто равняется среднему между двумя коэффициентами надежности: 151
0,5(0.90 + 0,90) - 0,00 1-Ю,50 0,80-0,00 1,00 Rd = 0,80 Теперь давайте посмотрим, что произойдет, если два теста лишь в небольшой степени коррелируют друг с другом (скажем, г„. = 0,20). 0,5(0,75+ 0,90)-0,20 1-0,20 0,80-0.20 0,80 Rd = 0,75 Для тестов, которые сильнее коррелируют друг с другом (скажем, гху = 0.70): 0,5(0,75+ 0,85)-0,70 1 - 0,70 0,80-0,70 0,30 Rd = 0,33 Наконец, что происходит на другом конце - когда два теста идеально коррелируют друг с другом (то есть riy = 1)? 0,5(0,75+ 0,85)-1,00 1-0,70 0,80-1,00 0,00 Rd = 0,00. (или неопределенное значение, поскольку на нуль делить нельзя). 152
Итак, надежность баллов различия уменьшается с ростом корреляции между тестами. Кроме того, первый пример (когда г„. = 0,00) показывает, что надежность баллов различия не может быть выше, чем средняя надежность тестовых баллов, используемых для расчета баллов различия. Наконец, эти примеры показывают, что надежность баллов различия может быть значительно меньше надежности двух наборов тестовых баллов, которые используются для расчета баллов различия. Говоря более техническим языком, уменьшение. R(/ - это отрицательно убывающая функция от гху. Это показано на рис. 6.2, где надежность баллов различия представлена как функция от корреляции между двумя тестами (заметьте, что этот график рассчитан для тестов со средней надежностью 0,80). Обратные отношения между надежностью баллов различия и корреляцией между тестовыми баллами может в некоторых случаях создать дилемму. Представьте себе ситуацию, которая часто случается в начальных школах. Во многих школах способности ребенка к обучению определяются в терминах различия между баллом ребенка по стандартному тесту интеллекта и баллом по тесту учебных достижений. Если между этими двумя показателями достаточно большой разрыв, то ребенок считается имеющим трудности обучения. Таким образом, различие между двумя тестовыми баллами используется в качестве меры трудностей обучения. Несмотря на то что стандартные тесты интеллекта и качественные тесты учебных достижений имеют высокие надежности (то есть Rxx и Riy высоки), баллы IQ имеют тенденцию быть высоко скоррелированными с баллами учебных достижений (то есть гху высока). корреляция между тестами (i\y) Рисунок 6.2. Влияние корреляции тестов на надежность баллов различия (для пары тестов со средней надежностью 0,80) 153
Более того, наверное, невозможно найти тесты интеллекта, которые не имеют высоких корреляций с тестами учебных достижений, поскольку эти две психологические характеристики тесно связаны. Как показывает рис. 6.2, высокая корреляция между двумя тестами снижает надежность баллов различия между двумя тестами. Таким образом, возможно, что процедура для определения трудностей обучения по «разрыву» между тестами интеллекта и тестами учебных достижений ненадежна по своей сути. Тесты с различными метриками и необходимость стандартизации баллов Существует как минимум два теоретически различных типа баллов различия - баллы изменения и баллы расхождения. Первый использованный пример, - измерение улучшения навыков чтения - иллюстрирует баллы изменения. То есть баллы различия вычисляются вычитанием баллов по одному и тому же тесту, проведенному в разное время. Второй пример - определение детей с трудностями обучения - является примером баллов расхождения. То есть баллы различия вычисляются вычитанием баллов по одному типу теста (тест достижений) из баллов по другому типу теста (тест интеллекта). Разница между баллами изменения и баллами расхождения поднимает потенциально важную проблему. Для того чтобы вычислить баллы расхождения, тестовые баллы, используемые для расчетов, должны быть измерены на сходных метрических шкалах. В некоторых случаях баллы по разным тестам переводятся в одну и ту же шкалу, и, следовательно, вычисление баллов расхождения имеет смысл. Например, баллы по субтестам теста Векслера (WISC-IV; Wechsler, 2003а, 2003b), широко используемого теста интеллекта, даются на распространенной метрике со средним 10 и стандартным отклонением 3. Если бы вам понадобилось определить относительную успешность ребенка по одной из субшкал в сравнении с другой субшкалой (например, есть ли у ребенка большие расхождения между двумя различными формами интеллекта), тогда вы могли бы просто вычесть балл по одной субшкале из балла по другой субшкале, чтобы получить балл расхождения. Студент SAT GPA Разница Эмили 1000 2,5 997,5 Джон 1000 1,0 999 Сара 1003 4,0 999 Однако во многих случаях вы можете захотеть оценить расхождение между тестами, баллы по которым имеют совершенно различные метрики. Например, нас могут интересовать различия между школьной успеваемостью и баллами по стандартизованным тестам (то есть мы хотим выявить школьников, у которых есть большие расхождения между школьной успеваемостью и уровнем выполнения стандартизованных тестов, и школьников, у которых эти 154
различия не так велики). Несмотря на то что изучение этого вопроса может быть вполне резонно, нет смысла рассчитывать балл различия, вычитая GPA школьника из его балла по тесту SAT, поскольку единицы GPA и единицы SAT имеют разные метрики. Например, рассмотрим трех школьников: Для этих школьников баллы различия будут отражать расхождение между успешностью выполнения стандартизованных тестов и их школьной успеваемостью. А именно: балл различия, вычисленный вычитанием GPA из балла по тесту SAT, дает значение, которое может быть истолковано как степень, в которой каждый из студентов лучше выполняет стандартизованные тесты, чем успевает в школе. Одна проблема должна быть очевидна - у всех школьников получился достаточно большой балл различия. Можем ли мы на самом деле интерпретировать полученные баллы как показатель того, что у всех школьников результаты по стандартизованным тестам лучше, чем школьные отметки? Совершенно очевидно, что это утверждение является неверной интерпретацией данных; ошибка коренится в различии шкал измерения баллов GPA и баллов по тесту SAT. Более тонкая проблема лежит в разнообразии баллов различия. Заметьте, что у Джона и Сары одинаковый балл различия, что может говорить о том, что они одинаково лучше справляются со стандартизованными тестами (по сравнению со школьными отметками). Однако, имея некоторые знания о значении баллов GPA и SAT, вы, вероятно, заметите, что это сходство между Джоном и Сарой несколько ошибочно. Мы вернемся к этому вопросу совсем скоро. Если баллы по тестам имеют различные метрики, вам придется их стандартизовать (см. главу 3) для того, чтобы рассчитать балл различия. Вспомните, что стандартизованная переменная имеет среднее, равное 0, и стандартное отклонение, равное 1,0. Если две шкалы стандартизованы, то они имеют одинаковые средние и стандартные отклонения и, таким образом, они имеют одну метрику. Давайте снова обратимся к нашим трем школьникам - Эмили, Джону и Саре. Для более правильной оценки расхождений между их успешностью по стандартизованным тестам и школьной успеваемостью, нужно стандартизировать их баллы. Давайте представим, что во всей школе средний балл по SAT равняется 1000, а стандартное отклонение - 100. Кроме того, предположим, что средний GPA равен 2,5, а стандартное отклонение - 0,75. Ниже приведены их стандартные баллы (то есть z-баллы), а также различия между ними: Студент ZSAT ZGPA Разница Эмили 0,00 0,0 0,0 Джон 0.00 -2.0 2,00 Сара 0,03 +2,0 -1,97 Опять положительный балл различия должен означать превосходство показателей по стандартизованным тестам над показателями успеваемости. Однако значение баллов изменилось важным образом. Как обсуждалось в главе 155
3, стандартизованные баллы отражают баллы человека по отношению к другим людям в группе. Например, стандартизованный балл Джона по SAT равен 0. Это указывает на то, что он показал средние результаты по стандартизованному тесту. Но обратите внимание, что его стандартизованный GPA равен -2, что существенно ниже среднего показателя успеваемости. Поскольку Джон показал средние результаты по стандартизованному тесту, но очень низкий уровень школьной успеваемости, его балл различия положительный (то есть его показатели по стандартизованным тестам превосходят его показатели успеваемости). Наоборот, балл различия Сары отрицательный, это указывает на то, что ее показатели по стандартизованным тестам (по отношению к другим) несколько ниже ее успеваемости (относительно других). Если теперь сравнить баллы различия Джона (2,0) и Сары (-1,97), то можно увидеть, что сейчас они, вероятно, лучше отражают психологическую реальность изучаемого вопроса. Их баллы отличаются почти на 4 единицы по стандартизованной метрике, а это очень существенно. Если же снова вернуться к их баллам различия, полученным по «сырым» баллам GPA и SAT (то есть 999), то можно заметить, что Джон и Эмили совершенно неправдоподобно оказываются равны. Помните, однако, что, несмотря на то что можно преобразовать тестовые баллы таким образом, чтобы они были на одной метрике, далеко не всегда имеет смысл вычитать один балл из другого. Предположительно, баллы различия имеют наибольший смысл, если два тестовых балла имеют общие психологические характеристики. Например, вполне оправданно вычислять баллы различия по GPA и SAT, поскольку и тот. и другой показатели считаются связанными с академической успеваемостью. Однако, вероятно, вычислять балл различия по тесту интеллекта и тесту самооценки не столь резонно. Смысл балла различия в этом случае будет менее понятен. Подводя итог, можно сказать, что осмысленность баллов различия зависит от степени, в которой два теста имеют сходные метрики. Для вычисления «баллов изменения» это обычно не бывает проблемой, поскольку они получаются от двух тестирований по одному и тому же тесту. Когда используется один и тот же тест, обычно получают тестовые баллы в одной метрике. Однако вопрос метрики становится важным для вычисления «баллов расхождения», которые получаются из двух тестов, имеющих разные метрики. Для анализа баллов расхождения два теста прежде необходимо стандартизовать, а затем уже находить баллы расхождения. Заметьте, что стандартизация несколько переосмысливает вопрос расхождения в сторону сравнения относительных уровней двух переменных (то есть относительных стандартизованных показателей по тесту и относительных стандартизованных показателей успеваемости). Различные типы баллов различия Надежность баллов различия также зависит от типа баллов различия. Баллы различия могут быть двух видов. Тот тип, который описывался в приведенных примерах. - это с уверенностью самый распространенный тип баллов различий, который интересует исследователей. Это 156
интраиндивидуальные баллы различия - у каждого человека есть два тестовых балла, и у каждого человека есть балл различия, эти баллы показывает разницу между этими двумя тестовыми баллами. Второй тип баллов различия может быть рассчитан, если два разных человека выполняют один и тот же тест и балл одного человека вычитается из балла другого человека. Надежность этих межиндивидуальных баллов различия будет равняться надежности наблюдаемых тестовых баллов. Баллы различия - резюме и предостережение Наше понимание баллов различия соответствует большинству психометрических оценок баллов различия. Вслед за Лордом (Lord, 1956, 1962) большинство психометристов и исследователей склонны воспринимать интраиндивидаульные различия как весьма проблематичную область, отчасти потому, что они менее надежны, чем тестовые баллы, используемые для их вычисления. Действительно, создается впечатление, что многие исследователи поведения склонны по определению не доверять баллам различия. То есть, если вы ученый, то, вероятно, будете очень осторожны в использовании баллов различия в своей работе - скорее всего, вам уже сказали, что полагаться на них - значит совершать чудовищную ошибку. Есть, однако, и другой взгляд на качество и надежность баллов различия. Некоторые исследователи (Rogosa. 1995; Zimmerman. Williams, 1982) подробно обсуждают факторы, влияющие на величины надежностей, и показывают, что при определенных условиях надежность баллов различия может быть выше средней надежности тестов, на которые они опираются. Анализ надежности баллов различия, представленный в этой главе, типичен в том смысле, что он зависит от ряда упрощающих допущений (например, касающихся корреляции между истинными баллами и различиями, а также касающихся равенства дисперсий в двух тестовых ситуациях). Как показывает Рогоза (Rogosa, 1995), если эти упрощающие допущения не выполняются, тогда весьма вероятно, что баллы различия будут достаточно надежными. Рогоза делает вывод о том, что «баллы различия надежны, когда индивидуальные различия в истинных изменениях действительно существуют» (с. 13). Резюме В этой главе была рассмотрена теория надежности и ее претворение в жизнь. Несмотря на то что пользователи тестов никогда не могут знать наверняка надежность набора баллов, они могут использовать различные процедуры для приблизительной оценки надежности. В этой главе описано несколько наиболее известных и широко используемых методов оценки надежности. Три основных метода включают использование альтернативных форм, ретеста и внутренней согласованности. Точность каждого метода (в смысле корректных оценок надежности) существенно зависит от ряда положений, касающихся природы истинных баллов и дисперсии ошибки. 157
По целому ряду теоретических и практических причин оценка внутренней согласованности является наиболее популярным методом оценки надежности. А именно: коэффициент а (сырой или * стандартизованный) - показатель надежности, который чаще всего вычисляется и сообщается исследователями; его без труда можно рассчитать в большинстве широко применяемых статистических пакетов. Со стороны внутренней согласованности существует два ключевых фактора, которые влияют на надежность. При прочих равных условиях оценки надежности высоки для тестов, в которых части (половинки или отдельные пункты) высоко коррелируют между собой, то есть надежность высока для тестов, обладающих высокой внутренней согласованностью. Кроме того, при прочих равных оценки надежности для более длинных тестов выше, чем для более коротких. Как было показано, формулы «предсказания» Спирмена - Брауна могут использоваться для прогнозирования надежности тестов определенной длины и обладающих определенным уровнем внутренней согласованности. Такие прогнозы полезны в деле разработки и совершенствования тестов. В этой главе также была рассмотрена надежность баллов различия, которые могут использоваться для измерения таких феноменов, как психологические изменения. Баллы различия более надежны, если они основаны на баллах по тестам, которые сами по себе надежны. Однако они менее надежны, если получены по тестам, высоко коррелирующих друг с другом. До настоящего момента мы успели рассказать о теоретических основах надежности, которая является одним из фундаментальных понятий теории измерения. Кроме того, был представлен метод, с помощью которого обычно даются приблизительные оценки надежности для реальных данных. В следующей главе будет еще раз подчеркнуто значение надежности - почему она привлекает столько внимания психометристов и пользователей тестов. Как вы увидите, надежность тестовых баллов имеет важные последствия для разработки тестов, их прикладного использования и применения в исследовательских целях. Рекомендуемая литература Подробное изложение многих методов оценки надежности в дополнение к обсуждению необходимых допущений можно найти в книге: Feldt, L.S., & Brennan, R.L. (1989). Reliability. In R.L. Linn (Ed.), Educational measurement (3rd ed., ppl05-146). Washington, DC: American Council on Education; New York: Macmillan. Оценка адекватности различных коэффициентов надежности: Osburn, H.G. (2000). Coefficient alpha and related internal consistency coefficients. Psychological Methods, 5, 343-355. Введение в генерализацию надежности: 158
Vacha-Haase, T. (1998). Reliability generalization: Exploring variance in measurement error affecting score reliability across studies. Educational and Psychological Measurement. 58, 6-20. * Краткое, полное и относительно простое для понимания обсуждение надежности баллов различия: Zimmerman, D.W., & Williams, R.H. (1982). Gain scores in research can .be highly reliable. Journal of Educational Measurement, 19, 1982. 159
Важность надежности На протяжении этой книги неоднократно подчеркивалось, что психологическое измерение чрезвычайно важно для наук о поведении и их практических приложений. Как краеугольный камень психометрического качества надежность имеет фундаментальное значение для понимания и оценки качества психологических измерительных инструментов. Предыдущие две главы были посвящены теоретическим основам надежности и процедур, которые используются для оценки значений надежности теста. В этой главе описана та важная роль, которую надежность играет в исследованиях поведения, практическом использовании тестов, а также конструировании и доработке тестов. Исследования поведения Надежность имеет важные следствия для интерпретации и проведения исследований в науках о поведении. Возможность интерпретации научных результатов в таких областях, как психология и педагогика, зависит от качества использованных измерительных процедур. В этом разделе будет показано, каким образом надежность и ошибка измерения влияют на результаты поведенческих исследований. Знание об этих эффектах необходимо для точной интерпретации и грамотного проведения научных изысканий. Надежность, истинные корреляции и наблюдаемые корреляции Согласно классической теории тестов, корреляция между наблюдаемыми баллами по двум инструментам (то есть гх ) определяется двумя факторами: а) 160
корреляцией между истинными баллами по двум психологическим конструктам, оцениваемым инструментами (rx v ), и б) надежностью двух инструментов (то есть /?ДЛ и 7?,т). А именно: \у., = rW.KRV (7-1) Уравнение 7.1 является ключевым элементом данного раздела; оно имеет множество важных следствий для проведения исследований и прикладных измерений. Прежде чем перейти к обсуждению этих следствий, объясним, каким образом уравнение 7.1 логически следует из классической теории тестов. Вспомните из главы 4, что корреляция между двумя переменными (гп,) равняется ковариации, деленной на произведение двух стандартных отклонений: Подумаем немного о числителе этого уравнения. Вспомните из главы 5, что, согласно классической теории тестов, наблюдаемые баллы являются составными переменными (то есть Хо = Xt + Хе и Yo = Yt + Ye ). Следовательно, ковариация между двумя наборами наблюдаемых баллов (наблюдаемыми баллами по X и наблюдаемыми баллами по Y) может быть рассмотрена как ковариация между составными переменными XnY (то есть с ): хоУо сх= С . +cv„ + С,.,, +сг лоУо 'тлг 'Агл<? леУ( •*£ где сх г - ковариация между истинными баллами по тесту X и истинными баллами по тесту У, с ,, - ковариация между истинными баллами по тесту X и баллами ошибки по тесту У, сх- ковариация между баллами ошибки по тесту X и истинными баллами по тесту Y, сх г - ковариация между баллами ошибки по тесту X и баллами ошибки по тесту У. По определению, ошибка носит случайный характер. Следовательно, баллы ошибки не коррелируют с истинными баллами, а также ошибки по тесту X не коррелируют с ошибками по тесту У. Следовательно, три ковариации, включающие баллы ошибки, равняются 0: это означает, что ковариация между наблюдаемыми баллами сокращается до ковариации между истинными баллами (с= с ). Следовательно, ХоУо Х(У( возвращаясь к уравнению 7.1, получаем, что корреляция между двумя наборами наблюдаемых баллов равняется: 161
(7.2) А теперь давайте подумаем о знаменателе этого уравнения. Вспомните из главы 5, что разнообразие наблюдаемых баллов по тесту (например, S’ и S’,, ) связано с надежностью теста. Более конкретно, надежность может быть определена как отношение дисперсии истинных баллов к дисперсии наблюдаемых баллов: Преобразуя эти выражения, можно выразить стандартное отклонение наблюдаемых баллов как функцию надежности и стандартного отклонения истинных баллов: (7.3а) и (7.36) Подставив уравнения 7.3а и 7.36 в знаменатель уравнения 7.2 и проведя необходимые преобразования, получаем: S' S S, -у. И снова мы понимаем, что корреляция равняется ковариации, деленной на стандартные отклонения. В этом случае мы делим ковариацию истинных баллов (то есть с,) на стандартное отклонение истинных баллов (то есть s,. или s,. ) и получаем корреляцию между истинными баллами (г ). Это упрощает -‘г-’/ выражение до: 162
Это возвращает нас обратно к уравнению 7.1. Таким образом, классическая теория тестов прямо указывает на то, что корреляция между двумя мерами определяется корреляцией между, психологическими конструктами и надежностью измерительных инструментов. Для того чтобы проиллюстрировать это, представим, что необходимо проанализировать связь между самооценкой и учебными достижениями. Пусть проведено исследование, в . котором испытуемые заполняют опросник самооценки и тест учебных достижений. Представьте, что истинная корреляция между конструктами равняется 0,4 (то есть гп. = 0,40). Конечно, это невозможно знать на самом деле; тем не менее, сама идея проведения такого исследования состоит в том, чтобы обнаружить или оценить эту корреляцию. Также представьте, что оба инструмента обладают высокой надежностью - скажем, надежность опросника самооценки равняется 0,80, а надежность теста достижений - 0,86. Корреляция между двумя инструментами будет равняться: у = Гх у -т0Л() xt*i V хх » = 0,407(0.80X0,86) гх = 0,40(0,829) Заметьте, что корреляция между наблюдаемыми баллами по двум инструментам меньше корреляции между двумя конструктами. Более точно, корреляция между двумя конструктами равняется 0,4, а корреляция, которая была бы получена в исследовании, равняется всего лишь 0,33. Это расхождение является следствием ошибки измерения, о чем речь пойдет далее. Ошибка измерения (низкая надежность) ослабляет корреляцию между переменными Расхождение между наблюдаемой корреляцией и истинной корреляцией отражает важные следствия уравнения 7.1. Во-первых, в исследовании наблюдаемые корреляции (между инструментами) всегда будут ниже, чем истинные корреляции (между психологическими конструктами). Этот факт является следствием двух других жизненных фактов измерений. Один жизненный факт состоит в том, что измерение никогда не бывает идеальным. Несмотря на то что ученые могут разрабатывать очень точные меры своих конструктов, инструменты всегда в определенной степени будут подвержены ошибке измерения. То есть инструменты никогда не бывают идеально надежными. Второй факт состоит в том, что несовершенное измерение 163
ослабляет, или способствует «затуханию» наблюдаемых корреляций. Как показывает уравнение 7.1. всякий раз. когда надежности меньше идеальных, наблюдаемая корреляция будет слабее (то есть ближе к нулю), чем истинная корреляция. Например, посмотрим, чему бы равнялась наблюдаемая корреляция, если бы истинная корреляция равнялась 0,4, и оба инструмента были бы почти идеально надежны (скажем, оба имели бы надежность 0,98): гл= 0,40д/(0,98)(0,98) гЛ()Vo = 0,40(0,98) г =0,39. Ло? л Таким образом, даже небольшие несовершенства начинают ослаблять наблюдаемые корреляции. Подведем итог: поскольку измерение никогда не бывает идеальным, а неидеальное измерение ослабляет наблюдаемые корреляции, то наблюдаемые корреляции всегда будут ниже истинных. Второе важное следствие уравнения 7.1 состоит в том, что степень ослабления (затухания) определяется надежностью измерительных инструментов. Проще говоря, чем хуже надежность инструмента, тем сильнее затухание. Более точно, инструменты, которые имеют низкую надежность, вызывают большее затухание, чем инструменты, имеющие высокую надежность. Давайте еще раз обратимся к нашему примеру со связью между самооценкой и учебными достижениями, в котором предполагалось, что истинная корреляция равняется 0,4. Ранее было показано, что использование инструментов с надежностью 0,86 и 0,8 снизило корреляцию до 0,33. А что было бы, если бы тесты самооценки и успеваемости были худшего качества? Если бы надежность опросника самооценки была 0,6. а теста достижений - всего 0,5. то получилась бы корреляция, равная 0,22: =0,407(0.60X0.50) гх о,.п = 0,40(0,548) г =0,22. -'ОЛ о Очевидно, что это более сильное расхождение между истинной и наблюдаемой корреляцией, чем в предыдущем примере. Более того, наблюдаемая корреляция будет сильно затухать, даже если всего один из тестов обладает низкой надежностью. Например, представьте, что тест достижений имеет высокую надежность (скажем, надежность = 0,8), но опросник самооценки имеет очень низкую надежность (скажем, надежность = 0,3). В этом случае наблюдаемая корреляция уменьшится до 0,2: 164
rV(Vc = 0,407(0,80)(0,30) rx о1.и = 0.40(0,490) - r =0,20. •‘о.’ 0 Подведем итог: степень затухания определяется надежностями двух инструментов. Даже если только один инструмент обладает низкой надежностью, наблюдаемая корреляция может быть существенно ниже истинной. Как станет понятно, затухание имеет большое значение для точности нашей интерпретации результатов исследований. Третье важное следствие того факта, что ошибка измерения уменьшает корреляции, состоит в том, что ошибка ограничивает возможный максимум корреляции, которая может быть обнаружена между двумя инструментами. Например, представьте, что вас интересует связь между мотивацией обучения и учебными достижениями. Вы предполагаете, что ученики с относительно высоким уровнем мотивации обучения будут иметь относительно высокий уровень учебных достижений. То есть школьники, которые хотят хорошо учиться в школе, будут учиться лучше тех, которые не хотят (предположительно, потому что высоко мотивированные ученики более склонны выполнять домашние задания, внимательно слушать учителя в классе и т. д.). Несмотря на то что вам кажется, что ваша гипотеза вполне правдоподобна, вы не знаете силу связи между мотивацией и достижениями. Более того, вы даже не знаете, существует ли вообще связь между этими конструктами. Поэтому вы проводите исследование, в котором ваши испытуемые заполняют опросник мотивации обучения и опросник учебных достижений. Планируя исследование, вы должны найти тесты для измерения ваших конструктов и обратить особенное внимание на надежности инструментов, которые вы потенциально можете использовать. Пусть вам удалось найти высоко надежный опросник достижений (скажем, его надежность равняется 0,86), но единственный опросник мотивации обучения, который вам попался, имеет низкую надежность (скажем, 0,4). Поскольку вы знакомы с уравнением 7.1 и знаете, что ошибка измерения ослабляет корреляцию между инструментами, вы совершенно правомерно волнуетесь о низкой надежности мотивационного опросника. Вас может даже интересовать максимально возможная корреляция, которую вы можете получить. То есть если ваша гипотеза идеально правильна, и существует идеальная связь между мотивацией и достижениями, тогда что обнаружит ваше исследование? Используя уравнение 7.1 и предполагая идеальную связь между конструктами (то есть, предполагая, что г = 1), вы получите: 165
=1,00/(0,86X0,40) rxnVo = 1,00(0,587} г =0,59. лоЛ о Этот простой анализ говорит о том, что даже если ваша гипотеза идеально верна и мотивация идеально связана с достижениями, в вашем исследовании вы получите корреляцию «всего» 0.59 между инструментами. Несмотря на то что корреляция, равная 0.59, может быть рассмотрена как достаточное подтверждение вашей теории, вы должны понимать, что это значение - максимально возможное из тех, что могут быть достигнуты с помощью имеющихся у вас инструментов. То есть, если у вас есть инструменты с заданными надежностями, в лучшем случае вы можете получить корреляцию 0,59. Эта информация может быть полезна, когда вы интерпретируете корреляцию, которую вы реально получили в вашем исследовании. Поскольку мотивация и достижения, вероятно, коррелируют не идеально (то есть, скорее всего, г. < 1), то вы получите корреляцию слабее 0,59. Более того, скорее всего, вы получите корреляцию ближе к 0,3 или еще слабее, что может привести вас к выводу о том, что мотивация и достижения лишь умеренно связаны друг с другом. Однако может быть очень полезным проанализировать полученный результат в контексте наилучшего результата, на который можно было рассчитывать, имея в виду ограничения измерительных инструментов. Действительно, корреляция 0,3 кажется гораздо более высокой, если знать, что максимум, на который вы могли рассчитывать, - это 0,59. Четвертое важное следствие уравнения 7.1 состоит в возможности приблизительно оценить истинную корреляцию между двумя конструктами. Когда ученые проводят исследования, они знают или могут приблизительно оценить все компоненты уравнения 7.1, кроме одного. А именно: они не знают истинной корреляции между конструктами, однако они знают наблюдаемую корреляцию между инструментами и могут оценить надежности инструментов (используя процедуры, описанные в главе 6). Зная все компоненты уравнения 7.1, за исключением одного, исследователи могут вычислить неизвестное. Уравнение можно преобразовать таким образом, чтобы оно давало возможность оценки истинной корреляции: Уравнение 7.4 известно под названием «поправка на затухание», поскольку оно позволяет исследователям приблизительно оценивать корреляцию, которая могла бы быть получена, если бы не влияло затухание. То 166
есть оно позволяет исследователям оценивать корреляцию, которая могла оы быть получена, если бы в исследовании использовались идеально надежные инструменты. Если бы инструменты были идеально надежными, тогда наблюдаемая корреляция в точности равнялась бы корреляции между истинными баллами. В качестве иллюстрации представьте, что в вашем исследовании связи между учебными достижениями и мотивацией обучения вы получили корреляцию 0,26, используя мотивационный опросник с надежностью 0,40 и тест достижений с надежностью 0.86. Разумеется, вы не знаете истинной корреляции, но вы можете обратиться к уравнению 7.4 для того, чтобы приблизительно оценить ее: АА' 0,26 Гл'-' ~ 7(0,86)(0,40) 0,26 Гх'у' ~ 0,587 rx,i = 0’44 Таким образом, если выполняются все допущения классической теории тестов (например, ошибка влияет на тестовые баллы как случайная величина), тогда вы оцениваете истинную корреляцию между мотивацией обучения и учебными достижениями как равную 0,44. Поправка на затухание чрезвычайно важна в системе связей между надежностью, ошибкой измерения, наблюдаемыми корреляциями и истинными корреляциями; однако процедура поправки достаточно редко напрямую используется в реальных исследованиях. То есть, читая исследовательские отчеты, вы редко встретите авторов, которые делают поправку на затухание. Интересно также, что последние разработки в статистическом анализе позволяют делать подразумеваемую поправку на затухание. Некоторым из вас может быть знакома процедура под названием «моделирование структурными уравнениями», или «моделирование латентных переменных». Вкратце, эта процедура разработана для того, чтобы оценивать связи между ненаблюдаемыми психологическими конструктами, отделяя их от эффектов ошибки измерения. По сути, связи между психологическими конструктами, которые обнаруживают структурные уравнения, в большой степени основаны на корреляциях с поправкой на затухание. 167
Надежность и затухание: значение для исследований Тот факт, что ошибка измерения (то есть низкая надежность) ослабляет наблюдаемые корреляции, имеет несколько следствий для интерпретации и проведения исследований. Во-первых, результаты исследования следует всегда интерпретировать в контексте надежности. Несмотря на то что ранее «результаты» всегда обсуждались в терминах наблюдаемых корреляций между инструментами, есть несколько различных типов данных, с которыми может столкнуться исследователь. В исследованиях поведения интересны два основных типа результатов. Первый тип результатов - это величины эффекта, например коэффициент корреляции. Помимо коэффициентов корреляции, величины эффекта включают такие статистики, как регрессионные коэффициенты, R-квадрат и квадрат г] (из дисперсионного анализа), d Коэна (из t-тестов). Все подобные величины эффекта отражают степень связи между переменными и/или различий между группами. Несмотря на то что детальное рассмотрение подобных статистик не входит в цели данной книги, вы должны знать, что все они тем или иным образом появляются из одного или нескольких коэффициентов корреляции. Таким образом, надежность влияет на многие величины эффекта - при прочих равных условиях более высокая надежность позволяет получить более высокие наблюдаемые величины эффекта. Второй важный тип результата в поведенческом исследовании - это статистическая значимость, которая, грубо говоря, касается уверенности в результате. То есть, если результат статистически значим, то исследователи обычно интерпретируют его как «реальный» результат, а не как счастливую случайность. Как вы можете представить, исследователи надеются, что их исследования дадут результаты, которые окажутся статистически значимыми. Опять же подробное рассмотрение этих вопросов выходит за пределы данной книги, однако важно понимать, что на статистическую значимость сильное влияние оказывает величина наблюдаемых корреляций (и других наблюдаемых величин эффекта, как только что было сказано). При прочих равных условиях более высокие корреляции с большей вероятностью указывают на статистически значимый результат. Таким образом, надежность косвенно влияет на статистическую значимость - более высокая надежность позволяет получать более высокие величины эффекта, которые, в свою очередь, увеличивают вероятность статистически значимого результата. Напротив, низкая надежность может вносить вклад в отсутствие статистической значимости -- низкая надежность ослабляет наблюдаемые величины эффекта, которые, в свою очередь, уменьшают вероятность получить статистически значимый результат. Влияние надежности на величины эффекта и статистическую значимость - это важный вопрос для интерпретации результатов исследования. Представьте, что вы являетесь членом школьного совета, который заинтересован во внедрении программы, направленной на повышение успеваемости учеников,. Совет рассматривает две программы. В основе одной программы лежит гипотеза о том, что самооценка влияет на учебные достижения - ученики с более высокой 168
самооценкой лучше успевают в школе. Следовательно, эта программа разработана так, чтобы повысить самооценку школьников, что. предположительно, благотворно отразится н<Г их учебных достижениях. Вторая возможная программа разработана так, чтобы повысить мотивацию обучения у школьников, что, предположительно, будет иметь положительный эффект на успеваемость учеников. К сожалению, у школы есть возможность профинансировать только одну программу, и совет хотел бы выбрать программу, которая окажет наибольшее влияние на учеников. Психолог развития в местном университете соглашается провести исследование, чтобы определить, какая из программ будет наиболее эффективна. Он собирается привлечь выборку школьников и измерить все три конструкта - учебные достижения, самооценку и мотивацию обучения. Для того чтобы сделать наш пример простым, давайте представим, что исследователь рассчитает две корреляции: а) корреляцию между самооценкой и учебными достижениями, и б) корреляцию между мотивацией обучения и учебными достижениями. Школьный совет будет финансировать программу, переменная в которой окажется сильнее связанной с достижениями, предполагая, что именно она окажет большее влияние на успеваемость. Следовательно, если самооценка сильнее связана с достижениями, школьный совет выберет программу по развитию самооценки. Однако если мотивация связана с достижениями сильнее, школьный совет будет финансировать мотивационную программу. Исследователь собирает данные и обнаруживает, что корреляция между самооценкой и достижениями (г = 0,33) несколько выше корреляции между мотивацией и достижениями (г = 0,26). И вот уже школьный совет готов решить финансировать программу по развитию самооценки. Однако вы задумываетесь и спрашиваете исследователя о надежности трех инструментов, которые он использовал. Несмотря на то что исследователь удивлен сложностью вашего вопроса, он сообщает вам, что тест достижений имеет надежность 0,86, опросник самооценки - надежность 0,80, а опросник мотивации - 0,40. Что вы думаете об этой психометрической информации? Влияет ли она на ваше решение о том, какую из программ следует финансировать? Она должна повлиять. Задумайтесь: получается, что опросник самооценки более надежен, чем мотивационный опросник. Как уже обсуждалось, при прочих равных условиях более высокая надежность дает более высокие наблюдаемые корреляции. Но обратите внимание, что корреляция с мотивацией (г = 0,26) лишь ненамного ниже корреляции с самооценкой (г = 0,33), даже, несмотря на то, что опросник мотивации имеет существенно более низкую надежность (надежность = 0,4), чем мотивационный опросник (надежность = 0,80). Поскольку вы знакомы с нашим обсуждением затухания, вы должны вспомнить, что корреляция с мотивацией ослаблена существенно сильнее, чем корреляция с самооценкой. То есть вы начинаете думать, что наблюдаемая корреляция с мотивацией гораздо ниже истинной корреляции между конструктами по сравнению в наблюдаемой корреляцией с самооценкой. Действительно, вам следует для обоих случаев сделать поправку на затухание, используя уравнение 7.4: 169
Корреляция с поправкой между мотивацией и достижениями равняется: 0,26 ' " 7(0,86X0,40) г =0,44. Корреляция с поправкой между самооценкой и достижениями равняется: 0,33 > Х‘У- ~ 7(0,86)(0,40) rTV. = 0,40. Этот несложный анализ обнаружил важный факт, который потенциально может иметь большое значение для школьного совета. После поправки на затухание, стало понятно, что истинная («исправленная») корреляция с мотивацией на самом деле несколько выше истинной корреляции с самооценкой. То есть, если в данном случае выполняются допущения классической теории тестов, значит, мотивация сильнее связана с достижениями, чем самооценка. На основании этих данных школьный совет может изменить свое решение в пользу мотивационной программы вместо самооценочной. Надеемся, что этот результат послужит красноречивой иллюстрацией необходимости интерпретации результатов исследований в контексте надежности. Те из нас, кто читает или проводит исследования и не принимает в расчет влияние ошибки измерения, рискуют неверно истолковать результаты и прийти (или поверить) к ошибочным заключениям. Этот вопрос особенно важен, когда сравниваются два или несколько результатов, как в примере со школьным советом. Два или более результата будут отличаться анализируемыми конструктами и инструментами, с помощью которых эти конструкты измерены. Если разница в измерительных инструментах не принимается в расчет, тогда любые наблюдаемые различия в результатах могут быть ошибочно объяснены различиями в конструктах. Необходимость использования высоко надежных инструментов - это второе важное для ученых следствие влияния ошибки измерения (то есть низкой 170
надежности) на наблюдаемые корреляции. Никогда нельзя игнорировать затухание, потому что наши измерения никогда не бывают идеальными. Однако проблема затухания может быть сведена к минимуму, если исследователи в своей работе будут использовать высоко надежные инструменты. Если ученые смогут использовать высоко надежные инструменты, тогда они смогут быть достаточно уверены в том, что наблюдаемые связи между их измерениями являются достаточно точными оценками истинных корреляций между интересующими их конструктами. Несмотря на все преимущества высоконадежных инструментов, существует, по меньшей мере, две причины, по которым исследователи могут применять тесты с низкой надежностью. Первая причина - это отсутствие высоконадежных инструментов для измерения интересующих конструктов. В этом случае исследователь должен выбирать между использованием инструмента с низкой надежностью и попыткой разработать высоконадежный инструмент с соответствующими затратами времени и усилий. Разумеется, нет никакой гарантии, что затраченные время и усилия оправдают себя, и исследователю удастся разработать высоконадежный инструмент, поэтому такая альтернатива выглядит рискованно. Вторая причина, по которой ученые могут использовать инструменты с низкой надежностью, состоит в том, что они просто не дали себе труда найти надежный инструмент. В психологии существуют тысячи инструментов для измерения всевозможных конструктов, однако иногда бывает сложно найти или получить эти инструменты. Некоторые инструменты публикуются и потому легко доступны. Другие инструменты публикуются, но защищены авторскими правами, и потому их приобретение требует денег и подтверждения квалификации исследователя для их использования. Некоторые тесты приводятся в исследовательской литературе, но недостаточно подробно описаны для того, чтобы другой ученый мог ими воспользоваться. Таким образом, исследователь, желающий применить высоконадежный инструмент для измерения определенного конструкта, может столкнуться с нелегкой задачей поиска того, какие инструменты существуют и какие являются наиболее надежными. Кроме того, ученому нужно получить инструмент (или инструменты), которые наиболее хорошо соответствуют его задачам. Несмотря на то что в каких-то случаях это может быть несложно, в других ситуациях это может потребовать денег, усилий и большого терпения. Как описано в данном разделе, ученые должны решить, стоят ли потенциальные усилия по поиску и получению высоконадежных инструментов возможных выгод, которые они могут дать. В большинстве случаев результат того стоит. Третье важное следствие того факта, что надежность влияет на наблюдаемые корреляции, состоит в том, что исследователям необходимо сообщать оценочные значения надежности своих инструментов. Выше уже говорилось о важности интерпретации результатов в контексте надежности. Однако читатели смогут это сделать, только если авторы тестов приводят соответствующую информацию. Следовательно, если вы проводите исследование и готовите отчет в виде дипломной работы, диссертации или статьи для публикации, вы должны включить туда оценочные значения 171
надежности. Оценки надежности (например, коэффициент альфа) могут быть легко рассчитаны в популярных статистических пакетах (например, SPSS, SAS). Во многих исследовательских отчетах оценки надежности приводятся вместе с другими базовыми описательными статистиками - например, средними и стандартными отклонениями. Как автор, вы должны быть готовы включить информацию, а как читатель, вы должны ожидать ее найти и подумать над ней (как и сам автор теста, конечно!). Если вы читаете отчет об исследовании, в котором отсутствуют данные о надежности, вы можете смело связываться с автором и запрашивать соответствующую информацию. Подведем итог: надежность имеет важные последствия для исследований поведения. Наряду с истинными корреляциями между измеряемыми психологическими конструктами надежность влияет на связи между измерениями. Несмотря на то что исследователи должны стремиться использовать наиболее надежные из имеющихся инструментов, они не всегда могут это сделать. Следовательно, недостаток надежности ослабляет результаты их статистического анализа и потенциально ведет к ошибочной интерпретации полученных данных. Вместе с теми, кто проводит исследования, те, кто их читает, должны при интерпретации результатов делать поправку на затухание эффектов неидеальных измерений. Анализ поведения в практике: оценка индивидуального тестового балла Психологи и другие специалисты часто используют психологические тестовые баллы для принятия решений, которые могут иметь важные последствия для жизней людей. Например, баллы по тестам интеллекта могут использоваться судом для принятия решения о возможности вынесения смертного приговора осужденным за убийство. Вероятно, это крайний пример того, как тестовые баллы могут влиять на наши жизни, однако он показывает, насколько важно иметь надежные баллы. Было бы, по меньшей мере, трагично, если бы кого-то приговорили к смерти на основании ненадежных баллов по тесту интеллекта. Есть также бесчисленное множество других, пусть не столь драматичных, ситуаций, в которых надежность баллов по психологическим тестам может иметь значение для жизней обычных людей. Детей часто переводят из стандартных классов в особые на основании показателей интеллекта и успеваемости. Такие тесты, как SAT (Scholastic Assessment Test) и GRE (Graduate Record Examination), используются для принятия решений о приеме в колледжи; работодатели часто используют тесты для принятия решений о повышении в должности. Школьные учителя могут не придавать большого значения проблеме надежности тестов, когда они проводят контрольные работы в форме тестов, однако баллы за эти контрольные могут иметь большое влияние на будущее учеников. 172
Надежность теста может иметь исключительное влияние на качество решений, которые принимаются на основании тестовых баллов. Вспомните, что никогда нельзя знать «истинный» уровень человека по ненаблюдаемому психологическому конструкту. Например, невозможно знать истинный уровень интеллекта человека. Баллы по психологическим тестам используются для того, чтобы показать истинный уровень человека по какой-то психологической характеристике, но балл человека по тесту - это всего лишь оценочное значение этого уровня. Поскольку тестовые баллы являются всего лишь оценочными значениями реальных психологических характеристик людей и поскольку решения о жизни людей часто основываются преимущественно на этих баллах, необходимо оценивать не только качество тестовых баллов в целом, но и качество конкретных баллов, полученных человеком по тесту. То есть существуют ситуации, в которых желательно измерить точность индивидуального тестового балла в качестве оценки уровня психологической характеристики, которым обладает человек. Как станет понятно, надежность тестовых баллов может быть использована для вычисления информации, которая поможет нам оценить качество конкретного тестового балла. Два важных источника информации могут помочь нам оценить тестовый балл человека. Первый источник - это точечная оценка, особое значение, которое толкуется как «лучшая оценка» количества психологической характеристики, свойственной человеку. Как увидит читатель, есть два способа получения точечной оценки для конкретного человека. Второй источник информации, который помогает нам оценить индивидуальный тестовый балл, - это доверительный интервал. Доверительный интервал отражает интервал значений, который интерпретируется как интервал, в котором вероятнее всего находится истинный балл. Логика доверительных интервалов основана на понимании того, что наблюдаемый балл - это всего лишь приблизительная оценка истинного балла. Доверительный интервал дает идею точности оценочного значения истинного балла. Если выясняется, что доверительный интервал для наблюдаемого балла широк, можно сделать вывод о том, что наблюдаемый балл является неточной точечной оценкой индивидуального истинного балла. Как станет понятно, эти значения - точечные оценки и доверительные интервалы - находятся в прямой зависимости от надежности тестовых баллов. Точечная оценка истинных баллов Два вида точечных оценок могут быть выведены из наблюдаемого балла человека. Первая точечная оценка основывается исключительно на наблюдаемом балле человека. Когда человек проходит тест в определенный момент времени, то его наблюдаемый балл сам по себе является точечной оценкой. Более того, это единственная лучшая оценка количества измеряемой психологической характеристики на тот момент, когда испытуемый выполнял тест. Например, если вы даете кому-то тест самооценки, его балл по тесту будет точечной оценкой его истинного балла самооценки. 173
Вторую точечную оценку иногда называют уточненной оценкой истинного балла, она принимает во внимание ошибку измерения. Вспомните еще раз, что на наблюдаемый тестовый балл по любому тесту влияет ошибка измерения. Поскольку тестирование никогда не бывает идеальным, тестовый балл человека может быть несколько завышен или занижен за счет действия таких ситуативных факторов, как усталость, рассеянность внимания и т. д. Следовательно, тестовый балл человека в конкретный момент времени является искусственно низким или высоким по сравнению с баллом, который тот же самый человек мог бы получить при повторном тестировании. Кстати, если человек проходит один и тот же тест дважды, то, вероятнее всего, он получит два наблюдаемых балла, которые хоть немного, но отличаются друг от друга. Оба наблюдаемых балла могут быть рассмотрены как точечные оценки истинного балла человека. Имея представление о надежности и природе ошибки измерения, можно использовать наблюдаемый балл человека, полученный в одной ситуации тестирования, для того, чтобы дать оценку его возможного балла во второй ситуации тестирования. При этом уточненная оценка тестового балла отражает эффект, получивший название регрессии к среднему. Регрессия к среднему относится к вероятности того, что во втором тестировании индивидуальный балл человека, скорее всего, будет ближе к групповому среднему, чем его балл в первом тестировании. То есть если наблюдаемый балл человека выше среднего в первом тестировании, то, вероятнее всего, во втором тестировании он покажет балл чуть ниже (то есть ближе к среднему). Аналогично, если наблюдаемый балл в первом тестировании ниже среднего, то во втором тестировании, скорее всего, он будет несколько выше (то есть ближе к среднему). Такой прогноз основан на логике классической теории тестов и случайности ошибки измерения. В главе 5 было показано, что ошибка измерения считается случайной величиной, которая в определенной степени влияет на все баллы - искусственно повышая некоторые баллы (которые становятся относительно большими) и искусственно понижая другие (которые становятся относительно низкими). Уточненная оценка тестового балла направлена на то, чтобы отразить различие в наблюдаемых тестовых баллах человека, которое возникает в двух ситуациях тестирования. Величина и направление этого различия будет являться функцией трех факторов: а) надежности тестовых баллов, б) величины различий между исходным тестовым баллом и средним тестовым баллом, в) направлением различия между исходным тестовым баллом и средним тестовым баллом. Эти факторы могут быть использованы для расчета уточненной оценки тестового балла с помощью следующего уравнения: Xcs=X + Ra{Xo-X\ где Xest - оценочное значение истинного балла (то есть оценочное значение по второму тестированию), X — среднее тестовых баллов, Rw - 174
надежность теста, а Хо - наблюдаемый балл. Представьте, что у вас есть баллы по тесту с множественным выбором ответа, который был проведен в школьном классе. Всего тест включает 40 вопросов, в среднем ученики справлялись с 30. Представьте, что надежность теста равняется 0.90 (это очень высокая надежность для большинства школьных тестов). Если ученик получил 38 баллов за тест, то оценочное значение его истинного балла будет равняться: Xcs, =30 + 0,90(38-30) Л„ = 37,2. Заметьте, что оценочное значение истинного балла (37,2) ближе к среднему, чем был первоначальный наблюдаемый балл (38). Таким образом, уточненная оценка истинного балла стремится учесть вероятную регрессию к среднему. Есть, как минимум, две важные вещи, которые следует помнить про уточненную оценку истинного балла. Во-первых, надежность теста влияет на разницу между оценкой истинного балла и наблюдаемым баллом. Более конкретно, со снижением надежности увеличивается разница между уточненной оценкой истинного балла и наблюдаемым баллом. Эта закономерность отражает тот факт, что регрессия к среднему более вероятна (или более ощутима), когда на тестовые баллы влияет большая ошибка измерения. Например, представьте, что надежность школьного теста равняется 0,5, и мы рассчитали уточненную оценку истинного балла ученика с наблюдаемым баллом 38: Xes, =30 + 0,50(38-30) Ля =34. Таким образом, для человека с наблюдаемым тестовым баллом 38 прогнозируемый эффект регрессии к среднему составляет 4 балла (38 - 34 = 4) для теста с низкой надежностью, но он был менее 1 балла (38 - 37,2 = 0,8) для теста с высокой надежностью. Второе важное следствие уточненной оценки истинного балла состоит в том, что близость наблюдаемого балла к экстремуму влияет на разницу между уточненной оценкой истинного балла и наблюдаемым баллом. Более точно: разница будет больше для наблюдаемого балла, относительно близкого к экстремуму (высокого или низкого), чем для относительно умеренного балла. Например, давайте рассчитаем уточненную оценку истинного балла для человека с наблюдаемым баллом 22 (то есть на 8 баллов ниже среднего 30) для теста с надежностью 0,9: 175
Xesl = 30 + 0,90(22-30) = 22,8. Обратите внимание, что в этом случае уточненная оценка истинного балла на 0,8 балла ближе к среднему, чем наблюдаемый балл. Теперь давайте рассчитаем уточненную оценку для человека с наблюдаемым баллом 27 (То есть не столь далеким от экстремума, а всего на 3 балла ниже среднего 30): =30 + 0,90(27-30) = 27,3. Заметьте, что эта уточненная оценка истинного балла всего на 0,3 балла ближе к среднему, чем наблюдаемый балл. Таким образом, уточнение внесло более существенную поправку в балл, более далекий от среднего (22), чем в балл, более близкий к среднему (27). Вас может интересовать, какой из баллов - Xesl или Хо - является более точной оценкой истинного балла. Наблюдаемый балл - это неискаженная оценка истинного балла, и потому он является лучшей оценкой истинного балла, но уточненная оценка истинного балла является лучшей оценкой прогнозируемого истинного балла. Если вы проводите тест в классе и кто-то выполняет его очень хорошо, а вы используете эту информацию для предсказания оценки этого человека за следующий тест, то уточненная оценка с поправкой на регрессию будет, по всей вероятности, более точным прогнозом, чем его наблюдаемый балл по первому тесту. Несмотря на то что идеи оценки истинного балла и регрессии к среднему устойчиво появляются в большинстве попыток оценки индивидуальных баллов по тесту (см., например, Wechsler, 2003а, 2003b), есть причины, по которым к этим идеям следует относиться с осторожностью. Во-первых, как уже упоминалось, наблюдаемый балл по тесту является лучшей оценкой психологического свойства, которое пытаются измерить. Кроме тех случаев, когда необходимо предсказать балл человека по следующему тесту, нет особых причин для того, чтобы проводить коррекцию наблюдаемых баллов регрессией к среднему. Во-вторых, несмотря на то что многие психологи считают, что регрессия к среднему - это по большому счету математическая данность, Рогоза (Rogosa, 1995) показал, что в некоторых случаях это не так. Тем не менее, как покажет обсуждение доверительных интервалов истинных баллов, практика перевода наблюдаемых баллов в уточненные оценки является весьма распространенной. 176
Доверительные интервалы истинных баллов На практике точечные оценки истинных баллов обычно дают вместе с доверительными интервалами истинных баллов. Грубо говоря, доверительные интервалы отражают точность точечных оценок истинного балла человека. Допустим, например, что ребенок прошел тест Векслера (Wechsler Intelligence Scale for Children, WISC) и набрал 106 баллов. Считая этот наблюдаемый балл оценкой истинного балла ребенка, можно рассчитать доверительный интервал и заключить, что «с 95% уверенностью IQ-балл ребенка лежит в границах 100 - 112 баллов» (Wechsler. 2003b. р. 37). Ширина доверительного интервала (например, 12 баллов) отражает точность точечной оценки. Вероятно, вы не удивитесь, когда узнаете, что точность тесно связана с надежностью - тесты с высокой надежностью дают оценки, которые достаточно точны. Связь между надежностью и точностью доверительного интервала обеспечивается через стандартную ошибку измерения (seHI). Как обсуждалось в главе 5, se,„ представляет среднюю величину баллов ошибки, влияющих на наблюдаемые баллы. Чем больше sem, тем больше средняя разница между наблюдаемыми и истинными баллами. Таким образом, sem может рассматриваться как показатель ошибки измерения, и она тесно связана с надежностью. На самом деле уравнение 5.16 представляет точную связь между стандартной ошибкой измерения (sem), надежностью (7?ЛЛ) и стандартным отклонением наблюдаемых баллов (5О): s^,=so^-Rxx- Для нашего школьного теста можно узнать, что оценка надежности равна 0,9 и что стандартное отклонение наблюдаемых баллов so = 6. Отсюда можно дать оценку стандартной ошибки измерения: sem = 6-71-0,90 зе,„ = 1,90 После того как получена оценка стандартной ошибки измерения для набора тестовых баллов, можно рассчитать доверительный интервал вокруг оценки истинного балла человека. Например, если кто-то получил 32 балла по школьному тесту, исследователя может интересовать 95% доверительный интервал вокруг этого балла. Для его расчета можно использовать следующее уравнение: 95% доверительный интервал = Хо ± (1,96)(sem ), (7.6) 177
где Хи - наблюдаемый тестовый балл (то есть точечная оценка истинного балла человека), sem — стандартная ошибка измерения тестовых баллов, а 1,96 отражает тот факт, что нас интересует 95% доверительный интервал, а не 90% или любая другая «степень уверенности» (другие «степени уверенности» будут рассмотрены позже). Для нашего теста 95% доверительный интервал вокруг балла 32 - от 28,3 до 35,7: 95% доверительный интервал=32±(1,96)(1.90) 95% доверительный интервал=32±3,7 95% доверительный интервал = от 28,3 до 35,7. Следуя логике приведенной выше в цитаты из Векслера, этот результат можно истолковать так: можно быть на 95% уверенным, что истинный балл человека попадает в интервал от 28,3 до 35,7. К сожалению, точное толкование интервалов истинных баллов несколько противоречиво. Согласно теории истинных баллов, наблюдаемые баллы распределены нормально вокруг истинных баллов. Поскольку наблюдаемый балл - это лучшая оценка истинного балла, то наблюдаемый балл представляет собой среднее этого распределения. В нашем примере балл 32 лежит внутри 95% доверительного интервала, который простирается от 28,3 до 35,7. Но что означает сказать, что истинный балл лежит внутри этого доверительного интервала? Вероятно, наиболее часто предлагаемый ответ на этот вопрос таков: «Существует 95% вероятность того, что истинный балл попадает в доверительный интервал». Другой способ сказать то же самое: «Вероятность того, что доверительный интервал содержит истинный балл, составляет 95%». Эти утверждения можно истолковать двумя способами. Они могут означать, что существует 95% вероятность, что истинный балл человека попадет в указанный интервал при повторном тестировании по этому же или параллельному тесту. Или они могут означать, что если бы вы попросили много людей с таким истинным баллом пройти этот тест, то у 95% наблюдаемый балл попал бы в данный интервал. Однако существуют расхождения, касающиеся этих интерпретаций. Например, Кнапп (Knapp, 2005) возражает против использования ответов типа «существует 95% вероятность, что истинный балл попадает в доверительный интервал», поскольку такие суждения предполагают, что истинные баллы отклоняются вокруг наблюдаемых баллов, хотя очевидно, что это не так. Нам кажется весьма симпатичной позиция Кнаппа, однако в большинстве случаев, когда сообщаются доверительные интервалы, подразумевается, что истинные баллы попадают в доверительный интервал. Как было отмечено ранее, точность оценки истинного балла тесно связана с надежностью. Коротко говоря, высоко надежные тесты будут давать более узкие доверительные интервалы, чем менее надежные тесты. Как мог заметить читатель, для высоко надежного теста (Rxx = 0,9), где se„, равнялась 1.9, доверительный интервал включал 7,4 балла (35,7 - 28,3 = 7,4). Величина интервала отражает его точность, и менее надежный тест будет давать более широкий (большой) доверительный интервал, что будет говорить о менее 178
точной оценке истинного балла. Например, давайте представим, что у нашего теста то же самое стандартное отклонение наблюдаемых баллов, как в предыдущем примере (so = 6), но меньшая нйдежность (скажем, Rxx = 0,5). В этом случае стандартная ошибка измерения будет равняться 4,2: sem = 6д/1 - 0,50 sem = 4,24 Заметьте, что se„, в данном случае больше, чем в предыдущем примере с надежностью 0.9 (там se„, равнялась 1.9). Как было видно, 5в„, имеет прямой эффект на доверительный интервал, В случае теста с низкой надежностью 95% доверительный интервал вокруг балла 32 равняется: 95% доверительный интервал=32±(1,96)(4б24) 95% доверительный интервал=32±8,3 95% доверительный интервал = от 23,7 до 40,3. Таким образом, тест с низкой надежностью дает значительно менее точный (то есть более широкий) доверительный интервал, чем тест с высокой надежностью. Конкретно, тест с надежностью Rxx = 0,5 дал интервал в 16,6 баллов (40,3 - 23,7 = 16,6). однако мы видели, что тест с надежностью Rxx= 0,9 давал интервал всего в 7,4 балла. Утверждение «мы на 95% уверены в том, что истинный балл человека лежит между 28,3 и 35,7» гораздо более сильное и точное, чем утверждение «мы на 95% уверены в том, что истинный балл человека лежит между 23,7 и 40,3». Для наших целей важной идеей данного раздела является то, что надежность влияет на нашу уверенность в прогнозе и точность оценки истинного балла человека по тесту. То есть надежность влияет на стандартную ошибку измерения, которая, в свою очередь, влияет на ширину доверительного интервала вокруг оцененного истинного балла испытуемого. Кроме этого центрального положения мы должны заметить, что существуют небольшие различия в том, как доверительные интервалы рассчитываются и объединяются с оценками истинных баллов. Доверительные интервалы могут быть рассчитаны для разных степеней уверенности (например, 99% или 90% вместо 95%), в вычислениях может быть использована стандартная ошибка измерения или величина, которая называется «стандартная ошибка оценки» (на которую также влияет надежность). Доверительные интервалы могут быть рассчитаны применительно к наблюдаемым баллам или уточненным оценкам истинных баллов (как было описано в разделе выше). Несмотря на то что такие различные способы оценки появляются в некоторых приложениях психологического тестирования, их подробности находятся за пределами интересов настоящей дискуссии. 179
Вам могло показаться, что вопросы, связанные с оценочными значениями истинных баллов и доверительных интервалов, понятны лишь посвященным, однако они имеют важные последствия для практического использования тестов и принятия решений о людях. Например, дети часто считаются имеющими отставания умственного развития, если их IQ ниже 70. Однако известно, что баллы IQ имеют определенную степень ненадежности (несмотря на то что надежность стандартных индивидуальных тестов интеллекта очень высока). Степень ненадежности тестовых баллов должна влиять на вашу интерпретацию наблюдаемого балла; в какой степени наблюдаемый балл отражает истинный балл ребенка? Представьте, что ребенок прошел тестирование и получил 69 баллов. Насколько можно быть уверенным, что истинный балл ребенка ниже 70, и насколько вероятно то, что при повторном тестировании балл ребенка окажется выше 70? Если ребенок выполнит этот тест еще раз, то с большой вероятностью его балл IQ повысится из-за регрессии к среднему. В какой момент необходимо учесть все эти факторы, и как это сделать, определяя интеллектуальный статус ребенка? Совершенно необходимо, чтобы люди, принимающие такого рода решения, были знакомы с проблемами, связанными с интерпретацией психологических тестовых баллов. Надеемся, что вы осознаете эти вопросы и понимаете, насколько важную роль в них играет надежность. Конструирование и доработка теста В предыдущих двух главах было описано несколько важных путей, которыми надежность и ошибка измерения влияют на исследования и практику в науках о поведении. Для вас должно быть очевидно, что высокая надежность является желательным качеством любого психологического теста. Действительно, анализ надежности - это важная сторона конструирования и доработки тестов. В этой главе будет представлено несколько способов оценки информации о пунктах и отдельно отмечена та роль, которую часто играет надежность. Как было показано в предыдущей главе, на надежность как внутреннюю согласованность влияют два фактора - длина теста и согласованность между частями теста. При прочих равных условиях более длинные тесты надежнее более коротких, а тесты с более высокой внутренней согласованностью более надежны по сравнению с тестами, чья внутренняя согласованность ниже. В процессе разработки и совершенствования тестов большое внимание уделяется согласованности частей теста - обычно самих тестовых пунктов. То есть разработчики часто тщательно изучают статистические характеристики самих пунктов. Они делают это для того, чтобы выявить пункты, которые следует удалить из теста или те, которые нужно переработать для того, чтобы улучшить их психометрические показатели. В целом пункты, увеличивающие внутреннюю согласованность, предпочтительнее пунктов, ухудшающие внутреннюю согласованность теста. 180
Обсудим три взаимосвязанные характеристики пунктов, которые важны при конструировании и доработке тестов - средние пунктов, дисперсии пунктов и дискриминативность пунктов. По отношению к надежности наибольшее значение имеет дискриминативность пунктов, которая, как станет понятно- тесно связана с надежностью. В нашем обсуждении мы коснемся того, каким образом эти три характеристики пунктов влияют на вклад пункта (или его отсутствие) во внутреннюю согласованность. Для того чтобы проиллюстрировать эти характеристики, будем использовать гипотетические данные из табл. 7.1. Эти данные представляют ответы 10 человек на тест, состоящий из 5 бинарных пунктов. Правильные ответы закодированы «1», неправильные - «0». Поскольку тест состоит из нескольких пунктов, то общий балл является составным баллом, и разработчик может быть озабочен оценкой и улучшением психометрического качества теста. С помощью процедуры «Анализ надежности» (Reliability Analysis) в статистическом пакете SPSS, было получено несколько таблиц, которые помогут нам оценить психометрическое качество теста (см. табл. 7.2). Верхний раздел показывает нам, что оценка надежности теста из 5 пунктов равняется всего лишь 0,59 (коэффициент альфа). По причинам, которые обсуждались ранее в этой главе, предпочтение имеет тест с более высокой надежностью. Поэтому исследователь может пожелать доработать тест таким образом, чтобы повысить его надежность для будущего использования. Результаты анализа, проведенного в SPSS, помогут оценить, в какой степени каждый из пунктов улучшает или ухудшает надежность теста. Эта информация, в свою очередь, может помочь произвести необходимые доработки. Таблица 7.1 Пример данных для конструирования и доработки теста Респондент Пункт Общий балл Общий балл без пункта 1 Общий балл без пункта 2 1 2 3 4 5 Мария 1 1 1 1 1 5 4 4 Деметриус 1 1 1 1 1 5 4 4 Ройхит 1 1 0 0 1 3 2 2 Джеймс 1 0 1 1 1 4 3 4 Антонио 0 0 1 0 1 2 2 2 Эстебан 0 1 0 1 1 3 э 2 Зоэ 0 1 1 0 1 3 3 2 Эмори 1 0 0 0 0 1 0 1 Фитц 1 0 0 0 0 1 0 1 Клодетта 0 0 0 0 1 1 1 1 181
Дискриминативность пунктов и другие вопросы, связанные с внутренней согласованностью Как было показано, один из ключей к внутренней согласованности, - это степень, в которой пункты теста согласованы друг с другом. Более конкретно, внутренняя согласованность - это степень, в которой различия между ответами людей на один пункт согласованы с различиями в ответах людей на -другой пункт теста. Таким образом, внутренняя согласованность внутренне связана с корреляциями между пунктами. Если будет обнаружено, что пункт относительно сильно коррелирует с другими пунктами теста, тогда можно будет сделать вывод о том, что данный пункт в целом согласуется с другими и, следовательно, повышает внутреннюю согласованность теста. Напротив, если будет обнаружено, что пункт относительно слабо коррелирует с другими пунктами теста, можно будет сделать вывод о том, что данный пункт в целом не согласуется с другими пунктами и, вероятно, снижает внутреннюю согласованность теста. Держа все эти соображения в голове, можно начать процесс совершенствования теста с анализа корреляций между всеми пунктами теста. В табл. 7.2 эти корреляции представлены в табличке с названием «Inter-Item Correlation Matrix» (матрица межпунктовых корреляций). Внимательный взгляд на эти корреляции обнаруживает возможную проблему с тестом. Обратите внимание, что пункт 1 не коррелирует с пунктом 2 и пунктом 3, очень слабо коррелирует с пунктом 4 (г = 0,25) и отрицательно коррелирует с пунктом 5. Эти корреляции указывают нам на то, что пункт 1 не согласован с другими пунктами теста. Напротив, остальные четыре пункта в целом положительно коррелируют друг с другом. В общем и целом межпунктовые корреляции говорят о том, что пункты со второго по пятый согласованы друг с другом, а пункт 1 необходимо из теста удалить. Несмотря на то что межпунктовые корреляции проливают свет на внутреннюю согласованность теста, есть и более эффективные способы оценки согласованности. Межпунктовые корреляции в нашем случае достаточно прозрачны - у нас немного пунктов, и корреляции дают весьма очевидную информацию. Большинство реальных ситуаций разработки тестов могут быть гораздо более запутанными - тесты включают больше пунктов, и корреляции между ними более сложны. Поэтому анализ матрицы межпунктовых корреляция может оказаться несколько непрактичным занятием для реальных данных. К счастью, существуют и другие методы. Дискриминативность пунктов - это частое понятие для оценки степени, в которой пункт может влиять на внутреннюю согласованность. Коротко говоря, дискриминативность пунктов - это степень, в которой пункт отличает людей, получающих высокий балл по всему тесту, от тех, кто получает низкий балл по всему тесту. С точки зрения надежности, мы предпочитаем иметь пункты с высокими, а не низкими значениями дискриминативности. 182
Таблица 7.2 Результаты анализа надежности, выполненного в SPSS для данных из таблицы 7.1 Оценки надежности Альфа Кронбаха Альфа Кронбаха по стандартизованным пунктам Кол-во пунктов 0.59 0.594 5 Матрица межпунктовых корреляций Пункт 1 Пункт 2 Пункт 3 Пункт 4 Пункт 5 Пункт 1 1 0 0 0.25 0.408 Пункт 2 0 1 0.2 0.408 0.5 Пункт 3 0 0.200 1 0.408 0,5 Пункт 4 0,25 0.408 0,408 1 0,408 Пункт 5 -0,408 0,5 0,5 0,408 1 Статистики пункт-общий балл Среднее по шкале, если пункт удален Дисперсия шкалы, если пункт удален Уточненная корреляция пункта с общим баллом Квадратная множественная корреляция Альфа Кронбаха, если пункт удален Пункт 1 2,2 2,178 -0,029 0,410 0,721 Пункт 2 2,3 1,567 0,421 0,337 0,492 Пункт 3 2,3 1,567 0,421 0,337 0,492 Пункт 4 2,4 1,378 0,623 0,41 0,366 Пункт 5 2 1,778 0,395 0.627 0.517 Статистики по пунктам Среднее Стандартное отклонение Кол-во пунктов Пункт 1 0,6 0,516 10 Пункт 2 0.5 0.527 10 Пункт 3 0.5 0,527 10 Пункт 4 0,4 0,516 10 Пункт 5 0.8 0,422 10 183
Существует множество способов операиионализапии дискриминативности пункта, один из которых - корреляция" пункта с общим баллом. Можно рассчитать общий балл по тесту (см. табл. 7.1) и затем рассчитать корреляцию между пунктом и общим баллом по тесту. Полученная корреляция называется корреляцией пункта с общим баллом, и она представляет степень, в которой различия между ответами людей на пункт согласованы с различиями в их общем балле по тесту. Высокая корреляция пункта с общим баллом указывает на то, что пункт в целом согласован с тестом (который, разумеется, является функцией всех пунктов внутри теста), и это желательная характеристика. Напротив, низкая корреляция пункта с общим баллом указывает на то, что пункт не согласован с тестом в целом, и это нежелательная характеристика с точки зрения надежности. Табличка под названием «Item-Total Statistics» (статистики пункт-общий балл) в табл. 7.2 представляет «уточненные» корреляции пункта с общим баллом, которые являются корреляциями между пунктом и «уточненным» общим баллом. Уточненная корреляция пункта с общим баллом для пункта 1 - это корреляция между ответами на пункт 1 и суммой остальных пунктов теста. То есть «уточненный» общий балл при анализе пункта 1 - это общий балл, полученный суммированием всех остальных пунктов, кроме пункта 1 (см. колонку «Общий балл без пункта 1» в табл. 7.1). Если рассчитать корреляцию между пунктом 1 и «общим баллом без пункта 1», то получится значение г = - 0,29. Это значение говорит нам о том, что пункт 1 в целом не согласован с ответами на остальные 4 пункта. Для того чтобы рассчитать уточненную корреляцию пункта с общим баллом, SPSS каждый раз вычисляет новый уточненный общий балл для каждого пункта. Как было видно, уточненная корреляция между пунктом и общим баллом для пункта 1 требует расчета общего балла, в который не входит пункт 1. Аналогично, уточненная корреляция между пунктом и общим баллом для пункта 2 потребует расчета общего балла, в который не входит пункт 2, и т. д. В результатах, которые выдает SPSS, все корреляции пункта с общим баллом - это положительные значения разумной величины, кроме корреляции для пункта 1. На основании полученных данных нам следует либо удалить, либо переработать пункт 1. Другая форма дискриминативности пункта особенно подходит для бинарных пунктов, подобных тем, что у нас в табл. 7.1. Индекс дискриминативности пункта (D) сравнивает долю людей с высоким общим баллом, которые ответили на пункт верно, с долей людей с низким общим баллом, которые также ответили на пункт верно. Для того чтобы рассчитать этот показатель, можно начать с выделения процента людей с наибольшим общим баллом (скажем, верхних 30% респондентов) и такого же процента людей с наименьшим общим баллом (скажем, нижних 30% респондентов). Для данных в табл. 7.1 в верхние 30% входят Мария, Деметриус и Джеймс, а в нижние 30% - Эмори, Фитц и Клодетта. Для того чтобы рассчитать индекс дискриминативности пункта, затем вычисляем долю людей в каждой группе, которые ответили на пункт верно (обозначены «1» в табл. 7.1). Для пункта 1 мы видим, что все три человека из верхних 30% ответили на пункт верно, то есть 184
Рвыатая = 1- Также мы видим, что только два человека из трех из нижних 30% ответили на пункт верно, то есть р11111Ю1Я=0,(>6. Наконец, мы рассчитываем индекс дискриминативности пункта как разницу между этими двумя значениями: О Рвысокая Рнизкая (7.7) Для пункта 1 индекс дискриминативности равняется 0,33: D = 1 - 0,66, D = 0,33 Результат для пункта 1 говорит нам, что люди из высокой группы чаще отвечают на пункт 1 правильно, чем люди из низкой группы. Обычно индекс дискриминативности пункта лежит между 0 и 1.0, если только люди из высокой группы не отвечают на вопрос правильно с меньшей вероятностью, чем люди из низкой группы. В идеале предпочтительны пункты с высоким индексом D, что будет указывать на то, что люди из высокой и низкой групп сильно отличаются по вероятности дать правильный ответ на вопрос. Несмотря на то что SPSS не дает индексов дискриминативности, их несложно рассчитать. Обратите внимание также на то, что границы высокой и низкой групп (например, 30%) достаточно произвольны - не существует стандартного процента, который по определению предполагает индекс дискриминативности. Результаты анализа, выданные SPSS и представленные в табл. 7.2, содержат два дополнительных типа информации, касающиеся вклада каждого пункта в надежность теста, измеренную как внутренняя согласованность. Несмотря на то что полное описание не входит в цели данной главы, «Squared Multiple Correlation» (квадрат множественной корреляции) - это еще один показатель степени, в которой пункт связан с другими пунктами. Второй тип информации потенциально весьма полезен, несмотря на то, что его смысл прямо вытекает из тех вопросов, которые только что обсудили. «Cronbach’s Alpha if Item Deleted» (Альфа Кронбаха, если пункт удален) дает нам оценку надежности, которую мы получим по тесту, если опустим каждый из пунктов теста. Например, значение «альфы, если пункт удален» для пункта 1 равняется 0,721. Это означает, что если удалить пункт 1, но сохранить остальные четыре пункта, надежность итогового теста из четырех пунктов будет равняться 0,72. Обратите внимание, что это значение очевидно больше, чем оценка надежности для всего теста из 5 пунктов, которая равняется 0,59, как было отмечено ранее. Держа в памяти эти два значения, видно, что удаление пункта 1 действительно улучшит внутреннюю согласованность теста с 0,59 до 0,72. Таким образом, можно резонно полагать, что надежность теста можно существенно улучшить, если удалить пункт 1. Заметьте, что надежность целого теста уменьшится, если удалить любой другой пункт, - остальные четыре значения «альфы, если пункт 185
удален» ниже 0,59. На основании этих результатов можно сохранить пункты 2. 3, 4 и 5 в процессе доработки теста. В приведенном примере было проанализированы несколько взаимосвязанных типов информации, показывающих влияние пункта на надежность тестовых баллов. Например, то, что пункт I имеет относительно низкие корреляции с другими пунктами, указало нам на его несогласованность с остальными пунктами теста. Кроме того, стало понятно, что, несмотря на положительный индекс дискриминативности пункта 1, его уточненная корреляция с общим баллом оказалась очень близка к 0; это также указало на то, что пункт 1 не согласован с общим баллом по тесту в целом. Наконец, стало понятно, что надежность теста повысится, если удалить пункт 1 из теста, что еше раз подтвердило предыдущие результаты, согласно которым пункт I не согласован с другими 4 пунктами. В следующем разделе будут рассмотрены две дополнительные характеристики пунктов, которые иногда оцениваются в процессе доработки тестов. В ходе обсуждения будет показано, каким образом сложность пунктов (то есть средние величины пунктов) и дисперсия пунктов связаны с влиянием пункта на надежность теста. Сложность пунктов (среднее) и дисперсия пунктов Среднее и дисперсия пунктов представляют собой потенциально важные факторы, влияющие на вклад пункта в психометрическое качество теста. С точки зрения надежности среднее и дисперсия пункта важны, поскольку они могут быть связаны со степенью, в которой пункт согласован с остальными пунктами теста. Следовательно, они имеют потенциальное значение для оценки влияния пункта на надежность тестовых баллов. Как уже обсуждалось в главе 3, корреляция отражает степень, в которой разнообразие внутри одной переменной согласовано с разнообразием внутри другой переменной. На самом деле корреляция в большой степени зависит от дисперсии. Корреляция между двумя переменными - это преобразование ковариации между двумя переменными. В свою очередь, ковариация между двумя переменными держится на существования дисперсии каждой переменной. Проще говоря, если переменная (например, ответы на пункт теста) не имеет дисперсии, тогда она не будет коррелировать ни с какой другой переменной. Поскольку между корреляцией и дисперсией существует внутренняя связь, дисперсия пункта имеет потенциальное значение для таких характеристик, как межпунктовые корреляции, корреляция пункта с общим баллом и значение «альфы, если пункт удален». Пункты с ограниченной дисперсией менее склонны иметь хорошие корреляционные характеристики по сравнению с пунктами, имеющими значительную дисперсию. То есть пункты, на которые все респонденты отвечают одинаковым образом (например, все респонденты отвечают правильно или все неправильно), - это плохие пункты с точки зрения надежности. Связь между дисперсией пункта и его психометрическим качеством может быть дополнена средним пункта. В некоторых случаях среднее пункта говорит нам о дисперсии. Большинство психологических тестов имеют практические 186
ограничения по ответам, которые могут давать люди. Например, для теста, представленного в таблице 7.1, максимальный балл по каждому пункту равняется 1, минимальный - 0. «Пол» и «потолок» ограничивают общий балл и имеют последствия для связи между средними и дисперсией пунктов и, следовательно, для значений ковариаций и корреляций между пунктами. Представьте, что пункт 1 (табл. 7.1) имел бы среднее 1. Что бы это говорило о его дисперсии? Поскольку максимальное значение, которое может дать человек, равняется 1, существует лишь один-единственный вариант, при котором пункт 1 будет иметь среднее, равное 1. А именно: пункт 1 будет иметь среднее 1 только, если все респонденты ответили на вопрос правильно. Аналогично, пункт 1 может иметь среднее 0 только, если каждый респондент отвечает на него неверно. Для вас должно быть очевидно, что, если все испытуемые отвечают на пункт одинаково, значит, пункт не имеет дисперсии. Как уже обсуждалось, если пункт не обладает дисперсией, это плохой пункт теста, с точки зрения надежности. Таким образом, пункты, которые имеют средние, близкие к экстремумам (то есть либо очень высокие, либо очень низкие), скорее всего, имеют ограниченную дисперсию и, следовательно, плохие психометрические качества. Среднее иногда интерпретируют как «сложность» пункта. Например, среднее пункта 5 равняется 0,8 (показано в табл. 7.2), это говорит о том, что 80% испытуемых ответили на пункт верно (поскольку мы закодировали правильный ответ «1», а неправильный - «0»). А вот среднее для пункта 4 равняется 0,4, что говорит о том, что всего 40% ответили на пункт правильно. Таким образом, пункт 4 оказался более сложным, чем пункт 5. Для бинарных пунктов (таких, как представлены в табл. 7.1) классическая теория тестов указывает, что лучше всего иметь пункты со сложностью, примерно равной 0,5. Такой показатель обеспечивает максимальную дисперсию и помогает избежать проблем, связанных с низкой надежностью. Резюме В этом разделе было объяснено, каким образом надежность и ошибка измерения влияют на результаты исследований поведения. Было показано, что корреляция между двумя измерительными инструментами определяется надежностями инструментов и корреляцией между измеряемыми психологическими конструктами. Эти два фактора оказывают совокупное влияние на интерпретацию результатов эмпирических исследований. Надежность тестового балла будет также играть роль в интерпретации тестовых баллов. Было показано, каким образом тестовые баллы регрессируют к среднему распределения баллов и каким образом величина этой регрессии зависит от надежности баллов. Надежность влияет на доверительные интервалы вокруг конкретных баллов; надежные тестовые баллы имеют меньшие интервалы по сравнению с менее надежными баллами. 187
Также было представлено несколько способов оценки информации о пунктах теста и отмечена роль, которую надежность часто играет в такого рода анализе. Три взаимосвязанные характеристики пунктов, которые важны при конструировании и доработке тестов: средние, дисперсии и дискриминативность пунктов - обсуждены достаточно подробно. Рекомендуемая литература Обсуждение регрессии к среднему, которое отличается от стандартного понимания данного феномена: Rogosa, D.R. (1995). Myths and methods: Myths about longitudinal research, plus supplemental questions. In J.M Gottman (Ed.), The analysis of change (pp. 3-66). Hillsdale, NJ: Lawrence Erlbaum. Краткое и хорошо оформленное техническое обсуждение затухания: McDonald, R. Р. (1999). Test theory: A unified treatment. Mahwah, NJ: Lawrence Erlbaum (см. стр. 133-136). 188
Часть III Валидность
ГЛАВА 8 Валидность Теоретические основы Представьте, что вы подали документы на работу вашей мечты. Вы потратили немало сил, времени и, возможно, денег, чтобы стать достойным кандидатом на эту должность, и наконец у вас появилась возможность занять ее. Одним из условий приема на работу в этой компании является заполнение личностного опросника. Спустя 1-2 недели после подачи документов и заполнения опросника вам отказывают. Несмотря на то что это не было сказано напрямую, вы догадываетесь, что решение компании отчасти основывается на «результатах» теста, который вы заполняли. Кроме обиды и, возможно, гнева, какую еще реакцию это может вызвать у вас? Вероятно, у вас возникнут вопросы. Вы задумаетесь над тем, что именно измеряет данный опросник. Есть ли какие-то доказательства, что опросник в действительности является хорошим инструментом измерения того, для чего бы он ни был предназначен? Есть ли какие-то теоретические или логические основания считать, что результаты опросника имеют отношение к тому, как вы будете справляться со своей работой? И, самое главное, есть ли достоверные данные, подтверждающие, что результаты опросника действительно являются показателем профессиональной успешности? В ответ на ваши вопросы менеджер по персоналу скажет, что опросник — весомая и неотъемлемая составляющая процедуры приема на работу. Он может сказать, что компания в течение многих лет пользовалась этим опросником, и заверить вас, что по своему личному опыту знает, что этот тест достаточно точно помогает спрогнозировать, какие именно кандидаты станут хорошими работниками. Однако, если тестирование применяется при принятии столь важных решений, необходимо иметь более весомые подтверждения точности и пригодности теста, чем «свой личный опыт». 190
Все эти вопросы относительно опросника - вопросы валидности, которая является, пожалуй, основной проблемой психологических измерений. В данной главе приводится определение валидности,» рассматривается ее значение и смысл, а также приводятся основные типы эмпирических свидетельств, используемых при исследовании валидности теста. Кроме того, описываются различия между несколькими подходами к валидности, разводятся понятия валидности и надежности теста, обсуждается важность психометрических исследований валидности. Читателю станет очевидно, что личный опыт человека, проводящего тестирование, не может служить показателем валидности теста. Что такое валидность? Понятие валидности развивалось на протяжении более 60 лет, и за это время были предложены различные определения. Согласно одному из основных определений, валидность - это «степень того, насколько тест измеряет именно то, для чего он предназначен». Несмотря на то что это определение является относительно общепринятым и недвусмысленным, оно несколько поверхностно. Согласно более точному определению, отражающему более современный этап в развитии психометрики, валидность - это «степень эмпирической и теоретической обоснованности интерпретации тестовых баллов в предполагаемых сферах использования» теста (AERA, АРА, & NCME, 1999, с. 9). Из этого более точного определения можно сделать несколько немаловажных выводов. Во-первых, сам по себе диагностический инструмент не может являться валидным или невалидным. Свойство валидности касается в первую очередь интерпретации тестовых баллов и способов их использования. Рассмотрим в качестве примера шкалу «Добросовестность». входящую в состав пересмотренного личностного опросника NEO П.Т. Коста и Р.Р. Мак-Крея (NEO-P1-R; Costa & McCrae, 1992). NEO-PI-R - это многофакторный опросник, измеряющий 5 относительно независимых факторов, каждый из которых подразделяется на 6 более узких подшкал. Один из «больших» факторов, измеряемых этим опросником, получил название «Добросовестность». Шкала добросовестности состоит из 48 пунктов1, каждый из которых представляет собой утверждение, касающееся убеждений респондента, его интересов, поведения и т. п. Авторы теста предлагают для этой шкалы довольно четкую интерпретацию результатов. Согласно авторам NEO-PI-R, высокие баллы по данному набору пунктов отражают склонность человека к «активному процессу планирования, организации и выполнения поставленных задач», а также «целеустремленность, решительность и большую силу воли» (Costa & McCrae, 1992, с. 16). Термин «пункт» при переводе мы применяем как обобщенное обозначение вопросов, утверждений или заданий теста. (Прим, перев ). 191
Набор пунктов сам по себе не может являться валидным или невалидным. Валидность также не является свойством тестовых баллов, полученных при суммировании 48 пунктов теста. Валидность - это свойство авторской интерпретации тестовых баллов. Корректна ли авторская интерпретация тестовых баллов, полученных на наборе из 48 пунктах, в терминах способности к планированию, организованности и решительности? Если говорить о валидности не только относительно интерпретации результатов теста, то это понятие можно расширить и на «предполагаемые сферы использования» тестовых баллов. Так, шкала добросовестности опросника NEO-PI-R может применяться работодателем при выборе кандидатов на ту или иную должность. Эксперты в области работы с персоналом могут считать, что кандидаты, набирающие высокий балл по шкале добросовестности, станут ответственными, старательными, мотивированными и надежными сотрудниками. На основе такой интерпретации баллов по данной шкале работодатель может применять ее для выявления кандидатов с высоким уровнем добросовестности и при принятии решений о приеме на работу. Но существует ли объективная причина считать, что баллы по шкале добросовестности действительно служат основанием, по которому можно различать потенциально лучших или худших работников? Другими словами, даже если интерпретация баллов по шкале добросовестности NEO-PI-R в качестве «реальной» добросовестности валидна, означает ли это, что данная шкала дает адекватный прогноз качества будущей профессиональной успешности работника? Психологический тест можно сравнить с молотком. Вам могут сказать, что молоток - полезный инструмент, однако польза, которую он приносит, зависит от того, для чего он используется. Если вам нужно вбить или вынуть гвоздь из какой-либо поверхности - молоток очень полезен. Если вам нужно во время работы придержать листок бумаги или, например, пробить участок штукатурки в стене, тогда молоток действительно будет очень полезен. Однако если нужно закрутить гайку, распилить дерево, сменить электрическую лампочку или вызвать мастера, чтобы заделать отверстие в стене, тогда молоток абсолютно бесполезен. Таким образом, слишком грубо и упрощенно говорить, что молоток - полезный инструмент, безотносительного того, для чего он будет использоваться. Так же грубо и упрощенно было бы говорить, что определенный диагностический инструмент, такой как шкала добросовестности в NEO-PI-R, является валидным, не учитывая того, каким образом он будет интерпретирован и использован. Интерпретация баллов по шкале добросовестности в качестве показателя именно добросовестности может быть валидной. Кроме того, использование этой шкалы может помочь вам выбрать добросовестного мастера-ремонтника, однако данная шкала не валидна, например, для измерения интеллекта или экстраверсии. Несмотря на то что понятие валидности касается именно интерпретации тестовых баллов и сферы их использования, а не самого теста, очень часто можно услышать фразу типа: «шкала добросовестности в NEO-PI-R является валидной». Существует, по крайней мере, две причины, по которым специалист, применяющий тест, может высказывать такого рода утверждения, 192
противоречащие приведенному выше определению валидности. Во-первых, у психодиагноста может не быть четкого понимания того, что такое валидность. Несмотря на то что многие психологические тесты, охраняемые авторскими правами, могут приобрести только высококвалифицированные специалисты, не каждый специалист обладает достаточно глубокими познаниями в области психометрики. Вторая причина - это экономия времени. Другими словами, вместо того чтобы говорить, что «интерпретация баллов по шкале добросовестности NEO-PI-R как эмпирических показателей добросовестности валидна», иногда в целях более лаконичного выражения мысли говорится, что «шкала добросовестности в NEO-PI-R является валидной». Это не должно вносить путаницу. В психодиагностике валидность относится к интерпретации и применению тестовых баллов, но не к самому тесту. Следующий важный вывод из определения валидности заключается в том, что валидность - это количественная характеристика и ее нельзя описывать через простое присутствие или отсутствие. Вместо противопоставления «валиден - невалиден» следует противопоставлять сильную валидность интерпретации теста слабой. Не существует никакого магического порога, за которым начинается валидность. Для исследователя валидность должна быть решающим фактором при выборе теста. Хотя такой выбор основывается на многих практических, теоретических и психометрических факторах, тест можно выбирать только при наличии достаточно достоверных доказательств, говорящих в пользу предполагаемой интерпретации и области применения. Либо же исследователю может понадобиться сделать выбор из нескольких тестов, тогда необходимо взвесить, насколько надежными являются эмпирические свидетельства, на которых эти тесты основываются. Например, работодатель для диагностики надежности, ответственности и мотивации кандидатов может применять целый ряд тестов и шкал. Шкала добросовестности NEO-PI-R - разумный выбор, но работодателю необходимо принять во внимание и альтернативные варианты, которые могут даже больше подходить для измерения именно тех характеристик, которые интересуют заказчика. Третьим важным аспектом валидности является то, что валидность интерпретации теста основывается как на теории, так и на эмпирических данных. В гипотетическом примере, приведенном в начале этой главы, менеджер по персоналу утверждает, что знает пользу используемых тестов по собственному опыту. Это не может служить достаточным основанием. Для того чтобы быть уверенным в интерпретации и использовании результатов теста, необходимо эти способы интерпретации и использования теста подвергнуть эмпирической проверке. Кроме того, в современных подходах к проблеме валидности подчеркивается необходимость обоснования предполагаемых интерпретаций и способов применения теста с позиций солидной психологической теории. Хотя многие основательно разработанные психодиагностические инструменты имеют достаточное количество эмпирических свидетельств в пользу валидности их типичных интерпретаций, многие таких свидетельств все 193
же не имеют. Например, одна из популярных методик «оценки» личности - анализ почерка. Несмотря на популярность и долгую историю анализа почерка, научных данных, прошедших экспертную оценку, недостаточно для того, чтобы утверждать, что почерк что-то говорит о личности. В настоящее время в Интернете можно найти множество тестов, претендующих на статус диагностического инструмента. Например, один из них известен под названиями «Цветовой тест», «Цветогеника» и «Личностный цветовой тест». Такого рода тесты якобы основаны на «цветовой психологии», разработанной Максом Люшером (Luscher & Scott, 1969). При прохождении «Цветового теста» респонденту предлагается 8 цветов, необходимо выбрать наиболее предпочитаемые (см. http://www.colorquiz.com/). После совершения этой процедуры дважды респондент получает ряд интерпретаций относительно «источников стресса», «подавленных характеристик», «желаемых целей» и «текущих проблем». Идея о том, что цветовые предпочтения говорят что-то о личности респондента, достаточно интересна, но является ли интерпретация цветовых предпочтений валидной? Обзор научной литературы не дает практически никаких оснований считать цветовые предпочтения валидными в качестве инструмента, измеряющего личностные характеристики (напр., Picco & Dzindolet, 1994). Учитывая, что научных оснований для того, чтобы считать цветовые предпочтения валидными для измерения личности, мало, интересно рассмотреть «эмпирические свидетельства», представленные на сайте Цветового теста (см. http://www.colorquiz.com/about.html). В рубрике для заинтересованных читателей на сайте есть вопрос: «Является ли тест надежным?». Полагаем, что авторы веб- сайта используют этот термин не в строго психометрическом смысле (см. предшествующие главы) и имеют в виду не надежность, а валидность, т. е. вопрос о том, имеет ли тест смысл и является ли он полезным в качестве инструмента для измерения личностных свойств. Зная об очевидном недостатке научных подтверждений валидности цветовых предпочтений в качестве инструмента диагностики личностных свойств, читатель, возможно, не удивится ответу, предложенному на сайте. Относительно качества «Цветового теста» авторы говорят: «Мы оставляем его на ваше усмотрение. Единственное, что мы можем сказать, это то, что ряд корпораций и университетов используют тест Люшера при зачислении или приеме на работу». Очевидно, авторы сайта подразумевают, что Цветовой тест - это валидный инструмент для измерения некоторых аспектов личности и что его результаты используются для принятия решений относительно живых людей. Очевидно, однако, что менеджер по персоналу, использующий любую из версий Цветового теста, должен быть готов защищать свое решение в суде. Поскольку очевидно, что научные доказательства валидности теста как показателя свойств личности весьма незначительны, у кандидатов, которым было отказано в приеме на работу на основании результатов тестирования, есть законные основания быть недовольными и подать в суд. Современное понимание валидности требует теоретических и эмпирических данных, подтверждающих ту или иную интерпретацию тестовых 194
баллов. Например, существуют ли убедительные данные, показывающие, что респонденты, набравшие относительно большое количество баллов по шкале добросовестности NEO-PI-R, действительно *являются более добросовестными, чем респонденты, набравшие по этой шкале относительно небольшое количество баллов? Есть ли доказательства того, что студенты, хорошо справившиеся с тестом академических способностей SAT, в действительности получают более высокие отметки, чем те, кто справился с ним несколько хуже? Стоит ли за утверждением «ряд корпораций и университетов используют тест Люшера при зачислении или приеме на работу» что-то, подтверждаюшее идею о том, что цветовые предпочтения действительно отражают какие-то свойства личности? Несмотря на то что Люшер, возможно приводил теоретические основания полагать, что цвет каким-то образом относится к личности, такая теория не является достаточным основанием для того, чтобы считать Цветовой тест валидным личностным опросником. Чтобы быть уверенным в валидности интерпретаций теста, необходимы эмпирические данные. Эти данные должны быть получены из высококвалифицированного исследования, и они должны служить доказательством валидности определенных интерпретаций тестовых баллов. В следующих разделах будут рассмотрены различные виды доказательств и свидетельств, которые могут служить основанием для выводов о валидности интерпретаций теста. Как уже говорилось, понятие валидности развивалось в течение многих лет. Многие годы в сферах психологии и образования понятие валидности рассматривалось как состоящее из трех компонентов. В таком традиционном подходе выделяется 3 вида валидности - содержательная, критериальная и конструктная. Рассмотрены будут все эти виды валидности, однако особое внимание будет уделено современной точке зрения, которая отводит особую роль конструктной валидности (Messik, 1993). Конструктная валидность — это степень того, насколько тестовые баллы могут интерпретироваться как эмпирический показатель определенного психологического конструкта. В 1999 году современная точка зрения на тестирование была представлена тремя крупнейшими организациями в сфере психологии и образования: Американской ассоциацией исследований в области образования (AERA), Американской психологической ассоциацией (АРА) и Национальным советом по диагностике в образовании (NCME). Данные три организации опубликовали новую версию Стандарта образовательного и психологического тестирования. В этом документе были выделены пять типов эмпирических свидетельств, имеющих отношение к оценке валидности интерпретации тестовых баллов (AERA, АРА, NCME, 1999). Общая конструктная валидность интерпретации тестовых баллов зависит от содержания теста, внутренней структуры теста, психологического процесса, задействованного при ответах на пункты теста, взаимосвязей между баллами теста и другими переменными, а также от последствий использования теста. 195
Внутренняя структура Взаимосвязи с другими переменными Конструктная валидность Процесс ответа на задание ~еста Последствия использования Соде ржание теста Рисунок 8.1. Современный взгляд на показатели, имеющие отношение к валидности теста Эмпирические свидетельства валидности: содержание теста В одном из типов валидности оценивается степень совпадения между действительным содержанием теста и тем содержанием, которое должно быть в него вложено. Если тест будет интерпретироваться как отражающий определенный психологический конструкт, в его содержании должны быть отражены все основные составляющие данного конструкта. Предполагаемая природа конструкта должна предписывать соответствующее содержание теста. Данный тип валидности иногда называют содержательной, однако существуют два фактора, которые могут поставить содержательную валидность под сомнение. Угрозы содержательной валидности Первая угроза содержательной валидности возникает тогда, когда в тесте присутствует нерелевантное конструкту содержание. Тест не должен содержать заданий или вопросов, не имеющих отношения к конструкту, который лежит в основе интерпретации тестовых баллов. Представьте, что вас попросили разработать для студентов промежуточный тест знаний по психологии личности, направленный на измерение «знания концепции Фрейда» в том объеме, который студенты получали на лекциях, семинарах и дискуссиях. В процессе обучения затрагивались три широкие темы - структура личности 196
(ид, эго, суперэго), стадии развития личности и защитные механизмы. В идеале промежуточный тест знаний должен содержать задания на три эти темы, ни больше и ни меньше. Например, в тесте не'должно быть вопросов, касающихся биографии Фрейда, так как они не рассматривались в процессе аудиторной работы и, следовательно, нерелевантны, т. к. не имеют отношения к конструкту «знание концепции Фрейда, полученное на лекциях, семинарах и дискуссиях». Содержание теста, отражающее проблемы, характеристики или понятия, не имеющие отношения к конструкту, называют конструктно-нерелевантным. Такое содержание не связано с ключевым конструктом, измеряемым при интерпретации теста, и включение в тест такого рода заданий снижает валидность. Следующей угрозой содержательной валидности теста является недостаточная репрезентативность конструкта. Хотя тест и не должен содержать заданий, выходящих за рамки ключевого конструкта, он должен включать в себя по возможности весь объем содержания, имеющего отношение к конструкту. Тест, предназначенный для оценки «знания концепции Фрейда, полученного на лекциях, семинарах и дискуссиях», должен содержать задания по всем трем темам, пройденным в курсе. Тест, содержащий задания только на структуру личности и стадии психосексуального развития, будет иметь слабую валидность в качестве показателя «знания концепции Фрейда, полученного на лекциях, семинарах и дискуссиях», т. к. он не содержит заданий на тему «защитные механизмы». Недостаток такого теста заключается в недостаточной представленности конструкта, означающей, что содержание теста не включает в себя полный спектр заданий, необходимых для полного отображения содержания конструкта. Словом, тест должен содержать полный спектр заданий, отражающих ключевой конструкт, - ни больше и ни меньше. В действительности создателям и пользователям теста приходится находить компромисс между идеальной содержательной валидностью и ситуацией реального тестирования. Выше говорилось о том, что тест должен включать в себя задания, представляющие собой адекватную выборку из релевантного конструкту содержания (ни больше и ни меньше). Однако четких правил для определения того, что является «адекватной выборкой», не существует. На практике у создателя теста может не быть возможности включить в содержание теста задания, в равной степени тщательно отражающие все аспекты и нюансы изучаемого конструкта. Например, создатель теста для оценки «знания концепции Фрейда, полученного на лекциях, семинарах и дискуссиях» должен учитывать тот факт, что на выполнение теста у студентов может быть всего 50 минут. Таким образом, он может быть вынужден включать в тест задания, отражающие лишь некоторые из изученных со студентами содержательных областей. Например, он может включить вопросы касательно только трех стадий из теории развития личности Фрейда. Таким образом, тест может не отражать всех возможных аспектов конструкта, но остается надежда, что выбранные задания все же отражают исходный конструкт достаточно полно. Словом, на степень полноты содержания, включаемого в тест, накладывают 197
ограничение такие факторы, как продолжительность тестирования, утомление респондентов, распределение их внимания и т. д. Содержательная валидность и очевидная валидность С содержательной валидностью тесно связана очевидная валидность. Очевидная валидность - это степень того, насколько тест взаимосвязан с определенным конструктом с точки зрения человека, не располагающего специальными сведениями, например испытуемого или представителя правовой системы. Таким образом, если испытуемому содержание теста кажется релевантным, тест обладает очевидной валидностью. Очевидная валидность, как правило, не считается важным психометрическим свойством теста, т. к. мнение неспециалистов не имеет прямого отношения к его эмпирическому и теоретическому качеству. Хотя очевидная валидность, возможно, не является решающей с психометрической точки зрения, она может иметь важные последствия для практического применения теста. Очевидное значение и релевантность содержания теста может повлиять на мотивацию испытуемых отвечать серьезно и честно. Например, рассмотрим психологический опросник, предлагаемый кандидатам на работу в правоохранительные органы. Кандидаты могут предполагать, что такой опросник должен включать вопросы и задания на решение проблем, навыки общения, надежность, трудовую этику и т. д. Если в действительности опросник включает вопросы относительно сексуальных установок или семейной истории, тогда у кандидатов на работу могут возникнуть вопросы относительно законности и релевантности проводимой процедуры. Как следствие, многие респонденты могут отвечать либо беспорядочно, либо стремясь показать себя исключительно с положительной стороны, либо же вообще отказаться заполнять опросник. Польза от такого тестирования будет весьма сомнительной. Таким образом, тест, обладающий высокой очевидной валидностью, будет лучше воспринят и испытуемыми, и потенциальными пользователями и администраторами самого теста. Разница между содержательной и очевидной валидностью очень важна. Содержательная валидность - это то, насколько содержание теста в действительности отражает все аспекты конструкта (ни больше и ни.меньше), на измерение которого он направлен. В каком-то смысле содержательную валидность могут оценить только специалисты, имеющие глубокое понимание конструкта, на измерение которого направлен тест. В наилучшем положении для оценки качества теста, направленного на измерение психологического конструкта из определенной содержательной области, находятся специалисты именно в этой области знаний. Очевидная валидность - это степень, в которой неспециалисты считают тест релевантным тому, для измерения чего (как им кажется) он предназначен. Хотя представления респондентов о тесте могут повлиять на их мотивацию и правдивость при выполнении заданий, они не так часто располагают знаниями о теоретическом и эмпирическом значении оцениваемого психологического конструкта. Таким образом, важным типом 198
эмпирических свидетельств общей конструктной валидности теста является именно содержательная, а не очевидная валидность. Эмпирические свидетельства валидности: внутренняя структура теста Следующий вопрос, относящийся к валидности интерпретаций результатов теста, касается внутренней структуры теста. Внутренняя структура теста - это соотношение частей теста между собой. Например, в некоторых тестах все пункты сильно коррелируют друг с другом, в то время как в других тестах взаимосвязи пунктов делятся на две и более группы. Как будет показано ниже, теоретические основы конструкта несут предпосылки для внутренней структуры теста, измеряющего этот конструкт. Таким образом, важным вопросом валидности является соответствие между действительной внутренней структурой теста и той, которой он должен обладать. Для того чтобы тест мог быть валидно интерпретирован как инструмент измерения определенного конструкта, необходимо, чтобы его внутренняя структура совпадала с теоретически обоснованной структурой конструкта. Допустим, у исследователя возникло желание оценить методики диагностики самооценки. Пожалуй, наиболее часто для измерения самооценки в психологических исследованиях используется Опросник самооценки Розенберга (RSEI; Rosenberg, 1989). RSEI зачастую применяется для измерения одного внутренне связного конструкта - глобальной самооценки (global self-esteem). Глобальная самооценка - это оценка испытуемым собственной ценности «в целом», a RSEI включает в себя 10 пунктов, таких как «Я хорошо к себе отношусь» и «Иногда мне кажется, что я совсем ни на что не годен» (обратите внимание, это утверждение имеет «обратное» содержание по отношению к конструкту). Исследователи, которые собираются интерпретировать баллы RSEI в качестве инструмента, измеряющего глобальную самооценку, должны ожидать, что среди этих 10 пунктов существует определенная структура. В данном случае если исследователь на теоретических основаниях полагает, что глобальная самооценка является единым внутренне связным конструктом, а опросник RSEI является валидным инструментом диагностики самооценки, по результатам психометрического исследования должно обнаружиться, что все пункты теста сильно коррелируют друг с другом, образуя единую тесно связанную группу пунктов. Таким образом, если RSEI действительно является валидным инструментом диагностики глобальной самооценки, тогда ответы на пункты теста должны демонстрировать одномерную структуру, согласующуюся с теоретическим определением конструкта. Для другой методики диагностики самооценки ожидания исследователя могут быть несколько иными. Речь идет о Многомерном опроснике самооценки (The Multidimensional Self-Esteem Inventory (MSEI; O'Brien & Epstein, 1988)), созданном для диагностики как глобальной самооценки, так и восьми частных 199
ее компонентов. Авторы теста утверждают, что концептуальная модель, лежащая в основе MSEI, разделяет иерархию самооценки на два основных уровня. Первый уровень соответствует глобальной самооценке. Он относится к наиболее базовым обобщенным оценочным чувствам респондента по отношению к самому себе. Второй уровень соответствует оценочным суждениям среднего уровня обобщенности, которые называют компонентами самооценки (с. 7). Этот теоретический подход к самооценке был основан на более ранних исследованиях, показавших, что на самооценку в первую очередь оказывают влияние компетентность, симпатии окружающих, любовь окружающих, личная активность, моральное самоодобрение, внешняя привлекательность и физические возможности. Таким образом, авторы утверждают, что данные факторы в совокупности выражают большинство событий в жизни личности, как правило, оказывающих влияние на самооценку. Если баллы MSE1 могут валидно интерпретироваться как показатели данных компонентов самооценки, тогда ответы на пункты теста должны демонстрировать особую структуру, соответствующую многоуровневому концептуальному определению конструкта. Другими словами, пункты теста MSEI должны образовывать несколько различных групп; они не должны образовывать единую внутренне связную группу. Фактически, пункты должны объединиться в такие группы, которые более или менее точно соответствуют каждому из компонентов конструкта. Как говорилось в главе 4, для оценки внутренней структуры (т. е. размерности) психологических тестов исследователи зачастую применяют статистическую процедуру, называемую факторным анализом. Некоторые пункты теста могут более сильно коррелировать друг с другом, чем с остальными пунктами, и, как следствие, образовывать группы пунктов, называемые измерениями или факторами. Факторный анализ помогает выявить в наборе пунктов определенные факторы и исследовать из природу. Как вы помните, факторный анализ позволяет работать по крайней мере с тремя фундаментальными проблемами, имеющими отношение к внутренней структуре теста. Во-первых, с его помощью можно выяснить, какое количество факторов содержится в том или ином наборе пунктов. Многие специалисты в области социальной психологии и психологии личности считают глобальную самооценку единым внутренне связным конструктом. Следовательно, если RSEI в действительности может валидно интерпретироваться как инструмент диагностики глобальной самооценки, тогда ответы респондентов на 10 пунктов теста должны объединяться в один фактор. Если факторный анализ покажет, что пункты RSEI образуют 2 или более факторов, валидность RSEI в качестве инструмента, измеряющего глобальную самооценку, попадет под сомнение. Таким образом, при оценке внутренней структуры теста число факторов является немаловажным аспектом. Чтобы это продемонстрировать, рассмотрим ответы на пункты RSEI ста сорока девяти студентов. Собранные данные были подвергнуты факторному анализу, после чего был рассмотрен график каменистой осыпи (см. рис. 8.2). Как 200
вы помните, график каменистой осыпи - это графическое представление собственных чисел факторов, которые, в свою очередь, зачастую используются в процессе принятия решения относительно количества факторов, содержащихся в наборе пунктов. На данном графике исследователь сначала ищет относительно большой «обрыв» между точками. Как видно на рисунке 8.2, относительно большой «обрыв» наблюдается между первой точкой (расположенной по оси собственных чисел приблизительно на значении 5.2) и второй (расположенной по оси собственных чисел приблизительно на значении 1.1), остальные «обрывы» между соседними значениями по оси собственных чисел относительно малы. Тот факт, что относительно большой «обрыв» наблюдается после первой точки, служит доказательством одномерной структуры данных (ответов респондентов на пункты RSEI). Поскольку полученный результат соответствует теоретическим ожиданиям, он служит доказательством того, что внутренняя структура RSEI свидетельствует о валидности этого теста в плане диагностики глобальной самооценки1. Метод факторизации: метод главных компонентой График каменистой осыпи 4 5 6 Номер Рисунок 8.2. График каменистой осыпи из факторного анализа ответов на RSEI Одним из редакторов перевода книги был проведен факторный анализ ответов на опросник RSEI. Вместо ожидаемого одного фактора, выделилось два фактора, что ставит под сомнение конструктную валидность теста. (Прим, ред.) 201
Вторая проблема, решаемая с помощью факторного анализа, - обнаружение связей между факторами / измерениями внутри многомерного теста. Как уже было сказано, в виде многомерного теста, исследующего несколько компонентов самооценки, создавался опросник MSEI. Если исследователь полагает, что все компоненты самооценки независимы, то в таком многомерном тесте должны обнаружиться шкалы, которые не коррелируют между собой. Однако если согласно теории компоненты самооценки каким-то особым образом связаны между собой, факторный анализ поможет обнаружить эти связи. Чтобы исследовать эти взаимосвязи, авторы теста MSEI провели факторный анализ (O'Brien & Epstein, 1988, с. 15-16). Этот анализ привел к обнаружению в MSEI интересной трехфакторной структуры шкал. При помощи ортогонального вращения исследователи обнаружили, что некоторые шкалы MSEI (например, «общая самооценка», «компетентность», «личная активность»), объединяются и образуют фактор «обобщенной самооценки», который авторы интерпретируют отчасти как отражающий «способность активно и напрямую влиять на мир, демонстрируя свои возможности, способности к лидерству, физическую ловкость и самодисциплину» (с. 16). Другие шкалы MSE1 (например, «симпатии окружающих», «любовь окружающих») объединились в фактор «социальной самооценки», которая, по интерпретации авторов, «зависит от обратной связи со стороны окружающих, а также одобрения или неодобрения, получаемого от значимых личностей» (с. 16). Еще две шкалы («моральное самоодобрение» и «защитная самопрезентация») объединяются и образуют фактор «защитное поведение и личная самооценка», который, по мнению авторов, «далеко не так значим, как объективная или ощутимая обратная связь со стороны общества» (с. 16). Третьей основной целью использования факторного анализа, в связи с проверкой валидности, является определение того, какие пункты относятся к какому фактору. Во время разработки теста концептуальное понимание конструкта приводит исследователя к формулировке специфических пунктов, отражающих определенные аспекты конструкта. Таким образом, чтобы оценить качество теста, необходимо убедиться в том, что пункты, предназначенные для измерения определенного фактора, действительно относятся именно к этому фактору и ни к какому другому. Как вы помните, такого рода оценка производится на основании рассмотрения факторных нагрузок, каждая из которых выражает взаимосвязь пункта с фактором. Так, например, авторы MSEI предоставляют результаты факторного анализа всех пунктов своего опросника (O'Brien 8; Epstein, 1988, с. 14-15). Ими было показано, что практически каждый пункт теста тесно связано с тем компонентом конструкта, на измерение которого он и был изначально задуман, и слабо взаимосвязан со всеми остальными компонентами. Например, 10 пунктов, сформулированных для шкалы «компетентность», оказались четко взаимосвязанными с соответствующим фактором (и ни с одним другим). Сходным образом 10 пунктов, сформулированных для шкалы «самоодобрение», оказались взаимосвязанными именно и только с этой шкалой. Тем не менее, результаты анализа не были безупречными. Например, несмотря на то что 10 202
пунктов, входящих в шкалу «внешняя привлекательность», оказались взаимосвязанными именно и только с этой шкалой, в соответствующий фактор «внешняя привлекательность» вошли также 2 пункта, задумывавшиеся для шкалы «общая самооценка», и 3 пункта, первоначально отнесенньгх исследователями к шкале «симпатии окружающих». Несмотря на некоторое несовершенство внутренней структуры MSEI, авторы в целом довольны тем, что факторный анализ предоставляет эмпирическое обоснование валидности внутренней структуры теста. В целом внутренняя структура теста - важный аспект конструктной валидности. Внутренняя структура теста должна соответствовать структуре конструкта, на измерение которого направлен тест. Как правило, внутреннюю структуру анализируют при помощи корреляций между пунктами теста и подшкалами теста (если таковые имеются), для этого исследователи часто прибегают к факторному анализу. Эмпирические свидетельства валидности: процесс ответа респондента на пункт Третий тип свидетельств валидности - совпадение между психологическими процессами, которые респонденты в действительности задействуют в процессе выполнения теста, и теми процессами, которые они должны задействовать. Многие психологические тесты основаны на определенных допущениях относительно психологических процессов, используемых респондентами при ответах на пункты (задания, вопросы или утверждения) теста. Например, исследователь, разрабатывающий методику на экстраверсию, может включить в нее такое утверждение, как «Я часто хожу на вечеринки», предполагая, что респондент прочитает это утверждение, вспомнит то количество раз, которое он бывал на вечеринках, и решит, можно ли это число назвать «часто». Если респондент не следует этой схеме действий, тогда тестовые баллы нельзя будет интерпретировать в полном соответствии с тем, как это намеревался делать исследователь. Сложно уловимый процесс ответа респондента на пункт иллюстрируется недавним исследованием, посвященным влиянию депривации контроля на когнитивную успешность. В предшествующих исследованиях было показано, что люди, лишенные возможности осуществлять достаточный контроль результатов при выполнении одного задания, показывают ухудшенные результаты при выполнении следующих. В исследовании испытуемые сначала выполняли задание, во время которого некоторые из них могли осуществлять контроль над шумом, а другие - нет. При условии «контроль над шумом» все испытуемые находились в обстановке громкого гудящего шума, и им нужно было выучить последовательность клавиш, которая помогает на время этот шум уменьшать. Во время выполнения задания половине испытуемых нужно было выучить очень простую последовательность, что гарантировало, что в конце 203
концов они смогут контролировать шум. Второй половине была предложена последовательность, которую было невозможно выучить, что гарантированно вело к тому, что они не могли в достатбчной степени контролировать шум. После задания на контроль шума всем испытуемым было предложено выполнить ряд словесных заданий. Им выдали список слов, где спутаны буквы (например, афинм), и нужно было восстановить исходное слово (например, нимфа). Испытуемых попросили выполнять задания по очереди и переходить к следующему только после выполнения предыдущего. За показатель когнитивной успешности было взято общее число слов, которые были верно распознаны. По гипотезе исследователей, лишение возможности контролировать шум должно было ослабить внимание, что привело бы к более низким результатам при расшифровке слов. Задумайтесь на минуту о том, какие умственные действия должны были выполнять испытуемые по предположению исследователей. Исследователи предположили, что испытуемым понадобится сосредоточить когнитивные ресурсы внимания на заданиях со словами. Хотя такие когнитивные факторы, как интеллект и предшествующий опыт, также влияют на выполнение заданий со словами, эти факторы были взяты за постоянные, так как участники групп выбирались в случайном порядке. Таким образом, исследователи предположили, что в случае, если между группами обнаружится разница в среднем количестве верно расшифрованных слов, это произошло потому, что лишение участников возможности контролировать шум приведет к снижению способности полностью сконцентрировать внимание на заданиях со словами. Ослабление когнитивных ресурсов снизит способность испытуемых концентрироваться на заданиях со словами, что в свою очередь приведет к низким успехам при выполнении этих заданий. * Результаты не подтвердили ожиданий. Участники, лишенные возможности контролировать шум, выполнили такое же количество заданий со словами, что и те, кто не был лишен возможности контроля. Многие исследователи приняли бы это как данные, опровергающие гипотезу о влиянии депривации контроля на когнитивную успешность. Однако ученые, проводившие это исследование, обратили пристальное внимание на сам процесс выполнения испытуемыми когнитивных задач со словами. Изучая ответы испытуемых, исследователи увидели, что не все следовали инструкции и переходили к следующему слову только после расшифровки предыдущего. То есть некоторые участники забыли об инструкции или сознательно решили ее игнорировать. Внимательное рассмотрение показало разницу между группами в степени «хитрости» поведения испытуемых: по сравнению с группой, имевшей возможность контролировать шум, в противоположной группе «хитрило» большее количество участников. О чем говорит этот результат в свете психологических процессов, влияющих на измерение показателя когнитивной успешности? Хотя исследователи предполагали, что разница в результатах когнитивной деятельности преимущественно будет отражать различия в процессах внимания, исследование показало по крайней мере один дополнительный процесс, 204
оказавший влияние на успешность когнитивной деятельности. В частности, на когнитивную успешность оказал влияние фактор «выполнение инструкции»: испытуемые, которые «хитрили», могли расшифровать большее количество слов. Возможно, гипотеза о том. что депривация контроля ухудшает внимание и, следовательно, снижает когнитивную успешность, в действительности была верной, но участники группы, лишенной возможности контроля, «хитрили», в результате чего их показатели когнитивной успешности оказались завышенными. Надеемся, данный пример проясняет немаловажное положение о том, что конструктная валидность частично может оцениваться с позиций психологических процессов, задействованных во время ответа респондента на пункт. В приведенном выше примере валидность задач со словами как показателя основанной на внимании когнитивной успешности была невысокой. Пристальное рассмотрение собранных эмпирических данных показало, что на выполнение задач со словами мог повлиять также такой фактор, как соблюдение (или несоблюдение) испытуемым экспериментальной инструкции. В целом в отношении исходной гипотезы данное исследование не является завершенным, однако внимание ученых к психологическим процессам, протекающим в сознании респондентов во время выполнения диагностических заданий, поднимает весьма интригующие вопросы о взаимосвязи между депривацией контроля и соблюдением правил и инструкций. Эмпирические свидетельства валидности: взаимосвязи с другими переменными Четвертый тип эмпирических свидетельств валидности - взаимосвязи между баллами валидизируемого теста и другими переменными. Современный взгляд на проблему валидности предполагает повышенное внимание к теоретическому содержанию конструкта, который, как предполагается, лежит в основе интерпретации тестовых баллов. Если тестовые баллы респондента интерпретируются как выражающие определенный психологический конструкт, теоретическое понимание этого конструкта должно создать у исследователя некоторые ожидания относительно закономерностей взаимосвязи тестовых баллов с другими переменными. Например, если опросник самооценки Розенберга (RSEI), как предполагается, измеряет глобальную самооценку, следует основательно проанализировать природу и сущность глобальной самооценки как психологического феномена. Исследователю необходимо ответить на вопрос о том, каким образом глобальная самооценка взаимосвязана с такими психологическими конструктами, как ощущение счастья, депрессия, интеллект, социальная мотивация, ассертивность и т. д. Теоретическое понимание самооценки может привести исследователя к мысли о том, что люди с высоким уровнем самооценки должны быть относительно счастливыми. 205
высокомотивированными на социальные взаимодействия, а также не должны испытывать депрессию. Кроме того, теоретическое содержание конструкта предполагает, что самооценка не связана с интеллектуальными способностями - в среднем интеллект людей с низкой самооценкой настолько же развит, как и интеллект людей с высокой самооценкой. Таким образом, теоретическое наполнение конструкта подсказывает исследователю определенный паттерн взаимосвязей между самооценкой и рядом других переменных. Если баллы по опроснику RSEI действительно могут интерпретироваться как показатель самооценки, между этими баллами и такими параметрами, как ощущение счастья, депрессия, социальная мотивация и интеллект, должен обнаружиться определенный паттерн взаимосвязей. Таким образом, четвертый тип эмпирических свидетельств валидности касается соответствия между тем, какие корреляции теста с другими переменными были обнаружены, и тем, какие корреляции должны были обнаружиться. Если наблюдаемый паттерн корреляции с другими тестами в целом соответствует теоретически предсказанному, это является свидетельством в пользу валидности интерпретации теста как показателя исследуемого конструкта. Представим, например, что было проведено исследование, в котором респондентов (помимо RSEI) просили заполнить тесты на ощущение счастья, депрессию, социальную мотивацию и интеллект. Если обнаруживается, что RSEI и в самом деле положительно взаимосвязан с ощущением счастья и социальной мотивацией, отрицательно взаимосвязан с депрессией и не коррелирует с интеллектом, уверенность в том, что баллы теста RSEI можно валидно интерпретировать как показатель самооценки, повышается. И наоборот, если наблюдаемый паттерн корреляции с другими тестами не соответствует теоретически предсказанному, это является свидетельством против валидности интерпретации теста как показателя исследуемого конструкта. Если обнаруживается, что баллы по тесту RSEI не коррелируют с ощущением счастья и социальной мотивацией, уверенность исследователя в валидности интерпретации тестовых баллов с позиций самооценки уменьшается. При оценке паттерна корреляций между валидизируемым тестом и другими переменными рассматривается конвергентная валидность. Конвергентная валидность - это степень взаимосвязи баллов проверенного на валидность теста с показателями сходных психологических конструктов. В примере с тестом RSEI согласно теоретическим основаниям предполагалось, что глобальная самооценка связана с ощущением счастья и социальной мотивацией. Кроме того, теоретически ожидалась обратная взаимосвязь между самооценкой и депрессией. Таким образом, если в исследовании обнаруживается, что самооценка действительно связана с ощущением счастья, социальной мотивацией и (отрицательно) с депрессией, можно утверждать, что были получены эмпирические свидетельства конвергентной валидности теста. Зачастую при оценке валидности интерпретации тестовых баллов исследователи просят респондентов заполнить несколько тестов, направленных на измерение одного и того же конструкта. К примеру, можно было бы попросить респондентов, помимо RSEI, заполнить опросник самооценки С. 206
Куперсмита (Coopersmith, 1967/1981) и Многомерный опросник самооценки MSEI. Естественно, между баллами по тесту RSE1 и этими другими опросниками на самооценку ожидаются силвные положительные взаимосвязи. Если этого не происходит, в валидности теста RSEI как показателя самооценки можно усомниться. Кроме того, для оценки теста используются ответы «информаторов». Например, можно было бы попросить каждого из респондентов назвать одного близкого знакомого, а затем раздать этим близким знакомым тест, в котором необходимо отвечать на вопросы о самооценке респондента. Хотя в данном случае и не ожидалось бы чрезмерно высокого коэффициента корреляции, между самоописанием респондента и экспертной оценкой со стороны его близкого знакомого можно ожидать по крайней мере положительную взаимосвязь. Другими словами, ожидалось бы, что мнения самих респондентов и суждения их близких знакомых совпадут. В целом можно сказать, что конвергентная валидность зачастую выражается в форме корреляционных взаимосвязей между различными способами измерения одного конструкта. Оценивая паттерн взаимосвязей между валидизируемым тестом и другими переменными, необходимо также изучить свидетельства дивергентной валидности1. Дивергентная валидность - это степень того, насколько тестовые баллы не взаимосвязаны с показателями других конструктов, не связанных с исследуемым конструктом. В приведенном примере исходя из теоретических оснований предполагалось, что глобальная самооценка не связана с интеллектом. Таким образом, в исследовании должно обнаружиться, что баллы респондентов по RSEI не коррелируют (или слабо коррелируют) с показателями интеллектуальных способностей. Если же в исследовании обнаруживается, что баллы по RSEI и интеллект положительно взаимосвязаны, это является свидетельством недостаточной дивергентной валидности RSEI как показателя самооценки. В данном случае RSEI, похоже, измеряет нечто большее, чем самооценку. Дивергентная валидность - важное и в чем-то непростое понятие. Независимо от того, являются ли цели тестирования исследовательскими или прикладными, пользователи теста должны быть уверены в том, что им точно известно, какая именно психологическая переменная измеряется. Рассмотрим гипотетическое исследование, которое могло бы быть проведено специалистом по психологии развития. Исследователя интересует взаимосвязь между самооценкой и способностями к обучению. Он просит выборку старшеклассников заполнить опросник RSEI, а также получает у них разрешение на использование их баллов успеваемости в школе. Исследователь вычисляет корреляцию между баллами по тесту RSEI и средним баллом успеваемости, коэффициент корреляции равен 0.40. Интерпретируется это так: ученики, обладающие относительно высокой самооценкой, имеют тенденцию 1 В англоязычном варианте «дискриминантная» (discriminant) валидность, однако мы даем перевод «дивергентная» по причине распространенности этого варианта в русскоязычной литературе, а также во избежание путаницы с дискриминативностью пунктов теста. (Прим, перев.). 207
хорошо учиться в школе1. На основе такого рода исследования можно даже сделать вывод о том, что школам следует вкладывать дополнительные ресурсы в развитие самооценки учеников. Резул1?таты и выводы исследования могут признать имеющими важность для теоретической психологии, кроме того, эти выводы могут повлиять на распределение школьного бюджета. Перед тем как безоговорочно верить выводам, сделанным по результатам исследования, необходимо внимательно проанализировать использованные методы, в том числе дивергентную валидность теста, который (предположительно) измеряет самооценку. Истинность сделанных выводов отчасти зависит от диверегнтной валидности RSEI как показателя глобальной самооценки. В случае если тестовые баллы RSEI коррелируют с коэффициентом интеллекта, можно утверждать, что RSEI обладает низкой дивергентной валидностью и измеряет (хотя бы частично) также и интеллект. Таким образом, корреляцию, полученную в исследовании, можно было бы объяснить с позиций того, что ученики, обладающие более выраженными интеллектуальными способностями, имеют тенденцию лучше учиться в школе. Возможно, что самооценка на самом деле совсем не связана с успеваемостью, и исследователь в своих выводах допустил серьезную ошибку. Такого рода ошибка могла бы пагубно сказаться как на теоретической психологии, так и на использовании и без того ограниченных школьных ресурсов. При оценке этого типа эмпирических свидетельств валидности выделяют также конкурентную валидность и прогностическую. Конкурентная валидность выражает степень корреляции баллов валидизируемого теста с другими переменными, измеренными одновременно с проведением тестирования по основной методике. Так, например, интернет-сайт Совета колледжей (компании, которая проводит тестирование по тесту SAT), содержит информацию о том, что субтест SAT на логическое мышление «является мерой тех навыков критического мышления, которые понадобятся вам для достижения успеха при обучении в колледже» (College Board, 2006). Как оценить валидность теста SAT как показателя навыков, необходимых для успешной учебы? Одна из возможностей - протестировать с помощью SAT респондентов- старшеклассников и прокоррелировать полученные баллы со средним баллом успеваемости в старших классах (GPA). Другими словами, можно исследовать взаимосвязь между баллами SAT и баллами GPA, полученными приблизительно в то же время, что и проводилось тестирование. Прогностическая валидность выражает степень корреляции баллов валидизируемого теста с другими переменными, измеренными в отсроченный момент времени. Например, при другом способе оценки валидности SAT можно было бы протестировать старшеклассников по SAT и скоррелировать эти баллы со средней успеваемостью (GPA) во время первого года обучения в колледже. Другими Такой вывод в отечественной психологии считается неадекватным Наличие значимой корреляции между двумя переменными не свидетельствует о влиянии одного из них на другой. С равной вероятностью в этом случае можно сделать вывод, что хорошая успеваемость школьников приводит к повышению самооценки. И тогда усилия администрации на повышение самооценки могут привести к совершенно другим последствиям, например, повышению заносчивых школьников после стимулирования их самооценки. (Прим. ред.). 208
словами, можно было бы исследовать взаимосвязь между баллами SAT и баллами GPA, полученными через год или больше после тестирования. Хотя различие между конкурентной валидностью’ и прогностической валидностью традиционно считается важным, их объединяет то, что оценивается соответствие между баллами валидизируемого теста и другими переменными, имеющими отношение к исходному конструкту. Как уже говорилось, соответствие между тестовыми баллами и другими переменными обозначается как конвергентная валидность. В связи с этим можно утверждать, что конкурентная и прогностическая валидность являются, в сущности, разновидностями конвергентной. Исследования конвергентной и дивергентной валидности обладают множеством важных нюансов. Вероятно, данный тип эмпирических свидетельств валидности является самым значительным среди всех остальных. В приведенном здесь обсуждении были рассмотрены лишь теоретические основы и актуальность использования этих показателей. Поскольку конвергентная и дивергентная валидность так важны, более детальному их рассмотрению будет посвящена следующая глава. Эмпирические свидетельства валидности: последствия тестирования Как уже говорилось, одно из ключевых различий между традиционным подходом к оценке трех компонентов валидности и современным подходом заключается в том, что в современном подходе подчеркивается первичность конструктной валидности по отношению к содержательной и критериальной (которая более подробно будет обсуждаться ниже). Впрочем, еще более радикальным и дискуссионным отличием является утверждение (высказываемое в рамках современного подхода) о том, что последствия тестирования являются одним из аспектов валидности. В Стандартах образовательного и психологического тестирования говорится о том, что валидность включает в себя «преднамеренные и непреднамеренные последствия использования теста» (AERA, АРА, & NCME, 1999, с. 16). Л. Кронбах утверждает, что разработчики, пользователи и оценщики тестов «обязаны следить за тем, чтобы последствия тестирования для отдельных лиц и организаций были благоприятными, а особенно - предотвращать неблагоприятные последствия» (Cronbach, 1988, с. 6). Так, например, необходимо обеспокоиться по поводу практики применения теста, если и сам этот тест, и конструкт, лежащий в его основе, больше «работают» на мужчин, чем на женщин. Являются ли тестовые баллы одинаково валидными (как показатель измеряемого конструкта) для респондентов обоих полов? Насколько велика разница в тех преимуществах, которые тест дает мужчинам или женщинам? 209
Предположение о том, что последствия тестирования связаны с конструктной валидностью, вызвало немало споров. Вряд ли кто-либо не согласится с тем, что пользователи теста,' разработчики и лица, руководящие тестированием, должны задумываться о справедливости программы тестирования по отношению ко всем группам респондентов. Тем не менее, не все согласятся с тем, что последствия программы тестирования следует рассматривать как один из аспектов научной оценки значения тестовых баллов. Так, утверждение о том, что валидность включает в себя оценку реальных и потенциальных последствий тестирования, рассматривается П.Р. Лиз-Хейли. Автор задается вопросами: «Но последствий для кого? И кто будет решать? Вражеские психологи? Пацифисты? Генералы? Чьи именно социальные ценности необходимо использовать при оценке валидности применения этих тестов?» (Lees-Haley, 1996, с. 982). Очевидно, проникновение ценностных суждений в объективный процесс научного исследования поднимает ряд интересных проблем. П.Р. Лиз-Хейли говорит напрямик: «...оценка валидности последствий тестирования представляет собой вторжение политики в область науки» (Lees-Haley, 1996, с. 982). Приверженцы рассмотрения последствий тестирования как составной части валидности отвечают на такого рода возражения тем, что науку вообще невозможно отделить от личных и общественных ценностей. Проблемы, которые исследуются учеными, определяются частично ценностями общества, частично - ценностями самих ученых. Ценностные суждения влияют и на теоретические предположения и допущения ученых, и даже на те названия, которые ученые дают исследуемым конструктам. В качестве примера, основанного на немаловажной работе С. Мессика (Messick, 1993), рассмотрим двух психологов, разрабатывающих теорию одного из личностных свойств. Один из них полагает, что соответствующему конструкту необходимо дать название «гибкость - ригидность»: этот конструкт будет дифференцировать респондентов, способных адаптировать свои когнитивные и поведенческие особенности к изменяющимся обстоятельствам, и респондентов, склонных к сохранению когнитивного и поведенческого постоянства. Другой психолог, анализируя исходный конструкт и предполагаемые индивидуальные различия, которые он должен диагностировать, приходит к убеждению о том, что этот конструкт необходимо назвать «замешательство - устойчивость». Какие из этих названий более корректны с «научной» точки зрения? Следует ли высокий уровень когнитивной и поведенческой вариативности рассматривать как гибкость или же как замешательство? Следует ли низкий уровень когнитивной и поведенческой вариативности рассматривать как ригидность или же это устойчивость? Рассмотрим также такую личностную характеристику, как склонность испытывать, распознавать, контролировать и анализировать эмоциональные реакции. Представим себе, что ученый разработал тест, измеряющий данную характеристику, и обнаружил, что в среднем женщины набирают по этому тесту более высокие баллы, чем мужчины. Какое название разработчик теста подберет для самого теста и для того конструкта, на измерение которого он направлен? 210
Учитывая, что женщины в среднем набирают более высокие тестовые баллы, насколько вероятно, что ученый назовет данный конструкт «эмоциональной чувствительностью»? А если бы результаты указали на то, что более высокие баллы получают мужчины, был бы исследователь более склонен к тому, чтобы назвать конструкт «эмоциональным интеллектом»? Далее, представьте, что менеджеру по персоналу сказали, что у вас высокий уровень «эмоциональной чувствительности». Будет ли его мнение о вас другим, нежели в том случае, если бы ему сказали, что у вас высокий «эмоциональный интеллект»? Какой из этих «ярлыков» вы предпочитаете? Повысятся ли шансы кандидата на работу быть принятым, если менеджер по персоналу будет убежден, что этот работник «интеллектуален», а не «чувствителен»? Суть в том, что ценностные суждения могут оказывать некоторое (иногда весьма значительное) влияние на процесс научного исследования. Приверженцы теории о том, что последствия тестирования являются частью валидности, утверждают, что такого рода влияния необходимо распознавать и оценивать настолько точно, насколько это возможно в конкретной ситуации. Проблема предвзятости теста будет подробнее обсуждаться в главе 11, впрочем, некоторые комментарии уместны и здесь. Ранее говорилось, что валидность последствий тестирования отражает вероятность того, что для некоторых из респондентов результаты будут использованы несправедливо или некорректно. Важно разграничивать последствия тестирования и справедливость теста. Тест может иметь неблагоприятные последствия (для одного человека или для группы людей), однако при этом быть справедливым. Представьте, к примеру, что женщины склонны набирать более высокие баллы, чем мужчины, по методикам диагностики добросовестности. Представьте также, что директор по персоналу использует опросник добросовестности при приеме кандидатов на работу, как следствие, в этой компании работает больше женщин, а не мужчин. Является ли это для мужчин «неблагоприятным последствием»? В данном случае справедливость теста имеет отношение к природе половых различий. Почему мужчины и женщины набирают в тесте разное количество баллов? Во-первых, возможно, имеет место систематическая ошибка теста: пригодность теста как показателя добросовестности для разных групп респондентов неодинакова; по какой-то причине тест является адекватным показателем добросовестности в группе женщин, но не в группе мужчин. Такая ситуация является уже проблемой валидности: тест неодинаково валиден для различных групп респондентов. Следовательно, управленческие решения, принятые частично на основе тестовых баллов, могут быть несправедливыми по отношению к респондентам мужского пола. Во-вторых, возможно, что систематической ошибке тест не подвержен. В таком случае тест является одинаково валидным показателем добросовестности как среди мужчин, так и среди женщин, а причина в том, что женщины в действительности несколько добросовестнее мужчин. В данном случае управленческие решения, принятые частично на основе тестовых баллов, несправедливыми уже не будут (при условии, что существуют эмпирические 211
свидетельства того, что добросовестность является предиктором профессиональной успешности). Что же насчет последствий самого тестирования? Независимо от того, справедлив ли тест, мужчины испытывают на себе неблагоприятные последствия его применения. О систематической ошибке теста речь идет лишь тогда, когда он неодинаково валиден для мужской и женской частей выборки. Наличие групповых различий тестовых баллов само по себе ничего не говорит о справедливости теста или о его систематической ошибке, т. е. о валидности теста как показателя интересующей исследователя психологической характеристики. Более подробное обсуждение данных вопросов, как и описание способов оценки систематической ошибки теста в пользу одной из групп респондентов, приведено в главе 11. Другие подходы к проблеме валидности До сих пор в данной главе валидность понималась в терминах того, насколько точно тестовые баллы могут быть интерпретированы как показатель определенного психологического конструкта. В данном подходе подразумевается, что тестовые баллы взаимосвязаны с конструктом, имеющим четко выраженную теоретическую основу. В самом деле, те типы эмпирических свидетельств валидности, которые обсуждались выше, имеют отношение к соответствию между различными аспектами ответов респондента на утверждения теста и различными аспектами теоретических оснований исследуемого конструкта. Исходя из такой сильной привязки тестовых баллов к теоретически обоснованным психологическим характеристикам можно утверждать, что этот подход к валидности в сущности является ориентированным на теорию. Тем не менее, существует по крайней мере три альтернативных подхода к проблеме валидности, которые могут встретиться читателю в научном обиходе, в связи с чем приводим здесь их краткое описание. Критериальная валидность - один из таких альтернативных подходов, который снимает акцент с концептуального значения или интерпретации тестовых баллов. Возможно, что пользователи тестов хотят только лишь дифференцировать группы респондентов или предсказать значения каких-то переменных, которые будут измеряться в будущем. Например, менеджеру по персоналу тест может быть необходим для того, чтобы предсказать, кто из кандидатов на работу окажется успешным сотрудником, а кто - нет. С сугубо практической точки зрения менеджеру неважно, какой именно психологический конструкт измеряется в тесте, как неважно и то, каков содержательный психологический смысл низких либо высоких баллов. В данном случае единственное, что интересует менеджера по персоналу - способность теста отличать хороших работников от плохих работников. Если тест с этим «справляется», то для нужд работодателя он достаточно «валиден». В традиционной трех компонентной теории валидности критериальная валидность выражает прогностическую способность тестовых баллов по 212
отношению к определенным критериальным переменным. С этой точки зрения ключевым показателем валидности является эмпирически полученная взаимосвязь между баллами валидизируемого *геста и баллами по критериальной переменной, такой как «профессиональная успешность». В свою очередь, так как конкурентная и прогностическая валидность также вычисляются через взаимосвязь теста с определенными критериальными переменными, эти два типа валидности традиционно рассматривались как разновидности критериальной. Согласно традиционному подходу к критериальной валидности, психологическое содержание тестовых баллов не имеет особого значения: все, что имеет значение, - это способность теста дифференцировать группы респондентов и предсказывать определенные результаты. Хотя термин «критериальная валидность» в психометрике весьма распространен и рассматривается как отдельный вид валидности, современная точка зрения предполагает, что взаимосвязи валидизируемого теста с критериальными переменными необходимо рассматривать в более широком контексте - в рамках конструктой валидности (Messick, 1993). С этой точки зрения доказательство критериальной валидности само по себе не является достаточным, даже если речь идет о прикладном использовании теста, например в целях отбора персонала. С. Мессик полагает, что «даже в целях принятия решений в прикладной области полагаться на критериальную валидность или широту содержательного наполнения теста недостаточно. Всегда необходимо исследовать значение теста, следовательно, его конструктную валидность, и делается это не только для подтверждения интерпретации тестовых баллов, но и для обоснования применения теста в той или иной сфере» (Messick , 1993, с. 17). В другом альтернативном подходе к проблеме валидности подчеркивается необходимость исследования значения тестовых баллов, в противоположность тестированию определенных гипотез о нем. Другими словами, вместо того чтобы предполагать, что теоретические основы конструкта полностью разработаны, а затем тестировать определенные гипотезы относительно этой теории, пользователи и разработчики теста могут провести его оценку, исходя из того, что тестовые баллы сами по себе являются важным и информативным объектом исследования. Такой «индуктивный» подход к исследованию валидности предполагает изучение взаимосвязей между тестовыми баллами и большим набором потенциально важных и существенных психологических переменных (Gough, 1965; Ozer, 1989). Тот подход к исследованию валидности, которому в данной главе было уделено наибольшее внимание, называется «дедуктивным» (Ozer, 1989), т. к. в нем оценка валидности осуществляется путем дедуктивного вывода определенной гипотезы на основе теоретического понимания конструкта и дальнейшего эмпирического тестирования этой гипотезы. Если дедуктивный подход больше ориентирован на эмпирическую проверку теории, то индуктивный подход является в большей степени разведочным. Целью индуктивного подхода является понимание всех нюансов значения тестовых баллов даже за пределами того значения, которое приписывается им на основе теоретического понимания исходного конструкта. 213
В данном случае исследователь «позволяет конструктам развиваться и изменяться в самом процессе разработки теста» (Tellegen & Waller, в печати). Индуктивный подход к валидности может быть наиболее оправданным в исследовательском контексте, и рассмотреть его можно как возвратно- поступательный процесс. В прикладном контексте разработчики и пользователи теста, вероятно, акцентируют внимание на использовании теста в четко определенных целях, например, для прогноза профессиональной успешности. В исследовательском же контексте разработчики и пользователи теста могут быть заинтересованы в том, чтобы обнаружить новую область интересов и разработать под нее новый теоретический конструкт. В таком случае разработка и психометрическая оценка теста протекают параллельно с эволюционирующим пониманием исходного конструкта. Так, А. Теллеген и Н. Уоллер (Tellegen & Waller, в печати) описывают процесс разработки и оценки Многофакторного опросника личности (Multidimensional Personality Questionnaire, MPQ). Последняя версия MPQ включает в себя 11 первичных шкал (например, «социальная эффективность», «достижения», «стрессовая реактивность»), сгруппированные в четыре обобщенные черты (напр., позитивная эмоциональность темперамента, негативная эмоциональность темперамента). Разработка MPQ была обусловлена «желанием прояснить и акцентировать природу нескольких важных или центральных факторов, постоянно упоминающихся или подразумевающихся в литературе по психологии личности» (с. 10). На протяжении многолетнего процесса разработки пункты MPQ постоянно формулировались, диагностировались, анализировались и формулировались заново. В процессе этой работы исследователи уточнили свое понимание теоретических конструктов, лежащих в основе этого теста. Хотя индуктивный подход и является полезным в плане расширения и уточнения представлений исследователя о теоретических и практических основах теста, в литературе по психодиагностике он упоминается не слишком часто. Как правило, тесты разрабатываются на основе строго определенных конструктов, а сами разработчики направляют свои усилия на оценку интерпретации тестовых баллов относительно этих заранее определенных конструктов 1 . Время и усилия на исследование более широкого спектра областей применимости теста затрачивается учеными гораздо реже. Третий альтернативный подход к проблеме валидности акцентирует исключительно взаимосвязь между тестом и психологическим конструктом. Д. Борсбум, Г. Мелленберг и Дж. Ван Хейрден (Borsboom, Mellenbergh & Van Heerden, 2004) полагают, что единственной проблемой валидности теста является то, обусловлены ли ответы респондентов именно тем конструктом, на измерение которого направлен тест. Другими словами, тест является валидной мерой конструкта, если и только если предполагаемый конструкт действительно Для отечественной психодиагностики как раз более характерен «индуктивный» подход к разработке тестов и проверке их валидности. Тщательная разработка конструкта, а затем его тщательная проверка скорее редкость, чем правило. Разработчики чаще вдут от потребности пользователей в измерении какого-либо эмпирически обнаруженного свойства, опираясь на «нечеткий» конструкт или даже отрицая его принципиальною необходимость. (Прим. ред.). 214
оказывает влияние на балл, который получает респондент по результатам тестирования. Исходя из этих соображений, Д. Борсбум и др. отвергают аргумент о том, что последствия тестирования важны для оценки валидности. Кроме того, они полагают даже, что корреляции баллов по валидизируемому тесту с другими психологическими характеристиками также не относятся напрямую к валидности теста. Авторы утверждают, что «первоначальной целью валидизации является предоставление теоретического объяснения процессов, которые приводят к результатам измерения» (Borsboom, Mellenbergh & Van Heerden, 2004, с. 1067). Подход, предложенный Д. Борсбум (2004), представляет собой интересную альтернативу тем концепциям, которые описывались в данной главе. Очевидно, что он в сильной степени противопоставлен тем подходам, в которых акцентируется важность критериальной валидности и индуктивного исследования валидности. Последние два подхода либо минимизируют значение психологического конструкта как такового (критериальная валидность), либо предполагают, что понимание исследователем теоретического наполнения конструкта эволюционирует и изменяется в процессе разработки теста (индуктивный подход). В противоположность этому в подходе, предложенном Д. Борсбум с коллегами, акцентируется значение четко выраженного теоретического понимания отдельно взятого конструкта, для которого разрабатывается тест. Другими словами, конструкты не только существуют и не только являются важной составляющей процесса оценки валидности, но и являются ведущим и определяющим компонентом разработки и валидизации теста. С точки зрения исходного определения валидности, предложенного в этой главе (и основанного на Стандарте образовательного и психологического тестирования, AERA, АРА, & NCME, 1999), может показаться, что Д. Борсбум с коллегами отбрасывают слишком много факторов, оставляя лишь необходимость рассмотрения конструктов и теоретически обоснованное исследование ответов респондентов на пункты диагностического инструмента. Сопоставление надежности и валидности Теперь, когда читатель имеет представление о понятии валидности, полезно было бы сопоставить валидность с надежностью. Данные два понятия являются фундаментальными для психометрики, поэтому необходимо четко понимать разницу между ними. Как говорилось в предшествующих главах, надежность теста - это степень того, насколько различия в тестовых баллах отражают индивидуальные различия между респондентами по тому признаку, который оказывает влияние на результаты тестирования. После рассмотрения проблемы валидности это определение можно расширить и сказать, что надежность теста — это степень того, насколько различия в тестовых баллах отражают индивидуальные различия между респондентами по тому признаку, который оказывает влияние на результаты тестирования, независимо от того, что это за признак. Другими 215
словами, можно вычислять надежность теста, даже не зная потенциальной интерпретации тестовых баллов и не обладая информацией о том, какой именно психологический признак измеряется. С другой стороны, валидность по своей сути связана с интерпретацией тестовых баллов и природой измеряемого признака очень тесно. В каком-то смысле можно утверждать, что надежность является характеристикой ответов на пункты теста, в то время как валидность является характеристикой интерпретации тестовых баллов. Другими словами, надежность - это относительно несложное свойство ответов респондента на утверждения или вопросы теста, а валидность - свойство, в большей степени отражающее психологическую теорию и содержательное значение тестовых баллов. Хотя это и разные понятия, валидность и надежность взаимосвязаны как концептуально, так и статистически. С концептуальной точки зрения во многих областях наук о поведении валидность предполагает надежность. Так, например, интеллект обычно рассматривают как психологический признак, довольно устойчивый как во времени, так и в различных ситуациях. Интеллект, как правило, не претерпевает сильных изменений с течением недель и даже месяцев. Следовательно, тест, который призван измерять уровень интеллекта, должен быть достаточно устойчивым во времени. Другими словами, валидный тест интеллекта должен быть надежным. Если баллы теста неустойчивы во времени (т. е. методика обладает низкой ретестовой надежностью), такой тест не может являться валидным показателем интеллекта. Хотя валидность зачастую предполагает надежность, обратное неверно. Тест может обладать замечательной внутренней согласованностью пунктов и высокой ретестовой надежностью, но, тем не менее, его интерпретация может не являться валидной. В целом можно утверждать, что для валидности интерпретации тестовых баллов необходимо, чтобы тест был надежным, однако только лишь то, что тест надежен, не означает, что интерпретация его результатов валидна. Важность исследований валидности Надеемся, что значение валидности читателю теперь очевидно. Надеемся, что приведенные примеры убедили его в том, что валидность является, возможно, наиболее важным аспектом психометрического качества теста. В данном разделе подчеркивается важность валидности в психологических исследованиях и психологической практике. Когда психологическое измерение проводится в каких-либо серьезных целях, результаты этого измерения имеют смысл лишь тогда, когда тест достаточно валиден. При отсутствии валидности такого рода измерения бессмысленны с научной точки зрения, а иногда даже и опасны. На валидности основана способность ученых интерпретировать подавляющую часть исследований в науках о поведении. Цели научного исследования включают в себя описание, предсказание и объяснение некоторой области реального мира, будь это область физическая или психологическая. 216
Точность описания, предсказания и объяснения зависит, в свою очередь, от способности исследователя манипулировать существенными переменными и измерять их. Так, в рамках социальной психологии исследовалась гипотеза о том, что увлечение жестокими видеоиграми увеличивает склонность человека к агрессивному поведению (напр., Anderson & Dill, 2000; Bartholow, Sestir, & Davis, 2005). Результаты исследований указывают на то, что видеоигры и в самом деле оказывают влияние на агрессивность. Однако следует помнить о том, что такого рода исследование частично основано на измерении такой переменной, как «склонность к агрессивному поведению». Если данная переменная измерена достаточно валидна, уверенность в результатах описанного исследования увеличится. Если же «склонность к агрессивному поведению» измерена недостаточно валидно, в исследовательском выводе можно усомниться. В отсутствии валидности теста научное понимание роли видеоигр в подростковой агрессивности сильно искажено. Таким образом, влияние валидности на научный процесс несколько абстрактно: валидность влияет на точность научного понимания реальности. Валидность теста в исследовательском контексте может иметь и более конкретное значение. Как известно, одна из целей научного исследования - сопровождение решений в различных областях общественной жизни. Такие решения могут применяться как для всего общества в целом, так и для отдельно взятого человека, но в обоих случаях валидность будет иметь большое значение. В отсутствии валидности принимаемых решений по социальным вопросам могут быть необоснованными, бесполезными и даже опасными. В июне 2006 года в Палате представителей Конгресса США проводились слушания по поводу насилия, изображаемого в популярных видеоиграх. Причиной послужила обеспокоенность по поводу того, что наблюдение насилия в видеоиграх имеет разрушительные последствия для тех, кто в них играет, особенно для молодых людей. Таким образом, проведенные слушания были основаны на предположении о том, что насилие в видеоиграх увеличивает агрессивность в поведении людей. Разумеется, ключевым вопросом является вопрос об эмпирической обоснованности этого предположения. Если существуют сильные эмпирические свидетельства в пользу правомерности приведенного утверждения, можно говорить о том, что слушания Конгресса проходили на относительно хорошей научной базе. Если же исследования проводились с использование тестов, обладающих низкой валидностью, необходимо серьезно усомниться в значении этих исследований. Как следствие, любые управленческие решения, принятые на основе таких сомнительных исследований, сами являются сомнительными. Если бы Конгресс США принял закон на основе научных исследований, валидность которых сомнительна, каковы могли бы быть последствия? Время и усилия конгрессменов были бы потрачены зря, а принятый закон был бы необоснованным. Кроме того, можно себе представить, что на «предотвращение» агрессии путем кампаний против агрессивных видеоигр было бы потрачено немало бюджетных денег. Если тесты, применяемые в научных исследованиях, обладали низкой валидностью, то эти деньги были бы потрачены 217
зря. Если же деньги на такие кампании были выделены путем сокращения бюджета каких-либо других социальных программ (возможно, действительно полезных для общества), данное управленческое решение в конечном итоге навредило бы тем людям, которые могли выиграть от участия в этих программах. Следует пояснить, что мы ни в коем случае не пытаемся опорочить качество исследований по психологическому эффекту агрессивных видеоигр. Большинство исследований в этой сфере действительно хорошо спланировано и проведено. Данный пример используется лишь в целях иллюстрации фундаментальных взаимосвязей между валидностью теста, качеством исследования и принятием общественно значимых решений. И наконец, в отсутствии валидности теста необоснованными или даже опасными могут быть решения, принимаемые в отношении отдельных людей. Среди решений, которые хотя бы частично основаны на результатах психологического тестирования, - помещение детей в специализированные классы, прием абитуриентов в колледж, принятие клинических решений и предоставление кандидатам на работу той или иной должности. Такого рода решения могут изменить жизнь человека, проходившего тестирование, а качество самого теста может оказать сильное влияние на заключение, принятое по его результатам. Пока эти решения принимаются на основе хорошо валидизированных тестов, можно надеяться, что их использование принесет и респондентам, и диагностам только лишь пользу. Если решения принимаются на основе адекватно использованных и хорошо валидизированных тестов, можно надеяться, что детей поместят в более подходящие для них классы; кандидаты на работу с большей вероятностью найдут такую должность, которая соответствует их интересам, склонностям и способностям; студентов примут в те учебные заведения, которые соответствуют уровню их возможностей; пациентам поставят такие диагнозы, которые повысят вероятность успешного лечения. Тем не менее существует возможность, что решения будут приниматься на основе тестов, обладающих низкой валидностью, или, например, на основе некорректного применения тестов, которые были валидизированы для использования в других целях. В первой главе данной книги обсуждался один из законов Северной Каролины, гласящий: «...умственно отсталый человек, осужденный за совершение убийства первой степени, не может быть приговорен к смертной казни» (Уголовно-процессуальный акт, 2007). Как уже говорилось, решение по поводу диагноза умственной отсталости принимается частично на основе «индивидуального, научно обоснованного, стандартизованного теста на коэффициент интеллекта, проводимого лицензированным психиатром или психологом». Надеемся, что слова научно обоснованный и стандартизованный читаются во многом как «научно-валидизированный». Надеемся также, что эта проблема известна юристам. 218
Резюме В данной главе были описаны концептуальные основы валидности теста. По определению, приведенному в «Стандартах образовательного и психологического тестирования», валидность - это «степень эмпирической и теоретической обоснованности интерпретации тестовых баллов • в предполагаемых сферах использования» теста (AERA, АРА, & NCME, 1999. с. 9). Выше были описаны несколько ключевых следствий из такого понимания валидности: валидность имеет отношение к интерпретации тестовых баллов, это количественный показатель, и он основан как на эмпирических свидетельствах, так и на теории. Поскольку эмпирические свидетельства являются при исследовании и оценке валидности ключевым моментом, выше также описывались пять типов эмпирических свидетельств, имеющих существенное отношение к валидности теста: содержание теста, его внутренняя структура, влияние процесса ответа на утверждения или вопросы теста, взаимосвязь с другими переменными и последствия тестирования. Далее было проведено сопоставление современного подхода к пониманию валидности и традиционных подходов, все еще имеющих широкое распространение, а также сопоставление валидности и надежности. Наконец, была еще раз обозначена важность исследования валидности в контексте научной работы и прикладного использования тестов. Рекомендуемая литература Недавняя работа по валидности теста, содержащая обширный обзор основополагающих подходов к проблеме валидности и уже ставшая классической: Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-103). New York: Macmillan. Еще один основательный обзор современных достижений в области валидности тестов: Shepard, L. А. (1993). Evaluating test validity. In L. Darling-Hammond (Ed.), Review of research in education (Vol. 19, pp. 405-450). Washington, DC: American Educational Research Association. Классическая в истории исследований валидности статья, одна из наиболее часто цитируемых психологических статей: Cronbach, L. J., & Meehl. Р. Е. (1955). Construct validity in psychological tests. Psychological Bulletin, 51,281-302. Интересное дополнение к современным теориям конструктной валидности: Schmidt, F. L. (1988). Validity generalization and the future of criterion-related 219
validity. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 173-189). Hillsdale, NJ: Lawrence Erlbaum. Интересные комментарии о понятии валидности последствий тестирования: Lees-Haley, Р. R. (1996). Alice in validityland, or the dangerous consequences of consequential validity. American Psychologist, 51, 981-983. Наиболее современный взгляд на проблему валидности с точки зрения трех ведущих организаций, занимающихся психологическим тестированием: American Educational Research Association, American Psychological Association, and National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association. 220
ЛАВА 9 Валидность Вычисление и оценка конвергентной и дивергентной валидности В предыдущей главе были представлены теоретические основы валидности и обобщены те виды эмпирических данных, которые могут использоваться для оценки конструктной валидности. Было показано, что конвергентная и дивергентная валидность выражает то, насколько «корректны» паттерны взаимосвязи тестовых баллов с другими переменными. В данной главе будет приведено более подробное объяснение методов оценки ковергентной и дивергентной валидности, а также обсуждение вопросов, касающихся интерпретации соответствующих показателей. Как уже говорилось, психологические конструкты окружены неким теоретическим контекстом. Другими словами, концептуальное основание конструкта включает в себя взаимосвязи между данным конструктом и рядом других психологических конструктов. Такие взаимосвязи получили название «помологическая сеть» (nomological network) 1 , т. е. сеть «значений». окружающих конструкт (Cronbach & Meehl, 1955). Так, Р.Ф. Баумейстер и М.Р. Лиэри ввели в обиход понятие «потребности в принадлежности», которое было Помологическая сеть (от гр. «nomos» - закон) - идея, разработанная Л. Кронбахом и П. Милем. Описывает взгляд Кронбаха и Миля на конструктную валидность. Они полагали, что для предоставления доказательств того, что измерение обладает конструктной валидностью, необходимо разработать помологическую сеть для данного измерения. Эта сеть включает в себя теоретическую основу того, что исследователь стремится измерить и эмпирическую основу того, как он собирается измерить, а также особенности взаимосвязей между двумя этими основами. (Прим, перев.). 221
ими определено как «стремление формировать и поддерживать по крайней мере минимальное количество продолжительных, позитивных и значимых межличностных взаимоотношений» (Baumeister & Leary, 1995, с. 497), Хотя они и предполагали, что потребность в принадлежности - одна из фундаментальных для человека, по их наблюдениям оказалось, что разные люди испытывают эту потребность в разной степени. Некоторые испытывают относительно высокую потребность в частых межличностных взаимодействиях на основе близости и заботы, некоторые же, похоже, нуждаются в таких взаимодействиях меньше. М.Р. Лиэри, К.М. Келли, К.А. Котрелл и Л.С. Шрейндорфер описывали помологическую сеть, окружающую конструкт потребности в принадлежности (Leary, Kelly, Cottrell & Schreindorfer, 2006). Они предположили, что потребность в принадлежности чем-то похожа на такие характеристики, как потребность в аффилиации, стремление к близости (интимности), общительность и экстраверсия. Кроме того, потребность в принадлежности, по их мнению, совсем не должна быть связана с такими конструктами, как добросовестность, открытость опыту и самооценка. Номологическая сеть взаимосвязей между конструктами предполагает определенную картину взаимосвязей между баллами тестов, направленных на измерение этих конструктов. Номологическая сеть, окружающая конструкт, подразумевает, что соответствующий тест должен коррелировать с другими тестами, измеряющими другие конструкты, причем в одних случаях ожидаются сильные корреляции, в других - слабые. Например, М.Р. Лиэри с коллегами (Leary et aL, 2006) прогнозировали, что разработанный ими десятипунктовый тест на потребность в принадлежности (Need to Belong, NTB) будет обладать слабыми или умеренными взаимосвязями с тестами на потребность в аффилиации, стремление к близости и экстраверсию, отрицательно коррелировать с тестом социальной изоляции и практически не будет обладать корреляциями с тестами на добросовестность, открытость опыту и самооценку. Эти прогнозы в дальнейшем использовались для оценки конвергентной и дивергентной валидности NTB. Ключевой частью процесса валидизации является оценка степени соответствия реальной и спрогнозированной картины корреляций. В данной главе представлены некоторые методы, использующиеся для этого, а также некоторые факторы, влияющие на результат этой проверки, и некоторые базовые соображения в плане интерпретации результатов анализа. Методы оценки конвергентной и дивергентной валидности Существует по меньшей мере четыре метода оценки конвергентного и дивергентного характера взаимосвязей между тестами. Все они отличаются по нескольким аспектам: концептуальная сложность, статистическая сложность, необходимость в четко выраженных и конкретных прогнозах. Одни из них 222
относительно новы, возраст же других насчитывает десятилетия. Несмотря на эти различия, описанные ниже методы являются (или же могут стать) полезными и распространенными способами оценки конвергентной и дивергентной валидности теста. Прицельные корреляции Некоторые тесты имеют явное отношение к небольшому четко очерченному набору переменных. Оценка валидности таких тестов может быть сфокусирована на взаимосвязях между тестовыми баллами и этими немногочисленными переменными. В каком-то смысле данные взаимосвязи являются ключевой точкой принятия решения о конвергентной или дивергентной валидности теста в терминах «да или нет» (третьего не дано). Если полученная корреляция совпадает с прогнозом, это является сильным свидетельством в пользу валидности; если же полученная корреляция с прогнозом не совпадает, это является серьезным поводом для сомнения в качестве теста. Как говорилось в предыдущей главе, субтест SAT на логическое мышление направлен на измерение «навыков критического мышления, [необходимых] для достижения успеха при обучении в колледже» (College Board, 2006). В этом определении предполагается, что для оценки субтеста SAT на мышление особый интерес представляют две переменные. Во-первых, будучи мерой сформированное™ «навыков критического мышления», SAT должен коррелировать с другими тестами на критическое мышление. Во-вторых, поскольку исследуемый конструкт необходим для «успешного обучения в колледже», SAT должен коррелировать с показателем академической успеваемости. Исследуя качество теста SAT, Совет колледжей в основном заинтересован во взаимосвязях между тестовым баллом SAT и показателем академической успеваемости. В ряде документов, предоставляемых студентам, преподавателям и исследователям, акцентируется взаимосвязь тестового балла по SAT и таким показателем, как оценки за первый год обучения в колледже. К примеру. Программное руководство по SAT, выпущенное Советом колледжей для школьных психологов и специалистов приемных комиссий, включает в себя несколько упоминаний валидности (College Board, 2006). В первом разделе Руководства, посвященном валидности, указано, что по результатам исследования свыше 110 000 студентов из более чем 25 колледжей средний коэффициент корреляции между тестовым баллом по SAT и отметками первокурсников составил 0.55. В дальнейшем в Руководстве упоминаются и другие исследования, посвященные возможностям прогноза отметок по тестовым баллам SAT. Очевидно, что College Board сосредоточивает все аргументы относительно валидности теста на корреляциях между SAT и определенным набором критериальных переменных, связанных с академической успеваемостью в колледже. Таким образом, первый метод оценки валидности интерпретации тестовых баллов - фокусировка на небольшом количестве релевантных критериальных 223
переменных. Если тестовые баллы в действительности взаимосвязаны с этими ключевыми переменными, доверие разработчиков и пользователей к тесту повышается. Данные корреляции, называемые иногда коэффициентами валидности, имеют для исследования валидности фундаментальный смысл. Если по результатам исследований оказывается, что коэффициенты валидности теста высоки, высока будет и уверенность разработчиков, пользователей и оценщиков теста в его способности качественно измерить изучаемый конструкт. Обобщение показателей валидности - это процесс оценки коэффициентов валидности теста, полученных в большом массиве исследований (Schmidt, 1988; Schmidt & Hunter, 1977). В отличие от SAT, многие тесты, используемые в науках о поведении, разрабатывались в рамках относительно немногочисленных исследований. Фактически, многие (если даже не все) исследования валидности основаны на выборках менее 400 человек - особенно в тех случаях, когда в исследовании использовались еще какие-то данные кроме самооценочных1. В большинстве случаев исследователь, проводящий валидизацию теста, набирает одну выборку от 50 до 400 респондентов, проводит тестирование этих респондентов по исследуемому тесту, измеряет дополнительные критериальные переменные и вычисляет корреляцию между этими переменными и тестовыми баллами. Подобного рода исследования составляют основу многих диагностических инструментов, используемых для исследований в области психологии личности, клинической психологии, психологии развития, социальной психологии, организационной психологии и психологии образования. Отдельные исследования валидности зачастую включают в себя относительно небольшие выборки, что обусловлено ограниченностью времени, финансирования и других ресурсов исследователя. Несмотря на то что исследования, использующие относительно небольшие выборки, довольно распространены, а их проведение подкреплено целым рядом практических соображений, всем этим исследованиям присущ потенциально важный недостаток. Исследование, проведенное в одной географической местности с одной небольшой выборкой, может привести к обнаружению приемлемых показателей конвергентной и дивергентной валидности теста, однако результаты могут не распространяться на другие географические местности или другие выборки. Например, результаты исследования банковских служащих могли бы свидетельствовать о том, что баллы по шкале «Добросовестность» опросника NEO-PI-R довольно хорошо прогнозируют профессиональную успешность банковских служащих. Несмотря на то что эта информация может оказаться ценной и полезной для менеджеров по персоналу в банковской сфере, означает ли это, что она будет так же полезна для бухгалтеров, сферы недвижимости или индустрии продаж? Другими словами, является ли корреляция между баллами по шкале добросовестности и профессиональной успешностью такой сильной только лишь для банковских служащих, распространяется ли эта корреляция на Выборка валидизации «меньше 400 человек» является в соответствии с критерием для оценки тестов, выработанных BPS и EFPA, предельно допустимой и соответствует 2 баллам из 5. (Прим. ред.). 224
другие выборки? Возможно также, в некоторых областях занятости добросовестность играет большую роль, а в некоторых - нет. Если это так, нам не следует полагать, что NEO-PI-R * не дает валидного прогноза профессиональной успешности во всех профессиях. Исследования по обобщению показателей валидности ставят своей целью оценку предсказательной способности тестовых баллов в широком спектре условий, ситуаций, временных контекстов и т. д. Исследование по обобщению показателей валидности представляет собой одну из форм мета-анализа, при котором результаты нескольких отдельных исследований объединяются и количественно обобщаются (Schmidt, Hunter, Pearlman, & Hirsh, 1985). Например, представим себе, что было проведено 25 исследований, в которых оценивалась взаимосвязь шкалы добросовестности из опросника NEO-PI-R и профессиональной успешности работника. В одном из этих исследований использовались банковские служащие, в другом выборку составили школьные учителя, в третьем - продавцы, и т. д. Во всех этих исследованиях были использованы разные выборки, но не исключено также, что во всех этих исследованиях использовались и разные инструменты измерения профессиональной успешности. Например, в некоторых случаях оценка могла производиться путем экспертной оценки работников менеджерами по персоналу, в некоторых случаях оценка могла быть более объективной — например, по количеству вырученных на сделках денег. Таким образом, в результате можно было бы обнаружить, что анализируемые 25 исследований привели к получению достаточно разных данных относительно взаимосвязи добросовестности и профессиональной успешности. Исследования по обобщению показателей валидности могут быть направлены на решение как минимум трех важных проблем. Во-первых, они могут выявить общий уровень прогностической валидности при обобщении всех отдельных и не столь масштабных исследований. Например, средний коэффициент корреляции между шкалой добросовестности NEO-PI-R и профессиональной успешностью для 25 гипотетических исследований, рассматриваемых нами, мог бы составить 0.30. Во-вторых, исследования по обобщению показателей валидности могут показать степень вариативности1 в результатах отдельных небольших исследований. В рассматриваемом случае могли бы быть получены данные, скажем, о том, что в некоторых исследованиях коэффициент корреляции между шкалой добросовестности и профессиональной успешностью достаточно высок (например, от 0.40 до 0.50), тогда как в других исследованиях этот коэффициент достаточно низок (например, от 0 до 0.10). В таком случае мог бы быть сделан вывод о том, что взаимосвязь между шкалой добросовестности NEO-PI-R и профессиональной успешностью не распространяется на все исследования и, следовательно, на все группы обследуемых. При другом раскладе событий могли бы быть получены данные о том, что во всех 25 исследованиях обнаружены умеренные корреляции между данными двумя переменными (например, от 0.20 до 0.40). В данном случае, Термины «вариативность» и «дисперсия» используются нами как взаимозаменяемые. (Прим, перев.). 225
поскольку степень вариативности полученных данных небольшая, можно было бы заключить, что взаимосвязь между добросовестностью и профессиональной успешностью распространяется на все выборки и исследования. В любом случае полученные данные предоставили бы немаловажную информацию для оценки валидности NEO-PI-R и для использования этого опросника в принятии решений о найме. Третья проблема, которую можно решать средствами обобщения показателей валидности, - это проблема источников вариативности отдельных исследований. Если первоначальный статистический анализ выявил широкий разброс коэффициентов валидности в различных исследованиях, дальнейший анализ может быть направлен на выявление того, с чем связаны эти различия. Например, таким образом можно обнаружить методологические различия между отдельными исследованиями, которые оказываются связанными с результатами, получаемыми в этих исследованиях. Можно было бы обнаружить, скажем, что высокие коэффициенты валидности принадлежат исследованиям, где профессиональную успешность работников оценивали менеджеры по персоналу, тогда как в исследованиях, в которых использовались в качестве показателя профессиональной успешности более объективные показатели (например, выручка), получались более низкие коэффициенты валидности. В таком случае различия в методах измерения критериальной переменной вносят вклад в различия коэффициентов валидности. Такого рода методологические источники вариативности следует учитывать при оценке степени применимости среднего коэффициента валидности к различным исследованиям и выборкам. Таким образом, некоторые психологические тесты, как ожидается, должны быть взаимосвязаны в первую очередь с небольшим количеством специфических переменных. Если результаты исследования подтверждают сильную корреляцию теста с некоторой специфической критериальной переменной, разработчики, пользователи и оценщики теста получают свидетельство того, что тестовые баллы, отражающие измеряемый психологический конструкт, обладают хорошей конвергентной валидностью. Чтобы оценить степень того, насколько взаимосвязь между тестом и критериальной переменной может быть распространена на другие исследования, выборки, условия и т. д., следует использовать мета-анализ показателей валидности. Наборы корреляций Номологическая сеть, окружающая конструкт, не всегда сфокусирована на небольшом количестве релевантных конструкту критериальных переменных. Иногда номологическая сеть исследуемого конструкта затрагивает множество других конструктов, и сила их взаимосвязи варьируется. В таких случаях исследователь, оценивающий конвергентную и дивергентную валидность теста, должен изучить широкий спектр критериальных переменных. Для этого исследователи зачастую вычисляют коэффициенты корреляции исследуемого теста с большим количеством показателей критериальных переменных, после чего «просматривают» полученные корреляции и выносят 226
н*ги ! несколько субъективное решение относительно того, насколько полученная картина взаимосвязей соответствует гипотетически ожидаемой, К примеру, Дж. Хилл Hill с коллегами разработали новый опросник перфекционизма (PI) и опубликовали результаты его конвергентной и дивергентной валидности (Hill, 2004). Опросник разработан для измерения ; восьми компонентов перфекционизма, то есть авторы заложили в него многокомпонентную структуру (см. обсуждение внутренней структуры теста в предыдущей главе). Среди компонентов перфекционизма, входящих в авторский конструкт, - озабоченность по поводу совершения ошибок, организованность, склонность к планированию, стремление к совершенству и потребность в одобрении. Для оценки конвергентной и дивергентной валидности опросника в исследовании наряду с PI использовались еще 23 критериальных переменных. Критериальные переменные включали в себя другие (уже существующие) тесты на перфекционизм, а также, поскольку перфекционизм теоретически может быть | связан с разнообразными психологическими нарушениями, методики измерения 3 нескольких психологических симптомов (например, обсессивно- f компульсивного расстройства, тревоги и боязни получить отрицательную оценку). Корреляции между шкалами PI и шкалами 23 критериальных переменных были представлены в виде корреляционной матрицы, состоящей более чем из 200 ячеек (см. табл. 9.1). Оценивая конвергентную и дивергентную валидность опросника, Дж. Хилл с коллегами внимательно изучили полученную картину взаимосвязей и проинтерпретировали ее в соответствии с исходными теоретическими предположениями (Hill, 2004). Например, было замечено, что шкала «Озабоченность по поводу совершения ошибок» опросника PI имеет сильную корреляцию с аналогичной шкалой из другого теста перфекционизма. Кроме того, было замечено, что шкала «Стремление к совершенству» имела сильные корреляции с такими шкалами других тестов перфекционизма, как «Личностные стандарты» (шкала, выражающая высокие ожидания респондента по поводу собственной успешности и склонность основывать на успешности свою самооценку) и «Самоориентированный перфекционизм» (шкала, выражающая нереалистичные притязания и склонность к фиксации на ошибках и моментах несовершенства в выполняемой деятельности). Кроме того, были изучены взаимосвязи шкал PI с различными показателями неблагополучия. Например, было обнаружено, что 3 шкалы PI (навязчивые мысли/застревание, озабоченность по поводу совершения ошибок и потребность в одобрении) тесно взаимосвязаны со страхом отрицательной оцени, а также с частотой и интенсивностью проявления симптомов обсессивно-комульсивного расстройства личности. Данный подход к оценке валидности весьма широко распространен. Сначала исследователь набирает большое количество данных с использованием оцениваемого теста и других тестов, гипотетически связанных с ним. Затем анализируется паттерн корреляций и выносится суждение относительно того, насколько этот паттерн соответствует концептуальному значению конструкта, заложенного в тест. 227
Таблица 9.1 Пример набора корреляций, использовавшегося при валидизации опросника перфекционизма Корреляции между шкалами опросника перфекционизма и другими переменными Шкала ОСО ВС ПО ОР СРД СП HM/3 cc СозП con СумП Перфекционизм: МТП-Фа Озабоченность по поводу совершения ошибок 0,82 0,43 0,58 0,18 0,38 0,30 0,70 0,52 0.47 0,78 0.72 Сомнения по поводу действий 0,63 0,37 0,60 0,24 0,20 0,38 0,70 0.43 0,47 0.67 0,65 Критика родителей 0,41 0,25 0,20 -0,03ns 0.60 0,02ns 0,32 0,17 0,14 0,49 0.36 Ожидания родителей 0,31 0,27 0,18 0,07ns 0,85 0,06ns 0,29 0,32 0,23 0,53 0,43 Л ичностные стандарты 0,47 0,50 0,36 0,45 0,30 0,44 0,52 0,72 0.70 0,55 0.71 Организованность 0,12 0,36 0,18 0,89 0,11** 0,49 0,31 0.51 0,76 0.23 0,55 Перфекционизм: МТП-ХФЬ Самоориентированный 0,47 0,42 0,34 0,47 0,42 0,45 0,55 0.79 0,71 0,57 0,73 Ориентированный на других 0,33 0,62 0,14** 0,29 0,30 0,26 0,37 0,42 0.53 0,36 4 0,51 Социально предписываемый 0,65 0,35 0,49 0,16** 0,58 0,21 0,61 0.42 0,38 0.74 0,65 Симптомы неблагополучия: КСТС Соматические жалобы 0,35 0,14* 0,31 0,13 0,11* 0,13* 0.34 0.17 0,19 0.35 0,31 Депрессия 0,46 0,16** 0,46 0,03ns 0,15** 0,18 0,46 0.13* 0,17 0,49 0,39 Обсессивно-компульсивные симптомы 0,40 0.14** 0,46 0,08ns 0,10** 0.19 0,46 0,18 0,19 0.45 0,37 Тревога 0,42 0,28 0,42 0,22 0,25 0,25 0,49 0,29 0.35 0,50 0,49 Межличностная чувствительность 0,52 0,18 0,68 0,17 0,13* 0,22 0.56 0.27 0,28 0.60 0,51 Враждебность 0,41 0,30 0,31 0,10* 0,21 0.05ns 0,39 0,15** 0,20 0,42 0,36 Фобическая тревога 0,39 0,14** 0,39 0,13* 0,15** 0,13* 0,39 0.15** 0,21 0,42 0,37 Паранойя 0,48 0,28 0,49 0,18 0,21 0,21 0,54 0,30 0,33 0,55 0,51 Психотизм 0,49 0,19 0,48 0,09ns 0,16** 0.19 0.49 0,17 0;22 0.51 0,43
Продолжение таблицы 9.1 Общий индекс неблагополучия 0,54 0,24 0,55 0,16 0,20 0.21 0.57 0.25 0,29 0,59 0,51 Опросник обсессивно-компульсивных расстройств Частота 0,43 0,24 0,45 0,39 0,08“ 0,34 0,52 0,42 0.47 0.47 0,54 Дистресс 0.50 0,28 0,49 0,40 0,03“ 0,33 0,60 0,44 0,48 0,51 0.57 Боязнь отрицательной опенки8 0,63 0,26 0,83 0,16 0,20 0,31 0,64 0,33 0,34 0,73 0,62 Социальная желательность: ШСЖМК' -0,15** -0,17 -0,09* - 0,04“ -0,14** -0,09* -0,18 -0,16 -0,12** -0,18 -0,18 |4j Примечания: Для всех корреляций р<0.001 (если другое не отмечено). ОСО = Озабоченность по поводу совершения to ошибок; ВС = Высокие стандарты по отношению к другим; ПО = Потребность в одобрении; ОР = Организованность; СРД = Самооценка родительского давления; СП = Склонность к планированию; НМ/3 = Навязчивые мысли / застревание; СС = Стремление к совершенству; СозП = Сознательный перфекционизм; СОП = Самооценочный перфекционизм; СумП = Суммарный балл перфекционизма; МТП-Ф - Многомерный тест перфекционизма Фроста; МТП-ХФ = Многомерный тест перфекционизма Хьюитта и Флетта; КСТ = Краткий симптоматический тест; ШС'ЖМК = Шкала социальной желательности Марлоу-Кроуна. а п = 613. b п = 369.с п = 368. d п = 207. * р < 0,05. ** р < 0,01. ™р > 0,05. Все тесты односторонние. Источник: Copyright 2004 from Journal of Personality Assessment, 92(1), 80-91 by HilL et al. Воспроизводится с разрешения Taylor & Francis Group, LLC., http://www.taylorandfrancis.com.
Мультипризнаковые-мультиметодные матрицы В истории психологического измерения одной из наиболее влиятельных работ являлась статья Д.Т. Кемпбелла и Д.В. Фиске, опубликованная в 1959 году. В данной статье Д.Т. Кемпбелл и Д.В. Фиске развивают понятие конструктной валидности, описанное Л.Дж. Кронбахом и П.Е. Милом в 1955 году. Как уже говорилось, Л.Дж. Кронбах и П.Е. Мил концептуализировали конструктную валидность на основе понятия номологической сети. Хотя их статья и явилась большим шагом вперед в разработке теории конструктной валидности, Л.Дж. Кронбах и П.Е. Мил не предоставили никакого строгого статистического метода оценки конструктной валидности. В качестве статистического и методологического дополнения и расширения концептуальной работы, проделанной Л.Дж. Кронбахом и П.Е. Милом, Д.Т. Кемпбелл и Д.В. Фиске разработали и описали так называемые мультипризнаковые-мультиметодные матрицы (multitrait-multimethod matrices, МТМММ). В мультипризнаковых-мультиметодных матрицах при оценке конструктной валидности используются показатели по нескольким психологическим признакам, каждый из которых измерен несколькими методами. Например, исследователи, изучающие новый самооценочный опросник социальной компетентности, могут попросить респондентов наряду с самим этим опросником заполнить самооценочные тесты, измеряющие другие психологические признаки, такие как импульсивность, добросовестность и эмоциональная устойчивость. Кроме того, они могут попросить близких знакомых каждого из респондентов, чтобы те заполнили все перечисленные тесты про своих друзей, т. е. продублировать самооценочные данные данными экспертной оценки со стороны близких людей. И, наконец, они могут нанять группу студентов-психологов, чтобы те провели интервью и оценили каждого из респондентов все по тем же показателям социальной компетентности, импульсивности, добросовестности и эмоциональной устойчивости. Таким образом, для каждого из респондентов исследователи получили бы данные относительно нескольких психологических признаков (социальная компетентность, импульсивность, добросовестность и эмоциональная устойчивость), каждый из которых измерен одновременно несколькими методами (самооценочным. экспертной оценкой близкого человека, экспертной оценкой проводящего интервью психолога). Конечная цель анализа мультипризнаковых-мультиметодных матриц - обеспечить четкое руководство и схему оценки показателей конвергентной и дивергентной валидности. Данная цель частично достигается за счет изучения двух качественно различных источников вариативности, которые могут оказывать влияние на корреляцию между двумя показателями (тестами) - вариативность психологических признаков и вариативность измерительных методов. Для лучшего понимания данных источников вариативности 230
представим себе, что исследователь, изучающий новый самооценочный опросник социальной компетентности, обнаруживает, что баллы по этому опроснику имеют сильную корреляцию 'с баллами по самооценочному опроснику эмоциональной устойчивости. О чем говорит это открытие? Грубо говоря, это открытие свидетельствует о том, что респонденты, заявляющие, что они социально компетентны, заявляют также, что они эмоционально устойчивы. Однако отражает ли данный факт сугубо психологическое явление (т. е. взаимосвязь двух конструктов) или же он отражает в большей степени методологическое явление, независимое от самих психологических конструктов? В первом случае речь идет о том, что два психологических признака - социальная компетентность и эмоциональная устойчивость - имеют что-то общее, а определенная часть вариативности признака в двух использованных тестах пересекается. Например, социально компетентные люди могут иметь тенденцию к развитию большей эмоциональной устойчивости (возможно, потому, что их социальная компетентность позволяет им вступать в эмоционально благополучные взаимоотношения). Либо же эмоционально устойчивые люди могут иметь тенденцию к развитию все большей социальной компетентности (вероятно, их эмоциональная устойчивость позволяет им чувствовать себя более комфортно и вести себя более эффективно в ситуациях общения). Возможен еще один вариант, при котором и социальная компетентность, и эмоциональная устойчивость зависят от некоторой третьей переменной (возможно, существуют определенные генетические предпосылки, оказывающие влияние и на социальную компетентность, и на эмоциональную устойчивость). Каждое из этих объяснений подразумевает, что два измеряемых признака (социальная компетентность и эмоциональная устойчивость) действительно взаимосвязаны и имеют что-то общее. Предполагается, что тесты, направленные на измерение данных психологических признаков, коррелируют между собой именно потому, что взаимосвязаны сами признаки. Несмотря на то что при рассмотрении корреляции между тестовыми баллами по социальной компетентности и эмоциональной устойчивости в первую очередь напрашивается именно психологическая интерпретация, данная взаимосвязь может иметь и непсихологическую основу. Вспомните, что рассматриваемый пример был основан на применении двух самооценочных опросников. Таким образом, корреляция может быть основана сугубо на общей вариативности метода. Другими словами, корреляция может быть положительной потому, что она получена при использовании одного и того же источника - самоотчетных данных самого респондента. Когда два психологических измерения получены из одного и того же источника, они могут быть взаимосвязаны «сверх» взаимосвязи самих психологических конструктов, лежащих в их основе. Например, люди могут иметь тенденцию оценивать себя в весьма обобщенных терминах - либо как в целом «хороших», либо как в целом «плохих». Таким образом, положительная корреляция между самооценкой социальной компетентности и самооценкой эмоциональной устойчивости может 231
быть обусловлена тем фактом, что респонденты, которые указывают для себя высокий уровень социальной компетентности, просто-напросто склонны оценивать себя в целом «хорошо», а следовательно, они укажут достаточно высокий уровень и по показателю эмоциональной устойчивости. Сходным образом, респондент, оценивающий себя в целом как «плохого» человека, будет склонен давать довольно низкую самооценку как по социальной компетентности, так и по эмоциональной устойчивости. В данном случае очевидная корреляция между показателями социальной компетентности и эмоциональной устойчивости не отражает реальной взаимосвязи между психологическими конструктами. Данная корреляция является лишь следствием систематических искажений, вносимых в процесс измерения самим методом самоотчета. Таким образом, корреляция является «артефактом» того, что два показателя получены одним и тем же методом (самоотчетом). Говоря психометрическим языком, тестовые баллы имеют общую вариативность (дисперсию) метода. Если принимать во внимание потенциальные влияния вариативности метода и вариативности признака, корреляция между двумя тестами выглядит весьма неоднозначно. С одной стороны, сильная положительная или отрицательная корреляция может означать, что тесты обладают общей дисперсией признака, т. е. конструкты, на измерение которых они направлены, взаимосвязаны. С другой стороны, сильная положительная или отрицательная корреляция может означать, что тесты обладают общей дисперсией метода, т. е. они коррелируют прежде всего потому, что используют один и тот же измерительный принцип. Такого рода неоднозначность усложняет и интерпретацию слабой корреляции между двумя тестами. Относительно слабая корреляция может означать, что использованные тесты не имеют общей дисперсии признака, т. е. конструкты, на измерение которых они направлены, не связаны друг с другом. С другой стороны, это может означать и то, что тесты не имеют общей дисперсии метода (т. е. они пользуются различным принципом измерения). В таком случае истинная корреляция между психологическими признаками маскируется. Другими словами, возможно, что в действительности два психологических признака связаны между собой, однако поскольку один из них измерен с помощью одного метода (например, самоотчета), а другой - с помощью другого метода (например, экспертная оценка близкого человека), итоговый коэффициент корреляции невысок. Данная неоднозначность интерпретации может помешать при оценке конструктной валидности теста. Возможность того, что часть дисперсии связана с психологическими признаками, а часть - с использованными методами, затрудняет интерпретацию набора корреляционных взаимосвязей в терминах ковергентной и дивергентной валидности. Каждый из коэффициентов корреляции, вероятно, отражает тесный сплав дисперсии признака и дисперсии метода. Поскольку исследователь, оценивающий конструктную валидность теста, не знает заранее истинный «вес» дисперсии признака и дисперсии метода, необходим тщательный анализ полученного набора корреляционных 232
взаимосвязей. Такой тщательный анализ может привести к полезным выводам относительно дисперсии метода, дисперсии признака и, наконец, конструктной валидности исследуемого теста. Анализ мул ьтипризнаковых-мультиметодних матриц (МТМ ММ) был разработан именно для этих целей. Как было показано Д.Т. Кемпбеллом и Д.В. Фиске, анализ мультипризнаковых-мультиметодных матриц (МТМММ) следует проводить путем рассмотрения различных типов корреляций, отражающих различные по характеру сплавы дисперсии признаков и дисперсии методов (Campbell & Fiske, 1959). В приведенном выше примере для валидизации нового опросника социальной компетентности исследователь собрал данные по четырем психологических признакам, каждый из которых был измерен тремя различными способами. Остановимся подробнее на двух коэффициентах корреляции: а) между самооценочным опросником социальной компетентности и экспертным опросником социальной компетентности для близких друзей или знакомых, б) между самооценочным опросником социальной компетентности и самооценочным опросником эмоциональной устойчивости. Если новый самооценочный опросник действительно можно рассматривать как валидный инструмент диагностики социальной компетентности, то какой из двух коэффициентов корреляции должен быть выше? Основываясь сугубо на смысле измеряемых конструктов, исследователь может предположить, что первый коэффициент корреляции будет выше второго. Предположение о том, что первый коэффициент корреляции должен быть высок, основано на том, что этот коэффициент получен при сопоставлении двух измерений одного и того же конструкта. С другой стороны, исследователь может ожидать, что второй коэффициент корреляции будет низок, т. к. социальная компетентность и эмоциональная устойчивость все-таки являются различными психологическими конструктами. Тем не менее, в такого рода прогнозах игнорируется потенциальное влияние на коэффициент корреляции со стороны обшей дисперсии метода. Принимая во внимание дисперсию метода, исследователь может пересмотреть свои предположения. Заметьте, что первый коэффициент корреляции получен с использованием двух разных методов измерения, тогда как второй основан на одном методе (два самооценочных теста). Таким образом, исходя из соображений общей дисперсии метода, исследователь может предположить, что вторая корреляция будет выше первой. Как показывает этот пример, в мультипризнаковых-мультиметодных матрицах (МТМММ) существует возможность выделить различные типы корреляций, при этом каждый из типов отражает определенный сплав дисперсии признака и дисперсии метода. Д.Т. Кемпбелл и Д.В. Фиске (Campbell & Fiske, 1959) называют четыре типа корреляций, которые могут быть получены в анализе МТМММ (см. табл. 9.2). — Гетеропризнаковые — гетерометодные корреляции основаны на различных психологических конструктах, измеренных различными методами (например, корреляция самооценочного опросника социальной
компетентности и экспертной оценки близкого знакомого по показателю эмоциональной устойчивости). ' Таблица 9.2 Основы МТМММ: типы корреляций, дисперсия признака и дисперсия метода Взаимосвязь между двумя конструктами Метод, используемый для измерения двух конструктов Разные методы (например, самоотчет для одного из конструктов и экспертная оценка близкого знакомого - для другого) Один метод (например, самоотчетный опросник для обоих конструктов) Разные конструкты (не связаны) Название Гетеропризнаковые — гетерометодные корреляции Гетеропризнаковые - монометодные корреляции Источники дисперсии Различная дисперсия признака и различная дисперсия метода Различная дисперсия признака и общая дисперсия метода Пример Корреляция самооценочного опросника социальной компетентности и экспертной оценки близкого знакомого по показателю эмоциональ ной устойчивости Корреляция самооценочного опросника социальной компетентности и самооценочного опросника эмоцио наивной устойчивости Ожидаемая корреляция Наиболее слабая Умеренная Одинаковые или похожие конструкты (связаны) Название Монопризнаковые - гетерометодные корреляции Моно призна ковые — монометодные • корреляции 1 Источники дисперсии Общая дисперсия признака и различная дисперсия метода Общая дисперсия i признака и общая ! дисперсия метода Пример Корреляция самооценочного опросника социальной компетентности и экспертной оценки близкого знакомого по показателю социальной компетентности Корреляция самооценоч ного опросника социальной компетентности и самооценочного опросника социальной ком петентности (например, при проверке надежности) Ожидаемая корреляция Умеренная Наиболее сильная hi.fcti,t.i.ii.ьыЛиГъ.i.fcfci.iii i ki — Гетеропризнаковые — монометодные корреляции основаны на различных психологических конструктах, измеренных одним и тем же 234
методом (например, корреляция самооценочного опросника социальной компетентности и самооценочного опросника эмоциональной устойчивости). * — Моиопризнаковые — гетерометодные корреляции основаны на сходных конструктах, измеренных разными методами (например, корреляция самооценочного опросника социальной компетентности и экспертной оценки близкого знакомого по показателю социальной компетентности). - Моиопризнаковые - монометодные корреляции основаны на сходных конструктах, измеренных сходными методами (например, корреляция самооценочного опросника социальной компетентности с самим собой). Такого рода корреляции используются для вычисления психометрической надежности. Д.Т. Кемпбелл и Д.В. Фиске (Campbell & Fiske, 1959) сформулировали определения данных четырех типов корреляций и связали их с понятием конструктной валидности. Полная мультипризнаковая-мультиметодная матрица, содержащая гипотетические коэффициенты корреляции для рассматриваемого примера, приведена в таблице 9.3. Матрица включает в себя 66 корреляций между четырьмя психологическими признаками, измеренными тремя различными способами, а также 12 коэффициентов надежности вдоль основной диагонали. Каждое из этих 78 значений может быть охарактеризовано в терминах одного из четырех типов корреляций, рассмотренных выше. Оценка конструктной валидности, дисперсии признаков и дисперсии методов проводится в процессе рассмотрения различных типов корреляции, содержащихся в МТМММ. Свидетельства конвергентной валидности представлены монопризнаковыми - гетерометодными корреляциями, которые в рассматриваемой матрице обозначены жирным шрифтом. Данные значения представляют собой корреляции между сходными (либо совпадающими) признаками, измеренными различными способами. Например, корреляция между самооценкой социальной компетентности и экспертной оценкой социальной компетентности от близкого знакомого составляет 0.40. Корреляция между самооценкой социальной компетентности и экспертной оценкой социальной компетентности, предоставляемой психологом после интервью, составляет 0,34. Данные коэффициенты корреляции показывают, что респонденты, оценивающие себя как социально компетентных, обычно получают высокую оценку по социальной компетентности как от своих близких знакомых, так и от проводящих с ними интервью психологов. Достаточно высокие моиопризнаковые - гетерометодные корреляции предоставляют свидетельства в пользу конвергентной валидности нового опросника социальной компетентности. Тем не менее, при их интерпретации следует принимать во внимание другие корреляции, представленные в МТМММ. Для того чтобы свидетельства конвергентной и дивергентной валидности могли считйтьсяГ надежными, самооценочный опросник социальной компетентности должен коррелировать с другими шкалами социальной компетентности сильнее, нежели 235
с любыми другими показателями. Как показывает МТМММ, приведенная в табл. 9.2, монопризнаковые - гетерометодные корреляции (как и ожидалось) в целом сильнее гетеропризнаковых - гетерометодных корреляций, отражающих взаимосвязи между разными конструктами, измеренными разными методами (в таблице показаны внутри треугольников из пунктирных линий). Например, корреляция между самооценкой социальной компетентности и экспертной оценкой эмоциональной устойчивости, полученной от близкого знакомого, составляет всего 0,20, а корреляция между самооценкой социальной компетентности и экспертной оценкой добросовестности, полученной от психолога-интервьюера, составляет лишь 0,09. Данные коэффициенты, так же как и большинство других гетеропризнаковых - гетерометодных корреляций, заметно ниже, чем монопризнаковые - гетерометодные корреляции, которые рассматривались в предыдущем абзаце. Таким образом, корреляции между показателями, которые имеют общую дисперсию признака, но не имеют обшей дисперсии метода (монопризнаковые - гетерометодные) должны превышать корреляции между показателями, которые не имеют общей дисперсии ни признака, ни метода (гетеропризнаковые - гетерометодные). Еше более строгое требование к вычислению конвергентной и дивергентной валидности заключается в том, что самооценочный опросник социальной компетентности должен коррелировать с другими тестами социальной компетентности с более высокими коэффициентами, нежели с самооценочными опросниками, направленными на измерение других психологических признаков. Как показано в мультипризнаковой-мультиметодной матрице, приведенной в табл.9.3, монопризнаковые - гетерометодные корреляции, как и ожидалось, в целом выше, чем гетеропризнаковые - монометодные корреляции, которые отражают взаимосвязи между различными признаками, измеренными одним и тем же методом (в таблице представлены внутри треугольников, образованных сплошными линиями). Данные о взаимосвязях результатов корреляционного анализа, приведенные в таблице, противоречивы. С одной стороны, корреляции между самооценочным опросником социальной компетентности и самооценочными опросниками импульсивности и добросовестности относительно невысоки (0,14 и 0,20 соответственно), с другой стороны - корреляция между самооценочным опросником социальной компетентности и самооценочным опросником эмоциональной стабильности также достаточно высока (0,35). Таким образом, самооценочный тест социальной компетентности связан с самооценочным тестом эмоциональной устойчивости в той же мере, что и с другими методами измерения социальной компетентности. Данный факт может являться поводом для беспокойства относительно дивергентной валидности самооценочного опросника, который, как предполагается, измеряет уровень социальной компетентности. Итак, корреляции между тестами, обладающими общей дисперсией признака, но не обладающими общей дисперсией метода (монопризнаковые - гетерометодные) должны превышать корреляции между тестами, обладающими общей дисперсией метода, но не обладающими общей дисперсией признака (гетеропризнаковые - монометодные). В идеале исследователю следовало бы получить даже более 236
высокие монопризнаковые - гетерометодные и более низкие гетеропризнаковые - монометодные корреляции нежели те, которые представлены в табл. 9.3. В целом анализ МТМММ, разработанный Д.Т. Кемпбеллом и Д.В. Фиске (Campbell & Fiske. 1959), может обеспечить исследователя весьма полезными инструментами оценки конструктной валидности. Логику применения анализа МТМММ для оценки конвергентной и дивергентной валидности составляет внимательное и последовательное рассмотрение эффектов вариативности метода и вариативности признака на коэффициенты корреляции между различными тестами, использованными при валидизации. За десятилетия, последовавшие за публикацией этой весьма влиятельной работы Д.Т. Кемпбелла и Д.В. Фиске, исследователями, работающими в сфере психологического измерения, были разработаны еще более утонченные методы статистического анализа МТМММ. К примеру, К.Е. Уидаман (Widaman, 1985) разработал стратегию, предполагающую применение к матрицам МТМММ средств факторного анализа. ’ Хотя подобные процедуры и выходят за пределы рассмотрения, представленного в этой книге, читателю необходимо знать, что современная психометрика продолжает развивать и совершенствовать идеи Д.Т. Кемпбелла и Д.В. Фиске. Несмотря на хорошую логическую основу метода анализа МТМММ и всеобщее признание необходимости его применения, на практике этот подход к оценке конвергентной и дивергентной валидности теста применяется не слишком часто. К примеру, нами был проведен небольшой обзор статей, опубликованных в журнале «Психологическая оценка» (Psychological Assessment) (научный журнал, издаваемый Американской психологической ассоциацией) в номерах за 2005 год. Целью данного журнала является публикация данных «эмпирических исследований измерения и оценки, относящихся к широкой области проблем клинической психологии» (АРА). В данном обзоре было выделено 13 статей, в которых представлялись данные по конвергентной и дивергентной валидности, либо же в целом о конструктной валидности теста. Из этих 13 статей лишь в двух использовался анализ МТМММ. Кроме того, в данных двух статьях в качестве множественных «методов» измерения использовались множественные серии проведения тестирования. Другими словами, респонденты заполняли один и тот же тест несколько раз, и разница во времени тестирования выступала как разница в «методе». Хотя и приходится признать, что такого рода литературный обзор ограничен и нестрог, он наглядно показывает, насколько (не)часто в психометрике применяется анализ МТМММ. Однако даже несмотря на частоту его применения, анализ МТМММ явился важным шагом вперед в теории и методах оценки конвергентной и дивергентной валидности тестов. Данный подход во многом сформировал само понимание конструктной валидности, и без его рассмотрения невозможно полное понимание психометрики. 237
Таблица 9.3 Пример корреляционных взаимосвязей в матрице множественных методов и признаков (МММП) Мепэды Признаки Омхлчзг Экспрт. ош та близкого ‘Еловета Зкавтг.адаатвпфтыоера СШЙЕ комгетсн- тноегь Им- пульа®- нэсть Добро- совест- ность Эмоц епбипь- нэсть СЪдал. ШИГЕЮЗ -п-юегь Им- г^льазв •гость Добро- совест- ность Эеюц сгабиль- юегь Сотдйл. Ю1ГЕ1Ш- ТНОСТЬ Импупь- СЗЕНЭСТЬ Добро- совест- ность Эмоц стаЗиль ность Самоот- чет Сооилывя компегенмкль Импкльашкть Дрброссвесшость Эмоцийпывя стабнпывсть (0,85) 0,14 ^4031) 0.20 0.22^X0-75) 0,35 0.24 0,19 ^Q.82) Эксперт, ошта бпижого человека Сощвлывя КМЕГеНПЮСТЬ Имг^живпхяь Дрброоовеспюсть Эмощонапывя ста&отыюаь '’,40 '''.0.14 0,10 0,22 0,13 '''.032'''. ,0,13 0,19 0,09 0,17''.,0,36''.,0,14 0,20 __ 0,23 0,1 Г''.,0,41' 0.76) 0,18^400) 0,14 0.26 ^X4)08) 0,30 0.28 0.18 ^X0.78) * ЭкоЕрг. адга интервь- юера Соццапшая КСМТЕТШПЮСТЬ Имп^льатвносп. Добросовестность Эмоют ЕПЫШ слюильнхлъ '., 0,11 0,19 0.20 0.03 '''',0,25 ''.,0.12 0.19 0,09 0,09' ''.,030 '''Л14 хна .а 16. а.оСХ'ДЗз' 0 23 к ',р,01 0.11 0.19! 0.06'''.,0,24 '''QJ0 0.14 ! 0,09 0,08''', 0,20 '''.0.06 ; LDJ3 0.12 006X1. 0,19 (0.81) 0.22 \О).77) 0.24 0,30\(0.86) 0,44 0.38 0ХХ^(0.78)
Квантификация конструктной валидности Последний метод оценки конвергентной и дивергентной валидности, который будет рассмотрен в данной главе, является более современным. Д. Уэстен и Р.Розенталь (Westen & Rosenthal, 2003) разработали процедуру, которая получила название «квантификации конструктной валидности».(QCV). В этой процедуре исследователь количественно измеряет степень соответствия между а) теоретическими предсказаниями относительно набора корреляций, выражающих конвергентные и дивергентные взаимосвязи и б) эмпирически полученным набором корреляционных взаимосвязей. В какой-то степени такой подход может показаться читателю если и не избыточным, то далеко не новым. В самом деле, до сих пор в представленных в данной книге рассуждениях красной нитью проходила мысль о том, что теоретическое понимание измеряемого конструкта определяет особенности как самого исследования валидности, так и интерпретации его результатов. Например, в предыдущих разделах было показано, что существует несколько методов определения критериальных переменных, используемых в исследованиях конвергентной и дивергентной валидности, особо подчеркивалась необходимость интерпретации корреляций теста с этими переменными именно в терминах концептуального соответствия (или несоответствия) исследуемому конструкту. Тем не менее, доказательства конвергентной и дивергентной валидности зачастую остаются основанными на достаточно субъективных интерпретациях коэффициентов корреляции, полученных при валидизации теста. Несколько ранее при обсуждении того, как могут применяться для оценки ковергентной и дивергентой валидности «наборы корреляций», говорилось о том, что исследователь «просматривает» полученные корреляции и выносит несколько субъективное суждение относительно того, насколько полученная картина взаимосвязей соответствует теоретически ожидаемой в соответствии с номологической сетью, окружающей изучаемый конструкт. Г сворилось также и о том, что исследователь оценивает, насколько паттерн корреляций, полученных при изучении дивергентной и конвергентной валидности теста, «имеет смысл» с точки зрения теоретического понимания конструкта. Но что если суждение одного исследователя не совпадает с суждением другого исследователя? И насколько сильно (в количественном плане) полученная при валидизации картина взаимосвязей соответствует теоретически ожидаемой? Сходным образом, при описании и анализе матриц МТМММ говорилось, что одни корреляции «в целом превышали» другие или «в целом были заметно ниже» других. Следует признать, что до сих пор предпринимались попытки обойтись без четкого определения того, что значит «в целом превышали», и не давали ответа на вопрос о том, насколько конкретно должны различаться два коэффициента корреляции, чтобы говорить, что один из них «заметно ниже» другого. В итоге, хотя сами коэффициенты корреляции и являются точной мерой взаимосвязи переменных, интерпретация общей картины этих взаимосвязей зачастую проводилась в субъективной и неточной манере. 239
Процедура QCV была разработана для получения точного и объективного количественного показателя, выражающего общую степень соответствия полученной картины взаимосвязей теоретически ожидаемой. Таким образом, важным отличием этого метода от всех предыдущих является акцент на точности и объективности. Процедура QCV нацелена на то, чтобы дать исследователю ответ на единственный вопрос: «соответствует ли этот тест ряду других тестов так, как это предполагается теоретически?» (Westen & Rosenthal, 2003, с.609). Анализ QCV приводит к получению двух взаимодополняющих результатов. Во-первых, исследователь получает две величины эффекта, отражающие степень соответствия между эмпирическим и теоретически предсказанным паттернами корреляций. Обе эти величины эффекта, получившие обозначения ralerting-CV и rcontrast-CV, сами являются коэффициентами корреляции, значение которых варьируется от - 1 до + 1. Более подробно смысл этих величин будет раскрыт ниже, однако для обеих из них высокие положительные значения говорят о том, что эмпирический паттерн распределения конвергентных и дивергентных корреляций тесным образом соответствует паттерну, предсказанному на основе концептуального значения измеряемого конструкта. Второй результат, получаемый в анализе QCV, - это тест статистической значимости. Тест статистической значимости показывает, насколько вероятно, что обнаруженная степень соответствия между эмпирически полученными и теоретически предсказанными корреляциями была получена случайно. Исследователь, проводящий валидизацию теста с применением процедуры QCV, надеется получить высокие значения обеих величин эффекта, а также свидетельства того, что этот результат является статистически достоверным. Процедура QCV может быть описана как состоящая из трех этапов. На первом этапе исследователю необходимо сформулировать четкие предположения относительно того, какой именно паттерн взаимосвязей он ожидает обнаружить по результатам проверки конвергентной и дивергентной валидности теста. Необходимо внимательно проанализировать те критериальные переменные, которые были использованы в исследовании, и предсказать для каждой из них величину предполагаемой корреляции с валидизируемым тестом. Так, например, Р.М. Ферр с коллегами (Furr, Reimer, & Bellis, 2004; Nave & Furr, 2006) разработали тест социальной мотивации, где социальная мотивация была определена как общее желание респондента производить положительное впечатление на других людей. Для оценки конвергентной и дивергентной валидности этого теста респонденты, наряду с самой шкалой социальной мотивации, заполняли еще 12 личностных опросников. Для того чтобы использовать процедуру QCV, авторам необходимо было сформулировать предположения о том, какие именно корреляции будут получены между шкалой социальной мотивации и 12 дополнительными личностными тестами. Это было сделано с помощью пяти профессоров психологии, выступающих в роли экспертов. Каждый из экспертов читал описание каждой из шкал и выдвигал свои предположения относительно 240
паттерна корреляций, который будет получен по итогам исследования. Далее прогнозы пяти экспертов были усреднены, что привело к формированию единой матрицы теоретически ожидаемых взаимосвязей. Названия критериальных шкал и теоретически предсказанные коэффициенты корреляции приведены в табл. 9.4. Таким образом, теоретически обоснованные предположения о показателях конвергентной и дивергентной валидности выражены в четкой и конкретной форме. К примеру, экспертами было предсказано, что социальная мотивация будет относительно сильно взаимосвязана с социальным самосознанием (public self-consciousness) (например, «Я беспокоюсь о том, что люди думают обо мне» и «В глазах других людей я хочу казаться кем-то значительным»), а также с потребностью в принадлежности (например, «Мне необходимо знать, что есть люди, к которым я могу обратиться в случае необходимости» и «Я хочу, чтобы окружающие люди принимали меня»). Эксперты ожидают, что респонденты, обладающие желанием произвести положительное впечатление на других, будут отмечать у себя склонность переживать по поводу того, что думают окружающие, и хотеть быть принятыми среди людей. С другой стороны, эксперты заключили, что социальная мотивация не будет связана с такими показателями, как недоверие и противоречивость характера, что отражает предполагаемую дивергентную валидность теста. На втором этапе анализа QCV исследователь набирает эмпирические данные и вычисляет реальные показатели (корреляции) дивергентной и конвергентной валидности. Разумеется, данные корреляции отражают то, насколько исследуемый тест взаимосвязан с критериальными переменными в действительности. Так, Р.М. Ферр с коллегами (Furr, Reimer, & Bellis, 2004) вычисляли коэффициенты корреляции между шкалой социальной мотивации и 12 критериальными переменными, включенными в исследование. Как показано в табл. 9.4, данные корреляции варьировались от -0,24 до 0,51. Респонденты, набравшие высокие баллы по шкале социальной мотивации, были склонны отмечать в себе относительно высокие уровни социального самосознания и потребности в принадлежности. Кроме того, они были склонны отмечать в себе относительно низкие уровни недоверия к окружающим. Однако взаимосвязей с противоречивостью характера и экстраверсией не обнаружилось. На третьем этапе исследователь количественно оценивает степень того, насколько эмпирическая картина корреляционных взаимосвязей соответствует теоретически предсказанной. Высокая степень соответствия является свидетельством валидности предполагаемой интерпретации разработанного теста, в то время как низкая степень соответствия указывает на недостаточную валидность. Как уже говорилось, степень соответствия количественно выражается в двух видах показателей - величинах эффекта и тесте статистической достоверности. 241
Таблица 9.4 Пример процесса квантификации конструктной валидности Крит ериалъные шкалы Предеказан н ы е корреляции «Реальные» корреляции 2-/7'реобразов анны е корреляции Зависимость 0,58 0,46 0.50 Маккиавелизм 0,24 0.13 0,13 Недоверие -0.04 -0,24 -0.24 Самодостаточность 0.06 -0,03 -0.03 Самоэффективность -0,04 0,12 0.12 Экстраверсия 0.18 0.03 0,03 Податливость 0.36 0,39 0.41 Противоречивость характера 0.08 0,06 0,06 Социальное самосознание 0,64 0,51 0.56 Самоконтроль 0,56 0,08 0,08 Тревожность 0.36 0.24 0.24 Потребность в принадлежности 0.56 0,66 0,79 Две величины эффекта дают обобщенную количественную оценку всех показателей конвергентной и дивергентной валидности. Величина эффекта faierting-cv - это коэффициент корреляции между набором теоретически ожидаемых корреляций и набором эмпирически полученных корреляций. Высокое положительное значение raierting-cv означает, что коэффициенты корреляции, которые эксперты оценили как высокие, на самом деле оказались высокими, а коэффициенты корреляции, которые эксперты оценили как низкие, на самом деле оказались низкими. Рассмотрим корреляции, приведенные в табл. 9.4. Заметьте, например, что эксперты предположили, что наиболее высокими корреляциями со шкалой социальной мотивации будут обладать показатели зависимости, социального самосознания, самоконтроля и потребности в принадлежности. По результатам эмпирического исследования выяснилось, что три из этих четырех показателей действительно коррелируют с социальной мотивацией сильнее всего. С другой стороны, эксперты предположили, что наименьшими корреляциями с социальной мотивацией будут обладать показатели недоверия, самодостаточности, самоэффективности и противоречивости характера. По результатам исследования оказалось, что три 242
из этих четырех корреляций действительно наименьшие по сравнению со всеми остальными. Таким образом, эмпирические взаимосвязи в целом соответствовали теоретически предсказанным. Отсюда достаточно высокое положительное значение коэффициента raierting.Cv - для данных, представленных в табл. 9.4, он составляет 0,79. Значение raiating-cv вычисляется как корреляция между теоретически ожидаемым набором корреляций и набором z- преобразованных эмпирических корреляций. Z-преобразование выполняется до техническим соображениям, связанным с распределением корреляционных коэффициентов. Для практических целей, впрочем, достаточно понимать, что величина эффекта raierrinS-cv означает степень того, насколько коэффициенты корреляции, которые по экспертной оценке должны являться высокими (низкими), действительно таковыми являются. Хотя вычисление величины эффекта rcontrast-cv несколько более трудоемко, эта величина похожа на ra|er(jIlg.cv в том, что большие положительные значения повышают уверенность исследователя в конвергентной и дивергентной валидности теста. Говоря конкретнее, при вычислении rC0„trast-cv делается поправка на интеркорреляции между критериальными переменными и на абсолютную величину корреляций между критериальными переменными и исследуемым тестом. Для данных, полученных в исследовании Р.М. Ферра с коллегами (Fun, Reimer, & Bellis, 2004), значение rcontrast.cv составляет приблизительно 0,68, что опять же означает высокий уровень конвергентной и дивергентной валидности. Поскольку процедура QCV была разработана относительно недавно, до сих пор не существует четких критериев того, какие именно значения рассмотренных величин эффекта могут интерпретироваться как свидетельство удовлетворительной валидности. На данном этапе можно просто утверждать, что чем выше значение этих величин, тем выше валидность исследуемого теста. Помимо данных величин эффекта, анализ QCV приводит к вычислению показателей статистической достоверности. Будучи основанной на ряде таких факторов, как величина выборки и степень подтверждаемости конвергентной и дивергентной валидности, z-оценка уровня статистической значимости показывает, насколько вероятным было случайное обнаружение полученного результата. Хотя анализ QCV потенциально весьма полезен для оценки конвергентной и дивергентной валидности, он тоже не совершенен. Так, низкая величина эффекта (т. е. низкие значения коэффициентов ra|ertl]lg.cv и rcontrast.cv) может и не означать низкой валидности теста. Низкие значения этих коэффициентов могут являться результатом неприемлемого набора теоретически предсказанных корреляций. Если теоретически предсказанные корреляции плохо отражают помологическую сеть, окружающую конструкт, хороший тест, направленный на измерение этого конструкта, приведет к получению такого набора корреляций, который не соответствует теоретическому. Сходным образом, на величинах эффекта может отразиться неправильный выбор критериальных переменных. Если критериальные переменные, использованные в исследовании валидности, не связаны с валидизируемым тестом, такие переменные не являются 243
адекватным отображением номологической сети. Таким образом, для получения четко выраженных данных о конвергентной и дивергентной валидности критериальные переменные, выбранные Для анализа QCV, должны отображать широкий спектр сильных и слабых корреляционных взаимосвязей. В самом деле, Д. Уэстен и Р. Розенталь указывают, что «один из наиболее важных недостатков всех индексов пригодности теста заключается в том, что они не учитывают, был ли выбор пунктов, показателей, наблюдателей и т. д. адекватен поставленным задачам» (Westen & Rosenthal, 2005, с. 410). Кроме того, анализ QCV критиковали за то. что в результате он дает «высокие коэффициенты корреляции в тех случаях, когда теоретические предсказания и эмпирические наблюдения мало согласованы» (Smith, 2005, с.404). Исследователь может получить достаточно большие значения коэффициентов ralerting-CV и rcontrast-CV даже тогда, когда наблюдаемый паттерн корреляций, свидетельствующих о конвергентной и дивергентной валидности, недостаточно тесно соответствует реальному. Д. Уэстен и Р. Розенталь признают, что в некоторых случаях такое явление может иметь место. Впрочем, они поясняют, что анализ QCV должен рассматриваться лишь как «пособие», а его результаты должны очень внимательно изучаться в контексте множества концептуальных, методологических и статистических факторов (Westen & Rosenthal, 2005, с. 411). Итак, были описаны четыре стратегии, которые могут использоваться во множестве областей оценки тестов, однако единственного идеального метода или статистической процедуры для оценки ковергентной и дивергентной валидности интерпретации тестовых баллов не существует. Хотя и QCV не совершенен, он имеет несколько важных преимуществ перед всеми остальными стратегиями. Во-первых, он вынуждает исследователя внимательно рассматривать паттерны конвергентных и дивергентных корреляций в свете теоретического понимания измеряемого конструкта. Во-вторых, для его проведения необходимы явные и конкретные предсказания относительно взаимосвязей переменных. В-третьих, при анализе QCV внимание исследователя целиком сконцентрировано на валидизируемом тесте и «ненужные» интеркорреляции между критериальными переменными не рассматриваются. В- четвертых, такого рода анализ приводит к получению небольшого набора показателей, которые дают общее выражение степени соответствия между эмпирически наблюдаемым паттерном корреляций и тем паттерном, который был предсказан экспертами на основе исходных теоретических соображений: кроме того, для этих показателей возможно вычисление уровня статистической достоверности. Если использовать QCV с определенной долей осторожности, он может послужить полезным дополнением к психометрическому инструментарию. 244
Факторы, влияющие на коэффициент валидности Описанные выше стратегии используются для того, чтобы собирать и интерпретировать эмпирические свидетельства конвергентной и дивергентной валидности. В некоторой степени все перечисленные стратегии имеют в своей основе некую величину коэффициента валидности - статистический результат, выражающий степень взаимосвязи между валидизируемым тестом и одной или несколькими критериальными переменными. В данном разделе будут рассмотрены некоторые немаловажные факторы, оказывающие влияние на коэффициенты валидности, получаемые при психометрическом исследовании теста. До сих пор рассмотрение корреляции как коэффициента валидности было обусловлено тем, что она легко интерпретируется как мера взаимосвязи. Для выражения взаимосвязи между тестом и критериальными переменными могут использоваться и другие статистические величины (например, регрессионные коэффициенты), однако большинство из них являются не более чем расширением коэффициента корреляции. Таким образом, приведенные ниже рассуждения будут сконцентрированы на некоторых ключевых психологических, методологических, психометрических и статистических факторах, которые оказывают влияние на корреляцию между тестом и критериальными переменными. Взаимосвязь конструктов Один из факторов, влияющих на коэффициент корреляции двух тестов, направленных на измерение двух психологических конструктов, - «истинная» взаимосвязь данных конструктов. Если два конструкта тесно взаимосвязаны друг с другом, то и тесты, направленные на их измерение, будут высоко коррелировать. И наоборот, если два конструкта не связаны друг с другом, то и коэффициент корреляции между соотвесттвующими тестами, вероятно, будет невысок. В самом деле, при проведении исследования ученый пытается интерпретировать эмпирически обнаруженный коэффициент корреляции между измеренными переменными как приближение истинной корреляции между изучаемыми конструктами. При валидизации теста исследователь предполагает, что две переменные будут коррелировать именно потому, что два изучаемых конструкта взаимосвязаны друг с другом. Ошибка измерения и надежность В предыдущих главах описывались концептуальные основы, способы оценки и сферы применения надежности как показателя наличия (или отсутствия) ошибки измерения. Как уже говорилось, одним из важнейших следствий наличия ошибки измерения является ее эффект на коэффициент корреляции между двумя переменными - ошибка измерения снижает 245
коэффициент корреляции. Следовательно, ошибка измерения влияет на коэффициенты валидности. Как было показано в предыдущих главах, корреляция между тестами XI и Y2, направленными на измерение двух психологических конструктов, является функцией истинной корреляции между конструктами и корреляции между надежностью данных двух тестов: (9.1) В этом уравнении rv v — коэффициент корреляции между двумя тестами. В нашем случае этот коэффициент можно назвать коэффициентом валидности, выражающим взаимосвязь валидизируемого теста и одной из критериальных переменных. v - это истинная корреляция между двумя конструктами, ^ЛД - надежность валидизируемого теста, a Rvr - надежность показателя критериальной переменной. Например, исследуя конвергентную и дивергентную валидность теста социальной мотивации, Р.М. Ферр с коллегами (Furr, Reimer, & Bellis, 2004; Nave & Furr, 2006) были заинтересованы в получении коэффициента корреляции между показателями социальной мотивации и социального самосознания. Представим, что истинная корреляция данных двух конструктов составляет 0,60. Какой коэффициент валидности был бы получен в исследовании, если бы оба теста обладали низкой надежностью измерения? Если бы надежность теста социальной мотивации составляла 0,63, а надежность теста социального самосознания - 0,58, полученный коэффициент валидности составил бы лишь 0,36: =0,60-7^63-7^63’ rvl, =0,60(0,604), г — 0,36. ло.' о Вспомните, что для оценки конвергентной валидности исследователю необходимо сравнить эмпирически полученную корреляцию с той, которая ожидалась бы на сугубо теоретических основаниях. В данном случае, если бы Р.М. Ферр с коллегами (Furr, Reimer, & Bellis, 2004) ожидали получение коэффициента корреляции, близкого к 0,60, они были бы несколько разочарованы, обнаружив коэффициент «всего лишь» в 0,36. Следовательно, 246
они могли бы заключить, что разработанный ими тест социальной мотивации обладает низкой валидностью. Заметьте, что на коэффициент корреляции оказывают влияние два показателя надежности: а) надежность валидизируемого теста и б) надежность критериальной переменной. Таким образом, валидизируемый тест мог бы являться неплохим инструментом диагностики соответствующего психологического конструкта, однако даже в этом случае коэффициент валидности мог бы быть низким. Если бы надежность теста социальной мотивации составляла 0.84, а надежность теста социального самосознания - 0,40. эмпирически полученный коэффициент валидности составил бы всего лишь 0,35: гх^ =0,607(Х84.Д40, г =0,60(0,580), rxv =0,35. Следовательно, при оценке абсолютной величины коэффициента корреляции, выражающего конвергентную или дивергентную валидность, необходимо учитывать надежность обоих тестов. Вероятно, коэффициент валидности будет низким, если низка надежность одного или обоих тестов. Это соображение указывает на важность грамотного подбора критериальной переменной. Даже если валидизируемый тест адекватно отображает психологический конструкт, лежащий в его основе, полученные по результатам исследования коэффициенты валидности могут оказаться низкими. Другими словами, если критериальные переменные ненадежны, вряд ли исследователь обнаружит хорошие показатели валидности, даже если исследуемый тест на самом деле является валидным! Хотя это и важно, разработчики тестов зачастую забывают об этом. Ограниченная амплитуда значений Вспомним, что коэффициент корреляции отражает совместную вариативность двух распределений тестовых баллов. Другими словами, он представляет собой степень соответствия между вариативностью в одном распределении баллов (например, распределении баллов валидизируемого теста) и вариативностью в другом распределении баллов (например, распределении баллов критериальной переменной). Величина вариативности в одном или обоих наборах данных оказывает влияние на коэффициент корреляции между ними. В частности, корреляция между двумя переменными может быть низкой, если амплитуда значений в одной или обеих переменных узка или искусственно ограничена. 247
Классический тому пример - взаимосвязь результатов теста академических способностей SAT с показателем академической успеваемости GPA. Ранее обсуждался тот факт, что многие показатели валидности результатов теста SAT основаны на корреляции между результатами этого теста и академической успеваемостью, измеренной посредством среднего академического балла в колледже (GPA). Распространителям теста SAT хочется продемонстрировать, что люди, которые набирают относительно высокий балл по этому тесту, обычно достаточно хорошо учатся в колледже. При этом подразумевается также, что респонденты, которые набирают относительно низкий балл по SAT, обычно имеют относительно низкую успеваемость в колледже. Чтобы продемонстрировать данный вид связи, исследователям необходимо доказать, что вариативность в распределении баллов теста SAT соответствует вариативности в распределении среднего академического балла в колледже (GPA). Однако наличие ограничений в амплитуде значений нарушает эту взаимосвязь в двух аспектах. Во-первых, показатель академической успеваемости GPA сам по себе ограничен. Во многих колледжах амплитуда баллов GPA находится в пределах от 0,0 до 4,0. Самый низкий балл, который может набрать студент, равен 0,0. а самый высокий - 4,0. Но разве эта вариативность в 4 единицы действительно отражает полный спектр возможной академической успеваемости? Рассмотрим двух студентов, оба из которых хорошо учатся и получают оценку «четыре» по всем дисциплинам. Хотя Лео и учился хорошо, в каждом из предметов он с трудом дотягивал до четырех баллов. Таким образом, он едва дотянул до 4-х баллов, и эта четверка в некотором смысле представляет собой верхний предел его академической успеваемости. Мэри тоже учится хорошо и получает четверки по всем предметам. Но по каждой из дисциплин Мэри действительно превзошла остальных студентов. Она была единственной, кто по всем предметам выполнил все контрольные работы на четверки. Кроме того, она без труда овладела всем теоретическим материалом и справилась со всеми заданиями, за которые выставлялись оценки. Таким образом, Мэри также получила 4,0 балла, но эта оценка в некотором смысле занижает уровень ее академической успеваемости. Она усвоила весь материал настолько успешно, что ее преподаватели хотели бы поставить ей что-нибудь выше 4.0. Хотя Лео и Мэри набрали один и тот же балл, в действительности их успеваемость различна. Лео вполне заработал свои 4 балла и может этим гордиться, но преподаватели, возможно, согласились бы с тем, что Мэри его превзошла. Соответственно, четырехбалльная шкала академической успеваемости ограничивает возможную амплитуду значений. Обратите внимание на то, что средний балл успеваемости ограничен в обоих направлениях (и сверху, и снизу). Рассмотрим Дженни и Брюса. Хотя оба, и Дженни и Брюс, провалились на всех экзаменах, Брюсу до получения положительной отметки каждый раз не хватало совсем немного. С другой стороны, Дженни даже близко не была к тому, чтобы сдать хоть один предмет. Итак, и Брюс, и Дженни получили средний балл успеваемости, равный 0,0, но в некотором смысле у Брюса уровень академической успеваемости был выше, чем 248
у Дженни. Исходя из оценок за контрольные работы, домашние задания и экзамены, Брюс превзошел Дженни (т. к. он получил 59 баллов за каждую работу, тогда как Дженни получила 30)1. Несмотря на различные уровни их успеваемости в течение семестра, шкала среднего балла академической успеваемости имеет нижний предел, равный 0,0, поэтому Дженни не может набрать меньше баллов, чем Брюс. SAT Рисунок 9.1. Диаграмма рассеивания баллов по тесту академических способностей SAT и «неограниченных» баллов успеваемости в колледже GPA Диаграмма рассеивания на рис. 9.1 демонстрирует гипотетические данные, полученные на выборке из 5000 студентов. Этот рисунок показывает «идеальную» взаимосвязь между результатами теста академических способностей и «неограниченным» показателем успеваемости в колледже. Другими словами, он представляет результаты студентов, уровень академической успеваемости которых не ограничен четырехбалльной шкалой. Обратите внимание, что некоторые баллы успеваемости опускаются ниже нулевой отметки на графике, что позволяет отразить различия между такими студентами, как Дженни и Брюс. Заметьте также, что некоторые баллы успеваемости находятся выше отметки 4.0, что отражает различия между такими студентами, как Лео и Мэри. Согласно показателям, изображенным на рисунке 9.1, корреляция между академическими способностями и средним баллом успеваемости составляет 0.61. Это указывает на то, что студенты, набравшие 1 Имеется в виду стобалльная система оценки, которая затем переводится в показатель GPA от 0 до 4. (Прим, перев,). 249
относительно низкий балл по тесту SAT, обычно получали относительно низкий балл по «неограниченному» показателю успеваемости. 400 600 800 1000 1200 1400 1600 SAT Рисунок 9.2. Диаграмма рассеивания баллов по тесту академических способностей SAT и ограниченных баллов успеваемости в колледже GPA В действительности, однако, амплитуда значений по показателю успеваемости ограничена, поэтому студенты, академическая успеваемость которых могла бы быть оценена в 5.0 и 6.0 баллов, могут набрать только 4.0. Таким же образом, студенты, академическая успеваемость которых могла бы быть оценена ниже нуля, в действительности не могут получить оценку со знаком «минус». Итак, все те студенты, кто бы мог теоретически быть достоин среднего академического балла выше 4.0 (или ниже 0), на самом деле получат 4.0 (или 0). Диаграмма рассеивания на рисунке 9.2 демонстрирует данные той же выборки из 5000 студентов, основанные на результатах «ограниченного» балла успеваемости GPA. Обратите внимание, что баллов, превышающих отметку 4,0, нет, т. к. эта отметка является высшим пределом. Обратите внимание также, что отметок со знаком «минус» на этом рисунке тоже нет, т. к. нулевой балл является низшим пределом. Данная диаграмма рассеивания является более сжатой, и связь между результатами теста академических способностей и средним академическим баллом не так очевидна, как в предыдущем случае. Для данных, изображенных на Рис. 9.4, корреляция между результатами теста академических способностей и средним академическим баллом GPA несколько ниже: 0,60. Таким образом, ограничение амплитуды значений показателя успеваемости слегка снижает коэффициент корреляции. Второй аспект, по которому ограниченная амплитуда значений может повлиять на коэффициент взаимосвязи между результатами теста академических способностей и учебной успеваемостью, это количество человек, которые в 250
принципе получают балл по успеваемости. Дело в том, что ученик с низким баллом по тесту SAT имеет куда меньше шансов вообще попасть в колледж, нежели ученик с высоким баллом по этому тесту. Изучая взаимосвязь между баллами по тесту SAT и академической успеваемостью, исследователь ограничивает себя подвыборкой респондентов, а не всей совокупностью учеников, проходивших SAT. Это происходит потому, что рассматриваются лишь те респонденты, которые заполняли SAT и которые впоследствии поступили в колледж. Не все ученики, проходящие тестирование по SAT. в дальнейшем учатся в колледже. В гипотетическом наборе данных, рассматривавшемся в данной главе, почти 400 «студентов» набрали по SAT баллы ниже 700. В действительности эти респонденты могут и не поступить в колледж; следовательно, возможно, что они никогда не получат среднего балла по академической успеваемости. SAT Рисунок 9.3. Диаграмма рассеивания ограниченных баллов по тесту академических способностей SAT и ограниченных баллов успеваемости в колледже GPA В целом рассмотренный пример иллюстрирует то, как ограниченность амплитуды значений может оказывать влияние на коэффициент корреляции. При оценке конвергентной и дивергентной валидности теста в качестве показателя валидности используется именно корреляция либо же другие статистические процедуры, являющиеся ее расширением. При оценке ковергентной валидности исследователь надеется на то, что коэффициенты корреляции окажутся высокими. Тем не менее, необходимо помнить, что 251
ограниченная амплитуда значений может снизить коэффициент корреляции, даже если в действительности соответствующие конструкты взаимосвязаны достаточно тесно. В примере, рассмотренном в данном разделе главы, ограничение амплитуды значений оказывало на корреляцию между академическими способностями (SAT) и средним баллом по успеваемости (GPA) двоякое влияние, и в обоих аспектах коэффициент корреляции был несколько ниже, чем в случае с «неограниченными» распределениями-данных. Хотя в данном примере эффект ограниченности амплитуды значений не столь уж и значителен, понимание потенциальных угроз этого эффекта поможет исследователю более грамотно интерпретировать коэффициенты валидности. Процентное соотношение респондентов в дихотомических переменных Представим, что был разработан самооценочный опросник, направленный на измерение депрессии. Представим также, что конвергентная валидность опросника оценивается путем сопоставления результатов с диагнозами, поставленными квалифицированными клиническими психологами. Набирается группа респондентов, которые заполняют опросник и проходят собеседование у клинического психолога. Психологи ставят диагноз каждому из участников, относя его либо к депрессивным, либо к здоровым. Таким образом, валидизируемый тест дает баллы в непрерывной числовой шкале (шкале интервалов или шкале отношений), а критериальная переменная (т. е. диагноз) - в качественной, дихотомической. О высокой валидности разработанного теста можно было бы говорить, если бы баллы по этому тесту сильно коррелировали с диагнозами клинических психологов. На величину корреляционной взаимосвязи между результатами опросника и диагнозами клинических психологов оказывает влияние процентная доля респондентов, которым диагностировали депрессию. Рассмотрим эту зависимость. При вычислении данного коэффициента корреляции каждый из респондентов должен иметь баллы по двум переменным - результаты опросника на выявление депрессии и диагноз. В табл. 9.5 для этого примера приведены гипотетические эмпирические данные. Очевидно, результаты опросника на выявление депрессии уже измеряются в количественной шкале (допустим размах данных от 0 до 30). Что касается категории диагноза, для вычисления коэффициента валидности эту переменную сначала необходимо выразить в количественной форме. Для этого всем респондентам, которые были диагностированы как здоровые, приписывается одно числовое значение, а всем респондентам, которые были диагностированы как депрессивные, приписывается другое числовое значение. Это могут быть значения 1 и 2, 1 и 10, -1000 и +1000, либо же любая другая пара чисел (важно только, чтобы всем респондентам из одной группы было приписано одно и то же число). В данном примере закодируем «недепрессивную» группу числом 1, а депрессивную - числом 2 (см. табл. 9.5). 252
Таблица 9.5 Данные, демонстрирующие влияние процентного соотношения респондентов в дихотомических переменных на коэффициенты валидности Респондент Балл по опроснику депрессии Диагноз Код диагноза 1 6 Здоров 1 2 5 Здоров 1 3 7 Здоров 1 4 1 Здоров 1 5 11 Здоров 1 6 9 Здоров 1 7 3 Здоров 1 8 6 Здоров 1 9 4 Здоров 1 10 8 Здоров 1 11 10 Здоров 1 12 2 Здоров 1 13 5 Здоров 1 14 7 Здоров 1 15 6 Здоров 1 16 10 Депрессия 2 17 15 Депрессия 2 18 5 Депрессия 2 19 8 Депрессия 2 20 12 Депрессия 2 Среднее 7,0 0.25 Стандартное отклонение 3,39 0,43 Ковариация 0,75 Корреляция 0,51 В одной из предыдущих глав говорилось, что корреляция между двумя переменными - это их ковариация, деленная на произведение двух стандартных отклонений. Корреляция между непрерывной переменной и дихотомической переменной (гСо) составляет: (9.2) где Сео - ковариация между двумя переменными, Sc - стандартное отклонение непрерывной переменной, a sD - стандартное отклонение дихотомической переменной. 253
В данной формуле два значения напрямую зависят от процентного соотношения количества наблюдений в двух группах, определяемых дихотомической переменной. Если группы закодированы числами 1 (группа 1) и 2 (группа 2), тогда ковариация равна: Ccd ~ Р1Рг(^2 Q)' (9-3) где pl - процент испытуемых, попавших в группу 1, р2 - процент испытуемых, попавших в группу 2, С1 - среднее значение непрерывной переменной для испытуемых в группе 1, а С2 - среднее значение непрерывной переменной для испытуемых в группе 2. Согласно рассматриваемому гипотетическому набору данных, 15 из 20 респондентов принадлежат к группе здоровых (группа 1), а 5 - к группе депрессивных (группа 2). Следовательно, соответствующие пропорции составляют 0,75 (15/20=0,75) и 0.25 (5/20=0,25). Кроме того, средний балл по результатам опросника на выявление депрессии в группе «здоровых» составил 6, а в группе «депрессивных» - 10. Таким образом, искомая ковариация равна: ССр=(0,75)(0,25)(10-6), CCD= (0,1875) (4), Сед =0,75. Стандартное отклонение дихотомической переменной - второе значение, зависящее от соотношения респондентов в двух группах, определяемых дихотомической переменной. Если группы закодированы числами 1 (группа 1) и 2 (группа 2), тогда это значение равно: $D Р1Р2 • (9.4) По данным таблицы 9.5 стандартное отклонение дихотомической переменной (диагноз) равно: SD = 7(0,75X0.25) SD = 0,433. 254
Принимая во внимание эти данные, можно переписать и упростить уравнение корреляции так. что влияние процентного соотношения респондентов в двух группах станет более очевидным: • P\Pi^fii ^1) Sc^PxPl 7ирГ(с2-с,) (9-5) Например, для данных, указанных в табл. 9.5, коэффициент корреляции составляет: _ Л/(0,75)(0,25)(10-6) rCD - TZ7) _ 1,72 'CD ~ 3,39 ’ rCD - 0,51. Данная корреляция положительна и довольно значительна по абсолютной величине. Она свидетельствует о том, что испытуемые, получившие относительно «высокий балл» по переменной «диагноз», набирают более высокие баллы и по итогам опросника депрессивности. Вспомним, что дихотомическая переменная «диагноз» была закодирована таким образом, что респондентам с диагнозом «депрессивный» приписывался более высокий балл (т. е. 2), чем респондентам с диагнозом «здоровый». Следовательно, полученный коэффициент корреляции можно интерпретировать таким образом, что респонденты с диагнозом «депрессивный» (т. е. имеющие относительно высокие баллы по дихотомической переменной) имеют тенденцию набирать более высокие баллы по итогам разработанного опросника депрессивности, чем респонденты из категории недепрессивных (т. е. имеющие относительно низкий результат по дихотомической переменной). Уравнение 9.5 показывает, каким образом процентное соотношение количества респондентов в двух группах влияет на коэффициент корреляции, отражающий конвергентную или дивергентную валидность теста. При прочих равных условиях группы с одинаковым количеством человек приведут к получению более высоких коэффициентов корреляции, нежели неравные группы. В случае если обе группы равны по количеству респондентов, их процентное соотношение составит 0,5 и 0,5. Произведение этих двух пропорций (0,5*0,5 = 0,25) является максимально возможным числом в этой формуле. 255
Другими словами, произведение любой другой пары пропорций будет меньше 0,25, и чем больше рассогласование в количестве респондентов в двух группах, тем это произведение меньше (например.*0,40*0,60 = 0,24; 0,10*0,90 = 0,09). При прочих равных условиях более низкие произведения данных двух пропорций будут приводить к получению более низких коэффициентов корреляции. Итак, еще одним фактором, который может оказывать влияние на некоторые коэффициенты валидности, является количественное соотношение респондентов в двух исследуемых группах. Если коэффициент валидности основан на корреляции между непрерывной переменной и дихотомической переменной, то любая диспропорция размеров групп может снизить итоговый показатель валидности. При интерпретации коэффициентов валидности исследователю следует помнить об этой закономерности. Эффект метода Эффект метода обсуждался несколько ранее в разделе, посвященном мультипризнаковым-мультиметодным матрицам (МТМММ). К этому обсуждению мало что можно добавить, однако следует понимать, что вариативность метода имеет значение не только в рамках анализа МТМММ. Каждый раз, когда исследователь коррелирует баллы валидизируемого теста и баллы другого теста, использующего другой способ измерения, вариативность метода снижает коэффициент корреляции. Точнее говоря, корреляция между двумя разными методами измерения конструкта окажется меньше с большей вероятностью, чем корреляция между двумя тестами, использующими один и тот же метод измерения. Данное соображение весьма важно для оценки коэффициентов валидности. Производя оценку коэффициентов валидности, исследователь придает большее значение корреляциям между разными методами оценки, нежели между сходными. Например, оценивая новый опросник социальной компетентности, исследователь мог бы скоррелировать его результаты с баллами по самооценочному опроснику экстраверсии. С радостью обнаружив, что коэффициент корреляции составляет 0,40, исследователь мог бы сделать вывод о том, что опросник обладает высокой конвергентной валидностью. В самом деле, данный результат показывает, что респонденты, обладающие (согласно результатам по новому опроснику) высокой социальной компетентностью, обладают, как правило, высокой степенью экстравертированности. Тем не менее, исследователь был бы еще более уверен в результатах валидизации, если бы он обнаружил корреляцию размером 0,40 между самооценочным опросником социальной компетентности и экспертным опросником экстраверсии, заполняемым близкими знакомыми респондента. Результат оказался бы более убедительным, если бы можно было сказать, что люди с высокими показателями социальной компетентности; как правило, описываются своими знакомыми как экстраверты. Исследования валидности, основанные лишь на методиках самоотчета, информативны и весьма распространены, однако не совершенны. Получение данных самоотчета является относительно простым, недорогим и в целом весьма 256
надежным методом, поэтому будем считать, что данные самоотчета не хуже данных, полученных другими методами. Тем не менее, корреляции, основанные лишь на процедурах самоотчета, могут оказаться завышенными из-за общей дисперсии метода. С другой стороны, вероятность искусственного завышения корреляций, основанных на данных, полученных различными методами, меньше. Поэтому другие способы измерения психологического конструкта являются существенным дополнением к данным самоотчета. Интерпретируя корреляции, основанные на различных методах измерения, важно понимать, что они могут оказаться меньше, чем корреляции, основанные лишь на методе самоотчета. Это обусловлено меньшей степенью общности дисперсии метода. Время Как уже говорилось, конструктная валидность иногда оценивается путем исследования корреляции между каким-либо тестом, который предлагается в один момент времени (напр., тест академических способностей SAT), и критериальной переменной, значение которой определяется в более поздний момент времени (напр., подсчет среднего балла успеваемости студента, GPA). При прочих равных условиях коэффициенты валидности, основанные на корреляциях между переменными, значение которых измеряется в разные моменты времени (то есть корреляциях, отражающих прогностическую валидность теста), могут оказаться меньше, чем коэффициенты, основанные на корреляциях между переменными, значение которых измеряется в один момент времени (то есть корреляциях, отражающих текущую «(конкурентную) валидность). Более того, существует вероятность, что увеличение промежутка между двумя моментами времени в результате приведет к получению более низкого коэффициента прогностической валидности. Прогнозирование единичных событий Важным фактором, который может повлиять на коэффициенты валидности, является то, на чем основана критериальная переменная: либо на наблюдении какого-то единичного события, либо на комбинации наблюдений. Например, представим себе тест, гипотетически направленный на измерение экстраверсии. Представим также, что данные о конструктной валидности были получены путем коррелирования баллов по этому тесту с показателем «разговорчивости» в ситуациях социального взаимодействия. На теоретических основаниях можно предполагать, что экстраверты должны быть относительно более разговорчивыми, поэтому исследователь надеется получить положительную корреляцию, умеренную или высокую. Допустим, исследователь набрал выборку из 50 респондентов, которые заполняли тест, а затем на протяжении 5 минут общались с незнакомым человеком противоположного пола. После этого собеседник оценивал разговорчивость респондента по шкале от 1 до 10, где более высокие баллы означают большую степень разговорчивости. Исследователь вычислил корреляцию между результатами теста и экспертной оценкой разговорчивости и обнаружил положительное, но невысокое значение. Ученый разочарован и 257
вынужден признать, что разработанный опросник не является валидной мерой экстраверсии. Прежде чем применять решение о модификации теста или о полном отказе от него, следует рассмотреть сущность критериальной переменной. В данном случае следует помнить о том, что она была основана на наблюдении единичной черты поведения (т. е. разговорчивости) в единичной социальной ситуации (т. е. пятиминутное обшение с незнакомым человеком противоположного пола). Даже если не учитывать дисперсию метода, существует множество факторов, которые могли бы повлиять на разговорчивость респондента в какой-то определенный момент. В каком он был настроении? Как вел себя его собеседник? Могла ли на разговорчивость респондента повлиять какая-либо особенность ситуации или темы разговора? Коэффициент валидности мог бы быть выше, если бы исследователь оценил поведение респондентов в нескольких различных ситуациях общения или на протяжении более длительного периода времени. По ряду причин единичные события являются менее прогнозируемыми, чем любого рода комбинации событий (Epstein, 1979). Особенно убедительный пример трудности прогнозирования единичных событий был предоставлен Р.П. Абельсоном (Abelson, 1985). Некоторым бейсболистам платят десятки миллионов долларов - частично потому,’ что среднее количество отбитых мячей у них гораздо выше, чем у среднестатистического игрока. Предположительно, владельцы и менеджеры бейсбольных команд полагают, что игроки с высоким средним показателем отбитых мячей будут гораздо более успешны, чем игроки с низким средним показателем отбитых мячей. Другими словами, в каждом отдельном случае игрок с высоким показателем будет иметь гораздо больше шансов отбить мяч, чем игрок с низким показателем. Но действительно ли это так? Какая доля вариативности в успехе удара объясняется средним арифметическим показателем? Р.П. Абельсон проанализировал бейсбольную статистику, чтобы определить взаимосвязь между средним показателем отбитых мячей (по шкале от 0 до 1,0) и шансами на успех в каком-либо единичном случае. Анализ Р.П. Абельсона показал, что коэффициент взаимосвязи между бейсбольными навыками (которые выражены средним показателем отбитых мячей) и вероятностью отбивания мяча в каком-либо единичном случае «ничтожно мал» (Abelson, 1985, с. 132). В свете такой низкой статистической взаимосвязи он задался вопросом о том, почему же он сам, другие эксперты по статистике, бейсбольные фанаты и даже менеджеры бейсбольных команд считают, что среднее количество отбитых мячей играет такую значительную роль. Он приходит к выводу, что «успех игрока было бы адекватнее оценивать на протяжении всего сезона, а не успехом в каком-либо единичном случае» (Abelson, 1985, с. 132). Другим словами, несмотря на то что возможность спрогнозировать единичное событие (т. е. успех игрока в единичном случае) является достаточно малой, значение имеет не единичное событие само по себе, а совокупный эффект многих подобных событий. Даже низкий уровень 258
прогнозируемости единичных событий может приводить к получению довольно точных прогнозов, если эти события кумулятивны. Итак, единичные события - будь эТо отбивание бейсбольного мяча или определенный тип поведения в конкретной ситуации общения - могут в сущности являться непрогнозируемыми. Говоря о коэффициенте валидности, эта проблема напрямую связана с проблемой выбора критериальной переменной. Должен ли прогнозируемый критерий представлять . собой единичное событие, например единичное наблюдение за поведением респондента в ситуации общения? Или же критерий должен представлять собой кумулятивную переменную, например показатель, усредненный по множеству наблюдений за поведением респондента в ситуациях взаимодействия? Большие коэффициенты валидности с большей долей вероятности могут быть получены в том случае, когда критериальная переменная основана на совокупности нескольких наблюдений или событий. Интерпретация коэффициента валидности ' После того как коэффициент валидности получен, он должен быть проинтерпретирован. Разработчики тестов, эксперты по оценке и пользователи должны решить, являются ли коэффициенты валидности достаточно большими для того, чтобы сделать заключение о высокой конвергентной валидности, или же являются они достаточно малыми, чтобы сделать заключение о высокой дивергентной валидности. Несмотря на то что коэффициент корреляции является точной количественной мерой взаимосвязи между двумя переменными, его значение не всегда интуитивно понятно. Информация о том, что корреляция между переменными равна, скажем, 0,40, может не иметь особого содержательного смысла, особенно для новичков в этой сфере исследований. Было замечено, что люди зачастую обращают внимание на то, что корреляция со значением 0,40 далека от совершенной корреляции со значением 1,0, и интерпретируют ее как достаточно слабую. Все, что далеко от совершенной корреляции, рассматривается как слабая взаимосвязь. Эта тенденция может оказаться проблематичной при оценке коэффициента валидности, особенно когда валидность обсуждается с кем-то, не имеющим опыта в толковании корреляций. Например, директору по персоналу какой-либо компании нужно убедить работодателей, респондентов или юристов, что определенный тест может быть весьма эффективным инструментом прогнозирования профессиональной успешности. Чтобы подтвердить это, директор ссылается на данные исследования, согласно которым корреляция между показателями теста и профессиональной успешностью равна 0,40. Как известно, это означает, что люди, которые имеют относительно высокие баллы по данному тесту, будут также иметь относительно высокие показатели профессиональной успешности. Однако аудитория работодателей, респондентов и юристов может истолковать эти данные по-другому. Фактически, они могут заявить, что корреляция 0,40 далека от совершенной, и проинтерпретировать ее 259
как свидетельство низкой валидности теста! Как же в таком случае директору по персоналу убедить аудиторию в том. что тест является полезным и дает эффективный прогноз? ' Как говорилось выше, некоторыми из ключевых факторов, влияющими на размер коэффициента валидности, являются истинная корреляция между конструктами, дисперсия метода, соотношение респондентов в двух группах (определяемых по дихотомической переменной) и надежность. При интерпретации абсолютной величины коэффициента валидности становятся существенными еше несколько дополнительных факторов. Корреляция в квадрате и «доля объяснимой дисперсии» В психологических исследованиях установившейся практикой является интерпретация квадрата коэффициента корреляции. Квадрат корреляции между двумя переменными зачастую интерпретируется как доля дисперсии одной переменной, которая «объясняется» другой переменной. Например, если между показателями социальной компетентности и самооценки обнаруживается коэффициент корреляции 0.30, он может быть интерпретирован в свете того, что 9% дисперсии переменной «самооценка» объясняется социальной компетентностью (0,30 в квадрате равняется 0,09). Конечно, этот результат можно истолковать и как свидетельство того, что 9% переменной «социальная компетентность» объясняется самооценкой. Возможность толкования корреляции с позиций «доли объяснимой дисперсии» привлекательна, особенно в свете того, что психологические исследования в целом (и психометрика в частности) направлены на измерение и объяснение вариативности данных. Чем большая часть вариативности какого- либо феномена может быть объяснена, тем больше у исследователя уверенности в том, что он этот феномен понимает. Кроме того, интерпретация с позиций «доли объяснимой дисперсии» согласуется с различными статистическими процедурами, основанными на выделении компонентов дисперсии (например, регрессионный анализ и дисперсионный анализ ANOVA). Таким образом, интерпретация корреляционных взаимосвязей через квадрат корреляции и объяснение какой-либо части дисперсии весьма широко распространена. Несмотря на то что к этому методу достаточно часто прибегают, интерпретация корреляции через возведение ее в квадрат критиковалась по крайней мере по трем причинам. Во-первых, в ряде случаев такая процедура является технически некорректной. Более подробное обсуждение данного аргумента выходит за рамки этой книги. Заметим только, что Дж. Озер (Ozer, 1985) утверждает, что в некоторых случаях в качестве доли объяснимой дисперсии следует интерпретировать не квадрат корреляции, а сам корреляционный коэффициент. Во-вторых, некоторые эксперты замечают, что метрика самой дисперсии не является интуитивно понятной. Вспомните, что дисперсия, будучи мерой разброса данный, вычисляется на основе отклонений от среднего, возведенных в квадрат. Дисперсия действительно обладает рядом замечательных статистических свойств, но как понимать квадраты отклонения 260
от среднего арифметического? Р.Г. Д'Андраде и Дж. Дарт (D’Andrade & Dart, 1990) подчеркивают, что описание результатов в терминах квадратов отклонения или расстояния не является содержательным: вы ведь не объясняете друзьям, как пройти к вашему дому, говоря, что он находится в 9 квадратных милях от автострады? То же самое соображение верно и по отношению к квадрату коэффициента корреляции: есть мнение, что этот показатель не является интуитивно понятным и, следовательно, бесполезен для интерпретации взаимосвязи между двумя переменными. Третий повод для критики квадрата корреляции является наименее техническим, но. возможно, самым веским из всех. Проще говоря, возведение корреляции в квадрат приводит к тому, что взаимосвязь между переменными кажется весьма незначительной. Часто можно услышать, что исследователи разочарованы тем, что они объяснили «только» 9% или 12% дисперсии какого- либо явления. Или можно столкнуться с критикой какого-либо исследования, в которой говорится, что объяснено «только» 16% дисперсии. В самом деле, на первый взгляд кажется, что 9%, 12% и 16% представляют собой не слишком уж значительную долю чего бы то ни было. В конце концов, это значит, что около 90% дисперсии не объяснено, а это звучит уже довольно внушительно. Тем не менее, как будет показано ниже, 9%, 12% или 16% дисперсии какого-либо явления могут оказаться довольно значительным и важным показателем. Особенно это касается ситуации, когда речь идет о взаимосвязи только лишь двух переменных. Так, если выясняется, что с помощью всего одной переменной (например, социальной компетентности) можно объяснить почти 10% вариативности такого сложного психологического феномена, как самооценка, этот показатель можно рассматривать как весьма значительную взаимосвязь. Здесь можно привести и пример ситуации с бейсболом, описанный Р.П. Абельсоном (Abelson, 1985). Вспомним, что исследование Р.П. Абельсона привело его к выводу о том, что взаимосвязь между средним количеством отбитых мячей и успехом в какой-либо единичной ситуации достаточно мала. В действительности его заключение было основано на анализах, которые показали, что навыки отбивания мяча (выраженные в среднем количестве отбитых мячей) объясняли в общем разбросе данных по каждому отдельному случаю всего лишь одну треть от 1% дисперсии. Как уже обсуждалось выше, Р.П. Абельсон подчеркнул, что кумулятивный эффект многих ситуаций отбивания мяча является более объективным показателем и может объяснить распространенное доверие публики к характеристике бейсболистов по среднему количеству отбитых мячей. Р.Г. Д’Андраде и Дж. Дарт (D’ Andrade & Dart, 1990) предлагают другой взгляд на то, как объяснить расхождение между итоговыми показателями, которые получил Р.П. Абельсон (весьма малый процент объяснимой дисперсии), и соображениями здравого смысла (среднее количество отбитых мячей является важным статистическим индикатором, характеризующим мастерство бейсболиста). Они полагают, что данное расхождение частично является следствием того, что процент объяснимой дисперсии является плохой мерой взаимосвязи. Комментируя данные, представленные Р.П. Абельсоном, они указывают, что полученные результаты 261
могут быть проинтерпретированы как свидетельство того, что разница между игроком с показателем 0.220 и игроком с показателем 0.320 создает 10- процентное различие в вероятности попадания по мячу в единичной игровой ситуации. Р.Г. Д’Андраде и Дж. Дарт признают, что «10% - число не огромное», однако «для тех, кто делает ставки, десятипроцентные рубежи имеют большой смысл. Как и для менеджеров бейсбольных команд» (D’Andrade & Dart, 1990, с. 58). Толкование коэффициента валидности методом возведения его в квадрат и описания «доли объяснимой дисперсии» - общепринятый подход, который, однако, не избавлен от определенных проблем. Несмотря на то что такая интерпретация соответствует ориентации психометрики на исследование дисперсии, в ней можно обнаружить некоторые технические и логические недостатки. Вероятно, момент, который подвергается наибольшей критике, заключается в том, что «доля объяснимой дисперсии» представляет взаимосвязи с некоторым преуменьшением их абсолютной величины и значимости. Оценка практических эффектов: эффект контрастных групп, таблицы Тейлора-Расселла, анализ прагматической полезности и чувствительности/специфичности Один из способов толкования корреляции заключается в оценке степени ее влияния на «реальные» решения и прогнозы. Чем больше корреляция между тестом и критериальной переменной, тем более успешно можно использовать тест для принятия решений о критериальной переменной. Возвращаясь к предыдущему примеру, можно отметить, что директор по персоналу мог бы представить вопрос в терминах успешности использования теста для принятия решений о найме на работу, в терминах прогнозирования профессиональной успешности работника. Другими словами, как часто прогноз директора о том, что люди с относительно высокими тестовыми баллами будут иметь также относительно высокие показатели профессиональной успешности, будет оказываться верным? И как часто данный прогноз будет неверным? Существует по крайней мере четыре метода, разработанные для представления смысла корреляционной взаимосвязи в терминах точности прогнозирования, - эффект контрастных rpynn(BESD; Rosenthal & Rubin, 1982), таблицы Тейлора-Рассела (Taylor & Russell, 1939), анализ прагматической полезности (Brogden & Taylor, 1950) и анализ чувствительности и специфичности теста (Loong, 2003). Эффект контрастных групп (BESD) был разработан для того, чтобы проиллюстрировать практические следствия использования корреляции для принятия решений. Как правило, такая таблица оформляется таким образом, чтобы она могла применяться для формулировки прогнозов и принятия решений на выборке из 200 человек, 100 из которых имеют относительно высокий балл по результатам тестирования, а 100 - относительно низкий балл. У какого количества человек (из первой и второй группы в отдельности) будет высокий балл по критериальной переменной? Ответ на этот вопрос можно представить в виде таблицы сопряженности 2x2 (см. табл. 9.6а). Построение биномиальной 262
таблицы величины эффекта можно использовать для того, чтобы показать, какое количество успешных и неуспешных прогнозов будет сделано на основе коэффициента корреляции. Начнем с наихудшего сценария, в котором корреляция между тестом и критериальной переменной составляет 0. Если тестовые баллы не коррелируют с показателем профессиональной успешности, доля точных прогнозов составит всего лишь 50/50 (см. табл. 9.6а). Из 100 человек с относительно низкими результатами тестирования 50 будут относительно успешными, а 50 - неуспешными. Сходным образом, из 100 человек с относительно высокими результатами тестирования 50 будут относительно успешными, а 50 - неуспешными. Когда тест не коррелирует с критериальной переменной, использовать его для того, чтобы делать прогнозы, все равно, что подбрасывать монетку. Естественно, директор по персоналу признает негодным тест, коэффициент валидности которого дает такую же долю успешных прогнозов, как орел и решка. Таблица 9.6 Пример таблицы эффекта контрастных rpynn(BESD) (а) Для корреляции г = 0.00 Тестовый балл Профессиональная успешность Низкая Высокая Низкий 50 50 Высокий 50 50 (Ь) Для корреляции г = 0.40 Тестовый балл Профессиональная успешность Низкая Высокая Низкий А 70 В - 30 Высокий С 30 D 70 Что если рассмотреть сценарий, при котором корреляция между тестом и критериальной переменной не равна нулю? Если результаты тестирования коррелируют с профессиональной успешностью, доля точных прогнозов будет превышать 50/50. Р. Розенталь и Д.Б. Рубин (Rosenthal и Rubin, 1982) предлагают способ точно узнать, насколько именно. Заметьте, что табл. 9.6b, структурирована так, что ячейка А соответствует количеству людей с низкими результатами ’ тестирования, которые (согласно прогнозам) будут плохо 263
справляться с работой. Чтобы определить данную величину, используется следующая формула: Ячейка А = 50 + 100 (г/2), где г - корреляция между тестом и критериальной переменной. Если корреляция между тестовыми баллами и профессиональной успешностью составляет г = 0.40, исследователь может дать прогноз, согласно которому 70 человек с низкими результатами тестирования будут иметь низкие показатели профессиональной успешности: Ячейка А = 50 + 100 (0.40/2). Ячейка А = 50 + 20, Ячейка А = 70. В данном случае прогноз для ячейки В (количество людей с низкими результатами тестирования, которые, согласно прогнозу, будут успешными в профессиональном плане), будет следующим: Ячейка В = 50 - 100 (г/2), Ячейка В = 50 - 100 (0.40/2), Ячейка В = 50 - 20, Ячейка В = 30. Прогноз профессиональной успешности для ячеек С и D соответствует ячейкам А и В, дополняя их: Ячейка С = Ячейка В = 50 - 100 (г/2) = 30, Ячейка D = Ячейка А = 50 4- 100 (г/2) = 70. Попробуем, основываясь на данных, представленных в таблице эффекта контрастных групп, рассмотреть значение и полезность коэффициента корреляции, составляющего «всего лишь» 0,40. Если бы директор по персоналу нанял только кандидатов с относительно высокими тестовыми баллами, тогда 70 % этих кандидатов оказались бы в профессиональном плане успешными и только 30 % - неуспешными. Доля точности прогноза, равная 70%, несовершенна, но для такого сложного феномена, как профессиональная успешность, весьма приемлема. Многое зависит от стоимости обучения персонала, однако работодатель может рассматривать долю точности прогноза, равную 70%, как весьма значительную. В целом биномиальная таблица величины эффекта используется для того, чтобы перевести коэффициент корреляции в простую и интуитивно понятную 264
форму. Представляя взаимосвязь между двумя переменными в форме доли успешных прогнозов, таблица BESD выражает коэффициент корреляции между тестом и критериальной переменной в 'такой форме, которая знакома большинству людей и которую легко понять. Несмотря на всю наглядность таблиц эффекта контрастных групп, способность данного метода выражать практический смысл коэффициента корреляции подвергалась критике (Hsu. 2004). Один из ключевых моментов критики этого метода заключается в том, что в таблице автоматически предполагается численное равенство групп респондентов. Другими словами, данный метод предполагает такую ситуацию, в которой количество людей с низкими тестовыми баллами является равным количеству людей с высокими тестовыми баллами. Кроме того, в этом методе предполагается, что половина выборки является «успешной» в отношении критериальной переменной, а половина - нет. Как указывалось ранее в этой главе, количественное соотношение респондентов в разных группах может оказывать влияние на коэффициент корреляции. Несмотря на то что допущение равенства групп в некоторых случаях оправдано и возможно, в реальных жизненных ситуациях оно может использоваться не всегда. Например, директор по персоналу может нанять только 10% людей из всей выборки, а не 50%. Кроме того, может оказаться, что достичь профессиональной успешности достаточно трудно, такая возможность может составлять, например, лишь 20%. В ситуациях, когда допущение равных пропорций численности респондентов является неприемлемым, можно использовать таблицы, разработанные Х.К. Тейлором и Дж.Т. Расселом (Taylor и Russell, 1939). Данные таблицы были разработаны для того, чтобы сопровождать принятие решений об отборе. Они отображают вероятность того, что принятие конкретного решения, основанное на «приемлемых» результатах тестирования, отразится (в сторону улучшения) на успешности по критериальной переменной. Как и в BESD, в таблицах Тейлора - Расселла и предиктор (тест), и зависимая (критериальная) переменная выражаются в дихотомической шкале. Например, директор по персоналу, принимая решение о найме на работу, может воспринимать итоги тестирования кандидата в терминах «прошел — не прошел». Кроме того, он будет воспринимать саму критериальную переменную (успешность профессиональной деятельности) как высокую либо низкую (третьего не дано). Главное отличие биномиальных таблиц величины эффекта и таблиц Тейлора - Расселла заключается в том, что таблицы Тейлора - Расселла могут применяться к решениям, основанным на различных пропорциях удовлетворительных /неудовлетворительных результатов тестирования и успешного/неуспешного выполнения работы. Чтобы использовать таблицы Тейлора - Расселла, необходимо обладать некоторой информацией. Во-первых, какова величина коэффициента валидности? Во-вторых, какова доля отбора — то есть процент кандидатов, которых собираются нанять на работу? Будут ли наняты 10% кандидатов (а 90% будет отказано) или 30%? В-третьих, какова доля людей, которые могли бы иметь «успешные» критериальные показатели, если бы отбор был сделан без 265
помощи тестирования? То есть, допуская, что найм был проведен, невзирая на показатели теста, сколько работников достигли бы успешности в выполнении своей деятельности? Обладая данной информацией, можно воспользоваться таблицами Тейлора - Расселла, чтобы оценить долю людей с приемлемыми результатами тестирования, которые к тому же достигают успеха на работе. Например, если бы исследователю было известно, что 10% людей будут наняты (доля-отбора составляет 0,10) и что общий показатель профессиональной успешности равен 60% (доля успешности составляет 0,60), тогда он мог бы оценить степень полезности теста для принятия решений об отборе. Если отборочный тест имеет коэффициент валидности, равный 0.30, таблицы Тейлора - Расселла покажут директору по персоналу, что 79% кандидатов, отобранных на основании тестирования, будут профессионально успешными. Следует заметить, что данный показатель выше, чем те 60%, которые были бы получены, если бы найм был произведен, невзирая на тестовые показатели. Таким образом, директор по персоналу приходит к выводу о том, что данный тест увеличивает эффективность отбора кандидатов на 19%. Применяясь в рамках принятия решений о найме на работу, таблицы Тейлора - Расселла были популярны в промышленной и организационной психологии. При их описании ставилась цель осведомить читателя о существовании данного метода (см. Taylor & Russell, 1939) и обозначить его важность в контексте оценки значения коэффициента валидности. Третий метод интерпретации коэффициента валидности - анализ прагматической полезности, который можно рассматривать как логическое развитие таблиц эффекта контрастных групп (BESD) и таблиц Тейлора - Расселла. Анализ прагматической полезности определяет валидность в рамках сопоставления затрат и выгод от использования теста. Другими словами, «Выгодно ли использовать тест, действительно ли преимущества от его использования окупают затраты?» (Vance & Colella, 1990, с. 124). Несмотря на то что подробное обсуждение анализа полезности выходит за рамки данной книги, предоставим краткое его описание. При проведении анализа полезности различным аспектам тестирования и процесса принятия решения приписывается денежная стоимость. Во-первых, исследователь должен оценить денежную выгоду от использования в процессе принятия решения именно данного теста, а не других средств. Например, можно оценить финансовую выгоду от применения теста по сравнению с той ситуацией, когда кандидат принимается на работу без прохождения тестирования. Следует заметить, что при этом могут применяться и таблицы Тейлора - Расселла, например, указывая процентную долю получивших работу соискателей, достигших впоследствии больших профессиональных успехов. Исходя из этого показателя, исследователь затем оценивает соответствующую финансовую выгоду от применения процедуры тестирования. Во-вторых, необходимо оценить тестирование на затратность. Процедура тестирования может предполагать затраты на докупку теста, обработку результатов, обучение людей, принимающих решения, интерпретации и грамотному использованию 266
тестовых баллов, а также на время, затрачиваемое респондентами и диагностами. По результатам анализа прагматической полезности исследователь может оценить, превышает ли денежная выгода от использования теста (на которую, опять же, влияет способность теста прогнозировать критериальные переменные) потенциальные затраты, связанные с проведением тестирования. Четвертый метод оценки практического эффекта использования определенного теста - анализ чувствительности и специфичности. Такой анализ применяется обычно в рамках диагностики групповой принадлежности респондента или категории, приписываемой ему по некоторой качественной шкале. Так, тест может быть направлен на то, чтобы диагностировать присутствие либо отсутствие определенного психологического расстройства. В таком случае существуют четыре возможных исхода диагностики, как показано в табл. 9.7: 1. Верный положительный - тест позволяет исследователю верно идентифицировать респондента, который действительно страдает от психологического расстройства. 2. Верный отрицательный - позволяет исследователю верно идентифицировать респондента, который в действительности не страдает от психологического расстройства. 3. Ошибочный положительный - по результатам тестирования исследователь ошибочно делает заключение о наличии расстройства, когда в действительности его нет. 4. Ошибочный отрицательный - по результатам тестирования исследователь ошибочно делает заключение об отсутствии расстройства, когда в действительности расстройство имеется. Очевидно, что пользователи предпочитают такие тесты, которые приводят к большому количеству верных выводов и малому количеству ошибочных. Таблица 9.7 Пример анализа чувствительности и специфичности В действительности, расстройство: Присутствует Отсутствует Результаты теста показывают, что расстройство Присутствует 80 Верный положительный 120 Ошибочный положительны й Всего с положительным результатом 200 Положительны й прогностический коэффициент 80/200 = 0.40 Отсутствует 20 Ошибочный отрицательный 780 Верный отрицательный Всего с отрицательным результатом 800 Отрицательный прогностический коэффициент 780/800 =0,975 , Всего с расстройством 100 Всего без расстройства 900 Всего = 1000 Чувствительность 80/100 = 0,80 Специфичность 780/900 = 0,87 Базовое отношение (преобладание, предтестовая вероятность) = 100/1000 = 0,10 267
Чувствительность и специфичность - величины, указывающие долю правильных заключений исследователя о групповой принадлежности респондента. Как показано в табл. 9.7, чувствительность отражает способность теста распознавать респондентов, страдающих от расстройства, а специфичность отражает способность теста распознавать респондентов, не страдающих от расстройства. В техническом плане чувствительность отражает вероятность того, что у респондента, обладающего расстройством, по результатам тестирования это расстройство будет диагностировано; специфичность же отражает вероятность того, что тест не выявит расстройства у человека, его не имеющего. На практике ученые и пользователи теста не могут точно знать, кто из респондентов действительно страдает от расстройства, но показатели чувствительности и специфичности теста оцениваются с помощью исследований, в которых используются высоконадежные стандарты постановки диагноза. В целом такие методы, как биномиальные таблицы величины эффекта, таблицы Тейлора - Расселла, анализ прагматической полезности и анализ чувствительности/специфичности, позволяют оценщикам более наглядно представить и описать значение определенного коэффициента валидности и потенциальную практическую пользу от применения разработанного теста. Данные методы важны и полезны особенно тогда, когда тест тесно связан с определенным конкретным результатом, характеристикой или решением. Нормативы или стандарты в определенной области Корреляции валидности также следует оценивать в контексте определенной сферы исследования или практического применения. В различных сферах науки можно найти различные стандарты или привычные диапазоны величины взаимосвязей. В некоторых сферах науки экспериментальный контроль над переменными является более строгим, чем в других. Некоторые сферы обладают более точными измерительными техниками. В некоторых сферах рассматриваются более комплексные явления, обусловленные большим количеством причин. Все эти различия оказывают влияние на значительность результатов, получаемых в исследовании. В рамках физических наук ученые могут в порядке вещей обнаруживать взаимосвязи, которые психологи и другие ученые, исследующие поведение, посчитали бы невероятно сильными. Например, в 2000 году изучалась взаимосвязь между массой черных дыр в центре галактики и средней скоростью звезд на краю галактики (Gebhardt et al., 2000). В данное исследование были включены примерно 26 галактик («испытуемых»), и для каждой галактики проводилось измерение по двум переменным. Одна из переменных - величина черной дыры в центре галактики, а вторая - скорость звезд, вращающихся по периферии галактики. По результатам анализа корреляция между этими двумя показателями составила 0.93. В реальных эмпирических данных из сферы психологии такую высокую корреляцию обнаружить если и можно, то достаточно редко. Сходным образом, Дж. Коэн указывает на то, что исследователи в сфере классической механики часто приходят к результатам, в 268
которых доля объяснимой дисперсии зависимой переменной составляет 99% (Cohen, 1988). В психологии на Джейкоба Коэна (Jacob Cohen) часто ссылаются в связи с тем, что он сформулировал приблизительные нормативы для интерпретации корреляции как малой, средней и значительной меры взаимосвязи. Согласно рекомендациям Дж. Коэна (Cohen, 1988), коэффициент корреляции 0,10 считается малым, 0,30 - средним, а 0,50 - значительным, большим (следует заметить, что Дж. Коэна предлагает также другие нормативы для толкования других величин эффекта, таких как d). Не так давно Дж.Ф. Хемпхилл (Hemphill, 2003) провел обзор нескольких крупных исследований и предположил, что более приемлемый ряд нормативов будет состоять в том, что корреляции ниже 0,20 будут считаться малыми, корреляции между 0,20 и 0,30 будут считаться средними, а корреляции выше 0,30 - большими. Даже в рамках психологии различные области исследования могут иметь разные ожидаемые результаты величины эффекта. Например, нормативы Дж.Ф. Хемпхилла были выведены из исследований по психологическим диагнозам и терапии (Hemphill, 2003). Степень, в которой его нормативы подходят другим областям исследования в психологии и в целом в науках о поведении, остается неизвестной. Сходным образом, Дж. Коэна признает, что его нормативы «могут иметь крен в более «гуманитарную» сферу - т. е. в сторону психологии личности, социальной психологии, социологии и культурной антропологии и в противоположном направлении от экспериментальной психологии н психофизиологии» (Cohen, 1988, с. 79). Можно сделать вывод о том, что интерпретация коэффициентов валидности, как и любой другой меры взаимосвязи, должна производиться в контексте определенной сферы или области исследования. Статистическая значимость Можно ли интерпретировать результаты исследования теста академических способностей SAT, в котором получен коэффициент прогностической валидности 0.55, как свидетельствующий о конвергентной валидности теста? При использовании для данной корреляции биномиальной таблицы величины эффекта успешность прогноза успеваемости школьников, принятых в колледж, составляет почти 80%. А что если обнаружилось бы, что исследование включало лишь 20 респондентов? Это изменило бы степень уверенности в коэффициента валидности? Если да, то как? Что, если обнаружилось бы, что исследование включало 200 респондентов? Изменило бы это уверенность в его результатах в лучшую сторону? В чем именно заключалось бы преимущество данного исследования перед предыдущим? Ранее в этой главе описывалось реальное исследование прогностической валидности теста SAT. Это было большое исследование, которое включало более 100 000 студентов из 25 колледжей. В чем состоит польза проведения такого большого исследования? Действительно ли существует необходимость в настолько большой выборке? Как известно, большинство исследований в психологии, включая большинство исследований валидности, используют 269
гораздо меньшие выборки - обычно как максимум несколько сотен участников. Теряем ли мы что-то, набирая выборки такого размера? Последняя тема, которая будет рассмотрена в представленном здесь обсуждении показателей конвергентной и дивергентной валидности, - статистическая значимость. Понятие статистической значимости является важной частью статистики вывода, т. е. процедур, использующихся для оценки распространимости выводов с выборки на генеральную совокупность. Ниже будут описаны несколько основополагающих вопросов статистики вывода, затем будет рассмотрена их роль в интерпретации коэффициентов валидности. В большинстве исследований задействована относительно небольшая выборка участников. Эти участники обеспечивают исследователей данными, которые анализируются и служат основанием для того, чтобы делать определенные заключения. Но у исследователей обычно возникает желание делать заключения о большем количестве людей, нежели лишь тех, которые принимали участие в их исследовании. Как правило, ученый предполагает, что опрошенные им респонденты представляют собой случайную выборку из гораздо большей популяции. Те 20, 200 или 100 000 людей, которые принимают участие в тестировании по SAT, предположительно репрезентативны по отношению к совокупности всех учеников, которые могли бы заполнить SAT и в дальнейшем поступать в колледж. Поскольку выборка участников исследования предположительно репрезентативна по отношению к генеральной совокупности, исследователи предполагают, что данные, полученные на выборке, более или менее соответствуют генеральной совокупности. Поэтому данные, полученные на выборке, используются для того, чтобы делать выводы относительно всей генеральной совокупности респондентов. Например, исследователь, обнаруживший, что коэффициент прогностической валидности теста SAT равен 0.55, полагает, что этот результат применим к куда большему количеству людей, чем лишь к тем 20, 200 или 100 000 респондентам, которые непосредственно принимали участие в исследовании. Вместе с тем исследователи осознают, что распространение результатов с относительно небольшой выборки на генеральную совокупность - дело весьма неточное. Например, можно ли быть уверенным в том, что тест академических способностей SAT в генеральной совокупности будет обладать прогностической валидностью, равной 0,55, только лишь потому, что данные тестирования 20 человек показывают прогностическую валидность, равную 0.55? Возможно, выборка из 20 человек не является репрезентативной по отношению ко всей совокупности учеников, которые могли бы заполнить тест. Поэтому возможно, что коэффициент прогностической валидности, полученный на данной выборке, не соответствуют реальной прогностической валидности теста. Статистика вывода используется для того, чтобы оценить степень достоверности в распространении выводов с выборки на генеральную совокупность. Исследователи подсчитывают показатели статистики вывода вместе с такими показателями, как корреляции, чтобы в итоге оценить репрезентативность корреляции, обнаруженной на определенной выборке 270
респондентов. Проще говоря, если какой-либо результат при исследовании выборки оказывается «статистически значимым», исследователи уверены в том, что этот результат показателен для всей гейеральной совокупности. Например, если в исследовании получена статистически значимая положительная корреляция, характеризующая прогностическую валидность SAT, ученый делает вывод о том, что в генеральной совокупности, из которой была набрана выборка респондентов, баллы по тесту SAT действительно положительно коррелируют с успеваемостью в колледже. С другой' стороны, если результат оказывается статистически незначимым, исследователь не может быть уверенным в том, что этот результат характерен и для всей генеральной совокупности. Например, если в исследовании получен статистически незначимый положительный коэффициент валидности теста SAT, делается вывод о том, что этот коэффициент мог быть обнаружен случайно. Другими словами, в данном случае нельзя сделать вывод о том, что в рамках генеральной совокупности респондентов (из которой была набрана выборка) баллы по тесту академических способностей действительно положительно связаны со средним баллом успеваемости в колледже. Зная все это, неудивительно, что многие исследователи придают статистической значимости большую важность. Зачастую статистически значимые результаты рассматриваются как «настоящие» и достойные внимания, а статистически незначимые результаты - как случайные или неприменимые к генеральной совокупности. Несмотря на то что такой подход недостаточно точен, он очень распространен. Таким образом, абсолютная величина коэффициента валидности - лишь один из компонентов, который необходимо учитывать при оценке наличия или отсутствия конструктной валидности. В дополнение к вычислению и интерпретации этой величины самой по себе (напр., является ли она малой, средней или значительной) разработчики и пользователи тестов обычно изъявляют желание знать, является ли коэффициент валидности статистически значимым. При оценке конвергентной валидности исследователи предполагают обнаружить статистически значимые коэффициенты корреляции. При оценке дивергентной валидности исследователи предполагают обнаружить статистически незначимые коэффициенты корреляции (указывающие на то, что результаты теста в рамках генеральной совокупности с критериальной переменной не связаны). Поскольку статистическая значимость часто является важной частью процесса интерпретации коэффициентов валидности, необходимо иметь базовое представление о понятии статистической значимости и факторах, на нее влияющих. В типичном варианте интерпретации коэффициента валидности показатель статистической значимости необходим для ответа лишь на один вопрос: действительно ли коэффициент корреляции, указывающий на валидность, в генеральной совокупности отличается от нуля? Следует заметить, что данный вопрос предполагает два варианта ответа - «да» или «нет». Вычисление статистической значимости приводит к дихотомическому заключению - исследователи либо приходят к выводу, что 271
взаимосвязь между тестом и критериальной переменной в генеральной совокупности существует, либо же они приходят к выводу, что такой взаимосвязи не существует. Опять же, при оценке конвергентной валидности исследователи хотят прийти к выводу о том, что данная взаимосвязь существует, следовательно, надеются обнаружить статистически значимые результаты. При оценке дивергентной валидности исследователи хотят прийти к выводу о том, что взаимосвязи между тестом и критериальной переменной не существует (или же она является малой), следовательно, надеются обнаружить статистически незначимые результаты. Д.Т. Кэмпбелл Д.В. Фиске (Campbell & Fiske. 1959) считали статистическую значимость ключевым моментом в толковании результатов анализа мультипризнаковых-мультиметодных матриц (МТМММ). Более сложный вариант формулировки основного вопроса звучит так: являются ли результаты, полученные на выборке, достаточно убедительными, чтобы быть уверенными в том, что корреляция для генеральной совокупности (из которой была набрана выборка респондентов) отлична от нуля? В такой формулировке на первый план выдвигается понятие уверенности (доверия), кроме того, имплицитно предполагаются еще два вопроса, в которых подчеркиваются факторы, влияющие на статистическую значимость. Первый вопрос: насколько велика уверенность в том, что коэффициент корреляции в генеральной совокупности, из которой была набрана выборка, не равен нулю? Второй вопрос: достаточно ли велика степень уверенности в этом, чтобы прийти к выводу, что коэффициент корреляции в генеральной совокупности, из которой была набрана выборка, не равен нулю? Существуют два фактора, влияющих на степень уверенности в том, что корреляция в генеральной совокупности не равна нулю — величина коэффициента корреляции в данных по выборке и величина самой выборки. Обратите внимание на то, что большие коэффициенты корреляции (полученные на выборке респондентов) повышают уверенность в том. что корреляция в генеральной совокупности также не равна нулю. Если корреляция между показателями теста академических способностей SAT и средним баллом успеваемости в колледже (GPA) в рамках генеральной совокупности буквально равна нулю, то какую корреляцию можно обнаружить для выборки, набранной из числа респондентов этой генеральной совокупности? Даже если коэффициент корреляции в генеральной совокупности составляет ровно 0,00, не столь уж и удивительно, что в рамках выборки был получен коэффициент, равный, скажем, 0,07. Данная корреляция не столь велика и лишь слегка отличается от «истинной» корреляции между показателями. Не слишком неожиданным будет и обнаружение коэффициента корреляции, составляющего 0,15. Идя дальше, имеем вероятность обнаружить на выборке еще большую корреляцию, равную, скажем, 0,30, хотя в действительности (в генеральной совокупности) эта корреляция и равна нулю. Такой результат (0,30) маловероятен, но все же возможен. Фактически, возможно даже, что в выборке обнаружится очень значительный коэффициент корреляции (напр., равный 0,89) - даже если эта выборка была набрана из генеральной совокупности, в которой «истинный» коэффициент корреляции равняется нулю. Коротко говоря, если выборка 272
набрана из генеральной совокупности, коэффициент корреляции в которой равняется нулю, вероятность обнаружить в выборке значительный коэффициент корреляции мала, хотя и не исключается. Поэтому чем больше корреляции, полученные на выборке, тем больше уверенность исследователя в том, что в генеральной совокупности соответствующая корреляция также отлична от нуля. Следовательно, такие корреляции с большей вероятностью будут обладать высокой статистической значимостью. Второй фактор, влияющий на степень уверенности исследователя в том, что корреляция в генеральной совокупности отлична от нуля - величина выборки. При прочих равных условиях более многочисленные выборки увеличивают уверенность в выводах, распространяемых на генеральную совокупность. Предположим, опубликованы результаты исследования, в котором получен коэффициент корреляции между баллами по тесту SAT и средним баллом успеваемости в колледже GPA, равный 0,30. Допустим, известно, что данное исследование включало только 20 респондентов. Какова степень уверенности в том, что существует положительная корреляция между баллами SAT и GPA для всех студентов, которые могли бы принять участие в такого рода исследовании? Изменится ли что-либо, если выборка составит 200 или 100 000 респондентов? Очевидно, что большие размеры выборки делают выводы о генеральной совокупности более достоверными. Итак, на уверенность исследователя в выводах о том, что корреляция в генеральной совокупности не равна нулю, влияет величина самой корреляции и величина выборки. Точные статистические уравнения выходят за рамки представленного здесь обсуждения, но в целом можно сделать вывод о том, что более значительные по величине корреляции и выборки увеличивают уверенность исследователя в том, что истинная корреляция в генеральной совокупности не равна нулю. Поэтому более значительные по величине корреляции и увеличивают вероятность того, что результаты исследования валидности будут статистически значимы. Все эти соображения выражены в следующем уравнении (по Rosenthal, Rosnow & Rubin, 2000): Чтобы признать результаты статистически значимыми, необходимо обладать определенным уровнем уверенности в том, что корреляция между исследуемыми показателями в генеральной совокупности не равна нулю. Степень уверенности в том, что тест коррелирует с критериальной переменной в генеральной совокупности Величина коэффи- циента валидности в выборке х Размер выборки Таким образом, второй вопрос, имеющий отношение к статистической значимости, - достаточно ли велика степень уверенности в результатах, чтобы прийти к выводу о том, что корреляция для генеральной совокупности, из которой была набрана выборка, не равна нулю. Более значительные по величине 273
корреляции и более значительные по величине выборки увеличивают степень уверенности исследователя в полученных результатах, однако необходимо все же задаться вопросом, предполагают ли результаты определенного исследования достаточную степень уверенности для того, чтобы считать эти результаты статистически значимыми. Необходимо установить определенный уровень достоверности, которого нужно достичь, чтобы иметь право утверждать, что корреляция исследуемых показателей в генеральной совокупности не равна нулю. Традиционно в науках о поведении в качестве порогового значения статистической значимости используется степень достоверности на уровне 95%. Другими словами, исследователи рассматривают результаты как статистически значимые, если вероятность того, что они ошибочны либо обнаружены случайно, составляет меньше 5% (0,05). Данный условный уровень получил название «альфа-уровня» исследования. Если данные статистики вывода превышают альфа-уровень, можно быть достаточно уверенными в том, что коэффициент валидности в генеральной совокупности, из которой была набрана выборка, не равен нулю. Как уже говорилось, статистическая значимость является важным моментом интерпретации показателей конвергентной и дивергентной валидности. Тот факт, что на статистическую значимость влияют величина выборки, величина эффекта (т. е. величина коэффициента валидности в выборке) и альфа-уровень, является весьма важным. На эти моменты необходимо обращать пристальное внимание при интерпретации данных статистики вывода. Результаты исследования валидности могут быть статистически значимыми, даже если коэффициент валидности весьма мал. Так может случиться, например, если выборка, использованная в исследовании валидности, достаточно велика. Сходным образом, результаты исследования валидности могут быть статистически незначимыми, даже если коэффициент валидности довольно значителен. Так может случиться, если в исследовании была использована относительно небольшая выборка. Ранее было замечено, что большинство исследователей надеются обнаружить статистически значимые показатели конвергентной валидности и статистически незначимые показатели дивергентной валидности. Но каковы следствия обнаружения того, что коэффициент корреляции, выражающий конвергентную валидность, статистически незначим? Типичное объяснение будет заключаться в том. что исследуемый тест обладает слабой конвергентной валидностью (т. е. конвергентная корреляция для генеральной совокупности может быть равна нулю). Однако подобный результат следует толковать не только в соответствии с величиной корреляции, но и с величиной выборки. Статистически незначимая конвергентная корреляция валидности может обнаруживаться из-за малой величины самого коэффициента корреляции или же из-за малого размера выборки. Если корреляция мала, это, несомненно, является свидетельством невысокой конвергентной валидности теста. Однако если корреляция достаточно велика, а выборка мала, результаты могут и не означать слабой валидности теста. Они могут означать, например, слабые места в организации самого исследования. Если использовалась слишком малая 274
выборка, тогда перед тем как делать выводы о конструктной валидности, следует провести более масштабное исследование. С другой стороны, каковы следствия обнаружения того, что коэффициент корреляции, выражающий дивергентную валидность, статистически значим? Типичное объяснение заключается в том, что тест обладает слабой дивергентной валидностью (т. е. дивергентная корреляция для генеральной совокупности может быть не равна нулю). Однако подобный результат следует толковать не только в соответствии с величиной корреляции, но и в соответствии с величиной выборки. Статистически значимая дивергентная корреляция валидности может обнаруживаться из-за большой величины корреляции или из-за большой величины выборки. Если корреляция велика, это является несомненным свидетельством против дивергентной валидности теста. Однако если корреляция мала, а выборка - достаточно велика, результаты могут и не относиться напрямую к дивергентной валидности теста. Если выборка достаточно велика (скажем несколько тысяч участников), существует вероятность того, что корреляция, равная лишь 0,10, 0,06 или даже меньше, может оказаться статистически значимой. В таких случаях показатели статистической значимости являются практически бессмысленными, и их следует игнорировать. В целом статистическая значимость, применимо к исследованию валидности, является важным, однако сложным понятием. Несмотря на то что она играет значительную роль в интерпретации коэффициентов конвергентной и дивергентной валидности, к ней стоит относиться с некоторой осторожностью. Как правило, конвергентные корреляции должны быть статистически значимы, а корреляции дивергентной валидности - статистически незначимы. Однако это общее правило следует применять, обращая внимание и на другие факторы. Углубленное изучение показателей статистической значимости показывает, что они определяются и величиной выборки, и величиной коэффициентов конвергентной и дивергентной валидности. Поэтому статистически незначимая конвергентная корреляция может отражать тот факт, что в исследовании была использована выборка недостаточного размера, а статистически значимая дивергентная корреляция может отражать тот факт, что выборка, использованная в исследовании, была слишком большой. Резюме Исследование конвергентной и дивергентной валидности является ключевым моментом в эмпирической оценке валидности теста. В данной главе рассматривались вопросы, имеющие отношение к вычислению и оценке соответствующих показателей этих важных форм валидности теста. Сначала были описаны четыре метода, использующиеся для оценки конвергентной и дивергентной валидности (напр., мультипризнаковые-мультиметодные матрицы). Затем рассматривались семь факторов, которые могут оказывать влияние на величину коэффициентов валидности (напр., ошибка измерения, процентное соотношение количества респондентов в разных группах, дисперсия 275
метода). Наконец, были рассмотрены четыре важных вопроса, на которые следует обращать внимание при интерпретации коэффициентов валидности (напр., доля объяснимой дисперсии, статистическая значимость, практическая ценность). Знание вопросов, рассмотренных в данной главе, может обеспечить более глубокое и изысканное понимание процессов оценки и интерпретации валидности теста. Рекомендуемая литература Обсуждение вопросов интерпретации величины эффекта: Abelson, R. Р. (1985). A variance explanation paradox: When a little is a lot. Psychological Bulletin, 97, 129-133. Классическая статья, в которой впервые описываются мультипризнаковые- мультиметодные матрицы: Campbell, D. Т., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait multimethod matrix. Psychological Bulletin, 56, 81-104. Описание таблиц Тейлора - Расселла: Taylor, Н. С., & Russell, J. Т. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection: Discussion and tables. Journal of Applied Psychology, 23, 565-578. В данной статье представлена общая логика и вычислительные тонкости процедуры квантификации конструктной валидности: Westen, D., & Rpsenthal, R. (2003). Quantifying construct validity: Two simple measures. Journal of Personality and Social Psychology, 84, 608-618. В этой работе дается обзор понятия статистической мощности. Статистическая мощность - важная составляющая оценки статистической значимости коэффициентов валидности. Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159. В данной работе представлен факторно-аналитический подход к исследованию мультипризнаковых-мультиметодных матриц (МТМММ): Widaman, К. Е. (1985). Hierarchically nested covariance structure models for multitrait multimethod data. Applied Psychological Measurement, 9, 1-26. 276
Часть IV УГРОЗЫ ПСИХОМЕТРИЧЕСКОМУ КАЧЕСТВУ ТЕСТА
ГЛАВА 10 Установки на ответ В самом начале обсуждения проблемы валидности приводился пример, в котором при собеседовании на получение рабочего места используется личностный опросник. Обратимся к данному примеру снова: представьте, что вы заполняете анкету. Перед вами вопрос: «Вы когда-нибудь крали у вашего работодателя?», и еще один: «Всегда ли вы говорите правду?». Пока вы раздумываете над этими вопросами, в памяти всплывает случай, когда вы «позаимствовали» хорошую шариковую ручку с предыдущего места работы, но «забыли» вернуть ее. Кроме того, вы думаете о том, как на прошлой неделе сказали лучшему другу, что должны были работать в выходные, хотя на самом деле вы просто хотели отдохнуть дома в одиночестве. Тем не менее, вы также думаете о том, что хотели бы получить эту работу, и используете те варианты ответа, которые с большей вероятностью повлияют на решение работодателя нанять вас. Соответственно, несмотря на тот факт, что правдивый ответ на первый вопрос - «да», а на второй - «нет», вы, как и большинство людей, будете склонны к тому, чтобы дать «альтернативные» ответы на оба вопроса. Каким образом ваше желание получить работу влияет на качество заполнения личностного опросника? Работодатель может интерпретировать ваши ответы как свидетельствующие об искренности или честности. Однако если вы выберете альтернативные ответы, тогда ваши результаты больше не могут быть интерпретированы как честность. На результат оказывает влияние ваше стремление впечатлить работодателя, и он не отражает ваш истинный уровень честности, который несколько не соответствует идеальному. В этой главе рассматривается проблема установок респондента на те или иные ответы и дается несколько вариантов решения данной проблемы, разработанных психологами. В идеале ответы респондента на утверждения опросника должны абсолютно точно отражать те психологические характеристики, для измерения которых данный опросник предназначается. Однако известно, что на ответы респондента может систематически влиять ряд посторонних факторов. Эти факторы могут уменьшать достоверность результатов теста и валидность интерпретации результатов психодиагностических инструментов, таких как личностные опросники, опросники отношений, тесты способностей, тесты достижений, а также 278
нейропсихологические тесты. Сниженная валидность психодиагностического инструментария может, в свою очередь, отразиться на решениях, принимаемых в отношении людей, а также вызвать проблеме! с интерпретацией исследований, основанньгх на этом инструментарии. Установки на ответ являются в практике психологических измерений постоянным предметом заботы, независимо от того, являются ли они осознанными или нет, движимы ли они эгоистическими мотивами или альтруистическими, отражают ли они стремление выглядеть лучше или стремление выглядеть хуже, чем на самом деле. Несомненно, необъективность в выборе ответов - фундаментальная проблема для тех, кто изучает поведение людей. Более того, проблема эта возникает, вероятно, только лишь в науках о поведении. Ученые, изучающие камни, планеты, насекомых, химические реактивы, вулканы или цветы редко попадают в ситуацию, когда предмет их исследования желает произвести впечатление разумного или непонятливого, здорового или больного, дружелюбного или недружелюбного, приветливого или властного, компетентного или некомпетентного, честного или добродетельного. Психологи же определенно должны беспокоиться об этих и других проблемах. Будучи осведомленными об этих проблемах, психологи посвятили себя идентификации, пониманию, обнаружению и контролю над установками респондентов, оказывающими влияние на их ответы в психологических тестах (например, Cronbach, 1946, 1950). Сначала в данной главе приводится описание некоторых установок на ответ, которые получили наибольшее внимание со стороны ученых. Затем рассматриваются методы и подходы (некоторые из которых простые, другие - сложные), которые используются, чтобы понять, раскрыть, свести к минимуму или проконтролировать эти установки. 1 Типы установок респондента на ответ Качество психологических измерений может быть подвержено влиянию множества установок, которыми респондент руководствуется при выборе ответов. В данном разделе приводится описание нескольких типов таких установок, которые занимали умы тех, кто разрабатывал или применял психодиагностические тесты. Некоторые из этих установок зависят от содержания или формы психологического теста, некоторые находятся под влиянием контекста тестирования, третьи отражают осознанные попытки респондента дать искаженный ответ, четвертые - отражают бессознательные факторы, влияющие на то, каким образом отвечает респондент. Чем бы они ни отличались, все из рассмотренных в данном разделе установок на ответ могут оказывать на качество психологического тестирования негативное влияние. 279
Установка на согласие (установка на положительный или отрицательный ответ)1 Психологи и другие ученые, изучающие поведение, интересуются установкой на согласие уже более 80 лет (например, Block, 1965; Cady, 1923; Cloud & Vaughn, 1970; Cronbach, 1942; Lentz. 1938; Ray. 1983; P.B. Smith, 2004). Установка на согласие проявляется в тех случаях, когда респондент соглашается с утверждениями, не вдаваясь в их смысл. Многие психологические опросники включают в себя утверждения, которые могут оказаться правдивыми по отношению к индивиду (например, «Я люблю свою работу»), и респонденты должны согласиться или не согласиться с данными утверждениями. Такого рода утверждения часто входят в состав личностньгх опросников, опросников отношений и интересов, клинических опросников и маркетинговых анкет. Установка респондента на согласие чаще всего проявляется именно в таких утверждениях и тестах. Установка на согласие и ее эффекты проиллюстрированы в табл. 10.1а. Представьте психолога организации, который заинтересован в исследовании взаимосвязи между удовлетворенностью работой и тем, как респондент оценивает престижность этой работы. Согласно его гипотезе, люди с относительно высоким уровнем удовлетворенности работой - это те люди, которые воспринимают свою работу как относительно престижную. Психолог просит работников фирмы оценить утверждения теста удовлетворенности работой, который включает в себя следующие четыре пункта: 1. Я действительно доволен своей работой 2. Работа дает мне возможность самореализации 3. В целом я удовлетворен повседневными аспектами своей работы 4. Я бы поменял лишь незначительные моменты в моей работе Кроме того, представьте, что ответы можно давать по семибалльной шкале (1 = полностью не согласен, 2 = не согласен, 3 = скорее не согласен, чем согласен, 4 = придерживаюсь нейтрального мнения, 5 = скорее согласен, чем не согласен, 6 = согласен, 7 = полностью согласен). «Ключ» к данному гипотетическому тесту таков, что ответы просто складываются для определения В психометрической литературе первоначально термин «установка на согласие» (acquiescence bias) применялся по отношению к склонности респондента на все вопросы и утверждения теста отвечать «да». В дальнейшем содержание термина расширилось, и он стал применяться по отношению и к тем случаям, когда респондент на все вопросы отвечает «нет». (Прим, перев.). 280
суммарного уровня удовлетворенности работой, причем большая сумма свидетельствует о большей удовлетворенности. В табл. 10.1 а Таблица 10.1 Установка респондентов на согласие может создавать ложную корреляцию (а) Ответы на утверждения исходных тестов Респондент Установка на согласие Пункты теста на удовлетворенность работой Пункты теста на субъективное ощущение престижности Результаты респондентов без установки 1 2 3 4 Итого УР 1 2 3 4 Итого П УР П 1 да 6 5 7 6 24 5 5 4 5 19 2 нет 7 5 6 7 25 2 2 2 1 7 25 7 3 нет 3 4 5 4 16 5 4 5 4 18 16 18 4 да 6 6 6 7 25 5 5 5 5 20 5 нет 1 4 2 3 10 1 2 1 2 6 10 6 6 нет 3 2 4 3 12 3 3 3 3 12 12 12 Корреляция между УР и П=0,43 -0,09 (Ь) Ответы на утверждения сбалансированных шкал до перекодировки Респондент Установка на согласие УР пункты ПП пункты 1 2 3 4 1 2 3 4 1 да 6 5 7 6 5 5 4 5 2 нет 7 3 6 1 2 4 2 5 3 нет 3 4 5 4 5 2 5 2 4 да 6 6 6 7 5 5 5 5 5 нет 1 4 2 5 1 4 1 4 6 нет 3 6 4 5 3 3 3 3 281
(с) Ответы на утверждения сбалансированных шкал после перекодировки Респондент Установка на согласие «Г УР пункты ПП пункты Результаты респондентов без установки 1 2 3 4 Итого УР 1 2 3 4 Итого ПП УР П 1 да 6 3 7 2 18 5 1 4 1 11 2 нет 7 5 6 7 25 2 2 2 1 7 25 7 3 нет 3 4 5 4 16 5 4 5 4 18 16 18 4 да 6 2 6 1 15 5 1 5 1 12 5 нет 1 4 2 3 10 1 2 1 2 6 10 6 6 нет 3 2 4 3 12 3 3 3 3 12 12 12 Корреляция между УР и ПП—0,10 —0,09 Приведены ответы респондентов на данные пункты теста, а также конечный результат по удовлетворенности работой (суммарный балл). Рассмотрение таблицы показывает, что респонденты 1, 2 и 4 имеют наивысший итоговый балл при ответе на утверждения теста; напрашивается интерпретация этого результата как показателя высокого уровня удовлетворенности работой. Важный аспект, на который следует обратить внимание - формулировка утверждений теста. Заметьте, что в данном гипотетическом примере каждый пункт выражен так, что положительный ответ (например, ответ 5, 6 или 7) интерпретируется как факт того, что респондент в той или иной степени удовлетворен своей работой. Говоря психометрическим языком, все это прямые пункты, т. е. позитивный ответ (согласие) на каждое утверждение отражает относительно высокий уровень измеряемого признака. Тот факт, что все пункты однонаправлены (т. е. все прямые или все обратные), имеет большое значение, т. к. это делает тест чрезвычайно уязвимым для установки на согласие. Представим себе, что мы обладаем абсолютным «всезнанием», и мы знаем, что 2 участника (респонденты под номером 1 и 4, как отмечено в колонке 2 табл. 10.1а) проявили установку на согласие, остальные же четыре участника ответили на утверждения теста вдумчиво. Заметьте, что респонденты с установкой на согласие положительно ответили на все четыре пункта теста, хотя в действительности они могли бы быть недовольны своей работой. Сложность заключается в том, что по крайней мере еще один участник опроса (респондент 2) также согласился со всеми четырьмя пунктами, но при этом он искренне доволен своей работой. Если бы мы не были всезнающими - если бы не знали, что респонденты 1 и 4 отвечают некорректно, тогда мы не 282
смогли бы отличить респондентов с установкой на согласие от тех, кто действительно доволен своей работой. Данная сложность подвергает угрозе 'способность исследователей точно отвечать на поставленные исследовательские вопросы. Вместе с тестом на удовлетворенность работой респонденты отвечают на четыре утверждения опросника престижности. Ответы даются в пятибалльной шкале (1 = полностью не согласен, 2 = не согласен, 3 = придерживаюсь нейтрального мнения, 4 = согласен, 5 = полностью согласен). Как показано в табл. 10.1а, участники, необъективно выполнившие тест по уровню удовлетворенности работой, также необъективно выполняли и задания по субъективному ощущению престижности. Участники 1 и 4 снова отвечали согласием, используя варианты ответа «4» и «5» на все утверждения теста. Для всех шести респондентов (включая тех, кто отвечал объективно, и тех, кто был необъективен в выборе ответов) корреляция между удовлетворенностью работой и самооценкой престижности составляет г = 0,43 (см. табл. 10.1а). Эта корреляция в «суммарной выборке» показывает, что два изучаемых конструкта взаимосвязаны, что согласуется с гипотезой исследователя. Тем не менее, поскольку мы временно являемся всезнающими, можно изучить корреляцию между уровнем удовлетворенности работой и самооценкой престижности среди только тех четырех участников, кто отвечал объективно, без установки на согласие. Как видим, эта корреляция довольно слаба, г = -0,09. Таким образом, в соответствии с «объективными» ответами, удовлетворенность и самооценка престижности не коррелируют друг с другом. Как видим, включение в исследование респондентов, демонстрирующих установку на согласие, создает искусственно высокую корреляцию между двумя переменными. Таким образом, респонденты, склонные к установке на согласие, представляют собой слабозаметную, но потенциально важную угрозу психометрическому качеству психологического тестирования. Короче говоря, пользователи тестов могут быть не в состоянии дифференцировать респондентов, необъективных в выборе ответов, и искренне отвечающих, когда и у тех, и у других по результатам тестирования получается высокий уровень выраженности измеряемого признака. Если пункты теста однонаправлены, тогда тенденция к «положительным» ответам может либо отражать истинную тенденцию ответов, либо быть сигналом наличия у респондента установки на согласие. Важное следствие такой установки заключается в том, что если результаты нескольких тестов «инфицированы» ей, тогда тесты будут взаимосвязаны между собой сильнее, чем коррелируют сами конструкты, лежащие в их основе. Данный результат является следствием того, что те респонденты, которые демонстрируют установку на согласие в одном тесте, скорее всего, будут демонстрировать ее и в другом, что гарантирует, что они получат относительно высокие баллы в обоих тестах. Как обсуждалось в главе 3, положительная корреляция имеет место тогда, когда люди с относительно высокими баллами по одной переменной имеют тенденцию получать относительно высокие баллы и по другой переменной. 283
Несмотря на то что до сих пор описывалась установка на положительный ответ, установка на согласие может принимать и другую форму - форму установки на отрицательный ответ. В этоТл случае респондент имеет тенденцию не соглашаться с утверждениями теста, не вдаваясь в смысл этих утверждений. Установки на положительный и отрицательный ответ могут иметь схожие эффекты. Тенденция к отрицательному ответу создает корреляции искусственно более положительные, чем они должны быть, поскольку в этом случае люди, получающие относительно низкие баллы в одном тесте, получат относительно низкие баллы и в другом. В целом установка на согласие (включая установку на отрицательный ответ) является угрозой психометрическому качеству тестов, которая давно заботит психологов и других ученых, изучающих поведение человека. Хотя некоторые исследователи подвергают существование или силу влияния установки на согласие сомнению (Rorer, 1965), имеются достаточные основания для того, чтобы утверждать, что данное явление существует и влияет на различные формы психологических измерений (Knowles & Nathan, 1997; van Herk, Poortinga, & Verhallen. 2004). Похоже, установка на согласие чаще всего возникает тогда, когда респонденты с некоторой трудностью понимают вопросы теста - например, потому, что задания теста сложны или неоднозначны, во время тестирования респондента что-то отвлекает или же респондент затрудняется в понимании материала. Как показали наши примеры, установка на согласие может давать искусственно высокий (или низкий, в случае тенденции к отрицательным ответам) результат тестирования, особенно если все пункты теста однонаправлены. Как следствие, установка на согласие может повлиять на результаты исследования, искусственным образом создавая статистически значимые положительные корреляции. Установка на крайние ответы и установка на промежуточные ответы Как мы убедились, многие опросники содержат утверждения или вопросы, которые требуют ответа в терминах интенсивности, согласия/несогласия или частоты встречаемости того или иного поведения. Например, тест тревожности Ч.Д. Спилбергера (STAI, Spielberger, 1983) - широко используемый опросник, призванный оценивать у респондентов уровень тревожности как ситуативного состояния и как личностной черты. Шкала личностной тревожности в этом тесте состоит из 10 утверждений об общем уровне психологического дистресса. Пункты в данной шкале включают в себя такие утверждения, как: «Я веду себя неуверенно» и «Я уравновешен» (заметьте, что данный пункт подсчитывается обратно). Для каждого утверждения респонденты имеют четыре варианта ответа: почти никогда, иногда, часто, почти всегда. Таким образом, вариант ответа «почти всегда» является более крайним вариантом ответа (отражающим большую степень согласия с утверждением), чем вариант «часто». Тесты другого типа включают в себя варианты ответа, относящиеся к тому, насколько точно утверждение характеризует респондента. Например, Международный банк заданий на черты личности (Goldberg и др.. 2006) включает в себя шкал}' 284
«Духовности/Религиозности» (Д/Р) с такими пунктами, как «Я духовный человек», и ответы могут варьироваться на пятибалльной шкале: очень неточно, скорее неточно, нейтральный ответ, скорее правильно, полностью правильно. На шкале Д/Р опция «полностью правильно» гораздо более полярна, чем «скорее правильно» (отражает более крайнюю степень точности), а вариант «очень неточно» является более крайним по сравнению с ответом «скорее неточно». Проблема установки на крайние и промежуточные ответы имеет отношение к индивидуальным различиям респондентов в тенденции использовать или избегать крайние ответы. В тесте Спилбергера один респондент может быть более готов сделать «крайний выбор» (например, ответить «почти всегда» на утверждение: «Я веду себя неуверенно»), чем другой, даже если оба респондента имеют одинаковый уровень тревожности. Подобным образом, в шкале Д/Р один респондент может быть более готов ответить «полностью правильно» на утверждение: «Я духовный человек» по сравнению с другим респондентом, даже если оба они имеют одинаковый уровень духовности. Проще говоря, люди могут отличаться в своей готовности использовать крайние варианты ответов, что может скрыть разницу в истинных уровнях измеряемого признака. Таблица 10.2 Установка на выбор крайних ответов Рес- пон- дент Уста- новка Истин- ный уровень тревож- ности Пункты теста Спилбергера (STAI) Сум- марный балл STAI Истин- ный уровень духов- ности Пункты Д/Р Сум- мар- ный балл Д/Р 1 2 3 4 1 2 3 4 1 Ярко выр. 14 4 4 4 4 16 и 4 4 4 4 16 2 Умерен. 14 3 3 3 3 12 12 2 2 2 2 8 3 Нет 12 3 4 3 2 12 4 1 1 1 1 4 4 Умерен. 6 2 2 2 2 8 9 2 2 3 3 10 5 Ярко выр. 6 1 1 1 1 4 8 1 1 1 1 4 6 Нет 7 1 3 2 1 7 15 3 5 4 3 15 Примечание: STAI — опросник тревожности как состояния и как личностной черты, Д/Р — шкала духовности /религиозности В качестве примера рассмотрим данные, приведенные в табл. 10.2. Представим, что исследователь изучает связь между духовностью и 285
тревожностью, и он выдвигает гипотезу о том. что корреляция оудет положительной - люди с высоким уровнем духовности будут иметь относительно высокий уровень тревожнос’ги. Для изучения данной взаимосвязи он просит респондентов заполнить четырехпунктовую версию теста Спилбергера и четырехпунктовую версию шкалы Д/Р (высокий итоговый балл является показателем высокого уровня духовности). Представим себе еще раз, что мы обладаем силой абсолютного «всезнания». В табл. 10.2 столбец «Истинный уровень тревожности» представляет собой настоящий уровень выраженности у респондентов тревожности как личностной черты. Как видим, например, респонденты 1 и 2 имеют идентичный характерный уровень тревожности (у обоих истинный балл равен 14), так же как и респонденты 4 и 5 (у обоих истинный балл равен 6). Вычисляя корреляцию между истинным уровнем тревожности и истинным уровнем духовности (см. табл. 10.2), обнаруживаем, что взаимосвязь фактически отсутствует (г= -0.04). Таким образом, тот факт, что мы обладаем силой «всезнания», позволяет понять, что на самом деле люди с высоким уровнем духовности не имеют большей или меньшей склонности к беспокойству, чем люди с низким уровнем духовности. Этот факт противоречит гипотезе, заключающейся в том, что высокий уровень духовности связан с высоким уровнем тревожности. Разумеется, исследователь не может знать истинный уровень тревожности респондента, имея доступ только к ответам респондента на утверждения теста. Рассмотрим фактические ответы респондентов на утверждения четырехпунктовой версии теста Спилбергера и сравним их с истинными показателями тревожности. Для данной версии теста Спилбергера исследователь использовал следующую систему кодирования ответов: 1 = почти никогда, 2 = иногда, 3 = часто, 4 = почти всегда. Примите во внимание, что респондент 1 ответил «почти всегда» на все утверждения, набрав в сумме 16 баллов. Заметьте, ' что респондент 2 ответил «часто» на все 4 вопроса с итоговым результатом 12 баллов. Таким образом, данные участники имеют различный результат по шкале тревожности, хотя имеют одинаковый истинный уровень тревожности. Данная разница является следствием того, что респондент 1 был готов использовать более «крайний» ответ, чем респондент 2. Как показывает данное различие, склонность к выбору более «крайних» ответов может вызвать искусственные различия в результатах теста. Примите во внимание и то, что данная тенденция является устойчивой, проявляясь в ответах респондента и на утверждения другой шкалы - Духовности/Религиозности. Кроме создания искусственных различий в результатах тестов, склонность к выбору крайних ответов может искажать истинные различия в уровнях выраженности признака у респондентов. Рассмотрим респондентов 2 и 3. Данные респонденты имеют различный уровень истинной тревожности, но результаты их тестов идентичны. Это произошло, так как респондент 2 с большой неохотой использует «крайние» ответы, и в итоге результат теста не так высок, как характерный для него истинный уровень тревожности. Таким 286
ооразом, результат его теста идентичен результатам теста респондента, истинный уровень тревожности у которого несколько ниже. Неточности, создаваемые индивидуальными различиями в установках респондентов на крайние ответы, имеют важные следствия для результатов психологических исследований. Будучи «всезнающими», подсчитаем корреляцию между истинным уровнем тревожности и истинным уровнем духовности (см. табл. 10.2), выяснив, что она практически равняется нулю. Подсчитаем теперь корреляцию между измеренным уровнем тревожности (тест Спилбергера, баллы по шкале личностной тревожности) и измеренным уровнем духовности (результат по тесту на Духовность/Религиозность). Исходя из данных табл. 10.2, эта корреляция составляет г = 0,36, что позволит исследователю заключить, что духовность положительно связана с тревожностью. Очевидно, корреляция, основанная на наблюдаемых баллах (на которые влияет проблема установки на крайние ответы) значительно отличается от корреляции, основанной на истинных баллах (о которых мы можем судить только благодаря тому, что гипотетически обладаем «всезнанием»). Следовательно, психологические заключения, основанные на статистическом анализе тестовых баллов, не являются правильными по сравнению с заключениями на основе реальных уровней выраженности признака. В данном случае проблема установки на крайние варианты ответов может способствовать неверным выводам в исследованиях. В текущем примере исследователь сделает некорректное заключение о том, что уровень духовности индивида взаимосвязан с уровнем тревожности. Обратите внимание, что использование «крайних» вариантов ответа само по себе не является систематической ошибкой оценки и не представляет проблемы, как и использование промежуточных вариантов ответа. В самом деле, пользователи тестов надеются, что выбор определенных вариантов ответа отражает истинный уровень выраженности признака, характерный для респондента - люди с более «крайними» уровнями выраженности признака (исключительно высокими или исключительно низкими) должны использовать более крайние варианты ответов, а люди с умеренной выраженностью признака должны использовать промежуточные варианты ответа. Проблема появляется, когда (а) люди с идентичными уровнями выраженности признака отличаются в своем пристрастии использовать промежуточные или крайние варианты ответов или (б) когда люди с разными уровнями выраженности признака не отличаются в своем пристрастии использовать промежуточные или крайние варианты. Психологи и другие ученые, занимающиеся поведением, изучали степень выраженности и источники данной проблемы - действительно ли, что некоторые люди гораздо более охотно используют крайние» варианты ответов по сравнению с другими, и если да, то по какой причине? Исследования показывают, что в самом деле беспокойство по поводу установки респондентов на крайние или промежуточные ответы небезосновательно. Было обнаружено, что тенденция использования определенных ответов довольно устойчива и во времени, и в многообразии используемых тестов (например, Bachman & O’Malley, 1984; Jain & Agarwal, 1977; Merrens, 1970), несмотря на то что при 287
попытке воспроизведения этого результата некоторые исследования потерпели неудачу. Одно из исследований, показывающих стабильность такого эффекта, было проведено Bachman и O’Malley (1984), выяснивших, что существуют «значительные и довольно стойкие индивидуальные различия в склонности использовать или избегать крайние варианты ответов», причем эта закономерность сохранялась в периоде времени до 4 лет (с. 506). В целом установка на крайние или промежуточные ответы • может ухудшить качество психологического тестирования. Одни респонденты готовы использовать крайние варианты ответов, другие склонны их избегать. Разница в стиле ответов может скрыть разницу в истинных уровнях выраженности признака у респондентов. Подобные эффекты могут, в свою очередь, уменьшить точность выводов в психологических исследованиях. Социальная желательность Проблема социальной желательности приобрела, пожалуй, наибольшее внимание среди психологов, занимающихся установками респондентов на определенные виды ответов. Установка на социальную желательность ответов — это склонность человека отвечать не так, как есть на самом деле, а так, как ему кажется социально одобряемым. В начале данной главы рассматривался пример с заполнением опросника при приеме на работу. Была отмечена вероятность возникновения склонности отвечать на вопросы с установкой на то, чтобы понравиться работодателю. Респондент может поддаться искушению отвечать в таком ключе, который усиливает желаемые качества, такие как честность, прямота, добросовестность и эмоциональная стабильность. Если ответы респондента обусловлены его желанием выглядеть социально привлекательным, они не отражают истинный уровень выраженности измеряемого признака. Это может уменьшить надежность и валидность тестирования. Установка на социальную желательность имеет по крайней мере три источника. Во-первых, содержание теста. Некоторые психологические конструкты имеют больший подтекст социальной привлекательности, чем другие, таким образом, тесты, направленные на измерение этих конструктов, могут быть более подвержены негативному влиянию социальной желательности, чем тесты, измеряющие что-то другое. Например, такие личностные качества, как психологическое здоровье (против переживания психологического дистресса) или честность (против склонности к обману) могут быть тесно связаны с социальной желательностью; здоровье и честность более предпочтительны, чем переживание дистресса и обман. С другой стороны, такие признаки, как экстра версия/интроверсия могут быть менее подвержены установке на социальную желательность (John & Robins, 1993). Во-вторых, установка на социально желаемые ответы находится под влиянием ситуации тестирования. Ответы в социально-желательном ключе могут скорее появиться в ситуации, когда респонденты могут быть идентифицированы, нежели когда можно отвечать анонимно. Когда известно, кто и как отвечает на вопросы, респонденты будут больше стараться выглядеть социально привлекательными. Кроме того, ответ с целью выглядеть более привлекательно в социальном плане 288
скорее будет дан в ситуации, когда от исхода тестирования зависят важные для респондента последствия. Пример с ситуацией при приеме на работу представляет собой случай, когда отве*гы на утверждения теста могут иметь важные последствия - вероятность того, что соискателей наймут, частично зависит от итогов психологического тестирования. Ответы в социально желательном ключе становятся' менее вероятными, когда от результатов тестирования мало что зависит (хотя и в этом случае они остаются потенциальной проблемой, как будет показано ниже). Третья возможная причина возникновения социально желательных ответов - личностные характеристики респондентов. Начиная с 1950-х годов в исследованиях было показано, что в своей склонности давать те ответы, которых от них ожидают, люди отличаются друг от друга. Проблема снова заявляет о себе, так как различия в склонности респондентов давать социально привлекательные ответы могут скрывать различия в истинных уровнях выраженности измеряемого признака. Чтобы понять сущность установки на социальную желательность и ее влияние на результаты исследований, представьте, что исследователь изучает взаимосвязь между эмоциональностью и глубиной взаимоотношений с людьми. Он выдвигает гипотезу о том, что люди, склонные сильно переживать позитивные эмоции (или те, кто склонен не слишком сильно переживать негативные эмоции), устанавливают более глубокие отношения с окружающими. Говоря технически, он ожидает обнаружить положительную корреляцию между положительной эмоциональностью и глубиной взаимоотношений, а также отрицательную корреляцию между негативной эмоциональностью и глубиной взаимоотношений. Для проверки этой гипотезы он просит участников исследования заполнить тест PANAS (Positive and Negative Affect Schedule - Тест позитивных и негативных эмоций; Watson, Clark, & Tellegen, 1988). PANAS - довольно распространенный тест эффективности, он может использоваться для измерения характерной для респондентов (на уровне личностной черты) склонности переживать положительные и отрицательные эмоции. PANAS включает две шкалы - Положительные эмоции (ПЭ) и Отрицательные эмоции (ОЭ), каждая из которых включает в себя 10 слов, обозначающих эмоции (например, сильный, гордый, возбужденный, раздражительный, виноватый, страдающий). Несмотря на то что PANAS используется исследователями весьма разнообразными способами, представим, что наш исследователь попросил участников прочитать каждый пункт и оценить степень (по пятибалльной шкале), с которой они обычно переживают ту или иную эмоцию. Баллы по шкалам ПЭ и ОЭ подсчитываются как среднее арифметическое 10 ответов на пункты шкалы, так что итоговый результат для каждой шкалы варьируется от 1 до 5, причем более высокий балл отражает большую предрасположенность респондента испытывать положительные либо отрицательные эмоции. Наконец, исследователь просит респондентов оценить общую глубину их взаимоотношений с окружающими по шкале от 1 до 100, где более высокий балл означает большую глубину взаимоотношений (ГВ). 289
Заметьте, что данные 3 конструкта — положительные эмоции, отрицательные эмоции и глубина взаимоотношений - потенциально подвержены влиянию склонности респондента выглядеть социально более выигрышно. По крайней мере, в западных культурах ярко выраженные переживания положительных эмоций культурно более предпочтительны, чем слабые переживания положительных эмоций, а в негативных переживаниях слабая интенсивность предпочтительнее, чем сильная. То есть люди, демонстрирующие силу, гордость и энтузиазм в целом выглядят социально привлекательно и вызывают восхищение, в то время как люди нервозные, чувствующие себя виноватыми, подверженные стрессу, как правило, выглядят социально отталкивающим^ и не вызывают восхищения. Наконец, большинство культур воспримут глубокие отношения с окружающими как ценные и желаемые. Соответственно, индивид, желающий выглядеть социально привлекательным, насколько можно ожидать, заявит высокую интенсивность переживания положительных эмоций, низкую интенсивность переживания отрицательных эмоций, а также оценит свои взаимоотношения с окружающими как глубокие. Давайте снова представим, что мы всезнающи и обладаем информацией относительно истинного положения дел: знаем истинный уровень ПЭ, ОЭ и ГВ респондентов. Так, в табл. 10.3 указано, что респондент 1 имеет наивысший истинный балл по шкале ПЭ (4,5) на втором месте оказывается респондент 2 (его истинный балл составляет 4). Заметьте также, что респондент 4 имеет наивысший истинный балл по шкале ГВ. Высчитывая корреляцию между истинными уровнями ПЭ и ГВ, находим умеренное подтверждение гипотезы исследователя - слабую положительную взаимосвязь (г = 0,23). Аналогично, взаимосвязь между истинными значениями ОЭ и ГВ является умеренным подтверждением гипотезы - слабая отрицательная корреляция (г = - 0,21). Таким образом, наше «всезнание» позволяет увидеть умеренную по силе тенденцию: люди, склонные к переживаниям положительных эмоций (с одной стороны), а также люди, редко испытывающие отрицательные эмоции (с другой стороны), устанавливают более глубокие взаимоотношения с окружающими. Давайте также представим, что нам известно про каждого из респондентов, насколько ярко у него выражена установка на социально желательный ответ. Как показано в колонке «Установка на социальную желательность» табл. 10.3, респондент 2 имеет ярко выраженную установку на социальную желательность, у респондентов 3 и 5 эта установка также выражена в некоторой степени, однако остальные респонденты не имеют мотивации выглядеть более привлекательно, чем на самом деле. Заметим, как желание выглядеть социально привлекательно влияет на качество измерения трех признаков. У тех респондентов, кто склонен выглядеть социально предпочтительно, тестовые баллы ближе к «желаемому» уровню, чем истинные баллы (уровни выраженности признака). Например, обратите внимание на респондента 2, у которого установка на социальную желательность выражена ярко. Тестовый балл по шкале ПЭ (5) у него выше, чем истинный уровень ПЭ (4), что отражает желание завысить интенсивность переживания 290
положительных эмоций. Сильная установка на социальную желательность у данного респондента повлияла на то, как он оценивал некоторые из пунктов шкалы ПЭ, что в итоге привело к завышенной тестовому баллу по этой шкале. Аналогично, результат в шкале НЭ (1) ниже, чем реальный уровень НЭ (2), что указывает на желание этого респондента искусственно занизить интенсивность переживания отрицательных эмоций. Таким образом, у респондентов с установкой на социально привлекательные ответы тестовые баллы по социально желаемым показателям, таким как ПЭ и ГВ, искусственно завышены, а тестовые баллы по «нежелательным» показателям (как, например, ОЭ) искусственно занижены. С другой стороны, для респондентов, не стремящихся выглядеть привлекательно в глазах окружающих, тестовый балл совпадает с истинным уровнем выраженности признака, независимо от того, насколько этот признак социально желателен. Таблица 10.3 Пример зависимости результатов исследования от наличия установки на социально желательные ответы Респондент Истинный балл (уровень выраженности признака) Установка на социальную желательность Тестовый балл (данные по результатам теста) ПЭ ОЭ ГВ ПЭ ОЭ ГВ 1 4,5 5 60 Нет 4,5 5 60 2 4 2 55 Высокая 5 1 95 3 3 1.5 65 Низкая 3,375 1,125 80 4 2,25 3 85 Нет 2.25 3 85 5 1.5 4 45 Средняя 2 3,5 65 6 1,75 3,25 40 Нет 1.75 3,25 40 Корреляция с ГВ 0,23 -0,21 0,51 -0,65 Примечание: ПЭ = шкала положительных эмоций; ОЭ = шкала отрицательных эмоций: ГВ — глубина взаимоотношений. Важное следствие желания выглядеть привлекательно в глазах окружающих заключается в его негативном влиянии на результаты исследований. Конкретнее, индивидуальные различия в установке на социально желательные ответы могут создавать ложные или искусственно сильные корреляции между результатами тестов, при заполнении которых у респондентов проявилась эта установка. Данные в табл. 10.3 демонстрируют этот эффект. Как обсуждалось ранее, в этих данных существуют как минимум 291
две проблемы. Во-первых, респонденты различаются по силе выраженности установки на социальную желательность - у некоторых установка по выраженности средняя или сильная, у других слабая или полностью отсутствует. Во-вторых, три переменные связаны с социальной желательностью таким образом, что качество их измерения потенциально может быть испорчено установкой на социальную желательность (действительно, как уже было показано, тестовые баллы в табл. 10.3 искажены установкой). Следствием данных проблем является тот факт, что респонденты с мотивацией выглядеть социально предпочтительно имеют более высокие баллы по ПЭ и ГВ (и более низкие баллы по НЭ), чем респонденты, у которых эта мотивация отсутствует. Следовательно, желание выглядеть привлекательно завышает степень, с которой люди, склонные к высокому баллу по результатам одного теста, склонны набирать высокий балл по результатам другого. Это, в свою очередь, влияет на корреляции между измеренными переменными. Эффект установки на социальную желательность очевиден в искусственно завышенных корреляциях между рассматриваемыми тремя признаками. Заметьте, что корреляции между истинными баллами гораздо слабее, чем корреляции между тестовыми баллами. Ранее допущение о «всезнании» позволило нам установить, что «истинная» корреляция между ПЭ и ГВ равнялась всего 0,23, а «истинная» корреляция между НЭ и ГВ составила всего лишь 0,21. Как демонстрирует табл. 10.3, корреляция между тестовыми баллами сильнее - корреляция между ПЭ и ГВ равна 0,51, корреляция между ОЭ и ГВ составляет 0,61. Таким образом, тенденция выглядеть социально привлекательно может искусственно завысить корреляцию между измерениями. В нашем примере исследователь может интерпретировать искусственно завышенную корреляцию между тестовыми баллами (г = 0,51 и г = - 0,65) как доказательство очень сильной взаимосвязи между эмоциональностью и глубиной взаимоотношений. И снова допущение о всезнании позволяет увидеть, что подобная интерпретация неверна - взаимосвязь данных двух конструктов гораздо слабее, чем показывает исследование. Исследователь сильно переоценивает силу взаимосвязи, т. к. на исследование необоснованно повлияла установка на социальную желательность. Подобные искаженные оценки могут, в свою очередь, привести к некорректным теоретическим обобщениям, а затем являться причиной неверных решений в практике. Как отмечалось ранее в данном разделе, склонность давать социально желательные ответы в психологии широко изучалась. Одним из активистов данного направления является Д.Л. Паулюс, психолог, интересовавшийся склонностью давать социально желаемые ответы как характеристикой личности. Одним из важнейших результатов его работы стало открытие того, что формы установки на социальную желательность могут варьироваться. Д.Л. Паулюс выделяет два процесса, посредством которых реализуется установка на социальную желательность. Один из этих процессов — сознательное управление впечатлением, когда тестируемый сознательно пытается показаться социально привлекательными. Например, соискатель работы может почувствовать мотивацию искусственно завысить желательные характеристики и искусственно 292
занизить нежелательные характеристики, заполняя тест по отбору персонала. В клинической практике управление впечатлением иногда называется «симуляцией здоровья» (faking good), т. к; к ней относится замалчивание сведений о клинических симптомах. Другими словами, респондент может попытаться выглядеть более здоровым, ложно отрицая в себе различные патологические симптомы. Второй процесс - бессознательный самообман, когда тестируемый придерживается необоснованно положительного мнения о себе, будучи твердо уверенным в тех психологических характеристиках, по которым себя переоценивает. Д.Л. Паулюс доказывает, что управление впечатлением и самообман различаются так же, как состояние и черта (Palhus, 2002). Он предполагает, что управление впечатлением больше напоминает состояние, проявляясь в ответах респондента на непосредственные требования ситуации. Другими словами, установка на сознательную социальную желательность обычно является реакцией на определенный контекст или ситуацию тестирования, такую, как заполнение формы при приеме на работу. В противоположность этому, Д.Л. Паулюс считает, что склонность к самообману является чертой личности. Таким образом, некоторые люди более предрасположены к самообману, чем другие, и эта разница может повлиять на их ответы, вне зависимости от ситуации или контекста тестирования. Несмотря на долголетний интерес к социальной желательности и ее возможным последствиям для психологических исследований, некоторые исследователи утверждают, что беспокойство в этом плане несколько преувеличено. Один из наиболее убедительных аргументов в пользу этого - эмпирические данные, предполагающие, что «в большинстве сфер практического применения попытки делать поправки тестовых баллов на психологическую защиту или социальную желательность не увеличивают валидность» (McCrae & Costa, 1983). Подобные выводы частично основаны на данных о том, что тесты социальной желательности не коррелируют с такими важными критериями, как, например, профессиональная успешность (Viswesvaran, Ones & Hough, 2001), и что статистический контроль над индивидуальными различиями в социальной желательности не улучшает критериальную валидность опросников личностных черт (McCrae & Costa, 1983; Ones, Viswesvaran, & Reiss, 1996). Несмотря на полученные данные, многие психологи до сих пор озабочены возможным влиянием фактора социальной желательности на психологические тесты и их практическое применение. Симуляция неблагополучия* Несмотря на то что многих психологов волнует проблема искусственного преувеличения респондентами социально желательных качеств, другие психологи озабочены иной проблемой. А именно: в некоторых чрезвычайно Англоязычный термин malingering в специализированных словарях зачастую переводится просто как «симуляция». {Прим. перев.). 293
важных ситуациях тестирования респонденты могут попытаться преувеличить свои психологические проблемы. В частности, в некоторых ситуациях прикладного применения тестов респонденты могут иметь сильное желание показаться более когнитивно ослабленными, эмоционально подавленными, физически уставшими или психологически взволнованными, чем на самом деле. Этот феномен называется симуляцией неблагополучия (стремление показаться хуже, чем на самом деле), или «симуляцией болезни», и он признается диагностическим справочником DSM-1V Американской Психиатрической Ассоциации (1994) как серьезная проблема в психологической оценке и диагнозах. Задумайтесь на мгновение, почему индивиды могут ’стараться преувеличить наличие или тяжесть психологических проблем. Примите во внимание некоторые из ситуаций тестирования, в которых симуляция неблагополучия проявляется с большей вероятностью - судебно- психологическая экспертиза, оценка нетрудоспособности, требование денежных компенсаций от работников, экспертиза психологического вреда или ущерба (Berry, Baer, Rinaldo, & Wetter, 2002; Mittenberg, Patton, Canyock, & Condit, 2002). В данных ситуациях тестируемые потенциально выигрывают от нахождения у них психологического или нейропсихологического нарушения. Преступники могут получить относительно легкую меру наказания, если их признают невменяемыми, работники могут получить денежные компенсации, если будет вынесено решение, что им на работе был нанесен вред, а жертвы несчастных случаев получат денежные компенсации, если будет решено, что у них появились нейропсихологические проблемы в связи с несчастным случаем. В целом симуляция неблагополучия - серьезное дело в тех ситуациях тестирования, где у респондента могут быть мотивы выглядеть неполноценным. Очевидно, что симуляция неблагополучия может отрицательно влиять на качество психологической оценки. Например, на такие когнитивные особенности, как внимание и память, может повлиять повреждение мозга. Следовательно, человек, пострадавший в автомобильной аварии, может в результате получить более высокую компенсацию по страховке, если сможет убедить суд, что получил мозговую травму, которая ухудшает когнитивные способности. В самом деле, многие нейропсихологические исследования включают в себя тесты на внимание и память, и человек может специально выполнить или попытаться выполнить их плохо, чтобы получить диагноз когнитивного нарушения. Симуляция неблагополучия может иметь конкретные последствия для точности и справедливости постановки диагноза, судебного заключения и решений, основанных на результатах исследования, которые были целенаправленно искажены. Симуляция неблагополучия - не просто теоретическая, потенциальная угроза прикладному тестированию. По оценке исследователей (например, Berry и др, 2002; Mittenberg и др., 2002), она встречается в 7,3% - 27% случаев в общих психологических исследованиях и в 31% - 45% случаев в судебных разбирательствах (судебно-психологическая экспертиза, слушания по поводу нетрудоспособности и т. д.). На самом деле, как будет видно ниже, существуют 294
свидетельства того, что адвокаты специально информируют клиентов по поводу методик, используемых для обнаружения симуляции болезни или неблагополучия (Wetter & Corrigan, 1995; Youngjohn, 1995). Таким образом, симуляция болезни или психологических проблем представляет собой реальную угрозу объективной психологической оценке, и эксперты заключают, что неспособность понять влияние этого фактора «потенциально ведет к высоким затратам страховщиков, учреждений социальной защиты и общества в целом» (Berry и др., 2002, с. 275). Бездумные или случайные ответы Иногда респонденты выбирают ответы по случайному или псевдослучайному принципу. Либо из-за беспечности, либо из-за отсутствия мотивации отвечать обдуманно они могут выбирать ответы наугад или почти наугад, и в этом случае их ответ никак не соотносится с содержанием пункта теста. Например, индивид, заполняющий тест, в котором на представленные пункты можно давать ответы по пятибалльной шкале (1 = полностью не согласен, 5 = полностью согласен), может просто выбирать предложенные варианты ответов «циклично», отвечая «полностью не согласен» (1) на пункт 1, «не согласен» (2) на пункт 2, «воздержусь» (3) на пункт 3, «согласен» (4) на пункт 4, «полностью согласен» (5) на пункт 5, возвращаясь к варианту «полностью не согласен» на пункт 6, чтобы начать круг заново. Очевидно, это приводит к получению таких тестовых баллов, которые не имеют смысла по отношению к измеряемому конструкту. Угадывание Некоторые психологические тесты устроены таким образом, что одни ответы в них являются правильными, а другие - ошибочными. Например, такие тесты достижений, как тест академических способностей SAT и экзамен на получение последипломного образования (GRE1) включают в себя пункты, оценивающие вербальные или математические способности респондентов. Каждый пункт в таких тестах имеет единственный правильный ответ, и экзаменующиеся набирают высокий итоговый балл, отвечая правильно на большинство заданий. Подобные тесты обычно используются в ситуациях, когда от результатов теста отчасти зависят какие-то важные последствия (например, поступление в колледж). При проведении тестирования в таких важных ситуациях респонденты могут стараться угадать правильный ответ. Особенно это актуально для тестов с ограниченным количеством возможных вариантов ответа. Угадывание встречается настолько часто, что некоторые тесты достижений обрабатываются особым образом, с поправкой на угадывание (как именно, мы обсудим это ниже в данной главе). GRE (Graduate Record Examination) - экзамен на получение последипломного образования, который во многих университетах и колледжах США требуется для поступления в магистратуру. (Прим, перев.). 295
В тех случаях, когда респондент действительно не знает, какой из вариантов ответа правильный, угадывание может ухудшить качество и содержательность итогового результата*. Правильная догадка повышает итоговый результат респондента, искусственно завышая его по сравнению с реальным уровнем знаний. Таким образом, выводы, основанные на результатах теста, могут быть искажены влиянием угадывания. Подобным образом, различные успехи в угадывании могут быть источником случайной ошибки измерения. Если некоторые респонденты более «удачливы», чем другие (то есть некоторые респонденты случайно чаще угадывают правильный ответ, чем другие), или если некоторые респонденты пытаются угадывать, а некоторые не пытаются, тогда фактор угадывания создает такие тестовые баллы, которые не соотносятся с истинными различиями между респондентами. Методы борьбы с установками на ответ Как было показано выше, несколько типов установок на ответ могут ухудшить валидность и надежность психологических измерений. Это, в свою очередь, имеет серьезные последствия для научных исследований, а также для практики применения тестов. Как видно, различные установки на ответ могут привести к неверным выводам насчет индивидов, принимающих участие в прикладных ситуациях тестирования. Кроме того, такие установки могут исказить взаимосвязи между психологическими конструктами, что приводит к неверным исследовательским выводам в научном контексте. Будучи осведомленными насчет данных угроз качеству психометрики и прикладному тестированию, психологи используют множество стратегий борьбы с ними. Обсудим некоторые из данных стратегий в зависимости от тех целей, которые они преследуют. Данные стратегии и цели их применения обобщены на рис. 10.1. Как видно из рисунка, существует как минимум три главных типа стратегий: контроль ситуации тестирования, контроль содержания теста и/или процесса вычисления тестовых баллов, а также использование специально созданных тестов на выявление «недобросовестности» ответов респондента. К тому же существуют как минимум три основных цели, которые преследуются данными стратегиями. Некоторые из стратегий направлены на предотвращение самого существования установки, некоторые предназначены для нивелирования эффектов, создаваемых ими. а некоторые призваны обнаруживать «недобросовестные» ответы, позволяя пользователям теста сделать соответствующие поправки (см. ниже). Контроль за ситуацией тестирования с целью предотвращения установок на ответ Пожалуй, лучший способ решения проблемы установок на ответ - предотвратить их появление. Хотя пользователь теста никогда не может быть абсолютно уверенным в том, что ему удалось предотвратить их возникновение. 296
существуют стратегии, которые позволяют уменьшить вероятность различных типов установок. Некоторые стратегии основаны на том, как тестируемый воспринимает ситуацию тестирования. Другими словами, вероятность появления установок на ответ может быть снижена путем контроля за способом предоставления теста, а также за требованиями, которые предъявляются респондентам во время тестирования. Цели Предотвратить или снизить вероятность появления установок на ответ Минимизировать последствия от установок на ответ Обнаружить «недобросовестные» ответы Стратегии Контроль ситуации тестирования Анонимность Минимизация фрустрации Предупреждения Контроль содержания теста и/или процесса вычисления тестовых баллов Простые, понятные пункты Нейтральные пункты Принудительный выбор Минимальный выбор Сбалансированные шкалы Поправка на угадывание Встроенные шкалы валидности Испол ьзова ние специализирован пых тестов Тесты социальной желательности Тесты установки на крайние ответы Тесты установки на согласие Рисунок 10.1. Примеры методов борьбы с установками на ответ Например, Д.Л. Паулюс предполагает, что установка на социальную желательность может быть минимизирована путем устранения ситуационных факторов, провоцирующих желание респондентов отвечать в социально выгодном свете (Paulhus, 1991). Во многих ситуациях тестирования респондентов можно уверить в том, что их ответы будут анонимными. Зная, что анонимность не будет нарушена, респонденты с большей долей вероятности захотят дать честные ответы. Данное предположение основано на мысли о том, что анонимность позволяет респонденту комфортно чувствовать себя при откровенном описании собственных социально неодобряемых отношений к чему-либо, мыслей, действий, чувств или черт. Несмотря на то что анонимность может повысить откровенность ответов, у нее есть и недостаток. Например, Д.Л. Паулюс предполагает, что установка на социальную желательность может быть минимизирована путем устранения ситуационных факторов, провоцирующих желание респондентов отвечать в социально выгодном свете (Paulhus, 1991). Во многих ситуациях тестирования респондентов можно уверить в том, что их ответы будут анонимными. Зная, что анонимность не будет нарушена, 297
респонденты с большей долей вероятности захотят дать честные ответы. Данное предположение основано на мысли о том, что анонимность позволяет респонденту комфортно чувствовать себя при откровенном описании собственных социально неодобряемых отношений к чему-либо, мыслей, действий, чувств или черт. Несмотря на то что анонимность может повысить откровенность ответов, у нее есть и недостаток. Дело в том, что анонимность может также увеличить вероятность ответов, выбранных в случайном порядке. Многие респонденты в исследованиях поведения, особенно в психологических исследованиях, являются студентами, посещающими вводный курс психологии. Хотя студентов не заставляют участвовать в тестировании, некоторые из них могут почувствовать принуждение к участию. Анонимность исследования может взаимодействовать с любым чувством принуждения, что станет причиной низкой мотивации быть честным и добросовестным в заполнении теста. Таким образом, некоторые респонденты могут воспользоваться фактом анонимности, отвечая бездумно, быстро и, возможно, наугад. Как будет показано в одном из следующих разделов, существует возможность вычислить такого рода ответы и исключить их из дальнейшего анализа. Другой метод по управлению ситуацией тестирования - создание такой ситуации, которая уменьшает усталость, сгресс, факторы, отвлекающие внимание, или фрустрацию респондента. Такие когнитивно-эмоциональные состояния могут увеличить вероятность появления установок на ответ (Paulhus, 1991). Снижая концентрацию внимания или увеличивая вероятность снижения мотивации респондента, подобные состояния могут вызывать ответы в случайном порядке, ответы в социально привлекательном ключе и другие проблемы. Как при научно-исследовательском, так и при прикладном тестировании предпочтительно ограничивать время проведения теста, чтобы не утомить респондентов (по нашему опыту, тестирование с применением объективного теста не должно продолжаться дольше часа). Кроме того, желательно проводить тестирование в тихой обстановке с минимумом отвлекающих факторов. Заключительный пример управления ситуацией тестирования - это сказать респондентам, что достоверность их ответов может быть определена. Некоторые исследования показывают, что респонденты, которым сказали, что «недобросовестные» ответы будут выявлены, чаще признают за собой социально нежелательные отношения, действия или черты, которые иначе могли бы остаться в тайне (Paulhus, 1991). Данная стратегия представляет интерес в качестве решения проблемы симуляции болезни или неблагополучия. Некоторые исследования (например. Butcher, Morfitt, Rouse, & Holden, 1997; Fink & Butcher, 1972) показывают, что количество правдивых ответов в Миннесотском многофакторном опроснике личности MMPI увеличивается, когда респондентов информируют о том, что случайные ответы или нечестность могут быть выявлены (хотя некоторые исследования демонстрируют отсутствие эффекта такого рода предупреждений; например, Butcher, Atlis, & Fang, 2000). Фактически, валидность может быть увеличена, если респонденты просто верят, что нечестные ответы будут обнаружены. Исследования показывают, что 298
даже если пользователи тестов фактически не могут определить нечестные ответы, простая вероятность их обнаружения может убедить некоторых респондентов быть более честными и непредвзятыми. Контроль содержания теста с целью предотвращения установок на ответ Пользователи и создатели тестов, пытаясь справиться с проблемой установок респондентов на те или иные ответы, часто используют особого рода содержание тестов, сводящее к минимуму вероятность появления установок. Создатели тестов могут аннулировать или уменьшить некоторые установки через включение в тест определенных типов пунктов или определенных форматов ответа. Как отмечалось ранее, фрустрация респондента может привести к тому, что он будет отвечать неискренне. В связи с этим разработчики тестов могут формулировать пункты в максимально простой и понятной форме. Если тест легок для выполнения, тогда меньше вероятность, что респонденты ощутят фрустрацию или будут отвлекаться. Избегание фрустрации и отвлекающих факторов, в свою очередь, уменьшает вероятность проявлений небрежности, низкой мотивации и, в конечном итоге, необъективных ответов. Другая стратегия заключается в том, чтобы формулировать пункты теста в нейтральном с точки зрения социальной желательности ключе. Например, шкала «дружелюбности» может иметь сильный крен в сторону социальной предпочтительности - многие люди могут воспринять эту характеристику как предпочтительную, и у них может появиться соблазн (целенаправленно или подсознательно) преувеличить степень своей дружелюбности. Тем не менее, пункт может быть сформулирован таким образом, чтобы сгладить остроту социальной желательности. Например, для определения противоположного полюса - не дружелюбности — может быть использован пункт «Я угрюмый и враждебно настроенный человек». Маловероятно, что с данным утверждением согласится большое число респондентов, поскольку это социально нежелательно. Альтернативой может стать такая формулировка: «Иногда я менее дружелюбен, чем другие люди». Хотя она и не идеальна, она выражает наличие недружелюбия таким образом, что респонденты с большей вероятностью будут отвечать «да». Для снижения вероятности возникновения нежелательных установок у респондентов могут использоваться также определенные формы ответа. Разработчики тестов используют пункты «принудительного выбора» для уменьшения проявлений социальной предпочтительности. Пункты принудительного выбора — это пункты, которые представляют собой две характеристики и требуют от респондента согласиться только с одной из них. Например, пункт в тесте личностных качеств может предлагать такие качества, как «дружелюбный» и «настойчивый», и от респондентов будет требоваться отметить ту характеристику, которая в большей степени относится к ним. Заметьте, что в этом примере оба качества приблизительно равны по социальной желательности. Подобным образом, пункт может включать в себя 299
характеристики одинаково отрицательные (например, «робкий» и «склонный к спорам»), когда снова требуется выбрать тот вариант, что более точен. Так как каждая пара на выбор является одинаковой с точки зрения предпочтительности, формат насильственного выбора не позволяет респондентам исходить из соображений социальной желательности. Разработчики также могут создать тест такого формата, который снимает установку на крайние ответы. Например, они могут предоставить респонденту выбор только из двух вариантов. Например, в личностном опроснике такую характеристику, как «дружелюбность», можно сопроводить лишь двумя вариантами ответа «да» и «нет». В известном смысле подобный формат предотвращает установку на крайние ответы, просто убирая любые «крайние» варианты. Обратная сторона этой стратегии в том. что она огрубляет потенциально важные индивидуальные различия респондентов. Контроль содержания теста и процесса вычисления тестовых баллов для минимизации последствий от установок на ответ Несмотря на все попытки предупредить или уменьшить наличие установок на ответ, всегда остается подозрение, что они все же проявляются в некоторой степени. В связи с этим содержание теста может быть смоделировано таким образом, чтобы уменьшить действие некоторых установок, проявляющееся в неточности тестовых баллов. Или же пользователи тестов могут брать на вооружение специальные процедуры подсчета результатов, уменьшающие эффекты тех или иных установок. Пожалуй, лучшим примером управления содержанием теста для уменьшения эффекта установки является использование сбалансированных шкал для борьбы с установкой на согласие. Как описывалось ранее, установка на согласие имеет место тогда, когда человек соглашается с утверждением независимо от содержания данного утверждения. Как было показано ранее, эта установка становится особенно проблематичной, когда все пункты теста сформулированы однонаправлено. Кроме того, мы показали, что установка на согласие может загубить анализ результатов обследования - респонденты с установкой на согласие не отличимы от респондентов с высоким истинным уровнем выраженности признака (допуская, что все пункты теста направлены в положительную сторону), что может создать искусственно высокую корреляцию между тестами. Общепринятым решением этой проблемы является создание такого теста, в котором влияние установки на ответ будет минимальным в отношении подсчета итогового тестового балла. Речь идет об использовании «сбалансированных» шкал. Сбалансированная шкала - это шкала, некоторые пункты которой сформулированы в положительном ключе, а некоторые - в отрицательном. В вышеупомянутом примере (см. табл. 10.1а) исследователь просит шесть работников ответить на следующие четыре пункта по «удовлетворенности работой» (каждый ответ по семибалльной шкале, где 1 = полностью не согласен, а 7 = полностью согласен): 300
1. Я действительно доволен своей работой 2. Моя работа соответствует моим интересам и склонностям 3. В целом я удовлетворен повседневными аспектами своей работы 4. У себя на работе я бы поменял лишь незначительные моменты Мы отмечали, что все четыре пункта сформулированы в положительном ключе («прямые пункты»), т. к. позитивный ответ (некоторый уровень согласия) означает более высокий уровень удовлетворенности работой. Для уменьшения потенциального влияния установки на согласие исследователь может использовать следующий видоизмененный набор пунктов: 1. Я действительно доволен своей работой 2. Моя работа не соответствует моим интересам и склонностям 3. В целом я удовлетворен повседневными аспектами своей работы 4. Я бы многое хотел поменять в своей работе Обратите внимание, что измененная шкала включает в себя два пункта, сформулированные в отрицательном ключе («пункты, подсчитываемые обратно»). Пункты 2 и 4 изменены так, что отрицательный ответ (определенная степень несогласия с утверждением) является индикатором более высокого уровня удовлетворенности работой. Эта пересмотренная шкала сбалансирована, т. к. включает в себя два прямых пункта (т.е., когда согласие с утверждением означает высокую степень удовлетворенности) и два обратных пункта (т. е. когда несогласие с утверждением означает высокую степень удовлетворенности). табл. 10.1b показывает ответы работников на утверждения сбалансированной шкалы. Ключевое отличие между этими ответами и первоначальными (табл. 10.1а) таково, что правдивые респонденты соответствуют формату сбалансированных шкал, а респонденты с установкой на согласие - нет. Например, заметьте, что респондент 2 - правдивый респондент с высоким уровнем удовлетворенности работой. Он соглашается с прямыми пунктами (т. е. пунктами 1 и 3) и не соглашается с обратными (2 и 4), как и ожидается от кого-то с высоким уровнем удовлетворенности, кто внимателен к содержанию утверждений теста. В противоположность этому респондент 1 (демонстрирующий установку на согласие) соглашается со всеми четырьмя утверждениями, игнорируя тот факт, что согласие в одних случаях показывает высокий уровень удовлетворенности, а в других - низкий. Это является показателем того, что человек просто соглашается с утверждениями, невзирая на их содержание. 301
Сбалансированная шкала должна быть правильно закодирована и обработана. Ключ к ответам должен согласовываться с тем фактом, что данная шкала имеет и прямые, и обратные пункты. Обычно пользователи тестов предпочитают, чтобы «итоговый» высокий балл в тесте означал высокий уровень измеряемого признака. Например, чтобы высокий балл в тесте на удовлетворенность работой являлся показателем высокого уровня удовлетворенности работой. Чтобы достигнуть это, пользователь теста должен «обратить» пункты, сформулированные в отрицательном ключе. Для этого пользователь теста кодирует ответы респондента так, чтобы относительно высокий балл означал высокий уровень выраженности измеряемого признака. Например, тест на удовлетворенность работой имеет семизначную шкалу. Исследователь перекодирует вариант ответа «7» (полностью согласен) в «1» (полностью не согласен), ответ «6» (согласен) в «2» (не согласен), и ответ «5» (скорее согласен) в «3» (скорее не согласен). Сходным образом, психодиагност кодирует ответы так, чтобы относительно небольшие баллы выражали низкий уровень выраженности измеряемого признака. Поэтому психодиагност кодирует ответ «1» (полностью не согласен) как «7» (полностью согласен), ответ «2» как «6», а ответ «3» как «5». Этот процесс перекодировки (обращения) заново градуирует ответы таким образом, чтобы относительно высокие баллы (т. е. 7. 6 или 5) означали высокий уровень выраженности признака, а относительно низкие баллы (т. е. 1, 2 или 3) означали бы низкий уровень выраженности признака. В табл. 10.1с приведены перекодированные ответы респондентов на сбалансированную шкалу. Рассмотрим, как именно в сбалансированной шкале уменьшается влияние установки респондентов на согласие. Один из плюсов сбалансированной шкалы заключается в том, что она дифференцирует респондентов с установкой на согласие и тех, кто отвечает правдиво, имея при этом высокий уровень выраженности измеряемого признака (попутно заметим: сбалансированная шкала также дифференцирует респондентов с установкой на несогласие и тех, у кого действительно низкий уровень выраженности признака). Рассмотрите респондентов с установкой на согласие, представленных в табл. 10.1с, и обратите внимание, что полученные ими баллы по сбалансированной шкале отличаются от баллов по исходной шкале (табл. 10.1а). Заметьте, что у респондента 1 итоговый балл в сбалансированной шкале на удовлетворенность работой составляет всего 18, тогда как в первоначальном варианте шкалы он составлял 24. Аналогично, тестовый балл респондента 4 в сбалансированной шкале равен 15, тогда как в первоначальном варианте шкалы - 26. Таким образом, использование сбалансированных шкал гарантирует, что респонденты с установкой на согласие будут получать баллы, близкие к средним (т. е. не являющиеся чрезвычайно низкими или высокими). Рассмотрим теперь данные респондентов, отвечавших добросовестно (табл. 10.1с). Например, тестовый балл респондента 2 остается высоким - таким же, как и в первоначальном варианте шкалы (т.е. 25). Добросовестные респонденты, у которых был высокий балл в первоначальном варианте шкалы, имеют такой же высокий балл и по сбалансированной шкале; добросовестные респонденты с низким баллом в 302
первоначальном варианте шкалы имеют такой же низкий балл и в сбалансированной шкале. Так психодиагносты могут быть уверены в том, что крайние баллы (т. е. особенно высокие или особенно низкие) по тесту будут получать только те респонденты, которые отвечают добросовестно. Следовательно, вероятность того, что респонденту с установкой на согласие будет ошибочно приписан высокий уровень выраженности признака, невелика. Несмотря на то что сбалансированные шкалы позволяют пользователям теста избежать смешения респондентов с' установкой на согласие и «добросовестных» респондентов с высокими истинными баллами по шкале, как вы можете догадаться, эти шкалы просто создают новую проблему. Вы, вероятно, заметили в табл. 10.1с, что теперь невозможно дифференцировать респондентов с установкой на ответ и «добросовестных» респондентов со средними уровнями выраженности измеряемого признака. В известном смысле одна проблема просто была заменена на другую. Тем не менее, таким образом удалось избежать очень серьезную проблему, создав проблему менее серьезную для целей исследования. Использование сбалансированных шкал имеет очень важные следствия для достижения точности исследовательских результатов. Одно из таких следствий проявляется в корреляции между удовлетворенностью работой и самооценкой ее престижности - то, на измерение чего и было изначально ориентировано описанное исследование. Вернитесь к первоначальной шкале, в которой все пункты были положительно сформулированы (см. табл. 10.1а), и заметьте, что данная корреляция для всех шести респондентов составила г = 0,43. Полагаясь на первоначальный вариант шкалы, исследователь сделает заключение, что существует умеренная или сильная взаимосвязь между удовлетворенностью работой и самооценкой престижности. Тем не менее, при допущении абсолютного «всезнания», представим, что нам известно, кто из респондентов проявил установку на согласие. Анализ данных по четырем «добросовестным» респондентам, обнаруживает весьма незначительную негативную корреляцию между удовлетворенностью и самооценкой престижности (г = - 0,09). Таким образом, наличие у двух респондентов установки на согласие исказило результаты анализа, приведя к тому, что исследователь делает неправильные выводы относительно взаимосвязи между двумя изучаемыми конструктами. Рассмотрим теперь корреляцию, вычисленную из баллов по сбалансированной шкале (табл. 10.1с). Заметьте, что данная корреляция для общей выборки составляет г= - 0,10. Это гораздо ближе к корреляции, полученной на «добросовестных» респондентах (где г = - 0,09), нежели корреляция, полученная для шести отвечавших в первоначальном варианте теста. Следовательно, при использовании сбалансированной шкалы выводы исследователя будут гораздо более точными. В целом сбалансированные шкалы предоставляют исследованиям поведения важные преимущества. Несмотря на то что они не предотвращают установки на согласие и не могут полностью сгладить ее влияния, они действительно уменьшают влияние этой установки на результаты исследования. Используя сбалансированные шкалы, пользователи теста могут быть достаточно 303
уверены в том, что результаты их исследования не искажены влиянием установки респондентов на согласие. Как показано в табл. 10.1, сбалансированная шкала может помочь избежать искусственной корреляции, которая может быть результатом установки некоторых из респондентов. Потенциально важные выгоды от использования сбалансированных шкал более чем перевешивают их затратность (т. е. необходимость формулировки обращенных пунктов и усложненную систему кодировки ответов). Как отмечалось ранее, для уменьшения эффектов установки респондента на тот или иной ответ пользователи тестов могут пользоваться также специальными техниками подсчета тестовых баллов. Выше в качестве проблемы, которая может искажать результаты по тестам способностей или тестам достижений (например, SAT и GRE) называлось угадывание ответов. В самом деле, в данных тестах используются такие методы подсчета тестовых баллов, которые направлены на то, чтобы сделать поправку на фактор угадывания. Например, в SAT используется такой метод подсчета, при котором неправильному ответу и пропущенному ответу приписываются разные веса (коэффициенты). В частности, правильный ответ на вопрос засчитывается как 1 балл, вопрос, на который был дан неверный ответ, оценивается в 0,25 балла, а пропущенный вопрос не оценивается. Не вдаваясь в излишние детали, скажем только, что данный способ кодирования ответов приводит к минимизации выгоды, получаемой от угадывания. Интересно, впрочем, что «умелая» догадка все же является выгодной для тех, кто выполняет тест SAT. Другими словами, если респондент может сразу исключить один или несколько вариантов ответа, то выбор наугад среди оставшихся вариантов является выгодным для получения более высокого итогового балла1. Контроль содержания теста с целью обнаружения установок на ответ и дальнейшего вмешательства Установки респондентов на тот или иной ответ могут оставаться проблемой даже после того, как разработчики тестов попытались свести к минимуму их существование и их влияние на тестовые баллы. Несмотря на самые тщательные попытки предотвратить или уменьшить степень влияния установок, они все же могут оказывать определенное влияние на отдельные ответы, принимаемые на основе теста решения и проводимые по результатам теста анализы. В качестве дополнительной степени защиты против установок на ответ пользователи тестов могут различными способами определять те ответы, которые, вероятно, обусловлены установкой. В данном и следующем разделах будут обсуждаться методы идентификации респондентов, которые демонстрируют наличие той или иной установки на ответ. После того как данных респондентов идентифицировали, у пользователей теста существует Существует и такой прием против угадывания одними и честного поведения - пропуск ответа на задание, в правильности которого испытуемый сомневается. Чтобы выровнять их шансы в инструкции дается совет всем, кто сомневается в правильности ответа все-таки выбирать наиболее (как кажется им) правильный ответ и отмечать выбор в бланке ответов. (Прим. ред.). 304
несколько вариантов действий по отношению к их ответам, такие как исключение из рассмотрения и статистический контроль. Несколько известных тестов из области психопатологии и психологии личности включают в себя шкалы валидности. Шкалы валидности представляют собой наборы пунктов, включенные в опросник и направленные на количественную оценку той степени, в которой респондент склонен демонстрировать ту или иную установку на ответ. Пользователи тестов могут изучить паттерн ответов респондента на данный набор пунктов и количественно оценить степень, в которой этот паттерн ответов отражает угадывание, установку на согласие, искусственно «хорошие» или искусственно «плохие» ответы и т. д. Психометрика уделяла большое внимание созданию и оценке шкал валидности для таких широко используемых тестов, как стандартизованный многофакторный метод исследования личности (MMPI), клинический многоосевой опросник Милона (MCMI), опросник личности NEO- PI, Калифорнийский личностный опросник CPI. Вероятно, наиболее известные шкалы валидности - те, которые входят в состав MMPI. Последнее издание MMPI (MMPI-2) включает в себя как минимум семь шкал, направленных на предоставление информации о склонности респондента к той или иной установке на ответ. Например, шкала L оценивает попытки респондента создать излишне положительное впечатление о себе. Согласно Дж.Р. Грэму, , шкала L (иногда называемая «Шкала лжи») состоит из 15 пунктов, описывающих «незначительные недостатки и слабости, которые большинство людей готовы в себе признать» (Graham, 1990, с. 23). Люди, отрицающие в себе эти очень распространенные недостатки и слабости, получат по шкале L высокий балл. Таким образом, шкала L может быть рассмотрена как шкала социальной желательности. Шкала F (иногда именуемая «Шкала низкочастотных ответов») входит в состав MMPI и состоит из 64 пунктов, с утверждениями которых соглашается, как правило, очень незначительная часть респондентов. Высокий балл по шкале F отражает некую форму недобросовестных ответов, которая может быть обусловлена ответами наугад, симуляцией неблагополучия, склонностью соглашаться или, наоборот, не соглашаться со всеми пунктами - или же истинными нарушениями психологического состояния респондента. Дополнительные шкалы валидности, входящие в состав MMPI, включают в себя шкалу К (шкалу коррекции, для обнаружения «симуляции здоровья»), шкалу VRIN (Variable Response Inconsistency — несовместимость ответов на разные вопросы), оценивающую склонность респондента отвечать наугад, и шкалу TRIN (True Response Inconsistency - несовместимость ответов на сходные вопросы), оценивающую склонность респондента соглашаться или не соглашаться с большинством утверждений. Один из вышеупомянутых примеров может помочь проиллюстрировать способ, с помощью которого паттерн ответов респондента может быть использован для обнаружения определенной установки на ответ. Рассмотрим снова гипотетические ответы респондентов, представленные в табл. 10.1. Как видно, установка на согласие создает довольно специфический паттерн ответов 305
в сбалансированной шкале. Предположение об абсолютном «всезнании» позволило нам говорить о том, что респондент 1 отвечал под влиянием установки на согласие. Внимательный анализ ответов данного респондента показывает, что он непостоянен в довольно специфическом смысле. Как вы помните, рассматриваемый четырехпунктовый тест был сбалансирован при помощи двух прямых пунктов (1 и 3) и двух обратных пунктов (2 и 4) и в кодировании ответов также применялся обратный подсчет. Основываясь на процессе обращения, можно ожидать от «добросовестного» респондента достаточно последовательные ответы. Например, человек с неподдельно высоким уровнем удовлетворенности работой должен выбирать ответы, в основном лежащие выше средней отметки по шкале. Респондент 2 проявляет такого рода последовательность - все его ответы (т. е. 7, 5, 6, 7) находятся выше средней отметки в 4 балла. Получается, ответы данного респондента последовательно указывают на высокую степень удовлетворенности работой. Ответы респондента 6 также последовательно находятся на уровне среднего или ниже среднего, и этот паттерн ответов указывает на относительно низкий уровень удовлетворенности работой. В противоположность этому, человек с установкой на согласие будет склонен выбирать ответы так, что при правильной перекодировке они будут оказываться то выше, то ниже средней отметки. Например, респондент 1 так отвечал на вопросы теста, что после перекодировки баллы оказались разбросанными относительно среднего. Это противоречит тому, что ожидается от человека с действительно высоким либо низким истинным уровнем выраженности измеряемого признака. Пользователь теста, не располагающий «всезнанием», может рассмотреть данный непоследовательный паттерн ответов и обоснованно заподозрить, что это является доказательством наличия у респондента установки на согласие. Если пользователь теста заметил, что респондент проявляет один или несколько типов установки на ответ, существует как минимум три варианта использования этой информации с целью внесения поправок в процесс оценки или анализа. Во-первых, можно исключить результаты данного респондента из последующего рассмотрения. На практике психодиагност может попросить человека снова пройти тест либо просто не обращать внимания на результаты тестирования для данного респондента. Согласно одному из экспертов по прикладной психодиагностике, если ответы индивида являются нечестными или «недобросовестными», тогда соответствующие результаты «должны считаться невалидными и исключаться из дальнейшего рассмотрения» (Graham, 1990, с. 22). В ситуации научного исследования психодиагност может исключить показатели данного респондента из статистических анализов. Второй вариант - сохранить результаты, но использовать их с осторожностью. В прикладном контексте пользователь теста может принять во внимание «подозрительные» баллы, но не делать на них основной упор в итоговой оценке или диагностике индивида. В исследовательском контексте пользователь теста может оставить данные и просто принять тот факт, что различные типы установок на ответ могут так или иначе искажать результаты анализа. Третий вариант для 306
исследователя - сохранить люоые потенциально ненадежные данные, но использовать соответствующие статистические методы контроля и поправки. Такие процедуры, как частичная корреляция или множественная регрессия, позволяют исследователям использовать баллы по шкалам валидности для «статистического контроля» потенциально невалидных ответов. Например, такие методы позволяют исследователю рассмотреть связь между удовлетворенностью работой и самооценкой престижности отдельно для.тех респондентов, которые отвечают добросовестно, и для тех респондентов, которые при ответах руководствуются той или иной установкой. Несмотря на то что шкалы валидности кажутся полезными, специалисты в области психометрики и пользователи тестов нуждаются в объективном доказательстве их полезности. Некоторые исследования показывают несостоятельность таких шкал (например, Piedmony, McCrae, Riemann, & Angleitner, 2000), но многие все же свидетельствуют в пользу «валидности шкал валидности». Пример типичного исследования представлен Дж. Ханом (Hahn, 2005). В этом исследовании использовался «аналоговый» дизайн, при котором участники разделялись на несколько групп. Одна группа состояла из пациентов психиатрических клиник. Поскольку никто из этих пациентов не запросил за участие в тестировании какой-либо компенсации, их посчитали репрезентативными по отношению к добросовестным респондентам с выраженной психопатологией. Вторая группа состояла из студентов, которьгх попросили давать невалидные ответы. Их проинструктировали сознательно симулировать психологическое неблагополучие, что позволило считать этих студентов «аналогом» всех респондентов, которые стремятся по результатам теста выглядеть более психологически неблагополучными, чем на самом деле. Все участники выполнили MMPI-2, анализировалась способность шкал валидности к обнаружению различий между двумя группами. Результаты показали, что, как и ожидалось, симулянты получили более высокие баллы по шкалам валидности, оценивающим склонность респондента симуляции неблагополучия (например, шкала F). Хотя можно обоснованно сомневаться в том, насколько можно распространять на генеральную совокупность результаты, полученные на студентах, которые притворялись психологически неблагополучными (или склонными к социальной желательности), по большей части данное исследование доказывает, что шкалы валидности действительно дифференцируют подобные группы (Baer & Miller, 2002; Rogers, Sewell, Martin, & Vitacco, 2003). В целом встроенные в тест шкалы валидности могут быть достаточно полезным методом обнаружения у респондента той или иной установки на ответ. Включая подобные шкалы в состав более обширного набора шкал, диагностирующих свойства личности или психопатологические симптомы, разработчики тестов предоставляют пользователям возможность обнаружить потенциально невалидные тестовые баллы и вмешаться тем или иным способом. Несмотря на некоторое беспокойство по поводу применимости данных исследований в реальности, солидное их количество доказывает, что шкалы 307
валидности хорошо работают для дифференциации «намеренно обманывающих» и искренних респондентов. Использование специализированных тестов для обнаружения установок на ответ и дальнейшего вмешательства Последний из рассматриваемых нами методов обращения с установками на ответ тесно взаимосвязан с предыдущим. Помимо шкал валидности, встроенных в большие опросники свойств личности или психопатологий, психологами были разработаны отдельные тесты для определения разнообразных типов установки на ответ. Как и встроенные шкалы валидности, такие тесты могут использоваться по-разному - они позволяют пользователям идентифицировать и отсеивать «недобросовестных» респондентов, а также статистически контролировать искажающее влияние установок на ответ. Тем не менее, такие тесты используются еще как еще минимум двумя способами. Во-первых, с целью лучше понять сущность установок на ответ, психологи используют такие тесты для изучения их психологических причин и следствий. Измеряя склонность респондента к установке на ответ и коррелируя ее с другими психологическими, поведенческими и демографическими переменными, психологи могут прийти к более глубокому пониманию возможных когнитивных, эмоциональных и мотивационных факторов, которые порождают недобросовестность в ответах. Во-вторых, разработчики и оценщики тестов могут использовать самостоятельные шкалы валидности для оценки той степени, в которой результаты теста находятся под влиянием установки на ответ. Например, они могут обнаружить, что результат нового теста имеет сильную корреляцию с определенной установкой на ответ, и использовать данную информацию для улучшения теста или для того, чтобы предупредить администраторов теста насчет потенциальных проблем. Широко распространены тесты, призванные измерять индивидуальные различия респондентов в склонности давать социально желательные ответы. Особенно часто используется тест социальной желательности Д.П. Кроуна - Д. Марлоу (Crowne & Marlowe, 1960). Тест направлен на определение склонности респондента заявлять о наличии у него редких добродетельных качеств и отрицать распространенные недостатки. Он содержит 33 утверждения, такие как «Перед голосованием я тщательно изучаю профессионализм всех кандидатов» (редко встречающееся положительное качество) и «Иногда у меня возникают сомнения в том, смогу ли я добиться успеха в жизни» (распространенный недостаток). Респонденты дают оценку каждому пункту по дихотомической шкале верно/неверно. Если респондент заявляет о наличии многих редких достоинств и отрицает, что имеет большинство распространенных недостатков, тогда его результат рассматривается как свидетельство попытки выглядеть более привлекательно в социальном плане. Как отмечалось ранее при обсуждении установки на социальную желательность, недавние исследования доказывают, что эта установка более 308
сложна, чем предполагалось в 1940-х, 1950-х, и 1960-х годах (Paulhus, 2002). На одном из этапов своих исследований Д.Л. Паулюс с коллегами разработали Краткий опросник социальной желательности (Brief Inventory of Desirable Responding, BIDR). Последняя исследовательская версия BIDR (Paulhus. 1991) содержит две основные шкалы - шкалу «Самообман - улучшение» (20 пунктов) и шкалу «Управление впечатлением» (20 пунктов). Кроме того, на сайте авторов приведена дополнительная шкала - «Самообман - отрицание», состоящая из 20 пунктов. Пункты включают в себя самоочевидные утверждения (например, «Я полностью рациональный человек»), на которые нужно ответить по семизначной шкале, варьирующейся от полностью не согласен к полностью согласен. Высокий результат по тесту показывает предрасположенность к ответам в социально привлекательном ключе. Исследования показывают, что BIDR является внутренне согласованным тестом, устойчивым по крайней мере на протяжении 5 недель и способным валидно измерять заявленные конструкты (Paulhus, 1991). Существуют также тесты, призванные обнаруживать симуляцию неблагополучия в области когнитивных нарушений. Например, Тест на подсчет точек (DCT - Dot Counting Test; Lezak, 1995) включает в себя 12 карточек, на которых расположено различное количество точек. На половине карточек точки сгруппированы, на остальных - изображены в случайном порядке. Испытуемых просят сосчитать точки на каждой карточке как можно быстрее, при этом сами ответы и время выполнения фиксируются администратором. Предположительно, на подсчет точек, изображенных в хаотичном порядке, должно уходить больше времени, чем для систематично сгруппированных точек. Следовательно, подозрение на симуляцию появляется тогда, когда испытуемому требуется одинаковое время на подсчет и сгруппированных, и хаотично расположенных точек. Несмотря на то что данные исследований противоречивы, основная их часть показывает, что Тест на подсчет точек является потенциально полезным методом обнаружения симуляций когнитивного нарушения (Binks, Gouvier, & Waters, 1997; Boone и др., 2002). Несмотря на то что тесты социальной желательности и тесты на склонность к симуляции нарушений более распространены, чем методики диагностики других типов установки на ответ, такие методики все же существуют. Например, АК. Каучем и К. Кенистом (Couch & Keniston, 1960) был разработан тест для диагностики установки на согласие; впрочем, в своем обзоре методик диагностики различных типов установки на ответ Д.Л. Паулюс делает вывод о том, что «ни один из инструментов, заявленных на измерение общей установки респондента на согласие, не может быть рекомендован исследователю» (Paulhus, 1991, с.48). Сходным образом. И.А. Гринлиф критикует литературу, описывающую установку на крайние ответы, за недостаточное внимание к разработке стандартизованного теста, диагностирующего такого рода установку (Greenleaf, 1992). В самом деле, И.А. Гринлиф ссылается на противоречивые результаты, полученные в исследованиях коррелятов установки на крайние ответы, и он обращает внимание на тот факт, что такая неоднозначность может быть частично 309
объяснена тем. что разные исследователи используют разные (невалидизированные) методики диагностики установки на крайние ответы. Несмотря на то, что И.А. Гринлиф предлагает свой 16-пунктовый тест установки на крайние ответы, он отмечает, что «необходима разработка более совершенных методик» (Greenleaf, 1992, с. 347). Внешние и внутренние факторы, определяющие установки на ответ Данный краткий раздел нацелен на прояснение терминологии, с которой можно столкнуться в психометрической литературе. В данной главе при обсуждении установок на ответ были упомянуты разнообразные варианты того, как респондент может «недобросовестно» отвечать на утверждения теста. Были названы различные факторы, которые могут являться причиной таких недобросовестных ответов. Некоторые из этих факторов являются временными, отражающими характеристики либо ситуации тестирования (например, последствия тестирования), либо самого теста (например, формат теста или неоднозначность формулировок). Такие факторы зачастую называют внешними (или ситуативными) (Paulhus, 1991). Другого рода факторы сильнее связаны с константными характеристиками индивида (например, возможность выглядеть социально желательно беспокоит одних респондентов больше, других - меньше). Такие факторы зачастую называются внутренними (или стилями ответов). Таким образом, установка респондента на тот или иной ответ может быть обусловлена внешними (какими-то характеристиками самой ситуации тестирования) и внутренними (какими-то характеристиками индивидуальности респондента) причинами. Заметьте, однако, что в использовании этих терминов между психологами на настоящий момент не существует единства1. В оригинале книги используются следующие термины: response bias, response sets и response styles. Термин response bias в сущности обозначает «систематическую ошибку ответа на утверждение теста, обусловленную не самим содержанием утверждения, а другими факторами». Само слово bias означает «крен», «перекос». Для краткости мы переводим термин response bias как «установка на ответ», следуя при этом градициям, заложенным в классическом для российской психодиагностики переводном тексте П. Клайна «Справочное руководство по конструированию тестов» (установка на согласие, установка на социальную желательность и т. д.). Термин response set означает всю совокупность факторов, связанных с ситуацией тестирования, которые могут оказывать влияние на тот или иной ответ респондента. Термин response style переводится как «стиль ответов». Во избежание путаницы мы приняли решение перевести данные термины более коротко: внешние (response sets) и внутренние (response styles) факторы, влияющие на установку респондента на ответ (response bias). Следует иметь в виду, что в англоязычной литературе понятия «внешних» и «внутренних» факторов в этой связи как самостоятельные термины не используются. (Прим, перев.). 310
Резюме Как было показано в данной главе, установка респондента на ответ может вносить в результаты теста систематическую ошибку, которая приводит как к снижению психометрического качества теста, так и искажению психологической интерпретации тестовых баллов. Было показано также, что установка респондента на ответ может быть обусловлена характеристиками теста (например, непонятными формулировками или неоднозначными вариантами ответа), характеристиками ситуации тестирования (например, когда от результатов по тесту отчасти зависят серьезные последствия), а также характеристиками самих респондентов (например, склонностью респондента к самообману, податливостью или скрытностью). Ученые, занимающиеся изучением поведения, хорошо осведомлены насчет данных установок и их влияний на прикладные решения и исследовательские выводы (там, где эти выводы и решения основаны на психологическом тестировании). Для того чтобы избавиться от проблем, обусловленных установками респондентов на тот или иной ответ, психологами было разработано множество стратегий, направленных либо на предотвращение самого существования таких установок, либо на снижение их влияния на тестовые баллы, либо на их обнаружение и внесение в полученные данные соответствующих поправок. Рекомендуемая литература Основательный обзор изданий по симуляции неблагополучия, особенно в контексте психопатологического тестирования: Berry, D.T.R., Baer, R.A., Rinaldo, J.C., & Wetter, M.W. (2002). Assessment of malingering. In J.N.Butcher (Ed.), Clinical personality assessment (2nd ed., pp. 269- 302). New York: Oxford University Press. Классический анализ установок на согласие и социальную желательность, посвященный MMPI: Block, J. (1965). The challenge of response sets: Unconfounding meaning, acquiescence, and social desirability in the MMPI. New York: Appleton-Century- Crofts. Другая классическая статья из истории психометрических исследований установок респондента на ответ: Cron bach, L.J. (1946). Response sets and test validity. Educational and Psychological Measurement, 6, 475-494. 311
Недавний обзор, обобщающий теории и исследования в области сущности и методов оценки социальной желательности за несколько последних десятилетий: Paulhus, D.L. (2002). Socially desirable responding: The evolution of a construct. In H.Braun, D.N.Jackson, & D.E. Wiley (Eds.), The role of constructs in psychological and educational measurement (pp. 67-88). Hillsdale, NJ: Lawrence Erlbaum. Анализ метода оценки установки респондента на крайние ответы: Greenleaf, Е.А. (1992). Measuring extreme response style. Public Opinion Quarterly, 56, 328 -351. Теория и эмпирическое исследование установки на согласие: Knowles, E.S., & Condon, С.А. (1999). Why people say «yes»: A dual-process theory of acquiescence. Journal of Personality and Social Psychology. 77, 379 - 386. 312
ЛАВА 11 Необъективность теста Как следует из предшествующего изложения, психологические тесты могут иметь солидную концептуальную основу и быть грамотно сконструированными, но идеальных тестов не бывает. Надежность тестовых баллов может снижаться под влиянием ошибки измерения, а валидность их интерпретации может быть подорвана установкой на ответ, систематически искажающей индивидуально-психологические различия респондентов. В данной главе будет рассматриваться еще одна угроза валидности интерпретации тестовых баллов - необъективность (предвзятость) теста, искажающая различия (или их отсутствие) между группами респондентов. По результатам психологического тестирования зачастую принимаются важные решения, которые влияют на жизнь людей - принимать или не принимать ученика в колледж, в какой класс будет зачислен ребенок, примут ли данного соискателя на работу? Если такого рода решения основаны на результатах теста, показывающего необъективность в пользу или против определенных групп людей, такие ошибки будут иметь крайне важные личные и общественные последствия. Допустим, исследователя интересует, существуют ли половые различия в уровне математических способностей. Он предлагает репрезентативной выборке мужчин и женщин пройти относительно надежный математический тест, а по результатам обнаруживает, что мужчины в среднем получили более высокие баллы, чем женщины. У исследователя сразу возникнет желание истолковать полученный результат с точки зрения исходного психологического конструкта: у мужчин математические способности развиты лучше, чем у женщин. Тем не менее, есть вероятность того, что результаты тестирования респондентов не являются отражением только лишь их математических способностей. Возможно, что в результатах тестирования присутствует необъективность. Она может проявляться, например, если в результатах теста переоцениваются истинные математические способности мужчин и недооцениваются математические способности женщин. В этом случае разница между тестовыми баллами мужчин 313
и женщин может быть следствием необъективности теста, а не показателем истинных различий в их математических способностях. В данной главе будут рассматриваться две формы необъективности теста, а также методы, используемые для их обнаружения. Говоря упрощенно, речь идет о необъективности в значении теста и необъективности в использовании теста. Неадекватность (предвзятость) конструкта возникает тогда, когда для двух исследуемых групп значение теста различно, т. е. конструкт, лежащий в основе теста, в данных двух случаях отражается неравнозначно. Неадекватность конструкта связана с соотношением наблюдаемых тестовых баллов к истинным баллам, выражающим уровень выраженности признака. Если это отношение различно для различных тестируемых групп, можно сделать вывод, что тест необъективен. Наличие неадекватности конструкта может привести к такой ситуации, в которой две группы респондентов имеют одинаковый истинный уровень выраженности признака, но различные тестовые баллы. Второй вид необъективности теста - прогностическая ошибка. Она имеет место тогда, когда использование теста предполагает для двух разных групп респондентов разные последствия. В основе прогностической ошибки лежит соотношение показателей двух различных тестов. Считается, что один из этих тестов (прогностический) дает результаты, которые могут быть использованы для трго, чтобы спрогнозировать результаты другого теста (критериального). Например, специалисты приемной комиссии в колледже для прогноза средней успеваемости абитуриента в первый год обучения (GPA) могут использовать результаты этого абитуриента по тесту академических способностей SAT. В данном случае результаты SAT являются прогностической переменной, а средний балл успеваемости GPA - критериальной. В этом контексте необъективность/предвзятость теста выражает то, насколько взаимосвязь между истинным уровнем выраженности признака, измеряемого прогностическим тестом, и наблюдаемыми баллами критериального теста различна для двух групп. Если для одной из групп тест SAT прогнозирует средний балл успеваемости в колледже точнее, чем для другой группы, то SAT (при его использовании в качестве показателя, прогнозирующего успеваемость в колледже) обладает прогностической ошибкой. Данные два типа необъективности теста (неадекватность конструкта и прогностическая ошибка) независимы друг от друга. Например, тест может обладать прогностической ошибкой, но не обладать неадекватностью конструкта. Тест академических способностей SAT может точно отражать истинные различия между группами респондентов (т. е. не обладать неадекватностью конструкта), но при этом академические способности для двух разных групп могут быть взаимосвязаны со средним баллом успеваемости в колледже по-разному (т. е. тест может обладать прогностической ошибкой). В данной главе будут обсуждаться несколько способов операционального определения и обнаружения необъективности теста. Для обнаружения необъективности тестовых баллов можно использовать по меньшей мере два категории процедур: (а) внутренние методы обнаружения неадекватности конструкта, (б) внешние методы обнаружения прогностической ошибки. Такая 314
формулировка звучит достаточно операционально, однако необходимо помнить, что необъективность теста в обеих своих формах является теоретическим концептом, отчасти потому, что она зависит от теоретических представлений об истинных тестовых баллах. Единственного точного способа обнаружения необъективности теста не существует, как не существует и единственного способа вычисления таких психометрических показателей, как надежность и валидность. Тем не менее, существуют различные общепринятые методы, использующиеся для оценки степени проявления в тесте необъективности. Красной нитью в определении и обнаружении необъективности теста проходит мысль о том, что разница в тестовых баллах для двух групп не обязательно означает необъективность. Допустим, при использовании методики диагностики оптимизма было обнаружено, что показатели женщин по шкале оптимизма выше, чем у мужчин. Этот результат сам по себе не является свидетельством наличия необъективности теста (Jensen, 1980. 1998; Thorndike. 1971). Тестовые баллы, полученные респондентами, могут вполне точно отражать их истинный уровень оптимизма. В этом случае тест не необъективен, а различие средних показателей в двух группах отражает истинное различие в уровне оптимизма между мужчинами и женщинами. Допустим, в некотором исследовании у репрезентативной выборки мужчин и женщин измеряется вес тела. Вероятно, будет обнаружено, что средний вес женщин меньше, чем у мужчин. Этот результат вовсе не будет означать, что шкала, использованная для измерения веса, необъективна. В чем важность объективности тестовых баллов? Вероятно, каждый, читающий эту книгу, уже имел опыт с психологическими тестами. Практически со всеми школьниками США и других развитых стран регулярно проводят тесты, оценивающие успеваемость или учебные достижения. В США большинство старшеклассников, планирующих поступить в высшее учебное заведение, проходят тест академических способностей SAT или Американский тест для поступления в колледж ACT. Кандидатам на большинство федеральных правительственных постов нужно сдавать государственный гражданский экзамен, а руководство коммерческих предприятий зачастую организует тестирование претендентов на работу, а иногда даже и уже работающий персонал, с использованием психологических методик. Результаты этого и других видов психологического тестирования часто используются для принятия важных решений, влияющих на судьбу людей. В сфере образования результаты проверки умственных способностей часто используются для того, чтобы подобрать ребенку специальную программу обучения. Также эти результаты используются в суде, когда принимается решение о том, можно или нельзя приговаривать человека, обвиненного в 315
убийстве, к смертной казни. Образовательные учреждения используют баллы стандартизированных тестов, чтобы принимать решение о зачислении абитуриентов. Коммерческие и правительственные организации, по крайней мере, частично, также основывают кадровую политику на результатах тестирования. Во многих общеобразовательных школах США учителя обязаны пройти процедуру стандартизированного тестирования, чтобы стать сертифицированными специалистами. Использование психологических тестов в нашем обществе очень распространено, а результаты этих тестов могут оказать огромное влияние на личную и общественную жизнь людей. Из-за того что тестирование стало частью нашего общества и его результаты имеют важные последствия для людей, хотелось бы разрабатывать такие тесты, результаты которых позволят дифференцировать респондентов на основании реальных психологических различий, а не на основании групповой принадлежности. Например, используя шкалу оптимизма, хочется быть уверенным в том, что результаты определяются только лишь самим уровнем оптимизма у респондента, а не искажаются каким-нибудь внешним фактором, таким как его половая принадлежность. Другими словами, хочется пользоваться тестами, оценивающими истинные психологические характеристики и не вносящими в психологическую реальность систематических искажений. Желание исследователей разрабатывать тесты, не обладающие предвзятостью, необъективностью, коренится в убежденности в том, что нельзя дискриминировать людей на основе биологического пола, этнической или расовой принадлежности, вероисповедания или возраста. В некоторых случаях список групп, которые должны быть защищены от необъективности (предвзятости) психологических тестов, расширялся и включал в себя такие факторы, как сексуальные предпочтения, беременность, семейное положение, родной язык и всевозможные нарушения здоровья. В каждом из этих случаев необходимо обладать уверенностью в том, что различия в полученных тестовых баллах являются функцией истинных различий в уровне выраженности измеряемого признака. Особенно важно доказывать отсутствие необъективности теста тогда, когда по результатам тестирования средний балл в одной группе респондентов отличается от среднего балла в другой группе. Обнаружение неадекватности конструкта: внутренняя оценка теста Неадекватность конструкта зачастую оценивается путем исследования ответов на отдельные пункты теста. Пункт теста может быть необъективен в том случае, если (а) люди, состоящие в разных группах, дали разные ответы на данный пункт и (б) можно установить, что данные различные ответы не связаны с групповыми различиями, касающимися именно той психологической характеристики, которая измеряется тестом. Например, предположим, что 316
имеется тест на выявление технических способностей, состоящий из ста пунктов. Представим, что из этого теста выбран один пункт и обнаружено, что ответы мужчин совпадают с ответами женщин. В таком случае этот пункт не оказался бы необъективным (допуская, что мужчины и женщины обладают одинаковым уровнем технических способностей). С другой стороны, если мужчины и женщины с одинаковым уровнем технических способностей дали разные ответы на данный пункт, можно предположить наличие в данном пункте определенного типа погрешности. Как уже говорилось, большинство психологических тестов являются составными - они состоят из множества пунктов (вопросов, заданий или утверждений). Для таких тестов общий показатель необъективности тестовых баллов является функцией всех частных показателей необъективности, связанных с каждым из пунктов в отдельности. Если показано, что ни один из пунктов в тесте не необъективен, тогда можно допустить, что итоговый результат теста также не необъективен. Если же один или более пунктов предположительно необъективен, тогда можно допустить, что необъективность содержится и в итоговом результате теста. Как вы помните, необъективность теста затрагивает взаимосвязь между групповыми различиями в истинных уровнях выраженности признака и групповыми различиями в полученных тестовых баллах. В случае неадекватности конструкта пункт теста будет необъективен в том случае, если ответы людей, принадлежащих к одной группе, отражают их истинную психологическую характеристику, а ответы на этот же пункт людей, принадлежащих к другой группе, - нет (при этом предполагается некая минимальная степень надежности теста). Естественно, узнать истинный уровень выраженности какого-либо психологического признака у респондента невозможно. Поэтому методы, которые будут обсуждаться ниже, являются лишь оценками наличия и степени проявления неадекватности конструкта теста Неадекватность конструкта связана с содержательным значением тестовых баллов. Наличие неадекватности конструкта предполагает, что результаты теста могут иметь различный смысл для разных групп людей. Если по результатам исследования обнаружилось, что показатели теста на выявление технических способностей обладают неадекватным конструктом, относящимся к полу респондентов, тогда необходимо учитывать возможность того, что показатели теста в группе мужчин и в группе женщин отражают различные психологические характеристики. Например, ответы мужчин на пункты теста могут определяться главным образом единственной составляющей - техническими способностями. В то же время ответы женщин могут определяться двумя составляющими - техническими способностями и риском стереотипизации (тенденцией к поведению, которое подтверждает стереотипы о какой-либо социальной группе) (Spencer. Steele. & Quinn, 1999). Таким образом, тест технических способностей у представителей разных полов оценивает разные психологические характеристики. Далее будут описаны несколько методов, которые могут быть использованы для оценки наличия и степени выраженности неадекватности 317
конструкта. Эти методы сосредоточены вокруг внутренней структуры теста, описанной при рассмотрении валидности в главе 8. В этой главе внутренняя структура теста определялась как «то, как части теста взаимосвязаны друг с другом». Простыми словами, внутренняя структура теста отражает паттерн интеркорреляций между пунктами и/или корреляций между пунктами и суммарным баллом теста. Чтобы оценить наличие неадекватности конструкта, исследование внутренней структуры теста проводится отдельно для двух групп. Если эти две группы показывают одинаковую внутреннюю структуру ответов на пункты теста, можно заключить, что данный тест, вероятно, конструктной погрешности не подвержен. Если же в этих двух группах респондентов обнаруживаются различные внутренние структуры ответов, делается заключение о том, что тест может обладать неадекватным конструктом. Для выявления неадекватного конструкта теста существуют как минимум четыре метода. Индекс дискриминативности пунктов Один из методов определения неадекватности конструкта заключается в отдельном для двух групп подсчете индексов дискриминативности пунктов. Как было описано в главе 7, индекс дискриминативности отражает степень взаимосвязи отдельного пункта с суммарным баллу теста (то есть то, насколько люди, ответившие на какой-либо пункт правильно1, имеют тенденцию в целом лучше справиться с тестом, чем те, кто ответил на этот пункт неправильно). Как следствие, высокий индекс дискриминативности показывает, что пункт обладает высокой концептуальной схожестью с большинством других пунктов теста. Таким образом, данные индексы отражают структуру связей между пунктами теста. Исторически сложилось так, что индекс дискриминативности пунктов развивался в рамках классической теории тестов. Данный индекс играет важную роль в измерении той степени, в которой ответы на пункты теста могут использоваться для того, чтобы проводить различия между людьми на основании их знаний по определенной теме или на основании обладания какой- либо другой психологической характеристикой. Вновь предположим, что группа респондентов опрошена с использованием теста технических способностей. Если люди с высокими техническими способностями с большой вероятностью отвечают на какой-то конкретный вопрос правильно, в то время как люди с низкими техническими способностями отвечают на этот же вопрос правильно с низкой степенью вероятности, данный вопрос будет обладать высоким индексом дискриминативности (например, 0,90). Это будет означать, что данный пункт хорошо дифференцирует людей с разными уровнями технических способностей. И наоборот, если люди с низкими техническими способностями дают правильный ответ на вопрос практически так же часто, как и люди с высокими техническими способностями, в таком случае данный вопрос будет обладать Для личностных опросников «правильно ответить на пункт» означает «дать ответ, совпадающий с ключом». Более подробно этот момент будет прояснен в главе 13 этой книги при обсуждении теории IRT. (Прим, перев.) 318
низким индексом дискриминативности (например, 0.10). В этой ситуации пункт не выявляет четких различий между людьми, обладающими разными уровнями технических способностей. Индекс дискриминативности пунктов может быть использован для оценки неадекватности конструкта теста. Для этого выбирается какой-либо пункт, подсчитывается индекс его дискриминативности отдельно для двух групп респондентов, после чего индексы сравниваются между собой. Если два полученных индекса дискриминативности приблизительно одинаковы, исследователь приходит к выводу, что данный пункт, скорее всего, непредвзят (не необъективен). Однако если величина двух индексов дискриминативности не является приблизительно равной, то можно предположить, что данный пункт в какой-то мере необъективен. Другими словами, исследователь в этом случае приходит к выводу о том, что данный пункт соответствует тесту в одной группе, но не соответствует в другой. Включение данного пункта в тесты для обеих групп приводит к тому, что тест в двух группах респондентов в некоторой степени различен. Как правило, такой анализ проводится по отдельности для каждого из пунктов теста. Важной чертой индекса дискриминативности как способа неадекватности конструкта теста является то, что он не зависит от количества респондентов, которые дают правильный ответ на вопрос. Например, можно обнаружить, что на определенный пункт в тесте технических способностей ответили правильно лишь 40% мужчин и 60% женщин. Даже в этом случае индекс дискриминативности данного пункта может быть одинаковым в обеих группах. Будет сделано заключение о том. что данный пункт как способ измерения технических способностей функционирует для обеих групп одинаково, хотя женщины и обладают по данному вопросу большими знаниями, чем мужчины (то есть больше женщин дали правильный ответ на вопрос). Факторный анализ Второй метод исследования неадекватности конструкта теста состоит в проведении факторного анализа пунктов отдельно для двух или более групп. Как уже говорилось в предыдущих главах, факторный анализ является важным инструментом оценки внутренней структуры теста. Факторный анализ - статистическая процедура, которая используется для объединения корреляций или ковариаций в более общие группы, или «факторы», которые в некоторой степени внутренне однородны (более детальное рассмотрение факторного анализа см. в главе 4). Иногда случается так, что ответы на какие-либо пункты в тесте коррелируют друг с другом гораздо сильнее, чем с ответами на другие пункты теста. Пункты, которые сильно коррелируют друг с другом, статистически связаны, и считается, что они отражают один фактор. Если все пункты в тесте в одинаковой мере коррелируют друг с другом (то есть пункты образуют лишь одну внутренне однородную группу), это свидетельствует о том, что тест является одномерным, т. е. вся вариативность тестовых баллов объясняется (помимо ошибки) единственным фактором. 319
Факторный анализ может быть использован, чтобы оценить внутреннюю структуру теста отдельно для двух групп людей. Например, можно обнаружить, что среди мужчин тест на выявление технических способностей имеет четко выраженную одномерную структуру - все пункты тесно коррелируют друг с другом, а тестовые баллы отражают один и только один конструкт. Для того чтобы оценить потенциальную возможность наличия неадекватного конструкта, необходимо также исследовать факторную структуру ответов на вопросы теста в подвыборке женщин. Если в этой подвыборке респондентов также обнаружится только один фактор, можно заключить, что данный тест на выявление способностей обладает одинаковой внутренней структурой и для мужчин, и для женщин. Следовательно, данный тест не обладает неадекватным конструктом. Однако если факторный анализ «женских» ответов обнаруживает наличие двух или более факторов, можно заключить, что исследуемый тест в выборке мужчин и в выборке женщин обладает разной внутренней структурой. Следовательно, тест обладает неадекватным конструктом. Это приводит к тому, что результаты тестирования в выборке мужчин и женщин отражают разные психологические конструкты. Анализ дифференциального функционирования пунктов Вероятно, наилучшим методом оценки неадекватности конструкта теста является процедура. известная как «анализ дифференциального функционирования пунктов». Анализ дифференциального функционирования пунктов - часть психометрического подхода IRT (подробное описание которого будет приведено в главе 13). Важный аспект теории 1RT - предположение о том, что уровень выраженности признака у респондента можно оценить исходя непосредственно из данных теста. Уровень выраженности признака - это, в сущности, истинный балл респондента по той психологической характеристике, на измерение которой направлен тест. Предположим, исследователь может оценить уровень выраженности измеряемого признака у всех респондентов в двух группах, а также имеются ответы респондентов на какой-либо из пунктов теста. В этом случае исследователь может проанализировать, насколько соответствуют истинный уровень выраженности признака и ответ респондента на данный пункт, и насколько это соответствие сходно в двух исследуемых группах. Если такого сходства не наблюдается, пункт может быть подвержен необъективности/предвзятости, связанной с групповой принадлежностью респондента. IRT основана на идее о том, что существует математическая функция, связывающая уровень выраженности признака у респондента и вероятность правильного ответа на тот или иной пункт. Например, может обнаружиться, что для человека с уровнем выраженности признака, на одно стандартное отклонение превышающим средний, вероятность правильного ответа на определенный пункт теста составляет 0,80, в то время как для человека с уровнем выраженности признака на одно стандартное отклонение ниже среднего вероятность правильного ответа составляет 0,20. Так, если 320
исследователь тестирует группу респондентов и в результате обладает информацией об истинных уровнях выраженности измеряемого признака у каждого из них, можно использовать специализированное статистическое программное обеспечение, чтобы построить характеристическую кривую пунктов (ICC). Эта кривая выражает взаимосвязь уровня выраженности измеряемого признака и вероятности правильного ответа для каждого из пунктов теста по отдельности. Более того, если имеются две группы респондентов, можно построить характеристические кривые отдельно для каждой из групп. Для того чтобы оценить наличие неадекватного конструкта нужно сравнить кривые, полученные в двух разных группах. Если рассматриваемый пункт не искажен (не необъективен), кривые будут обладать высоким уровнем схожести. Другими словами, вероятность того, что два человека (из разных групп) дадут правильный ответ на вопрос, должна быть одинакова для любых двух респондентов, обладающих одинаковым уровнем выраженности признака. С другой стороны, если пункт необъективен (предвзят), характеристические кривые для этих двух групп будут различаться. Другими словами, вероятность того, что два человека (напр., мужчина и женщина) дадут правильный ответ на вопрос, может различаться, даже если уровень выраженности измеряемого признака у них одинаков. Такая ситуация будет ясно указывать на наличие неадекватного конструкта. Рисунок 11.1. Характеристическая кривая пункта в общей выборке 321
1 00 -3 -2-10 1 2 3 Балл по шкале технических способностей (z-оценка) Рисунок 11.2. Характеристические кривые пункта в выборке мужчин и женщин: иллюстрация постоянного смещения -3-2-10 1 2 3 Балл по шкале технических способностей (z-оценка) Рисунок 11.3. Характеристические кривые пункта в выборке мужчин и женщин: иллюстрация непостоянного смещения 322
Предположим, например, что необходимо оценить наличие необъективности в одном из пунктов теста технических способностей. Допустим, исследователя интересует необъективность относительно биологического пола респондентов. Используя методы и подходы, которые будут детально описываться в главе 13, можно вычислить для каждого из респондентов суммарный балл технических способностей (который будет отражать уровень выраженности измеряемого признака), а также вероятность правильного ответа на тот или иной пункт. Эту информацию можно использовать для того, чтобы построить характеристическую кривую пункта (ICC) (см. рис. Ц.1). Далее нужно распределить испытуемых на две группы (т. е. на группу мужчин и группу женщин) и построить характеристическую кривую отдельно для каждой из групп. Если эти кривые приблизительно совпадают, можно прийти к выводу, что пункт не подвержен искажению. Предположим, однако, что были получены результаты, изображенные на рис. 11.2 и 11.3. Подобные результаты позволяют предположить наличие необъективности теста. Рис. 11.2 иллюстрирует пример постоянного (фиксированного) смещения. Здесь женщинам, обладающим тем же уровнем технических способностей, что и мужчины, труднее ответить на вопрос. Рис. 11.3 иллюстрирует пример непостоянного (переменного) смещения, при котором характеристические кривые различаются как по расположению, так и по форме. В данном случае, вероятно, анализируемый пункт измеряет у мужчин и у женщин несколько разные признаки. Построение характеристических кривых для оценки неадекватности конструкта является всего лишь методом визуализации, в репертуар IRT входят и более точные количественные процедуры (напр., Smith & Reise, 1998). Несмотря на то что анализ дифференциации пунктов является достаточно сильным методом для определения неадекватности конструкта, в нем имеется недостаток. Во многих своих аспектах анализы 1RT достаточно сложны - какую модель использовать, как определить, действительно ли уровень выраженности признака в двух группах различен, либо же это проявление погрешности измерения? Кроме того, сложность заключается в необходимости достаточно большого объема выборки, достаточной гетерогенности респондентов и пунктов (для того чтобы обладать репрезентативностью по отношению к полному спектру признаков, на измерение которых направлен тест), а также в необходимости специализированного статистического программного обеспечения. Эти сложности обусловливают то, что теория IRT только лишь начинает использоваться как метод определения неадекватности конструкта. Ранжирование Существует еще один (более быстрый и простой с точки зрения вычислений) способ оценки неадекватного конструкта теста при том условии, что задания теста можно упорядочить по уровню сложности. Рассматривая в качестве примера тест на выявление технических способностей, состоящий из 100 пунктов, можно отметить, что на некоторые из вопросов теста ответить легче, и. соответственно, пункты теста можно 323
упорядочить по уровню сложности. Ранжирование можно произвести для разных групп по отдельности (напр., для мужчин и для женщин). Если порядок пунктов в двух группах различается, можно предположить наличие неадекватного конструкта. Данное предположение делается на основании того, что в таком случае каждый из пунктов дает в разных группах оценку разных показателей. Ранги можно использовать для вычисления коэффициента ранговой корреляции Спирмена («гйо», который интерпретируется так же, как гху), что в свою очередь позволит оценить степень согласованности результатов ранжирования в двух группах. Если данный коэффициент является низким (напр., < 0.90), можно предположить наличие неадекватного конструкта. Если же обнаруживается наличие неадекватного конструкта, возможно, у исследователя появится желание с помощью дополнительных статистических процедур определить точную причину низкого коэффициента корреляции (см. Jensen, 1980). Следует заметить, что ранговый коэффициент корреляции может быть высоким, даже если количество правильных ответов на пункт в разных группах различно. Взяв в качестве примера тест на выявление технических способностей, можно заметить, что женщины с меньшей долей вероятности могут дать правильные ответы на определенные вопросы теста, чем мужчины, однако ранжирование вопросов по уровню сложности может быть одинаковым в обеих группах. Как и в случае с индексом дискриминативности. групповые различия в количестве правильных ответов сами по себе не являются показателем наличия необъективности (предвзятости) теста. Определение прогностической ошибки: внешняя оценка теста Прогностическая ошибка связана со степенью того, насколько одинаково тестовые баллы в разных группах предсказывают значение некой критериальной переменной. Например, предполагается, что тест академических способностей SAT измеряет уровень учебных достижений. Допуская, что уровень успеваемости в средней школе имеет отношение к уровню успеваемости в первый год обучения в колледже (выражаемому в показателе GPA), вузы зачастую используют результаты тестирования по SAT для принятия решения о зачислении абитуриентов. Предполагается, что на основе школьного теста академических способностей можно с некоторой степенью точности предсказать учебную успеваемость студента-первокурсника. Если в результате получается, что возможность успешно предсказать уровень академической успеваемости первокурсников на основе школьных тестов в различных группах респондентов различается, можно предположить, что школьные тесты подвержены прогностической ошибке измерения. Наличие прогностической ошибки исследуется путем измерения двух переменных. Исследуется степень того, насколько показатели основного теста 324
(прогностического) могут использоваться для прогнозирования показателей респондентов по какому-либо другому психологическому параметру (критериальной переменной), который предположительно связан с показателями основного теста. Определение наличия прогностической ошибки начинается с предположения о том, что тест является «универсальной мерой», т. е. дает одинаковый прогноз для всех групп респондентов. С целью подтверждения данного предположения проводятся разного рода статистические анализы. Если анализы подтверждают, что тест для обеих групп одинаково прогностичен, исследователь приходит к выводу, что тест не подвержен систематической прогностической ошибке (по крайней мере, в отношении исследуемой критериальной переменной и исследуемых групп респондентов). Если же по результатам анализа обнаруживается, что прогностичность теста для двух групп не одинакова, можно заключить, что данный тест подвержен прогностической систематической ошибке. Представьте, что вы занимаете должность агента по выбору участников обучающих программ в крупной компании, которая тратит большие суммы денег на развитие у работников механических навыков, нужных для проведения определенных операций. Ваша работа заключается в том, чтобы выбрать для этой обучающей программы наиболее талантливых кандидатов. Выбор именно тех людей, которые с большей долей вероятности справятся с программой успешно, является существенно важным из-за ее стоимости. Успех вашей работы зависит от того, насколько правильно вы сделаете выбор. Для того чтобы увеличить вероятность правильного выбора, вы разрабатываете тест на выявление технических способностей, который предоставляете всем кандидатам. Более того, вы предполагаете, что результаты этого теста будут связаны с некоторым параметром, отражающим успешность в работе после прохождения обучающей программы. Например, после проведения данной программы уровень технической компетентности каждого работника будет оцениваться руководителем. Наконец, вы предполагаете, что между показателями теста на выявление технических способностей, проведенного перед обучающей программой, и оценкой технической компетентности (со стороны руководителя) после ее проведения существует положительная линейная связь. Другими словами, кандидаты с высокими показателями технических способностей (прогностический тест) будут получать более высокие оценки технической компетентности после прохождения обучающей программы (критериальная переменная), нежели кандидаты с низкими показателями технических способностей. При разработке и оценке теста на выявление технических способностей вы можете запланировать оценку прогностической систематической ошибки. Прогностическая ошибка связана с использованием показателей теста для того, чтобы предсказать значение некой релевантной переменной (например, поведение, компетентность, успешность и т. д.), которая будет играть роль в ситуациях, отличных от той, в которой проводился тест. Поэтому если у вас есть причина думать, что тест на выявление технических способностей будет 325
обладать предсказательной способностью только для группы мужчин, но не женщин, вы можете предположить наличие прогностической систематической ошибки теста. Для того чтобы оценить эффективность теста на выявление технических способностей и наличие в нем прогностической ошибки, вам необходимо обратить внимание на два вопроса: а) действительно ли ваш тест помогает предсказать итог обучающей программы и б) одинаково ли верно ваш тест прогнозирует этот итог в двух разных группах респондентов. Чтобы ответить на эти вопросы, вам понадобятся данные, которые могут быть использованы, чтобы оценить прогностическую эффективность вашего теста. Подобные данные могут быть получены путем проведения тестирования среди участников программы перед ее проведением и регистрацией итоговых показателей (критериальных переменных) в конце обучающей программы. Эти два вопроса часто исследуются с помощью статистического метода под названием «регрессия», при котором вы используете показатели теста на выявление технических способностей, проведенного перед обучающей программой, для того чтобы рассчитать прогнозируемые оценки технической компетентности, выставляемые впоследствии руководителем. Основы регрессионного анализа Регрессионный анализ основан на предположении о том, что между показателями теста и критериальной переменной существует линейная связь. Если такая связь действительно существует, то для того, чтобы спрогнозировать значение критериальной переменной исходя из показателей теста способностей, можно воспользоваться следующей формулой прямой линии: Y= а + Ь(Х), где Y - прогнозируемое значение критериальной переменной для отдельно взятого респондента, а - свободный член (прогнозируемое значение критериальной переменной при условии, что тестовый балл равен нулю), b - угловой коэффициент регрессии, или наклон линии регрессии по отношению к осям координат (число, которое показывает, как изменится показатель Y при увеличении показателя X на 1 пункт), а X - балл, полученный респондентом в тесте способностей. Для проведения регрессионного анализа и вычисления значений а и Ъ используется множество видов статистического программного обеспечения. После вычисления значений свободного члена и наклона линии регрессии появляется возможность оценить способность теста к прогнозированию. Так, можно взять индивидуальный балл респондента по тесту способностей (X), подставить его в регрессионное уравнение и рассчитать для этого человека прогнозируемую экспертную оценку работодателя (Y)- Чтобы проиллюстрировать этот процесс, используем данные из табл. 11.1. В этой таблице приведены баллы, полученные четырьмя респондентами по тесту способностей, а также (для каждого из респондентов) значение 326
критериальной переменной, т. е. экспертная оценка профессиональной успешности (следует заметить, что подобный анализ предполагает наличие гораздо большего числа участников). На основании регрессионного анализа в пакете SPSS величина а (свободный член) составляет 56,03, а угловой коэффициент регрессии (Ь) составляет 0,58. Эти результаты говорят о том. что прогнозируемое значение критериальной переменной у респондента с тестовым баллом, равным нулю, равняется 56,03 и что при увеличении тестового балла-на 1 пункт критериальная переменная увеличивается на 0,58. Таблица 11.1 Данные, иллюстрирующие пример регрессионного анализа Респондент Балл по тесту способностей Экспертная оценка руководителя (крит ериалъная переменная) Прогнозируема я оценка руководителя (прогнозируемое значение критериальной переменной) 1 32 75 74,59 2 40 80 79,23 3 57 81 89,09 4 60 98 90,83 Как было упомянуто ранее, эти величины могут быть использованы для того, чтобы получить прогнозируемые значения критериальной переменной для всех участников тестирования путем подстановки их тестовых баллов в следующее регрессионное уравнение: Y=56,03 +0,58(Х) Прогнозируемая оценка руководителя = 56,03 + 0,58 (тестовый балл). Например, для респондента с тестовым баллом 69 прогнозируемая оценка руководителя составляет 96,05: ¥=56,03 + 0,58(69), ¥=96,05. Сходным образом, для респондента с тестовым баллом 70 прогнозируемая оценка руководителя составляет 96,63: ¥=56,03т 0,58(70), ¥=96,63. 327
Заметьте, что разница между этими двумя прогнозируемыми показателями составляет 0,58 (96,63 - 96.05 = 0,58), что соответствует наклону линии регрессии в регрессионном уравнении. Другими словами, отклонение в тестовом балле на 1 пункт влечет за собой отклонение в значении критериальной переменной на 0,58. Если подсчитать прогнозируемые значения критериальной переменной для большого числа тестовых баллов, можно построить линейный график регрессии (линию наилучшего соответствия). Каждая точка на графике линейной регрессии связана с прогнозируемым значением Y для каждого из X. Этот график используется для того, чтобы проиллюстрировать связь между прогнозируемыми значениями критериальной переменной и тестовыми баллами. В табл. 11.1 приведены прогнозируемые показатели Y для каждого из респондентов. На графике на рис. 11.4 для каждого из респондентов изображены показатели по тесту и по критериальной переменной (точками), а также показана линия регрессии, которая отражает прогнозируемые оценки кандидата руководителем. 100 - 40 45 50 Балл по тесту способностей Рисунок 11.4. Баллы респондента по тесту способностей и экспертные оценки руководителя: график рассеивания и линия регрессии «Универсальная мера»: общее регрессионное уравнение Оценка прогностической ошибки теста обычно начинается с определения того, что произойдет, если ошибка не будет обнаружена. Если тест не подвержен 328
систематической прогностической ошибке, одно регрессионное уравнение должно быть одинаково применимо к разным группам респондентов. Предположение о том, что к разным группам респондентов подходит общее регрессионное уравнение, основано на рассмотрении теста как «универсальной меры», не зависящей от пола, этнической принадлежности, культуры и любых других групповых различий. В этом случае прогностическая способность теста должна адекватно выражаться одним и тем же регрессионным уравнением. . Представьте, что вы предлагаете тест способностей большому количеству кандидатов на прохождение обучающей программы (например, 100 человек). Предположим, в выборке равное количество мужчин и женщин и вы хотите убедиться, что тест не подвержен систематической ошибке относительно пола респондентов. Чтобы начать исследование этой проблемы, вы можете рассчитать регрессионное уравнение, основанное на данных всей выборки вне зависимости от пола. Представьте, что в этом уравнении а = 56.03, а наклон линии регрессии b = 0,58. Эти величины характеризуют общее регрессионное уравнение и, следовательно, будут называться общим свободным членом и общим наклоном линии регрессии. Таким образом, если ваш тест на выявление способностей не подвержен систематической ошибке относительно пола, общее регрессионное уравнение должно быть одинаково применимо как к мужчинам, так и к женщинам. Чтобы оценить наличие прогностической ошибки, необходимо провести дополнительные серии регрессионного анализа. Чтобы определить, действительно ли общее регрессионное уравнение одинаково применимо как для мужчин, так и для женщин, необходимо рассчитать одно регрессионное уравнение для мужчин и одно - для женщин. Затем нужно сравнить эти уравнения с общим регрессионным уравнением. Если коэффициенты внутригрупповых регрессионных уравнений не совпадают с коэффициентами общего регрессионного уравнения, можно предположить, что тестовые баллы подвержены систематической ошибке. На практике для такого рода анализа существует множество сложных статистических процедур, однако представленное здесь обсуждение будет сконцентрировано на более концептуальном уровне. Чтобы разъяснить специфику интерпретации различного рода результатов, сначала сосредоточимся на систематической ошибке свободного члена, а затем - на систематической ошибке наклона линии регрессии. На практике, однако, группы с большей степенью вероятности будут различаться в обоих элементах регрессии сразу. Поэтому ниже будет также проиллюстрирован эффект систематической ошибки одновременно как в свободном члене регрессии, так и в наклоне регрессионной линии. Систематическая ошибка свободного члена регрессии Предположим, что регрессионный анализ внутри групп показывает, что и в группе мужчин, и в группе женщин наклон линии регрессии совпадает с общим регрессионным уравнением, но значения свободного члена расходятся со значением, данным в общем регрессионном уравнении. В этом случае можно 329
предположить, что тест подвержен систематической ошибке свободного члена регрессии. Например, представьте, что в рассматриваемом примере с тестом технических способностей регрессионный анализ проводится отдельно для 50 мужчин и для 50 женщин. Обнаруживается, что для обеих групп наклон линии регрессии b составляет 0,58, что совпадает с наклоном линии регрессии в общем регрессионном уравнении. Однако обнаруживается также, что значение свободного члена регрессии в группе мужчин а = 58,03, а в группе женщин а = 54,03. Следует заметить, что данные внутригрупповые значения свободного члена регрессии расходятся со значением свободного члена в общем регрессионном уравнении. Следовательно, тест, вероятно, подвержен систематической ошибке свободного члена регрессии. Каковы же следствия наличия этой ошибки? Тот факт, что значение свободного члена регрессии в группе мужчин выше, чем в группе женщин, указывает на то, что при любом одинаковом уровне способностей экспертная оценка руководителей для мужчин будет выше, чем для женщин. Чтобы проиллюстрировать это, рассчитаем прогнозируемые значения критериальной переменной для мужчин с тестовым баллом, равным 70, и для женщин с таким же тестовым баллом: Прогнозируемое значение критериальной переменной для мужчин = 58,03 + 0,58(70), Прогнозируемое значение критериальной переменной для мужчин = 98,63, Прогнозируемое значение критериальной переменной для женщин = 54,03 + 0,58(70), Прогнозируемое значение критериальной переменной для женщин = 94.63. Данные расчеты показывают, что при одинаковом уровне способностей у мужчин и у женщин прогнозируемая экспертная оценка руководителя в группе мужчин будет на 4 пункта выше. Если предположить, что критериальная переменная сама по себе не подвержена систематической ошибке (это предположение будет рассмотрено ниже в данной главе), данное расхождение в значениях показывает, что тест технических способностей для мужчин и для женщин «работает» по-разному. Как было показано ранее, прогнозируемое значение критериальной переменной в общем регрессионном уравнении при тестовом балле, равном 70. составляло 96,63. Сравнивая данный результат с внутригрупповыми результатами, приходим к выводу, что общее регрессионное уравнение преуменьшает экспертную оценку руководителя для мужчин и преувеличивает для женщин. Таким образом, тест оказывается подверженным прогностической систематической ошибке. Если тест подвержен только лишь систематической ошибке свободного члена регрессии, величина расхождения между группами будет оставаться постоянной при всех значениях тестового балла. Выше было показано, что расхождение по прогнозируемому значению критериальной переменной между мужчиной и женщиной, тестовые баллы которых равны 70, составило 4 пункта. 330
Если тест способностей подвержен систематической ошибке только лишь свободного члена регрессии, такое же расхождение будет наблюдаться при любом из возможных тестовых баллов. Это проиллюстрировано на рис. 11.5, где изображена как общая линия регрессии (пунктиром), так и линии регрессии отдельно для двух групп. Как показано на рисунке, эти линии параллельны, что означает, что прогнозируемая экспертная оценка руководителя для респондента- мужчины с определенным уровнем технических способностей всегда будет на 4 балла превышать такую оценку для респондента-женщины с таким же уровнем технических способностей. Рисунок 11.5. Графики линейной регрессии в группах мужчин и женщин по сравнению с графиком общего регрессионного уравнения (иллюстрация систематической ошибки свободного члена регрессии) Систематическая ошибка углового коэффициента регрессии Прогностическая ошибка теста может проявляться также через ошибку наклона линии регрессии. Предположим, что регрессионный анализ показал, что значение свободного члена регрессии для группы мужчин и для группы женщин является сходным с аналогичным значением в общем регрессионном уравнении, однако показатель наклона линии регрессии в этих группах отличается от общего. Это означает, что связь между тестовыми баллами и значениями критериальной переменной в двух группах различается. Например, предположим, что значение свободного члена регрессии а для обеих групп составляет 56,03, что сходится со значением свободного члена в общем регрессионном уравнении. Однако значение наклона линии регрессии для мужчин составляет b = 0,53, а для женщин Ь = 0,63. Следует заметить, что данные значения наклона линии регрессии отдельно для двух групп респондентов отличаются от наклона, общего для двух групп (0,58). 331
Наклон пинии регрессии значительным образом отражается на степени расхождения между прогнозируемыми значениями критериальной переменной для двух групп. Тот факт, что наклон линии регрессии в группе мужчин меньше, чем наклон линии регрессии в группе женщин, показывает, что систематическая ошибка варьирует в зависимости от полученного тестового балла. Чтобы проиллюстрировать это, следует рассчитать прогнозируемые значения критериальной переменной для мужчины с тестовым баллом, равным 70,- и для женщины с таким же тестовым баллом: Прогнозируемое значение критериальной переменной для мужчин = 56,03 + 0,53(70). Прогнозируемое значение критериальной переменной для мужчин = 93,13. Прогнозируемое значение критериальной переменной для женщин = 56,03 + 0,63(70). Прогнозируемое значение критериальной переменной для женщин = 100,13. Результаты показывают, что при тестовом балле, равном (как у мужчины, так и у женщины) 70, прогнозируемое значение критериальной переменной для женщины будет на 7 баллов выше, чем для мужчины. Рассчитаем теперь прогнозируемое значение критериальной переменной для мужчины и для женщины, тестовый балл которых (по тесту технических способностей) составляет 60. Прогнозируемое значение критериальной переменной для мужчин = 56,03 + 0,53(60). Прогнозируемое значение критериальной переменной для мужчин = 87,83. Прогнозируемое значение критериальной переменной для женщин = 56,03 + 0,63(60). Прогнозируемое значение критериальной переменной для женщин = 93,83. В данном случае прогнозируемое значение критериальной переменной для женщины превышает «мужское» уже на 6 баллов. Таким образом, систематическая ошибка (т. е. степень, в которой прогнозируемые значения критериальной переменной различаются у мужчин и женщин, имеющих одинаковые тестовые баллы) является относительно незначительной для относительно низких уровней выраженности технических способностей, но с повышением уровня выраженности способностей увеличивается. Другими словами, расхождение между прогнозируемыми значениями критериальной переменной будет увеличиваться по мере увеличения полученных респондентами тестовых баллов. Такого рода «чистая» систематическая ошибка наклона линии регрессии изображена на рисунке 11.6, который показывает, что линии регрессии для мужчин и для женщин уже не параллельны друг другу, а расходятся. 332
Мужчины Балл по тесту способностей Рисунок 11.6. Графики линейной регрессии в группах мужчин и женщин по сравнению с графиком общего регрессионного уравнения (иллюстрация систематической ошибки наклона линии регрессии) Смешанная систематическая ошибка свободного члена и наклона линии регрессии До сих пор рассматривались лишь «чистые» систематические ошибки свободного члена регрессии или наклона линии регрессии - случаи, в которых систематической ошибке подвержен либо первый элемент, либо второй, но не взятые вместе. Подводя итог, можно отметить, что «чистая» систематическая ошибка свободного члена регрессии показывает, что между двумя группами существует расхождение в предсказанном значении критериальной переменной, кроме того, величина этого расхождения с изменением тестового балла не меняется. И наоборот, «чистая» систематическая ошибка наклона линии регрессии показывает, что величина расхождения изменяется вместе с изменением тестовых баллов, получаемых респондентами. Также возможно (и чаще всего происходит на практике) одновременное присутствие систематической ошибки и свободного члена, и наклона линии регрессии. В таком случае между тестовыми баллами и прогнозируемым значением критериальной переменной в двух разных будет наблюдаться сложная взаимосвязь. Например, может оказаться, что при низком уровне технических способностей прогнозируемое значение критериальной переменной для мужчин будет выше, чем для женщин; однако же при высоком уровне технических способностей прогнозируемое значение критериальной переменной будет выше в группе женщин. Возможны весьма различные варианты такого рода расхождений, один из них изображен на рис. 11.7. 333
Рисунок 11.7. Графики линейной регрессии в группах мужчин и женщин по сравнению с графиком общего регрессионного уравнения Систематическая ошибка критериальной переменной До сих пор обсуждение систематической прогностической ошибки было сосредоточено вокруг самого валидизируемого теста. Однако также возможны случаи, когда систематической ошибке подвержена критериальная переменная. Например, возможно, что руководитель, проводящий оценку компетентности участников после прохождения ими обучающей Программы, склоняется в пользу одной из групп. Тест, использующийся в качестве критериальной переменной, например, 100-пунктовый тест технической компетентности, также может быть подвержен ошибке. В приведенных выше рассуждениях всегда подразумевалось, что критериальная переменная систематическую ошибку не содержит, но, естественно, такой вариант тоже возможен. Эффект надежности Следует понимать, что и угловой коэффициент регрессии (наклон линии), и значение свободного члена зависят от надежности тестовых показателей. В приведенном выше обсуждении подразумевалось, что валидизируемый тест и критериальная переменная обладают высокой надежностью (напр., Rxx > 0.90). Уменьшение надежности тестовых показателей может оказать значительное влияние на параметры регрессионного уравнения и, как следствие, повлиять на заключение исследователя о наличии прогностической погрешности. Эти вопросы являются довольно сложными и выходят за рамки данной книги, но заинтересованному читателю можно порекомендовать А.Р. Дженсена (Jensen, 1980, глава 9). 334
Другие статистические методы Следует также отметить, что для обнаружения систематической ошибки тестовьгх баллов используются и другие статистические методы, до сих пор нами не затронутые. Например, такой метод, как моделирование структурными уравнениями, при определенных условиях может определить наличие .как конструктной, так и прогностической систематической ошибки. В качестве статистического метода оценки прогностической систематической ошибки в данной главе рассматривался регрессионный анализ. Такие более сложные регрессионные методы, как. например, иерархическая регрессия, расширяют возможности традиционного подхода и предоставляют исследователям возможность тестировать гипотезы о конкретных источниках ошибки. Моделирование структурными уравнениями и такие регрессионные методы, как иерархическая регрессия, являются довольно сложными статистическими процедурами, рассмотрение которых выходит за рамки данной книги. Справедливость теста Наконец, остановимся вкратце на такой противоречивой проблеме психологического тестирования, как справедливость теста. Когда результаты психологического теста используются для принятия решений, которые влияют на жизнь людей, респонденты, принадлежащие к определенной группе (напр., к определенным этническим или расовым меньшинствам) могут посчитать, что результаты теста являются несправедливыми и неблагоприятными для членов именно этой группы. Например, предположим, работодатель использует определенный психологический тест, чтобы отобрать потенциальных сотрудников. Предположим, что в среднем мужчины справляются с тестом лучше женщин, поэтому более вероятно, что на работу наймут мужчин. Женщины могут посчитать, что результаты теста используются несправедливо. Очень важно отличать справедливость теста от систематической ошибки теста. Как уже говорилось, необъективность/предвзятость теста - это психометрическое понятие, используемое в теориях валидности тестовых показателей. Систематическая ошибка определяется в рамках психометрических теорий статистическими методами, которые позволяют исследователям принимать решение о наличии или отсутствии погрешности измерения. Справедливость теста, наоборот, не имеет отношения к психометрическим свойствам. Справедливость теста имеет отношение к правильному использованию результатов тестирования и является скорее социальным, философским и, возможно, правовым термином, который отражает ценностное суждение (Ghiselli et al., 1981; Jensen, 1980; Thorndike, 2005). Здесь уместно было бы вспомнить старинный афоризм о том, что справедливость - в глазах смотрящего. Можно опросить респондентов о том, считают ли они тест справедливым, но их ответы не будут иметь ничего общего с 335
психометрическими свойствами данного теста. Возможен вариант, когда исследователь имеет убедительные доказательства того, что показатели определенного теста не подвержены систематической ошибке, однако у большинства респондентов складывается мнение, что показатели теста используются несправедливо. Более того, они могут быть правы, потому что справедливость теста и необъективность/предвзятость теста - два разных понятия, которые существуют в различных областях знания, в научной сфере и в общественно-политической сфере. Справедливость теста - важная проблема психологического тестирования. Психологическое тестирование предполагает выбор и администрирование теста, а также интерпретацию его результатов. Предполагается, что психодиагносты должны быть знакомы с психометрическими свойствами используемого теста. Те действия, которые психодиагносты производят с результатами теста, могут повлиять на суждение респондентов о его справедливости. Более того, даже тест с высокими психометрическими качествами может быть использован для принятия несправедливых решений. Справедливость теста является важной социальной проблемой. Психометрические свойства теста, включая информацию о потенциальном наличии систематической ошибки, всегда должны служить фактором применения теста в той или иной сфере, однако они не всегда влияют на то, как справедливость теста будут оценивать сами респонденты. Резюме В нескольких последних главах затрагивался ряд вопросов, имеющих большое значение для определения понятий надежности и валидности. В главе 8 были представлены концептуальные основы валидности, имеющие отношение к интерпретации и использованию результатов теста. Также в ней были рассмотрены несколько видов эмпирических показателей, свидетельствующих о валидности теста (напр., внутренняя структура теста, взаимосвязь теста с другими переменными). В главе 9 рассматривались методы, которые используются, чтобы оценить «помологическую сеть» результатов тестирования: например, такие методы, как матрица множественных методов и признаков и квантификация конструктной валидности. Данные методы могут быть использованы для того, чтобы определить, насколько взаимосвязь результатов тестирования с другими переменными соответствует той, которая была предсказана на основе теоретического конструкта. Данная и предыдущая главы представили на рассмотрение анализ тех факторов, которые могут представлять угрозу для надежности и валидности интерпретации и использования тестовых баллов. В главе 10 рассматривались установки респондента на тот или иной ответ (напр.. установка на согласие, установка на социальную желательность). Систематическая ошибка, связанная с установками на ответ, искажает истинные индивидуальные различия между респондентами. В главе 11 рассматривалась уже необъективность/предвзятость 336
теста, которая приводит к тому, что систематически искажаются (или создаются) различия между группами респондентов. Существуют простые и широко распространенные методы работы с установками респондентов на тот или иной ответ. Что касается методов работы с систематической ошибкой теста, они несколько противоречивы и во многом выходят за пределы данной книги. Для того чтобы познакомиться с современными исследованиями данных вопросов, рекомендуем заинтересованным читателям обратиться к работам таких авторов, как П.Р. Саккетт, Н. Шмитт и Дж.И. Эллингсон (Sackett. Schmitt. Ellingson, 2001). В целом можно отметить, что валидность интерпретации и использования тестовых баллов - фундаментальная проблема, с которой сталкиваются ученые, изучающие поведение и использующие для этого методы психологического измерения. Спустя десятилетия концептуальной и методологической работы разработчики, пользователи и исследователи тестов определили значение и способы оценки валидности. Несмотря на то что факторы, угрожающие валидности, до сих пор существуют, психологи добились значительного прогресса в идентификации этих факторов и в разработке различных стратегий для их выявления, предотвращения или сведения к минимуму. Тем не менее, психологические тесты должны использоваться и интерпретироваться в тесном соотношении с теоретическими и практическими основами их значения и применения, которые описаны в предыдущих главах. Рекомендуемая литература Одна из самых полных и информативных работ по проблемам систематической ошибки теста и справедливости его использования: Jensen, A.R. (1980).5ms in mental testing. New York: Free Press. 337
Часть V. СОВРЕМЕННЫЕ ПСИХОМЕТРИЧЕСКИЕ ПОДХОДЫ: ВЫСШАЯ ПСИХОМЕТРИКА
ГЛАВА 12 Теория генерализуемости тестовых баллов Доктор Джонсон - специалист в области возрастной психологии. Она особенно интересуется исследованием агрессивности у подростков. Есть несколько вариантов того, как она может в своих исследованиях проводить измерение агрессивности. Она могла бы попросить «целевых» респондентов заполнить самооценочный опросник на агрессивность, либо же она могла бы опросить друзей этих респондентов, и в таком случае уровень агрессивности респондента оценивался бы не им самим, а его друзьями. С другой стороны, она могла бы постараться избежать использования опросников и измерить агрессивность испытуемого путем наблюдения за его поведением. Например, доктор Джонсон могла бы попросить испытуемых в течение пяти минут разговаривать с незнакомцем противоположного пола и записать этот разговор на видеокамеру. Затем она могла бы привлечь к работе свою помощницу, Дорис, попросив ее просмотреть записи и оценить у каждого из участников исследования уровень поведенческой агрессии. Понимая необходимость использования нескольких мер, она могла бы попросить Дорис оценить каждого испытуемого по трем позициям, которые, как она считает, связаны с агрессивностью, - враждебный, злой и недоброжелательный. Цель, которую преследует доктор Джонсон, - количественно выразить индивидуальные различия респондентов в отношении агрессивности, которую они проявляют. Данная стратегия измерения хорошо вписывается в классическую теорию тестов (Classical test theory, СТТ) - психометрический подход, описанный ранее в главах, посвященных проблеме надежности. Эта стратегия относительно проста, оценивается лишь один потенциальный источник ошибки измерения - различия пунктов (вопросов, заданий или утверждений) теста. В данном случае классическая теория тестов может применяться доктором Джонсон для оценки степени вклада межпунктовых различий в общую погрешность измерения. На 339
основе определения межпунктовой корреляции она могла бы вычислить коэффициент надежности «альфа» для трехпунктовой шкалы агрессивности. Кроме того, она могла бы воспользоваться процедурами типа формулы Спирмена Брауна и предсказать коэффициент надежности шкалы с большим или меньшим набором сходных по смыслу пунктов. Данная относительно простая исследовательская стратегия, однако, может вызвать у доктора Джонсон некоторые сомнения. В частности, ее может обеспокоить то, что для оценки поведенческих проявлений агрессивности приходится надеяться лишь на одного наблюдателя. Будучи уникальной личностью, Дорис обладает своим неповторимым способом мышления и интерпретации событий, включая интерпретацию поведения, потенциально связанного с агрессией. Например, Дорис может иметь склонность воспринимать сарказм как проявление агрессии. Когда испытуемый делает саркастичное замечание, Дорис воспринимает это замечание как агрессивное, хотя многие другие наблюдатели могли бы воспринять его как шутку. Исходя из данных соображений, доктор Джонсон могла бы нанять еще двух наблюдателей. Кена и Тима, которые также должны будут смотреть видеозаписи и оценивать поведение испытуемых. При такой организации исследования каждый из наблюдателей независимо оценивает каждого из испытуемых по каждому из пунктов (враждебный, злой, недоброжелательный). Затем доктор Джонсон объединит оценки трех независимых наблюдателей и получит обобщенные баллы агрессивности, надеясь на то, что эти баллы будут более объективными, потому что уникальные особенности интерпретации поведения одним наблюдателем будут сглаживаться уникальными особенностями интерпретации поведения другим наблюдателем. Несмотря на то что классическая теория тестов находит широкое применение для концептуализации и оценки качества многих измерительных методов, в данном случае для улучшенной стратегии измерения, использованной доктором Джонсон, она неприменима. Улучшенная стратегия более сложна, поскольку включает в себя несколько компонентов, каждый из которых может быть рассмотрен как источник ошибки измерения. В то время как первоначальный вариант ее исследования включал в себя только лишь набор пунктов, последний вариант включает в себя два компонента измерения - набор пунктов и набор наблюдателей. Возможно, разные компоненты измерения по- разному влияют на его общее качество. Например, возможен вариант, при котором три пункта работают на измерение агрессивности адекватно, однако различные наблюдатели в своих оценках поведения испытуемых значительно расходятся. Несмотря на потенциальную важность такого рода различий, классическая теория тестов не может развести различные компоненты измерительного процесса. Раздельная оценка влияния различных компонентов измерения на его общее качество, а также внесение соответствующих поправок в процесс тестирования становятся возможными при применении подхода, получившего название «теория генерализуемости тестовых баллов». В данной главе будет представлена общая логика и процедура психометрического анализа, основанного на теории генерализуемости (G- 340
теория; Cronbach, Gleser, Nanda, & Rajaratnam. 1972). Сначала будут раскрыты основные понятия G-теории и проведено ее сопоставление с классической теорией тестов. Затем будут приведены два примера применения G-теории, иллюстрирующие ее логические основания, вычисления и интерпретацию. Первый пример относительно прост, он направлен на то, чтобы познакомить читателя с процессом G-анализа и показать его параллели с психометрическим анализом на основе классической теории тестов. Второй пример более слажен, его задача - показать большую степень гибкости G-теории. В конце главы будут обсуждаться несколько вопросов, имеющих значение для организации процесса и интерпретации результатов психометрического анализа, основанного на теории генерализуемости тестовых баллов. Множественные компоненты измерения Теория генерализуемости тестовых баллов может применяться для психометрических исследований сложноорганизованных измерений, в которых на общее качество измерения могут влиять различные его компоненты. Данное положение составляет фундаментальное и потенциально ценное отличие G- теории от классической теории тестов. Вариативность в результатах психологического тестирования может быть вызвана различными компонентами измерения; в свою очередь, различные компоненты измерения могут различным образом влиять на общее качество тестирования. В этом плане доктора Джонсон могут интересовать, например, количество пунктов, количество наблюдателей, а также то, каким образом на качество измерения влияет взаимодействие данных двух факторов. С точки зрения классической теории, общая дисперсия тестовых баллов подразделяется лишь на два компонента: дисперсия измеряемого признака («истинных баллов») и дисперсия ошибки. В классической теории тестов дисперсия ошибки рассматривается как недифференцированная, аморфная и монолитная (R.L.Brennan, 2001; Cronbach et al., 1972). Таким образом, классическая теория не может дифференцировать эффекты различных компонентов измерения, например, пунктов и наблюдателей, объединяя их в единую «ошибку измерения». Выбранный доктором Джонсон метод исследования дает по девять оценок для каждого из респондентов - три наблюдателя, оценивающие видеозаписи по трем пунктам. В рамках классической теории данные девять оценок могут рассматриваться лишь как девять однотипных «тестов» на агрессивность. В противоположность этому, G-теория рассматривает ошибку измерения как составную из нескольких компонентов. Другими словами, теория генерализуемости тестовых баллов может быть использована для исследования влияний, оказываемых различными аспектами измерительной стратегии на общее психометрическое качество измерения. Существует множество теоретических и практических причин, по которым исследователь мог бы захотеть разграничить различные источники ошибки измерения. Так, доктор 341
Джонсон может быть заинтересована в том, чтобы рассмотреть пункты экспертного опросника и самих наблюдателей как отдельные, однако потенциально взаимосвязанные источники ошибки измерения. По теоретическим причинам доктора Джонсон может интересовать восприятие учителями агрессивного поведения учеников. С этой целью она может провести исследование, в котором несколько взрослых наблюдателей оценивают агрессивность подростков в процессе их взаимодействия друг с другом. В связи с задачами данного исследования, ее интересуют индивидуальные особенности наблюдателей в восприятии агрессивного поведения, а потому ей может быть необходимо отделить этот источник ошибки измерения от ошибки, связанной с различием самих пунктов. С другой стороны, для разграничения пунктов и наблюдателей как различных компонентов измерительного процесса у доктора Джонсон могут быть и практические причины. К примеру, планируется масштабное исследование агрессии, и может быть необходимо разработать эффективный и надежный метод измерения агрессивности в поведении. В плане необходимого времени и финансовых средств делать ставку на количество наблюдателей менее выгодно, чем делать ставку на количество пунктов - включение в исследование каждого дополнительного наблюдателя (например, переход от трех наблюдателей к пяти), вероятно, более затратно, чем простое включение в тест дополнительных пунктов (например, расширение теста с трех пунктов до пяти). Тем не менее, доктор Джонсон еще не знает психометрические последствия добавления (или удаления) наблюдателей или пунктов. Возможно, общее качество теста на агрессивность при добавлении дополнительных наблюдателей возрастет достаточно сильно, а при добавлении новых пунктов - лишь незначительно. Чтобы оценить потенциальные преимущества различных измерительных стратегий для своего масштабного исследования, доктор Джонсон проводит небольшое пилотное исследование с применением трех пунктов и трех наблюдателей. Руководствуясь в анализе полученных данных теорией генерализуемости тестовых баллов, она сможет оценить психометрическое качество различных комбинаций количества наблюдателей и количества пунктов (например, два наблюдателя и четыре пункта, три наблюдателя и два пункта). Можно оценить качество измерения, наиболее вероятное для каждой из таких комбинаций. Используя эту информацию вместе с информацией о стоимости добавления новых наблюдателей и/или пунктов, доктор Джонсон сможет выбрать оптимальную (с точки зрения качества и эффективности) стратегию для своего будущего полномасштабного исследования. На языке G-теории каждый из аспектов измерительной стратегии называется компонентом измерения, а сами эти стратегии частично определяются по количеству задействованных в них компонентов измерения. Рассмотрим первоначальный вариант исследования доктора Джонсон - три пункта, один наблюдатель в одной ситуации и в один момент времени. Поскольку данное исследование систематически включает в себя более чем один пункт, разница пунктов в данной исследовательской стратегии является 342
единственным компонентом измерения. Другими словами, формулировка пункта может влиять на результаты исследования, и анализ генерализуемости тестовых баллов может быть использован для оценки психометрического эффекта различий между пунктами. В измерительной стратегии рассматриваемого исследования больше не было характеристик, которые проявлялись бы более чем на одном уровне или в одной форме — исследование включало в себя три различных пункта, но лишь одного наблюдателя (Дорис), лишь одну ситуацию (беседа с незнакомцем противоположного пола) и лишь один момент времени. При такой организации исследования теория генерализуемости тестовых баллов не может быть использована для оценки различий между наблюдателями. Сходным образом, поскольку в исследовании использовалась лишь одна ситуация наблюдения, G-теория не может быть применена для оценки различий между ситуациями. Тем не менее, поскольку в исследование было включено три разных пункта, G-теорию в данном случае можно применить для оценки различий между пунктами. Поскольку исходный вариант организации исследования доктора Джонсон включает в себя лишь одну характеристику измерительной стратегии, проявляющуюся более чем на одном уровне (пункты), данный исследовательский дизайн в терминологии G-теории называется однокомпонентным. Более сложные исследовательские стратегии включают в себя несколько компонентов измерения. Во второй вариант исследования доктора Джонсон было включено несколько разных пунктов и несколько разных наблюдателей (Дорис, Кен, Тим). Данный исследовательский - дизайн является двухкомпонентным, и у доктора Джонсон появляется возможность оценить не только различия между пунктами, но и различия между наблюдателями. Как будет показано ниже, такая усложненная стратегия приводит к постановке некоторых интересных и потенциально важных психометрических вопросов. Усложняя дизайн исследования еще дальше, доктор Джонсон могла бы проводить наблюдение за испытуемыми в двух ситуациях - общение с незнакомцем того же пола и общение с незнакомцем противоположного пола. Для такого рода исследования она могла бы попросить трех наблюдателей оценить испытуемых по трем пунктам в каждой из двух ситуаций. Данный исследовательский дизайн будет трехкомпонентным - пункты, наблюдатели и ситуации. Данный трехкомпонентный дизайн сделает возможной постановку большего количества интересных и потенциально важных психометрических вопросов, в том числе выходящих за пределы возможностей двухкомпонентного дизайна. Генерализуемость тестовых баллов и компоненты дисперсии Как подразумевает само название G-теории, в ее основе лежит понятие генерализуемости тестовых баллов. Коротко говоря, качество измерения в 343
теории генерализуемости тестовых баллов оценивается с позиций распространения выводов с а) баллов, основанных на ограниченном количестве наблюдений, на б) баллы, основанные на практически исчерпывающем количестве наблюдений. Как правило, при измерении психологической или поведенческой переменной используется лишь ограниченное количество наблюдений. Так, первоначальный вариант исследования доктора Джонсон включал в себя лишь три пункта - враждебный, недоброжелательный и злой. Традиционный для G- теории предмет исследования - то, насколько баллы, полученные на ограниченном наборе пунктов, включенных в экспертный опросник, соответствуют баллам, которые были бы получены при использовании всего большого «универсума» пунктов. В некотором смысле использованные доктором Джонсон три пункта на агрессивность представляют собой выборку из генеральной совокупности («универсума») возможных пунктов, отражающих агрессивное поведение. В ее исследование могло бы быть включено множество других пунктов (например, протестный, антагонистичный, вспыльчивый и т. д.), и существует вероятность, что разные пункты в исследовании давали бы несколько разные результаты. Таким образом, исследователю необходимо оценивать степень репрезентативности использованных в тесте пунктов относительно множества других возможных пунктов на агрессивность. Хотя доктор Джонсон использовала в экспертном опроснике лишь три пункта, ей хотелось бы считать, что данные три пункта приводят к получению баллов, репрезентативных (генерализуемых, соотносимых) по отношению к тем баллам, которые были бы получены при условии использования всех возможных пунктов на агрессивность. В этом плане G-теорию можно назвать расширением теории множественных выборок тестовых заданий, описанной в главе 5. В данной главе описывалось понятие совокупности всех возможных заданий теста, и из этого понятия выводилось понятие надежности. Сходным образом, G-теория основана на понятии «универсума» пунктов (или других методов или аспектов измерения), и надежность понимается в терминах способности обобщать результаты с небольшого набора пунктов на весь «универсум». В качестве еще одного примера рассмотрим баллы, получаемые спортсменами на олимпийском соревновании по фигурному катанию. В системе оценки, используемой сегодня на олимпийских соревнованиях по фигурному катанию, успешность выступления спортсменов оценивается девятью судьями (Новая система оценивания Международного союза конькобежцев ISU). Девять судей выбираются по критериям их квалификации, однако их можно рассмотреть и как небольшую выборку из большой совокупности квалифицированных судей со всего мира. Далее, с позиций теории генерализуемости тестовых баллов, баллы, которые присуждают выступающим данные девять судей, должны соответствовать баллам, которые были бы присуждены выступающим, если бы их оценивали все квалифицированные судьи мира. Другими словами, хотелось бы верить, что используемые на соревновании баллы генерализуются за пределы несколько предвзятого 344
восприятия девяти людей, которым случилось быть избранными в качестве судей. Ранее в данной книге при обсуждении проблемы надежности большое внимание уделялось понятию согласованности. Согласованность является важным понятием и для теории генерализуемости тестовых баллов. В предыдущих главах надежность была представлена как согласованность между тестовыми баллами и истинными баллами; было показано, что оценка надежности выводится из измерения степени согласованности между пунктами теста. С позиций теории генерализуемости тестовых баллов доктор Джонсон заинтересована в степени согласованности между результатами ее трехпунктового теста и результатами гипотетического теста, составленного из всех возможных пунктов на агрессивность. Говоря конкретнее, доктора Джонсон интересует степень согласованности между дисперсией тестовых баллов и дисперсией баллов по «универсуму» всех возможных пунктов. В G-анализе оценки генерализуемости тестовых баллов основаны на компонентах дисперсии, отражающих степень согласованности с «универсумом» для каждого из элементов исследовательского дизайна (Shavelson & Webb, 1991). Например, один из компонентов дисперсии отражает вариативность в большой совокупности людей (т. е. популяции), из которой была выбрана исследуемая выборка. Для еще более глубокого понимания компонентов дисперсии представьте себе, что респондент получает балл по каждому из пунктов всего «универсума» пунктов на агрессивность. Эти баллы усредняются и приводят к получению «универсального балла» — в том смысле, что этот балл основан на целом универсуме пунктов. Представьте теперь, что каждый человек из популяции был протестирован с использованием всех возможных пунктов на агрессивность и получил такой «универсальный балл». Тогда еще одним компонентом дисперсии является вариативность «универсальных баллов» в популяции респондентов. Не следует сильно беспокоиться по поводу точного значения данного весьма абстрактного понятия. Вероятно, достаточно понять, что компоненты дисперсии отражают вариативность в большой совокупности наблюдений. G-Анализ и D-Анализ G-теория может использоваться различными способами, однако основной процесс психометрического анализа в ее рамках предполагает две стадии. На ; первой стадии оцениваются компоненты дисперсии. Идентифицируются s факторы, оказывающие влияние на наблюдаемую дисперсию тестовых баллов (и j через нее - на генерализуемость результатов); проводится количественная : оценка этих эффектов. Например, доктор Джонсон может оценить, насколько I полученные респондентами баллы по агрессивности обусловлены истинными s различиями самих респондентов, различиями пунктов, различиями | наблюдателей, а также тем, как эти три аспекта измерения взаимодействуют | друг с другом (например, разные наблюдатели могут использовать разные I 345
пункты каким-то особым образом). Данная стадия часто называется G-анализом, поскольку используется она для определения степени влияния различных аспектов (компонентов) измерения на генерализуемость тестовых баллов (Marcoulides, 1996). На второй стадии психометрического анализа в рамках G-теории результаты первого этапа используются для оценки генерализуемости различных комбинаций компонентов (аспектов) измерения. Так, доктор Джонсон может оценить количество пунктов и наблюдателей, которые потребуются ей для достижения коэффициента генерализуемости 0,80. В условиях реального исследования увеличение количества наблюдателей может быть сложным или затратным в финансовом плане, поэтому доктор Джонсон может быть также заинтересована в вычислении того количества пунктов, которое потребуется добавить для достижения определенного уровня генерализуемости в исследовательском дизайне с тем же количеством наблюдателей. Вторая стадия психометрического анализа в рамках теории генерализуемости зачастую называется D-анализом, поскольку используется она для принятия решений о модификации исследовательского дизайна (Marcoulides, 1996). Проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн Первый из рассматриваемых примеров будет иллюстрировать общую логику, вычисления и интерпретацию анализа генерализуемости тестовых баллов на основе относительно простой исследовательской стратегии. В качестве примера будет взят исходный исследовательский дизайн доктора Джонсон, в котором поведение респондентов оценивается одним наблюдателем по трем позициям (пунктам). Как было показано выше, это однокомпонентный исследовательский дизайн, поскольку в нем используется несколько пунктов, но лишь один наблюдатель, лишь одна ситуация, лишь один момент времени и т. д. Несмотря на то что данный пример будет использован для иллюстрации положений G-теории, к такого рода исследованиям применима и классическая теория тестов. Таким образом, данный пример будет использован для того, чтобы показать читателю, как теория генерализуемости пересекается с классической теорией тестов в случае простого, однокомпонентного исследовательского дизайна. Представьте, что доктор Джонсон набрала данные, приведенные в табл. 12.1. В этом примере пять испытуемых, поведение которых наблюдается Дорис и оценивается с использованием трех пунктов, связанных с агрессивностью. Для получения общего балла агрессивности для каждого из респондентов доктор Джонсон планирует вычислять среднее арифметическое по трем пунктам. Она надеется, что результаты исследования могут быть генерализованы на баллы, 346
которые были бы получены в случае тестирования респондентов всеми возможными пунктами из «универсума» пунктов, связанных с агрессивностью. Главной целью анализа является оценка степени такой генерализуемости. На первом этапе необходимо исследовать факторы, влияющие на оценку поведения респондентов и, как следствие, на психометрическое качество получаемых ими баллов агрессивности. Таблица 12.1 Гипотетические данные для однокомпонентного дизайна в рамках теории генерализуемости тестовых баллов: оценки пяти респондентов по трем пунктам Участник Пункт Среднее но пунктам Враждебный Злой Недоброжела- тельный Энн 3 3 3 3 Боб 1 1 2 1.3 Кэролин 3 3 4 3,3 Дрю 3 5 5 4.3 Элеанор 3 7 6 5,3 Среднее по участникам 2,60 3,80 4,00 Стадия 1: G-анализ На первой стадии анализа генерализуемости применяется дисперсионный анализ (ANOVA). С его помощью производится оценка компонентов дисперсии по каждому из факторов, оказывающих влияние на итоговые баллы респондентов. Как вы знаете, дисперсионный анализ ANOVA - это статистическая процедура, которая обычно применяется в экспериментальных исследованиях. Цель ANOVA - исследовать дисперсию в распределении баллов (например, оценок поведения респондентов) и разделить, или «разложить», эту дисперсию на компоненты, связанные с различными факторами (например, самими респондентами, пунктами и т. д.). Доктор Джонсон проводит дисперсионный анализ для исследования вариативности в наборе из 15 баллов - оценки пяти респондентов по трем пунктам. Результаты приведены в табл 12.2. ANOVA позволяет доктору Джонсон разделить исходные данные на набор эффектов и оценить долю (компонент) вариативности, связанные с каждым из них. В случае однокомпонентного дизайна на вариативность в распределении тестовых баллов могут влиять три фактора. Первый - это, конечно, индивидуальные различия респондентов по уровню агрессивности. Заметьте (см. табл. 12.1), что усредненный по трем пунктам балл агрессивности у Энн 347
(3.0.) ниже, чем аналогичный балл у Дрю (4,3). Это означает, что в целом Энн вела себя менее агрессивно, чем Дрю. Вариативность усредненных баллов у респондентов отражает то, насколько они отличаются друг от друга в терминах агрессивности. При прочих равных условиях качество измерения будет наилучшим тогда, когда респонденты отличаются друг от друга. Как уже обсуждалось ранее в главах, посвященных корреляции и надежности, вариативность между респондентами является ключевым компонентом процесса измерения. В сущности, это как раз тот фактор, который доктор Джонсон и надеется измерить в своем исследовании. Второй фактор - это степень различия между пунктами по усредненному для всех респондентов баллу агрессивности. Заметьте (см. табл. 12.1), что пункт «враждебный» в среднем оценивается ниже (2,60), чем «недоброжелательный» (4,00). Таблица 12.2 Гипотетические данные по наблюдению за поведением испытуемых: результаты дисперсионного анализа ANOVA и анализа генерализуемости Эффект Сумма квадратов Уравнения Оля оценки компонентов вариативности Компонент дисперсии % дис- пер- сии Индивидуальные различия респондентов (target) 4 27,067 6,767 1,967 0,608 Пункты 2 5,733 2,867 0,400 0,124 Остаток 8 6,933 0,867 0,867 0.268 Всего 14 39,733 3,233 1.000 Вариативность между данными показателями отражает то, насколько различные оценки поведения респондентов провоцируются использованием различных пунктов. Таким образом, тот факт, что 15 анализируемых баллов отличаются друг от друга, частично обусловлен тем, что разные пункты приводили к различным оценкам поведения. Так, (см. табл. 12.1) Энн и Дрю одинаково оцениваются по параметру «враждебный», однако по параметру «злой» Энн оценивается ниже, чем Дрю. Чему же верить? Являются ли Энн и Дрю одинаково агрессивными, или же Энн менее агрессивна, чем Дрю? Данная несогласованность между двумя пунктами частично искажает различия между Энн и Дрю, в связи с чем она и называется ошибкой измерения. В однокомпонентном исследовательском дизайне ANOVA выделяет два основных эффекта и остаток (или ошибку измерения). В большинстве экспериментальных применений анализа ANOVA для всех выделенных эффектов проводится проверка статистической значимости. Тем не менее, для анализа генерализуемости тестовых баллов такие проверки не требуются. Фактически результаты анализа ANOVA, особенно среднеквадратичные 348
отклонения, представляют для G-теории интерес лишь постольку, поскольку они позволяют оценивать компоненты дисперсии. В табл. 12.2 приведены результаты дисперсионного анализа ANOVA, а в табл. 12.3 - формулы оценки компонентов дисперсии для данного исследовательского дизайна. В дополнение к этому в табл. 12.2 приведены оценки компонентов дисперсии (коэффициенты с2) и процент объяснимой дисперсии для каждого из эффектов (вычисляется путем деления данного компонента дисперсии на сумму всех компонентов). Например, компонент дисперсии, связанный с индивидуальными различиями респондентов, вычисляется следующим образом: •, MS,-MSre, =------------- ", , 6,767-0,867 (5, =-------------- ' 3 2 5,9 °' ~ 3 ’ а,2 = 1,967. Таблица 12.3 Уравнения оценки компонентов дисперсии в исследовательском дизайне «респонденты х пункты» Эффект Уравнение Индивидуальные различия респондентов (target) 2 MS,-MSm = ni Пункты , MS.-MS^ (у- = ! Остаток o-L = Msrex Результаты показывают ту степень, в которой различные аспекты (компоненты) измерения влияют на общую оценку агрессивности респондентов. Абсолютная величина компонента дисперсии сложно поддается интерпретации. 349
поскольку она зависит от величины эффекта и шкалы измерения. В связи с этим более осмысленные результаты получаются при сравнении компонента дисперсии, связанного с определенным эффектом, с компонентами дисперсии других эффектов или же при рассмотрении компонента дисперсии в процентном отношении к общей вариативности. Основной эффект, представляющий наибольший интерес, - эффект индивидуальных различий между респондентами (target effect). Этот эффект отражает то, насколько различны у респондентов баллы агрессивности, усредненные по всем пунктам. Как показано в табл. 12.2, абсолютное значение компонента дисперсии для данного эффекта получилось наивысшим из всех (1,967). Фактически, различия между усредненными баллами агрессивности у респондентов объясняют более 60% общего разброса данных: 1,967 1,967 + 0,400 + 0,867 = 0.608. Для доктора Джонсон относительно большая величина данного компонента дисперсии (по сравнению с другими эффектами) - хорошая новость, поскольку целью исследования является выявление различий между респондентами. В сущности, основной эффект, связанный с индивидуальными различиями респондентов, является тем «сигналом», который пыталась обнаружить доктор Джонсон, и относительно высокий показатель по данному компоненту дисперсии означает, что сигнал достаточно силен. Если эффект индивидуальных различий респондентов - сигнал, который пытается обнаружить доктор Джонсон, необходимо рассмотреть также и шум, который может искажать этот сигнал. На основе теории генерализуемости возможно принятие одного из двух решений, которые по-разному обходятся с шумом, или ошибкой измерения. Чтобы не усложнять логику изложения, рассмотрим лишь «относительные» решения, которые теснее всего связаны с тем, как ошибка измерения и надежность понимаются в классической теории тестов. Относительные решения (известные также как ориентированные на норму) предполагают использование порядка респондентов относительно друг друга. Например, если некоторое почетное общество принимает в свои ряды лучшие 15% студентов, это общество будет заинтересовано в информации о порядковых рангах студентов, а решение о принятии будет основано на сравнении баллов одного студента с баллами других студентов. Ближе к концу главы будет приведено краткое описание другого типа решений, которые называются «абсолютными», или ориентированными на критерий. В рассматриваемом нами однокомпонентном исследовательском дизайне тем самым шумом, который может исказить сигнал эффекта, связанного с индивидуальными различиями респондентов, является эффект остатка. Если между респондентами существуют ярко выраженные различия, если все пункты являются хорошими индикаторами исследуемого психологического конструкта 350
и если оценки не подвержены влиянию случайных состояний респондентов и наблюдателя либо случайных изменений в контексте тестирования, то различия между респондентами должны быть постоянными для любых рассматриваемых пунктов. Другими словами, если стратегия измерения хороша, респонденты с высокими баллами по одному пункту должны также иметь высокие баллы по другим пунктам. Непоследовательность в баллах, полученных по разным пунктам, наводит на мысль о том, что не существует ярко выраженных различий между респондентами, пункты неодинаково адекватно отражают исследуемый конструкт, и/или оценки подвержены влиянию случайных посторонних факторов в ситуации тестирования. Последние два варианта (отношение пунктов к исследуемому конструкту и случайные эффекты) находят свое количественное выражение в компоненте дисперсии, связанном с эффектом остатка. В результатах, полученных доктором Джонсон, эффект остатка (67- ) невелик по сравнению с эффектом индивидуальных различий и объясняет лишь 27% общего разброса данных. Несколько углубляясь, рассмотрим также основной эффект пунктов и поясним, почему этот эффект не является источником ошибки при обнаружении индивидуальных различий между респондентами. Компонент дисперсии, связанный с основным эффектом пунктов, отражает степень того, насколько некоторые пункты в среднем оцениваются выше или ниже других. Как показано в табл. 12.1, усредненные по всем респондентам значения для трех пунктов варьируются от 2,6 до 4,0. Тот факт, что пункты различаются в своих усредненных оценках, никак не связан с проблемой их согласованного действия для ранжирования испытуемых относительно друг друга. Таким образом, поскольку основной эффект пунктов не нарушает способности доктора Джонсон обнаруживать индивидуальные различия между респондентами, данный эффект к ошибке измерения не относится. Стадия 2: D-анализ Вторая стадия исследования генерализуемости тестовых балов - D-анализ, который служит для эмпирического сопровождения будущих решений по поводу изменения исследовательского дизайна. Как уже говорилось, разработчикам тестов следует стремиться к максимизации качества и эффективности своего инструментария, однако эти две цели несколько противоречат друг другу. С одной стороны, для обеспечения высокого уровня генерализуемости в основном исследовании доктору Джонсон необходимо включить в экспертный опросник достаточно большое количество пунктов. С другой стороны, она предпочла бы включить в исследование небольшое количество пунктов, что упростит работу наблюдателя, минимизирует необходимое для измерения агрессивности время, даже сэкономит ей деньги. Проводя D-анализ, доктор Джонсон оценивает психометрическое качество различных возможных исследовательских стратегий, что позволяет ей подобрать наиболее подходящую для себя. 351
Чтобы провести D-анализ, для различных исследовательских стратегий вычисляются так называемые «коэффициенты генерализуемости». Если доктор Джонсон заинтересована в измерении индивидуальных различий между респондентами, ее, прежде всего, будут интересовать «относительные» коэффициенты генерализуемости. Как уже говорилось, коэффициент генерализуемости аналогичен надежности в терминах классической теории тестов, поскольку он отражает то, насколько наблюдаемые различия- между респондентами согласованы с различиями, которые были бы получены при использовании практически неограниченного числа наблюдений. Как и коэффициент альфа, коэффициент генерализуемости может принимать значения от 0 до 1,0. Как будет показано ниже, один из видов генерализуемости в некоторых исследовательских дизайнах равен коэффициенту «альфа». С концептуальной точки зрения коэффициент генерализуемости выражает соотношение сигнала и шума. Измеряя психологические или поведенческие различия между респондентами, пользователь теста, в сущности, пытается обнаружить сигнал (т. е. индивидуальные различия), который, тем не менее, может искажаться шумом (т. е. случайной ошибкой и другими аспектами измерительного процесса). Существует два фактора, влияющие на способность обнаружения сигнала - сила сигнала и количество шума (помех). Коэффициент генерализуемости может быть представлен так: . сигнал Коэффициент генерализуемости =------------------ сигнал + шум Для вычисления коэффициентов генерализуемости используются компоненты дисперсии, полученные на стадии G-анализа. Как уже говорилось, компонент дисперсии, связанный с основным эффектом индивидуальных различий (target effect), представляет собой тот самый сигнал, который пытается обнаружить доктор Джонсон. Компонент дисперсии, связанный с эффектом остатков, — это шум, который может вносить искажения в сигнал. Чтобы получить коэффициент генерализуемости (р2) для какого-то конкретного исследовательского дизайна, необходимо вычислить отношение соответствующих компонентов дисперсии, взвешенное количеством пунктов в данном исследовательском дизайне. 2 В данном уравнении - относительный коэффициент генерализуемости индивидуальных различий респондентов, ог> - оценка компонента дисперсии, связанного с эффектом индивидуальных различий, °''*' - оценка компонента п' т дисперсии, связанного с остатком, 1 - количество пунктов теста. 1ак, доктор 352
Джонсон может использовать компоненты дисперсии, вычисленные на стадии G-анализа (см. табл. 12.2), для оценки относительного коэффициента генерализуемости своего трехпунктового теста на агрессивность: 1,967 3 1,967 1,967 + 0,289 р; = 0,872. Относительно большая величина этого коэффициента (более 0,80) означает, что трехпунктовый дизайн измерения агрессивности, вероятно, обладает достаточно высокой генерализуемостыо результатов. Фактически, коэффициент генерализуемости индивидуальных различий респондентов в однокомпонентном дизайне точно равен соответствующему коэффициенту «альфа» (в чем можно убедиться, вычислив коэффициент альфа для данных, приведенных в табл. 12.1). Хотя исследовательский дизайн с тремя пунктами обладает весьма высокой генерализуемостыо, доктор Джонсон могла бы захотеть оценить потенциальную генерализуемость других дизайнов, включающих большее или меньшее количество пунктов. Таблица 12.4 Коэффициенты генерализуемости, вычисленные с использованием компонентов дисперсии Пункты ( п' ) 1 2 3 4 5 6 7 Коэффициент Относительный (pt ) 0.69 0.82 0.87 0.90 0,92 0,93 0.94 Абсолютный (ф~ ) 0.61 0,76 0,82 0,86 0,89 0.90 0,92 В табл. 12.4 представлены относительные коэффициенты генерализуемости, вычисленные для разного количества пунктов. К примеру, относительный коэффициент генерализуемости для исследования с двумя пунктами равен: 353
2 _ 1,67 ' = 1,967+°^ 2 1,967 А 1,967 + 0,.433 А2 =0,819. Результаты D-анализа для примера доктора Джонсон приведены в табл. 12.4 и на рис. 12.1. Как видим, с добавлением новых пунктов генерализуемость возрастает, однако после третьего или четвертого пункта этот рост замедляется. На основе таких результатов доктор Джонсон могла бы заключить, что дизайн с тремя пунктами обеспечивает ее исследованию адекватное психометрическое качество. Кроме того, она могла бы решить, что потенциальные психометрические выгоды от добавления четвертого или пятого пунктов не стоят тех дополнительных усилий и временных затрат наблюдателя, которыми это будет сопровождаться. Рисунок 12.1. Однокомпонентный дизайн: относительные коэффициенты генерализуемости как функция количества пунктов В целом данный пример показывает, как можно применять G-теорию к однокомпонентным исследовательским дизайнам. Надеемся, этот пример передал общий смысл, логику и значение теории генерализуемости тестовых баллов, а также показал, какого рода данные могут быть получены в результате 354
ее использования. Пример с однокомпонентным исследовательским дизайном рассматривался с целью иллюстрации некоторых наиболее фундаментальных аспектов G-теории в относительно простом контексте. Кроме того, было показано, что в однокомпонентных исследовательских дизайнах G-теория эквивалентна классической теории тестов. Тем не менее, данный пример не передает истинных возможностей теории генерализуемости тестовых баллов. Как обсуждалось ранее, ключевое различие между G-теорией и классической теорией тестов заключается в том, что G-теория может оценивать множественные компоненты ошибки измерения. Рассмотрим это соображение на следующем примере. Проведение и интерпретация анализа генерализуемости: двухкомпонентный исследовательский дизайн Способность анализировать несколько компонентов измерительного дизайна одновременно делает теорию генерализуемости весьма полезной альтернативой классической теории тестов. Многие измерительные дизайны предполагают несколько компонентов (аспектов) измерения, и различные компоненты измерения могут по-разному влиять на его общее психометрическое качество. G-теория способна уловить эти различия. * Например, улучшенный исследовательский дизайн доктора Джонсон задействует нескольких наблюдателей, оценивающих поведение испытуемых по нескольким пунктам. По сравнению с предыдущим данный исследовательский план более совершенен, т. к. у одного наблюдателя может оказаться достаточно t уникальный способ восприятия и интерпретации поведения испытуемых. Фактически, описанный выше однокомпонентный исследовательский дизайн ограничен, поскольку включает в себя лишь одного наблюдателя, Дорис. Хотя в рассмотренном выше примере и было показано, что оценки Дорис ; характеризуются высокой генерализуемостью, может оказаться так, что Дорис - } необычно восприимчивый и добросовестный наблюдатель. У доктора Джонсон : могут быть подозрения о том, что оценки других наблюдателей обладали бы : куда более низким психометрическим качеством. С другой стороны, если Дорис | не сможет продолжать работать на доктора Джонсон на основном этапе | исследования, придется нанимать других наблюдателей. В какой степени t результаты анализа генерализуемости оценок Дорис (см. выше) могут быть | распространены на других наблюдателей? Задав себе все эти вопросы, доктор I Джонсон наняла еще двух наблюдателей и попросила их оценить поведение тех I же пяти испытуемых по тем же трем пунктам агрессивности. В табл. 12.5 I представлены гипотетические данные, которые доктор Джонсон могла бы I получить в такого рода исследовании. В данном измерительном дизайне пять I испытуемых оцениваются тремя наблюдателями по трем пунктам. Каждый I испытуемый оценивался по каждому из пунктов, при этом использовалась I 355
шкала от 1 до 10, где более высокие баллы означают более высокий уровень агрессивности. Как и в прошлый раз, доктор Джонсон планирует вычислить средний балл агрессивности для каждого из респондентов; как и в прошлый раз, она надеется, что индивидуальные различия респондентов по среднему баллу агрессивности будут генерализуемыми. Улучшенный дизайн включает в себя два компонента измерения - пункты и наблюдатели. Таким образом, доктор Джонсон надеется достичь генерализуемости по двум «универсумам». Как и в однокомпонентном исследовательском дизайне, она рассчитывает на то, что баллы, полученные с использованием трех пунктов, будут генерализуемы на баллы, которые могли бы быть получены при использовании всех возможных пунктов на измерение агрессивности. Кроме того, она надеется, что баллы, полученные с использованием трех наблюдателей, будут генерализуемы на тот гипотетический случай, когда поведение испытуемых оценивается огромным количеством наблюдателей. Таблица 12.5 Гипотетические данные для двухкомпонентного дизайна в рамках теории генерализуемости: оценки пяти респондентов тремя наблюдателями по трем пунктам Участ- ник Кен Дорис Тим Ср. Ц1[Ж- дваый Зги Нздсб- раже- лтеъ- ный tywic- дкнм Зий раж& JUTUOr ный fya>K- (ХЙ-ьй tai Hadda- раже- ЛОШЫЫН Энн 2 2 2 3 3 3 3 5 1 2,67 Боб 1 3 2 1 1 2 4 5 3 2,44 Кэролин 2 3 3 3 3 4 5 7 3 3.67 Дю 5 8 6 3 5 5 7 7 6 5,78 Элеанэр 8 7 9 3 7 6 4 7 9 6,67 Другими словами, доктор Джонсон рассчитывает на то, что средние баллы агрессивности респондентов будут генерализуемы как на «универсум» пунктов, так и на «универсум» наблюдателей. Анализ многокомпонентного исследовательского дизайна во многом напоминает анализ однокомпонентного. Сначала проводится G-анализ, в котором для каждого из эффектов вычисляются соответствующие компоненты дисперсии. В многокомпонентых дизайнах, как и в однокомпонентных, для вычисления компонентов дисперсии, как правило, используется ANOVA. Затем проводится D-анализ, в котором вычисляются коэффициенты генерализуемости для различных модификаций использованного измерительного дизайна. В многокомпонентых исследовательских дизайнах 356
коэффициенты генерализуемости также оцениваются через отношение сигнала к шуму, что выражается соотношением соответствующих компонентов дисперсии. Несмотря на все эти сходства, между однокомпонентными и многокомпонентыми измерительными дизайнами существует и одно важное различие. Это различие касается сложности тех компонентов дисперсии, которые вносят вклад в общую вариативность данных. Добавление в исследовательский дизайн одного дополнительного компонента (аспекта) измерения приводит к необходимости вычисления нескольких дополнительных компонентов дисперсии. Вспомните, что в однокомпонентном дизайне доктора Джонсон вычислялись три компонента дисперсии - дисперсия респондентов, пунктов и остатка. Двухкомпонентый дизайн будет включать в себя 7 компонентов дисперсии, трехкомпонентный дизайн - уже 16, и так далее. Эти дополнительные компоненты создают дополнительный «шум» и вносят вклад в усложнение ошибки измерения. В данной части главы в качестве иллюстрации общей логики анализа более сложных дизайнов будет рассмотрен двухкомпонентый исследовательский дизайн. Таблица 12.6 Гипотетические данные по наблюдению за поведением испытуемых: результаты дисперсионного анализа ANOVA и анализа генерализуемости Эффект df Сумма квадратов Средне- квадратичное отклонение Компонент дисперсии % дисперсии Индивидуальные различия респондентов (target) 4 128.533 32,133 3,233 0.544 Пункты 2 12.044 6,022 0.289 0,049 Наблюдатели 2 19.244 9.622 0,439 0,074 Респонденты х Пункты 8 12.400 1,550 0.044 0.007 Респонденты х Наблюдатели 8 23,200 2,900 0,494 0,083 Пункты X Наблюдатели 4 6,222 1.556 0.028 0,005 Остаток 16 22.667 1,417 1.4170 0.238 Всего 44 224,311 5,944 1.000 357
Стадия 1: G-анализ Как и в предыдущем случае, для вычисления компонентов дисперсии для каждого из факторов, оказывающих влияние на оценки агрессивности, используется дисперсионный анализ ANOVA. Результаты анализа ANOVA, оценивающие вариативность в 45 оценках агрессивности, полученных доктором Джонсон, представлены в табл. 12.6. Исследователь заинтересована в том, насколько данные оценки подвержены влиянию трех основных эффектов (индивидуальные различия респондентов, различия наблюдателей, различия пунктов), взаимодействия этих трех эффектов, а также случайной ошибки измерения. В табл. 12.7 приведены уравнения, по которым вычисляются компоненты дисперсии для этого исследовательского дизайна. В табл. 12.6 приведены абсолютные значения компонентов дисперсии, а также доля объяснимой дисперсии для каждого из рассматриваемых эффектов. Таблица 12.7 Уравнения оценки компонентов дисперсии в исследовательском дизайне «респонденты х наблюдатели х пункты» Эффект Уравнение Индивидуальные различия респондентов (target) , MSt - MS, -MSO + MS °, = "Л, Пункты п,по Наблюдатели a2 _ MS,, -MSIO -MSoi + MSres nini Респонденты х Пункты 2 MS „-MS™ &!, = "o Респонденты х Наблюдатели 2 MSIO -MS™ ° to = ", Пункты х Наблюдатели 1 MS<* -MS™ = ", ; Остаток = MSres i 358
Результаты показывают относительный вклад каждого из эффектов в оценку агрессивности, а в табл. 12.8 для каждого из эффектов приведена интерпретация и пояснение на примере. Для оценки относительной генерализуемости использованной процедуры кодирования агрессивности в поведении респондентов наибольший интерес представляют четыре эффекта: один из них является «сигналом», который необходимо обнаружить, остальные три вносят вклад в искажающий этот сигнал шум. Для упрощения понимания этих эффектов в табл. 12.9 приведены средние арифметические значения по каждому из них. Таблица 12.8 Содержательные интерпретации и примеры различных эффектов, выявляемых при анализе генерализуемости Эффект Интерпретация (степень того, насколько...) Пример Респонденты Различны баллы респондентов, усредненные по семи наблюдателям и двум пунктам У респондента X средняя оценка выше, чем у респондента Y Пункты Различны значения пунктов, усредненные по 60 респондентам и семи наблюдателям Средняя оценка по пункту 1 выше, чем средняя оценка по пункту 2 Наблюдатели Различны средние оценки наблюдателей, усредненные по 60 респондентам и двум пунктам Наблюдатель А в среднем ставит более высокие оценки, чем наблюдатель В Респонденты х Пункты2 Различно ранжирование респондентов по разным пунктам (при усреднении по наблюдателям) По пункту 1 респондента X оценили выше, чем респондента Y; однако по пункту 2 респондента Y оценили выше, чем респондента X Респонденты X Наблюдатели2 Различно ранжирование респондентов у разных наблюдателей (при усреднении по двум пунктам) Наблюдатель А оценивает респондента X выше, чем респондента Y; однако наблюдатель В оценивает респондента Y выше, чем респондента X Пункты X Наблюдатели Различно ранжирование пунктов у разных наблюдателей (при усреднении по респондентам) Наблюдатель А имеет тенденцию по пункту 1 ставить более высокие оценки, чем по пункту 2; наблюдатель В имеет тенденцию по пункту 2 ставить более высокие оценки, чем по пункту 1 Остаток8 Вариативность оценок, не связанная ни с одним из предыдущих эффектов Примечание'. Эти эффекты при вычислении относительного коэффициента генерализуемости считаются вносящими вклад в ошибку измерения Наибольший интерес, как и прежде, представляет основной эффект индивидуальных различий респондентов. Как сказано в табл. 12.8, данный эффект отражает степень различий респондентов по баллам агрессивности, усредненным по всем пунктам и по всем наблюдателям. В данном случае эти различия варьируются от 2,44 до 6.67 (см. табл. 12.9). Как показано в табл. 12.6, 359
абсолютное значение компонента дисперсии, связанного с этим основным эффектом, наивысшее из всех: , 32,133-1,550-2,900 + 1.417 <7, =-------------------------- 29,1 9 су; = 3,233. Фактически, индивидуальные различия между респондентами объясняют более 50 % общего разброса данных, что означает довольно высокую силу сигнала. Для доктора Джонсон, как и в предыдущем случае, это хорошая новость, так как она заинтересована в обнаружении и измерении различий между респондентами. Коэффициенты генерализуемости, которые будут вычисляться на следующей стадии анализа, покажут, насколько данные индивидуальные различия респондентов устойчивы для разных пунктов и разных наблюдателей С точки зрения способности исследователя обнаруживать индивидуальные различия между респондентами, ошибка измерения (т. е. шум) включает в себя три эффекта. Все они включены в числитель формулы, вычисляющей компонент дисперсии для основного эффекта индивидуальных различий респондентов (MSti, MSto, MSres), и все они повлияют на коэффициент генерализуемости данного эффекта. Взаимодействие эффектов «респонденты х пункты» отражает степень рассогласованности в порядковом ранжировании респондентов по различным пунктам. Высокий показатель по взаимодействию данных двух эффектов будет означать, что пункты для разных респондентов работают по- разному, а это может исказить истинные индивидуальные различия между респондентами. Другими словами, высокий показатель взаимодействия «респонденты х пункты» будет означать, что индивидуальные различия- респондентов, выявляемые различными пунктами, не согласуются друг с другом. Как видно по таблице 12.6, взаимодействие «респонденты х пункты» в исследовании доктора Джонсон достаточно невелико (оно объясняет менее 1 % общего разброса данных), это же отражено и в средних арифметических значениях в табл. 12.9. Заметьте, например, что по всем трем пунктам Дрю набирает более высокие баллы, нежели Кэролин. Средний (т.е. усредненный по всем трем наблюдателям) балл по пункту «враждебность» у Дрю на 2 выше, чем аналогичный балл у Кэролин (5-3 = 2), баллы по пунктам «злой» и «недоброжелательный» у Дрю на 2,34 выше, чем у Кэролин. Таким образом, 360
разница между Дрю и Кэролин достаточно устойчива по всем трем пунктам. Другими словами, индивидуальные различия респондентов, похоже, генерализуемы по пунктам, и доктор Джонсон заключает, что небольшое взаимодействие эффектов «респонденты х пункты» создает незначительное количество «шума». Второй источник ошибки в рассматриваемом примере - взаимодействие «респонденты х наблюдатели», которое отражает степень рассогласованности в порядковом ранжировании респондентов по оценкам различных наблюдателей. Средние значения, иллюстрирующие этот эффект, приведены в табл. 12.9. Заметьте, к примеру, что три наблюдателя не согласны друг с другом в своих суждениях по поводу различий между Бобом и Энн. Дорис воспринимает Энн как более агрессивную по сравнению с Бобом, Кен не усматривает между этими двумя респондентами никакой разницы, а Тиму кажется, что Боб агрессивнее. В частности, средняя оценка агрессивности, которую Дорис выставляет Энн, составляет 3,00 (усреднено по всем трем пунктам агрессивности), а средняя оценка, которую она выставляет Бобу - 1,33. В противоположность этому, средняя оценка Кена и для Энн, и для Боба составляет 2,00. Тим выставляет Энн 3,00 балла, а Бобу - 4,00. Поскольку целью доктора Джонсон является обнаружение индивидуальных различий между респондентами, такая рассогласованность между различными наблюдателями представляет собой проблему. Повторимся, что изначальной целью данного исследования было получение четкой и последовательной процедуры измерения различий респондентов по показателю агрессивности, т. е. получение генерализуемых оценок индивидуальных различий по агрессивности. Исходя из данного соображения очевидно, что взаимодействие эффектов «респонденты х наблюдатели» вносит вклад в ошибку измерения. Высокая выраженность данного эффекта означает, что ранжирование респондентов по агрессивности различно у разных наблюдателей, т.е. не является генерализуемым по наблюдателям. Как показано в табл. 12.6, взаимодействие эффектов «респонденты х наблюдатели» объясняет приблизительно 8% общей вариативности данных. Третий источник ошибки отражен в эффекте остатка, который объединяет в себе два элемента, вносящих в измерение шум. Поскольку для каждого наблюдателя по каждому пункту (и в каждой ситуации) наблюдатели присуждали респонденту только одну оценку, отделить взаимодействие трех факторов «респонденты х наблюдатели х пункты» от чисто «ошибочной» дисперсии невозможно. Оба этих элемента будут считать случайной ошибкой измерения, т. к. они вносят вклад в неоднозначность/рассогласованность ранжирования респондентов у разных наблюдателей и по разным пунктам. Как показано в табл. 12.6, к остаточной дисперсии относится 24% общей вариативности данных. Для более целостного понимания может оказаться полезным рассмотреть оставшиеся три эффекта. Данные эффекты не считаются ошибкой измерения, поскольку они не нарушают порядковое ранжирование респондентов. Основной эффект «наблюдатели» показывает, насколько средние оценки одних 361
наблюдателей отличаются от средних оценок других наблюдателей, т.е. насколько наблюдатели отличаются друг от друга в своей тенденции воспринимать людей в целом как более или менее агрессивных. Как показано в табл. 12.9, средние оценки наблюдателей (усредненные по респондентам и пунктам) варьируются от 3,5 до 5,1. Так, Дорис по сравнению с Тимом в целом воспринимает людей как менее агрессивных. Таблица 12.9 Средние арифметические значения оценок поведения респондентов Основные эффекты Респон- дент Среднее Наблюю- дателъ Среднее Пункт Среднее Энн 2.67 Кен 4,20 Враждебный 3.60 Боб 2,44 Дорис 3,50 Злой 4.87 Кэролин 3,67 Тим 5,10 Недоброжелательный 4,27 Дрю 5,78 Элеанор 6.67 Кзаимоде йствия Респонденты х Наблюдатели Респонденты хПункты Наблюдатели х Пункты Кен Дорис Тим Враж- деб- ный Злой Недоб- роже- латель- ный Враж- деб- ный Злой Недо б- роже- лате л ь-ный Энн 2.00 3,00 3,00 Энн 3,00 3,33 2,00 Кен 3,60 4,60 4,40 Боб 2,00 1,33 4,00 Боб 2,00 3.00 2,33 Дорис 2,60 3,80 4,00 Кэро- лин 2,67 3,33 5,00 Кэро- лин 3,00 4,33 3,33 Тим 4,60 6,20 4,40 Дрю 6,33 4,33 6,67 Дрю 5.00 6,67 5,67 Элеа- нор 8,00 5,33 6,67 Элеа- нор 5,00 7,00 8,00 Тот факт, что наблюдатели отличаются друг от друга в своих средних оценках агрессивности, никак не связан с тем, согласованны ли они друг с другом в терминах расположения респондентов относительно друг друга в порядке возрастания/убывания агрессивности. Таким образом, в отношении способности доктора Джонсон обнаруживать индивидуальные различия респондентов основной эффект «наблюдатели» не рассматривается как шум или ошибка. Заметьте, что рассмотренное выше 362
взаимодействие эффектов «респонденты х наблюдатели» как раз выражает степень рассогласованности индивидуальных различий между респондентами по оценкам разных наблюдателей (что вносит вклад в ошибку измерения), но данное взаимодействие и статистически, и концептуально отделено от тенденции одних наблюдателей в целом, в среднем оценивать респондентов выше, чем другие наблюдатели. Как было описано в предыдущем примере, основной эффект «пункты» отражает степень различий в средних оценках по разным пунктам. Как показано в табл. 12.9, средние оценки по пунктам (усредненные по всем респондентам и наблюдателям) варьируются от 3,6 до 4,9. И снова тот факт, что по одним пунктам респонденты оцениваются выше, чем по другим, никак не связан с тем, насколько согласованно работают пункты в отношении порядкового ранжирования респондентов. Таким образом, в отношении способности доктора Джонсон обнаруживать индивидуальные различия между респондентами, данный эффект в ошибку измерения вклада не вносит. Наконец, взаимодействие эффектов «пункты х наблюдатели» означает то, насколько наблюдатели отличались друг от друга по ранжированию средних оценок по пунктам (усредненных по всем респондентам). Заметьте, что средняя оценка Дорис по пункту «злой» (3,80) ниже, чем ее средняя оценка по пункту «недоброжелательный» (4,00), в то время как у Кена средняя оценка по пункту «злой» (4,60) выше средней оценки по пункту «недоброжелательный» (4,40; см. табл. 12,9). Хотя Дорис и Кен, похоже, в целом использовали данные пункты по- разному, эта разница не должна оказать влияния на выявление индивидуальных различий респондентов. Таким образом, в терминах способности доктора Джонсон получать четкие и согласованные порядковые ранги респондентов взаимодействие эффектов «пункты х наблюдатели» не является ошибкой измерения. Дифференциация компонентов ошибки измерения, проводимая в рамках G-теории, позволяет доктору Джонсон исследовать то, в какой степени итоговые баллы агрессивности респондентов (т. е. оценка индивидуальных различий респондентов по агрессивности) подвержены влиянию различных компонентов процедуры измерения - наблюдателей и пунктов. Затем она может использовать значения компонентов дисперсии (см. табл. 12.6) для принятия решений по поводу количества наблюдателей и количества пунктов, которые наиболее оптимально использовать в будущих исследованиях. Стадия 2: D-анализ Как говорилось в предыдущем примере (для однокомпонентного исследовательского дизайна), относительный коэффициент генерализуемости аналогичен надежности в классической теории тестов. Он может быть рассмотрен как соотношение сигнала и шума: г. , , сигнал Коэффициент генерализуемости =--------------- сигнал + шум 363
Единственная разница между однокомпонентным и двухкомпонентным дизайном - состав шума. Формула относительного коэффициента генерализуемости для определенной стратегии измерения такова: (12.2) В данном уравнении р~ - относительный коэффициент генерализуемости индивидуальных различий респондентов, сг2 - собственное число компонента дисперсии для основного эффекта индивидуальных различий респондентов, сг^ - собственное число компонента дисперсии для взаимодействия эффектов «респонденты х пункты», о-* - собственное число компонента дисперсии для взаимодействия эффектов «респонденты х наблюдатели», сг^еу — собственное число компонента дисперсии для эффекта остатка, и' - рассматриваемое количество пунктов, п'о - рассматриваемое количество наблюдателей. Например, доктор Джонсон может использовать компоненты дисперсии для оценки генерализуемости исследовательской стратегии с двумя наблюдателями и одним пунктом: 3,233 0,44 0,494 1,417’ 3,233 +----+-------+------ 1 2 1x2 3,233 3,233 + 0,999 ’ р; = 0,764. Это означает, что она, вероятно, получит умеренный уровень генерализуемости, однако не мешало бы рассмотреть возможность увеличения количества пунктов и/или наблюдателей. Например, коэффициент генерализуемости для исследовательской стратегии с двумя наблюдателями и двумя пунктами составит приблизительно 0.84: 2 _ 3,233 А 0,044 0,494 1,417’ 3,233 + —---+-------+------ 1 2 2x2 364
2 3,233 Р> ” 3,233 + 0,623 р,2 = 0,838. Уравнение 12.2 выражает ключевое преимущество теории генерализуемости перед классической теорией тестов. С позиций классической теории, где ошибка измерения не дифференцируется на компоненты, не существует возможности отдельной оценки эффектов наблюдателей и пунктов на качество измерения, следовательно, не существует и возможности оценить различные комбинации количества пунктов и количества наблюдателей. С другой стороны, G-теория (т. е. уравнение 12.2 и оценка компонентов дисперсии) позволяет доктору Джонсон оценить психометрическое качество различных комбинаций пунктов и наблюдателей. Систематически тестируя разные комбинации количества пунктов и количества наблюдателей, она может оценить генерализуемость различных измерительных дизайнов. Данная информация, наряду с информацией о практической пользе и потенциальной стоимости дополнительных пунктов и/или наблюдателей, поможет ей оптимизировать качество и эффективность диагностического исследования. Таблица 12.10 Коэффициенты генерализуемости, вычисленные с использованием компонентов дисперсии Пункты! п'г ): 1 1 1 3 3 3 5 5 5 7 7 7 Наблюдатели! п'о\ 1 3 5 1 3 5 1 3 5 1 3 5 Коэффициент Относительны й(Р,Ъ 0,62 0,83 0,8 8 0,77 071 074 0,80 0,9 2 075 0,82 073 076 Абсолютный! ФЪ 0,54 0,74 0,8 0 0,68 0,85 (189 0.71 0.8 7 071 0,73 0,88 0,92 В табл. 12.10 и на рис. 12.2 представлены коэффициенты генерализуемости для различных комбинаций наблюдателей и пунктов. Эти коэффициенты были получены с использованием формулы 12.2 и значений компонентов дисперсии из табл. 12.6. Представленные данные иллюстрируют два важных момента. Во- 365
первых, доктор Джонсон может найти такие комбинации наблюдателей и пунктов, которые будут характеризоваться некоторым конкретным значением надежности. Например, оценка надежности в 0,80 может быть достигнута при нескольких таких комбинациях. Три наблюдателя и один пункт, один наблюдатель и пять пунктов, два наблюдателя и два пункта - все эти комбинации приведут к получению коэффициента надежности как минимум 0,80. Таким образом, если доктор Джонсон рассчитывает на надежность в-0,80 или выше, она может взвесить все преимущества и недостатки использования каждой из данных трех комбинаций. Во-вторых, доктор Джонсон может определить те точки, в которых увеличение количества наблюдателей и/или пунктов больше не приводит к существенному возрастанию надежности. Например, рассмотрим возрастание надежности измерения при переходе от трех наблюдателей к пяти. График, представленный на рис. 12.2, показывает, что это возрастание относительно невелико, особенно если принять во внимание потенциальную стоимость увеличения количества наблюдателей (которых нужно нанимать, обучать, контролировать и т. д.). Такого рода информация может оказаться весьма полезной при планировании эффективных стратегий сбора эмпирических данных о поведении респондентов. - х - 7 наблюдателей —□—3 наблюдателя - -А- - 5 наблюдателей ---0—1 наблюдатель Рисунок 12.2. Двухкомпонентный дизайн: относительные коэффициенты генерализуемости как функция количества пунктов и количества наблюдателей 366
Другие измерительные дизайны Примеры, рассмотренные в этой главе, коснулись однокомпонентного и двухкомпонентного измерительного дизайнов, однако сфера применения G- теории включает в себя большое разнообразие ситуаций и стратегий измерения, и в литературе было описано множество вариаций в- областях практического применения этой теории. Существуют как минимум четыре позиции, по которым могут отличаться друг от друга способы применения G-теории. Эти отличия основаны на дизайне диагностической стратегии и предполагаемом способе использования тестовых баллов. Количество компонентов измерения Как было показано в рассмотренных нами примерах, исследовательские дизайны могут различаться по количеству использованных в них компонентов измерения. Однокомпонентные дизайны весьма широко распространены во многих областях науки и практики. Например, типичный самооценочный опросник личности представляет собой однокомпонентный измерительный дизайн, в котором единственным компонентом измерения являются пункты. Кроме того, в некоторых из однокомпонентых измерительных дизайнов G- теория эквивалента классической теории тестов. Тем не менее, по ряду теоретических и прикладных причин может понадобиться применение многокомпонентного дизайна. Как было показано в рассмотренных примерах, доктор Джонсон имела практические причины для того, чтобы включить в измерительный дизайн два компонента, пункты и наблюдателей. Измерительные стратегии могут быть и более сложными, т. е. включать более двух или трех компонентов. Как показано в данной главе, количество компонентов измерения определяет количество основных эффектов и их взаимодействий при анализе генерализуемости. Более крупные и сложные дизайны предполагают большее количество эффектов и, следовательно, компонентов дисперсии. Компоненты дисперсии несут в себе важную информацию о тех факторах, которые оказывают влияние на оценку респондентов. Они используются для вычисления коэффициентов генерализуемости. В остальном же основная логика и процедура анализа генерализуемости для дизайнов с различным количеством компонентов измерения одинакова. Рандомизированные и фиксированные компоненты измерения В G-теории каждый из компонентов измерения рассматривается либо как рандомизированный, либо как фиксированный. Это довольное тонкое различие, и решение об отнесении каждого из компонентов измерения к тому или иному типу принимается исследователем. До сих пор все изложенное в данной главе относилось к рандомизированным компонентам измерения, наиболее 367
распространенным в большинстве областей применения G-теории. Рассмотрим компонент «пункты» в двухкомпонентном измерительном дизайне доктора Джонсон. Как уже говорилось, доктор Джонсон рассматривала три использованных пункта как репрезентативную выборку из большого «универсума» пунктов, которые могли бы быть выбраны для такого рода исследования. В каком-то смысле данные три пункта представляют собой рандомизированную выборку. Таким образом, доктор Джонсон не имела бы ничего против замены этих трех пунктов тремя другими (например, протестный, антагонистичный, вспыльчивый). Поскольку доктор Джонсон рассматривает пункты как заменимые, как случайную выборку из большого «универсума» пунктов, данный компонент измерения в ее исследовательском дизайне является рандомизированным. Другие измерительные дизайны могут включать в себя фиксированные компоненты измерения. Компонент измерения считается фиксированным в том случае, когда исследователь не хочет обобщать результаты за пределы тех нескольких уровней данного компонента, которые включены в анализ. Кроме того, компонент измерения считается фиксированным, если в анализ включены все возможные уровни этого компонента. Например, психолог, занимающийся проблемами развития, может задумать измерение детской агрессивности путем предоставления опросника обоим биологическим родителям. В данном случае «биологический родитель» будет одним из компонентов измерения, и психолога может интересовать генерализуемость результатов измерения на обоих родителей. Тем не менее, мать и отец исчерпывают весь «универсум» биологических родителей, и генерализуемость за эти пределы просто немыслима. Поскольку в исследование включены оба (т. е. все) варианта, можно сказать, что в данном измерительном дизайне представлен весь «универсум» биологических родителей, и данный компонент измерения является фиксированным. Исследователь, проводящий анализ генерализуемости, должен отнести к рандомизированным либо фиксированным все компоненты измерения. Для многокомпонентных дизайнов возможен смешанный случай, при котором некоторые компоненты измерения являются рандомизированными, а некоторые - фиксированными. К примеру, психолог, изучающий агрессивность ребенка по оценкам родителей, может использовать смешанный двухкомпонентный дизайн. Компонент измерения «биологический родитель», вероятнее всего, будет отнесен к фиксированным. Тем не менее, если каждый из родителей оценивал ребенка по набору трех пунктов, представляющих собой случайную выборку из возможного «универсума» пунктов на агрессивность, тогда компонент измерения «пункты» будет являться рандомизированным. Поскольку один из компонентов измерения рандомизирован, а другой фиксирован, данный психолог использует смешанный измерительный дизайн. Несмотря на несколько тонкое различие между рандомизированными и фиксированными компонентами измерения, это отличие может иметь важные последствия как для проводимых анализов, так и для психометрических результатов. Описание данных проблем выходит за пределы этой книги, однако 368
читателю неооходимо осознавать разграничение между рандомизированными и фиксированными компонентами измерения, смысл этого разграничения, а также помнить о том, что это разграничение имеет важные практические последствия в плане количества и величины компонентов дисперсии, которые могут подвергаться вычислению. Перекрестные и вложенные дизайны При анализе генерализуемости в многокомпонентных дизайнах каждая пара компонентов измерения может являться перекрестной или вложенной. Это важная характеристика исследовательского дизайна как в G-теории, так и в дисперсионном анализе ANOVA, т. к. она влияет на вычисления основных эффектов и их взаимодействий. В рассмотренном выше примере однокомпонентого дизайна содержалось два перекрестных эффекта (что довольно распространено). В данном примере каждый из трех наблюдателей оценивал поведение респондентов по каждому из трех пунктов. Таким образом, оценка производилась по всем возможным комбинациям компонента «пункты» и компонента «наблюдатели». Компоненты измерения называются перекрестными, если сбор данных осуществляется по всем возможным комбинациям значений этих компонентов. В противоположность этому, во вложенных дизайнах в исследование включается не каждая такая комбинация. Например, доктор Джонсон могла бы провести исследование, в котором каждый из наблюдателей использовал бы разные пункты - Дорис использовала бы пункты «вредный» и «злой», Кен - пункты «враждебный» и «воинственный», а Тим - «протестный» и «антагонистичный». В данном случае используются шесть пунктов, но каждый из наблюдателей оценивает респондента лишь по двум. Таким образом, в дизайне не представлены все возможные комбинации пунктов и наблюдателей, и могли бы сказать, что пункты (как компонент измерения) «вложены» в наблюдателей. Проблема перекрестных и вложенных дизайнов важна, так как она определяет, какие эффекты будут вычисляться при анализе генерализуемости. Например, в описанном ранее двухкомпонентном дизайне с перекрестными компонентами измерения могут быть вычислены семь эффектов - три основных, три взаимодействия и остаток. Если бы пункты были «вложены» в наблюдателей, можно было бы вычислить лишь пять эффектов. Данная разница в измерительных дизайнах приводит к разным способам вычисления коэффициентов генерализуемости и, следовательно, к разным заключениям по результатам анализов. К сожалению, полное раскрытие данного вопроса выходит за пределы этой книги, однако следует помнить, что важно осознавать различие между перекрестными и вложенными дизайнами, а также тот факт, что это различие может оказывать влияние на специфику психометрического исследования в рамках G-теории. 369
Относительные и абсолютные суждения Как уже упоминалось, G-теория может использоваться для двух типов суждений. В рассмотренных примерах использовались лишь «относительные» суждения, при которых важным является порядок респондентов относительно друг друга. Если почетное общество принимает в свои ряды 15% лучших (по какому-либо показателю) студентов, интерес представляет порядковое ранжирование студентов, а решения принимаются на основе расположения баллов, полученных студентами, в порядке возрастания/убывания. Когда тесты используются для принятия относительных решений, они зачастую называются тестами, «ориентированными на норму» (R.L. Brennan, 2001). В противоположность этому, «абсолютные» суждения принимаются на основе самого тестового балла, полученного респондентом. Так, желающие попасть в армию США проходят тестирование по Батарее тестов на профориентацию в службе в вооруженных силах (ASVAB, Armed Services Vocational Aptitude Battery), которая описывается как инструмент диагностики «знаний и способностей в десяти различных областях, от математики до электроники. Это не тест интеллекта, однако ASVAB является одним из способов помочь вам принять решение относительно того, какие области работы в армии лучше всего подойдут именно вам» (http://www.goarmv.com/contact/how to join.jsp). На вербовочном интернет-сайте армии США потенциальным новобранцам говорится, что «для рассмотрения вашей кандидатуры вам необходимо набрать по крайней мере 31 балл». Предположительно, балл ниже отметки в 31 дисквалифицирует новобранца, а при бале 31 или выше респондент попадает в список кандидатов на службу в армии. Таким образом, армия принимает решение частично на основе тестового балла рекрута по батарее тестов ASVAB, а не на основе процента граждан страны, которых необходимо взять в армию. Когда тесты используются для принятия абсолютных решений, они называются тестами, «ориентированными на критерий» (R.L. Brennan, 2001). Разница между абсолютными и относительными суждениями важна, т. к. она влияет на способ представления «шума» или ошибки измерения. Это различие оказывает влияние на количество компонентов дисперсии, которые вносят вклад в ошибку измерения при вычислении коэффициентов генерализуемости. В целом при относительных решениях ошибка измерения состоит из меньшего количества компонентов дисперсии, чем при абсолютных решениях, следовательно, при относительных решениях имеется тенденция получения более высоких коэффициентов генерализуемости. В рассмотренном выше примере с однокомпонентным измерительным дизайном абсолютная дисперсия ошибки (т. е. дисперсия ошибки для абсолютного суждения) включает в себя на один элемент больше, нежели относительная дисперсия ошибки (т. е. дисперсия ошибки для относительного суждения). Говоря конкретнее, коэффициент генерализуемости для абсолютных суждений (ф2, иногда называемый индексом надежности (dependability)) в данном примере составляет 370
Заметьте, что данное уравнение включает в себя компонент дисперсии для основного эффекта пунктов, которого не было в коэффициенте генерализуемости для относительных решений (см. формулу 12.1). Для измерительной стратегии с использованием трех пунктов абсолютный коэффициент генерализуемости составляет 0,823: 2 1,967 1ПГ7 0’400 0’867' 1,967 +-----+-------- 3 3 2 1,967____ 1,967 + 0,422' ф; = 0,823. Данный коэффициент несколько ниже того, который вычислялся ранее для относительных суждений (р' = 0,87). Последняя строка в табл. 12.4 содержит абсолютные коэффициенты генерализуемости для разного количества пунктов. В описанном выше двухкомпонентном измерительном дизайне абсолютная дисперсия ошибки включала бы в себя три дополнительных элемента (по сравнению с относительной дисперсией ошибки). Конкретнее, коэффициент генерализуемости для абсолютных суждений в двухкомпонентном дизайне составляет: Заметьте, что в данное уравнение входят компоненты дисперсии для основного эффекта пунктов, основного эффекта наблюдателей и для взаимодействия эффектов «наблюдатели х пункты». Ни один из этих эффектов не использовался при вычислении коэффициента генерализуемости для относительных суждений (см. формулу 12.2). Для исследовательской стратегии, основанной на использовании трех пунктов и трех наблюдателей, коэффициент генерализуемости для абсолютных решений составляет 0,76: 371
3,233 „ 0,289 0,439 0,044 0,494 0,028 3 4------1------1------1------1— ----F 2 2 2 2 2x 1.417 2x2 , 3.233 ~ 3,233 + 0,994 ’ ф; = 0,76. Данный коэффициент несколько ниже, чем соответствующее значение для 2 относительных решений (^' = 0,84). Последняя строка в табл. 12.10 содержит абсолютные коэффициенты генерализуемости для разного количества пунктов в примере с двухкомпонентным измерительным дизайном. В целом разница между относительными и абсолютными суждениями может иметь важные последствия для величины коэффициентов генерализуемости. По-разному определяя ошибку измерения, исследователь в этих двух случаях включает в состав ошибки различные компоненты дисперсии, что, в свою очередь, приводит к получению различных коэффициентов генерализуемости. Не вдаваясь подробно в причины существования данных различий или в точные уравнения, которые используются в данных двух случаях, важно помнить, что такие различия существуют и что абсолютные суждения обычно сопровождаются большей ошибкой измерения и меньшей генерал изуемостью. Резюме Теория генерализуемости расширяет традиционные взгляды на психометрическое качество тестирования по крайней мере по двум направлениям. Во-первых, теоретическое понимание надежности расширяется и включает в себя возможность того, что на качество измерения влияют сразу несколько его аспектов или компонентов. Во-вторых, в данной теории предлагаются статистические процедуры, направленные на вычисление эффектов каждого из компонентов измерения и планирование качественных и эффективных измерительных стратегий. В данной главе рассматривалась общая логика наиболее основополагающего измерительного дизайна: относительные решения на основе перекрестных рандомизированных компонентов измерения. Тем не менее, кратко были освещены и другие дизайны, их концептуальная логика, вычисление и интерпретация в рамках теории генерализуемости. В целом можно утверждать, что теория генерализуемости представляет собой гибкий и эффективный психометрический подход, расширяющий классическую теорию тестов (СТТ) в нескольких немаловажных аспектах. 372
Рекомендуемая литература Классическая работа по теории генерализуемости: Cronbach, L. J., Gleser, G. С., Nanda, Н., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles. New York: John Wiley. Л. Кронбах, выдающийся исследователь в области психометрики, подготовил комментарии по поводу теории надежности и широко распространенного коэффициента надежности альфа почти через 50 лет после публикации этой теории. Данные комментарии, как и аргументация точки зрения о том, что теория генерализуемости предоставляет более разносторонний взгляд на проблему надежности, приведены в работе: Cronbach, L. J., & Shavelson, R. J. (2004). My current thoughts on coefficient alpha and successor procedures. Educational and Psychological Measurement, 64, 391-418. Довольно техническое, но весьма понятное и глубокое обсуждение теории генерализуемости: Brennan, R. L. (2001). Generalizability’ theory. New York: Springer-Verlag. Широко используемое введение в теорию генерализуемости: Shavelson, R. J., & Webb, N. М. (1991). Generalizability’ theory1: A primer. Newbury Park, CA: Sage. 373
ГЛАВА 13 Теория ответов на пункты и модели Раша Теория ответов на пункты (Item Response Theory - IRT1) является современной альтернативой классической теории тестов (Classical Test Theory - СТТ). Хотя предпосылки теории ответов на пункты имеют длинную историю (например. Lord, 1953; Rasch, 1960), сама теория возникла относительно недавно и дала начало альтернативному подходу к измерению в науках о поведении. С вычислительной точки зрения теория ответов на пункты сложнее, чем классическая, однако сторонники этой теории утверждают, что данный недостаток компенсируется несколькими важными достоинствами нового подхода. Основы теории ответов на пункты В сущности, пунктовая теория теста (IRT) представляет собой психометрический подход, в котором акцентируется тот факт, что ответ респондента на определенный пункт теста обусловлен как особенностями 1 В русскоязычной литературе встречается немалое разнообразие вариантов перевода этого названия, среди них: «теория ответов на задания теста», «теория тестовых заданий», «теория моделирования и параметризации тестов», «современная теория тестов», «алгоритмическая теория измерений» и т. д., однако абсолютного русскоязычного эквивалента не существует. Тем не менее, сложилась традиция использовать англоязычную аббревиатуру - IRT, чем мы и воспользуемся. Вместе с тем мы предлагаем и свой вариант перевода - «теория ответов на пункты», аргументируя это гем, что классическая теория, в отличие от IRT, ориентирована не на параметры отдельных пунктов, а на закономерности их взаимосвязи, в частности на достижение гомогенности (согласованности) пунктов, входящих в одну шкалу. (Прим, перев.). 374
самого респондента, так и характеристиками пункта. IRT включает в себя процедуры вычисления различных параметров, относящихся к респондентам, пунктам и всему тесту. Как утверждают сторонники IRT, информация, получаемая с помощью таких вычислений, более объективна, чем в классической теории тестов. Существует несколько разновидностей теории ответов на пункты, друг от друга они отличаются степенью сложности и возможностями применения для тех или иных видов тестов. Представьте, что Сьюзи проходит пятиминутный тест на математические способности. Согласно IRT, вероятность того, что Сьюзи правильно ответит на первый пункт теста, зависит от двух моментов. Если Сьюзи обладает высокими математическими способностями, вероятность того, что она правильно решит задание, относительно высока. С другой стороны, если задание сложное, вероятность правильного ответа Сьюзи будет относительно низкой. Таким образом, вероятность того, что она правильно ответит на первый пункт, обусловлена как ее математическими способностями, так и сложностью самого пункта. Эту логику можно распространить на разнообразные виды психологических измерений, однако в наиболее основополагающей форме IRT утверждается, что ответ респондента на пункт обусловлен выраженностью у респондента соответствующего признака (например, математические способности Сьюзи) и уровнем сложности самого пункта. Более сложные разновидности IRT включают и дополнительные факторы (параметры), оказывающие влияние на то, как респондент отвечает на пункты теста. Уровень выраженности признака как фактор ответа на пункт Один из факторов, влияющих на вероятность ответа на пункт каким-то определенным образом, - уровень выраженности у респондента того психологического признака, на измерение которой направлен этот пункт теста. Если тестовый пункт представляет собой математическое задание, правильный ответ на него более вероятен для респондента с высокими математическими способностями. Аналогично респондент с высоким уровнем экстраверсии с большей вероятностью согласится с утверждением опросника, направленного на измерение экстраверсии, чем респондент-интроверт. С утверждением опросника, направленным на измерение уровня удовлетворенности работой, скорее согласится довольный своей работой человек. Уровень сложности пункта как фактор ответа на пункт Другой фактор, оказывающий влияние на вероятность ответить на задание теста каким-то определенным образом - уровень сложности этого задания (пункта). Математическое задание с высоким уровнем сложности, вероятно, будет решено меньшим количеством человек, нежели математическое задание с низким уровнем сложности (т. е. легкое). Например, правильный ответ на пункт «Каков квадратный корень из 10 000?» менее вероятен, чем правильный ответ на пункт «Сколько будет 2 + 2?». Аналогичным образом, чем выше уровень 375
сложности пункта на экстраверсию, тем меньше респондентов согласится с ним. На первый взгляд, понятие «уровень сложности» может показаться не применимым к опросникам, измеряющим черты личности (например, экстраверсию), однако сравните следующие два гипотетических пункта: «Мне нравится общаться с друзьями» и «Мне нравится выступать перед большими аудиториями». При условии, что оба пункта являются валидными мерами экстраверсии, с первым пунктом в каком-то смысле легче согласиться, чей со вторым. Другими словами, вероятно, большее количество человек согласится с утверждением об общении с друзьями, чем с утверждением о выступлениях перед большими аудиториями. В примере с удовлетворенностью работой с утверждением «У меня хорошая работа», вероятно, согласиться легче, чем с утверждением «Работа - лучшее, что есть в моей жизни». Несмотря на то что выраженность признака и сложность пункта в анализе IRT рассматриваются отдельно, между ними есть глубокая связь. Фактически, сложность пунктов определяется через выраженность признаков. Так, сложный пункт для правильного ответа на него требует относительно высокого уровня выраженности измеряемого признака, в то время как для ответа на легкий пункт необходима лишь относительно небольшая выраженность признака. Возвращаясь к примеру с математическими заданиями: вероятно, для правильного ответа на вопрос с извлечением квадратного корня респонденту необходимо иметь математические способности и знания на уровне девятого класса школы, в то время как для решения задачи на сложение достаточно и уровня второго класса. Взаимосвязь между выраженностью признаков и сложностью пунктов особенно полезна для понимания того, что такое сложность пунктов в личностных опросниках и в анкетах, направленных на изучение отношения респондентов к чему-либо. Вспомните упомянутые выше пункты гипотетического опросника на экстраверсию - «Мне нравится общаться с друзьями» и «Мне нравится выступать перед большими аудиториями». Мы пришли к выводу о том, что первый пункт легче второго. Другими словами, для того, чтобы согласиться с первым утверждением, респонденту нужен лишь невысокий уровень экстраверсии, в то время как для второго пункта респонденту потребуется, вероятно, куда более выраженная экстраверсия. Даже довольно интровертированные люди (т. е. респонденты с относительно низким уровнем экстраверсии) могут согласиться с утверждением о том, что им нравится общаться с друзьями. С другой стороны, респондент, вероятно, должен быть очень экстравертированным, чтобы согласиться с утверждением о том, что ему нравится выступать перед большими аудиториями. В IRT-анализе выраженность признака и сложность пунктов обычно измеряются в стандартизованной шкале: их средние равны 0, а стандартные отклонения 1. Таким образом, респондент с уровнем выраженности признака О обладает средней выраженностью этого признака, а если уровень выраженности признака равняется 1,5, это означает, что выраженность признака респондента на полтора стандартных отклонения больше средней. Сходным образом, пункт с 376
уровнем сложности 0 — это средний по сложности пункт, а пункт с уровнем сложности 1,5 относительно сложен. В IRT сложность пунктов выражается в терминах выраженности признака. Точнее, сложность задания (пункта) определяется как уровень выраженности признака, необходимый для того, чтобы у респондента был 50-процентный шанс ответить на задание (пункт) правильно. Если пункт имеет сложность 0, то респондент со средним уровнем выраженности признака (т. е. с уровнем выраженности признака 0) ответит на него правильно в 50 процентах случаев. При ответе на пункт с уровнем сложности 0 у респондента с высоким уровнем выраженности признака (больше нуля) шанс ответить на него правильно будет выше, у респондента с низким уровнем выраженности признака (меньше нуля) - ниже. Более высокие уровни сложности означают, что для достижения 50- процентного шанса правильного ответа на пункт респонденту необходим более высокий уровень выраженности признака. Например, если сложность пункта составляет 1.5, 50-процентный шанс ответить на него правильно будет у респондента с уровнем выраженности признака 1.5 (т. е. на полтора стандартных отклонения выше среднего). И наоборот, более низкие уровни сложности означают, что для достижения 50-процентной вероятности правильного ответа респондентам необходимо обладать лишь относительно низкими уровнями выраженности признака. Дискриминативная способность пункта как фактор ответа на пункт Пункты теста могут различаться не только с точки зрения их сложности (одни пункты сложнее других), но и с точки зрения того, насколько они могут различать респондентов с высокими и низкими уровнями выраженности признака. Эта характеристика пунктов называется дискриминативной (различительной) способностью, или дискриминативностью пункта. Дискриминативность пункта в IRT аналогична корреляции пункта со шкалой (item-total correlation) из общей теории тестов (Embertson & Reise, 2000). Показатель дискриминативности пункта означает его релевантность той характеристике (признаку), которую измеряет шкала. Положительное значение дискриминативности означает, что пункт имеет какое-то отношение к измеряемой характеристике, а относительно высокое значение (например, 3.5 по сравнению с 0.5) указывает на относительно сильную взаимосвязь пункта и измеряемой характеристики. Напротив, пункт с коэффициентом дискриминативности 0 не имеет никакого отношения к той характеристике, которая предположительно измеряется шкалой, а пункт с отрицательным значением дискриминативности относится к этой характеристике обратно- пропорционально (т. е. чем выше уровень выраженности признака, тем менее вероятно, что ответ на пункт будет правильным). Таким образом, обычно предпочитают добиваться высоких и положительных значений дискриминативности пунктов. 377
Почему у одних пунктов хорошая дискриминативная способность, а у других - нет? Рассмотрим следующие два задания (пункта) из гипотетического теста по математике: 1. Сколько аршинов в трех саженях? (а) 9 (b) 18 2. Каков квадратный корень из 10000? (а) 10 (Ь) 100 Задумайтесь над первым вопросом. Что необходимо респонденту для того, чтобы ответить на него правильно? Чтобы ответить на этот вопрос, ученику необходимо обладать математическими способностями, достаточными для выполнения умножения. Тем не менее, этот пункт требует также дополнительных знаний о том, сколько аршинов входит в одну сажень. Тот факт, что для правильного ответа на пункт требуется что-то еще помимо математических способностей, означает, что пункт не слишком сильно связан с измерением именно математических способностей. Другими словами, высокий уровень математических способностей недостаточен для правильного решения этого задания. Ученик может быть способен выполнить умножение 3 на 3, но шанс, что он ответит на вопрос правильно, может быть невысок в силу того, что он не знает, что в одной сажени три аршина. Таким образом, дискриминативность данного пункта будет низкой, а его взаимосвязь с тем признаком, на измерение которого нацелен математический тест, - слабой. Другими словами, этот пункт не слишком хорошо справляется с задачей различения учеников с относительно высоким и относительно низким уровнем математических способностей. Даже если Сьюзи решит задание правильно, а Джонни - нет, мы не можем с уверенность делать вывод о том, что Сьюзи разбирается в математике лучше, чем Джонни. Возможно, Джонни разбирается в математике, но просто не знает, сколько аршинов содержится в одной сажени. Рассмотрим теперь второй вопрос. Что необходимо респонденту для того, чтобы правильно на него ответить? Требуется умение извлекать квадратный корень, но никаких дополнительных знаний или умений не требуется. Единственное качество ученика, которое имеет отношение к ответу на этот пункт, - это математические способности. В связи с этим данный вопрос более «чисто» математический, и он сильнее взаимосвязан с измеряемым признаком (математические способности), чем первый вопрос. Следовательно, у этого пункта, вероятно, будет высокий показатель дискриминативности. Другими словами, этот пункт лучше справляется с задачей различения учеников с относительно высоким и относительно низким уровнем математических способностей. Если Сьюзи ответит на вопрос правильно, а Джонни - неправильно, мы можем с достаточной степенью уверенности утверждать, что Сьюзи в математике сильнее, чем Джонни. 378
Измерительные модели IRT В практике применения IRT-анализа определяются компоненты, влияющие на вероятность того, что респондент ответит на пункт каким-то определенным образом. Измерительная модель задает математические отношения между результатом (например, баллом, который респондент получает за пункт) и параметрами, которые оказывают влияние на этот результат (например, характеристиками самого респондента и/или характеристиками пункта теста). В рамках IRT были разработаны разнообразные измерительные модели, которые отличаются друг от друга по крайней мере в двух немаловажных аспектах. Первое важное различие измерительных моделей заключается в тех характеристиках пункта, или параметрах, которые включаются в модель. Второе различие касается шкалы, в которой измеряется ответ респондента (результат). Наиболее простая модель IRT зачастую называется моделью Раша, или однофакторной логистической моделью (1ФЛ). Согласно модели Раша, ответ респондента на бинарный пункт (т.е. правильно/неправильно, справился/не справился, согласен/не согласен) определяется уровнем выраженности измеряемого признака у респондента и уровнем сложности самого пункта. Модель Раша можно выразить в терминах вероятности того, что респондент с определенным уровнем выраженности признака правильно ответит на пункт с определенным уровнем сложности. Зачастую (например, Embertson & Reise, 2000) эту зависимость представляют как: Это уравнение требует некоторых пояснений: Xis означает ответ (X) респондента s на пункт i. 0S означает уровень выраженности признака у респондента s. Pi означает сложность пункта i. Xjs = 1 означает, что респондент дал «правильный» ответ на пункт или согласился с утверждением. е - основание натурального логарифма (т. е. е = 2.7182818...), число, которое есть на многих калькуляторах. Таким образом, P(Ais = 1 | 0s, pi) означает вероятность (Р) того, что респондент s ответит на пункт i правильно. Вертикальная линия в данной записи означает, что это «условная» вероятность. Вероятность правильного ответа респондента на пункт обусловлена выраженностью у респондента признака (0s) и сложностью пункта (Pi). В IRT-анализе выраженность признака и сложность пункта обычно выражаются в стандартизованной шкале, где среднее значение равняется 0, а стандартное отклонение 1. Рассмотрим следующие примеры с выполнением теста на математические способности. 379
Какова вероятность того, что респондент с относительно высоким уровнем математических способностей (скажем, с уровнем математических способностей, на одно стандартное отклонение превышающим средний, т. е. 0S = 1) правильно ответит на пункт с относительно низким уровнем сложности (скажем, pi = - 0,5)? 448 1+e(W)> -1+ео-ч ~1 + 4Л8 Т. е. существует вероятность 0.82, что данный респондент правильно ответит на данный пункт. Другими словами, весьма вероятно (более чем на 80%), что респондент решит эту математическую задачу. Это очевидно и с точки зрения здравого смысла, поскольку в нашем примере респондент с хорошими математическими способностями выполняет относительно простое математическое задание. Какова вероятность того, что респондент с математическими способностями ниже среднего (скажем, с математическими способностями, на 1.39 стандартного отклонения ниже среднего уровня, т. е. 0s = - 1,39) правильно решит относительно несложное (скажем, pi = -1.61) задание? е0.22 125 i + с*-1-30 = Т77“ = ТТЁ25= 0,56 Как видим, вероятность правильного решения задания для этого респондента составляет 0.56. Другими словами, существует слегка превышающий «50 на 50» шанс того, что респондент решит задание правильно. Это понятно и интуитивно, поскольку выраженность признака у нашего респондента (0S = - 1,39) лишь слегка превышает уровень сложности задания (Pi = - 1,61). Как вы помните, уровень сложности пункта представляет собой такой уровень выраженности признака, при котором у респондента существует 50- процентый шанс ответить на пункт правильно. Поскольку выраженность признака у респондента несколько выше, чем сложность пункта, вероятность правильного ответа несколько превышает 0,50. Немного более сложная измерительная модель IRT носит название двухфакторной логистической модели (2ФЛ), поскольку она включает в себя два параметра пунктов теста. Согласно этой модели, ответ респондента на бинарный пункт определяется уровнем выраженности у респондента искомого признака, сложностью пункта и дискриминативностью пункта. От модели Раша данная измерительная модель отличается тем, что сюда включен параметр дискриминативности. Эту модель можно (напр., Embertson & Reise, 2000) выразить так: 380
где (Z; означает дискриминативность пункта /, при этом большие значения di означают большую дискриминативную способность. Модель 2ФЛ предполагает, что вероятность правильного ответа респондента на пункт обусловлена уровнем выраженности признака (0s), а также сложностью (pi) и дискриминативностью (щ) пункта. Рассмотрим снова пункты «Сколько аршинов в трех саженях?» и «Каков квадратный корень из 10 000?». Предположим, что оба пункта имеют одинаковый уровень сложности (скажем, р = - 0,5). Предположим также (как обсуждалось выше), что у них разная дискриминативная способность (например, оц = 0,5 и а? = 2). Какова вероятность того, что Сьюзи, обладая относительно хорошими математическими способностями (скажем, уровнем математических способностей, на одно стандартное отклонение превышающим средний, 0=1), правильно ответит на вопрос 1 ? (0.5(1-(+>.5») 0.75 2 12 О _ ____________ _ ______ _ ' _ Л Z.O 1+£?(0.5()-(-0.5») 1 + £?(0.7Л 1+2д2 А какова вероятность того, что на этот вопрос правильно ответит обладающий средними познаниями в математике (0 = 0) Джонни? (0,4(0-(-0,5))) (0.25) , 2Я Р = ]+е(О.5(ОД-О.5))) = 1+(?(0.25) = = 0’56 Заметьте разницу. В уровне математических способностей Сьюзи на одно стандартное отклонение опережает Джонни, однако ее шанс правильного ответа больше, чем у Джонни, всего на 0,12. Это относительно большая разница в уровне выраженности признака (одно стандартное отклонение) и относительно маленькая разница в вероятности правильного ответа на пункт. Рассмотрим теперь вероятности того, что Сьюзи и Джонни правильно ответят на вопрос 2: Сьюзи: е(2(1-(-0.5)» _ е(3) _ 20,09 1 + е«м-о.5») - j + е<з) - ! = 20 09 Джонни: _ ет _ 2J2 l + 1 + еФ' 1 + 2,72 ’ Заметьте разницу для этого вопроса. Для Сьюзи вероятность ответить на вопрос правильно составляет 0,95, для Джонни - 0,73. Разница в математических способностях все еще составляет одно стандартное отклонение, но на этот раз шанс ответить на второй вопрос правильно у Сьюзи на 22 процента больше, чем у Джонни. Как видим, по сравнению с пунктом 1, пункт 2 381
(тот, у которого больше дискриминативность) более отчетливо различает респондентов с разными уровнями выраженности измеряемого признака. Модель 2ФЛ является расширением модели Раша (т. е. 1ФЛ), однако существуют и другие модели, расширяющие уже 2ФЛ. Возможно, вы уже не удивитесь, услышав, что существует трехфакторная логистическая модель (ЗФЛ), которая добавляет в число параметров еще одну характеристику пунктов. Воздержимся от обсуждения этой модели, отметим только, что третьим параметром является поправка на вероятность угадывания. В целом, 1ФЛ, 2ФЛ и ЗФЛ - это модели измерения в IRT, которые отличаются друг от друга количеством анализируемых параметров (характеристик пунктов). Как уже отмечалось, есть по крайней мере еще один аспект, по которому различные измерительные модели IRT отличаются друг от друга. Второе различие между моделями IRT относится к шкале, в которой измеряется ответ респондента. До сих пор рассматривались модели (1ФЛ, 2ФЛ и ЗФЛ), предназначенные для бинарных (дихотомических) пунктов. Тем не менее, множество тестов и опросников в науках о поведении содержат пункты с более чем двумя вариантами ответов. Например, многие личностные опросники содержат самоочевидные утверждения (типа «Мне нравится общаться с друзьями») и предлагают респондентам три или более варианта ответа (например, совершенно не согласен, не согласен, нейтральный ответ, согласен, полностью согласен). Такие пункты известны как пункты с множественным выбором, и для них требуются другие измерительные модели IRT, отличные от тех, которые применяются для бинарных пунктов. Примерами IRT-моделей для пунктов с множественным выбором являются уодель градаций ответа по степени согласия с пунктом (graded response model, Samejima, 1969) и уодель частично правильных ответов (partial credit model, Masters, 1982). Хотя эти модели отличаются тем, какие типы пунктов и шкал, в которых измеряется ответ респондента, они могут анализировать, все они основаны на тех же общих принципах, что и модели для бинарных пунктов. Все эти модели основаны на идее о том. что ответ респондента на пункт определяется уровнем выраженности у респондента измеряемого признака, а также характеристиками самого пункта, такими как сложность и дискриминативность. Пример из области IRT: Модель Раша Вы можете поинтересоваться, как получить коэффициенты уровня выраженности признака и сложности пункта, которые используются в описанных выше уравнениях. В реальных прикладных исследованиях для этого почти всегда используются специальные статистические программы, анализирующие ответы респондентов на некий набор пунктов. Проводить анализы, основанные на теории IRT, позволяют такие программные пакеты, как PARSCALE, BILOG и MULTILOG, в настоящее время распространяемые 382
компанией Scientific Software International1. Хотя ранние версии этих программ обладали не слишком дружественным интерфейсом, их последние модификации становятся все проще и удобнее в использовании. Тем не менее, пример относительно простого IRT-анализа, выполненного «вручную», позволит вам лучше понять процедуру вычисления и теорию IRT в целом. В табл. 13.1 приведены (гипотетические) ответы шести респондентов на пять пунктов теста, измеряющего математические способности. В этой матрице данных правильные ответы обозначаются как 1, неправильные - 0. На практике обычно применяются куда большие наборы данных, с большим количеством респондентов и пунктов, однако мы используем этот упрощенный пример, чтобы продемонстрировать логику IRT-анализа как можно нагляднее. Таблица 13.1 Сырые данные для примера IRT-анализа: гипотетический пятипунктовый тест на математические способности Респондент Пункт 1 Пункт 2 Пункт 3 Пункт 4 Пункт 5 1 1 0 0 0 0 2 1 1 0 1 0 3 1 1 1 0 0 4 1 1 0 1 0 5 1 1 1 0 1 6 0 0 1 0 0 Важным этапом в анализе IRT является выбор подходящей измерительной модели. Заметьте, что ответы на пункты в данном примере выражены в бинарной шкале - правильно/неправильно. Поэтому пригодными для проведения анализа являются все измерительные модели, подходящие для анализа бинарных пунктов. Затем из всех таких моделей необходимо будет выбрать ту, в которой используются все интересующие исследователя параметры (характеристики) пунктов. Более сложная стратегия выбора предполагает количественную оценку того, какая из измерительных моделей «подходит» наилучшим образом, т. е. можно было бы провести анализы с использованием различных моделей, а затем определить, какую из них лучше применять для какого-либо конкретного набора данных. Для анализа приведенных данных, однако, выберем модель Раша (1ФЛ), поскольку она является простейшей. На основе этих данных можно вычислить несколько коэффициентов. Модель Раша включает в себя два показателя, оказывающие влияние на то, как респондент отвечает на пункт - уровень выраженности искомого признака у респондента и уровень сложности самого пункта. Попробуем сначала получить На сайте компании (www.ssicentral.com) доступны бесплатные демо-версин этих программ, полностью функциональные в течение 15 дней. (Прим, перев.). 383
всю необходимую информацию о респондентах и вычислим уровень выраженности признака для каждого из шести участников тестирования. После этого займемся вычислением сложности пунктов. Таблица 13.2 Пример IRT-анализа: коэффициенты уровня выраженности признака и уровня сложности пунктов Респондент П. 1 П.2 П.З П.4 П. 5 Доля правиль- ных ответов Выражен- ность признака 1 1 0 0 0 0 0,20 - 1.39 2 1 1 0 1 0 0,60 0,41 3 1 1 1 0 0 0,60 0,41 4 1 I 0 1 0 0,60 0,41 5 1 1 1 0 1 0,80 1.39 6 0 0 1 0 0 0,20 - 1,39 Доля правильных ответов 0.83 0.67 0,50 0.33 0,17 Сложность - 1,61 -0,69 0.00 0,69 1.61 Вычисление уровня выраженности признака можно представить как двухэтапный процесс. Сначала для каждого из респондентов определяем долю правильных ответов. Доля правильных ответов респондента - это просто количество пунктов, на которые респондент дал правильный ответ, деленное на общее количество пунктов, на которые респондент ответил. Как показано в табл. 13.1, респондент 5 правильно ответил на 4 пункта из 5 (4/5), поэтому доля правильных ответов этого респондента составляет 0,80. В Как видим, выраженность признака у респондента 5 почти на полтора стандартных отклонения превышает среднюю. Вычисление уровня сложности пунктов также можно представить как двухэтапный процесс. Сначала определяем долю правильных ответов для каждого пункта. Доля правильных ответов на пункт - это количество респондентов, правильно ответивших на данный пункт, деленное на общее количество респондентов, которые на него отвечали. Например, на пункт 1 правильный ответ был дан пятью из шести респондентов, поэтому доля правильных ответов на пункт 1 составляет 5/6 = 0,83. В табл. 13.2 приведены доли правильных ответов для всех пунктов. Для получения коэффициента сложности пунктов вычисляем натуральный логарифм отношения доли правильных ответов к доле неправильных ответов. 384
6. = LN(—. i-p. где Ps - доля правильных ответов респондента 5. Получается, что у респондента 5 довольно высокий уровень выраженности признака: 0, = LN( 0,80 ) = Z7V(4) = 1,39. 5 1-0,80 Это означает, что даже для человека с относительно низким уровнем математических способностей (не более полутора стандартных отклонений ниже среднего) будет 50-процентная вероятность ответить на данный пункт правильно. В табл. 13.2 приведены коэффициенты сложности всех пяти пунктов. Табл. 13.2 содержит информацию относительно математических способностей респондентов и сложности пунктов. Эти результаты были получены с использованием приложения Microsoft Excel, а не в специализированном на IRT пакете программ. Специализированные программы (которыми и следует пользоваться для полноценного анализа 1RT) проводят дополнительные вычисления и оценивают коэффициенты более точно. Эти дополнительные вычисления представляют собой итеративную (многократную) процедуру, в которой первоначальная оценка коэффициентов впоследствии уточняется в серии последовательных шагов до тех пор, пока не будет удовлетворяться заранее заданный математический критерий. Детальное описание такой процедуры выходит за рамки этой книги, однако итеративные процессы вычисления используются во многих методах многомерного статистического анализа. Информативность пунктов и теста Будучи психометрическим подходом, IRT предоставляет информацию о пунктах и тесте в целом. При этом для получения информации о тесте в целом в IRT-анализе объединяются характеристики отдельных пунктов. Таким образом, характеристики пунктов - такие, как сложность и дискриминативность, - могут использоваться для оценки отдельных пунктов и улучшения общего качества теста. Характеристические кривые пунктов Разработчики тестов, применяющие в своей работе IRT, для наглядного представления и оценки параметров пунктов теста часто используют т. н. характеристические кривые пунктов (Item characteristic curves, ICC). На характеристической кривой (примеры которой приведены на рис. 13.1) отображаются вероятности, с которыми респонденты некоторого спектра 385
выраженности признака будут давать правильные ответы на данный пункт. Кривые, изображенные на рис. 13,1, основаны на гипотетических данных по пятипунктовому математическому тесту, обсуждавшихся выше. ---пункт 1 --пункт 3 -о-пункт 5 ---пункт 2 —пункт 4 Рисунок 13.1. Характеристические кривые пунктов На оси X откладывается широкий спектр уровней выраженности признака, на оси Y - вероятность правильного ответа от 0 до 1,0. Для каждого пункта строится своя кривая, и ее можно использовать для нахождения вероятности того, что респондент с заданной выраженностью признака ответит на пункт правильно. Взгляните на характеристическую кривую для пункта 1 - какова вероятность того, что человек со средним уровнем математических способностей ответит на этот пункт правильно? Находим на кривой пункта 1 точку, лежащую прямо над отметкой «0» на оси X (как вы помните, выраженность признака выражается в z-оценках, поэтому 0 обозначает среднюю выраженность признака), и видим, что эта точка лежит в промежутке между 0,80 и 0,90 на оси Y. При рассмотрении остальных кривых становится очевидно, что человек со средним уровнем математических способностей имеет шанс около 0,65 для правильного ответа на второй пункт, 0,5 для правильного ответа на третий пункт, 0,17 - для пятого пункта. Таким образом, характеристические кривые содержат информацию о вероятностях, с которыми респонденты с любым уровнем выраженности признака правильно ответят на любой из пяти пунктов. Заметьте, что последовательность расположения кривых слева направо по оси X отражает уровень сложности соответствующих пунктов. Пункт 1, чья кривая лежит левее всех остальных, наименее сложен, пункт 5, чья кривая крайняя справа, наиболее сложен. 386
Характеристические кривые пунктов строятся на основе математических моделей, описанных выше (в нашем случае это уравнение для модели Раша). Чтобы построить характеристическую кривую пункта, можно последовательно применять соответствующую математическую модель для вычисления вероятностей правильного ответа на большом спектре уровней выраженности признака. Подставляя в уравнение значения сложности пункта и какого-либо уровня выраженности признака (например, -3,0), получаем вероятность правильного ответа на данный пункт респондента с данной выраженностью признака. Далее мы можем подставить в уравнение другой уровень выраженности признака (например, -2,9) и оценить вероятность правильного ответа для этого уровня. После повторения этой процедуры для множества различных значений выраженности признака можем просто построить график полученных вероятностей. Линия, соединяющая эти вероятности, и будет представлять собой характеристическую кривую пункта. Данная процедура проводится отдельно для каждого из пунктов теста. Для построения графика на рис. 13.1 было использовано приложение Microsoft Excel, при этом для пяти пунктов были вычислены 305 вероятностей (по 61 на каждый пункт) и построены их плавные линейчатые графики. Информативность теста С точки зрения классической теории тестов важной психометрической характеристикой теста является надежность. Как вы помните, в классической теории тестов существует несколько коэффициентов, оценивающих надежность. Например, в качестве такой оценки надежности можно вычислить коэффициент альфа. Здесь важно заметить, что при этом вычисляется лишь один коэффициент надежности, относящийся ко всему тесту в целом и означающий степень корреляции наблюдаемых тестовых баллов с истинным значением признака. Идея о том, что существует единая надежность для всего теста, - важный аспект, по которому классическая теория тестов отличается от IRT. С точки зрения IRT, у теста нет единой «надежности». Напротив, для одних людей тест может быть с более сильными психометрическими качествами, чем для других. Другими словами, на одних уровнях выраженности признака тест может быть более информативным, чем на других уровнях выраженности признака. Представьте четырех человек с различной выраженностью какого-либо признака - Элизабет, Мэри, Крис и Лану. Можно изобразить их «истинные» уровни выраженности признака относительно друг друга на континууме: Уровень выраженности признака Низкий Средний Высокий Элизабет Мэри Крис Лана С точки зрения выраженности у них измеряемого психологического признака Элизабет и Мэри находятся ниже среднего и при этом относительно 387
мало отличаются друг от друга. Крис и Лана находятся на относительно высоком уровне выраженности признака и при этом тоже мало отличаются друг от друга. Целью теста зачастую является дифференцировать (т. е. отличить) людей с относительно сильной выраженностью признака и людей с относительно слабой выраженностью признака. Тест является информативным в том случае, когда он способен точно определить различия между респондентами при разных уровнях выраженности признака. Возвращаясь к нашим четырем респондентам, видим, что даже средний с точки зрения психометрического качества тест должен быть способен уловить большое различие между парой респондентов со слабой выраженностью признака (с одной стороны) и парой респондентов с сильной выраженностью признака (с другой стороны). Тем не менее, если исследователь хочет выявить более мелкие и более тонкие различия между Элизабет и Мэри или между Крисом и Ланой, ему понадобится тест с куда более высоким психометрическим качеством. IRT допускает возможность того, что тест может быть более пригоден для диагностики различий между Крисом и Ланой, нежели для диагностики различий между Элизабет и Мэри. Другими словами, при высоких уровнях выраженности признака тест может быть более информативен, чем при низких. Как может тест предоставлять информацию, различающуюся в зависимости от уровня выраженности признака? Как получается так, что тест отличает людей с относительно сильно выраженным признаком, но не отличает людей с относительно слабым уровнем выраженности этого признака? Представьте себе двухпунктовый тест на математические способности: 1. Каков квадратный корень из 10 000? 2. Найдите х в следующем уравнении: 56 = 4x2 + Зу - 14. Оба пункта требуют довольно высокого уровня математических способностей (по сравнению с некоторыми другими возможными примерами). Если у Элизабет и Мэри низкие математические способности (например, обе они умеют производить сложение и вычитание, хотя Мэри в этом немного лучше, чем Элизабет), они не дадут правильного ответа ни на один из пунктов. В связи с этим и Элиабет, и Мэри получат за выполнение теста один и тот же балл и данный двухпунктовый тест не будет способен различить их математические способности. С другой стороны, Крис и Лана обладают, хорошими математическими способностями, и каждый из них может правильно ответить по крайней мере на один из пунктов. Так как Лана несколько более способна, чем Крис, есть вероятность, что она правильно ответит даже на оба пункта, хотя Крис, скорее всего, ответит лишь на один. Таким образом, Крис и Лана могут получить за выполнение теста разные баллы. Как видим, в нашем гипотетическом примере тест способен отличить Криса от Ланы, а также пару «Крис и Лана» от пары «Элизабет и Мэри», однако тест не может дифференцировать математические способности Элизабет и Мэри. В целом, если пункты теста имеют характеристики (например, сложность), которые при 388
одних уровнях выраженности признака представлены сильнее, чем при других, психометрическое качество теста может различаться в зависимости от выраженности признака. Рассмотренный математический тест включает лишь два пункта с высоким уровнем сложности: как следствие, этот тест недостаточно информативен для диагностики различий между людьми со слабой выраженностью признака. IRT может быть использована для точной оценки психометрического качества теста в широком спектре уровней выраженности признака. Такую оценку можно представить как двухэтапный процесс. Сначала по всему спектру уровней выраженности признака оценивается психометрическое качество каждого отдельного пункта — его информативность. Для вычисления этого показателя используются вероятности правильного ответа на данный пункт для определенного уровня выраженности данного признака (см. характеристические кривые пунктов). Информативность пункта для модели Раша вычисляется по формуле (Embertson & Reise, 2000): /(^) = Р,(0)х(1-^(^)), где 1(0) - информативность пункта при уровне выраженности признака (0), a Pi(0) - вероятность того, что респондент с данным уровнем выраженности признака ответит на данный пункт правильно. Например, в табл. 13.2 значение сложности для пункта 1 составляет - 1,61. Для респондента с уровнем выраженности признака на три стандартных отклонения ниже среднего вероятность правильного ответа на пункт 1 составляет 0,20 (см. уравнение вероятности правильного ответа на пункт для модели Раша). Следовательно, для уровня выраженности признака, на три стандартных отклонения ниже среднего (0 = -3), значение информативности пункта 1 составляет 0,16: Z(-3) = 0,20(1-0,20), Z(-3) = 1,16. На уровне выраженности признака, на три стандартных отклонения превышающем средний (0 = 3), значение информативности пункта 1 составляет 0,01. Чем выше значение информативности, тем выше психометрическое качество. Следовательно, при слабой выраженности признака пункт 1 обладает более высоким психометрическим качеством, чем при сильной выраженности признака. Другими словами, этот пункт лучше дифференцирует респондентов с низким уровнем выраженности признака, чем респондентов с высоким уровнем выраженности признака (вероятно, потому, что большинство таких респондентов отвечает на пункт правильно). В табл. 13.3 содержатся вероятности правильного ответа и коэффициенты информативности для каждого 389
пункта на семи различных уровнях выраженности признака. Вычислив значения информативности для гораздо большего количества уровней выраженности признака, мы можем представить результаты графически, в виде т.н. кривых информативности пунктов. Таблица 13.3 Пример IRT-анализа: вероятности правильного ответа, . информативность пунктов и информативность теста для различных уровней выраженности признака Выражен- ность признака Р(Х=^1 | 0) Вероятность правильного ответа Информативность Тест П. 1 П. 2 П.З П.4 П. 5 П. 1 П.2 П.З П.4 П. 5 -3 0.20 0,09 0.05 0.02 0,01 0.16 0.08 0,05 0.02 0.01 0,32 -2 0.40 0.21 0.12 0,06 0,03 0.24 0.17 0,10 0.06 0.03 0.60 -1 0.65 0.42 0,27 0.16 0,07 0,23 0,24 0.20 0.13 0,06 0.86 0 0.83 0.67 0,50 0.33 0,17 0.14 0,22 0.25 0.22 0.14 0,97 1 0.93 0.84 0.73 0.58 0,35 0.06 0.13 0,20 0.24 0.23 0.86 2 0.97 0.94 0,88 0,79 0.60 0.03 0.06 0.10 0.17 0.24 0.60 3 0.99 0.98 0,95 0,91 0,80 0,01 0.02 0,05 0,08 0.16 0,32 На рис. 13.2 представлены кривые информативности каждого из пунктов гипотетического примера (пятипунктового теста на математические способности). Заметьте, что высота кривой отражает количество информации, обеспечиваемой пунктом. Высшая точка на кривой относится к такому уровню выраженности признака, при котором пункт является наиболее информативным. Фактически пункт наиболее информативен при таком уровне выраженности признака, который совпадает с уровнем его сложности. Например, пункт 1 (наименее сложный) наиболее информативен при выраженности признака -1,61, и это же значение является уровнем сложности данного пункта. С другой стороны, пункт 1 мало информативен при выраженности признака выше среднего. Заметьте также, что точка наибольшей информативности отличается от пункта к пункту. Пункт 1 наиболее информативен при относительно низких уровнях выраженности признака, пункт 3 - при средних уровнях, пункт 5 - при относительно высоких. Конечно, при использовании психологического теста нас больше интересует качество этого теста в целом, а не качество отдельных его пунктов. Можно обобщить коэффициенты информативности пунктов и получить показатели информативности всего теста. Для этого значения информативности пунктов при каком-либо конкретном уровне выраженности признака складываются друг с другом, и получается коэффициент информативности теста при данном уровне выраженности признака. В табл. 13.3 приведены 390
коэффициенты информативности гипотетического пятипунктового математического теста для семи различных уровней выраженности признака. Например, показатель информативности теста при средней выраженности признака (6 = 0) равняется простой сумме коэффициентов информативности пунктов при 6 = 0. 0.97 = 0.14 + 0,22 + 0,25 + 0,22 + 0,14. Аналогичным образом, вычислив коэффициенты информативности теста на множестве различных уровней выраженности признака, можно изобразить результаты графически, в виде кривой информативности теста (Рис. 13.2). Кривая информативности теста полезна для демонстрации качества той информации, которую тест дает при различных уровнях выраженности у респондента измеряемого признака. Заметьте, что рассмотренный гипотетический тест наиболее информативен при средней выраженности признака и наименее информативен в крайних случаях. Другими словами, наилучшим образом данный тест дифференцирует респондентов, у которых степень выраженности измеряемого признака не выходит за пределы одного или двух стандартных отклонений в какую-либо сторону от среднего. И наоборот, тест относительно плохо работает для тех респондентов, выраженность признака у которых более чем на два стандартных отклонения ниже средней, а также для тех респондентов, у которых выраженность признака более чем на два стандартных отклонения превышает среднюю. —— пункт 1 .......пункт 3 —о— пункт 5 ----пункт 2 —¥— пункт 4 391
Кривая информативности теста Рисунок 13.2. Кривые информативности пунктов и теста Задумайтесь вновь о различиях между IRT и классической теорией тестов с точки зрения их подходов к пониманию надежности. С позиций классической теории, тест обладает единой надежностью, которую можно оценить, например, при помощи коэффициента альфа. С позиций IRT, психометрическое качество теста может быть различным при различной выраженности у респондента измеряемого признака. При всей его важности, это различие двух психометрических подходов иногда недооценивается. Области применения IRT Теория ответов на пункты (IRT) - это теоретический подход, предлагающий свои вычислительные модели, которые применяются сегодня для проведения измерений во множестве областей психологии. Вероятно, коэффициенты сложности и дискриминативности пунктов интуитивно наиболее очевидны в сфере измерения способностей. В самом деле, на протяжении нескольких лет Служба тестирования в образовании (Educational Testing Service) использовала IRT как психометрическую основу для теста академических способностей SAT. Кроме того, несколько штатов США используют IRT в качестве основы для диагностики достижений в системе государственных школ. Помимо измерения способностей, IRT применялся и для диагностики отношений (напр., Strong, Breen, & Lejuez, 2004) и личностных черт 392
(Chernyshenko, Stark, Chan, Drasgow, & Williams, 2001; Fraley, Waller, & Brennan, 2000). Разработка и усовершенствование тестов Фундаментальным приложением IRT является оценка и усовершенствование психометрических характеристик пунктов и тестов. Используя информацию о характеристиках отдельных пунктов, разработчики тестов могут отбирать пункты, отражающие достаточный спектр уровней выраженности измеряемого признака и обладающие достаточной дискриминативной способностью. Такой отбор пунктов, осуществляемый на основе IRT-анализа, может привести к созданию теста, обладающего высокими психометрическими качествами на широком спектре уровней выраженности признака. К примеру, Р.С. Фрейли с коллегами применяли IRT для изучения психометрических качеств четырех опросников (всего 12 субшкал), направленных на измерение привязанности к взрослым (Fraley et al., 2000). Вычислив и построив графики кривых информативности теста для каждой из субшкал, Р.С. Фрейли с коллегами обнаружили, что субшкалы одного из опросников (Опыт близких взаимоотношений - Experiences in Close Relationships, ECR; K.A.Brennan, Clark, & Shaver, 1998) являются более информативными по сравнению с субшкалами трех других опросников. В дальнейшем Р.С. Фрейли и коллеги использовали IRT для сопровождения и оценки модификаций, вносимых ими в субшкалы ECR. В результате таких модификаций были созданы улучшенные субшкалы ECR, показатели информативности которых были выше, чем у первоначальных. Стоит отметить, что этого повышения в информативности теста удалось добиться, не увеличивая количества пунктов. Дифференциальное функционирование пунктов Ранее в этой книге говорилось о необъективности теста (test bias). В рамках IRT можно проводить анализы, направленные на выявление и оценку характера дифференциального функционирования пунктов (DIF - differential item functioning). О дифференциальном функционировании пункта говорят тогда, когда характеристики пункта в одной группе отличаются от его характеристик в другой группе. Например, дифференциальное функционирование пункта (DIF) можно констатировать тогда, когда уровень сложности данного пункта для мужчин отличается от уровня его сложности для женщин. Другими словами, наличие дифференциального функционирования пункта означает, что для мужчины и женщины с одинаковым уровнем выраженности признака вероятность правильного ответа на пункт, тем не менее, различается. Наличие дифференциального функционирования пункта (DIF) в двух группах говорит о том, что данные группы нельзя сравнивать по результатам ответа на данный пункт. Л.Л. Смит и С.П. Райс (L.L. Smith & Reise, 1998), к примеру, использовали IRT для изучения дифференциального функционирования пунктов для лиц 393
мужского и женского пола в шкале стрессовых реакций, входящей в Многомерный личностный опросник (Multidimensional Personality Questionnaire, MPQ; Tellegen, 1982). Шкала стрессовых реакций измеряет склонность респондента испытывать негативные эмоции, такие как тревога или чувство вины. И предшествующие исследования показали, что средний балл по данной шкале в мужской и женской выборках различается. Л.Л. Смит и С.П. Райс утверждали, что такая разница может отражать либо истинные различия между мужчинами и женщинами по данной личностной черте, либо же особенности дифференциального функционирования пунктов в шкале (L.L. Smith & Reise, 1998). Проведенный ими анализ показал, что феномен дифференциального функционирования присутствует у нескольких пунктов, хотя женщины действительно набирали по шкале стрессовых реакций более высокие баллы, чем мужчины. Кроме того, анализ вскрыл интересный психологический смысл тех пунктов, которые демонстрировали дифференциальное функционирование. Оказалось, что с пунктами, связанными с «эмоциональной уязвимостью и чувствительностью в ситуациях, предполагающих самооценку» легче соглашаются респонденты женского пола, тогда как с пунктами, связанными с «общим переживанием нервного напряжения, необъяснимого спада настроения, раздражения, разочарования и несдержанности» (L.L. Smith & Reise, 1998, с. 1359), легче соглашаются респонденты мужского пола. Л.Л. Смит и С.П. Райс заключают, что опросники, направленные на измерение склонности к негативным эмоциональным переживаниям, будут давать большие половые различия, если в них входит большое количество «женских дифференциально- функционирующих пунктов», и незначительные половые различия, если в них входит большое количество «мужских дифференциально-функционирующих пунктов». Такого рода открытия могут способствовать развитию и более ясному пониманию важных психологических измерений. Нетипичные паттерны ответов Другая интересная область применения IRT связана с явлением, называемым нетипичные («подозрительные») паттерны ответов (person fit) (Meijer & Sijtsma, 2001). Бывает, что при анализе результатов психологического тестирования выявляется респондент, чей паттерн ответов по сравнению с типичными ответами выглядит странным. Рассмотрим два пункта, которые гипотетически могли бы входить в опросник дружелюбности: 1. Мне нравятся мои друзья. 2. Я хочу давать своим друзьям взаймы столько денег, сколько бы им ни понадобилось. Большинство людей, вероятно, согласятся с первым утверждением (т. е. это «легкий» пункт). С другой стороны, со вторым утверждением согласятся, вероятно, уже не так много респондентов. Хотя большинству из нас нравятся друзья и мы хотели бы помогать им, не все из нас хотят «давать им взаймы столько денег, сколько бы им ни понадобилось». Несомненно, те из нас, кто 394
готов одолжить друзьям любую сумму денег, скорее всего, скажут, что им нравятся их друзья (т. е. согласятся с первым утверждением). Другими словами, нет ничего удивительного в том, что человек, готовый одолжить друзьям любую сумму денег, любит своих друзей; однако весьма странно, когда человек готов одолжить друзьям любую сумму денег и одновременно заявляет, что его друзья ему не нравятся. Всего в данном примере существует четыре возможных паттерна ответов, и три из них легко поддаются интерпретации. Паттерн ответов Пункт 1 Пункт 2 Интерпретация 1 Не согласен Не согласен Недружелюбный человек 2 Согласен Не согласен Умеренно дружелюбный человек 3 Согласен Согласен Очень дружелюбный человек 4 Не согласен Согласен Неоднозначная интерпретация Анализ нетипичных паттернов ответов - это попытка выявить тех респондентов, чьи паттерны ответов на некоторый набор пунктов не соответствуют ожидаемым. Несмотря на то что существует несколько подходов к анализу нетипичных паттернов ответов (Meijer & Sijtsma, 2001), их общий алгоритм заключается в том, что сначала с помощью IRT вычисляются характеристики (параметры) пунктов, а затем ищутся респонденты, чьи ответы на пункты не соответствуют этим параметрам. Например, IRT-анализ мог бы показать, что приведенный выше пункт 1 обладает низким уровнем сложности (т. е. для того, чтобы согласиться с этим утверждением, ярко выраженной дружелюбности не требуется), а пункт 2 - высоким уровнем сложности. Было бы необычно обнаружить респондента, который соглашается со «сложным» пунктом и не соглашается с «простым». Факт обнаружения респондентов с низкой степенью соответствия некоторому набору пунктов может иметь несколько объяснений. Низкая степень соответствия может свидетельствовать о самых разных причинах: нечестных ответах или списывании, заполнении теста наугад, сниженной мотивации респондентов, культурной зависимости теста и его культурных искажениях, даже об ошибках в администрировании теста и процедуре подсчета баллов (N. Schmitt, Chan, Sacco, McFarland, & Jennings, 1999). Кроме того, в контексте измерения личностных черт нетипичный паттерн ответов может означать, что респондент обладает уникальной личностью, индивидуальностью, т. е. его паттерн ответов на предъявляемые пункты не похож ни на один из «типично ожидаемых» вариантов (Reise & Waller, 1993). Компьютеризированное адаптивное тестирование Еще одна область применения, которая зачастую ассоциируется с IRT, носит название «компьютеризированное адаптивное тестирование» 395
(computerized adaptive testing - CAT). CAT - это метод компьютеризированного администрирования теста, направленный на обеспечение точных и очень эффективных оценок уровня выраженности признака у респондента. В компьютеризированном адаптивном тестировании используется очень большая база пунктов, каждый из которых прошел процедуру оценки психометрического качества в IRT-анализе. Представьте, к примеру, что администраторы теста набирают базу из 300 пунктов и проводят психометрическое исследование, вычисляя для каждого из пунктов коэффициент сложности. Как вы помните, сложность пункта взаимосвязана с выраженностью признака: уровень сложности пункта - это уровень выраженности признака, необходимый для того, чтобы вероятность правильного ответа респондента на пункт составляла 0,50. Коэффициенты сложности всех пунктов вносятся в компьютерную базу данных. Когда респондент начинает выполнение теста, компьютер выдает ему задания со средним уровнем сложности (около 0), т. е. предназначенные для людей со средним уровнем выраженности признака. Затем компьютер начинает адаптировать тест, подгоняя его к уровню выраженности у респондента измеряемого признака. Если тестируемый на несколько первых вопросов отвечает правильно, компьютер выбирает из базы данных пункты с чуть более высоким уровнем сложности. Если же респондент на несколько первых пунктов ответил неправильно, компьютер выбирает из базы данных (и предоставляет респонденту) пункты с чуть более низким уровнем сложности. Заметьте, может так получиться, что два респондента будут отвечать на практически полностью различные наборы пунктов. По мере того как респондент продолжает заполнение теста, компьютер продолжает подбор наиболее подходящих для него пунктов. Компьютерная программа отслеживает ответы тестируемого на конкретные пункты с известными коэффициентами сложности и производит постоянную переоценку уровня выраженности признака. Компьютер останавливает тестирование тогда, когда респонденту было предъявлено достаточное количество пунктов для достоверной финальной оценки уровня выраженности у него измеряемого в тесте признака. Интересно, что точность и эффективность компьютеризированных адаптивных тестов достигается за счет того, что разным респондентам предоставляются разные, по сути, тесты. На первый взгляд может показаться, что это противоречит здравому смыслу. Но вспомните, какова цель компьютеризированного адаптивного тестирования - предоставлять респонденту такие пункты, которые соответствуют уровню выраженности у него измеряемого признака. Другими словами, компьютер предоставляет только такие пункты, которые на самом деле способны точно диагностировать конкретного тестируемого. Если очевидно, что у респондента высоко развита какая-то способность, необязательно заставлять его отвечать на очень простые пункты. С другой стороны, если очевидно, что у респондента данная способность не развита, заставляя его отвечать на сложные пункты теста, мы не узнаем ничего нового. Таким образом, вместо предоставления всего набора из 396
300 пунктов всем респондентам, программа компьютеризированного адаптивного тестирования выдает респонденту столько пунктов, сколько необходимо для точного измерения уровня выраженности у него искомого признака (и вероятно, это количество пунктов будет значительно меньше 300). Данный метод администрирования теста более эффективен и меньше раздражает респондентов. Главным образом, компьютеризированное адаптивное тестирование использовалось в диагностике способностей, знаний и достижений. Например, Государственный совет местных объединений медсестер (National Council of State Boards of Nursing - NCSBN) обеспечивает стандарты лицензирования и выдачи патентов медсестрам в США. Для получения патента медсестре необходимо пройти компьютеризированное адаптивное тестирование, которое использует базу из почти 2000 пунктов с заранее установленными коэффициентами сложности. Интернет-сайт NCSBN уверяет кандидатов на получение патента в том, что «САТ обеспечивает повышенную эффективность измерения и использует только те пункты, которые наилучшим образом диагностируют способности кандидата» (NCSBN, 2006). Экзамен на получение последипломного образования GRE (Graduate Record Examination) на момент написания этих строк также проводится главным образом с помощью компьютеризированного адаптивного тестирования. Интернет-сайт GRE сообщает читателю о том, что компьютеризированные версии тестов «приспособлены под уровень вашей успеваемости и обеспечивают точную информацию о ваших способностях, используя при этом меньшее количество вопросов, чем традиционные бумажные тесты» (Educational Testing Service. 2006). Резюме В целом IRT представляет собой психометрический подход, имеющий, как утверждается, несколько преимуществ по сравнению с традиционной классической теорией тестов (СТТ). IRT объединяет в себе разнообразные статистические модели, связывающие между собой тот или иной ответ респондента на пункт, уровень выраженности у респондента некоторого признака и ряд параметров самих пунктов. Знание параметров пунктов, таких как сложность и дискриминативность, может способствовать развитию и лучшему пониманию психологических тестов. IRT-анализы сложны с вычислительной точки зрения, однако для проведения этих анализов существует специализированное программное обеспечение, которое становится все более простым и удобным в использовании. Дальнейшее использование и исследование 1RT покажет, насколько и в чем именно эта теория превосходит классическую теорию тестов на практике. 397
Рекомендуемая литература Доступное введение в ряд разделов IRT, ориентированное на психологов: Embertson, S.E., & Reise, S. (2000). Item response theory for psychologists. Mahwah, NJ: Lawrence Erlbaum. Это классическая для истории IRT публикация: Lord, F.M. (1953). The relation of test score to the trait underlying the test. Educational and Psychological Measurement, 13, 517 — 548. Доступное обсуждение методов и проблем использования IRT в диагностике личностных черт: Reise, S.P., & Henson, J.M. (2003). A discussion of modem versus traditional - psychometrics as applied to personality assessment scales. Journal of Personality Assessment, 81,93 - 103. В этом источнике содержится всестороннее и тщательное описание множества вопросов, связанных с использованием модели Раша (1ФЛ): Bond, T.G., & Fox, С.М. (2001). Applying the Rasch model: Fundamental measurement in the human sciences. Mahwah, NJ: Lawrence Erlbaum. Хороший пример применения IRT к психологическим данным: Fraley, R.C., Waller, N.G., & Brannan, K.A. (2000). An item-response theory analysis of self-report measures of adult attachment. Journal of Personality and Social Psychology, 78, 350-365. Хорошее описание теоретических основ IRT: Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage. 398
Библиография Abelson, R. P. (1985). A variance explanation paradox: When a little is a lot. Psychological Bulletin, 97, 129-133. Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA: Brooks/ Cole. American Educational Research Association, American Psychological Association, and National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association. American Psychiatric Association. (1994). Diagnostic and statistical manual of mental disorders (4th ed.). Washington. DC: Author. American Psychological Association (APA), (n.d.). Psychological assessment: journal description. Retrieved June 26, 2006, from http://www.apa.org/journals/pas/description.html Anderson, C. A., & Dill, К. E. (2000). Video games and aggressive thoughts, feelings, and behavior in the laboratory and in life. Journal of Personality and Social Psychology', 78, 772- 790. Bachman, J. G., & O'Malley, P. M. (1984). Yea-saying, nay-saying, and going to extremes: Black-White differences in response style. Public Opinion Quarterly, 48, 491-509. Baer, R. A., & Miller, J. (2002). Underreporting of psychopathology on the MMPI-2: A meta- analytic review. Psychological Assessment, 14, 16-26. Bartholomew, D. J. (1996). The statistical approach to social measurement. New York: Academic Press. Bartholow, B. D.. Sestir, M. A., & Davis. E. B. (2005). Correlates and consequences of exposure to video game violence: Hostile personality, empathy, and aggressive behavior. Personality and Social Psychology Bulletin, 31, 1573-1586. Baumeister, R. F, & Leary, M. R. (1995). The need to belong: Desire for interpersonal attach- ments as a fundamental human motivation. Psychological Bulletin, 117, 497-529. Beck, A. X, Steer, R. A., & Brown, G. K. (1996). Beck Depression Inventory-II (BDI-Il). San Antonio, TX: Harcourt Assessment. Beck, A. T„ Ward, C H„ Mendelson, M„ Mock, J., 8c Erbaugh. J. (1961). An inventoty for measuring depression. Archives of General Psychiatry'. 4, 561-571. Beny. D. T. R., Baer. R. A., Rinaldo. J. C, & Wetter. M. W (2002). Assessment of malingering. In J. N. Butcher (Ed.), Clinical personality assessment (2nd ed., pp. 269-302). New York: Oxford University Press. Binks, P. G., Gouvier, W. D., & Waters, W F. (1997). Malingering detection with the dot counting test. Archives of Clinical Neuropsychology, 12, 41-46. Blanton, H.. 8c Jaccard, J. (2006). Arbitrary metrics in psychology. American Psychologist, 61, 27-41. 399
Block, J. (1965). The challenge of response sets: Unconjbunding meaning acquiescence and social desirability in the MMPI. New York: Appleton-Century-Crofts. Boone, К. B., Lu, P., Back, C. King, C, Lee, A., Philpott, L., et al. (2002). Sensitivity and specificity’ of the Rey Dot Counting Test in patients with suspect effort and various clinical samples. Archives of Clinical Neuropsychology, 17, 625-642. Borsboom. D„ Meilenbergh, G. J., & Van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071. Brennan, K. A., Clark. C L., & Shaver, P. R. (1998). Self-report measurement of adult attachment: An integrative overview. In J. A. Simpson & W. S. Rholes (Eds.), Attachment theory and close relationships (pp. 46-76). Reading, MA: Addison-Wesley . Brennan, R. L. (2001). Generalizability theory. New York: Springer-Verlag. Brogden, H. E.. & Taylor, E. K. (1950). The dollar criterion: Applying cost accounting concepts to criterion selection. Personnel Psychology, 3, 133-154. Bums. R. C (1987). Kinetic house-tree-person drawings (K-H-T-P): An interpretative manual. New York: Brunner-Routledge. Butcher, J. N., Atlis, M., 8c Fang, L. (2000). The effects of altered instructions on the MMPI-2 profiles of college students who are not motivated to distort their responses. Journal of Personality Assessment, 74, 492-501. Butcher, J. N., Dahlstrom, W. G., Graham, J. R., Tellegen, A., & Kaemmer, B. (1989). Minnesota Multiphasic Personality Inventory-2 (MMPI-2): Manual for administration and scoring. Minneapolis: University of Minnesota Press. Butcher, J. N., Morfitt. R. C, Rouse, S. V., 8c Holden, R. R. (1997). Reducing MMPI-2 defen- siveness: The effect of specialized instructions on retest validity in a job applicant sample. Journal of Personality Assessment, 68, 385-401. Cady, V. M. (1923). The estimation of juvenile incorrigibility (Journal of Delinquency Monographs, No. 2). Whitter: Whittier State School, California Bureau of Juvenile Research. Campbell. D. T, & Fiske, D. W. (1959). Convergent and discriminant validation by the mui- titrait multimethod matrix. Psychological Bulletin. 56. 81-104. Chernyshenko, O. S.. Stark, S.. Chan, K. Y, Drasgow, F„ 8c Williams, B. A. (2001). Examining the fit of IRT models to personality items. Multivariate Behavioral Research, 36, 523-562. Cloud, J., & Vaughn. G. M. (1970). Using balanced scales to control acquiescence. Sociometry, 33, 193-202. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum. College Board. (2006). SAT Reasoning Test. Retrieved April 16, 2006, from http://www coliegeboard.com/student/testing/sat/about/SATI.html Coombs, С. H. (1950). Psychological scaling without a unit of measurement. Psychological Review, 57, 15-158. Coopersmith, S. (1981). The antecedents of self-esteem. Palo Alto, CA: Consulting Psychologists Press. (Original work published 1967) Cortina, J. M. (1993). What is coefficient alpha? An examination of theory and applications. Journal of Applied Psychology, 78. 98-104. Costa, P. T, & McCrae. R. R. (1992). Revised NEO Personality Inventory (NEO-PI-R) and NEO Five-Factor Inventory (NEO-FFI) professional manual. Odessa. FL: Psychological Assessment Resources. Couch. A., 8c Keniston, K. (1960). Yea-sayers and nay-sayers: Agreeing response set as a per- sonality variable. Journal of Abnormal and Social Psychology, 20, 151-174. Criminal Procedure Act. N. C Gen. Stat. & 15A-2005. (2007). 400
Crocker. L.. & Algina. J. (1986). Introduction to classical and modem test theory'. New York: Holt, Rinehart 8c Winston. Cronbach. L. J. (1942). Studies of acquiescence as a factor in the true-false test. Journal of Educational Psychology, 33,410-415. Cronbach, L. J. (1946). Response sets and test validity . Educational and Psychological Measurement. 6,475-494. Cronbach, L. J. (1950). Further evidence on response sets and test design. Educational and Psychological Measurement, 1О.2-2Л. Cronbach, L. J. (1960). Essentials of psychological testing (2nd ed.). New York: Harper & Row. Cronbach, L. J. (1988). Five perspectives on the validity argument. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 3-18). Hillsdale, NJ: Lawrence Erlbaum. Cronbach, L. J.. Gleser, G. C, Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles. New York: John Wiley. Cronbach, L. J., 8c Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 51. 281-302. Crowne, D. P., 8c Marlowe, D. (1960). A new scale of social desirability independent of psychopathology. Journal of Consulting Psychology, 24, 349-354. D'Andrade, R., 8c Dart, J. (1990). The interpretation of r versus r" or why percent of variance accounted for is a poor measure of size of effect. Journal of Quantitative Anthropology:, 2, 47-59. DuBois, P. H. (1970). A history of psychological testing. Boston: Allyn 8c Bacon. Educational Testing Service. (2006). Frequently asked questions about the general test. Retrieved January 17,2006, from http://www.ets.org/portaFsite/ets/menuitem. Ekman, P., 8c Friesen, W. V. (1978). Facial action coding system: A technique for the measure- ment of facial movement. Palo Alto, CA: Consulting Psychologists Press. Embretson, S. E., & Reise, S. (2000). Item response theoty for psychologists. Mahwah, NJ: Lawrence Erlbaum. Epstein, S. (1979). The stability of behavior: I .On predicting most of the people much of the time. Journal of Personality and Social Psychology, 7,1097-1126. Fabrigar, L. R„ Wegener, D. T, MacCallum, R. C, 8c Strahan, E. J. (1999). Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, 4,272-299. Feldt, L. S.. & Brennan, R. L. (1989). Reliability. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 105-146). Washington, DC: American Council on Education; New York: Macmillan. Fink, A. M.. 8c Butcher, J. M. (1972). Reducing objections to personality inventories with special instructions. Educational and Psychological Measurement 32.631-639. Fraley , R. C., Waller. N. G., 8c Brennan, K. A. (2000). An item-response theory analysis of self- report measures of adult attachment. Journal of Personality and Social Psychology', 78, 350- 365. Furr, R. M., Reimer, B., 8c Bellis, F. A. (2004). Development and validation of the Impression Motivation and Efficacy Scale (IME). Unpublished technical report, Psychology Department Wake Forest University . Gaiton, F. (1863). Metreorographica. or methods of mapping the weather. London: New York: Macmillan. Gaiton, F. (1869). Hereditary genius. London: Macmillan. Gaiton, F. (1879). Psychometric experiments. Brain. 2. 149-162. Gaiton, F. (1883). Inquires into human faculty and its development London: Macmillan. 401
Galton, F. (1885). The measure of fidget. Nature, 32.174-175. Galton, F. (1889). Correlations and their measurement, chiefly from anthropometric data. Nature. 39, 238. Galton, F. (1902). The most suitable proportion between the values of first and second prizes. Biometrika, 1,385-399. Galton, F. (1907). Grades and deviates. Biometrika, 5,400-406. Gebhardt, K„ Bender. R., Bovver. G., Dressier, A.. Faber, S. M.. Filippenko, A. V., et al. (2000). A relationship between nuclear black hole mass and galaxy velocity dispersion. The Astrophysical Journal, 539, L13-L16. Ghiselli. E. E., Campbell, J. P., 8c Zedeck, S. (1981). Measurement theory for the behavioral sciences. San Francisco: W. H. Freeman. Goldberg. L. R„ Johnson, J. A.. Eber. H. W.. Hogan. R.. Ashton. M. C. Cloninger. C R.. et al. (2006). Fhe International Personality Item Pool and the future of public-domain personality measures. Journal of Research in Personality, 40, 84-96. Gorsuch, R. L. (1983). Factor analysis. Hillsdale. NJ: Lawrence Eribaum. Gough, H. G. (1965). Conceptual analysis of psychological test scores and other diagnostic variables. Journal of Abnormal Psychology, 70,294-302. Graham. J. R. (1990). MMP1-2: Assessing personality and psychopathology. New York: Oxford University Press. Green. P. E., & Rao. V. R. (1971). Conjoint measurement for quantifying judgmental data. Journal of Marketing Research, 8,355-363. Greenleaf, E. A. (1992). Measuring extreme response style. Public Opinion Quarterly, 56, 328- 351. Guilford, J. P. (1954). Psychometric methods. New York: McGraw-Hill. Guliiksen, H. (1950). Theory of mental tests. New York: John Wiley. Hahn, J. (2005). Faking bad and faking good by college students on the Korean MMPI-2. Journal of Personality Assessment, 85.65-73. Hemphill, J. F. (2003). Interpreting the magnitude of correlation coefficients. American Psychologist, 58, 78-79. Hill, R. W., Huelsman, T J., Furr, R. M., Kibler. J.. Vicente, В. B., & Kennedy, C (2004). A new measure of perfectionism: The Perfectionism Inventory (PI). Journal of Personality' Assessment, 82, 80-91. Hsu, L. M. (2004). Biases of success rate differences shown in binomial effect size displays. Psychological Methods, 9, 183-197. Jain, U., 8c Agrawal, L. (1977). Generality of extreme response style. Journal of Psychological Researches, 21, 67-72. Jensen, A. R. (1980). Bias in mental testing. New York: Free Press. Jensen, A. R. (1998). The gfactor. Westport. CT: Praeger. Jensen, A. R. (2005). Mental chronometry and the unification of differential psychology. In R. J. Sternberg 8c J. E. Pretz (Eds.). Cognition and intelligence: Identifying the mechanisms of the mind (pp. 26-50). Cambridge. UK: Cambridge University Press. John, О. P., 8c Robins, R. W. (1993). Determinants of interjudge agreement on personality traits: The Big Five domains, observability, evaluativeness, and the unique perspective of the self. Journal of Personality, 61, 521-551. Johnson, T. S., Engstrom, J. L., 8c Gelhar, D. K. (1997). Intra- and interexaminer reliability of anthropometric measurements of term infants. Journal of Pediatric Gastroenterology’ & Nutrition, 24, 497-505. Johnson, T. S„ Engstrom, J. L., Haney, S. L., & Mulcrone, S. L. (1999). Reliability of three length measurement techniques in term infants. Pediatric Nursing, 25. 13-17. 402
Knapp, T. R. (2005). The reliability of measuring instruments (3rd ed.). Retrieved March 17, 2006. from http://wvvvv.tomsvvebpaoe.net/images/reliabilitv.doc Knowles, E. S., 8c Nathan. K. (1997). Acquiescent responding in self-reports: Social concern or cognitive style. Journal of Research in Personality, 31, 293-301. Leary, M. R., Kelly, К. M., Cottrell, C. A., & Schreindorfer, L. S. (2006). Individual differences in the need to belong: Mapping the nomological network. Unpublished manuscript, Wake Forest University. Lees-Haley, P. R. (1996). Alice in validityland, or the dangerous consequences of consequential validity. American Psychologist. 51, 981-983. Lentz, T. F. (1938). Acquiescence as a factor in the measurement of personality Psychological Bulletin, 35, 659. Lezak, M. D. (1995). Neuropsychological assessment (3rd ed.). New York: Oxford University Press. Loong, T.-W. (2003). Understanding sensitivity and specificity with the right side of the brain. British Medical Journal, 327, 716-719. Lord, F. M. (1953). On the statistical treatment of football numbers. American Psychologist, 8. 750-751. Lord, F. M. (1956). The measurement of growth. Educational and Psychological Measurement. 46.421-437. Lord, F. M. (1962). Elementaty models for measuring change. In C. W. Harris (Ed.), Problems in measuring change (pp. 21-38). Madison: University of Wisconsin Press. Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Luce, R. D., & Tukey, J. W. (1964). Simultaneous conjoint measurement: A new type of fun- damental measurement. Journal of Mathematical Psychology’, I, 1-27. Luscher, M., & Scott, I. (1969). The luscher Color Test. New York: Washington Square Press. Magnusson, D. (1967). Test theory’. Reading, MA: Addison-Wesley. Marcoulides, G. A. (1996). Estimating variance components in generalizability theory: The covariance structure analysis approach. Structural Equation Modeling, 3. 290-299. Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychonietrika, 47, 149-174. McCrae, R. R., & Costa, P. T., Jr. (1983). Social desirability scales: More substance than style. Journal o f Consulting and Clinical Psychology, 51, 882-888. McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah, NJ: Lawrence Erlbaum. Meijer, R. R„ & Sijtsma, K. (2001). Methodology review: Evaluating person fit. Applied Psychological Measurement. 25, 107-135. Merrens. M. (1970). Generality and stability of extreme response style. Psychological Reports, 27, 802. Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-103). New York: Macmillan. Meyers, L. S., Gamst, G., & Guarino, A. (2006). Applied multivariate research: Design and interpretation. Thousand Oaks, CA: Sage. Michell, J. (1990). An introduction to the logic of psychological measurement. Hillsdale, NJ: Lawrence Erlbaum. Mittenberg, W., Patton, C, Canyock, E. M„ 8c Condit, D. C (2002). Base rates of malingering and symptom exaggeration. Journal of Clinical and Experimental Neuropsychology, 24, 1094- 1102. National Council of State Boards of Nursing (NCSBN). (2006). Computerized adaptive testing (CAT) overview. Retrieved January 17, 2006, from http://www.ncsbn.org/testing/ candidatesinfocatasp 403
Nave, C. S., 8c Furr, R. M. (2006, January). Development and validation of a social motiva- tion/social efficacy scale. Poster presented at the 7th annual meeting of the Society for Personality and Social Psychology, Palm Springs, CA. Netemeyer, R. G.. Bearden, W O., & Shanna, S. (2003). Scaling procedures: Issues and appli- cations. Thousands Oaks, CA: Sage. The new ISU scoring system, (n.d.). Retrieved June 4, 2006, from http://www.torin02006 .org/ENG/01ympicGames/news/news_ita!31457.html Nunnally, J. C, & Bernstein, 1. H. (1994). Psychometric theory (3rd ed.). New York: McGraw-Hill. O'Brien, E. J., & Epstein, S. (1988). MSEI: Multidimensional Self-Esteem Inventory. Odessa, FL: Psychological Assessment Resources. Ones. D. S., Viswesvaran, C, & Reiss, A. D. (1996). The role of social desirability in personality testing for personnel selection: The red herring. Journal of Applied Psychology’, 81, 660-679. Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coeffi- cients. Psychological Methods. 5, 343-355. Ozer, D. J. (1985). Correlation and the coefficient of determination. Psychological Bulletin. 97. 307-315. Ozer, D. J. (1989). Construct validity in personality assessment. In D. Buss & N. Cantor (Eds.), Personality psychology’: Recent trends and emerging directions (pp. 225-234). New York: Springer-Verlag. Paulhus, D. L. (1991). Measurement and control of response bias. In J. P. Robinson, P. R. Shaver, & L.S. Wrightsman (Eds.), Measures of personality and social psychological attitudes (pp. 17-59). New York: Academic Press. Paulhus, D. L. (2002). Socially desirable responding: The evolution of a construct. In H. Braun, D. N. Jackson, & D. E. Wiley (Eds.), The role of constructs in psychological and educational measurement (pp. 67-88). Hillsdale, NJ: Lawrence Erlbaum. Picco, R. D., & Dzindolet, M. T. (1994). Examining the Luscher color test. Perceptual and Motor Skills, 79, 1555-1558. Piedmont, R. L., McCrae, R. R., Riemann, R., & Angleitner, A. (2000). On the invalidity of validity scales: Evidence from self-reports and observer ratings in volunteer samples. Journal of Personality and Social Psychology, 78, 582-593. Rasch, G (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research. Ray. J. J. (1983). Reviving the problem of acquiescent response bias. Journal of Social Psychology. 121, 81-96. Reise, S. P., & Waller. N. G. (1993). Traitedness and the assessment of response pattern scal- ability. Journal of Personality and Social Psychology’, 65. 143-151. Rogers. R., Sewell, K. W., Martin, M. A., & Vitacco, M. (2003). Detection of feigned mental disorders: A meta-analysis of the MMPI-2 and malingering. Assessment, 10, 160-177. Rogosa, D. R. (1995). Myths and methods: Myths about longitudinal research, plus supple- mental questions. In J. M. Gottman (Ed.). The analysis of change (pp. 3-65). Hillsdale, NJ: Lawrence Erlbaum. Roid, G. (2003). Stanjbrd-Binet intelligence scales (5th ed., technical manual). Itasca, IL: Riverside. Rorer, L. G. (1965). The great response-style myth. Psychological Bulletin, 63. 129-156. Rosenberg, M. (1989). Society and the adolescent self-image (Rev. ed.). Middletown. CT: Wesleyan University Press. Rosenthal, R., Rosnow, R. L., & Rubin, D. B. (2000). Contrasts and effect sizes in behavioral research: A correlational approach. New York: Cambridge University Press. 404
Rosenthal, R., & Rubin, D. B. (1982). A simple, general purpose display of magnitude of experimental effect. Journal of Educational Psychology, 74, 166-169. Sackett, P. R., Schmitt, N. & Ellingson, J. E. (2001). High-stakes testing in employment, credentialing, and higher education: Prospects in a post-affirmative-action world. American Psychologist, 56, 302-318. Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometric Monograph, No. 17, 34, Part 2. Schmidt, F. L. (1988). Validity generalization and the future of criterion-related validity. In HWainer & H. Braun (Eds.), Test validity (pp. 173-189). Hillsdale. NJ: Lawrence Erlbaum. Schmidt, F. L., & Hunter, J. E. (1977). Development of a general solution to the problem of validity generalization. Journal of Applied Psychology, 62, 529-540. Schmidt, F. L.. Hunter, J. E., Pearlman, K„ & Hirsh, H. R. (1985). Forty questions about validity generalization and meta-analysis. Personnel Psychology, 38, 697-798. Schmitt, N. (1996). Uses and abuses of coefficient alpha. Psychological Assessment, (S’. 350- 353. Schmitt, N., Chan. D., Sacco, J. M., McFarland, L. A., & Jennings, D. (1999). Correlates of person fit and effect of person fit on test validity. Applied Psychological Measurement, 23, 41-53. Sechrest L„ McKnight P., & McKnihgt K. (1996) Calibration of measures for psychotherapy outcome studies. American Psychologist, 51(10), 1065-1071. Shavelson, R. J., & Webb, N. M. (1991). Generalizability theory: A primer. Newbtuy Park, CA: Sage. Smith, G. T. (2005). On construct validity: Issues of method and measurement. Psychological Assessment, 17, 396-408. Smith, L. L., 8c Reise, S. P. (1998). Gender differences on negative affectivity: An IRT study of differential item functioning on the Multidimensional Personality Questionnaire Stress Reaction Scale. Journal of Personality and Social Psychology, 75, 1350-1362. Smith, P. B. (2004). Acquiescence response bias as an aspect of cultural conununication style. Journal of Cross-Cultural Psychology, 35, 50-61. Spencer, S. J„ Steele, С M., & Quinn, D. M. (1999). Stereotype threat and women's math per- formance. Journal of Experimental Social Psychology, 35, 4-28. Spielberger, C D. (1983). Manual for the State-Trait Anxiety Inventory: (STAI). Palo Alto, CA: Consulting Psychologists Press. Stevens, S. S. (1946). On the theoiy of scales of measurement. Science, 1103, 677-680. Stevens, S. S. (1951). Mathematics, measurement, and psychophysics. In S. S. Stevens (Ed.), Handbook of experimental psychology (pp. 1-49). New York: John Wiley. Strong, D. R„ Breen, R,. & Lejuez, C W. (2004). Using item response theory to examine gambling affinity as an underlying vulnerability across a continuum of gambling involvement. Personality and Individual Differences, 36, 1515-1529. Taylor, H. C. 8c Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection: Discussion and tables. Journal of Applied Psychology, 23. 565-578. Tellegen, A. (1982). Brief manual of the Multidimensional Personality Questionnaire. Unpublished manuscript. University of Minnesota. Tellegen, A„ 8c Waller, N. G. (in press). Exploring personality through test Construction- Development of the Multidimensional Personality Questionnaire. Minneapolis: University of Minnesota Press. Thorndike, E. L. (1918). The nature, purpose, and general methods of measurements of edu- cational products, hi The seventeenth yearbook of the National Society for the Study of Education (pp. 16-24). Bloomington, IL: Public School Publishing Company. 405
Thorndike. R. L. (1971). Concepts of cultural fairness. Journal of Educational Measurement, 8, 63-70. Thorndike, R. M. (2005). Measurement and evaluation in psychology and education (7th ed.). Upper Saddle River, NJ: Pearson Education. Vacha-Haase, T. (1998). Reliability generalization: Exploring variance in measurement error affecting score reliability across studies. Educational and Psychological Measurement, 58, 6- 20. Vacha-Haase. T., Kogan. L.. Tani, C. R.. & Woodall. R. A. (2001). Reliability generalization: Exploring reliability coefficients of MMPI clinical scales scores. Educational and Psychological Measurement, 61,45-59. Vance, R. J., & Colella, A. (1990). The utility of utility analysis. Human Performance, 3, 123-139. van Herk, H., Poortinga, Y. H., & Verhallen, T. M. M. (2004). Response styles in rating scales: Evidence of method bias in data from six EU countries. Journal of Cross-Cultural Psychology, 35, 346-360. Viswesvaran, C, Ones, D. S., & Hough, L. M. (2001). Do impression management scales in personality' inventories predict managerial job performance ratings? International Journal of Selection and Assessment, 9, 277-289. Watson, D., Clark, L„ & Tellegen. A. (1988). Development and validation of brief measures of positive and negative affect: The PANAS scales. Journal of Personality and Social Psy chology. 54. 1063-1070. Wechsler, D. (2003a). WISC-1V administrative and scoring manual. San Antonio TX: The Psychological Corporation. Wechsler, D. (2003b). WISC-IV technical and interpretive manual. San Antonio, TX: The Psychological Corporation. Westen, D., & Rosenthal. R. (2003). Quantifying construct validity: Two simple measures. Journal of Personality and Social Psychology, 84,608-618. Westen, D., & Rosenthal, R. (2005). Improving construct validity: Cronbach, Meehl, and Neurath’s ship. Psychological Assessment, 17,409-412. Wetter, M. W, & Corrigan, S. K. (1995). Providing information to clients about psychohgical tests: A survey of attorneys' and law students' attitudes. Professional Psychology: Research and Practice. 26,474—477. Widaman. K. F. (1985). Hierarchically nested covariance structure models for multitrait- multimethod data. Applied Psychological Measurement, 9.1-26. Wright, B. D. (1997). A history of social science measurement. Educational Measurement: Issues and Practice, 16,33-45. Youngjohn, J. R. (1995). Confirmed attorney coaching prior to neuropsychological evaluation. Assessment, 2, 279-283. Zimmerman, D. W, & Williams, R. H. (1982). Gain scores in research can be highly reliable. Journal of Educational Measurement, 19, 1982. 406
Предметно- именной указатель D-анализ 345-346, 351 SPSS 132-134, 172, 181- 183, 185 Z-баллы 56-59 абсолютный нуль 22,31 Адаптивное тестирование 395 Альфа Кронбаха см. коэффициент Альфа Альфа-оценка надежности См. Коэффициент Альфа Анализ образцов поведения 15 Анализ дифференциального функционирования пунктов 320, 393 Анализ полезности 262 Баллы 1Q 29, 38-40, 41-42, 47 Баллы отклонения ? Баллы ошибки измерения 96, 104- 112, 121-122, 160-161 Баллы различия 119, 151- 154, 156- 157 Бинарные пункты: -коэффициент Альфа 130-131 - дисперсия 51 Валидность: - конкурентная 221-275, 257 - конструктная 195, 197-198. 203, 205, 213,219 - содержательная 195-196 - конвергентная 206, 207-209, 269- 271, 274 - критериальная 195, 212-213 - дивергентная 207-208, 209, 275 - определение 191 - очевидная 198 - факторный анализ 199-200 - как проблема интерпретации тестовых баллов 198 - прогностическая 208-209, 212 - в процессе ответа на задание теста 203-205 - структура теста 199-203 Векторное произведение 47 Вероятностное формирование выборки 66 Вероятность 325, 344. 375. 379-380, 381-382,385,387 Внутренняя согласованность 126, 139, 141, 180-182. 185, Вращение 84 Время ответа (реакции) 57 Время реакции 22, 25, 31 407
Время тестирования 12-123, 257, 341 Время тестирования Выражения лица 3-4 Гальтон 9 График каменистой осыпи 83-85, 201-203 Двухкомпонентный исследовательский дизайн 344, 355- 366, 369 Двухфакторная логистическая модель 380 Дивергентная валидность 207-209, 221 Дженсен, А.Р. 31 Дискриминативность пункта 1 SO- 181, 182, 184,377.378 Дисперсионный анализ (ANOVA) 347 Дисперсия 34, 50, 51, 53, 67 Дисперсия пунктов 133, 186 Дифференциальная Психология 10 Дихотомическая переменная 32, 252 Длина теста 126, 141 Доверительные интервалы 173, 177, 187 Единицы измерения 23-25 Измерение: - точность 11 - подсчет 23 - определение 18 - различия и 15 - уровни 27 - значения термина 9 - измерительные модели 379 - и шкалирование 27 - единицы 21 Измерения: 70-88 - оценка 79 -обзор 70-73 - связь между 75-81 - значение 70-73 - количество 73, 86 Индекс дискриминативности 184- 185,318-319 Интраиндивидуальные различия 6, 35 Истинные баллы 93, 97, 113-114, 160-161, 177-180, 290, Категории 19, 32 Качественное различие 29 Квадрат корреляции 101-110, 260- 261 Квадрат отклонения 39-40 Квантификация конструктной валидности (QCV) 239-244 Классическая теория тестов (СТТ) 339, 372. 397 Клинический многоосевой опросник Милона (MCMI) 305 Ковариация 47, 105. 131, 161.253 Компьютерное адаптивное тестирование (CAT) 395 Конвергентная валидность 206-209, 269-271,274-275 Конкурентная валидность 208 Конструирование теста 64, 146, ISO- 187 Конструктная валидность 195, 205, 257 Концептуальная гомогенность 74 косоугольное вращение 84 Коэн, Дж. 268 Коэффициент Альфа 130, 134, 137, 172. 181 Коэффициент генерализуемости 352-353,361-364,370-371 Коэффициенты валидности 224-226, 245, 253-255, 256-259. 269-271 Коэффициенты корреляции 42, 49- 50, Краткий опросник социальной желательности (BIDR) 309 Критериальная валидность 212-215, Критериально-ориентированные тесты-7 Критериальные переменные 224, 227, 240, 244-247 Кронбах, Л.Дж. 5. 209, 230, 373 Кумбс, К.Х. 32 408
Кэмпбелл, Д.Т. 272 Латентные переменные 4 Личностный опросник NEO-PI-R 191-192. 224-225 Лорд, Ф.М. 157 Международный банк заданий на черты личности 284 Межиндивидуальные различия 6, 35 Межпунктовая корреляция 135, 140- 141, 145-146-147, 184 Мессик, С. 210, 213 Многомерные тесты 71,75-78 Многомерный опросник самооценки MSE1 199-202, 206 Многофакторный опросник личности MPQ 214, 393 Модель Раша 379, 383-384 Момент времени 124, 208, 257, 342 Мультипризнаковая- мультиметодная матрица 230-237, 256-257 Наблюдаемые баллы 55, 107, ПО, 150, 177 Надежность: - альтернативные формы 90-117 119-121,302 - в исследованиях поведения 160 - в классической теории тестов 92- 93, 95, 99 - коэффициент 100-101, 104 - оценки 118-158 - генерализация 148 - показатель 104 - внутренняя согласованность 126- 139, 180-182 - обзор 90-92 - и уверенность в индивидуальных баллах 177-179 - расщепление пополам 127-130 - тест-ретестовая 122-126 Настоящие числа 21 Настроение 124 Национальная оценка образовательного прогресса 6 Неадекватность конструкта 314, 316-324 Ненаблюдаемые конструкты 3-5 Необъективность теста: - неадекватность конструкта 314, 316-324 - справедливость теста 335-336’ - важность обнаружения необъективности теста209-210, 315- 316 - ошибка свободного члена регрессии 330-331 - ошибка критериальной переменной 334 - прогностическая ошибка 314, 324- 334 - ошибка углового коэффициента регрессии 331-332 - типы 314-315 Несвязанные измерения 77-78, Несогласованность: - между пунктами 131 - между различиями в истинных и наблюдаемых баллах 93, 97, 100-102 -в паттерне ответов респондента 305-306 - в теории генерализуемости 361 - 362 Нетипичные паттерны ответов 394 Номологическая сеть 221-222, 226 Нормализация 64-65 нормальное распределение 43-45 Нормативно-ориентированные 7, 350, 369 Нуль 21, 30, 31 Нунналли, Дж.К. 134 Обобщение показателей валидности 223-226 Ограниченная амплитуда значений 247-252 Однокомпонентный исследовательский дизайн 346-3486 3516 367,370 Одномерные тесты 73-74 409
операционализация 5 Опросники: 70, П-1%, 91-92, 240, 252, 254-256, 293, 298-300, 305, 308- 309 - тревожности 286 -добросовестность 191,211,222, 224-226 - депрессии 6, 50, 252 - в теории ответов на пункты 374 - потребность в принадлежности 222 - перфекционизм 227 -личностные 79, 135, 190-192, 305 - самооценка 199-202, 205, 260 - Опросник депрессии Бека 8, 50 - Опросник личностной и ситуативной тревожности STAI 284- 286 - Опросник самооценки Розенберга RSEI 199 Ортогональное вращение 84 Основной эффект 350 Относительный нуль 30-31 Оценка надежности на уровне пунктов 130-137 Оценка надежности расщеплением пополам 127-130 Очевидная валидность 198 Ошибка измерения 93-99, 123-125, 131, 163-167, 174, 245-247, 350. 360, 365, 370 Параллельное измерение 25 Параллельные тесты 112-115 Паулюс, Д.Л. 292 Переработанный пятифакторный опросник NEO (NEO PI-R) См. Пятифакторный опросник NEO Пересчет 25 Положительная связь 46 Преобразование области 64 Преобразованные стандартные баллы 59 Прогностическая ошибка 314, 324- 334 Произвольные единицы измерения 23 Произвольный нуль 22 Процентильный ранг 60-62, 64 Процентное соотношение респондентов в дихотомических переменных 252-256 Психологические тесты обзор 3-8 Психологические тесты См. Опросники Психологические характеристики 3, 9, 11-12, 36-38, 62-63,316,317 Психологическое измерение См. Измерение Психометрика: - определение 8-10 - важность 14 Пункты принудительного выбора 299 Пункты с множественным выбором 382 Пятифакторный опросник NEO-FFI (NEO-FFI) 77 Рабочая память 4 Различия в баллах 91 Разнообразие 35-36, 39 Разнородность внутри выборки 148- 149 Распределение баллов 37, 43, 62-63 Распределение баллов 37, 43-44, 62 Расчет тестовых баллов 11-14 Расчет тестовых баллов. См. также Систематическая ошибка теста Регрессионный анализ 327-331 Референтная Выборка 7, 65-67 Рогоза, Д.Р. 157 Сбалансированная шкала 302-304 Свойство идентичности 19 Свойство количества 21, 23,30 Свойство порядка 20 Связанные измерения 84 Симуляция неблагополучия 11,293 Система кодирования выражений лица 3 Систематическая ошибка критериальной переменной 334 410
Систематическая ошибка свободного члена регрессии 330 Систематическая ошибка углового коэффициента регрессии 331-333 Сложение 25 Сложность пункта Случайный ответ 295 Собственные числа (значения) 86, 200 Содержательная валидность 198 составные баллы 12, 50 Социальная желательность 12, 288- 293, 297, 308 Средний балл успеваемости в старших классах (GPA) 41, 156? 208, 248,314 Стандартизованный Миннесотский многофакторный опросник личности (MMPI) 135, 149. 298, 305, 307 Стандартное отклонение 39-40, 56, НО, 155,254, 380-383 Стандартные баллы 61-66 Статистическая значимость 168, 269-275 Стивенс, С.С. 18 Сырой коэффициент альфа 130 Таблицы Тейлора-Расселла 262-263 Тау-эквивалентность 112, 138 Теория генерализуемости тестовых баллов 339-372 - применение 340 - в сопоставлении с классической теорией тестов 340-341 -однокомпонентый исследовательский дизайн 346-355 - двухкомпонентный исследовательский дизайн 355-366 - компоненты вариативности 347 - разновидности исследовательских дизайнов 366 Теория множественных выборок тестовых заданий 115 Теория ответов на пункты: - сферы применения 392 - характеристика 386-387 - определение 374-375 - дифференциальное функционирование пунктов 320, 393 - примеры 383-397 - модели 379-383 - обзор 374-375 - надежность 386-387 - уровни выраженности признака 388-389 Тест академических способностей SAT 35, 155, 208, 223,267 Тест на подсчет точек (DCT) 309 Тест позитивных и негативных эмоций PANAS 289 Тест социальной желательности Марлоу-Кроуна 308 Тест-ретестовая надежность 122-126 Тесты возможностей 8, 129 Тесты интеллекта 75, 154, 172, 180, 216,370 Тесты личности 79, 135, 190-192, 305 Тесты с ограничением времени. См. также Тесты скорости Тесты самооценки 68, 110-112, 116, 163-164, 199-201 Тесты скорости 8, 129-130 Типы исследования 2 Типы тестов 6-8 Требуемые характеристики 11 Угадывание 305 Удовлетворенность работой 281, 383, 302 Управление впечатлением 309 Уровень сложности 7 Уровни выраженности признака 286-288, 375-376, 387, 395 Установка на крайние ответы 284- 286 Установка на согласие 280-284, 301 Устойчивость баллов. См. также Тест-ретестовая надежность Факторный анализ 71-86, 200-201, 319 411
Факторы более высокого порядка 75 Фелдт, JLC. 138 Формула Кьюдера-Ричардсона 135 Формула Спирмена-Брауна 128, 144 Характеристические кривые пункта (ICC) 321, 386 Цветовой тест 194 Центральная тенденция 37 Числовые принципы 19-23 Чувствительность / специфичность теста 267-268 Чувствительность шкалы 13 Шкала лжи (L) 305 Шкала низкочастотных ответов (F) 305 Шкала стрессовых реакций 393 Шкалы 18, 27-32 Шкалы валидности 297. 305-307 Шкалы интервалов 30 Шкалы наименований 28 Шкалы отношений 30 Шкалы порядка 29 Эмпирические свидетельства в пользу валидности 203-212 Эффект контрастных групп (BESD) 262 Эффект метода 256-257 Эффект наблюдателя 12 Эффект остатка 350-351 412
Факторы более высокого порядка 75 Фелдт, Л.С. 138 Формула Кьюдера-Ричардсона 135 Формула Спирмена-Брауна 128, 144 Характеристические кривые пункта (ICC) 321, 386 Цветовой тест 194 Центральная тенденция 37 Числовые принципы 19-23 Чувствительность / специфичность теста 267-268 Чувствительность шкалы 13 Шкала лжи (L) 305 Шкала низкочастотных ответов (F) 305 Шкала стрессовых реакций 393 Шкалы 18, 27-32 Шкалы валидности 297. 305-307 Шкалы интервалов 30 Шкалы наименований 28 Шкалы отношений 30 Шкалы порядка 29 Эмпирические свидетельства в пользу валидности 203-212 Эффект контрастных групп (BESD) 262 Эффект метода 256-257 Эффект наблюдателя 12 Эффект остатка 350-351 412
Об авторах Р.Майкл Фер работает доцентом психологии в университете Уэйк Форест (Wake Forest University). В 2000 году в Калифорнийском университете в Риверсайде он защитил диссертацию по проблемам социальной психологии, психологии личности и качественных методов исследования. Он преподавал курсы по теории измерения, статистике и исследовательским методам для студентов и аспирантов в нескольких университетах, включая Калифорнийский университет (Риверсайд), государственный университет Аппалачей (Appalachian State University) и университет Уэйк Форест. Кроме того, ему принадлежат публикации методологических и статистических статей и глав в монографиях, включая методические пособия по методологическим проблемам научного исследования. Верн Р. Бакарак работает профессором психологии в государственном университете Аппалачей (Appalachian State University). Он занимал различные академические должности в университете Алабамы, Пибоди колледже университета Вандербильт (Peabody College of Vanderbilt University), а также в университете Акадия в провинции Новая Шотландия. В университете Аппалачей и в Акадии он занимал руководящие должности. Он преподает курсы по статистике, теории измерений и тестирования и методам исследования для студентов и аспирантов уже почти 30 лет. Ему принадлежит большое количество исследовательских и обзорных статей в научной периодике. Диссертация, которую он защитил в 1971 году в Канзасском университете, была посвящена проблемам экспериментальной психологии. 413
Р.Майкл Фер Верн Р. Бакарак ПСИХОМЕТРИКА ВВЕДЕНИЕ «Основным достоинством этой книги является концептуальное и современное представление материала. Для меня книга такого уровня и с такими акцентами долгожданна». Стивен Пулос, Университет Северного Колорадо Авторы книги «Психометрика: Введение» Р .Майкл Фер и Верн ₽. Бакарак в своей презентации материала делают акцент на концептуальное понимание психометрических вопросов, таких как валидность и надежность, и нацелены скорее на раскрытие предназначения психометрики, нежели ее процедур, на вопрос «зачем», а не на вопрос «как»? Целью является знакомство читателя с принципами психометрики на уровне, более глубоком и систематизированном, чем в ознакомительных вузовских пособиях по измерению и тестированию, и вместе с тем более интуитивном и понятном, чем в большинстве предназначенных для аспирантов и исследователей технических публикаций. Предпочитая концептуальное обоснование математическим доказательствам и делая акцент на практическую значимость описываемых процедур, книга помогает читателю понять не только то, что делать с основными проблемами измерения в гуманитарных науках, но и то, зачем вообще с ними нужно что-то делать. В этой книге: • Материал преподносится в ясном, легко читаемом, диалогичном стиле. Авторы дают описание основных понятий так, чтобы оно было доступно непрофессионалу, сохраняя вместе с тем академическую целостность изложения. • Акцентированы сферы практического применения. Чтобы показать читателю всю важность и ценность психометрики, авторы приводят примеры, близкие для студенческой аудитории. • Рассмотрены наиболее современные психометрические подходы. Книга знакомит читателя с самыми последними идеями и подходами, представленными в неспециализированной литературе по психометрике. • Статистические процедуры рассмотрены в контексте целей их использования, а не в отдельной главе. Авторы объединяют описание методов статистической обработки с обсуждением вариантов применения этих методов в качестве инструментов решения определенных психометрических задач, что позволяет читателю глубже понять и психометрику, и статистику. Предполагаемые читатели Книга предназначена для студентов и аспирантов, изучающих курсы психометрики, измерения и тестирования, методов исследования и экспериментальных методов в рамках психологических и педагогических наук.