Благодарности
Вступление
Предисловие редактора русского перевода
Предисловие
Предисловие к первому изданию
Сокращения
Введение
Различия между клинической и статистической значимостью
Памятка читателю
Часть I. Составление статистических отчетов в медицине
Глава 2. Сравнение вероятностей событий. Отчет о показателях риска
Глава 3. От свойств выборки к свойствам популяции. Отчеты об оценках и доверительных интервалах
Глава 4. Сравнение групп при помощи р-значений. Отчеты о проверках гипотез
Глава 5. Корректировка отдельных/7-значений. Проблема множественных сравнений
Глава 6. Проверка наличия взаимосвязей. Отчет об анализах связей и корреляций
Глава 7. Предсказание значений, зависящих от одной или более переменных. Отчет о регрессионном анализе
Глава 8. Анализ групп со многими переменными. Отчет о дисперсионном анализе
Глава 9. Оценка событий во времени как конечных точек. Отчет об анализе выживаемости
Глава 10. Определение наличия или отсутствия заболевания. Отчет о характеристиках проведения диагностических тестов
Глава 11. Рассмотрение априорных вероятностей. Отчет о байесовских статистических анализах
Глава 12. Описание картин заболеваний и нетрудоспособности в популяциях Отчеты об эпидемиологических показателях
Часть II. Составление отчетов об исследовательских проектах и мероприятиях
Глава 14. Проспективные наблюдения: от воздействия до исхода. Отчет о когортных или лонгитюдинальных исследованиях
Глава 15. Ретроспективные наблюдения: от исхода к воздействию. Отчет об исследованиях типа «случай-контроль»
Глава 16. Совместное рассмотрение воздействий и исходов. Отчет об обследованиях или поперечных исследованиях
Часть III. Составление отчетов по обобщающим методам исследования
Глава 18. Взвешивание затрат и последствий лечения. Описание экономических оценок
Глава 19. Информирование о выборе методов лечения. Отчет по анализу решений и рекомендациям клинической практики
Часть IV. Представление данных и статистик в таблицах и графиках
Глава 20. Табличное представление данных и статистик. Сообщение значений, групп и сравнений в таблицах
Глава 21. Визуальное отображение данных и статистик. Представление значений, групп и сравнений на графиках
Часть V. Путеводитель по статистическим терминам и критериям
Часть VI. Приложения
Приложение 2. Математические символы и система обозначений
Приложение 3. Правописание статистических терминов и критериев
Приложение 4. Ссылки на другие коллекции рекомендаций
Приложение 5. Источники ошибок, смешивания и смещения в биомедицинском исследовании
Библиография
Предметный указатель
Об авторах
Text
                    How То Report
Statistics
in Medicine
Annotated Guidelines for Authors,
Editors, and Reviewers
Second Edition
Thomas A. Lang
Michelle Secic
AMERICAN COLLEGE OF PHYSICIANS • PHILADELPHIA


Томас А. Ланг Мишелль Сесик Как описывать статистику в медицине Руководство для авторов, редакторов и рецензентов Перевод с английского под редакцией В. П.Леонова практическая медицина Москва 2011
УДК 57.087.1 ББК 60.6 Л22 Ланг Т. А. Л22 Как описывать статистику в медицине. Аннотированное руководство для авторов, редакторов и рецензентов / Т. А. Ланг, М. Сесик; пер. с англ. под ред. В. П. Леонова. — М.: Практическая медицина, 2011. — 480 с: ил. ISBN 978-5-98811-173-3 Книга содержит систематизированные рекомендации по описанию результатов использования статистических методов в медицине. Она не имеет аналогов на русском языке и представляет чрезвычайную ценность для исследователей в области медицины и биологии. Учитывая отсутствие единообразия в описании статистических методов в отечественной медицинской науке, книга станет полезным пособием для специалистов, разделяющих принципы доказательной медицины. Простой и доступный язык изложения сложных понятий в сочетании с примерами способен выработать у читателя устойчивый навык корректного и достаточно полного описания методов статистики. Следование этим рекомендациям гарантирует читательское понимание описаний результатов исследования, что, в свою очередь, значительно повысит вероятность цитирования этих работ. Значительным достоинством этого издания является «Путеводитель по статистическим терминам и критериям», который поможет читателям разрешить терминологические проблемы, возникающие при написании статей, а также существенно облегчит понимание англоязычных статей. Для биостатистиков, аспирантов, докторантов и исследователей в области биомедицины. УДК 57.087.1 ББК 60.6 Издательство выражает искреннюю благодарность В. Н. Солнцеву за помощь в подготовке книги. Перевод книги «How То Report Statistics in Medicine» опубликован по соглашению с The Royal Society of Medicine Press, London и American College of Physicians, Philadelphia © American College of Physicians, 2006 ISBN 978-5-98811-173-3 (рус.) © Перевод на русский язык, оформление издательства ISBN 978-1-930513-69-3 (англ.) практическаямёдицина, 2010
Каэюдому, кто столкнулся с разочарованием, которое я называю «Статистический Буддизм»: Тем, кто знает, никакое объяснение не требуется. Тем, кто не знает, никакое объяснение невозможно. И всем моим студентам курса медицинских публикаций и редактирования Университета Чикаго, кто учил меня делать необходимое объяснение возможным. Т. Ланг Дэвис, Калифорния Моему мужу и лучшему другу, Джону, за его постоянную любовь и поддерж:ку; Дэюон, ты — моя опора; моим дочерям, Стефани и Николь, за их постоянные напоминания о том, как прекрасна эюизнъ; и моей маме, Барбаре, за ее руководство каэюдым днем моей эюизни! М. Сесик Чардон, Огайо
СОДЕРЖАНИЕ Благодарности 8 Вступление 9 Предисловие редактора русского перевода 11 Предисловие 14 Предисловие к первому изданию 16 Сокращения 19 Введение 20 Различия между клинической и статистической значимостью 22 Памятка читателю 25 Часть 1. Составление статистических отчетов в медицине 27 Глава 1. Работа со сводками данных Числовые отчеты и описательные статистики 28 Глава 2. Сравнение вероятностей событий Отчет о показателях риска 41 Глава 3. От свойств выборки к свойствам популяции Отчеты об оценках и доверительных интервалах 57 Глава 4. Сравнение групп при помощи р-значений Отчеты о проверках гипотез 64 Глава 5. Корректировка отдельных/7-значений Проблема мноэюественных сравнений 79 Глава 6. Проверка наличия взаимосвязей Отчет об анализах связей и корреляций 89 Глава 7. Предсказание значений, зависящих от одной или более переменных Отчет о регрессионном анализе 100 Глава 8. Анализ групп со многими переменными Отчет о дисперсионном анализе 120 Глава 9. Оценка событий во времени как конечных точек Отчет об анализе выэюиваемости 127 Глава 10. Определение наличия или отсутствия заболевания Отчет о характеристиках проведения диагностических тестов 136 Глава 11. Рассмотрение априорных вероятностей Отчет о байесовских статистических анализах 156 Глава 12. Описание картин заболеваний и нетрудоспособности в популяциях Отчеты об эпидемиологических показателях 165
Часть II. Составление отчетов об исследовательских проектах и мероприятиях 179 Глава 13. Проверка результатов вмешательства в экспериментальных исследованиях Отчет о рандомизированных контролируемых испытаниях 182 Глава 14. Проспективные наблюдения: от воздействия до исхода Отчет о когортных или лонгитюдинальных исследованиях 219 Глава 15. Ретроспективные наблюдения: от исхода к воздействию Отчет об исследованиях типа «случай-контроль» 226 Глава 16. Совместное рассмотрение воздействий и исходов Отчет об обследованиях или поперечных исследованиях 235 Часть III. Составление отчетов по обобщающим методам исследования 247 Глава 17. Синтезирование результатов связанных исследований Отчет о систематических обзорах и метаанализе 248 Глава 18. Взвешивание затрат и последствий лечения Описание экономических оценок 271 Глава 19. Информирование о выборе методов лечения Отчет по анализу решений и рекомендациям клинической практики 292 Часть IV. Представление данных и статистик в таблицах и графиках 311 Глава 20. Табличное представление данных и статистик Сообщение значений, групп и сравнений в таблицах 313 Глава 21. Визуальное отображение данных и статистик Представление значений, групп и сравнений на графиках 333 Часть V. Путеводитель по статистическим терминам и критериям 373 4acTbVI. Приложения 433 Приложение 1. Правила представления чисел в тексте 434 Приложение 2. Математические символы и система обозначений 436 Приложение 3. Правописание статистических терминов и критериев 437 Приложение 4. Ссылки на другие коллекции рекомендаций 438 Приложение 5. Источники ошибок, смешивания и смещения в биомедицинском исследовании 440 Библиография 449 Предметный указатель 464 Об авторах 476
БЛАГОДАРНОСТИ Барту Дж. Харвею, адъюнкт-профессору и Гиблоновскому профессору семейной медицины и основных исследований в здравоохранении Университета Торонто, Канада Кену Мюррею, медицинскому директору Ассоциации врачей Независимой практики Студии Основной практики Калифорнии, клиническому доценту семейной медицины Университета Южной Калифорнии, Лос-Анджелес, Калифорния Мы от всей души благодарим Барта и Кена за их рецензирование больших частей рукописи. Их вклад в это издание был самым полезным и очень ценным. Мы также уверены, что они действительно сожалеют, если пропустили любую из наших ошибок.
ВСТУПЛЕНИЕ Потребность в количественном доказательстве в медицинских суждениях была замечена по крайней мере два тысячелетия назад. Во втором столетии нашей эры Гален [1] отмечал, что: [Эмпирики] говорят, что нечто не может быть ни принято, ни расценено как истинное, если оно замечено однократно или если оно было замечено только несколько раз. Они полагают, что нечто может быть принято и считаться верным, только если это было замечено очень много раз и каждый раз в том же самом виде. В течение многих столетий это представление, кажется, игнорировалось. Затем, почти два столетия назад, Пьер-Шарль-Александр Луи (Pierre-Charles-Alexandre Louis) [2] поднял следующий вопрос: Что касается различных методов лечения, мы можем быть уверенными в превосходстве одного или другого способа... лишь спрашивая, было ли большее число людей вылечено одним методом, нежели другим. Здесь необходимо подсчитывать. И это должно быть, по крайней мере, в большинстве случаев, потому что до настоящего времени этот метод совершенно не используется или используется редко, и поэтому наука терапии настолько сомнительна. Вслед за Луи более твердо высказался Жиль Гаваррэ (Jules Gavarret) [3], чьи представления о том, что необходимо оценивать вероятную уверенность в заключениях, основанных на числовых данных, сегодня звучат подобно нашим. Это должно быть очевидно для всего, что связано с вопросами медицинской статистики; существуют три... вопроса, каждый... по праву является по-своему важным: 1. Определение того, что понимается под подобными фактами и сопоставимыми фактами... 2. Доказательство, что любое заключение, полученное из небольшого количества фактов, не заслуживает никакого рассмотрения в терапии и что при любой статистике, чтобы обеспечить допустимые признаки, оно должно быть основано на нескольких сотнях наблюдений. 3. Демонстрация, что правила, выведенные из опыта, никогда не верны, кроме как в определенных пределах возможного изменения, и обеспечение средств определить эти пределы... Другим достижением Гаваррэ, оправдывающим то, что он был назван «отцом медицинских статистических выводов», было применение им 1е calcul des probabilites [исчисления вероятностей] математика Пуассона к данным Луи по лечению кровопусканием, чтобы продемонстрировать диапазон вероятных истинных значений («пределы возможных вариаций») для сообщенной им частоты смертности, — вычисление, которое является «двоюродным братом» современному доверительному интервалу. Однако вклад Гаваррэ в статистические выводы в клинической медицине в значительной степени были проигнорированы в течение столетия. Медицинская практика продолжала зависеть почти полностью от предположительно авторитетных изречений и мнений. Только в середине двадцатого столетия, как указывают в своем предисловии к первому изданию своей книги Томас Ланг и Мишелль Сесик, статистический анализ начинает становиться главным в принятии решений, основанных на доказательствах. Они должным образом указывают на значительный вклад Дональда Мэйнланда, однако и многие другие исследователи в начале и середине двадцатого столетия были пионерами в области медицинской статистики.
1 о Вступление Адекватное планирование, дизайн исследования и статистический анализ начали приводить к заключениям большой важности для общественного здоровья как в исследованиях Уиндера (Wynder) и Грэхема (Graham), так и работах Doll и Hill о связи курения табака и карциномы легкого. Сегодня даже врач, который ничего не знает о статистических методах, желает найти в эпидемиологических исследованиях или в докладах о клинических испытаниях лекарств или других видов лечения статистическое доказательство, поддерживающее их выводы. К сожалению, статистические исследования в журнальных статьях не всегда представляют надлежащее использование статистических методов или ясное, адекватное сообщение о статистических выводах. Редакторы журнала и их коллеги-рецензенты могут обнаружить статистические недостатки в рукописях статей, которые они рассматривают для публикации, но система рецензирования не всегда безошибочна в оценке статистических доказательств и того, как они представлены. Авторы, которые знают свою обязанность удовлетворять высоким стандартам научного сообщения, должны предлагать самое сильное статистическое доказательство для своих выводов, но только этого недостаточно. Они также должны представить это доказательство достаточно ясно, чтобы убедить даже самого критически настроенного читателя, что это доказательство надежно и адекватно. До 1997 г. и публикации первого издания данной книги существовало лишь скудное руководство по этой важной теме. Несколько руководств биомедицинского направления содержали короткие рубрики по стилю публикации статистических данных, но они предполагали, что авторы знают, как сделать ясное и убедительное статистическое сообщение. Книга, изданная Лангом и Сесик, содержала руководство не только для авторов статей, но также и для редакторов журналов и рецензентов. Многие другие члены медицинского сообщества — врачи, медсестры, преподаватели — смогли извлечь пользу из этой книги. В ней есть информация о том, как искать в статьях необходимые для практикующих врачей данные. Теперь читатели медицинских журналов смогут легче определить, поддерживают ли представленные статистические методы и выводы сформулированные заключения. Данное пересмотренное и расширенное издание существенной работы Ланга и Сесик может оказать еще большую помощь. Поскольку авторы во введении определяют содержание своего нового издания, я не буду здесь описывать его. Авторы, редакторы и редакционные рецензенты рукописей статей, содержащих доказательства, основанные на статистике, остаются в долгу перед ними. Самым важным является то, что в конечном счете это издание принесет пользу и нашим пациентам, которые являются причиной существования нашей профессии. Эдвард Дж. Хус (Лондон) Почетный редактор журнала Annals of Internal Medicine Литература 1. Galen. On Medical Experience, ch. 7. In: Three Treatises on the Nature of Science. Translated by Walzer R, Frede M. Indianapolis: Hackett; 1985:59. Cited in: Huth EJ, Murray TJ, eds. Medicine in Quotations: Views of Health and Disease Through the Ages, 2nd ed. Philadelphia: American College of Physicians; 2006:375. 2. Louis PGA. Essay on Clinical Instruction. Translated by Martin P. London: S. Highley; 1834:26-8. Cited in: Huth EJ, Murray TJ, eds. Medicine in Quotations: Views of Health and Disease Through the Ages, 2nd ed. Philadelphia: American College of Physicians; 2006:376. 3. Gavarret J. Principes Generaux de Statistique Medicale. Paris: Bechet Jeune et Labe; 1840:26. [Translation by EJH].
11 ПРЕДИСЛОВИЕ РЕДАКТОРА РУССКОГО ПЕРЕВОДА Автор каждой публикации, будь то научная статья в журнале, монография или диссертация, неизбежно задумывается о том, как воспримет читатель его труд. И, скорее всего, он желает, чтобы читатель встретил его работу благожелательно, нашел в ней полезную и ценную для себя информацию, смог бы разобраться в приведенных аргументах и выводах и в целом адекватно воспринял бы точку зрения автора на описываемые результаты. И начинающие, и искушенные авторы знают, что сделать это нелегко. Предлагаемая читателю книга Томаса Ланга и Мишелль Сесик «Как описывать статистику в медицине: аннотированное руководство для авторов, редакторов и рецензентов» относится к уникальному жанру. Из отечественных книг, близких к ней по содержанию и направленности, можно назвать лишь две: «Рекомендации по подготовке научных медицинских публикаций. Сборник статей и документов» (под ред. С. Е. Бащинского, В. В. Власова. М.: Медиа Сфера, 2006, 464 с.) и книгу профессора Власова В. В. «Введение в доказательную медицину». (М.: Медиа Сфера, 2001, 392 с.) Однако книга Т. Ланга и М. Сесик значительна уже по своей тематике и потому более детально описывает данный аспект медицинских публикаций. Низкая статистическая культура отечественных исследований в области биологии и медицины давно уже стала трюизмом. Впрочем, когда-то схожая сипуация была и за рубежом. Одна из первых зарубежных публикаций, содержащая анализ статистических ошибок в медицинских статьях, относится к 1929 г [1]. В этой статье сообщалось, что примерно половина статей, публикуемых журналом Physiological Reviews, содержит примеры ошибочного использования статистики. Детальный анализ этого явления читатели могут найти в нашей статье [2]. Первой отечественной публикацией, содержащей нелицеприятный анализ таких ошибок, является книга, изданная в 1955 г. [3]. В последнее время делается немало усилий, в том числе и автором этого Предисловия, чтобы исправить это печальное для отечественной науки состояние. Говоря же о статистической культуре в отечественной биомедицине, следует разделять два аспекта этого явления. Первый аспект относится непосредственно к качеству статистического анализа результатов наблюдений. Однако даже качественно полученные результаты статистического анализа можно сделать ненадежными с точки зрения читателя, если не привести достаточно развернутую информацию о методах этого анализа и необходимую для понимания логики выводов сопутствующую информацию. Наличие в публикации этого второго аспекта многократно увеличивает ее ценность и надежность, она становится цитируемой, читатели видят в ней образец для подражания. Поскольку большинство первичных публикаций составляют научные статьи в периодических журналах, то именно здесь и должно вестись целенаправленное формирование разумных, понятных и недвусмысленных требований по описанию результатов применения статистических методов. Этот тезис отлично понимают в редакциях ведущих зарубежных журналов. Образцами таких журналов можно назвать известные во всем мире журналы BMJ (http://www.bmj.com/) и JAMA (http://jama.ama-assn.org/). В редакционных требованиях этих журналов приведены детальные рекомендации по описанию результатов применения статистических методов в медицинских исследованиях, вплоть до обязательного представления автором статьи исходных данных, если у рецензентов возникнут сомнения в корректности приведенных автором результатов анализа. А что же в российских периодических изданиях? Возьмите наиболее известные российские журналы биомедицинской тематики и попробуйте найти в них внятные рекомендации по оформлению в статьях результатов статистического анализа. Увы, таких рекомендаций нет. Лишь в единичных жзф- налах приводятся малопонятные фразы, содержание которых говорит о том, что их авторы не владеют статистическим инструментарием, а сами рекомендации скорее призваны продемонстрировать лояльность редколлегии журнала к научно-доказательной медицине.
12 Предисловие редактора русского перевода Рассмотрим две версии одного и того же фрагмента рекомендаций, заимствованных из российских журналов. «Описывайте статистические методы настолько детально, чтобы грамотный читатель, имеющий доступ к исходным данным, мог проверить полученные Вами результаты». В другом журнале этот фрагмент выглядит так: «Статистика (статистические методы) — описывайте статистические методы настолько детально, чтобы квалифицированный читатель, имеющий доступ к оригинальным данным, смог проверить полученные Вами результаты». «Квалифицированный», «грамотный» читатель — это кто? Тот, который умеет читать? Или же тот, который имеет высшее образование или диплом кандидата или доктора наук? Идем далее: «... имеющий доступ к исходным данным, мог проверить полученные Вами результаты». Зададимся вопросом: ЧЬИ «исходные данные» подразумевали авторы этих рекомендаций? «Исходные данные» авторов статьи или же «исходные данные» читателя? А сможет ли читатель «проверить полученные ... результаты», имея собственные «исходные данные»? Ответ отрицательный. Во-первых, такие данные не будут идентичны данным автора статьи. Во-вторых, он может не располагать теми же вычислительными ресурсами и знаниями, которыми располагал автор статьи. Автор этих строк является членом редколлегии одного медицинского журнала, входящего в так называемый ваковский список. Летом 2006 г на заседании редколлегии я обратил внимание главного редактора журнала, академика К., на то, что уже несколько лет в журнале отсутствует практика представления письменных рецензий на поступающие рукописи. Мною было также отмечено, что большинство публикуемых в настоящее время в журнале статей противоречат действующим редакционным требованиям в части использования и описания статистических методов. Ответ академика К. был таков: «Решение о публикации статей будет принимать врач, а не статист». Когда академик РАМН путает статиста со статистиком, то иного отношения к статистике и не стоит ожидать. В свое время другой академик, Т. Лысенко, уже говорил нечто подобное: «...нас, биологов, и не интересуют математические выкладки, подтверждающие практически бесполезные статистические формулы менделистов» [4]. Отчего же в отечественных биомедицинских журналах сложилась такая порочная практика? Однозначного ответа на этот вопрос нельзя дать, так как эта проблема имеет давние корни и непростую историю, включающую и прямой запрет на использование статистики в медицине [5]. Именно поэтому столь ценны для авторов, читателей и членов редакций периодических журналов биомедицинской тематики рекомендации, приведенные в книге Т. Ланга и М. Се- сик. Без малого 500 страниц книги посвящены детальному описанию статистических результатов в медицинских публикациях. В ней рассмотрены вопросы представления не только описательных статистик, но и результатов использования многих популярных методов, таких как таблицы сопряженности, дисперсионный анализ, корреляция и регрессия, анализ выживаемости, байесовские методы, графические методы, метаанализ и ROC-кривые и многие другие. Разумеется, в одной книге невозможно охватить все аспекты столь разнообразной проблемы. К примеру, авторы не рассмотрели описание результатов таких многомерных методов, как каноническая корреляция, дискриминантный и кластерный анализ, факторный анализ и метод главных компонент, многомерное шкалирование, анализ соответствий, анализ временных рядов и др. Их отсутствие в данной книге вызвано тем, что данные методы, во-первых, достаточно сложны, а во-вторых, результаты их применения весьма объемны. Любые рекомендации всегда несут на себе отпечаток личного опыта их авторов. Не являются исключением и рекомендации, приведенные в данной книге. К некоторым из них мы добавили собственные комментарии, которые отражают наш собственный 30-летний опыт статистического анализа биомедицинских данных [6]. Уже из названия книги ясно, кому будут полезны эти рекомендации. Содержание рекомендаций говорит о том, что авторы книги имеют немалый опыт практического использо-
Предисловие редактора русского перевода 13 вания статистики в реальных медицинских исследованиях. И хотя авторы предупреждают, что эта книга не является учебником по статистике, внимательный читатель найдет в ней немало информации по терминам и основным понятиям статистики. М. Жванецкий как-то заметил: «ПисАть, как и пИсать, надо тогда, когда терпеть больше не можешь». Увы, нередко авторы многих публикаций пишут свои статьи не в силу того, что материал для публикации уже сформировался и вызрел, а только для выполнения плана публикаций отдела, лаборатории или чтобы успеть к защите диссертации и т. п. Чаще всего в таких публикациях про статистику пишут маловразумительные фразы, например «данные были обработаны статистически». Уверен, что данная книга должна стать настольным руководством для многих исследователей, начиная от студента-медика, пишущего курсовую или дипломную работу, до докторов наук и академиков, в том числе и тех, которые путают статиста и статистика. Ведь истинные профессионалы учатся всю жизнь. Будет она полезна аспирантам и докторантам, поскольку с середины 2006 г. все диссертанты обязаны публиковать в Интернете авторефераты своих диссертаций. А в скором времени необходимо будет публиковать в Интернете до защиты и всю диссертацию. Именно об этом заявил 31 октября 2007 г. первый вице-премьер Д. А. Медведев на встрече с членами ВАК и ректорами вузов, поддержав наши предложения 10-летней давности [7]. На что председатель ВАК, декан биологического факультета МГУ, академик Михаил Кирпичников ответил, что «в ближайшее время мы будем готовы говорить о публикации полностью диссертаций». 8 июля 2010 г. на заседании Совета по развитию информационного общества в России президент Д.А. Медведев потребовал выложить все диссертации в интернет, «...чтобы были видны и те, кто у нас реально наукой занимается, и те диссертации, за которые просто стьщ- но иногда бывает» [8]. Очевидно, что в связи с этим актуальность данного издания будет лишь возрастать. Все перечисленные выше достоинства этой книги позволяют утверждать, что она найдет своего благодарного читателя и будет способствовать повышению качества статистического анализа у отечественных исследователей в области медицины и биологии, а также и качества их публикаций. В. П. Леонов, редактор сайта БИОМЕТРИКА http://www.biometrica.tomsk.ru Литература 1. Dunn HL. Application of statistical methods in physiology // Physiological Reviews. 1929. Vol. 9. P. 275-398. 2. Леонов В. П. Ошибки статистического анализа биомедицинских данных // Международный журнал медицинской практики. 2007. Вып. 2. С. 19-35. URL: http://www.biometrica.tomsk.ru/eiTor.htm. 3. Боярский А. Я. Статистические методы в экспериментальных медицинских исследованиях. М.: Медгиз, 1955. 4. Леонов В. П. Долгое прощание с лысенковщиной. URL: http://www.biometrica.tomsk.ru/lis/in- dex6.htm. 5. Леонов В. П. Применение статистики в статьях и диссертациях по медицине и биологии. Ч. 2. История биометрики и ее применения в России // Международный журнал медицинской практики. 1999. Вып. 4. С. 7-19. URL: http://www.biometrica.tomsk.ru/history.htm. 6. Леонов В. П. Три «Почему...» и пять принципов описания статистики в биомедицинских публикациях. URL: http://www.biometrica.tomsk.ru/principals.htm. 7. Росбалт.Ки. Медведев предложил публиковать все диссертации в Интернете. URL: http:// www.rosbah.ru/2007/10/31/427080.html. 8. http://news.kremlin.ru/transcripts/8296.
14 ПРЕДИСЛОВИЕ Думали ли они, что науки, основанные на наблюдении, могут стимулироваться только статистикой?„.Если бы медицина не пренебрегла этим инструментом, это означало бы прогресс, она обладала бы большим числом реальных истин, стала бы менее подверэюенной обвинению в том, что является наукой нетвердых принципов, неуловимых и предполоэюительных. Jean-Etienne Dominique Esquirol, ранний французский психиатр, цитируемый в журнале Lancet, 1838 [1] Если можно верить вышеупомянутой цитате, уже 170 лет назад поставщики услуг здравоохранения неохотно принимали статистический образ мышления в медицинской практике. То, что такая ситуация продолжается, сегодня в лучшем случае неуместно, а в худшем — непростительно, но в любом случае понятно. Статистика как область исследования привлекает немногих людей, которые связаны с медициной. Она полна тонкостей и сложностей, которые требуют много времени для понимания и еще больше для овладения ими, и она часто преподается специалистами, разбирающимися в математике, но не в медицине. В период студенческого обучения большинство поставщиков услуг здравоохранения действительно изучают по крайней мере один статистический курс, но они редко изучают то, что они хотят или должны знать, чтобы понять или написать публикацию по результатам исследования. Кроме того, поскольку медицина стала рассматривать вопросы внутриклеточного уровня и потому погружаться в еще большую степень технологической изощренности, все меньше учебного времени доступно для других предметов, даже на уровне последипломного образования. В то же самое время движение доказательной медицины установило желательность и преимущества применения лучших аргументов к решению клинических проблем. Но основанная на доказательствах медицина преимущественно формируется на базе литературы и поэтому сильно зависит от качества опубликованного исследования, а о многих исследованиях очень плохо информируют. Фактически проблема плохой документации исследования и статистической публикации в биомедицинской литературе является давнишней, мировой, всеобъемлющей, потенциально серьезной и отнюдь не очевидной для многих читателей, несмотря на то что большинство ошибок касается основных методологических и статистических понятий, которых можно легко избежать, следуя нескольким руководящим принципам [2]. В 1997 г. мы опубликовали первое издание книги «Как описывать статистику в медицине», чтобы предоставить всесторонний — и понятный — набор таких руководящих правил. С тех пор книга стала популярным справочником во всем мире и даже переведена на китайский язык. Успех первого издания был приятен и подтвердил нашу веру в то, что читатели будут использовать изложенные руководящие правила нашей книги, если получат к ним доступ и поймут их. Если будут использоваться эти руководящие правила, то лучше будет проводиться и биомедицинское исследование, а следовательно, специалисты смогут лучше ориентироваться в области доказательной медицины. Эта книга не типичная книга по статистике. Это и не текст по анализу или статистическим вычислениям, а скорее руководство по интерпретации и описанию их результатов. Как отмечено в названии, оно было написано для авторов, редакторов и рецензентов, которые
Предисловие 15 готовят или оценивают биомедицинское исследование для публикации, особенно в рецензируемых журналах. В книге представлены краткие обзоры различных тем, глоссарий легких для понимания объяснений статистических терминов и тестов, удобный предметный указатель — все это должно помочь любому, кто изучает биостатистику и медицинские исследования в традиционных академических курсах. Таким образом, публикуя это расширенное второе издание «Как описывать статистику в медицине», мы надеемся достигнуть того, на что надеялся доктор Lawrason Brown более 85 лет назад: Затруднения в медицине исходят не от статистического метода, а от медицинских работников [и работниц], которые не знают, как его использовать... Не поймите меня неправильно. Это не аргумент в пользу сухих статистических статей, которые все мы предпочитаем не читать. Но если я смогу заставить вас увидеть, насколько важно для нас прекратить использовать любимую фразу «мой личный опыт» кроме тех случаев, когда у нас есть достаточно данных, чтобы подтвердить ее, я буду считать, что достиг того, на что я надеялся [3]. Мы искренне надеемся, что наша книга будет хорошо служить вам. Томас Ланг Мишелль Сесик Литература 1. Esquiwl JED. Cited in: Pearl R. Introduction to Medical Biometry and Statistics. Philadelphia: WB Saunders; 1941. 2. Lang T. Twenty statistical errors Qvenyou can find in biomedical research articles. Croatian Med J. 2004;45:361-70. 3. Brown L American Review of Tuberculosis; September 1920, vol iv. Cited in: Pearl R. Introduction to Medical Biometry and Statistics. Philadelphia: WB Saunders; 1941.
16 ПРЕДИСЛОВИЕ К ПЕРВОМУ ИЗДАНИЮ Чтобы руководить авторами при подготовке рукописей, долэюны быть развиты стандарты, управляющие содерсисанием и форматом статистических аспектов. J. R. О'Fallon ETAL [1] Среди первых врачей, которые рассмотрели значения статистической вероятности в медицинском исследовании, был Donald Mainland из Университета Dalhousie, Галифакс, Канада. Он, кажется, был первым, кто сообщал о статистике в своих статьях, опубликованных в Канадском лсурнале Медицинской ассоциации и в Британском медицинском эюурнале в 1930-х гг [2, 3]. С тех пор медицинское исследование все более и более принимало принципы планирования эксперимента и статистического анализа, так что в итоге биостатистика сформировалась как отдельная область исследования. Биостатистика стала существенным шагом в движении медицинского исследования от описаний частных случаев до экспериментов с группами контроля и, наконец, к крупномасштабным рандомизированным контролируемым исследованиям, которые теперь являются предпочитаемым стандартом научного доказательства. Однако существует одна проблема. Исследования качества статистических аспектов в журнальных статьях последовательно обнаруживали высокую частоту ошибок в применении, изложении и интерпретации статистической информации, даже в наиболее уважаемых медицинских журналах. Уже в первом таком исследовании — самое раннее, которое мы нашли, было опубликовано в 1959 г — было обнаружено, что частота ошибок достигала 80 %, опять же даже в главных медицинских журналах [4-19]. «Эти обзоры [статистических ошибок] показывают устойчивое и угнетающее постоянство: обычно примерно в 50 % рассмотренных статей содержатся явные статистические ошибки» [20]. Более того, большая часть этих ошибок являются столь грубыми, что вызывают сомнение в достоверности выводов в этих статьях [6, 21]. В то же время большинство этих ошибок связаны с разделами, включенными в большинство ознакомительных книг по статистике. Действительно, кажется странным, что проблема, являющаяся, по-видимому, столь важной, широко распространенной и столь давнишней, остается нерешенной, несмотря на то что по своей сути всегда была основной. Странно, что не было доступно ни одного руководства или справочника, которые могли бы помочь при написании статистических отчетов, несмотря на то что в некоторых сообщениях говорилось об их необходимости [1, 17, 20, 22-24]. В биомедицинских журналах было опубликовано несколько общих рекомендаций [20, 25-30], но мы полагаем, что они являются слишком общими по своей сути, слишком ограниченными в данной области и слишком специализированными по терминологии, чтобы быть полезными для большинства авторов и редакторов. Очевидно, если не будут приняты общие правила для написания статистических отчетов, в статьях так и будут оставаться статистические ошибки. Таким образом, наша цель при написании книги состоит в том, чтобы в письменной форме дать ряд детальных, обстоятельных и понятных рекомендаций для представления статистической информации в медицине. Более того, составляя рекомендации согласно тому, как они используются в тексте, а не согласно математическим принципам, на которых они базируются, а также приводя различные объяснения и примеры, мы попытались сделать рекомендации более доступными для нестатистиков.
Предисловие к первому изданию 17 В результате эта книга не является книгой по статистике в обычном смысле. Мы не занимались обучением планированию исследования, статистической теории или методам и вычислениям статистических критериев. Мы рассматриваем здесь только представление статистической информации в научных публикациях и обсуждаем некоторые сопутствующие понятия, которые должны помочь выразить эти представления в перспективе. Мы убеждаем авторов и исследователей сотрудничать с биостатистиками на всех этапах исследования, но также полагаем, что не нужно быть статистиком, чтобы правильно представить или интерпретировать элементарную статистику. Однако для правильной интерпретации данных нужен свободный доступ к точной, полной и понятной информации. Эта книга была написана с целью обеспечить именно такой доступ. Более 60 лет назад тот же самый д-р Mainland, который затронул эту проблему, так выражал наши надежды на будущее в описании статистики [2]: ...Прогресс был бы достигнут, если бы некоторые фундаментальные идеи были более ясно поняты, а именно: что принципы, лежащие в основе статистических методов, относительно просты; что самые общие методы легко изучить; что эти методы могут использоваться как инструмент без глубокого знания их математической структуры; что эти методы не придают фиктивной точности или искусственного качества результатам и что эти методы имеют тенденцию очень часто показывать, что заключения не являются столь определенными, как думал бы лишенный помощи наблюдатель. Если бы эти вещи были поняты, то эти методы использовались бы намного чаще и, что еще более важно, многие сотрудники осознали бы, когда они должны обратиться за помощью к биостатистику. Это, в свою очередь, ускорило бы наступление дня, когда биостатистика- консультанта будут считать необходимым в каждом медицинском центре. Это трюизм медицинского описания, что при разъяснении смысла мы, соответственно, стремимся следовать ему. Если наша книга поможет прояснить статистические анализы, она может также и улучшить способ, с помощью которого проводится и интерпретируется медицинское исследование. Томас Ланг Мишель Сесик Литература 1. О 'Fallon JR, Duby SD, Salsburg DS, et al Should there be statistical guidelines for medical research papers? Biometrics, 1978; 34:687-95. 2. MainlandD. Chance and the blood count. Can Med Assoc J. 1934; 656-8. 3. Mainland D. Problems of chance in clinical work. Br Med J. 1936; 2:221-4. 4. Hall JC, Hill D, Watts JM. Misuse of statistical methods in the Australasian surgical literature. Aust NZJSurg. 1982;52:541-3. 5. Schor S, Karten I. Statistical evaluation of medical journal manuscripts. JAMA. 1966; 195:1123-8. 6. Glantz SA. Biostatistics: how to detect, correct and prevent errors in the medical literature. Circulation. 1980;61:1-7. 7. Lionel ND, Herxheimer A. Assessing reports of therapeutic trials. BMJ. 1970;3:637-40. 8. Altman DG. Statistics in medical journals: developments in the 1980s. Stat Med. 1991; 10:1897- 913. 9. White SJ. Statistical errors in papers in the British Journal of Psychiatry. Br J Psychiatr. 1979; 135:336-42. 10. Gore SM, Jones IG, Rytter EC. Misuse of statistical methods: critical assessment of articles in BMJ from January to March 1976. BMJ. 1977; 1:85-7.
18 Предисловие к первому изданию 11. Freiman JA, Chalmers ТС, Smith Н Jr, Kuebler RR. The importance of beta, the type II error and sample size in the design and inteфretation of the randomized control trial. Survey of 71 negative trials. N Engl J Med. 1978; 299:690-4. 12. Reed JF, Slaichert W. Statistical proof in inconclusive «negative» trials. Arch Intern Med. 1981; 141:1307-10. 13. Gardner MJ, Altman DG, Jones DR, Machin D. Is the statistical assessment of papers submitted to the British Medical Journal effective? BMJ. 1983; 286:1485-8. 14. MacArthur RD, Jacbon GG An evaluation of the use of statistical methodology in the Journal of Infectious Diseases. J Infect Dis. 1984; 149:349-54. 15. Avram MJ, Shanks CA, Dykes MH, et al Statistical methods in anesthesia articles: an evaluation of two American journals during two six-month periods. Anesth Analg. 1985; 64:607-11. 16. Godfrey K. Comparing the means of several groups. N Engl J Med. 1985; 313:1450-6. 17. Pocock SJ, Hughes MD, Lee RJ. Statistical problems in the reporting of clinical trials. A survey of three medical journals. N Engl J Med. 1987;3 17:426-32. 18. Smith DG, Clemens J, Crede W, et al Impact of multiple comparisons in randomized clinical trials. Am J Med. 1987;83:545-50. 19. Gotzsche PC Methodology and overt and hidden bias in reports of 196 double-blind trials of nonsteroidal antiinflammatory drugs in rheumatoid arthritis. Control Clin Trials. 1989; 50:356. 20. Murray GD. Statistical aspects of research methodology. Br J Surg. 1991; 78:777-81. 21. Yancy JM. Ten rules for reading clinical research reports [Editorial]. Am J Surg. 1990; 159:553-9. 22. ShottS. Statistics in veterinary research. J Am Vet Med Assoc. 1985; 187:138-41. 23. Hayden GF Biostatistical trends in Pediatrics: implications for the future. Pediatrics. 1983; 72:84-7. 24. Altman DG, Bland JM. Improving doctors' understanding of statistics. J R Statis Soc A. 1991; 154:223-67. 25. Altman DG, Gore SM, Gardner MJ, Pocock SJ. Statistical guidelines for contributors to medical journals. BMJ. 1983; 286:1489-93. 26. International Committee of Medical Journal Editors. Uniform requirements for manuscripts submitted to biomedical journals. N Engl J Med. 1991; 324:424-8. 27. Elenbaas RM, Elenbaas JK, Cuddy PG. Evaluating the medical literature. Part II: Statistical analysis. AnnEmergMed. 1983; 12:610-20. 28. Murray GD. Statistical guidelines for the British Journal of Surgery. Br J Surg. 1991; 78:782^. 29. Sumner D. Lies, damned lies — or statistics? J Hypertens. 1992; 10:3-8. 30. Journal of Hypertension. Statistical guidelines for the Journal of Hypertension. J Hypertens. 1992; 10:6-8.
19 СОКРАЩЕНИЯ 95% ДИ — 95%-й доверительный интервал СО — стандартное отклонение сое — стандартная ошибка среднего KB — коэффициент вариации ANOVA — дисперсионный анализ ANCOVA — ковариационный анализ РКИ — рандомизированное контролируемое испытание ЧПЛП — число пациентов, которых надо лечить, чтобы предотвратить один неблагоприятный исход ЧПЛВ — число пациентов, подвергаемых лечению, на один вредный исход
20 ВВЕДЕНИЕ Представление статистических рекомендаций не следует путать со статистическим образованием. С Л. Джордж [\] С тех пор как в 1997 г. вышло первое издание книги «Как описывать статистику в медицине», большинство (но не все) рекомендаций по статистическим публикациям остались неизменными. Потребность во втором издании вызвана возросшим пониманием того, как лучше всего объяснить эти рекомендации, а также необходимостью добавить несколько новых тем и обновить некоторые темы, которые существенно изменились со времени первого издания. Это второе издание «Как описывать статистику в медицине» состоит из 21 главы, собранных в пять частей, шестой части из пяти приложений, библиографии и предметного указателя. Часть I. Составление статистических отчетов в медицине, состоит из 12 глав, которые соответствуют 12 общим приложениям статистики. Эти главы были названы и составлены так, чтобы помочь нестатистикам легко найти соответствующие рекомендации. Во втором издании были добавлены две новых главы: одна — о публикациях о мерах риска, а другая — о публикациях об эпидемиологических показателях. Часть П. Составление отчетов об исследовательских проектах и мероприятиях, заменяет гл. 1 из первого издания. Кроме первой основной главы по данной теме, мы добавили еще четыре новых главы, по одной на каждую из основных исследовательских схем, используемых в биомедицинском исследовании: экспериментальные испытания (а именно рандомизированные контролируемые испытания), когортные исследования, исследования типа «случай-контроль» и поперечные, перекрестные исследования. Часть III. Составление отчетов по обобщающим методам исследования, содержит три главы по этой теме из первого издания, каждая из которых обновлена и пересмотрена: публикации о систематических обзорах и метаанализах, публикации об экономических оценках и публикации об анализах решения и руководящих принципах клинической практики. Эти методы обычно объединяют результаты нескольких индивидуальных исследований, чтобы обеспечить большее понимание проблемы исследования. Часть IV. Представление данных и статистик в таблицах и графиках, составлена из двух новых глав, которые включают самые современные суждения и исследовательские находки по созданию эффективных таблиц и графиков. Таблицы и рисунки представляют количественную информацию и являются, таким образом, статистическими по своей природе. Часть V. Путеводитель по статистическим терминам и критериям, была расширена по сравнению с первым изданием и теперь содержит более 550 записей. Эти за-
Введение 21 писи — толкование терминов и концепций в контексте биомедицинского исследования; они не претендуют быть чисто математическими или теоретическими определениями. Все они написаны так, чтобы быть понятными для читателей, у которых есть лишь достаточно ограниченное знание статистики. Часть VI содержит пять приложений. Первое дает правила представления чисел в тексте, второе содержит перечень общих математических символов и условные символьные обозначения статистических параметров, а третье дает предпочтительное правописание статистических терминов и тестов. Четвертое приложение содержит библиографические и интернет-ссылки на другие коллекции публикаций о рекомендациях, данных различными научными группами. Пятое приложение описывает более общие источники ошибок, смешивания и смещения оценок, с которыми сталкиваются при проведении биомедицинского исследования и в оценке публикаций по этим исследованиям. Рекомендации в этой работе были собраны по обширному обзору литературы (см. Библиографию). В сущности, все они общеприняты крупными специалистами данной сферы деятельности. У большинства есть аннотации, объяснения и гипотетические примеры, которые помогают пониманию, оценке и правильному их применению. Рекомендации пронумерованы для облегчения поиска. Когда у рекомендации есть отличительная особенность, используется один из четырех символов: @ Уточняющие рекомендации даны для особых случаев основного руководства. Щ Предостерелсения идентифицируют общие проблемы в публикации или интерпретации информации в основном руководстве. ^ Проверки описывают способы проверки статистических представлений или вычислений. Q Переадресация — перекрестные ссылки к дополнительной информации в других рекомендациях или главах. Рекомендации должны использоваться для придания большей точности, ясности и законченности статистическим деталям исследования таким образом, чтобы исследование могло быть оценено адекватно. Они не должны использоваться без разбора или с единственной целью придраться к исследованию. Мы надеемся, что предоставленная информация будет использоваться не только с целью указать на ошибки, но также и установить истину. Литература 1. George SL Statistics in medical journals: a survey of current policies and proposals for editors. Med Pediatr Oncol. 1985;13:109-12.
22 РАЗЛИЧИЯ МЕЖДУ КЛИНИЧЕСКОЙ И СТАТИСТИЧЕСКОЙ ЗНАЧИМОСТЬЮ Говорят, что человеку с одной ногой, замороэюенной во льду, а другой ногой в кипящей воде комфортно — в среднем. J.M. Yancy[\] Одной из самых частых ошибок в отчетах и интерпретации медицинского исследования является неспособность различать клиническую и статистическую значимость. (Поскольку в медицинской публикации термин «значимость» зарезервирован для ее статистического значения, в этой книге мы всюду использовали оборот «клиническая важность», когда идет речь о «клинической значимости».) Вообще клинически важное заключение — это заключение, у которого есть последствия для лечения пациента. Статистически значимое заключение, с другой стороны, является заключением, основанным на вероятности. Само по себе статистически значимое заключение может иметь мало общего с практикой медицины. Точно так же клинически важное заключение в единственном случае, вероятнее всего, не устанавливает биологическую связь. Заключение, которое как клинически, так и статистически значимо, весьма ценно, потому что мы, весьма вероятно, будем полагать, что это заключение есть результат биологического процесса, общего для группы пациентов, и что он, возможно, поддается измерению, объяснению, предсказанию и управлению. Мы обращаем ваше внимание на несколько аспектов различия между статистической значимостью и клинической важностью. 1. Статистическая значимость, по существу, отражает влияние случая на результат; клиническая важность отражает биологическую ценность результата. Вообще маленькие различия меэюду большими группами могут быть статистически значимыми, существенными, но клинически бессмысленными. Разница в 0,02 кг в весе двух групп взрослых пациентов, вероятно, не имеет никакой клинической важности, даже если такое различие наблюдалось бы случайно менее чем 1 раз из 100 (р < 0,01) или даже менее чем 1 раз из 100 000 {р < 0,00001). Но также верно и то, что большие различия меэюду маленькими группами могут быть клинически важными, но незначимыми статистически. В исследовании 20 пациентов, в котором умирает всего лишь 1 пациент, смерть клинически важна, независимо от того, значима ли она статистически. Важнейший вопрос состоит в том, является ли выборка достаточно большой, чтобы обнаружить клинически важное различие, если действительно такое различие существует. Этот вопрос — один из аспектов статистической мощности исследования. 2. Статистику получают из групп людей, медицина же практикует на конкретных людях. Поскольку статистика основана на вероятности, а не на биологии, она имеет дело с популяциями, а не с индивидуальными пациентами. Врачи же, которые лечат конкретных пациентов на основе медицинского исследования, реально «играют со случаем». Они надеются, что то, что было верно для группы подобных пациентов, будет верно и для одного конкретного больного.
Различия между клинической и статистической значимостью 23 3. Статистические заключения требуют, чтобы адекватное количество данных было надежно, медицинские же решения должны часто приниматься по недостаточным данным. У статистических сравнений, использующих небольшие выборки, часто невысокая статистическая мощность. То есть исследователи часто не набирают достаточный объем информации, чтобы быть обоснованно уверенными в заключительных выводах о том, хороша ли, скажем, новая терапия так же, как стандартная методика, или лучше ее. Исследования, сообщающие об отрицательном или статистически незначимом результате, для которого статистическая мощность невелика, фактически не дают полного отрицания вообще, этот результат неокончателен. По той же самой причине, когда никакие статистически значимые различия не найдены между исходными значениями небольшой группы лечения и группы контроля, неуместно делать заключение, что эти группы эквивалентны: отсутствие доказательства не есть доказательство отсутствия. 4. Статистические ответы являются вероятностными, лечение же требует совершенных решений. Статистика включает представление о вероятности. Когда ожидается, что результат произойдет случайно менее чем, скажем, 1 раз из 1000 (т. е./? < 0,001), такой же результат может случайно наблюдаться и в ином случае; и тогда просто невероятно, что именно случай и есть объяснение этого результата. Результат, полученный в выборке, также является оценкой того, что, как мы могли бы ожидать, произойдет в большей популяции. Хотя 95%-й доверительный интервал (95% ДИ) и обеспечивает меру точности для этого оцениваемого результата, тем не менее он также является вероятностным утверждением, а не чем-то верным'. 5. Статистический анализ всегда требует измерения, медицина же иногда нуждается в интуиции. Наука — это измерения. К сожалению, не все в медицинской науке может быть легко измерено: депрессия, боль, качество жизни; даже более физические аспекты жизни, такие как функция печени или жизненные показатели состояния сердца, нелегко определить количественно. Измерения и вероятностные заключения могут оказывать большую помощь в медицин^е, но они во многих случаях еще не в состоянии заменить опыт, проницательность и интуицию. 6. Статистические и клинические употребления термина «нормальность» часто запутанны и неопределенны. В статистике термин «нормальный», вообще говоря, относится к распределению значений, которое имеет форму симметрической колоколообразной кривой. Говорят, что т^- m>\Q распределены нормально, если их распределение, изображенное в виде графика, имеет ' Очень важное замечание! К сожалению, российские исследователи в своих публикациях очень часто используют некорректные выражения, типа «достоверное различие», относящиеся к результатам применения статистических методов. Иными словами, вместо оборота «статистически значимое различие», свидетельствующее о вероятностном характере утверждения, используют этот неверный оборот. Феномен «семантической глобализации научности» применительно к понятию «достоверность» детально рассмотрел Н. А. Зорин в своей статье «О неправильном употреблении термина "достоверность" в российских научных психиатрических и общемедицинских статьях», опубликованной в электронном журнале «Биометрика» на сайте: http://www.biometrica.tomsk.ru/letl.htm. Непонимание сути статистических терминов приводит к тому, что «жонглирование» ими в публикациях приводит в результате к анекдотическим курьезам. В качестве примера рекомендую читателям познакомиться с критическим анализом одной из таких статей, авторы которой, два академика РАМН, используют абсурдный по своему смыслу оборот «статистическая достоверность» (http://www.biometrica.tomsk.rU/kk/index_3.htm#33). — Здесь и далее прим. ред.
24 Различия между клинической и статистической значимостью такую форму. В медицине же термин «нормальный» часто используется небрежно, чтобы обозначать обычное, приемлемое или здоровое. Эти два определения, к сожалению, часто объединяются, чтобы определить «клинически нормальное» как характеристику с обычным значением в нормальном распределении значений для этой характеристики. То есть величины, которые находятся в средних 95% значениях, собранных у здоровой популяции, обычно полагают нормальными по определению, а те, которые расположены в самых меньших 2,5% и самых больших 2,5%, считаются ненормальными. Такие определения являются статистическими, но не клиническими. В своем лучшем клиническом использовании термин «нормальный» относится к значению величины, которое связано только с малой вероятностью болезни или нетрудоспособности, независимо от того, где это значение находится на оси распределения данных значений. Аналогично, термин «ненормальный» относится к значению, связанному с высокой вероятностью болезни, независимо от того, где это значение находится в распределении. Литература 1. Yancy JM. Ten rules for reading clinical research reports [Editorial]. Am J Surg. 1990; 159:553-9.
25 ПАМЯТКА ЧИТАТЕЛЮ Мои книги — вода; книги великих гениев — вино. Все пьют воду. Марк Твен Как прекрасные вина, так и биостатистика характеризуются сложностью и утонченностью, которые могут действительно оценить относительно немного людей, посвящающих время, чтобы овладеть ими. Таким читателям мы приносим свои извинения; эта книга была написана не для вас. Скорее, она была написана для намного большей группы читателей: для тех, кто жаждет понять основы статистики, а не стремится оценить все ее нюансы. Это — книга об описании и интерпретации статистических представлений, но не о понимании теории вероятностей или математических концепций. Это — книга для пьющих воду. Чрезвычайно трудно объяснить многие статистические понятия в терминах, которые одновременно должны быть и технически точными, и легко понимаемы теми, у кого есть лишь поверхностное знание данной темы. Таким образом, если наши объяснения не включают некоторые из более тонких разделов темы или они обошли некоторые различия смыслов, то это лишь потому, что мы полагаем, что такие тонкие детали и различия отвлекли бы от объяснения, сделав его менее адекватным для большинства читателей. Медицинские примеры в этой книге были задуманы, чтобы проиллюстрировать статистические понятия. Как таковые, подавляющее большинство их являются гипотетическими и потому должны быть восприняты лишь как обучающие схемы, а не как медицинский факт.
27 Часть I Составление статистических отчетов в медицине Любая практика сообщения, которая препятствует надлеэюащему выводу, является неуместной. S. Е. FlENBERG [ 1 ] Литература 1. Fienberg SE. Damned lies and statistics: misrepresentations of honest data. In: Council of Biology Editors, Editorial Policy Committee. Ethics and Policy in Scientific Publication. Bethesda, MD: Council of Biology Editors; 1990:202-6.
28 Составление статистических отчетов в медицине Глава 1 Работа со сводками данных Числовые отчеты и описательные статистики Выбор одной итоговой статистической величины, а не другой моэюет подчас даэюе затрагивать клиническую оценку врачей, читающих опубликованную статью, в этом случае необходимо проявить скрупулезное внимание к тому, насколько ценно использование такой итоговой статистики в медицинской литературе. L. FoRROw, W. С. Taylor, R. М. Arnold [1] Описательная статистика заключается в численном выражении наборов данных. Создание итоговой статистики обычно является первым шагом в анализе и представлении результатов исследования, поскольку она сводит обширные массивы данных к нескольким более удобным в работе числам. К примеру, простое перечисление частоты пульса 5000 пациентов редко имеет практическое значение, но данные о средней частоте пульса и, возможно, о максимальной и минимальной его частоте у некоторой группы пациентов и востребованы, и используются на практике. Здесь средняя, минимальная и максимальная частоты пульса являются тремя описательными статистиками, которые сводят 5000 исходных данных к трем числам. Здесь мы' даем рекомендации по 1) выбору количества числовых разрядов, 2) указаниям в процентах, 3) категориальным данным, 4) непрерывным данным, 5) парным данным, 6) преобразованным данным и 7) данным из малых выборок. РАЗРЯДНОСТЬ ЧИСЕЛ 1Л * Приводите числовые данные с разумной степенью точности. Ложно понимаемая («паразитная») точность нежелательна и может увести в сторону. Сообщение о том, что математическое ожидание средней продолжительности жизни равно 22,085 года, ничего не добавляет к тому достаточному для практики факту, что средняя продолжительность жизни составляет 22 года. Как указывает Ehrenberg [2], читатели в действительности могут эффективно работать с теми числами, которые содержат не более двух значащих цифр. Таким образом, числа следует округлять до двух значащих цифр, если только большая точность не является действительно необходимой. Сравните следующие три-утверждения (по Ehrenberg): 1. Число обучающихся врачей-женщин возросло с 29 942 до 94 322, а число врачей- мужчин— с 13 410 до 36 061.
Числовые отчеты и описательные статистики 29 2. Число обучающихся врачей-женщин возросло с 29 900 до 94 300, а число врачей- мужчин — с 13 400 до 36 100. 3. Число обучающихся врачей-женщин возросло с 30 000 до 94 000, а число врачей- мужчин — с 13 000 до 36 000. Трехкратный рост числа врачей в утверждении 1 заметен слабо, так как два пятизначных числа сравнивать трудно. Округление до трех значащих цифр в утверждении 2 выглядит лучше, но третья цифра все же отвлекает внимание на себя. Зато в утверждении 3 числа округлены до дв)ос цифр, и их приближенное отношение один к трем видно намного яснее. ф Численные данные следует округлять тогда, когда они преподносятся читателю, но не тогда, когда они анализируются [3]. Часть информации при округлении теряется, и эта потеря может повлиять на качество результатов. Указание точного числа обучаемых врачей в вышеприведенном примере может по ряду причин оказаться необходимым. Округление помогает читателю увидеть общую картину результатов, но его не следует применять, если необходимы более точные описания данных. Q В большинстве клинических и многих биологических исследованиях стоит проверить, является ли действительно необходимой точность числа с тремя или более десятичными цифрами. Некоторые измерения могут производиться с высокой степенью точности, и эту точность иногда стоит отразить в отчете. Однако в биомедицинских исследованиях высокоточные измерения могут иметь малое значение. К примеру, наименьшее значение/?, необходимое для отчета, —р< 0,001. ПРОЦЕНТЫ В ОТЧЕТАХ 1.2. Указывая число процентов, всегда добавляйте числитель и знаменатель со- ответавующей дроби. Преимущество указаний в процентах состоит в том, что они позволяют единообразно сравнивать группы разных размеров. Недостатком является то, что при указании одних только процентов может потеряться перспектива. Так, утверждение о том, что 20 % пациентов были успешно излечены, равным образом справедливо для одного из пяти пациентов или же для 1000 из 5000. Числитель и знаменатель дроби, соответствующей процентному значению, можно указывать в скобках и наоборот: 25 % (650/2598); 33 % (30 из 90 пациентов); 12 из 16 кроликов (75 %). Щ Проверяйте числители и знаменатели, пересчитывайте процентные соотношения. Одно типичное недоразумение возникает тогда, когда проценты указываются не для всей выборки, а только для ее подгрупп. Например, «среди 1000 мужчин с сердечным заболеванием у 800 (80 %) был высокий уровень холестерина сыворотки крови; 250 (31 %) из этих 800 вели сидячий образ жизни». 31 % — это 250/800, а не 250/1000. 1.3. Если объем выборки больше 100, указывайте число процентов не более чем с одним знаком после запятой. Если объем выборки меньше 100, указывайте целое число процентов. Если объем выборки меньше, чем.
30 Составление статистических отчетов в медицине скажем, 20, то следует предпочесть указание исходных числовых данных, а не процентов. Выбор именно числа 20 как своего рода границы между малыми и большими выборками имеет основания, но этот выбор произволен. В малых выборках размер процентной величины может вводить в заблуждение, так как она может оказаться больше, чем то число, которое она выражает: «33 % крыс в этом эксперименте выжили, 33 % умерли, а третья убежала». 1 А. Если вы указываете процентное изменение величины, используйте следующую формулу: [(конечное значение — начальное значение)/начальное значение]; затем, чтобы получить увеличение или уменьшение в процентах, умножьте результат на 100. Если результат при использовании этой формулы является отрицательным числом, знак минус опускается, а изменение называется уменьшением. Если результат положителен, изменение называется увеличением. ПРИМЕР • Изменение температуры тела на 10 °С с 30 до 40 °С означает 33%-е увеличение: (40 - ЗОУЗО = 0,33. 10 °— это одна треть от 30 °. • Изменение температуры тела на 10 °С с 40 до 30 °С означает 25%-е уменьшение: (30 - 40)/40 = -0,25. 10 °С — это одна четверть от 40 Т. ОТЧЕТ О КАТЕГОРИАЛЬНЫХ ДАННЫХ Образец презентации Из 25 опухолей только 5 были злокачественными. Здесь: • Отношение числа злокачественных опухолей к числу доброкачественных равно 5:25. • Доля злокачественных опухолей составляет 5/25, или 0,2. • Процент злокачественных опухолей составляет (5/25) х 100 %, или 20 %. • Через 5 лет наблюдений опухоль стала злокачественной у 5 из 25 пациентов, что составляло 20%-ю частоту рецидивов за 5 лет. (Частота связана с факторолА времени.) 1.5. Уточняйте знаменатели в отношениях, долях и процентных соотношениях. Категориальные данные (номинальные или порядковые) — это подсчеты числа участников или наблюдений в каждой категории. Такие данные часто описываются в процентах или с помощью иных отношений. Например, если выборка разделена на четыре номинальные категории по группе крови, то число пациентов в этих категориях должно быть выражено четырьмя числами, дающими в сумме 100 %. Хотя числители определить легко, знаменатели могут отображать либо всю группу, либо только ее часть. Поэтому важно уточнять, численность какой группы берется в качестве знаменателя. Группа крови АВ может составлять 15 % от всех пациентов выборки (скажем, 15 из 100), но при определенных условиях 67 % (12 из 18) от 18 пациентов. Q Приводите сводку категориальных данных в тексте тогда, когда число категорий не так велико, чтобы оправдать использование рисунка.
Числовые отчеты и описательные статистики 31 1.6. Если непрерывные данные разбиты точками деления на порядковые категории, идентифицируйте эти точки деления и обоснуйте их выбор. Результаты измерения роста, скажем, у 100 мужчин можно рассматривать как непрерывное распределение по метровой шкале; их также можно разбить на три ординальные (порядковых) группы: мужчин низкого, среднего и высокого роста. Поскольку с точки зрения статистики работа с порядковыми данными ведется не так, как с непрерывными, это помогает узнать, когда и почему использовались эти категории. Деление непрерывных данных на порядковые категории может быть нежелательным вследствие того, что сведение индивидуальных значений в меньшее количество более общих категорий приводит к потере информации. Однако если такое деление упрощает вычисления, оно может оказаться желательным. Общеизвестным примером является практика, при которой возраст анализируется через ряд ординальных категорий, а не как непрерывно меняющаяся переменная. ^ Будьте внимательны при интерпретации порядковых данных, если они рассматривались как непрерывные данные [4]. Общепринятой, но порой спорной практикой является рассмотрение небольшого числа ординальных категорий так, как если бы они были непрерывными данными. Например, степень тяжести заболевания может оцениваться по четырехбалльной шкале: 1 — отсутствие заболевания, 2 — вялотекущая болезнь, 3 — умеренно протекающая болезнь, 4 — тяжелая болезнь. Значения степени тяжести, полученные от нескольких пациентов, могут сочетаться для получения усредненной степени состояния, равной, скажем, 2,3. Но такие значения могут оказаться нереалистичными из-за того, что концептуальное «расстояние» между категориями неодинаково'. «Расстояние» между отсутствием заболевания и вялотекущей болезнью может быть намного «больше», чем между умеренно протекающим и тяжелым заболеванием. Указание числа данных в каждой категории или той категории, где содержится наибольшее число значений, данных (модальное значение), может оказаться лучшим способом для получения отчета об этих данных. С другой стороны, иногда полезно усреднять порядковые значения. Для семибалльной шкалы, по которой оценивают удовлетворительность итогов пребывания в стационаре, лишь немногие возразили бы против дробного выражения средней оценки пребывания в стационаре, такой как 3,2 или 5,3. Однако даже здесь использовать среднее значение уместно лишь тогда, когда распределение значений более или менее похоже на нормальное^. Если распределение значений скошено, то для отчета больше всего подходит медиана (значение, делящее распределение на верхнюю и нижнюю половины); если же распределение бимодальное, то более всего подходят две моды, т. е. два пиковых значения бимодального распределения (см. указание 1.7). ' Весьма существенный акцент в работе с порядковыми признаками. Однако в современной биостатистике есть методы, позволяющие производить так называемую оцифровку градаций таких признаков. В результате отдельным градациям присваиваются новые числовые метки, и в дальнейщем с ними можно работать как с непрерывными шкалами. ^ Данная рекомендация весьма сомнительна в силу своей некорректности, так как распределение дискретных величин невозможно сравнивать с нормальным распределением непрерывной величины.
32 Составление статистических отчетов в медицине ОТЧЕТ О НЕПРЕРЫВНЫХ ДАННЫХ Образец презентации • Численность титров антител варьировалась в пределах от 25 до 347 нг/мл и их среднее значение (стандартное отклонение—СО) составляло 110 нг/мл (43 нг/мл). Если распределение данных близко к нормальному, то они хорошо описываются с помощью среднего и СО. • Численность титров антител варьировалась в пределах от 25 до 347 нг/мл, с медианой (интерквартильной широтой), равной 110 нг/мл (от 61 до 159 нг/мл). Если распределение данных заметно отличается от нормального, то они хорошо описываются медианой и интерквартильной широтой. 17. Составляя отчет о непрерывно распределенных данных, выбирайте подходящие меры центральной тенденции и рассеяния. Непрерывные данные — это данные, которые при нанесении на график образуют распределение значений сплошь по всей длине числовой оси. Выводы о таких распределениях могут быть сделаны при подходящем выборе мер центральной тенденции и рассеяния. Меры центральной тенденции, такие как среднее, медиана или мода, указывают на те места числовой оси, где данные имеют тенденцию к концентрации. Меры рассеяния, с другой стороны, такие как СО, размах или интерквартильная широта, говорят о распространении данных вдоль числовой оси. Про распределения, образующие «колоколообразную» кривую, говорят, что они «распределены приблизительно нормально»; все остальные распределены по закону, отличному от нормального. Приблизительно нормальные распределения могут быть корректно представлены с помощью среднего значения и СО; остальные распределения лучше описывать с помощью медианы и размаха или интерквартильной широты. Классическая ящичковая диаграмма Тьюки (рис. 1.1) и ее модификация, воспроизведенная в виде кливлендской точечной диаграммы (рис. 1.2) [5], являются прекрасным средством для представления как нормально, так и ненормально распределенных данных [6]. Они могут показывать среднее или медиану, СО или интерквартильную широту, размах от 90 до 10 %, выбросы и т. д. (см. указание 21.17, рис. 21.13 ирис. 21.15). Также может быть полезно строить малые гистограммы, демонстрирующие общий вид распределений реальных данных (рис. 1.3). 1 *8. Не делайте заключений о непрерывных данных с помощью среднего и стандартной ошибки среднего. Стандартная (среднеквадратичная) ошибка среднего (СОС, англ. — SEM) — это мера точности для оцениваемого среднего генеральной совокупности (популяции), в то время как СО указывает на разброс действительных данных вокруг среднего одной выборки из генеральной совокупности. В отличие от СО, СОС не является описательной статистикой и не должна использоваться в таком качестве. Тем не менее авторы некорректно используют СОС как описательную статистику для итоговых выводов об изменчивости своих данных: поскольку она всегда меньше, чем СО, делается необоснованное заключение о повышенной точности измерений.
Числовые отчеты и оп^1сательные статистики 33 Использовать СОС следует лишь для указания точности оценки среднего генеральной совокупности. Однако даже в этом случае предпочтительнее взять 95% ДИ, т. е. диапазон значений, охваченный примерно двумя СОС сверху и снизу от среднего выборочного значения {см. гл. 3), ПРИМЕР • Если средний вес в выборке из 100 мужчин равен 72 кг, а СО равно 8 кг, то (в предположении нормальности распределения) следует ожидать, что у двух третей мужчин (68 %) вес будет заключен в пределах от 64 до 80 кг. Здесь среднее и СО правильно использованы для описания данного распределения веса мужчин. Однако средний вес выборки, 72 кг, является также наилучшей оценкой среднего веса мужчин всей генеральной совокупности, из которой была произведена выборка. Используя формулу СОС = СО/л/й, где 11 о- ? 20 — 15 — 10 — 5 — т * --ft- * Vr "1Г т 4 8 16 32 Кратность растворения 64 Рис. 1.1. Ящичковая диаграмма Тьюки (или «ящик с усами») может уместить итоговую информацию о распределении в небольшом объеме. Здесь ящик показывает интерквартильную широту, горизонтальная линия в ящике — медиану, а звездочки — среднее. «Усы» показывают размах распределения. В других модификациях усы могут показывать размах, скажем, от 5-го до 95-го процентиля, а индивидуальные значения на краях распределения будут нанесены на график отдельно, с тем чтобы идентифицировать выбросы СО = 8 кг и « = 100, получаем, что СОС равна 0,8. Это означает следующее: если (случайная) выборка объема 100 неоднократно выбирается из одной и той же генеральной совокупности мужчин, то следует ожидать, что примерно в двух третях (68 %) этих выборок средние значения веса заключены в пределах от 71,2 до 72,8 кг (эти значения больше или меньше Чашка 5 Чашка 3 Чашка 4 Чашка 6 Чашка 1 Чашка 2 мг/мл .....==1=... -.=|.= --=1==.— ==1===-- ==1===-- --====1=== 0 10 20 30 40 50 60 70 среднего на одну величину СОС). Оценку среднего и ее точность в этом примере лучше выразить через среднее и 95% ДИ (значения в этом диапазоне примерно на две Рис. 1.2. Классическую ящичковую диаграмму показанную на рис. 1.1, ^^^ ^^^^^ ^^^ ^^^^ д^^^_ можно воспроизвести с помощью кливлендской точечной диаграммы. Медиана показана здесь вертикальной линией, интерквартильная широта — ^^)- ^Д^сь следует сказать так: двойными линиями, а весь диапазон значений — пунктирными линиями «Средний вес составил 72 кг
^I^L ^. 2У [\ 34 Составление статистических отчетов в медицине (при 95% да от 70,4 до 73,6 кг)». Под этим подразумевается следующее: если (случайные) выборки объема 100 неоднократно извлекаются из одной и той же генеральной совокупности мужчин, то ожидаемые средние значения будут находиться в пределах от 70,4 до 73,6 кг в 95 % этих выборок. Подводя итоги, для этих данных, можно сказать: • описательные статистики предпочтительнее представлять так: среднее значение (СО) = 72 кг (8 кг). • оценку среднего и ее точность предпочтительнее представлять так: среднее (при 95% ДИ) = 72 кг (от 70,4 до 73,6 кг). Следует предостеречь от представления оценки среднего и ее точности в виде среднего значения и СОС, поскольку они часто смешиваются со средним и СО. ^ Часто СОС безосновательно используется 1) вместо СО при описании изменчивости множества данных и 2) вместо 95% ДИ при указании точности оценки. Отчет о нормально распределенных данных Рис. 1.3. Небольшие гистограммы также могут показывать общую форму распределения данных, не занимая при этом много места. Когда описательные статистики не дают хорошего описания данных или вводят в заблуждение, такие гистограммы могут придать данным более точный смысл 1.9. Используйте среднее значение и стандартное отклонение лишь тогда, когда речь идет о примерно нормальном распределении данных\ Среднее значение и СО могут быть подсчитаны для любого распределения непрерывных данных. Однако для обычного читателя медицинской литературы среднее и СО имеют значение только при нормальном распределении (распределении Гаусса), или на колоколоо- бразной кривой. То есть большинство читателей знают, что 68 % значений распределения лежат в интервале среднее ± одно СО, 95 % значений — в интервале среднее ± два СО, 99 % значений — в интервале среднее ± три СО. Среднее значение и СО могут корректно использоваться при описании других известных распределений, таких как пуассоновское или хи-квадрат, но эти описания мало что говорят нестатистикам. Таким образом, среднее значение и СО можно использовать только при описании данных, распределенных по приблизительно нормальному закону. Распределения, заметно отличающиеся от нормального, следует описывать с помощью медианы и размаха или интерквартильной широты (см. указание L12), ^ Многие биологические характеристики распределены не по нормальному закону [4,7-12]. Поскольку большинство биологических характеристик не подчиняются нормальному закону распределения, наиболее употребительными описательными статистиками в медицинской науке следует считать медиану и размах или интерквартильную широту, а не среднее значение с СО. ' Наш многолетний опыт работы с биомедицинскими данными показывает, что примерно нормальное распределение встречается у непрерывных признаков примерно в 20-25 % случаях. Это следует учитывать при выборе параметров описания распределения.
Числовые отчеты и описательные статистики 35 @ Указывайте значения среднего и СО не более чем на один знак после запятой больше по сравнению с данными [3,13-15]. Как всегда, округляйте до двух значащих цифр, если это возможно. ^ Данные, у которых СО превышает половину среднего значения, не являются нормально распределенными (если считать отрицательные значения невозможными); их следует описывать с помощью медианы и размаха или интерк- вартильной широты [10, И, 16-18]. «Среднее значение (СО) плазмы составило 45 (25) мг/дл. Согласно определению, 95 % выборки из нормально распределенных данных попадает в интервал, ограниченный примерно двумя СО выше и ниже среднего значения. В данном случае 95 % от всего диапазона пробегают значения от -5 до 95 мг/дл, что невозможно [45 - (25 + 25) = -5; 45 + (25 + 25) = 95]. Это говорит о том, что значения плазмы распределены не по нормальному закону. ф Вычитая медиану из среднего значения, мы получаем грубую оценку скошенности, асимметричности данных: чем больше разность, тем сильнее скошенность [19,20]. Среднее значение и медиана нормального распределения примерно равны. Если среднее значение заметно больше медианы, данные скошены вправо, обычно из-за того, что несколько больших значений увеличивают среднее. 1.10. Не используйте символ «±» при указании среднего значения и стандартного отклонения. Символ «±» не нужен, поскольку нормальное распределение симметрично и, по определению, СО занимает равные промежутки по обе стороны от среднего значения. ПРИМЕР • Данные указываются как «средние значения и СО» (а не «средние значения ± СО»). • Среднее значение (СО) составило «12 мл (2 мл)» (не «12 ± 2»). Обычным источником недоразумений в медицинской литературе является разное понимание интервала, определяемого символом «±». К примеру, «12 ± 2 мл» может означать среднее значение и СО, среднее и СОС или даже оценку среднего и 95% ДИ, в который попадает эта оценка. Знак «±» не всегда означает, что следующее за ним число является СО, и поэтому его нужно заменять пояснением, имеется ли в виду СО или 95% ДИ.' В отличие от СО и СОС, доверительные интервалы не всегда симметричны относительно среднего значения, поэтому даже обоснованное применение знака «±» может оказаться не вполне точным в некоторых примерах. ^ Не указывайте в отчете стандартную ошибку среднего. Точность оценки предпочтительнее описывать с помощью 95% ДИ, а его использование требует указания верхней и нижней границы. Например, «разница составила 12 мл (95% ДИ = от 10 до 14 мл)». (См. такэюе гл. 3.) ' Весьма важное замечание, поскольку для отечественных публикаций характерно как раз отсутствие таких пояснений. Наряду с таким пояснением следует обязательно указывать и объем наблюдений, по которым вычислялись эти характеристики.
36 Составление статистических отчетов в медицине 1Л1« Сравнивая рассеяния двух и более множеав нормально распределенных данных, используйте вместо аандартного отклонения коэффициент вариации. Изменчивость биологических показателей в типичных случаях усиливается с нарастанием их величины'. К примеру, изменчивость веса новорожденных меньше, чем изменчивость веса стариков, поскольку с увеличением веса увеличивается и диапазон, в котором он может меняться. Как следствие, изучение рассеяния в двух выборках путем сравнения их СО может привести к ошибкам. Коэффициент вариации (KB) удобен тем, что объединяет и среднее, и СО в один показатель. KB — это СО, выраженное в процентах от среднего значения. Таким образом, он дает меру рассеяния относительно величины среднего значения. Так, для среднего значения 12 и СО 3 KB равен 25 %. ПРИМЕР • Показатель 1 в табл. 1.1 имеет наименьшую изменчивость, так как он имеет наименьшее значение КВ. KB особенно удобен при сравнении рассеяний в двух и более множествах данных, выраженных в разных единицах измерения, поскольку он, в отличие от них, выражен в процентах. Пусть, например, некоторый диагностический тест показывается областью изображения, измеряемой в квадратных миллиметрах, а конкурирующий тест измеряет поглощение изотопного индикатора в миллилитрах в минуту. Относительную вариабельность этих двух измерений можно оценить путем сравнения коэффициентов вариации. @ Проверяйте коэффициент вариации по формуле: КБ = (СО/среднее) х 100 %. Отчет о данных, распределенных не по нормальному закону Среднее значение и СО зачастую неправомерно используются в отчетах о данных, независимо от того, близко ли их распределение к нормальному или нет, и особенно когда выборка слишком мала, чтобы убедиться в нормальности распределения. Если о распределении нельзя сказать, что оно мало отличается от нормального, то отчет о нем, как это будет описано ниже, следует составлять при помощи иных статистик, нежели среднее значение и СО. Отчет о данных следует составлять должным образом не только ради описания распределения, но и с другими статистическими целями. Данные, распределение которых близко к нормальному, можно анализировать с помощью так называемых параметрических ста- Таблица 1,1 Сравнение изменчивости различных показателей с помощью коэффициента вариации^ и стандартного отклонения Показатель Среднее значение (СО), мм Коэффициент вариации, % 1 90(15) 16,7^ ^ 2 45(15) 33,3 3 33(13) 39,4 ^ Коэффициент вариации — СО, выраженное в процентах от среднего значения. ^ Показатель с наименьшим коэффициентом вариации имеет наименьшую изменчивость. ' Отметим, что при этом наибольшая вариабельность присуща группам больных пациентов и в целом группам воздействия (экспериментальным группам).
Числовые отчеты и описательные статистики 37 тистических критериев. Если же распределение сильно отличается от нормального, то его нужно исследовать при помощи непараметрических статистических критериев. Распределение, заметно отличающееся от нормального, можно в некоторых случаях «преобразовать» в более близкое к нормальному и изучать его при помощи параметрических критериев (см. указание 1.14у, Однако отличие распределения от нормального и способ преобразования должны быть отражены в отчетах. Многие авторы некорректно используют параметрические критерии при работе с данными, распределенными не по нормальному закону^. 1.12. Распределения, заметно отличающиеся от нормального (скошенные), описывайте при помощи медианы и размаха (фактически — минимальным и максимальным значениями) или интерквартильной широты (фактически — значениями 25-го и 75-го процентилей). Если распределение данных значительно отличается от нормального, то среднее значение и СО, даже будучи математически корректными, не могут адекватно передать его форму. Медиана (50-й процентиль) и интерквартильная широта (интервал значений между 25-м и 75-м процентилями распределения) дают более точное заключение о распределении, поскольку они не подвержены влиянию экстремальных значений. Иногда используются и другие интерпроцентильные широты, такие как с 10-го по 90-й. С технической точки зрения размах представляет собой разность между максимальным и минимальным значениями. Однако его нередко смешивают с самими этими значениями. То же самое справедливо и для интерпроцентильной широты: она равна разности, скажем, между значениями 75-го и 25-го перцентилей, но в отчетах порой фигурируют сами эти значения. ПРИМЕР • Распределение веса имеет медиану 72 кг (25-й процентиль равен 60 кг; 75-й процентиль — 87 кг). • Значение медианы веса составило 72 кг (интерквартильная широта — от 60 до 87 кг). • Через 8 недель вес (медиана и интерквартильная широта) был равен 72 кг (от 60 до 87 кг). ОТЧЕТ О ПАРНЫХ ДАННЫХ 1Л 3* Совместное представление компонент парных наблюдений. Парные, или спаренные, данные — это результаты эксперимента, взятые либо из наблюдений за одним его участником (такие, как данные до и после испытания или данные с левой и правой сторон от одного участника), либо от разных участников, спаренных по некоторым показателям, для контроля влияния этих показателей на результат. Компоненты ' Однако при этом следует помнить о том, что в этом случае результаты применения параметрических критериев будут относиться только (NB!) к преобразованным величинам. То есть если сравниваются средние объемные скорости кровотока с размерностью [см7сек] у группы больных до лечения и у группы больных после лечения, и при этом для преобразования к нормальному распределению использовано извлечение квадратного корня из всех значений этой величины, получив в результате новую величину с размерностью [см'7сек"-], то результат, полученный с помощью параметрического критерия, будет относиться только к этой новой переменной, а не к исходной объемной скорости. При этом возникает и проблема интерпретации такой новой величины. Действительно, каков физический смысл новой величины с размерностью [см^ 7сек'^]? Что это такое? ^ С примерами таких некорректностей читатели могут познакомиться в статье В. П. Леонова «Ошибки статистического анализа биомедицинских данных» (Международный журнал медицинской практики. 2007. Вып. 2. С. 19-35 //http://www.mediasphera.ru/journals/practik/).
38 Составление статистических отчетов в медицине парных наблюдений должны быть представлены в отчете совместно, с тем чтобы сохранить их взаимосвязь. Изменения, показанные на рис. 21.27 и 21.28, были бы незаметны, если бы для данных до и после эксперимента были представлены только групповые средние. Парные данные можно показывать в таблицах, но при этом должны быть также показаны и представлены для отчета разности и изменения в парах. Например, распределение разностей следует описывать, скажем, с помощью медианы и интерквартильной широты. ОТЧЕТ О ПРЕОБРАЗОВАННЫХ ДАННЫХ 1.14. Если распределение данных значительно отличается от нормального, указывайте, преобразовывались ли они в распределение, близкое к нормальному, и если да, то каким способом. Иногда скошенное распределение можно математически преобразовать в близкое к нормальному (рис. 1.4), что в дальнейшем делает возможным применение параметрических критериев. Общепринятыми преобразованиями в медицинской науке являются логарифмическое, извлечение квадратного корня, экспоненциальное и обратное. 1.15. Если данные были преобразованы, для отчета переведите единицы измерения в исходные. Преобразование данных влечет изменение их единицы измерений. Например, при извлечении квадратного корня «килограмм» становится «квадратным корнем из килограмма», не имеющим реального смысла. Результаты анализа, следовательно, должны быть преобразованы обратно, так чтобы их можно было использовать, т. е. чтобы они были снова выражены в килограммах'. СВОДКИ ДАННЫХ из МАЛЫХ ВЫБОРОК 1Лб. Если количество наблюдений невелико или если описательные статистики вводят в заблуждение, бывает уместно привести все имеющиеся данные. Описательные статистики полезны тем, что сводят большие количества данных к нескольким итоговым показателям. Если нет необходимости уменьшать количество данных и как- либо их подытоживать, нет необходимости и в использовании описательных статистик. ^ Стандартные описательные статистики (такие, как среднее и СО) могут дать неадекватное итоговое представление малых множеств данных. При определении, например, нормальности распределения доступных данных может оказаться недостаточно. Средние значения и СО можно вычислить даже по двум исходным значениям, но эти статистики мало что значат при таких условиях. ' при использовании таких преобразований важно помнить, что результат проверки статистической гипотезы, полученный для преобразованных данных, нельзя автоматически переносить на непреобразованные данные. К примеру, сравниваюся генеральные, популяционные средние для преобразованного артериального давления в группах до и после лечения. Преобразование заключается в извлечении квадратного корня из давления, выраженного в мм рт. ст. При использовании параметрического критерия получен достигнутый уровень статистической значимости/7 = 0,012. При критическом значении уровня значимости/? = 0,05 следует вывод о различии сравниваемых популяционных средних. Однако этот вывод нельзя автоматически перенести на исходные величины давления, выраженные в мм рт. ст.
Числовые отчеты и описательные статистики 39 >- S 40 -Ч 30 —\ U ОС о S I i S S 20 " i <u 5 10 s 03 с; 3 о Н Ф о о о о о о 9в ^ ^ ^ ^ \ г 0 12 3 4 5 6 Шкала и метки горизонтальной оси, или оси X Единицы измерения Рис. 1.4. Распределение, отличное от нормального распределения данных, до (незакрашенные круги) и после (закрашенные круги) математического преобразования. По завершении анализа результаты следует перевести в соответствие с их оригинальной шкалой, чтобы можно было использовать исходные единицы измерения. (Показанное здесь преобразованное распределение — приближенное; преобразование не является математически точным) 1.17. Не используйте проценты в отчетах о малых выборках. Процентные соотношения, рассчитанные для малых выборок, могут потерять свой смысл из-за малого числа возможных значений процентов. Например, для группы из семи пациентов один пациент означает 14 %, два — 29 %, три — 43 % и т. д. Таким образом, таблица неблагоприятных реакций может иметь лишь несколько входов в 14, 29 и 43 %, и это не дает новой информации по сравнению с отчетом о том, что воздействию подверглись 1, 2 или 3 пациента. Число 20 по ряду соображений берется в качестве рубежа между малыми и большими выборками, но этот выбор произволен (см. указание 1.3). Литература 1. Forrow L, Taylor WC, Arnold RM. Absolutely relative: how research results are summarized can affect treatment decisions. Am J Med. 1992; 92:121-4. 2. Ehrenberg AS. The problem of numeracy. Am Statistician. 1981; 35:67-71. 3. Altman DG, Gore SM, Gardner MJ, Pocock SJ. Statistical guidelines for contributors to medical journals. BMJ. 1983; 286:1489-93. 4. Haines SJ. Six statistical suggestions for surgeons. Neurosurgery. 1981; 9:414-8. 5. McGill R, Tukey JW, Larsen WA. Variation of box plots. Am Statistician. 1978; 32:12-6.
40 Составление статистических отчетов в медицине 6. Simpson RJ, Johnson ТА, Amara lA. The box-plot: an exploratory analysis graph for biomedical publications. Am Heart J. 1988; 116:1663-5. 7. Griner PF, Mayewski RJ, Mushlin AI, Greenland P Selection and inteфretation of diagnostic tests and procedures: principles and applications. Ann Intern Med. 1981; 94:553-600. 8. Evans M, Pollock AV. Trials on trial: a review of trials of antibiotic prophylaxis. Arch Surg. 1984; 119:109-3. 9. FeinsteinAR. X and ipr : an improved summary for scientific communication [Editorial]. J Chronic Dis. 1987;40:283-8. 10. HallJC, Hill D, Watts JM. Misuse of statistical methods in the Australasian surgical literature. Aust NZJSurg. 1982;52:541-3. 11. HallJC. The other side of statistical significance: a review of type II errors in the Australian medical literature. Aust N Z Med. 1982; 12:7-9. 12. WulffHR, Andersen B, Brandenhoff P, Guttler F What do doctors know about statistics? Stat Med. 1987;6:3-10. 13. Sumner D. Lies, damned lies — or statistics? J Hypertens. 1992; 10:3-8. 14. Murray GD. Statistical guidelines for the British Journal of Surgery. Br J Surg. 1991; 78:782-4. 15. Journal of Hypertension. Statistical guidelines for the Journal of Hypertension. J Hyper. 1992; 10:6-8. 16. Brown GW. Statistics and the medical journal [Editorial]. Am J Dis Child. 1985;139:226-8. 17. Evans M. Presentation of manuscripts for publication in the British Journal of Surgery. Br J Surg. 1989;76:1311-4. 18. Gardner MJ. Understanding and presenting variation [Letter]. Lancet. 1975; 25:230-1. 19. Oliver D, HallJC. Usage of statistics in the surgical literature and the 'офЬап P' phenomenon. Aust NZJSurg. 1989;59:449-51. 20. Gore SM, Jones IG, Rytter EC Misuse of statistical methods: critical assessment of articles in BMJ from January to March 1976. BMJ. 1977; 1:85-7.
Отчет о показателях риска 41 Глава 2 Сравнение вероятностей событий Отчет о показателях риска Рациональное суэюдение о риске, даэюе если оно пояснено графически и понятно, нельзя считать достаточным руководством к действию. Рационализм — не единственный компонент принятия решений. Н. Thorton[\] Целью любого терапевтического вмешательства является повышение вероятности улучшения состояния или уменьшение вероятности ущерба. Эти вероятности часто указываются в виде отношений, частот или рисков, в которых вероятности событий, происходящих в одной группе, обычно экспериментальной или прошедшей лечение, сравниваются с вероятностью события, происходящего в контрольной группе, также проходящей другое лечение или получавшей плацебо. Существует несколько типов отношений, частот и рисков, причем каждый отличается тем, что представлено в числителе и знаменателе. В некоторых типовых отношениях, частотах и рисках числители и знаменатели определяются стандартно. Кроме того, большинство из них связано с временным периодом и единицей той популяции, к которой применяются сравнения (единичный множитель, такой как х 1000 человек). Термины «отношение», «частота» и «риск» часто некорректно используются друг вместо друга. Поэтому здесь мы даем их определения. Кроме того, мы даем определения наиболее общеупотребительных отношений, частот и рисков, используемых в медицинской литературе, и приводим рекомендации по отчету о показателях такого рода. МАТЕМАТИЧЕСКИЕ ВЫРАЖЕНИЯ ВЕРОЯТНОСТИ Отношение Отношение, наиболее общий термин, может выглядеть как простое сопоставление, из которого не обязательно следует наличие особых соотношений между числителем и знаменателем [2]: Отношение числа мальчиков к числу девочек составило 1:4. (Читается так: Отношение — один к четырем.) Указанное здесь соотношение означает, что на каждого мальчика приходится 4 девочки; числитель и знаменатель математически друг с другом не связаны (одно не является подмножеством другого). Отношение может также выражаться дробью, т. е. как деление одного количества на другое; здесь соответствующая дробь — 1/4. В отчетах о рисках отношения часто выражены как 1 шанс из 100,1000 или даже из миллиона. Например, риск погибнуть в авиакатастрофе каждый год равен 1:250 000. Это означает.
42 Составление статистических отчетов в медицине что каждый год 1 случай смерти из 250 000 происходит в авиакатастрофах [3]. Подобно этому, риск умереть составляет 1 на миллион для каждых 6 минут путешествия на каноэ, каждых 300 миль автопутешествия или каждых 1000 миль полета на реактивном самолете [4]. Доля Доля — особый тип отношения, в котором числитель является подмножеством знаменателя [2], но вне зависимости от фактора времени. Доля всегда заключена в пределах от нуля до единицы: Доля выживших после данного заболевания составила 0,41 (53/129). Здесь 53 выживших — это подмножество 129 пациентов с данной болезнью. В соответствии с указаниями 1.2 и 1.3 убедитесь, что числители и знаменатели каждой доли можно легко найти в вашем тексте. Процент Процент — это доля, записанная как часть целого (как часть от 100 %) [2]. Таким образом, процент — это доля, умноженная на 100 %: Из 129 инфицированных пациентов выэюил только 41 % (53). (53/129 X 100 = 0,41 X 100 = 41 %) Убедитесь, что числители и знаменатели всех процентных указаний легко находятся в тексте {см. указание 1.2). Процентиль Процентиль, или процентильный ранг, — это категория, указывающая на положение отдельного значения по отношению к остальным значениям распределения: Ее величина риска соответствует 97-му процентилю по всем испытуемым. Другими словами, ее величина риска выше, чем у 96 % всех испытуемых (т. е. она находится в группе очень высокого риска). Частота Частота — особый тип отношения, в котором 1) отчетливо видна связь между числителем и знаменателем и 2) данным в знаменателе присуща определенная связь с временем [2]: Число новых случаев заболевания простудой составило 55 на 1000 студентов в течение 3 месяцев осеннего семестра. В выражении частоты числитель является подмножеством знаменателя: число студентов, заболевших простудой за 3 месяца осеннего семестра, является числителем, а число всех студентов, подверэюенных риску заболеть за 3 месяца осеннего семестра, даже если они не заболели, является знаменателем. Временной интервал равен 3 месяцам, а единицей отчетности является число простуд на каждые 1000 студентов. Например, если 870 из 15 975 студентов простудились в осеннем семестре, то частота простуд составляет: 870 простуд/15 975 студентов, рискующих простудиться, или 0,0545 простуд на студента, или около 55 простуд на 1000 студентов в течение трех месяцев. Отношение частот Отношение частот — две частоты, записанные в виде отношения. Обычно отношение частот сравнивает, скажем, частоту инфекционного заболевания в «группе риска» с часто-
Отчет о показателях риска 43 той в «не подверженной риску» популяции. Примерами являются отношения шансов, отношения опасностей и отношения рисков: Риск заболеть был в 5,3 раза больше у лиц, употреблявших рыбу, чему лиц, не употреблявших ее. В этом примере отношения рисков заболели 8 из 10 человек, съевших рыбу за обедом (риск равен 8/10, или 0,8), в то время как из 20, не употреблявших рыбу, заболели только 3 (риск равен 3/20, или 0,15). Отношение частот равно риску заболеть для съевшего рыбу по сравнению с тем, кто ее не ел: 0,8/0,15 = 5,3. Отношение рисков называется также относительным риском. Так, отчет о результатах в данном примере может выглядеть следующим образом: «Относительный риск заболеть после употребления рыбы был равен 5,3». Это означает, что вероятность заболеть у людей, употреблявших рыбу, в 5,3 раза выше, чем у тех, которые не употребляли ее. Риск Риск обычно определяется как вероятность неблагоприятного исхода, случающегося в течение данного отрезка времени [5, 6]. Пожалуй, более строгое определение дано Национальной академией наук США: риск — это «сочетание вероятности события, обычно неблагоприятного, и природы и серьезности события». Однако термин «риск» может относиться и к вероятности положительного исхода, и именно таким образом он часто используется в медицинской литературе. Мы будем употреблять этот термин не в значении «риск», а в значении «вероятность» выживания. ПОКАЗАТЕЛИ ДЛЯ ОТЧЕТОВ О РИСКАХ И ВЫГОДЕ 2.1. Указывайте точное значение показателя риска; не ограничивайтесь описанием риска как малого, умеренного или высокого, если только эти термины не определены с помощью показателя риска [7]. 2.2. Уточняйте, какие именно показатели используются в отчете о вероятноаи улучшения и о риске неблагоприятных событий (табл. 2.1 и 2.2). 23. Указывайте и, если необходимо, подробно описывайте группы, представленные в числителе и знаменателе показателя. 2.4. Указывайте, за какой период представлен отчет о показателе, например за день, за год или в течение курса лечения. 2.5. Указывайте единицу популяции (единичный множитель), к которому применен показатель (например, на человека или на 100 000 человек). 2.6. Отчет о каждом показателе должен содержать соответствующий доверительный интервал.
44 Составление статистических отчетов в медицине Абсолютный риск Абсолютный риск, или просто риск, — это вероятность события, которое может произойти, т. е. вероятность воздействия при определенных условиях на состояние здоровья индивидуума или популяции [8]. В статистике риск определяется как число людей с болезнью или инвалидностью, выраженное посредством доли (часто в процентах) числа людей, у которых могла бы развиться эта болезнь или инвалидность (табл. 2.1). Подверженная риску популяция — знамена- Таблица 2.1 Расчет риска смертности от рака простаты для 400 мужчин, страдающих раком простаты и прошедших лечение, подвергшихся резекции простаты либо находящихся в активном выжидательном наблюдении в рандомизированном испытании Показатель риска Формула Тактика активного Резекция простаты - ,.^,, inn^ /. Ллл. наблюдения (АН) (РП) (п = 200) (п = 200) Число умерших от рака простаты Абсолютный риск (АР) смерти от рака простаты Естественная частота Относительный риск (ОР) смерти от рака простаты при РП по сравнению с АН Уменьшение абсолютного риска (УАР) смерти от рака простаты при условии РП Уменьшение относительного риска (УОР) смерти от рака простаты при условии РП Шанс умереть от рака простаты Отношение шансов (ОШ) смерти от рака простаты с РП относительно АН Число нуждающихся в лечении (ЧПЛП): число мужчин, подвергшихся РП с целью предотвратить 1 дополнительный случай смерти от рака простаты Частота летальных исходов (за 8 лет) в клиническом испытании Число умерших / Число подверженных риску смерти Число / Единица популяции Риск при РП / Риск при АН Риск при РП - Риск при АН Разница рисков / Риск при АН Число умерших / Число выживших Шансы при РП / Шансы при АН 1 /Уменьшение абсолютного риска 14 22 14/200 = 0,07 = 7 % 22/200 = 0,11 = 11 % 7/100 пациентов 11 /100 пациентов (14/200)/(22/200) = 0,07/0,11 = 0,64^ = 64 % Риск смерти от рака простаты при РП составляет 64 % от риска смерти при АН 0,07-0,11 =-0,04 = -^% Риск смерти от рака простаты был на 4% меньше при РП, чем при АН (11 % - 7 %)/11 % = 0,36 = 36 % По сравнению с АН РП уменьшает риск смерти от рака на 36 % 14/186 = 0,08 22/178 = 0,12 (14/186)/(22/178) = 0,075/0,162 = 0,66» Шанс умереть от рака простаты при РП составил 66 % от шанса умереть при АН 1,0/0,04 = 25 мужчин 25 мужчин должны быть подвергнуты РП на каждый случай дополнительного выживания при отсутствии процедуры ^ Отношение шансов умереть от рака простаты при РП по сравнению с АН (0,66) ближе к относительному риску рака простаты (0,64), поскольку исход (в данном случае — смерть от рака простаты) не является всеобщим.
Отчет о показателях риска 45 тель отношения — должна включать всех, и только тех субъектов, у которых может быть такое заболевание или инвалидность. К примеру, женщины, перенесшие удаление матки, не должны включаться в популяцию женщин, подверженных риску заболеть раком матки. Числитель отношения состоит из субъектов, страдающих этим заболеванием или инвалидностью; в приведенном примере это женщины, страдающие раком матки. ^ ^ ^ Число женщин, страдающих раком матки (Абсолютный) риск заболеть раком матки = tf ^ ^ ^ ^ Число женщин, у которых может развиться рак матки Число субъектов в знаменателе зависит также от установления географической области и временного периода, причем и то и другое должно быть понятно читателю (см. гл. 12). В обширных эпидемиологических исследованиях размер популяции, подверженной риску, часто определяется для одного указанного года. Однако люди, у которых идентифицирована болезнь в течение указанного года, могли заболеть ею годом ранее, но болезнь была диагностирована годом позже; другие люди, как страдающие этой болезнью, так и не страдающие, могли приехать в исследуемую географическую область или выехать из нее [8]. Одно из решений этой проблемы заключается в оценке объема популяции в среднестатистический год или в середине периода исследований. Число женщин Калифорнии, страдающих ра- (Абсолютный) риск заболеть раком матки _ ком матки в 2005 г у женщин, живущих в Калифорнии в 2005 г. " Оценка числа женщин Калифорнии на 1 июля 2005 г., у которых может развиться рак матки Разность абсолютных рисков Разность абсолютных рисков, дополнительный риск, уменьшение абсолютного риска, или просто разность рисков, — это разность между двумя абсолютными рисками. То есть чтобы получить разность рисков, риск группы, не подверженной опасности, вычитается из риска той группы, которая ему подвержена (см. табл. 2.1). Эта разность является риском, который можно приписать подверженности опасности или вмешательству. Относительный риск, или отношение рисков Относительный риск, или отношение кумулятивных инциденсов, — это отношение двух абсолютных рисков, т. е. отношение рисков. Отношения рисков связаны с проспективными или когортными исследованиями, которые имеют два исхода (жизнь или смерть, излечение или отсутствие излечения). Сравнение рисков в двух группах помогает судить о риске в перспективе. Например, риск развития рака легких у курильщиков можно сравнить с риском его развития у некурящих. Большая разница между этими двумя рисками говорит в пользу связи между курением и раком легких. Относительный риск — это показатель связи между характеристиками группы и болезнью [9]. Он определяется следующим образом: (Абсолютный) риск в исследуемой группе (Относительный) риск = (Абсолютный) риск в контрольной группе
46 Составление статистических отчетов в медицине Таблица 2.2 Расчет показателей риска заболеваемости вследствие рака простаты для 400 мужчин, страдающих раком простаты и прошедших лечение, либо подвергшихся радикальной простатэктомии, либо находившихся в активном наблюдении в рандомизированном испытании Показатель риска Радикальная Формула простатэктомия (РП) Гп = 200) Тактика активного наблюдения (АН) (п = 200) Число мужчин с эректильной дисфункцией Уменьшение абсолютного риска Риск при РП - (УАР) эректильной дисфункции Риск при АН при АН по сравнению с РП Относительный риск (ОР) эрек- АР при РП / АР тильной дисфункции при АН при РП по сравнению с АН Отношение шансов (ОШ) эрек- Шансы при РП / тильной дисфункции Шансы при АН при РП по сравнению с АН Число нуждающихся в лечении, 1 / Уменьшение чтобы предотвратить потенци- абсолютного альный вред (ЧПЛВ): число муж- риска чин, подвергшихся ?Г\ на каждый дополнительный случай эректильной дисфункции 160 90 (160/200) - (90/200) = 0,80 - 0,45 = 0,35 = 35 % Риск эректильной дисфункции был на 35 % меньше при АН, чем при РП (1 б0/200)/{90/200) = 0,80/0,45 = 1.8^ Риск эректильной дисфункции был а ЬВ раза больше при РП, чем при АН. (160/40)/(90/110) = 4/0,82 = 4,9' Шанс эректильной дисфункции при РП примерно в пять раз больше, чем при АН 1/0,35 ^ 3 мужчины На каждых 3 мужчины, подвергавшихся радикальной простатэктомии, 1 будет страдать эректильной дисфункцией ' Отношение шансов эректильной дисфункции при РП (4,9) намного больше относительного риска (1,8), поскольку неблагоприятный исход (в данном случае — эректильная дисфункция) был общим (> 10 %) или Частота новых случаев болезни в подверженной группе Частота новых случаев болезни в неподверженной группе или Вероятность заболеть данной болезнью после доказанного воздействия Вероятность заболеть данной болезнью без такого рода воздействия или Вероятность перенести неблагоприятное событие после приема лекарства Вероятность перенести неблагоприятное событие без приема лекарства Относительные риски могут варьироваться в пределах от нуля до бесконечности. Значение относительного риска, равное 1, указывает на то, что риск для одной группы одинаков
Отчет о показателях риска 47 С риском для другой. Отношение рисков, меньшее 1, обычно указывает на защитный эффект, тогда как отношения, большие 1, указывают на вредное воздействие. Например, отношение рисков, равное 3, указывает на то, что число случаев заболевания в группе риска будет в 3 раза более вероятным (а не «выше»), чем в неподверженной группе; таким образом, заболеваемость в группе риска составляет 300 % от заболеваемости в не подверженной риску группе (см. табл. 2.1). Относительная разность рисков Относительная разность рисков, или уменьшение относительного риска, или приписываемая доля, — это разность между двумя абсолютными рисками, выраженная в процентах от риска в контрольной группе (см. табл. 2.1). Например, если риск смерти равен 2 % в группе, прошедшей лечение, и 13 % в нелеченной группе, то разница в 11 % составляет 84 % от 13 %, и уменьшение риска, которое может быть приписано лечению, равно, таким образом, 84 % [(0,02 - 0,13)/0,13 = -0,84]. Аналогично, если риск инфекции в группе риска равен 35 %, а риск в неподверженной группе равен 5 %, то относительный риск воздействия равен 6 [(0,35 - 0,05)/0,05 = 6]. Это означает, что 30%-я разность абсолютных рисков по риску для подверженной ему группы в 6 раз (600 %) выше риска в неподверженной группе. ф Поскольку уменьшение относительного риска выражается в процентах, его следует применять с осторожностью (см. указание 1.3): высокое уменьшение относительного риска может скрывать малое значение абсолютного риска. Тот факт, что уменьшение относительного риска часто превышает уменьшение абсолютного риска, влияет на принятие решения относительно пациента [9]. Шансы Шанс — не то же, что риск! В то время как риск — это вероятность события в сравнении со всеми возможными исходами, шансы выражают вероятность того, что событие произойдет, по сравнению с вероятностью того, что оно не произойдет. Например, риск (вероятность) вытянуть одну из 13 карт червовой масти из полной колоды в 52 карты равен 13 из 52, или 1 к 4, или 25 %. Что же касается шансов, то они составляют 13 из 39, или 1 к 3, или 33 %. Отношение шансов Отношение шансов — это частное от деления одного значения шансов на другое. Отношения шансов обычно связаны с ретроспективными исследованиями или исследованиями «случай-контроль» с бинарными исходами и логистическим регрессионным анализом; однако отношения шансов могут оказаться полезными показателями связи как в ретроспективных, так и в перспективных исследованиях [10]. Отношения шансов широко распространены в силу того, что они являются исходами логистического регрессионного анализа. Для бинарных предикторных переменных отношение шансов является дробью, в числителе которой находятся шансы появления события в одной группе, а в знаменателе — шансы его появления в другой группе. Предположим, что курение изучается с целью выяснить, является ли оно фактором риска возникновения сердечных приступов. Оно может выражаться в виде бинарной предикторной переменной как имеющее место (курильщики) или отсутствующее (некурящие). Переменная отклика.
48 Составление статистических отчетов в медицине Т. е. сердечный приступ, может быть найдена из табличного отчета по выборке пациентов с сердечным приступом в истории болезни или без него (для плана «случай-контроль»). Сводка данных может выглядеть так: Отношение к курению Курящие Некурящие Всего Шанс пострадать от сердечного приступа у курящих равен 14/22 = 0,636, в то время как для некурящих он составляет 5/33 = 0,152. Отношение шансов является частным этих двух значений: 0,636/0,152 = 4,2. Это означает, что вероятность пострадать от сердечного приступа у курящих в 4,2 раза выше, чем у некурящих. Отношение шансов иногда называют кросс-произведением, поскольку его можно найти путем перемножения значений в диагональных клетках с последующим делением: 14x33 Сердечный приступ 14 5 19 Отсутствие сердечного приступа 22 33 55 Всег 36 38 74 = 4,2 5x22 Отношение шансов, равное 1, означает, что сердечный приступ может произойти в обеих группах с одинаковой вероятностью. Чем больше отношение шансов, тем вероятнее появление события в группе, данные из которой используются в числителе. Отношения шансов, меньшие единицы, обычно указывают на защитный эффект. Так как отношение шансов, равное 1, означает равенство шансов в обеих группах, лучше выразить отношение различий, используя такое утверждение: «Курильщики в 4,2 раза более вероятно будут иметь сердечный приступ, нежели некурящие». Если бы курильщики имели шанс на 4,2 выше иметь сердечный приступ, то читатели могли бы разумно предположить, что итоговое отношение шансов равно 5,2, равное 4,2 плюс 1, что указывало бы на тот же самый шанс. Несмотря на трудности при интерпретации, отношения шансов полезны по двум причинам. Во-первых, как отмечалось выше, они являются единицами исхода при логистическом регрессионном анализе, который служит мощным средством статистики. Во-вторых, в ретроспективных исследованиях отношения шансов найти можно, а отношения рисков — нет. Это связано с тем, что истинное значение в знаменателе для отношения рисков — число всех людей, подверженных риску заболеть данной болезнью на протяжении периода исследования, — в ретроспективных исследованиях обычно неизвестно. В противоположность этому, знаменатель для отношения шансов — число участвовавших в исследовании людей, у которых событие не произошло, — известно. Отношения шансов и отношения рисков (относительный риск) часто можно интерпретировать одинаково. Например, в табл. 2.1 отношение шансов умереть от рака простаты при лечении резекцией против активного выжидательного наблюдения (0,66) примерно такое же, как и относительный риск смерти от рака простаты при лечении резекцией (0,64). Эти два показателя подобны, поскольку исход (смерть от рака простаты) наступает сравнительно нечасто.
Отчет о показателях риска 49 Однако отношение шансов возникновения эректильной дисфункции после резекции (4,9) намного больше относительного риска возникновения эректильной дисфункции после резекции (1,8) вследствие того, что частота неблагоприятных исходов сравнительно высока: 80 % в группе резекции и 45 % в группе активного наблюдения. По общему правилу, если частота исхода превышает 10 %, отношение шансов будет переоценивать относительный риск [11]. Отношения рисков Уровень риска, или уровень плотности инциденса, — это оценка опасности неблагоприятного события, происходящего в данный момент времени. Уровень риска, что достаточно удивительно, — это отношение двух рисков. В терминах его интерпретации уровень риска неотличим от отношения рисков или относительного риска. В обоих случаях значение, скажем, 5,5 указывает на то, что лицо в группе А в 5,5 раза более вероятнее заболеет, чем человек в группе В, во время данного периода. (Основания для такого словоупотребления те же, что и для отношения шансов: отношение рисков или уровней рисков, равное 1, означает равенство рисков в двух группах.) Уровни рисков связаны с проспективными исследованиями времени до наступления события с бинарными исходами и возникают как результат регрессионного анализа пропорциональных рисков Кокса. Подробнее об этом см. гл. 9 о времени до наступления события и о регрессионном анализе Кокса пропорционального риска. Естественные частоты «Естественная частота» — это число людей, подвергшихся некоторому воздействию, на единицу популяции (см. табл. 2.1). При указании в числителе числа людей, а в знаменателе общей единицы популяции интерпретировать и сравнивать естественные частоты легче, нежели другие показатели риска [9, 12-14]. Gigerenzer [15] приводит поразительный пример того, как естественные частоты могут передать риск лучше, чем более распространенные вероятности: Риск, выраженный вероятностью: «Вероятность того, что женщина 40 лет страдает раком груди, — около 1 %. Если у нее есть рак груди, вероятность того, что маммограмма покажет положительную реакцию, равна 90 %. Если рака груди у нее нет, вероятность того, что реакция все же окажется положительной, равна 9 %. Чему равны шансы того, что у женщины с положительной пробой действительно есть рак груди?» Риск, выраженный естественной частотой: «Представим себе 100 женщин. У одной из них рак груди, и проба на наличие рака, вероятно, окажется положительной (1 х 0,9 = около 1). Из 99 женщин, не страдающих раком груди, у 9 также будет положительная реакция (99 X 0,9 = около 9). Таким образом, всего будет 10 женщин с положительной реакцией. Сколько из них в действительности страдает раком груди?» (1 из 10, или 10 %.) Еще один пример с использованием естественных частот, где риск как улучшений, так и ухудшений за 5 лет гормонозаместительной терапии легко виден из табл. 2.3 [16]. Показатели эффективности: число нуждающихся в лечении Показатели эффективности выражают результаты через количество единиц ресурса, необходимых для производства дополнительной единицы выхода [17, 18]. (Таким образом, они выражаются посредством «естественных частот», как описано выше.) Такие показатели
50 Составление статистических отчетов в медицине Таблица 2,3 Ожидаемая за 5 лет частота или «естественные частоты» улучшений и неблагоприятных событий при гормонозаместительной терапии для женщин после менопаузы"* Исходы Плацебо (n/l 000) ГЗТ (n/l 000) Разность (п/1000) Улучшения: ГЗТ снижает частоту Перелома костей 8 5-3 тазобедренного сустава Колоректального рака 8 5 -3 Ухудшения: ГЗТ увеличивает частоту Коронарного заболевания 15 19 +4 Инсульта 11 15 +4 Тромбообразования 8 18 +10 Рака груди 15 20 +5 ^ По: Schwartz L, Woloshin S, Welch HG. Putting cancer In context. J Natl Cancer Inst. 2002; 94:799-804. ГЗТ — гормонозаместительная терапия. полезны тем, что выражают результат посредством единиц, применяемых в исследовании, таких как число диагностических тестов, необходимых для выявления одного дополнительного случая заболевания, или количество денег, требуемое для предотвращения одного дополнительного случая злоупотребления лекарствами. Показатели эффективности часто используются в оценках экономического характера, но бывают также полезны и в отчетах о результатах во многих других видах исследований. Однако эти показатели указывают частоту, а не полезность, и их численное значение является функцией болезни, вмешательства или исхода (см. указание 18.22). Два наиболее известных показателя эффективности в медицине — это число пациентов, которых надо лечить, чтобы предотвратить один неблагоприятный исход (ЧПЛП [the Number Needed to Treat — NNT]), и число пациентов, подвергаемых лечению, на один вредный исход (ЧПЛВ [the Number Needed to Harm — NNH]). ЧПЛП выражает результат в единицах числа пациентов, которым, вероятно, понадобится лечение с целью избавить от одного добавочного случая заболевания или предотвратить его при исследуемом состоянии. Подобно этому ЧПЛВ выражает результат в единицах числа пациентов, которым, вероятно, понадобится лечение при каждой дополнительной неблагоприятной реакции или нежелательном побочном эффекте в связи с вмешательством. Другие показатели включают число доз лекарства, которое следует назначить ради добавочного эффекта, число предписаний, которые должны быть даны с целью получения добавочного эффекта, и т. д. ЧПЛП или ЧПЛВ дают больше информации, чем относительный риск, поскольку принимают во внимание базовую частоту исходов. Их также можно рассчитать по величинам уменьшения относительного риска и отношению шансов, равно как и из исходных табличных данных по простой формуле (см. табл. 2.1). Показатели эффективности имеют несколько недостатков. Они допускают, что лечение может иметь одинаковое уменьшение относительного риска, независимо от того, каким был начальный уровень риска — низким, средним или высоким. Это допущение не всегда может быть верным, например при трудноизлечимом заболевании на тяжелой стадии или
Отчет о показателях риска 51 когда исходная вероятность интересующих исходов болезни сильно различается в разных исследованиях [19]. Показатели эффективности всегда основываются на определенном периоде времени. Так, нельзя сравнивать ЧПЛП, которые страдают одним и тем же заболеванием, но которых лечили разными способами: путем введения одной инъекции и путем ежедневного приема препарата на протяжении нескольких недель. Также не следует сравнивать показатели эффективности для разных болезней, а именно когда различаются исходы болезни. По очевидным причинам показатель ЧПЛП для предупреждения 1 летального исхода нельзя сравнивать, например, с ЧПЛП для предупреждения 1 случая тошноты. ЧПЛП или ЧПЛВ можно сравнивать в разных исследованиях только в том случае, когда отмечаются одинаковые исходы заболевания в течение одного и того же промежутка времени. Даже разные показатели начального уровня риска в исследованиях могут затруднить сравнение ЧПЛП. @ Показатели эффективности следует сравнивать лишь тогда, когда 1) начальный уровень риска в изучаемых группах одинаков; 2) одинаковы временные промежутки и 3) одинаковы предполагаемые конечные результаты исследования. ФАКТОРЫ, ВЛИЯЮЩИЕ НА ВОСПРИЯТИЕ РИСКА Количественное описание риска — это одна проблема; интерпретация его — совершенно другая проблема. Математически риск — это просто частота. С точки зрения же психологии риск — гораздо более сложное явление: он имеет элементы неопределенности, страха, а также личных, социальных и экономических потерь. Таким образом, выбор показателя риска для отчета и то, как описаны риск и его последствия, могут сильно повлиять на то, как будет восприниматься этот риск. Восприятие показателя риска Рассмотрим человека, у которого недавно диагностирован рак простаты. О его рисках смертности (в данном примере — за 8 лет) и заболеваемости (за 1 год) раком простаты и его лечении (здесь — резекция простаты или активное выжидательное наблюдение) можно сообщать несколькими способами, вполне корректными, но выражающими разные степени риска. Сводка показателей риска для смертности и заболеваемости при раке простаты, леченном резекцией простаты или при выжидательном наблюдении (найденных в табл. 2.1 и 2.2), приведена ниже. Риск смерти • Риск смерти от рака составляет 11 % при активном выжидательном наблюдении, но лишь 7 % при резекции простаты (абсолютный риск). • Резекция простаты уменьшает абсолютный риск смерти от рака на 4 % (уменьшение абсолютного риска). • Риск смерти от рака после резекции составляет 64 % от риска при активном выжидательном наблюдении; т. е. относительный риск смерти после резекции на 36 % меньше, чем риск при активном выжидательном наблюдении (относительный риск). • Резекция простаты дает снижение относительного риска смерти от рака на 36 % (уменьшение относительного риска). • Шанс умереть от рака (по сравнению с шансом выжить) равен 0,12 при активном наблюдении, но лишь 0,08 при резекции простаты (шанс).
52 Составление статистических отчетов в медицине • Отношение шансов умереть от рака при резекции к шансам умереть при активном наблюдении равно 0,66 (отношение шансов). • Из каждых 100 пациентов с раком простаты, получавших лечение при активном наблюдении, умрут 11; из каждых 100, леченных резекцией, умрут только 7 (естественная частота). • Около 25 мужчин будут нуждаться в резекции простаты на каждый случай предотвращенной смерти от рака (ЧПЛП). Риск эректильной дисфункции • Риск эректильной дисфункции равен 80 % при резекции простаты, но лишь 45 % при активном выжидательном наблюдении (абсолютный риск). • Риск эректильной дисфункции при резекции простаты в 1,8 раза превышает риск при активном выжидательном наблюдении (отношение рисков). • Шанс эректильной дисфункции при резекции почти в 5 раз больше, чем при активном выжидательном наблюдении (шанс). • Из каждых 3 мужчин, подвергшихся резекции, 1 будет испытывать эректильную дисфункцию (ЧПЛВ). 2 J. Всегда указывайте в отчете хотя бы значения абсолютного риска улучшения и риска неблагоприятных событий для каждой группы, проходящей лечение [7,9]. Абсолютный риск события — частота, с которой оно происходит в группе, — является самой главной мерой риска. Его интерпретация выглядит особенно ясно в сравнении с отношениями шансов и уменьшениями относительного риска. Кроме того, зная абсолютный риск для каждой группы, читатели смогут рассчитать другие показатели риска (см. табл. 2.1). Выгоды, указанные в отчете как уменьшения относительного риска, часто выглядят более привлекательно, чем те же выгоды, указанные как уменьшения абсолютного риска [7, 20, 21]. Такое предпочтение, несомненно, возникает из-за того, что уменьшение относительного риска оказывается больше, чем уменьшение абсолютного риска. В вышеприведенном примере 36%-е уменьшение относительного риска смерти от рака при резекции выглядит гораздо более впечатляюще, чем 4%-е уменьшение абсолютного риска, несмотря на то что оба числа получены из одних и тех же данных. Информация об уменьшении относительного риска должна, однако, сопровождаться информацией об абсолютном риске, если при этом требуется точная интерпретация. Нам будет приятнее узнать о 25%-м уменьшении риска, если эти 25 % представляют изменение заболеваемости, скажем, с 90 до 67,5 %, нежели при уменьшении заболеваемости с 9 до 6,8 %. ^ Остерегайтесь отчетов, в которых улучшения указаны как относительные риски, а неблагоприятные события — как абсолютные риски [7]. Относительные риски создают впечатление большего улучшения (см. выше), а абсолютные риски обманчиво уменьшают частоту неблагоприятных событий. К примеру, предположим, что риск сердечного расстройства составил 11,4 % в контрольной группе и 9,3 % в группе, получающей антитромболитический препарат. Кроме того, риск угрожающего жизни кровотечения составил 2,2 % в группе, проходящей лечение, но лишь 1,8 % в контрольной группе. Препарат можно описать как дающий 18%-е умень-
Отчет о показателях риска 53 шение относительного риска сердечных расстройств [(11,4 - 9,3)/11,4 = 18,4 %] и при этом как увеличивающий (абсолютный) риск угрожающего жизни кровотечения только на 0,4 % (2,2%-1,8% = 0,4%). Однако если презентация составлена по-другому, то это же лекарство можно описать как уменьшающее риск сердечных расстройств только на 2,1 % (11,4 % - 9,3 % = 2,1 %, уменьшение абсолютного риска) и как увеличивающее относительный риск угрожающего жизни кровотечения на 8,5 %> [(10,6 - 9,7)/10,6 = 8,5 %]. Таким образом, риск этого вредного события оказывается в 4 раза больше вероятности благоприятного исхода! 2.8. Сопровождайте доверительными интервалами показатели эффективности по улучшениям и по неблагоприятным событиям. Показатели эффективности (особенно число нуждающихся в лечении и число нуждающихся в приеме лекарства) рекомендуются для практического применения в доказательной медицине в силу того, что они показывают соотношение между начальными и итоговыми клиническими результатами. Однако они являются оценками и поэтому должны сопровождаться показателем точности — 95% ДИ. 2.9. Рассматривайте благоприятные и неблагоприятные события как естественные частоты. Естественные частоты, пожалуй, самые легкие для понимания из всех показателей риска; за ними идут показатели эффективности. Шансы и отношения шансов концептуально трудны для понимания, а относительный риск может исказить интерпретацию риска, так как указывается в процентах. Легко также найти и осмыслить разности между естественными частотами, что должно помочь в принятии решений (см. табл. 2.3). ВОСПРИЯТИЕ ОПИСАНИЯ РИСКА 2.10. Корректно описывайте разность рисков или их изменения. При описании разностей или изменений рисков не забывайте о том, что «рост на столько- то» не то же самое, что «рост до стольких-то». Увеличение риска, скажем, на 30 %, должно прибавляться к начальному значению риска; следовательно, пишем: «риск увеличился на 30 %, с 10 до 40 %». Если же итоговая оценка риска составила 30 %, то «риск вырос до 30 с 10 %». Кроме того, «ниже, чем» и «выше, чем» относятся к разностям между группами, а не к кратно превосходящим значениям. 25%-й риск не означает 5-й уровень по отношению к 5%-му риску, он просто в 5 раз больше 5%-го риска. Предположим, что риск заболеть раком легких при воздействии асбеста равен 10 % (0,10) и что частота новых случаев заболевания без такого воздействия составляет 2 % (0,02). Все нижеследующие утверждения построены правильно: • «Риск заболеть раком легких в подвергшейся воздействию группе на 8 % выше, чем в не подвергшейся». 8 % — это разность абсолютных рисков. • «Риск заболеть раком легких в не подвергшейся воздействию группе на 8 % ниже, чем в подвергшейся». 8 % — это снова разность абсолютных рисков. • «Риск заболеть раком легких в подвергшейся воздействию группе в пять раз больше, чем в не подвергшейся». 10 % в пять раз больше, чем 2 %. (Обратите внимание: не выше в 5 раз, а больше; см. ниже.)
54 Составление статистических отчетов в медицине • «Риск заболеть раком легких в не подвергшейся воздействию группе составляет одну пятую риска в подвергшейся». 2 % — это одна пятая от 10 %. • «Риск заболеть раком легких в не подвергшейся воздействию группе составляет 20 % от риска в подвергшейся». 2 % — это 20 % от 10 %. • «Отсутствие воздействия асбеста может уменьшить частоту рака легких с 10 до 2 %». • «Отсутствие воздействия асбеста может уменьшить частоту рака легких на 80 %». 80%-я разность — это относительная разность между 10 и 2 %. В том же самом примере следующие утверждения сформулированы неправильно: • «Риск заболеть раком легких в подвергшейся воздействию группе в 5 раз выше, чем в не подвергшейся». На самом деле он выше только в 4 раза: 8%-я разность больше, чем 2%-я, в 4 раза, а не в 5. (Однако риск заболеть раком легких в подвергшейся воздействию группе действительно в 5 раз больше, чем в не подвергшейся. Утверждение становится некорректным из-за словосочетания «выше, чем».) • «Риск заболеть раком легких в не подвергшейся воздействию группе в 5 раз ниже, чем в подвергшейся». Риск в подвергшейся воздействию группе равен 10 %, но что означает «в 5 раз ниже, чем 10 %»? (Тем не менее риск заболеть раком легких в не подвергшейся воздействию группе действительно составляет одну пятую от риска в подвергшейся. Утверждение становится некорректным из-за словосочетания «ниже, чем».) 2.11. Помещайте риск в такой контека, где он сравнивается с другими известными и малоизвестными рисками [22]. Указание одного показателя риска в отрыве от остальных может привести к недоразумениям, зато сравнение его с другими рисками может помочь увидеть перспективу. Наиболее известным примером, по-видимому, является тот, в котором кажущийся высоким риск, связанный с полетами, сравнивается с кажущимся низким риском езды на автомобиле. На самом же деле полеты на самолетах — самый безопасный вид путешествий после полетов в космос и путешествий на поездах, если его оценивать по количеству смертей на одну милю пути; это гораздо безопаснее, чем путешествие на автомобиле. В другом примере число людей, укушенных крысами в Нью-Йорке в 1985 г., — 311 — контрастирует с числом ньюйоркцев, укушенных другими ньюйоркцами за тот же год — 1519. О рисках, связанных с лечебными процедурами, один врач говорил своим пациентам так: «Знаете, когда вы подвергаетесь наибольшему риску? Когда едете в клинику» [23]. 2.12. Проследите, каким образом описание риска сможет повлиять на его интерпретацию. «Объективного» способа описания риска не существует. По этой причине, к сожалению, читательским восприятием риска можно манипулировать путем того, каким образом описан этот риск [24-27]. Такого рода манипуляцией может быть неуловимая подмена одного показателя риска другим, как показано выше, или намеренное преувеличение последствий одной из альтернатив с умолчанием о последствиях другой. Таким образом, вопрос о преподнесении риска относится к области этики. Наряду с настоятельной рекомендацией описывать риск с как можно большей сбалансированностью, например с указанием двух и более показателей или с привлечением позитивных и негативных наглядных представлений.
Отчет о показателях риска 55 МЫ можем лишь напомнить авторам о том, что описание риска может повлиять на то, как его воспримут их читатели. Восприятие людьми величины риска определяется факторами, отличными от числовых данных [28]: • Риски, кажущиеся добровольными, более приемлемы, чем воспринимаемые как навязанные. • Риски, воспринимаемые как находящиеся под собственным контролем, более приемлемы, нежели кажущиеся контролируемыми другими. • Риски, воспринимаемые как приносящие выгоду, более приемлемы, нежели приносящие мало пользы или не приносящие ее совсем. • Риски, воспринимаемые как справедливо распределенные, более приемлемы по сравнению с распределенными несправедливо. • Риски, которые кажутся созданными природой, более приемлемы по сравнению с созданными человеком. • Риски, воспринимаемые как статистические, более приемлемы, нежели кажущиеся катастрофичными. • Риски, воспринимаемые как происходящие из заслуживающего доверия источника, более приемлемы, чем происходящие из не заслуживающего его. • Риски, которые кажутся знакомыми, более приемлемы, нежели кажущиеся необычными. • Риски, которым подвержены взрослые, более приемлемы, чем те, которым подвержены дети. «Наглядные представления» — термин, который относится к выбору опорных пункто' относительно которых преподносится результат. Разные наглядные представления могу i повлечь разные интерпретации в зависимости от того, с чем сравнивается результат [7]. Например, сжатие рамок наглядных представлений по времени может вызвать преувеличение риска через внушение чувства близкой опасности. Сравните фразу «Каждый год от рака простаты умирает около 31 000 человек» с фразой «Каждую неделю от рака простаты умирает около 600 человек» или «Каждые 17 минут от рака простаты умирает один человек». В другом примере у пациентов складываются разные суждения относительно некой процедуры в зависимости от того, имеет ли она, согласно описаниям, 68%-ю частоту успеха (позитивные наглядные представления) или 32%-ю частоту неудач (смертность в течение года, негативные наглядные представления) [24]. Подобно этому, у людей, которым была продемонстрирована кривая смертности, складывается менее благоприятное мнение о превентивной хирургии, нежели у тех, кому были показаны кривые выживания [25]. Широкое обсуждение того, каким образом способы представления информации могут влиять на осмысление текста читателями, выходит за рамки этой книги. Мы лишь хотели привлечь внимание к этим важным и часто остающимся в стороне проблемам. Прекрасный обзор по данной теме имеется в книгах «Суэюдения в условиях неопределенности: эвристика и пристрастия» [26] и «Психология вынесения суэюдений и принятия решений» [27]. Благодарности Благодарим Jessica Ancker, МРН, за тщательное рецензирование и вдумчивые комментарии к этой главе.
56 Составление статистических отчетов в медицине Литература 1. Thorton Н. Patients' understanding of risk [Editorial]. BMJ. 2003; 327:693-4. 2. Hennekens CH, BuringJE. Epidemiology in Medicine. Boston: Little, Brown; 1987. 3. Lauden L The Book of Risks: Fascinating Facts about the Chances We Take Every Day. New York: John Wiley; 1994. 4. Siegel JA, Sparks RB. The Biologic Effects of Radiation and Their Associated Risks. http://www. internaldosimetry.coni/courses/laymans/linkedpages/compare.html. Accessed 11/8/03. 5. Last J. A Dictionary of Epidemiology, 2nd ed. New York: Oxford University Press; 1988. 6. Riegelman RK, Hirsch RR Studying a Study and Testing a Test, 2nd ed. Boston: Little, Brown; 1989. 7. Gigerenzer G, Edwards A. Simple tools for understanding risks: from innumeracy to insight. BMJ. 2003;327:741-4. 8. Timmreck TC. An Introduction to Epidemiology, 2nd ed. Boston: Jones and Bartlett; 1998. 9. Wills CE, Holmes-Rovner M. Patient comprehension of information for shared treatement decision making: state of the art and future directions. Pat Ed Counsel. 2003; 50:285-90. 10. Gordis L. Epidemiology. Philadelphia: WB Saunders; 1996. 11. Rothman KJ. Epidemiology: An Introduction. New York: Oxford University Press, Inc., 2002. 12. Rothman AJ, Kiviniemi MT. Treating people with information: an analysis and review of approaches to communicating health risk information. J Natl Cancer Inst Monogr. 1999; 25:44-51. 13. Gigerenzer G, Todd PM, ABC Research Group. Simple Heuristics That Make Us Smart. New York: Oxford University Press; 1999. 14. Gigerenzer G. Adaptive Thinking: Rationality in the Real World. New York: Oxford University Press; 2000. 15. Gigerenzer G. Calculated Risks: How to Know When Numbers Deceive You. New York: Simon and Schuster; 2002. 16. Schwartz L, Woloshin S, Welch HG Putting cancer in context. J Natl Cancer Inst. 2002; 94:799-804. 17. Laupacis A, Naylor CD, Sackett DL. An assessment of clinically useful measures of the consequences of treatment. N Engl J Med. 1988; 318; 1728-33. 18. Laupacis A, Naylor CD, Sackett DL. How should the results of clinical trials be presented to clinicians? [Editorial]. ACP Journal Club. 1992; May/June:A-12^. 19. Cook RJ, Sackett DL. The number needed to treat: a clinically useful measure of treatment effect. BMJ. 1995; 310:452^. 20. Malenka DJ, Baron JA, Johansen SJW, Ross JM. The framing effect of relative and absolute risk. J Gen Intern Med. 1993; 8:543-8. 21. Них JE, Naylor DC. Communicating the benefits of chronic preventive therapy: does the format of efficacy data determine patients' acceptance of treatment? Med Decis Making. 1995; 15:152-7. 22. Wurman RS. Information Anxiety: What to Do When Information Doesn't Tell You What You Need to Know. New York: Bantam Books; 1990. 23. Edwards A. Communicating risks through analogies [Letter]. BMJ. 2003; 327:749. 24. McNeil PJ, Pauker SG, Sox HC, TverskyA. On the elicitation of preferences for alternative therapies. N Engl J Med. 1982; 306:1259-62. 25. Armstrong K, Schwarts JS, Fitzgerald G, et al. Effect of framing as gain versus loss on understanding and hypothetical treatment choices: survival and mortality curves. Med Decis Making 2002; 2:76-83. 26. Kahneman D, Slovic P, Tversky A eds. Judgment under Uncertainty: Heuristics and Biases. Cambridge: Cambridge University Press; 1982. 27. Pious S. The Psychology of Judgment and Decision Making. New York: McGraw-Hill; 1993. 28. FischhoffB, Lichtenstein S, Slovic P, KeeneyD. Acceptable Risk. Cambridge: Cambridge University Press; 1981.
Отчеты об оценках и доверительных интервалах 57 Глава 3 От свойств выборки к свойствам популяции Отчеты об оценках и доверительных интервалах Преимущество доверительных интервалов над критериями значимости состоит в том, что доверительные интервалы поднимают уровень интерпретации с качественных суэюдений о роли случая как первых (а иногда единственных) объяснительных шагов до количественной оценки выявленных биологических эффектов. К. J. Rothman{\] Большинство медико-биологических исследований основано на следующей предпосылке: все, что верно для (репрезентативной) выборки из некоторой популяции, будет более или менее истинным для всей той популяции, из которой была взята выборка. Таким образом, измерение характеристик выборки используется для оценки тех же характеристик соответствующей популяции. Точность этих оценок зависит от степени изменчивости, связанной с техникой измерения (ошибки измерения), от объема выборки и ее репрезентативности (ошибка выборки), а также от изменчивости, присущей всем биологическим характеристикам (случайная ошибка). Степень изменчивости, связанной с оценкой, может выражаться при помощи доверительного интервала. Доверительный интервал — это согласующийся с данными диапазон значений, который, как предполагается, заключает в себе действительное или «истинное» популяционное значение. Это «истинное» популяционное значение обычно неизвестно, но оно существует и может быть оценено по грамотно взятой выборке. Доверительные интервалы, окружая оценку популяционного значения, дают информацию о том, насколько хороша или точна эта оценка. Чем шире доверительный интервал, тем ниже точность оценки; более узкие интервалы указывают на более высокую точность. Если доверительный интервал сопровождает оценку значения популяционной характеристики, как описано выше, он может служить описательным целям. Однако еще более полезны доверительные интервалы тогда, когда они сопровождают заключения, например, об оценках различий между группами или об оценках изменений, произошедших в одной и той же группе с течением времени. Такие заключения часто связаны с проверкой гипотез и /7-значениями. При таком дедуктивном использовании доверительные интервалы добавляют полезную информацию к/?-значениям и помогают интерпретировать результаты. Как будет описано ниже, 95% ДИ соответствует уровню статистической значимости 0,05. Это означает, что сам интервал можно использовать для указания того, является ли, скажем, оценка изменения статистически значимой на уровне 0,05. Ширина интервала показывает еще точность оценки изменения, а точность, в свою очередь, соответствует объему выборки (наряду с другими факторами).
58 Составление статистических отчетов в медицине Наконец, р-значение часто интерпретируется либо как статистически значимое («положительный» результат), либо незначимое («отрицательный» результат). Доверительный же интервал предоставляет диапазон значений, в котором, как предполагается, находится «истинное» изменение, и позволяет читателям интерпретировать смысл изменений на каждом конце этого диапазона. Например, если один конец диапазона включает клинически важное значение, а другой — нет (гетерогенный доверительный интервал), то результаты могут рассматриваться как не позволяющие сделать вывод, а не просто «положительные» или «отрицательные». Если все значения интервала клинически значимы или клинически незначимы, т. е. если доверительный интервал гомогенный, результаты более определенные. Кроме того,р-значения безразмерны, а доверительные интервалы представлены в единицах переменной отклика, что помогает читателям в интерпретации результатов. По этим причинам доверительные интервалы следует обычно предпочитать/7-значениям. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ С ДЕДУКТИВНЫМИ ФУНКЦИЯМИ Образец презентации Сравнение средних температур в экспериментальной (п = 15) и контрольной группах (п = 15) выявило статистически значимое повышение средней температуры (СО) в экспериментальной труппе по сравнению с контрольной: 56 X (ЭХ) против 33 ''С (5 **С). Разность средних значений в группах составила 23 X (95% ДИ 19,9~26Л °С). Здесь: ■ • п-—объем выборки, заданный для каждой группы. • Распределения температуры в каждой группе описыва ются средними значениями и СО. Использование СО говорит о том, что данные распределены по нормальному закону. • 23 °С — это действительная наблюдаемая разность между средними значениями в экспериментальной и контрольной группах. Разность между получавшей и не получавшей лечение группами, которые составляют выборку, является 01(внко1/ ожидаемой разности между группами в исследуемой популяции. Будучи единственным значением, эта оценка называется точечной. • 95% ДИ — это 95%-й доверительный интертал вокруг точечной оценки. 95 % — это показатель доверия (доверительная вероятность). Доверительный интервал является мерой точности точечной оценки. Предполагается, что «истинное» значение разности между средними значениями в экспериментальной и контрольной группах попадаете этот интервал в 95 из 100 подобных испытаний. 3Л. Представьте доверительные интервалы для всех основных сравнений, независимо от того, были ли результаты сравнения позитивными (статистически значимыми) или негативными (статистически незначимыми)\ Результаты основных сравнений следует указывать всегда, значимы они статистически или нет. Настоящая наука зависит от точных ответов на правильно поставленные вопросы, ' в данном контексте понятие «положительный» и «отрицательный» результат сравнения является относительным, а не абсолютным. «Направление» результата зависит от того, как сформулированы гипотезы сравнения. Один и тот же результат сравнения можно считать как положительным, так и отрицательным, в зависимости от того, какое соотношение сравниваемых значений является, с точки зрения исследователя, желательным или неблагоприятным.
Отчеты об оценках и доверительных интервалах 59 а не только от статистически значимых результатов. Кроме того, результаты любого исследования, привлекающего выборку (в отличие от переписи, где доступны данные обо всех объектах популяции), являются оценками; они не являются «правдивыми» в абсолютном смысле слова. Поскольку оценка основывается только на одной из возможных выборок, она всегда будет варьироваться от выборки к выборке. Эта изменчивость находит отражение в точности оценки и может выразиться в виде доверительного интервала. Таким образом, доверительные интервалы, заключающие в себе популяционные оценки, придают смысл тому, насколько хороша или точна оценка. Более широкие доверительные интервалы указывают на меньшую точность, а более узкие — на большую. В медицине наиболее употребительна доверительная вероятность 95 %. (Доверительный интервал — это диапазон значений, найденный при использовании выбранной доверительной вероятности.) Но можно использовать любую доверительную вероятность': например, для оценок, основанных на малых выборках, иногда применяется 90 %. Рассмотрим в качестве примера группу пациентов, у которых снизилось диастолическое кровяное давление после 6 месяцев приема лекарства. Этот результат представлен ниже в разных вариантах, в порядке возрастания предпочтения: • Эффект от приема лекарства был статистически значимым. Такое представление не отражает величину эффекта и не показывает, является ли он клинически значимым и насколько он значим статистически. Некоторые читатели могут подумать, что «статистическая значимость» означает одобрение этого препарата по результатам исследования. • Эффект от приема лекарства, сниэюающего диастолическое кровяное давление, был статистически значимым (р < 0,05). Такое представление включает в себя направление изменения (препарат снижает кровяное давление) и тот факт, что /7-значение находится ниже критического уровня значимости, который устанавливается исследователем заранее и определяет порог статистической значимости. Таким образом, значение/? очевидно меньше 0,05, но мы не знаем, насколько меньше. Значение 0,049 технически статистически значимо, но оно настолько близко к 0,05, что его можно, пожалуй, интерпретировать так же, как и значение 0,051: свидетельство против нулевой гипотезы минимально, погранично. Кроме того, по-прежнему нет указания на клиническую эффективность препарата^ • Среднее диастолическое кровяное давление в получавшей лечение группе снизилось со 100 до 92 ммрт. ст. (р = 0,02). Такое представление, пожалуй, наиболее типично. Даны значения до и после эксперимента, но разность предстоит вычислять самим читателям. Кроме того, поскольку оцениваемый эффект — уменьшение на 8 мм рт. ст. — не сопровождается показателем точности, читатель должен догадываться о том, сколь вариабельно уменьшение давления в свете объема выборки. Если бы экспериментальная группа состояла из 5 пациентов, то следовало бы ожидать заметного варьирования уменьшения в последующих подобных испытаниях, тогда как если бы она состояла ' Разумеется, ее величина должна быть ближе к 1, а не к 0. К сожалению, в статьях и утвержденных ВАК РФ докторских диссертациях по медицине и биологии можно встретить «доверительную вероятность», равную 0,05. - Весьма важный акцент описания результатов статистического анализа. К большому сожалению, сложившийся менталитет авторов большинства отечественных журналов биомедицинской тематики игнорирует это требование. В результате читатель лишается крайне важной информации о степени надежности декларируемых автором публикации выводов. Устойчивому воспроизведению этого дефекта научных публикаций во многом способствует непонимание важности этого требования редакторами отечественных журналов и, как следствие, отсутствие в редакционных требованиях упоминаний о формате представления результатов статистического анализа.
60 Составление статистических отчетов в медицине ИЗ 500 человек, ожидаемая изменчивость была бы меньшей. Доверительный интервал дал бы этой изменчивости количественную характеристику и принял бы во внимание объем выборки. • Препарат снизил диастолическое кровяное давление в среднем на 8 мм рт. ст., со 100 до 92 мм рт. ст. (95% ДИ 2-14 мм рт. ст.) Здесь нам представлена средняя величина наблюдаемого эффекта (уменьшение в среднем на 8 мм рт. ст.), равно как и до- и послеэкспериментальные средние значения, из которых она и была рассчитана. Нам также представлен диапазон значений, который, как предполагается, заключает в себе истинное среднее значение уменьшения кровяного давления — диапазон, который мы можем принять с 95%-й вероятностью. Это означает, что если бы препарат испыты- вался в 100 выборках, подобных той, которая указана в отчете, то среднее значение уменьшения кровяного давления в 95 из них было бы, вероятно, заключено в пределах от 2 до 14 мм рт. ст. Указание в отчете доверительного интервала позволяет читателям судить о клиническом значении эффекта. Уменьшение диастолического кровяного давления всего лишь на 2 мм рт. ст. едва ли будет клинически значимым, тогда как на 14 мм рт. ст. — скорее всего, будет. Поэтому, несмотря на то что средняя разность в этом исследовании статистически значима, диапазон вероятных результатов, показанный доверительным интервалом, слишком широк, чтобы быть надежным клинически. Если в ходе исследований получен доверительный интервал, содержащий только клинически важные значения, препарат с гораздо большим основанием может оказаться клинически эффективным. Если же ни одно значение интервала не является клинически важным, препарат, скорее всего, окажется неэффективным. Доверительные интервалы могут также использоваться для оценки статистик, отличных от разностей между групповыми средними или средними изменениями в одной группе с течением времени. Примерами могут служить доли, отношения шансов, отношения рисков, отношения опасностей, коэффициенты корреляции, доли выживших, угловые коэффициенты линий регрессии, показатели эффективности (такие, как число нуждающихся в лечении), а также коэффициенты в статистической модели (как в табл. 7.1). Q В общем, если 95% ДИ для оценки разности между группами (или в той же группе с течением времени) не включает нуль, результаты статистически значимы на уровне 0,05. В диапазоне всех возможных разностей, скажем, между средними значениями всех возможных выборок из двух групп крайние 5 % (по 2,5 % на каждом конце распределения разностей) называются статистически значимыми на уровне 0,05 (при так называемом двустороннем критерии, см. таксисе указание 4.7). Срединные значения 95 % этих разностей имеют большую вероятность случайного появления, нежели разности из концов диапазона. Поэтому разность в этом диапазоне считается незначимой. Если нулевая разность входит в эти срединные 95 %, то преобладание разности то в пользу одной группы (среднее значение в группе А больше, чем среднее в группе В), то в пользу другой (среднее значение в группе А меньше, чем среднее в группе В) можно объяснить случайными причинами. Только когда нулевое различие находится вне 95% ДИ для среднего, можно в 95 % случаев утверждать об отличии одной группы против другой. Например:
Отчеты об оценках и доверительных интервалах 61 • Разность в средних значениях измерений функции легких между двумя группами составила 0,51 л/мин (95% ДИ 0,23-0,79 л/мин). Здесь разность статистически значима на уровне 0,05. Нуль не входит в срединные 95 % значений, в которых вероятно нахождение наблюдаемой разности (оценки); следовательно, он должен находиться в оставшихся 5 %. Иными словами, вероятность получить разность в О л/мин меньше, чем 5 раз из 100. • Разность в средних значениях измерений функции легких между двумя группами составила 0,12 л/мин (95% ДИ от -0,16 до +0,40 л/мин). Здесь доверительный интервал включает нуль, поэтому разность не является статистически значимой на уровне 0,05. Иными словами, вероятность получить разность в О л/мин больше, чем 5 раз из 100. Щ В общем, если при сравнении двух групп 95% ДИ для отношения шансов или отношения рисков не включает в себя 1, результаты статистически значимы на уровне 0,05. Отношение шансов, большее 1, указывает на повышенный риск в одной группе по сравнению с другой; отношение, меньшее 1, указывает на пониженный риск, отношение, равное 1, указывает на отсутствие как повышенного, так и пониженного риска. Только когда отношение шансов, равное 1, находится вне 95% ДИ, риск будет повышенным (или пониженным) в 95 % случаев. (См. такэюе гл.2.) • Предположим, что отношение шансов частоты новых случаев инсульта у курящих и некурящих равно 4,2 (95% ДИ 1,32-13,33). Это означает, что в среднем у курильщиков инсульт возникает в 4,2 раза чаще, чем у некурящих. Отношение шансов, равное 1, означающее одинаковость риска для курящих и некурящих, в доверительном интервале отсутствует. Поэтому в предположении, что риски групп одинаковы (что верна нулевая гипотеза), ожидать, что отношение шансов случайно примет значение 4,2 или выше, следует менее чем 5 раз из 100; значение/? меньше 0,05. • Предположим теперь, что отношение шансов равно 4,2 (95% ДИ 0,92-18,63). Здесь доверительный интервал уже включает 1, поэтому различие шансов не является статистически значимым на уровне 0,05. 3.2. Указывайте верхнюю и нижнюю границы доверительного интервала. Символ «±» используйте только в целях экономии места в таблицах и только в случае симметричности доверительного интервала. Указание верхней и нижней границ доверительного интервала избавляет читателей от необходимости вычислять его значения. Кроме того, иногда доверительные интервалы бывают несимметричными' и не могут быть корректно заданы при помощи символа «±». Например, доверительный интервал из вышеприведенного примера от 0,92 до 18,63 не является симметричным относительно оценки отношения шансов, равной 4,2. ПРИМЕР • Неудачное излоэюение. В нашем исследовании разность составила 28 мг/дл (95%ДИ = ±3,2мг/дл). • Рекомендуемое излоэюение. В нашем исследовании разность составила 28 мг/дл (95% ДИ 24,8-31,2 мг/дл). ' в отличие от среднего, имеющего симметричное распределение, многие другие статистики имеют несимметричное распределение, например дисперсия, коэффициент корреляции, отношение шансов и т.д.
62 Составление статистических отчетов в медицине ^ Частым источником недоразумений в представлении данных является неопределенность в том, относится ли символ «±» в тексте или столбцах погрешностей на графиках (см. рис. 21.4) к СО, стандартным ошибкам (обычно СОС) или95%ДИ': • Стандартное отклонение является описательной статистикой, которая указывает разброс в значениях, взятых из выборки. {См. такэюеуказание 1.8.) • Стандартная ошибка среднего — это дедуктивная статистика, которая показывает точность оценки характеристики популяции; по сути, это 68% ДИ. • 95% ДИ — это предпочтительная дедуктивная статистика, показывающая точность оценки популяционной характеристики. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ С ОПИСАТЕЛЬНЫМИ ФУНКЦИЯМИ 33* Указывайте (95%-е) доверительные интервалы для всех наиболее важных оценок популяционных характеристик. Доверительные интервалы могут сопровождать описательные статистики, используемые для оценки характеристик популяции. Если эти оценки являются частью основных результатов исследования, их следует представлять вместе с доверительными интервалами для указания точности. Примерами характеристик популяции, представляющих особый интерес, могут служить средние значения, медианы и доли. Образец презентации Среднее значение уровня инсулиноподобного фактора роста I (IGF4) в сыворотке у 138 пациентов с остеопорозом составило 300 нг/мл (95% ДИ 273-327 нг/мл). Здесь: • Исследователи оценили среднее значение уровня IGF-I сыворотки для генеральной совокупности пациентов с остеопорозом по выборке из 138 пациентов. • 300 нг/мл -— это среднее значение уровня IGF-I для данной выборки; в то же время это точечная оценка среднего значения уровня IGF-I для популяции. • 95% ДИ -— область значений от 273 до 327 нг/мл, является показателем точности оценки. Он говорит о том, что «истинное» значение популяционного среднего, как ожидается, находится в пределах этого диапазона в 95 из 100 подобных выборок. ^ Не используйте стандартную ошибку среднего в качестве доверительного интервала [2-7]. Значения, определенные посредством среднего плюс-минус СОС, фактически образуют приблизительно 68% ДИ. Большинство специалистов предпочитают более консервативный 95% ДИ (интервал, включающий среднее значение плюс-минус примерно двукратная СОС) или 99% ДИ (среднее значение плюс- минус примерно трехкратная СОС). Основания для этого таковы. 50% ДИ показывает, что примерно в 50 из 100 исследований будет получен результат, лежащий вне доверительного интервала, т. е. он будет ничем 1 Отсутствие таких уточнений также характерно и для больигинства публикаций отечественных журналов биомедицинской тематики.
Отчеты об оценках и доверительных интервалах 63 не лучше случайного. При 68% ДИ (среднее значение плюс-минус одна СОС) примерно в 32 из 100 таких же исследований будет, вероятно, получено среднее значение, лежащее вне доверительного интервала, тогда как при 95% ДИ — только в 5 из 100 исследований. 68% ДИ слишком близок к случайному 50%-му для консервативных нужд медицины. Использование СОС в качестве описательной статистики (вместо СО) или для построения доверительного интервала приводит к недоразумениям. Щ Широкие доверительные интервалы могут свести к нулю всю полезность оценки [8]. Оценка средней продолжительности человеческой жизни в 50 лет с 95% ДИ от 5 до 95 лет возможна, но степень точности слишком низка, чтобы считать такую оценку полезной. Увеличение объема выборки должно сузить доверительный интервал и увеличить точность оценки. Литература 1. Rothman KJ. Significance questing [Editorial]. Ann Intern Med. 1986; 105:445-7. 2. Gardner MJ, Altman D. Confidence intervals rather than P values: estimation rather than hypothesis testing. BMJ. 1986; 292:746-50. 3. Murray GD. Statistical guidelines for the British Journal of Surgery. Br J Surg. 1991; 78:782-4. 4. WulffHR. Confidence Limits in evaluating controlled therapeutic trials [Letter]. Lancet. 1973; 2:969-70. 5. Bulpitt CJ. Confidence intervals. Lancet. 1987; 28:494-7. 6. Altman DG, Gore SM, Gardner MJ, Pocock SJ. Statistical guidelines for contributors to medical journals. BMJ. 1983; 286:1489-93. 7. Feinstein AR. Clinical biostatistics XXXVII. Demeaned errors, confidence games, nonplussed minuses, inefficient coefficients, and other statistical disruptions of scientific communication. Clin Pharmacol Ther. 1976;20:617-31. 8. Gore SM, Jones IG, Rytter EC. Misuse of statistical methods: critical assessment of articles in BMJ from January to March 1976. BMJ. 1977; 1:85-7.
64 Составление статистических отчетов в медицине Глава 4 Сравнение групп при помощи р-значений Отчеты о проверках ^ипотез Мы рассматриваем критерии значимости скорее как методы для составления отчетов, а не как методы принятия решений, поскольку медицинская политика должна основываться далеко не на одних лишь результатах проверки значимости. F. MosTELLER, J. p. Gilbert, В. McPeek [1] Несмотря на то что термин «статистически значимый» распространен в медицинской литературе достаточно широко, его смысл понимается ошибочно удивительно часто. Вероятность или уровень значимости менее чем 0,05 часто ошибочно рассматривается как «доказательство» эффективности лечения, а значения выше 0,05 часто трактуются как «доказательство» обратного. На самом же деле уровень значимости ничего не доказывает'. Значения/7, предложенные в 1920 г. сэром Рональдом Фишером в качестве показателя убедительности доказательства, входят в раздел статистики, известный под названием частотного подхода к статистике (в противоположность байесовскому подходу; см. гл. И). Частью частотного подхода является также метод выбора гипотез, известный под названием проверки гипотез, разработанный математиками Ежи Нейманом и Эгоном Пирсоном в 1930-е гг. р-значения и проверка гипотез — фактически весьма различные концепции, но они часто — и ошибочно — рассматриваются как части согласованного подхода к статистическим выводам [2]. На самом деле частотный подход широко применяется в биометрических исследованиях. При всей элегантности стоящей за ним логики он не является интуитивно очевидным и поэтому столь часто служит источником недоразумений. В этой главе мы обращаемся к проверке гипотез, р-значениям, а также некоторым смежным вопросам и описываем, каким (и почему именно таким) образом эти понятия должны отражаться в отчетах. ' Здесь имеется в виду тот факт, что любые заключения, полученные с помощью методов статистики, нося! вероятностный характер. То есть они не абсолютны и тем отличаются, например, от а]пебраических доказательств. С непониманием этого важнейшего свойства статистической методологии связан феномен ссматичс- ской глобализации научности применительно к понятию «достоверность». В результате во многих огечестнснтих медицинских публикациях вместо термина «статистическая значимость» (significance) очень часто используется термин-неологизм «статистическая достоверность» (чаще без прилагательного «статистическая»). Более 1юдроб- но об этом читатели могут прочитать в статье Н. А. Зорина «О неправильном употреблении термина "достоверность" в российских научных психиатрических и общемедицинских статьях» по адресу: http://vvwvv.biometrica. tomsk.ru/letl.htm.
Отчеты о проверках гипотез 65 ОБЩИЕ СВЕДЕНИЯ ПО МЕТОДАМ ПРОВЕРКИ ГИПОТЕЗ Проверка гипотез рассматривается в контексте исключения случайных факторов в объяснении результатов исследования. Если случай не дает правдоподобного объяснения результата, то более вероятными становятся другие объяснения, возможно биологические. Чтобы проверить, насколько вероятны объяснения случайными факторами, мы принимаем так называемую нулевую гипотезу отсутствия различия. Нулевая гипотеза — это предположение, что всякое различие между группами является делом случая, т. е. что вмешательство не дает никакого эффекта. Количественную характеристику случая как объяснения явлений при нулевой гипотезе предоставляет теория вероятностей. Этой характеристикой является /7-значение. Чем оно выше, тем убедительнее свидетельство в поддержку нулевой гипотезы, согласно которой различие объясняется случайными причинами. Чем меньше р-значение, тем меньше свидетельств в пользу нулевой гипотезы. Если/^-значение очень мало (обычно меньше, чем 0,05), нулевая гипотеза отвергается, а различие приписывается вмешательству. Допустим, что мы исследуем болеутоляющее действие препарата. По окончании эксперимента мы сравниваем средние значения индексов болевых ощущений в экспериментальной и контрольной группах. Первый вопрос, на который мы должны ответить, относится в действительности к области медицины: достаточно ли велико различие между этими средними, чтобы быть клинически важным? • Чтобы определить, является ли различие средних значений достаточно большим, чтобы быть клинически важным, в отчетах, как пояснено в гл. 3, следует указывать как значения средних в каждой группе, так и разность между ними (ее оценку), что помогает узнать насколько велико это различие. • Если различие между средними достаточно велико, чтобы быть клинически важным, мы обязаны спросить, является ли это различие результатом применения препарата или обусловлено случайными причинами. Этот вопрос относится к сфере теории вероятностей и затрагивает такие понятия, как уровень значимости альфа, или вероятность ошибки первого рода. Проверка гипотез может помочь найти ответ на этот вопрос. • Если различие между средними не так велико, чтобы быть клинически важным, мы должны выяснить, чем вызвано сходство между группами — применением неэффективного препарата или же недостаточным количеством данных. Этот вопрос также относится к теории вероятностей и затрагивает понятия бета, или вероятности ошибки второго рода. Ответ на него может быть найден благодаря знанию статистической мощности анализа. Рассматривая эти вопросы по одному, предположим, что различие между группами клинически важно. Если мы приписываем это различие действию препарата, а случайность оказывается более правдоподобным объяснением, то тем самым мы совершаем ошибку первого рода. Альфа (а) — это вероятность допустить ошибку первого рода; это готовность ошибочно приписать различие между группами действию препарата, когда более правдоподобным объяснением является случай. Для альфа обычно устанавливается значение 0,05, что соответствует готовности совершить ошибку первого рода 5 раз в 100 подобных сравнениях.
66 Составление статистических отчетов в медицине Образец презентации Мы провели исследование, в котором с 90%-й мощностью распознается разность в 4 градуса между двумя группами по величине сгиба локтевого сустава. Критический уровень значимости был установлен в 0,05. У пациентов, получавших электростимуляцию (п = 26), величина локтевого сгиба увеличилась в среднем на 16 градусов при СО 4,5, тогда как у пациентов в контрольной группе (п = 25) величина сгиба увеличилась в среднем только на 6,5 градуса при СО 3,4. Эта 9,5-градусная разность между средними оказалась статистически значимой (95% ДИ 7,23-11,73 градуса; двусторонний критерий Стьюдента, t = 8,43; количество степеней свободы 49; р < 0,001). Здесь: • 4 градуса устанавливается как минимальная считающаяся клинически важной разность в увеличении локтевого сгиба, • 90 % — статистическая мощность критерия. Это означает, что при заданном типе собранных данных и их количестве различие в сгибе локтя по крайней мере на 4 градуса распознается с вероятностью 90 %, если такое различие действительно существует. • 0,05 — критический уровень значимости (альфа); порог статистической значимости, устанавливаемый исследователями. • п обозначает количество людей в каждой группе. • 9,5 градуса —- фактическая разность между средними значениями в группах. • 95% ДИ приведен для указания точности оценки разности в 9,5 градуса. Это означает 95%-ю уверенность исследователей в том, что интервал от 7,23 до 11,73 градуса является диапазоном вероятных значений для истинного значения разности, связанного с этими данными. • Для сравнения групп был применен двусторонний вариант критерия Стьюдента (а не односторонний). В критерии Стьюдента используется Г-статистика и f-распределение. Значение статистики критерия равно 8,43. (Информация о применении одно- или двустороннего критерия обычно приводится в подразделе «Статистические методы» раздела «Материалы и методы», и повторять ее для каждого результата нет необходимости.) • Р"3начение— это вероятность получить крайнее или превосходящее крайнее значение, по сравнению с наблюдаемым в предположении, что на самом деле различия между группами нет. Малое р-значение указывает на достаточные основания (р < 0,05) отвергнуть нулевую гипотезу об отсутствии различий. Как отмечалось в гл. 3, при составлении отчетов о результатах исследования доверительные интервалы предпочтительнее р-значений. В этом примере мы привели и то, и другое. Это приемлемо, хотя и излишне. Значение р, найденное из вычислений по данным исследования, указывает на вероятность того, что случайность породила бы столь эюе большое или еще большее различие по сравнению с найденным в ходе исследования, если верна нулевая гипотеза. Чем меньше р-значение как мера доверия к нулевой гипотезе, тем менее вероятна сама нулевая гипотеза. Если/7-значение меньше критического уровня значимости (скажем, 0,05), то нулевая гипотеза отвергается, а различие, по определению, объявляется «статистически значимым». Теперь предположим, что различие слишком мало, чтобы быть клинически важным. Если мы считаем, что отсутствие различий вызвано неэффективностью препарата, но более правдивым объяснением оказалось недостаточное количество данных, мы совершаем ошибку второго рода. Бета ф) — это вероятность совершить ошибку второго рода; готовность неправомерно приписать сходство групп неэффективности препарата, тогда как
Отчеты о проверках гипотез 67 более правдоподобным объяснением является недостаточное количество данных. Уровень бета обычно устанавливается 0,1 или 0,2, что соответствует готовности совершить ошибку второго рода 10 или 20 раз при 100 сравнениях. Однако бета обычно выражается посредством статистической мощности, которая вычисляется по формуле 1 - /?. Таким образом, типичной является мощность 80 или 90 %. Статистическая мощность важна при определении объема выборки для исследования или, как в нижеприведенном примере, при определении того, сколько нужно собрать данных для обеспечения «достаточного доказательства». При расчете объема выборки учитывается несколько факторов, включая значения ошибок первого и второго рода; однако прежде всего нужно понять, какую величину различия требуется распознать. Большие различия, если они имеют место, заметны уже в малых выборках, тогда как малые для своего распознавания могут потребовать весьма большие объемы выборок. Расчет мощности утверждает, что исследование с данным объемом выборки имеет, к примеру, 80%-й шанс распознать 10%-е различие, если такое различие обнаруэюивается. Иными словами, в 100 выборках из одной и той же генеральной совокупности 10%-е различие, если оно имеет место, будет, вероятно, найдено в 80 из этих выборок. Статистическая мощность особенно важна тогда, когда результаты исследования не являются статистически значимыми. В этом случае исследования с адекватной статистической мощностью могут интерпретироваться как дающие отрицательный результат: группы в действительности являются схожими, если не эквивалентными. Однако в исследованиях с неадекватной мощностью результаты не являются отрицательными, по ним просто нельзя сделать никаких заключений. Собрано недостаточно данных для того, чтобы говорить об отсутствии клинически важных различий. УКАЗАНИЯ ПО ОФОРМЛЕНИЮ ВВЕДЕНИЯ 4.1. Четко формулируйте проверяемую гипотезу. Гипотеза — это проверяемое утверждение о предполагаемой связи между двумя или более переменными. На практике гипотеза может, например, утверждать, что некий препарат, по мнению исследователя, заметно уменьшает болевые ощущения в группе пациентов с данным диагнозом. В ходе формальной проверки гипотезы формулируются две гипотезы: нулевая и альтернативная. Нулевая гипотеза обычно противоположна тому, в чем желает убедиться исследователь. К примеру, распространенный тип нулевой гипотезы состоит в том, что средние отклики в группах будут одинаковы, т. е. что препарат не оказывает существенного болеутоляющего действия. Альтернативная гипотеза обычно описывает то, в чем желает убедиться исследователь: препарат будет заметно уменьшать боль. Иными словами, альтернативная гипотеза состоит в том, что средние отклики в группах не будут одинаковыми. Мнение в поддержку альтернативной гипотезы или против нее складывается прежде всего из определения силы свидетельства данных в пользу нулевой гипотезы. Такие свидетельства предоставляет р-значение. Значение р — это вероятность получить крайнее значение результата или превосходящее его по сравнению с данными в предположении, что препарат фактически не воздействует на боль. Чем меньше /7-значение, тем сильнее свидетельство против нулевой гипотезы. Нулевая гипотеза в большинстве научных отчетов о проверке гипотез не указывается; явно формулируется только альтернативная гипотеза.
68 Составление статистических отчетов в медицине ПРИМЕР • Нулевая гипотеза: Средние значения изменения в силе бицепсов у мальчиков, вовлеченных в программу физических упражнений и не вовлеченных в нее, не будут существенно отличаться через 6 недель. • Альтернативная гипотеза: Через 6 недель тренировок среднее значение изменения в силе бицепсов у мальчиков, вовлеченных в программу физического развития, будет выше среднего значения в силе бицепсов у мальчиков, не вовлеченных в эту программу. УКАЗАНИЯ ОТНОСИТЕЛЬНО МЕТОДОВ Перечисленные ниже указания касаются материалов, которые в статьях обычно отражаются в подразделе «Статистические методы» раздела «Материалы и методы». 4.2. Указывайте минимальную разность, которая при сравнении групп считается клинически значимой. Клинически важное значение разности, если оно указано заранее, удерживает клинические вопросы в фокусе анализа и помогает формулировать задачи, стоящие перед статистикой в будущем. Минимальная разность является также составляющей расчетов статистической мощности {см. такэюе указание 4.4), и это помогает определить, насколько велика должна быть выборка. 4.3. Указывайте уровень альфа (а): вероятность, ниже которой решение рассматривается как «статистически значимое». Уровень альфа — это вероятность, которую исследователь выбирает в качестве порога статистической значимости. Ее значение может быть произвольным, но по традиции устанавливается равным 0,05, 0,01 или, что менее общепринято, 0,001'. (Большие значения альфа, такие как 0,1, иногда используются исследователями в разведочном анализе, чтобы выделить намечающиеся взаимосвязи для дальнейшего изучения в многовариантных или многомерных моделях.) В любом случае результаты с полученными р-значениями, меньшими, чем альфа, являются по определению «статистически значимыми». Уровень значимости альфа фактически является вероятностью совершения ошибки первого рода, или, по сути, вероятности ошибочного заключения о том, что различие между группами возникло в результате вмешательства. 4.4. Детально описывайте априорные вычисления мощности, если они пригодны для первоначальных сравнений. Статистическая мощность показывает способность исследования выявить различие определенной величины, если это различие действительно имеет место. Если не обнаруживается никакой статистически значимой разности, то это возможно либо потому, что ее действительно нет, либо из-за отсутствия достаточного количества данных для ее выявления (т. е., возможно, вследствие слишком малого объема выборки). Для определения необходи- ' В отечественных публикациях иногда можно встретить абсурдные по своей сути искажения самого смысла понятия «уровень статистической значимости». Вот, к примеру, описание из статьи «Анализ взаимосвязи полиморфизма С677Т гена метилентетрагидрофолатредуктазы с клиническими проявлениями атеросклероза» (Генетика. Вып. 9. 2000. С. 1269-1273): «Для всех статистических тестов в качестве критерия статистической достоверности рассматривался уровень значимости более 0,95».
Отчеты о проверках гипотез 69 мого для исследования объема выборки мощность должна быть рассчитана до эксперимента. Эти вычисления должны быть отражены в разделе «Материалы и методы». В табл. 4.1 приведены факторы, влияющие на статистическую мощность для парного /-критерия. Большинство из них привлекается к вычислениям мощности для других статистических критериев. Статистическая мощность равна 1 - бета, где бета ((3) — вероятность допустить ошибку второго рода: ошибочно заключить, что между группами нет различий. Бета — это значение вероятности, заключенное в пределах от О до 1, обычно 0,1 (для 90%-й мощности) или 0,2 (для 80%-й мощности). Например, исследование длины кости, в котором бета установлена равной 0,2 для 15-миллиметровой разности при лечебном воздействии, утверждает, что исследователи желают принять 20%-й шанс упустить 15-миллиметровую разницу между экспериментальной и контрольной группой при данном плане исследования. ПРИМЕР • Если оба уровня значимости альфа и бета установлены равными 5 % (т. е. меньшее, чем 0,05,/7-значение рассматривается как значимое, а анализ имеет 95%-ю мощность), а частота откликов на лекарство в контрольной группе равна 50 %, то при использовании /-критерия, для того чтобы распознать 5%-е улучшение в экспериментальной группе, понадобится 5178 человек; для распознания 10%-го улучшения понадобится 1282 человека, и лишь 190 человек понадобится для того, чтобы распознать 25%-е улучшение [3, 4]. ф Статистическая мощность критериев при малых выборках часто бывает неприемлемо низкой [5-7]. Таблица 4.1 Переменные, входящие в вычисления статистической мощности парного ^критерия, и их влияние на желаемый объем выборки {п) Переменная'* Двусторонний критерий Односторонний критерий Прирост А Прирост о Прирост а Уменьшение Р А 5 5 10 5 5 5 о 20 20 20 25 20 20 а 0,05 0,05 0,05 0,05 0,01 0,05 1-Р 0,8 0,8 0,8 0,8 0,8 0,9 л 127 100 25 155 160 138 ^ Значения, выделенные полужирным, отличаются от значений, приведенных в первой линии, и показывают, как изменение каждой переменной влияет на объем выборки. А — величина распознаваемой разности или изменения; в идеале — наименьшая считающаяся клинически важной разность. Устанавливается исследователем. 0 —СО; итоговое значение изменчивости разностей парных наблюдений; биологическая функция. а — пороговое значение, ниже которого результаты объявляются статистически значимыми. Устанавливается исследователем. 1 - Р — статистическая мощность, устанавливаемая исследователем, п — объем выборки.
70 Составление статистических отчетов в медицине 4.5. Для каждого сравнения четко указывайте примененный критерий\ Статистических критериев очень много, и некоторые из них пригодны для рассматриваемых сравнений. Однако каждый критерий базируется на нескольких допущениях, поэтому для каждого вида анализа важно указывать, какой именно был применен критерий. Критерий часто бывает невозможно подобрать до тех пор, пока не собраны данные, поскольку данные определяют принятые допущения (обычно в зависимости от того, нормально ли распределены эти данные, а иногда от того, следует ли менять уровень измерений). Таким образом, критерий следует указывать в подразделе «Статистические методы» раздела «Материалы и методы», но он может также указываться в разделе «Результаты». Критерии, связанные с /^-значениями, данными в таблицах, можно идентифицировать при помощи примечаний. Табл. 4.2 перечисляет несколько обычных статистических критериев, а также обстоятельств, в которых они могут применяться. @ Используя путеводитель по статистическим терминам и критериям (с. 373), убедитесь, что критерий действительно подходит к представляемым данным. Таблица 4,2 Наиболее употребительные статистические критерии для сравнения групп независимых и парных выборок^ Число сравниваемых групп Независимые выборки Парные выборки 2 и более Группы номинальных данных Критерий хи-квадрат Группы порядковых данных Критерий МакНемара'^ 3 и более Критерий ранговых сумм Уилкоксона или и-критерий Манна—Уитни'' Критерий Краскела—Уоллеса'' Критерий знаков Уилкоксона^' 3 и более Однофакторный дисперсионный анализ Фридмана'' Группы непрерывных данных Критерий Стьюдента^ или критерий ранговых сумм Уилкоксона, или U-критерий Манна—Уитни'' Дисперсионный анализ (ANOVA или F-test)*' или критерий Краскела— Уоллиса^' Парный f-критерий^ или критерий знаков Уилкоксона'' ANOVA повторных измерений'' или однофакторный дисперсионный анализ Фридмана^' ^ Могут применяться и другие критерии. " Непараметрический критерий. ^ Параметрический критерий. ' В отечественных публикациях данная рекомендация игнорируется более чем в половине случаев. В лучшем случае авторы в разделе «Материалы и методы» приведут небольшой список использованных статистических критериев, не утруждая себя в дальнейшем конкретизировать, в каждом конкретном случае, каким именно критерием получен тот или иной результат. Иногда это делается специально, с целью придать весомость своим результатам. И лишь опытный статистик, имеющий большой опыт практического анализа медицинских данных, по деталям может обнаружить камуфляжный характер такого перечисления.
Отчеты о проверках гипотез 71 4.6. Укажите ссылку для сложных или малораспространенных аатистических критериев, используемых при анализе данных. Если другим читателям потребуется перепроверить ваш анализ, им нужно будет знать, каким образом были получены результаты. Сложные или малораспространенные статистические критерии имеют право на существование, но необходимо, чтобы читатели сами могли узнать, с чем они имеют дело. @ Ссылайтесь на доступные, современные источники, особенно если оригинальное описание критерия устарело или малодоступно [8, 9]. 4 J. Если требуется, отметьте одно- или двусторонность критерия. Обосновывайте применение односторонних критериев. Двусторонний критерий (в основе которого лежит симметричное распределение вероятностей) делит уровень значимости, обычно 0,05 (5 %), на две части: 2,5 % для случаев, при которых граничное значение в группе А выше, чем в группе В, и 2,5 % для случаев, при которых граничное значение в группе А меньше, чем в группе В. Это означает, что если вмешательство может улучшить или ухудшить состояние в группе А по сравнению с группой В, то двусторонний критерий принимает во внимание обе возможности. В то же время односторонний критерий помещает те же 5 % только к одному краю (или направлению), если предполагается, что направленность результата известна заранее. Двусторонние критерии требуют большего значения разности для получения того же уровня статистической значимости (того же /?-значения), что и односторонние. Их следует использовать тогда, когда тип результата неизвестен (т. е. если неизвестно, какими будут результаты вмешательства — благоприятными или нет). Двусторонние критерии более консервативны и по этой причине более предпочтительны. Односторонние критерии используются тогда, когда тип результата (необязательно величина) заранее известен, как это часто и бывает на практике. При использовании односторонних критериев исследователям следует это особо оговорить, а также представить доказательства того, что результат будет именно тот, о котором идет речь. 4.8. Указывайте, предназначен ли критерий для непарных или парных данных (т. е. для независимых или спаренных выборок). При анализе данных из парных выборок используются другие статистические критерии, нежели для данных из независимых выборок (табл. 4.2). При вычислении /^-значений парные статистические критерии рассматривают разности в каждой паре наблюдений, в отличие от рассмотрения только разностей между групповыми средними. ПРИМЕР • В ходе исследования результатов кампании по борьбе с курением в двух школах сравнивались две независимых выборки, по одной из каждой школы. В другом исследовании, которое сравнивает осведомленность каждого учащегося о последствиях курения до и после кампании в одной из школ, рассматривается одна выборка парных данных; а именно одни и те же студенты опрашиваются дважды, а данные представляют собой пары ответов на вопросы теста. ^ Используя путеводитель по статистическим терминам и критериям (с. 373), убедитесь, что критерий действительно подходит к представляемым данным.
72 Составление статистических отчетов в медицине 4.9. Дайте ссылку на статистические пакеты или программы, используемые при анализе данных^ Точное указание на используемые в статистическом анализе прикладные пакеты важно потому, что коммерческие пакеты обычно поддерживаются и обновляются, а программы, разрабатываемые частным образом, — не всегда. Кроме того, при вычислении одних и тех же статистик не все статистические прикладные программы используют одинаковые алгоритмы или опции по умолчанию. Таким образом, результаты могут слегка изменяться от пакета к пакету и от алгоритма к алгоритму. ПРИМЕР • К наиболее употребительным прикладным пакетам статистики относятся SAS (Statistical Analysis Systems), BMDP, Splus, SPSS (Statistical Package for the Social Sciences), StatXact, StatView, StatSoft, InStat, Statistical Navigator, SysStat и Minitab. УКАЗАНИЯ ПО ОФОРМЛЕНИЮ РЕЗУЛЬТАТОВ 4Л О, В первую очередь расскажите об основных результатах анализа. в фокусе научной публикации должны находиться основные сравнительные результаты, послужившие побудительным мотивом к работе. Статистический анализ может и должен носить исследовательский характер и объяснять явления по существу, но эти вторичные исследования никогда не должны затенять основные результаты. Это означает, что не следует пренебрегать не имеющими твердой основы (статистически незначимые) основными анализами ради более заманчивых (статистически значимых) вторичных. ^ Остерегайтесь избирательной отчетности. Избирательная отчетность — это практика представления только желаемых результатов исследования. В качестве такого рода находок обычно выбираются статистически значимые результаты. В отчете следует отражать результаты всех анализов, имеющих отношение к клинике, независимо от того, являются ли они статистически значимыми или нет. Подавлять противоречащие данные неэтично. Q Используя руководство по статистическим терминам и критериям, убедитесь, что отчет о применении критерия составлен надлежащим образом. ^ В отсутствие утверждения о том, что результаты получены из вторичного анализа, единственная защита от избирательной отчетности состоит в попытке выяснить, имеют ли описанные взаимоотношения биологический смысл. 4.11. Отмечайте все выбросы и то, как они рассматриваются в анализе. Выбросы — это экстремальные значения, которые могут иметь место по ряду законных причин. Однако, будучи экстремальными, они могут оказать непропорциональное воздействие на некоторые виды статистического анализа. Выбросы нельзя просто проигнорировать как доставляющие неудобство; их нужно изучить и должным образом ввести в анализ. ' Для уточнения отдельных важных деталей выполненного статистического анализа иногда необходимо указывать не только название статистического пакета, но и название использованных процедур и уточняющих опций, определяющих алгоритмы анализа. Эту информацию желательно приводить для пакетов, имеющих свой внутренний язык программирования, к примеру для пакета SAS или SPSS.
Отчеты о проверках гипотез 73 Иногда бывает уместно отразить результаты как с учетом выбросов, так и без их учета, с тем чтобы определить их воздействие на результаты. 4.12. Подтверждайте обоснованность допущений. Большинство статистических критериев основано на ряде допущений о данных. Если эти допущения вызывают подозрения, результаты анализов также будут внушать подозрения. Все, что требуется добавить, — это утверждение об обоснованности допущений. Обычно предполагается, что данные распределены по приблизительно нормальному закону, что позволяет применять «параметрические» критерии. Но это условие часто нарушается. Если распределение данных заметно отличается от нормального, его можно привести ближе к нормальному виду с помощью математического преобразования'. Другой путь — использование непараметрического критерия (который не требует от данных нормального распределения). Если данные подверглись преобразованию или обработаны при помощи непараметрического критерия, то об этом нужно сказать в отчете. 4.13« Указывайте абсолютные изменения или разности для всех основных крайних значений. Избежать недоразумений, возникающих при выражении различий в процентах или в виде относительных изменений, можно путем указания абсолютных или действительных изменений в группах. К примеру, если уровень холестерина сыворотки у пациента оказался в конечном итоге равным 175 мг/дл при начальном уровне в 220 мг/дл, то абсолютная разность равна 45 мг/дл. Относительная разность — 20%-е уменьшение в уровне холестерина [([175 - 220]/220) х 100 %] — может еще быть описана фразой «на одну пятую ниже начального значения», что, несмотря на точность, не включает в себя тот факт, что действительное наблюдаемое изменение составило 45 мг/дл. Если в исследование включены две группы, то будет полезно отразить в отчете различия или изменения в группах наряду с групповыми средними или долями. Q Для непрерывных переменных и независимых групп указывайте групповые медианы (или, если удобно, средние) и абсолютные значения разности между групповыми медианами (или средними). Q Для непрерывных переменных и парных групп указывайте групповые медианы (или, если удобно, средние) и медиану (или среднее) разностей между компонентами каждой пары. Q Для категориальных переменных и независимых групп указывайте групповые доли и абсолютную разность между долями. 0 Для категориальных переменных и парных групп указывайте групповые доли. ' При использовании таких преобразований важно помнить, что результат проверки статистической гипотезы, полученный для преобразованных данных, нельзя автоматически переносить на непреобразованные данные. К примеру, сравниваюся генеральные, популяционные средние для преобразованного артериального давления в группах до и после лечения. Преобразование заключается в извлечении квадратного корня из давления, выраженного в мм рт. ст. При использовании параметрического критерия получен достигнутый уровень статистической значимости р = 0,012. При критическом значении уровня значимости р = 0,05 следует вывод о различии сравниваемых популяционных средних. Однако этот вывод нельзя автоматически перенести на исходные величины давления, выраженные в мм рт. ст.
74 Составление статистических отчетов в медицине 4.14. Указывайте (95%-е) доверительные интервалы для изменений или разно- аей по основным крайним значениям. Различие между экспериментальной и контрольной группой или между исходными и конечными показателями в одной и той же группе является, в сущности, оценкой различия, которого следует ожидать при проведении лечения во всей целевой популяции. Точность этой оцененной разности показывается при помощи доверительного интервала. Доверительные интервалы отражают влияние объема выборки и изменчивости, за счет чего большие выборки сужают интервал и обеспечивают более точные оценки. Меньшая изменчивость данных также сужает интервал и повышает точность оценок. ПРИМЕР • «Препарат замедлил процесс коагуляции в среднем на 4 минуты (95% ДИ 2,5 - 5,5 мин; р < 0,001)». 95% ДИ говорит о том, что если бы препарат испытывался на 100 подобных выборках, то среднее время задержки коагуляции в 95 выборках из 100 было бы, вероятно, заключено в пределах от 2,5 до 5,5 минуты. Знание этого доверительного интервала позволяет нам судить о клинической значимости воздействия. Средняя задержка времени коагуляции даже на 2,5 минуты (нижняя граница доверительного интервала) была бы клинически важной, потому действие препарата оказывается одновременно клинически важным и статистически значимым. {См. такэюе гл. 3.) 4.15« Приводите дейавительное р-значение до двух значащих цифр, независимо от того, является ли оно статистически значимым. Результаты с достигнутыми величинами статистической значимости — /7-значения, меньшие критического уровня значимости альфа (обычно 0,05), считаются статистически значимыми, а те, которые его превышают, — нет. Однако /7-значения 0,051 и 0,049 достаточно близки друг к другу, поэтому интерпретируются одинаково, несмотря на то что о первом следовало бы сказать как о незначимом, а о втором — как о значимом. Представление фактического р-значения снимает эту проблему интерпретации. Фактические р-значения приобретают еще большую ценность в случае использования в метаанализе {см. гл. 17), В любом случае наименьшее р-значение, которое следует отразить в отчете, удовлетворяет условию/>< 0,001. ^ /^-значения, равные 1 или О, редки и при появлении в научной работе должны быть подвергнуты сомнению. Во многих случаях они появляются в результате округления. ^ Если результаты не являются статистически значимыми, не используйте выражение «показало тенденцию к значимости» или «приблизились к значимости». Результат просто оказался статистически незначимым, как это определено соотношением между р-значением и уровнем значимости. (Любопытно, что р-значения, по-видимому, никогда не «стремятся» от значимости.) Однако комментарии по поводу клинической важности результата все же уместны. 4«1 б. Указывайте значение статистики критерия для основных сравнений. Математические выкладки с данными в статистическом анализе дают статистику критерия — число, которое сравнивается с известным распределением вероятности с целью получить р-значение, связанное со статистикой. Знание этой статистики позволяет читате-
Отчеты о проверках гипотез 75 лю проверить /^-значение. Такого рода информация была более важна в те времена, когда /7-значения определялись вручную путем отыскивания статистики критерия в ряде таблиц'. Компьютеры сделали этот процесс более точным, и это уменьшило важность представления статистики критерия. ПРИМЕР • /-критерий Стьюдента может быть описан так: «t = 1,34; 15 ст. св.;/? = 0,2», где 1,34 — статистика критерия, которая сравнивается с /-распределением с 15 степенями свободы (см. указание 4.17), ар — значение вероятности, связанное со статистикой критерия: вероятность получить результат экстремальный или превышающий экстремальный, по сравнению с наблюдаемым, в предположении, что между группами нет никакого различия. 4.17. Указывайте, если требуется, число степеней свободы (df) критерия для основных сравнений. «Число степеней свободы» — это понятие, используемое в нескольких распространенных статистических критериях. Будучи вычисленным в зависимости от объема выборки, оно указывается так, чтобы читатели могли убедиться в правильности р-значения путем проверки соответствия статистики критерия подходящему распределению, каждое из которых имеет разное число степеней свободы, /-критерий Стьюдента, дисперсионный анализ, или F-критерий, а также критерий хи-квадрат — все они используют понятие степеней свободы. Как и в случае со статистиками критерия, эта информация была важнее во времена ручного вычисления/7-значения путем отыскания статистики критерия в таблицах, параметром для работы с которыми служило число степеней свободы. УКАЗАНИЯ ОТНОСИТЕЛЬНО ОБСУЖДЕНИЯ РЕЗУЛЬТАТОВ 4,18* Различайте клиническую важность и статистическую значимость. Гертруда Штайн однажды сказала: «Различие, чтобы быть различием, должно производить различие» [10]. Клинически важное различие по определению важно независимо оттого, является ли оно статистически значимым. В свою очередь, статистически значимое различие может не быть клинически важным. Статистики должны интерпретироваться; они не создают строгой и непосредственной очевидности «истины». /^-значения не принимают во внимание величину эффекта. Таким образом, слабый эффект в обширном исследовании может иметь то же/?-значение, что и сильный эффект в небольшом [2]. Заключения не должны часто базироваться исключительно нар-значениях. При переходе к выводам исследования нужно иметь в виду несколько аспектов исследований и результатов: разработку исследования, его проведение, величину эффекта, ширину доверительного интервала, биологическое правдоподобие, дополнительные доказательства и т. д. ' Между тем в ряде отечественных публикаций до сих пор можно встретить упоминание о том, что, наряду с использованием современных статистических пакетов, авторы публикации «сравнивали» полученные с помощью пакета значения статистики критерия с табличными значениями. И это притом, что современные статистические пакеты вместе с величиной этого критерия выдают и значение достигнутого уровня статистической значимости. Очевидно, что в этом случае упоминание об использовании статистического пакета является не более чем камуфляжным приемом (см. http://www.biometrica.tomsk.ru/lis/index21.htm).
76 Составление статистических отчетов в медицине ПРИМЕР • Малые различия между большими выборками могут быть статистически значимыми, но не иметь клинического значения. Разница в одну неделю за пять лет нормальной работы кардиостимуляторов от двух разных производителей может оказаться статистически значимой, но, скорее всего, не будет клинически важной. И наоборот, большие различия между малыми выборками могут быть клинически важными, но не быть статистически значимыми. Предположим, что 8 из 16 человек получали обычное лечение и выжили, а 12 из 16 человек выжили после экспериментального лечения. Хотя разница в частоте смертности может не оказаться статистически значимой, рост выживаемости в экспериментальной группе (на 50 %, с 8 до 12) может оказаться клинически важным, и в этом случае стоит провести дополнительное исследование с выборками большего объема. ^ «Статистически неотличимый» не одно и то же, что «отсутствие отличий» [10, И]. {См. такэюе указания 4.19 и 5.2.) Группы, которые не различаются статистически, необязательно могут считаться клинически эквивалентными. Утверждения об эквивалентности должны основываться на исследованиях с адекватной статистической мощностью. 4.19. Не говорите о «тенденции к значимости» для клинически важных, но статистически незначимых различий. Вместо этого укажите отмеченную разность и (95%-й) доверительный интервал для нее. Когда авторы находят клинически важную, но статистически незначимую разность, они иногда пишут, что разность показывает «стремление» к значимости. По их убеждению, если бы выборка была большей, а статистический анализ имел большую мощность, результаты были бы статистически значимы в той же мере, в какой они являются важными клинически. На самом же деле, если бы /?-значение могло демонстрировать «стремление» (а оно этого не может), его было бы одинаково легко переместить как «подальше» от уровня значимости, так и «по направлению» к нему. Нужно иметь в виду, что клинически важные результаты не следует пересматривать из-за того, что они не являются статистически значимыми [12]. Результаты не могут ни «стремиться к значимости», ни «приближаться к значимости» [13]. В зависимости от того, является ли /7-значение большим или меньшим, чем критический уровень значимости альфа, они либо значимы, либо нет. Результаты исследования с низкой статистической мощностью и с отсутствием статистически значимых различий не являются отрицательными; по ним просто нельзя делать выводы [6, 7,10,14-27]. Frederick Mosteller однажды проиллюстрировал понятие низкой статистической мощности нижеследующим утверждением, первая часть которого написана от лица автора, а вторая (здесь выделенная курсивом) добавляет обычно скрываемую горькую правду: «Рост частоты инфекции при использовании новых методов оказался статистически незначимым... и не было ни одного шанса из десяти, что мы распознали бы 30%-й рост частоты» [1]. «Видеть, что ничего не произошло, не значит доказать, что ничего не произошло» [28,29]. И далее: «Отсутствие доказательства не является доказательством отсутствия» [10, 30]. Исследования с низкой статистической мощностью обычны, и неудачи с отчетами о статистической мощности являются распространенной ошибкой. Freiman и соавт. отмечали, что в 50
Отчеты о проверках гипотез 77 из 71 (70 %) работы, в которых говорится об отсутствии значимых различий между разными видами терапии, не нашлось бы даже 50%-е улучшение при их проведении [6, 31]. До недавнего времени авторам настоятельно рекомендовалось проводить «ретроспективные вычисления мощности» для незначимых различий. Это означало, что, если результаты исследования были отрицательными, следовало выполнить вычисления мощности для определения адекватности объема выборки. Однако доверительные интервалы тоже отражают объем выборки и их легче интерпретировать, поэтому требование ретроспективного вычисления мощности для статистически незначимых результатов позволяет им сообщать доверительные интервалы [32]. Литература 1. Mosteller F, Gilbert JP, МсРеек В. Reporting standards and research strategies for controlled trials. Control Clin Trials. 1980; 1:37-58. 2. Goodman SN. Toward evidence-based medical statistics. 1: The P value fallacy. Ann Intern Med. 1999; 130:995-1004. 3. Walker AM. Reporting the results of epidemiological studies. Am J Public Health. 1986; 76:556-8. 4. HallJC. The other side of statistical significance: a review of type II errors in the Australian medical literature. Aust N Z Med. 1982; 12:7-9. 5. Diamond GA, Forrester JS. Clinical trials and statistical verdicts: probable grounds for appeal. Ann Intern Med. 1983;98:385-94. 6. Freiman JA, Chalmers TC, Smith H, Kuebler RR. The importance of beta, the type И error and sample size in the design and inteфretation of the randomized control trial: survey of 71 negative trials. N Engl J Med. 1978; 299:690^. 7. GlantzSA. It is all in the numbers [Editorial]. J Am Coll Cardiol. 1993; 21:835-7. 8. Bailar JC III, Mosteller F Guidelines for statistical reporting in articles for medical journals. Ann Intern Med. 1988; 108:266-73. 9. International Committee of Medical Journal Editors. Uniform Requirements for Manuscripts Submitted to Biomedical Journals, http://www.icmje.org/index.html. Accessed 3/18/06. 10. Haines SJ. Six statistical suggestions for surgeons. Neurosurgery. 1981; 9:414-8. 11. Evans M. Presentation of manuscripts for publication in the British Journal of Surgery. Br J Surg. 1989;76:1311-5. 12. Gardner MJ, Altman D. Confidence intervals rather than P values: estimation rather than hypothesis testing. BMJ. 1986; 292:746-50. 13. Squires BP Statistics in biomedical manuscripts: what editors want from authors and peer reviewers [Editorial]. Can Med Assoc J. 1990; 142:213^. 14. Gore SM. Statistics in question. Assessing methods — confidence intervals. BMJ. 1981; 283:660-2. 15. Stoto MA. From data analysis to conclusions: a statistician's view: In: Council of Biology Editors, Editorial Policy Committee. Ethics and Policy in Scientific Publication. Bethesda, MD: Council of Biology Editors; 1990:207-18. 16. Altman DG. Statistics in medical journals. Stat Med. 1982; 1:59-71. 17. Hujoel PP, Baab DA, De Rouen ТА. The power of tests to detect differences between periodontal treatments in published studies. J Clin Periodontol. 1992; 19:779-84. 18. Gore SM, Jones G, Thompson SG. The Lancet's statistical review process: areas for improvement by authors. Lancet. 1992; 340:100-2. 19. Gotzsche PC. Methodology and overt and hidden bias in reports of 196 double-blind trials of nonsteroidal antiinflammatory drugs in rheumatoid arthritis. Control Clin Trials. 1989; 10:31-56. 20. Hemminki E. Quality of reports of clinical trials submitted by the drug industry to the Finnish and Swedish control authorities. Eur J Clin Pharmacol. 1981; 19:157-65.
78 Составление статистических отчетов в медицине 21. Mainland D. Statistical ritual in clinical journals: is there a cure? BMJ. 1984; 288:841-3. 22. Murray GD. Confidence intervals [Editorial]. Nuc Med Commun. 1989; 10:387-8. 23. Schoolman HM, BecktelJM, Best WR, Johnson AF. Statistics in medical research: principles versus practices. J Lab Clin Med. 1968; 71:357-67. 24. SchorS, Kartenl. Statistical evaluation of medical journal manuscripts. JAMA. 1966; 195:1123-8. 25. Young MJ, Bresnitz EA, Strom BL. Sample size nomograms for inteфreting negative clinical studies. Ann Intern Med. 1983; 99:248-51. 26. Altman DG. Statistics in medical journals: developments in the 1980s. Stat Med. 1991; 10:1897- 913. 27. Morris RW. A statistical study of papers in the Journal of Bone and Joint Surgery Br 1984. J Bone Joint Surg Br. 1988; 70:242-6. 28. Sheehan TJ. The medical literature. Let the reader beware. Arch Intern Med. 1980; 140:472-4. 29. SchorS. Statistical proof in inconclusive "negative" trials. Arch Intern Med. 1981; 141:1263-4. 30. Wears RL. What is necessary for proof? Is 95 % sure unrealistic? [Letter]. JAMA. 1994; 271:272. 31. DerSimonian R, Charette U, McPeek B, Mosteller F. Reporting on methods in clinical trials. N Engl J Med. 1982;306:1332-7. 32. Goodman SN, Berlin JA. The use of predicted confidence intervals when planning experiments and the misuse of power when inteфreting results. Ann Intern Med. 1994; 121:200-6.
Проблема множественных сравнений 79 Глава 5 Корректировка отдельных р-значений проблема множественных сравнений Чем больше ставится вопросов о некотором мноэюестве данных, тем с большей вероятностью они дадут некую статистически значимую разность, даэюе при фактически эквивалентных методах лечения. S. YusuF, J. WiTTES, J. Probstfield, H. a. Tyroler [1] Проблема множественных сравнений («множественных критериев», или «множественных взглядов») состоит в следующем: чем больше гипотез проверяется на одних и тех же данных, тем с большей вероятностью мы можем совершить ошибку первого рода — сделать вывод о том, что различие является результатом вмешательства извне, тогда как на самом деле более вероятным объяснением является случай. Если, например, предположить, что порог статистической значимости (альфа) установлен равным 0,05, то 5 из каждых 100/7-значений, вероятно, только случайно будут меньше 0,05. Использование множественных критериев во многих случаях неизбежно и даже желательно, но обращаться с ними нужно с осторожностью во избежание проблемы множественных сравнений [2]. Множественные сравнения часто встречаются в следующих задачах: • Установление эквивалентности групп путем проверки каждой из нескольких базовых характеристик или прогностических факторов в поисках различий между экспериментальной и контрольной группами (в надежде не найти ни одного). • Выполнение мноэюественных попарных сравнений, что встречается при отдельном сравнении двух из трех или более групп данных, как это делается в дисперсионном анализе (ANOVA) или множественном регрессионном анализе. • Проверка мноэюественных краевых значений, подверженных влиянию одного и того же множества предикторных переменных. • Дополнительные, вспомогательные анализы взаимосвязей, наблюдаемых после того, как данные собраны, но не идентифицированы в ходе исходного исследования. • Дополнительные анализы подгрупп, не запланированные в исходном исследовании. • Промежуточный анализ накопленных данных (одна конечная точка измеряется несколько раз), часто производимый в исследованиях с потенциально токсичными или другими вредоносными воздействиями, с тем чтобы не подвергать участников исследования ненужному риску. • Сравнение групп во многие моменты времени с помощью ряда отдельных сравнений групп. К явлениям, рассматриваемым при помощи множественных сравнений, относится практика углубленного, совместного анализа (data dredging) некоторых или всех взаимосвязей
80 Составление статистических отчетов в медицине С последующим отчетом, содержащим статистически значимые результаты [3-17]. Большие, но необоснованные значения традиционно приписываются к «статистически значимым находкам» или «положительным результатам». Факты говорят о том, что исследования, в которых поддерживаются авторские гипотезы, встречаются в литературе намного чаще по сравнению с теми, в которых они не поддерживаются. К сожалению, многие авторы действительно выглядят занятыми «безжалостным поиском значимости» [ 18] в попытке найти для отчета статистически значимые взаимосвязи. Однако множественные сравнения могут приносить и пользу. Хотя форма эксперимента разрабатывается для отыскания ответов на отдельные вопросы, углубленные анализы данных (множественные сравнения) могут помочь поставить более интересные вопросы [19]. Но интерпретация таких углубленных анализов тоже требует мудрости. Именно так нужно относиться к исследованиям, в ходе которых возникают новые гипотезы (иногда иронически именуемым «походами на рыбалку» [13]). Если на «рыбалке» был пойман ботинок, «рыбаки должны выкинуть его обратно, а не говорить, что ходили ловить ботинки» [20]. Чтобы оправдать дальнейшее исследование, находки такого рода анализов должны быть биологически правдоподобными. Биологическая достоверность еще более важна в тех случаях, когда дополнительные исследования будут вестись для изучения новых или удивительных результатов углубленных анализов. В большинстве исследований вычисляется несколько /7-значений, и решение по коррекции множественных сравнений является предметом дискуссии среди статистиков [21-23]. Одно из возражений против коррекции множественных сравнений состоит в том, что уменьшение вероятности совершить ошибку первого рода увеличивает вероятность совер- Образец презентации Разности в значениях переменной отклика в шести группах сравнивались при помощи дисперсионного анализа (ANOVA). Множественные попарные сравнения осуществлялись с помощью процедуры Тьюки при общем уровне значимости 0,05. Здесь: • ANOVA является «процедурой группового сравнения», которая, в сущности, определяет, имеется ли статистически значимая разность где-либо среди этих групп. • Процедура Тьюки — это процедура множественных попарных сравнений, применяемая для контроля проблемы множественных сравнений в тех случаях, когда ANOVA указывает на статистически значимую разность между группами. Процедура множественных попарных сравнений может использоваться при сравнении каждой группы со всеми остальными, для того чтобы определить, какие группы отличаются значимо. В данном примере шесть групп требуют 15 попарных сравнений, или 15 р-значений, в результате которых появляется проблема множественных сравнений. Если процедура множественных попарных сравнений не используется (т е. если вместо этого для сравнения шести групп 15 раз использовался f-критерий Стьюдента), вероятность ошибочно объявить о статистической значимой разности возрастает с 5 раз из 100 (общий уровень значимости 0,05) до 55 раз из 100 (общий уровень значимости 0,55). • Уровень значимости альфа — это порог статистической значимости, устанавливаемый исследователем до начала эксперимента. С этим значением сравнивается общее р-значение (полученное, скажем, из ANOVA) при объявлении результата статистически значимым или нет
Проблема множественных сравнений 81 шить ошибку второго рода. По мнению некоторых специалистов, нужно способствовать тому, чтобы исследователи изучали данные, не упуская возможно важные находки. Есть два обстоятельства, в связи с которыми обсуждается данное требование: множественные попарные сравнения после итогового группового сравнения (такие, как ANOVA) и попутный анализ накопленных данных. 5.1« Отметьте, вводились ли какие-либо допущения для множественного сравнения. Если да — опишите их. о наличии статистической значимости говорится тогда, когда полученное по исходным данным /^-значение оказывается меньше, чем уровень альфа, установленный исследователем в качестве порога статистической значимости. Таким образом, уровень значимости, а иногда и р-значение, порой корректируются, чтобы учесть проблему множественных сравнений. Типичные подходы включают в себя: • использование более строгих критериев значимости, таких как уровень альфа 0,01 вместо 0,05 [9, 15,24-28]; • внесение поправки Бонферрони, представляющей собой грубую меру компенсации множественного сравнения при помощи указания нового, в большей степени ограничительного уровня значимости [25, 25, 27-32]; • придание большего значения оригинальной, априорной гипотезе и меньшего — вспомогательному анализу [8, 9, 14, 20, 26, 31-37]. ф Если представлено большое количество р-значений, скажем, 10 или более, определите, рассматривалась ли проблема множественных сравнений. Углубленный анализ часто обнаруживается, когда указываются несколько р-значений (условие иногда называют «/?-зацией всей работы») и когда указываютсяр-значения для взаимосвязей сомнительной клинической ценности. Правило таково: «Не указывайте в отчете/7-значения ради них самих» [34]. ф Рассчитывайте поправку Бонферрони для множественных критериев [30, 32]. Поправка Бонферрони может выглядеть как установление нового уровня альфа с целью определения статистической значимости. Например, для компенсации множественных (двусторонних) /-критериев Стьюдента новый критический уровень альфа рассчитывается по формуле: «новый критический альфа» = «старый критический альфа»/^, где «новый альфа» — это вероятность, которую нужно достичь статистической значимости при данном числе сравнений, «старый альфа» — уровень, который определял значимость ранее, а /i — число сравнений, отраженных в исследовании. Так, в работе с отчетом о 12 сравнениях (12/?-значений) с исходным уровнем значимости альфа 0,05 значимыми будут считаться только р-значения, меньшие 0,004 («новый альфа» = 0,05/12). Но несмотря на свою консервативность, поправка Бонферрони не дает полной защиты от неверных выводов. Кроме того, скорректированный уровень альфа или р-значения в исследованиях с большим числом/^-значений бывает практически недостижимым. Чтобы считаться значимым, исследование с 30 сравнениями (не столь уж большое число) и исходным общим уровнем значимости 0,05 потребовало бы /7-значений, меньших, чем 0,0017 [32].
82 Составление статистических отчетов в медицине УСТАНОВЛЕНИЕ ЭКВИВАЛЕНТНОСТИ ГРУПП 5.2, Укажите клинические показатели, с помощью которых оценивается начальное сходство групп. Не полагайтесь только на р-значения при установлении эквивалентности. Данные экспериментальной и контрольной групп обычно внимательно изучаются с целью установить, были ли группы схожими в начале исследования. Несоответствия между группами можно показать посредством клинически важных различий, например в средних значениях. Всегда следует идентифицировать клинически важные различия. (В типичных случаях влияние несоответствия на исход оценивается с привлечением многомерного анализа; см. гл. 7 и 8.) Однако при статистическом сравнении, скажем, двух групп по 10 основным характеристикам можно в результате прийти к множественным сравнениям. В нерандомизированных испытаниях исходные характеристики могут и часто должны сравниваться, для того чтобы определить, являются ли какие-либо различия статистически значимыми, а также клинически важными. Статистически значимые различия по основным переменным могут выявить систематическое смещение в назначениях. Однако нестатистически значимые исходные различия между группами не означают, что группы эквивалентны, если только нет адекватной статистической мощности для распознавания клинически осмысленного различия. Такая мощность часто отсутсвует. В рандомизированных испытаниях любые обнаруженные различия между группами являются, по определению, результатом случая. Клинические несоответствия, даже случайные, реальны и должны встраиваться в многомерные модели. Но статистические сравнения исходных характеристик редко бывает необходимо вставлять в отчет. Статистически значимые различия будут делом случая, а нестатистически значимые различия говорят не о том, что группы схожи, а скорее о том, что случайное назначение было эффективным [38, 39]. «Если рандомизация проведена корректно, нулевая гипотеза о происхождении обеих групп из одной и той же генеральной совокупности по определению истинна; поэтому мы можем ожидать, что 5 % таких сравнений будут значимы на 5%-м уровне. Таким образом, эти критерии неявно оценивают правильность рандомизации, а не подобие характеристик двух групп» [38]. Altman и Dore [38] изучили 80 опубликованных рандомизированных контролируемых испытаний (РКИ) и обнаружили, что в 46 из них (58 %) основные характеристики сравниваются с помощью проверок гипотез. Медиана числа представленных основных характеристик равнялась 9; в 39 % испытаний сравнивалось более 10 характеристик. Всего в 46 испытаний было включено около 600 проверок гипотез (р-значений), в среднем 13 на одно испытание. МНОЖЕСТВЕННЫЕ ПОПАРНЫЕ СРАВНЕНИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ГРУПП 53. Опишите процедуру множественного сравнения, использованную для выявления тех пар групп, которые в наибольшей степени влияют на общую статистическую значимость сравнения групп. Если три или более групп данных сравниваются по две за один раз в отдельном анализе, число таких проверок вскоре становится достаточно большим, чтобы столкнуться с проблемой множественных сравнений. К примеру, если четыре группы сравниваются по две за один раз
Проблема множественных сравнений 83 С помощью ^кpитepиeв Стьюдента, требуется провести шесть проверок. Если уровень значимости установлен равным 0,05 для каждой проверки, вероятность обнаружить различие, когда его на самом деле нет (вероятность ошибки первого рода), уже равна не 0,05, а 0,3. Это означает, что примерно одно из трехр-значений может быть интерпретировано неправильно. Чтобы избежать этой проблемы, методики сравнения групп, такие как ANOVA, анализируют данные из всех групп и определяют, имеются ли между ними какие-либо различия. При выявлении различия выполняется еще так называемая процедура множественных сравнений, выявляющая группы, наиболее сильно влияющие на общее различие между группами. Общеупотребительными процедурами множественных сравнений, связанными с ANOVA, являются процедуры Тьюки, Стьюдента—Ньюмана—Кейлса, многоранговая процедура Дункана, процедура Даннетта, метод Шеффе', метод наименьшей значимой разности Фишера (LSD-метод) и поправка Бонферрони. ф Наиболее часто встречающейся ошибкой в ходе множественного сравнения данных является множественное применение /-критерия Стьюдента без корректировки уровня значимости для выявления существенно различных пар при групповом сравнении с использованием дисперсионного анализа [40-42]. @ Возможное число парных сравнений находите по следующей формуле: к(к-1)/2, где к — количество имеющихся групп. ВТОРИЧНЫЕ (РЕТРОСПЕКТИВНЫЕ ИЛИ POST НОС) АНАЛИЗЫ 5.4* Четко различайте первичные и вторичные (ретроспективные или post hoc) анализы. Результаты исследования могут навести на мысль о новых взаимосвязях, которые не рассматривались при планировании исследования. Но поскольку исследование не имело в виду проверку этих новых взаимосвязей, дополнительный анализ в соответствии с иными критериями может создать проблемы при интерпретации результатов. ПРИМЕР • Исследование планировалось для выявления различий в остроте зрения между мужчинами и женщинами. Просмотрев результаты, исследователи приняли решение о дополнительном анализе данных на основе возрастных, а не половых различий. Так как исходные экспериментальная и контрольная группы были сбалансированы по половой принадлежности, а не по возрасту, такой ретроспективный анализ следует считать разведочным вне зависимости от того, насколько интересны и статистически значимы его результаты. ' Метод линейных контрастов Шеффе является одним из самых строгих и в то же время удобных для проведения множественных сравнений. Отметим также, что с помощью этого метода можно проводить не только парные сравнения, но и сравнения пар группировок из нескольких градаций. К примеру, изучаются 5 групп пациентов. Группирующий признак имеет следующие градации: 1 — здоровые; 2 — подозрение на наличие заболевания; 3 — заболевание легкой степени тяжести; 4 — заболевание средней степени тяжести; 5 — заболевание тяжелой степени. Дисперсионный анализ показал статистически значимое различие этих 5 групп по количественному показателю VAR1. Можно провести проверку 5x4/2= 10 пар групп, начиная от 1-2, 1-3 и т. д. вплоть до 4-5. Исходя из динамики изменения средних значений признака VAR1, при переходе от группы 1 до группы 5 можно также проверить гипотезу о том, что качественный скачок в изменении признака VAR1 происходит при переходе от группы 3 к группам 4 и 5. Для этого можно объединить в одну новую группу, назовем ее группой 123, исходные группы 1, 2 и 3. А вторую новую группу, назовем ее группой 45, образуем из исходных групп 4 и 5. И далее можно провести сравнение пар 123 и 45.
84 Составление статистических отчетов в медицине АНАЛИЗЫ ПОДГРУПП 5.5. Указывайте, по какому признаку идентифицируются подгруппы и почему их стоит анализировать. Во многих исследовательских проектах собирается значительное количество данных, которые не относятся к первичному сравнению. Например, демографические данные, такие как возраст и пол, рутинно собираются потому, что с этими факторами связаны многие клинические особенности. Исследователь, изучающий действие антидепрессанта, может в итоге обнаружить, что препарат действует ничуть не лучше, чем плацебо. Однако продолжение анализа может выявить значительное уменьшение депрессии у женщин в период менопаузы, т. е. для некоторой подгруппы исходной экспериментальной группы. При анализе большого количества подгрупп, возможных при типичном исследовании, может возникнуть проблема множественных сравнений. Результаты анализов подгрупп могут отражаться в отчете — возможно, на действие препарата из примера выше влияют уровни гормонов, — но отражать их нужно как предварительные, поскольку они являются неожиданными побочными продуктами первичного сравнения общей эффективности препарата в лечении депрессии. Альтернативой анализу подгрупп является сбор факторов в одну предсказательную модель (уравнение в регрессионном анализе) в противовес отдельному анализу каждой подгруппы. В вышеприведенном примере исследователь мог бы проверить наличие взаимодействия между возрастом, полом и приемом препарата при восстановлении после депрессии, избежав тем самым анализа подгрупп [15, 24, 28]. (См. такэюе гл. 7 и 8.) ^ Подгруппы, определенные уже после сбора данных, могут отражать лечебные эффекты, и тогда становится трудно, если вообще возможно, интерпретировать возникшие в результате лечения различия [43]. Например, если поместить в одну подгруппу пациентов, на которых хорошо подействовал препарат, будет легко доказать, что препарат был эффективен в этой подгруппе. Порочность этого «замкнутого круга» очевидна, но при других обстоятельствах неприемлемость выбора подгруппы может быть незаметна. ^ Анализы подгрупп известны как ненадежные [1, 27, 31, 44-47]. Число членов данной подгруппы может быть небольшим, даже если общее число участников во всем эксперименте велико. «Поскольку анализы подгрупп всегда включают в себя меньшее число пациентов, чем общий анализ, они несут больший риск сделать ошибку второго рода — сделать ложный вывод об отсутствии различия» [46]. Щ Убедительны ли основания для проведения анализа подгрупп [1, 20]? Четкий биологический механизм, способный объяснить различия, поможет внушить большее доверие к результатам. Анализы подгрупп более приемлемы, когда: • различие между группами достаточно велико, чтобы быть клинически важным и статистически значимым; • сравнение подгрупп является частью априорного, а не ретроспективного анализа; • сравнение групп было одной из небольшого числа дополнительных проверяемых гипотез, а не результатом углубленного анализа; • различие основано на сравнении внутри одного исследования, а не с данными из разных исследований;
Проблема множественных сравнений 85 • различие постоянно от исследования к исследованию; • другое непрямое свидетельство выступает в поддержку существования истинного различия [3, 46]. МНОЖЕСТВЕННЫЕ КОНЕЧНЫЕ ТОЧКИ 5.6. Идентифицируйте интересующие первичные конечные точки или исходы до начала исследования. Аналогом проблемы вторичного анализа, в которой раскрывается значимость множественных объясняющих переменных, является проблема множественных исходов, в которой раскрывается значимость переменных отклика. «...Для испытания с пятью конечными точками шанс при нулевой гипотезе достижения уровня значимости р < 0,05 по крайней мере одного различия в результате лечения равен примерно 20 % при условии, что между этими конечными точками нет сильной корреляции» [24]. ПРИМЕР • Если случайно обнаруживается, что препарат, действующий на кровяное давление, стимулирует рост волос, исследование должно быть отражено в отчете как имеющее два исхода: кровяное давление и рост волос. Как и в случае вторичного анализа, число эффектов, которые могут быть проверены в типичном эксперименте, может оказаться большим, что порождает проблему множественных сравнений. Первичная тема сравнения — действие препарата на кровяное давление — должна находиться в центре внимания, а о счастливой находке насчет роста волос следует сообщить как о предварительном результате. ПРОМЕЖУТОЧНЫЕ АНАЛИЗЫ НАКОПЛЕННЫХ ДАННЫХ 5 J. Отразите промежуточные анализы накопленных данных и дайте обоснование этих анализов. Во многих исследованиях, особенно в длящихся несколько месяцев или лет, иногда желательно периодически проверять результаты, с тем чтобы не подвергать участников ненужному риску. Такие промежуточные анализы имеют отношение к тому, что называется «правилами остановки» для исследований {см. указание 5.8). Если промежуточные результаты указывают на то, что терапия статистически либо высокоэффективна, либо очевидно плоха или приносит вред, исследователи могут склониться к прекращению исследования. Ясно, что исследование должно быть прекращено, если пациенты без необходимости подвергаются риску. Промежуточные анализы также помогают исследователям проверить соответствие протоколу, подтвердить полноту процедур работы с данными и как можно скорее разрешить проблемы, возникающие в ходе исследования [48]. Однако промежуточные анализы увеличивают число выполняемых проверок и представляют собой еще один пример проблемы множественных сравнений. Как крайность, предположим, что результаты исследования анализировались каждый раз после того, как каждый участник заполнял протокол, т. е. число проанализированных случаев возрастало на единицу после каждого анализа. Волей случая проверка может дать значимый результат после, скажем, 23 пациентов, незначимый после 27, значимый результат после 34 и так далее по мере накопления данных.
86 Составление статистических отчетов в медицине ^ «Незапланированные промежуточные анализы создают значительные проблемы интерпретации» [49]. 5.8. Укажите статистические критерии прекращения исследования и отметьте, были ли эти критерии разработаны до начала исследования. Один из спорных вопросов промежуточных анализов — когда прекращать исследование. Если исследование прекращено слишком рано (после того, как его завершили слишком мало участников), его статистическая мощность может оказаться неприемлемо низкой. Если исследование разрешено продолжить, оно может подвергнуть участников ненужному риску. Таким образом, промежуточные анализы следует запланировать заранее и указать критерии прекращения исследования. 5.9. Укажите, кому сообщались результаты промежуточного попутного анализа. Сообщение результатов промежуточного анализа медицинскому сообществу может оказать влияние на ход исследования. Если один вид лечения окажется лучше другого, врачи могут не позволить своим пациентам участвовать в исследовании. Промежуточные анализы могут также создать ожидания, способные повлиять на наблюдение и лечение. Кроме того (что особенно актуально для средств массовой информации), если более поздние результаты отличаются от более ранних, научный мир и публика могут потерять веру в надежность исследования. ^ Сообщение промежуточных результатов клинических испытаний влечет ответственность за сообщение полных и итоговых результатов [50]. Предварительные отчеты о проводимых испытаниях часто включают результаты промежуточного анализа. Читателям следует иметь в виду, что результаты предварительны, а заключительные результаты следует публиковать полностью. Некоторые работы показали, что от 30 до 60 % опубликованных аннотаций не сопровождаются впоследствии публикацией полного отчета о представленных исследованиях [51-53]. СРАВНЕНИЕ ГРУПП НА МНОЖЕСТВЕ ВРЕМЕННЫХ ТОЧЕК 5.10. Если группы сравниваются на множестве временных точек, укажите использованную статистическую процедуру и поправки, сделанные для множественных сравнений. в некоторых исследованиях две или более групп сравниваются в разные моменты времени, результатом чего является множество р-значений, по крайней мере одно на каждый момент времени. Например, чтобы определить различия в действии или длительность анестезии для двух конкурирующих анестетиков, измерения могут производиться каждый час в течение 12 часов. Эти две группы можно сравнивать статистически каждый час, чтобы определить, в какой момент средние ответы различаются значительно. В этом случае исследователи традиционно выполняют множественные сравнения отдельных групп, одно на каждый момент времени, что приводит к проблеме множественных сравнений; в данном примере нужно найти 12/?-значений. Этот подход может оказаться уместным, если общий уровень значимости корректируется для множественных сравнений (скажем, с помощью поправки Бонферрони).
Проблема множественных сравнений 87 Литература 1. YusufS, Wittes J, Probstfield J, Tyroler HA. Analysis and interpretation of treatment effects in subgroups of patients in randomized clinical trials. JAMA. 1991; 266:93-8. 2. Chalmers TC, Smith H Jr., Blackburn B, et al. A method for assessing the quality of a randomized control trial. Cont Clin Trials. 1981; 2:31^9. 3. Guyatt GH, Sackett DL, Cook DJ. Users' guides to the medical literature. II. How to use an article about therapy or prevention. B. What were the results and will they help me in caring for my patients? The Evidence-Based Medicine Working Group. JAMA. 1994; 271:59-63. 4. BailarJC. Science, statistics, and deception. Ann Intern Med. 1986; 104:259-60. 5. Bailar JC III, Hosteller F. Guidelines for statistical reporting in articles for medical journals: amplification and explanations. Ann Intern Med. 1988; 108:266-73. 6. Felson DT. Bias in meta-analytic research. J Clin Epidemiol. 1992; 45:885-92. 7. Fienberg SE. Damned lies and statistics: misrepresentations of honest data. In: Council of Biology Editors, Editorial Policy Committee. Ethics and Policy in Scientific Publication. Bethesda, MD: Council of Biology Editors; 1990:202-6. 8. Gore SM, Jones G, Thompson SG. The Lancet's statistical review process: areas for improvement by authors. Lancet. 1992; 340:100-2. 9. Haines SJ. Six statistical suggestions for surgeons. Neurosurgery. 1981; 9:414-8. 10. MacArthur RD, Jackson GG. An evaluation of the use of statistical methodology in the Journal of Infectious Diseases. J Infect Dis. 1984; 149:349-54. 11. Moskowitz G, Chalmers TC, Sacks HS, et al. Deficiencies of clinical trials of alcohol withdrawal. Alcohol Clin Exp Res. 1983; 7:42-6. 12. Sals burg DS. The religion of statistics as practiced in medical journals. Am Statistician. 1985; 39:220-3. 13. Smith DG, Clemens J, Crede W, et al. Impact of multiple comparisons in randomized clinical trials Am J Med. 1987;83:545-50. 14. Stoto MA. From data analysis to conclusions: a statistician's view. In: Council of Biology Editors, Editorial Policy Committee. Ethics and Policy in Scientific Publication. Bethesda, MD: Council of Biology Editors; 1990:207-18. 10. Sumner D. Lies, damned lies — or statistics? J Hypertens. 1992; 10:3-8. 15. Tyson JE, Furzan JA, Reisch JS, Mize SG. An evaluation of the quality of therapeutic studies in perinatal medicine. J Pediatr. 1983; 102:10-3. 16. Altman DG. Statistics in medical journals: developments in the 1980s. Stat Med. 1991; 10:1897- 913. 17. Morgan PP. Confidence intervals: from statistical significance to clinical significance [Editorial]. Can Med Assoc J. 1989;141:881-3. 18. Schoolman HM, BecktelJM, Best WR, Johnson AF Statistics in medical research: principles versus practices. J Lab Clin Med. 1968; 71:357-67. 11. Mills JL Data torturing [Letter]. N Engl J Med. 1993; 329:1196-9. 19. Savitz DA, Olshan AF Multiple comparisons and related issues in the inteфretation of epidemiologic data. Am J Epidemiol. 1995; 142:904-8. 20. Thompson JR. Invited commentary: re: "multiple comparisons and related issues in the inteфretation of epidemiologic data." Am J Epidemiol. 1998; 147:801-6. 12. Goodman SN. Muhiple comparisons, explained. Am J Epidemiol. 1998; 147:807-12. 24. Pocock SJ, Hughes MD, Lee RJ. Statistical problems in the reporting of clinical trials: a survey of three medical journals. N Engl J Med. 1987; 317:426-32. 25. Brown GW. Statistics and the medical journal [Editorial]. Am J Dis Child. 1985; 139:226-8.
88 Составление статистических отчетов в медицине 26. Altman DG, Gore SM, Gardner MJ, Pocock SJ. Statistical guidelines for contributors to medical journals. BMJ. 1983; 286:1489-93. 27. Bulpitt CJ. Confidence intervals. Lancet. 1987; 28:494-7. 28. Murray GD. Statistical guidelines for the British Journal of Surgery. Br J Surg. 1991; 78:782-4. 29. Diamond GA, Forrester JS. Clinical trials and statistical verdicts: probable grounds for appeal. Ann Intern Med. 1983; 98:385-94. 30. Godfrey K. Comparing the means of several groups. N Engl J Med. 1985; 313:1450-6. 31. Journal of Hypertension. Statistical guidelines for the Journal of Hypertension. J Hypertens. 1992; 10:6-8. 32. Lee KL, McNeer F, Starmer CF, et al Clinical judgment and statistics: lessons from a simulated randomized trial in coronary artery disease. Circulation. 1980; 61:508-15. 33. Altman DG. Statistics and ethics in medical research. VII — interpreting results. BMJ. 1980; 281:1612^. 34. Walker AM. Reporting the results of epidemiological studies. Am J Public Health. 1986; 76:556-8. 35. Grant A. Reporting controlled trials. Br J Obstet Gynaecol. 1989; 96:397^00. 36. Gelber RD, Goldhirsch A. Reporting and inteфreting adjuvant therapy in clinical trials. Monogr Natl Cancer Inst. 1992; 11:59-69. 37. Bracken MB. Reporting observational studies. Br J Obstet Gynaecol. 1989; 96:383-8. 38. Altman DG, Dore CJ. Randomisation and baseline comparisons in clinical trials. Lancet. 1990; 335:149-53. 39. Guyatt GH, Sackett DL, Cook DJ. Users' guides to the medical literature. II. How to use an article about therapy or prevention. A. Are the results of the study valid? The Evidence-Based Medicine Working Group. JAMA. 1993;270:2598-601. 40. Glantz SA. It is all in the numbers [Editorial]. J Am Coll Cardiol. 1993; 21:835-7. 41. Glantz SA. Biostatistics: how to detect, correct and prevent errors in the medical literature. Circulation. 1980;61:1-7. 42. Longnecker DE. Support versus illumination: trends in medical statistics. Anesthesiology. 1982; 57:73-4. 43. Abramson NS, Kelsey SE, Safar P, Sutton-Tyrrell KS. Simpson's paradox and clinical trials: what you find is not necessarily what you prove. Ann Emerg Med. 1992; 21:1480-2. 44. Simon R. Confidence intervals for reporting results of clinical trials. Ann Intern Med. 1986; 105:429-35. 45. Murray GD. Statistical aspects of research methodology. Br J Surg. 1991; 78:777-81. 46. Oxman AD, Guyatt GH. A consumer's guide to subgroup analyses. Ann Intern Med. 1992; 116:78-84. 47. Begg CB. Selection of patients for clinical trials. Semin Oncol. 1988; 15:434-40. 48. Ashby D, Machin D. Stopping rules, interim analyses and data monitoring committees [Editorial]. Br J Cancer. 1993;68:1047-50. 49. Geller NL, Pocock SJ. Interim analyses in randomized clinical trials: ramifications and guidelines for practitioners. Biometrics. 1987;43:213-23. 50. Zelen M. Guidelines for publishing papers on cancer clinical trials: responsibilities of editors and authors. J Clin Oncol. 1983; 1:164-9. 51. Chalmers I, Adams M, Dickersin K, et al. A cohort study of summary reports of controlled trials. JAMA. 1990;263:1401-5. 52. Scherer RW, Dickersin K, LangenbergP. Full publication of results initially presented in abstracts: a meta-analysis. JAMA. 1994; 272:158-62 [Erratum. JAMA. 1994; 272:1410]. 53. Garvey WD, Griffith ВС Scientific communication: its role in the conduct of research and creation of knowledge. Am Psychol. 1971:349-62.
Отчет об анализах связей и корреляций 89 Глава 6 Проверка наличия взаимосвязей Отчет об анализах связей и корреляций Анализ данных в широком смысле представляет собой поиск образов, т. е. смысловых отношений, среди различных наблюдаемых предметов, К. Godfrey [I] Анализы связей и корреляций математически отождествляют и описывают соотношения между переменными. Вообще две переменные считаются связанными, если изменение одной из них, скорее всего, вызовет изменение другой. Кроме того, предполагаемая связь или корреляция между переменными может быть подвергнута процедуре проверки статистических гипотез (вычисление/7-значений) с целью выяснить, реальна или просто случайна кажущаяся взаимосвязь. Хотя термины «связь» (ассоциация) и «корреляция» относятся к общим понятиям, при использовании в статистике термин «связь» обычно используется для описания соотношений между качественными переменными, тогда как «корреляция» обычно описывает соотношения между непрерывными переменными. Мера связи между качественными переменными, скажем, цветом глаз и цветом волос, может показать, прослеживается ли среди участников эксперимента с определенным цветом глаз тенденция иметь определенный цвет волос. Кроме того, могут быть вычислены меры связи как числовые показатели силы этой взаимосвязи. Подобно этому, мера (линейной) корреляции между двумя непрерывными переменными, такими как частота пульса и частота дыхания, может показать, сопровождается ли рост одного из них вероятным ростом другого, скажем, в подростковой выборке. Чтобы показать эту взаимосвязь, частоту сокращений и частоту пульса для каждого подростка можно графически изобразить на диаграмме рассеяния (рис. 6.1 и 6.2). Чем сильнее выражена линейность и диагональность образа на диаграмме рассеяния, тем сильнее взаимосвязь. Кроме того, в качестве числового показателя силы взаимосвязи можно вычислить коэффициент корреляции. Анализы связей и корреляций обычно используются для анализа взаимосвязей между двумя или более характеристиками одного и того же объекта, т. е. они основываются на парных данных. В вышеприведенных примерах для каждого подростка следует записать данные по четырем характеристикам: цвет глаз и волос, а также частота сокращений и частота дыхания. Эти данные «собираются в пары» для каждого подростка, поскольку все они имеют место у одного и того же «объекта анализа». Таким образом, эти данные являются описательными; предикторных переменных или переменных отклика нет, поэтому нет и предположения о причине или эффекте. Хорошо известная, хотя иногда забываемая.
90 Составление статистических отчетов в медицине U о с: 40 -Н 30 У 0= О S II I i CD X il S 10 та 20 H 0 H Шкала и метки горизонтальной оси, или оси X Единицы измерения Рис. 6.1. Диаграмма рассеяния, демонстрирующая сильную положительную корреляцию. Значение Y возрастает с ростом значения X фраза «взаимосвязь не означает причинную связь»' напоминает о том, что связь и корреляция — термины описательные. Ниже описаны наиболее употребительные меры и критерии связи и корреляции. • Взаимосвязи между качественными переменными, такие как между удовлетворенностью пациента (удовлетворен или разочарован) и интеллектом (высоким или низким), оцениваются мерами связи, такими как коэффициент ф, или критериями связи, обычно одно из выражений, основанных на критерии Пирсона хи-квадрат (х^). • Взаимосвязи между непрерывной переменной и двухуровневой категориальной переменной (например, аэробная способность, измеряемая через расход кислорода, и интенсивность тренировки, подразделяемая на высокую и низкую) могут оцениваться с помощью точечно-бисериального коэффициента корреляции. • Взаимосвязь между непрерывной переменной и трехуровневой или более качественной переменной (например, аэробная способность, измеряемая через расход кислорода, и интенсивность тренировки, подразделяемая на высокую, среднюю и низкую) можно оценить с помощью точечно-мультисериального коэффициента корреляции. ' в данном случае подразумевается возможное (!) отсутствие непосредственной причинной связи между двумя признаками. Это не исключает наличия вероятной опосредованной причинной связи, реализующейся через систему сложных цепочек парных причинно-следственных связей, в которой две данные анализируемые переменные могут быть как на концах этой цепи, так и в любом другом месте такой цепи. См., например: Благовещенский Ю. Тайны корреляционных связей в статистике. М., 2009; Гаврипов Л. А., Гаврилова Н. С. Биология продолжительности жизни: количественные аспекты. М., 1986.
Отчет об анализах связей и корреляций 91 га 40 Н U О с: 30 II т 20 Н Е 2 О) 2 10 -Ч о -Ч Шкала и метки горизонтальной оси, или оси X Единицы измерения Рис. 6.2. Диаграмма рассеяния, изображающая слабую корреляцию. Всякое данное значение X связано с рядом значений Y • Взаимосвязи между непрерывными переменными (например, взаимосвязь между возрастом и весом) оцениваются с помощью мер корреляции, таких как коэффициент корреляции Пирсона г или ранговый коэффициент Спирмена р'. • Другие меры связи включают отношения, описывающие связи между, скажем, воздействием и заболеванием или между лечением и исходом, такие как отношения шансов (см. гл. 2 и указание 7.25) и отношения рисков, или угроз {см. гл. 2 и указание 9.12). Относящимися к мерам связи и корреляции, но отличающимися от них являются меры согласия между двумя и более измерениями. В то время как связь и корреляция указывают степень, с которой изменение в одной переменной сопровождается изменением другой, согласие связано со сходством значений: • Каппа-статистика, к, часто используется в качестве меры согласия или точности классификации среди или между экспертами. Каппа указывает ту долю согласия, которая остается после исключения случайного согласия. Таким образом, она может принимать значения от 1,0 (полное согласие) до -1,0 (полное несогласие). Нулевое значение каппа говорит лишь о случайном характере согласия. • Альфа Кронбаха — это мера внутренней надежности или однородности пунктов в указателе или анкете; она говорит о том, насколько хорошо каждый отдельный пункт в шкале анкеты коррелирует с суммой остальных пунктов. Иногда ее называют ' в англоязычных источниках коэффициент корреляции Спирмена часто обозначают буквенным сочетанием «rho», что читается как «ро», в отличие от обозначения коэффициента корреляции Пирсона, обозначаемого как «г». В русскоязычных источниках коэффициент корреляции Спирмена чаще обозначают как г, где нижний индекс заимствован из фамилии Spearman.
92 Составление статистических отчетов в медицине «коэффициентом надежности шкалы». В отличие от коэффициента корреляции (см. ниже), ее минимальное значение равно нулю, а максимальное — единице. • Метод Бланда—Альтмана (или подход «пределов согласия») — это способ определить степень согласия между многими измерениями одного и того же объекта. Внешне он представляет собой график разностей между двумя измерениями против среднего двух измерений [2]. В этих целях он предпочтительнее корреляционного анализа, поэтому мы и говорим о нем здесь. (См. гл. 10 о диагностических тестах.) МЕРЫ И КРИТЕРИИ СВЯЗИ: ВЗАИМОСВЯЗИ МЕЖДУ ДВУМЯ КАЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ Образец презентации Для выборки из 1760 пациентов 542 из 1106 (49,0 %) светлоглазых испытуемых и 312 из 654 (47,7 %) темноглазых испытуемых продемонстрировали рефлексный отклик. Критерий хи~ квадрат выявил отсутствие статистически значимой взаимосвязи между откликом и цветом глаз (x^df = 0,28; р = 0,6). Здесь: • Даны частоты светло- и темноглазых испытуемых с выявившимся рефлексом. Эти частоты не отличались от ожидаемых случайно, поэтому говорить о наличии взаимосвязи двух переменных не было практически никаких оснований. • x^idf указывает на применение критерия хи-квадрат с одной степенью свободы с целью определить наличие взаимосвязи цвета глаз и рефлекса в данной выборке. • 0,28 — это значение статистики критерия хи-квадрат, вычисленное по исходным данным и сравненное с распределением хи-квадрат, имеющим 1 степень свободы, для определения статистически значимой взаимосвязи. Статистика критерия хи-квадрат трудно поддается клинической интерпретации, хотя ее и следует отражать в отчетах как меру ассоциации. (Для этой статистики можно было бы вычислить доверительный интервал, но он практически никогда не отражается в отчетах вследствие подобных же трудностей клинической интерпретации.) • р — это вероятность случайного получения столь же или еще большей статистики критерия хи-квадрат, если на самом деле между цветом глаз и рефлексным откликом нет никакой связи. Таким образом, большое значение р (большее, чем 0,05) свидетельствует в пользу нулевой гипотезы отсутствия связи. бЛ, Описывайте связи, представляющие интерес. Нужно ясно формулировать цель проверки. Проверка наличия связи — не одно и то же, что сравнение долей двух и более групп, хотя критерии хи-квадрат, например, можно использовать для анализа обоих видов. В случае связи цель исследования состоит в описании взаимосвязей между переменными в одной выборке. В случае сравнения долей групп цель анализа — определить, значительно ли отличаются две группы из одной выборки. Например, в вышеприведенной презентации выборки критерий хи-квадрат использовался для выявления взаимосвязи путем рассмотрения смеси частот среди четырех возможных сочетаний:
Отчет об анализах связей и корреляций 93 1) люди со светлыми глазами и рефлексным откликом; 2) люди со светлыми глазами и отсутствием рефлекса; 3) люди с темными глазами и рефлексным откликом; 4) люди с темными глазами и отсутствием рефлекса. Эта комбинация частот сравнивалась с комбинацией частот, появление которых ожидалось в результате случая, при отсутствии связи двух признаков. Если наблюдаемые частоты не отличались значительно от ожидаемых случайных частот, делалось заключение об отсутствии связи между переменными. Вместе с тем тот же самый критерий хи-квадрат можно было использовать для сравнения долей светло- и темноглазых испытуемых с выраженным рефлексом. В этом случае с помощью критерия хи-квадрат можно было сравнить разности между двумя долями, с тем чтобы выявить значительное отличие разности от нуля. (Гл. 4 дает указания по статистическому сравнению групп.) б.2« Идентифицируйте переменные, используемые в анализе связи, и отразите их в отчете с помощью описательной статистики. Проверки наличия связи используются для анализа качественных (номинальных или порядковых) данных. Давая названия переменным и указывая частоту появления каждой (например, 20 443 привитых ребенка или 40 000 студентов) или процент наблюдений для каждой переменной (например, 34 % из 350 приведенных в обзоре госпиталей), мы делаем сравнение более ясным. ПРИМЕР • Табл. 6.1 служит примером «таблицы сопряженности» в анализе с помощью критерия хи-квадрат. «Тип клиники» указывается в отчете как одна из четырех номинальных категорий, а «специальность» — как одна из трех номинальных категорий. Клетка содержит данные (частоту появления), с которыми проводится анализ. 63. Указывайте, какой именно критерий связи вы используете^. Многие статистические критерии основаны на некотором «распределении вероятности», таком как /-распределение, F-распределение, распределение Пуассона и другие — распределений известно много. Некоторые критерии связи основаны на вероятностном распределении хи-квадрат. Критерии хи-квадрат обладают гибкостью и широко используются благодаря тому, что их можно применять во многих видах анализа качественных данных. Критерий независимости хи-квадрат (также называемый критерием связи хи- квадрат или критерием хи-квадрат Пирсона) определяет наличие или отсутствие связи («независимость») двух качественных переменных. Такой критерий помогает, например, установить, одновременно ли появились поражения кожи и проблемы с дыханием. Это может выявить их общую причину или же установить «независимость», т. е. что их одновременное появление у одного и того же пациента является простым совпадением. Критерий согласия хи-квадрат используется для определения типичности результатов исследования качественных переменных путем их сравнения с известными или стандартизованными результатами. Например, доли четырех групп крови, наблюдаемых в выборке, можно сравнить с известными долями для всей популяции и выяснить, совпадают ли доли в выборке с соответствующими долями в популяции. ' Подробные описания критериев связи читатели могут найти в книгах: Кендалл М, Стьюарт А. Статистические выводы и связи. М., 1973; ФлейсДж. Статистические методы для изучения таблиц долей и пропорций. М., 1981.
94 Составление статистических отчетов в медицине Таблица 6,1 Таблица сопряженности для определения взаимосвязи между типом клиники и тремя хирургическими специальностями Хирургическая Тип клиники Всего* специальность 12 3 4 ~~~~ 'а ~~~ "Зб" 32 20 14 122 В 13 47 45 34 139 С 27 29 33 45 134 Всего 96 108 98 93 395 ^ Итоговые значения в строках и столбцах называются «маргинальными» или «маргинальными суммами». Критерий хи-квадрат, основанный на этой таблице, дал бы статистику теста 60,95, шесть степеней свободы (вычисленных по формуле [число строк - 1] умножить на [число столбцов - 1]; в данном случае 2x3 = 6), значение р < 0,001. Этот результат может привести к выводу, что медицинская специальность связана с типом клиники; т. е. разные типы клиник имеют тенденцию предлагать разные хирургические специальности. Природа взаимосвязи тогда определяется исследованием данных. Одно наблюдение может быть подытожено следующим образом: клиники 1 -го типа имеют тенденцию предлагать специальность А чаще, чем другие типы клиник; клиники 4-го типа стремятся предлагать специальность С чаще, чем другие типы клиник; клиники типа 2, 3 имеют тенденцию предлагать специальность В чаще, чем другие типы клиник. Точные критерии (критерии, имеющие в своих названиях слово «точный», такие как точный критерий хи-квадрат или точный критерий Фишера) используются с некоторыми из вышеприведенных целей при работе с малыми выборками. (Здесь «малая выборка» обычно означает, что число наблюдений, ожидаемых в результате случайных причин, в некоторых клетках таблицы сопряженности меньше 5.) Еще одной, хотя и не основанной на распределении хи-квадрат, мерой связи между двумя качественными переменными является коэффициент фи (обозначается символом ср). Этот коэффициент меняется в пределах от -1 до +1, где -1 и +1 представляют соответственно точные обратные и прямые связи, а О означает отсутствие связи. (Такая же шкала применяется в более общем корреляционном анализе, описывающем взаимосвязи между двумя непрерывными переменными; см. указание 6.12). Для коэффициента фи можно вычислить /^-значение и с его помощью определить, существенно ли он отличается от нуля. Критерий долей хи-квадрат предназначен для групповых сравнений (см. гл. 4). Этот вид критерия хи-квадрат является критерием не проверки связи, а проверки гипотез. 6.4. Указывайте, является ли критерий одно- или двуаоронним. Обосновывайте применение односторонних критериев. Двусторонние критерии более консервативны и более предпочтительны в отсутствие специального обоснования применения одностороннего критерия. @ См. указание 4.7: одно- и двусторонние критерии. 6.5. Оговоривайте соответствующие критерию предположения. Все, что нужно включить в отчет, — это подтверждение определенных предположений. Многие критерии проверки взаимосвязи основаны на следующих предположениях.
Отчет об анализах связей и корреляций 95 • Данные носят категориальный характер и не являются, например, средними значениями непрерывных данных. Если доступны непрерывные данные, их следует проанализировать с помощью критериев соответствующего типа. • Выборка взята случайным образом. • Каждая клетка таблицы сопряженности (табл. 6.1) имеет достаточное число ожидаемых значений. Если какие-либо клетки содержат, скажем, меньше, чем пять, ожидаемых значений, следует выполнить «точную» проверку с указанием названия критерия. 6.6. Указывайте действительное р-значение критерия. Действительные значения/> (р = ,..) гораздо более предпочтительнее, нежели утверждения типа неравенств (р > 0,05,/? < 0,05 и т. п.), с аббревиатурами типа НЗ («незначимо») или с граничными значениями типа «значимо на уровне 0,05». Q См. указание 4.15: действительные р-значения. ф Взаимосвязь не является причинной обусловленностью [3]. Общераспространенной ошибкой при интерпретации связи является вывод о том, что изменение одной переменной служит причиной изменения другой. Причиной тесной связи двух переменных может быть на самом деле третья переменная'. Вот пример: взаимосвязь между смертностью и респираторными заболеваниями значительно сильнее в юго-западных штатах, хотя сухой 1слимат часто бывает благоприятен для таких пациентов. Климат не является причиной смертности; он просто привлекает в эти штаты непропорционально большое число людей с респираторными заболеваниями. Когда эти люди умирают, частота новых случаев смерти показывает необычно высокую долю летальных исходов среди людей с респираторными заболеваниями. б J. Для первоочередных связей исследования указывайте значение статистики критерия и число степеней свободы. По данным, относящимся к интересующему нас сравнению, в ходе статистической проверки вычисляется одно число, называемое статистикой критерия^ Затем статистика критерия сравнивается с подходящим распределением вероятности (таким, как распределение хи-квадрат) и вычисляется вероятность (р-значение), связанная с этой статистикой. Значение р показывает вероятность того, что статистика критерия при условии отсутствия взаимосвязи случайно примет или превысит полученное в исследовании крайнее значение. Число степеней свободы — это математическое понятие, помогающее определить, какое распределение вероятности следует использовать. Например, есть несколько распределений хи-квадрат, каждое из которых отличается от других иным числом степеней свободы. Указание в отчете статистики критерия и числа степеней свободы помогает читателям убедиться в том, что анализ был проведен правильно. Однако на практике составление полного отчета о статистическом анализе является обременительным и детально нужно рассказать лишь о взаимосвязях, представляющих первоочередной интерес. ' Либо последовательность признаков, связанных между собой причинно-следственными связями. ^ Само слово «статистика» имеет очень много смыслов. Это и наука, и вид деятельности, и собранные данные и т. д. Но это еще и конкретные значения результатов вычислений, в данном случае величины статистических критериев.
96 Составление статистических отчетов в медицине КОРРЕЛЯЦИОННЫЙ АНАЛИЗ: (ЛИНЕЙНЫЕ) СООТНОШЕНИЯ МЕЖДУ ДВУМЯ НЕПРЕРЫВНЫМИ ПЕРЕМЕННЫМИ Образец презентации Сильная обратная корреляция между уровнем свинца в зубной эмали и доходом семьи свидетельствует о том, что в организме детей из более бедных семей наблюдается более высокий уровень свинца (п = 39; коэффициент Пирсона г = -0,62; р = 0,001). Здесь: • г указывает на то, что в качестве коэффициента корреляции взят коэффициент Пирсона. • Коэффициент г в данном случае показывает корреляцию -0,62. Знак минус говорит о наличии обратной корреляции: одна из переменных возрастает с убыванием другой. • р — вероятность того, что коэффициент корреляции может случайно принять такое же или большее значение (без учета знака), если переменные на самом деле не коррелированны. 6.8, Опишите интересующую взаимосвязь. Корреляционный анализ описывает линейную связь между двумя непрерывными переменными, которые, как предполагается, изменяются совместно в пределах соответствующих диапазонов своих значений. Например, сильно и положительно (или прямо) коррелированны длина шага и рост: более высокие люди делают более широкие шаги, чем люди меньшего роста. 6.9. Идентифицируйте сравниваемые переменные и охарактеризуйте каждую из них описательной статистикой. в корреляционном анализе обе переменные должны быть непрерывными, поэтому каждую из них можно охарактеризовать мерой центральной тенденции и мерой рассеяния, такими как среднее и СО или медиана и интерквартильная широта. Эти описательные статистики особенно необходимо представлять для первоочередных сравнений (см. гл. 1). ЬЛ О» Укажите используемый коэффициент корреляции. Приведем некоторые общеупотребительные коэффициенты корреляции: • Коэффициент корреляции Пирсона /*, который используется для выявления взаимосвязи между двумя приблизительно нормально распределенными непрерывными переменными. (В действительности переменные должны удовлетворять совместно «двумерному нормальному распределению».) • Коэффициент ранговой корреляции Спирмена, ро (р), применяемый для выявления взаимосвязи между двумя непрерывными переменными, по крайней мере одна из которых распределена не по нормальному закону. • Коэффициент ранговой корреляции Кендалла, тау (т), применяемый для выявления взаимосвязи между двумя порядковыми переменными или между одной порядковой и одной непрерывной. • Точечно-бисериальный коэффициент корреляции, или просто бисериальная корреляция, применяемый для выявления взаимосвязи между непрерывной переменной и двухуровневой категориальной переменной.
Отчет об анализах связей и корреляций 97 • Точечно-мультисериальный коэффициент корреляции, применяемый для выявления взаимосвязи между непрерывной переменной и категориальной переменной с тремя и более уровнями. Другие меры связи, применяемые при многократных измерениях или наблюдениях, полученных от каждого участника исследования, включают внутриклассовые или межклассовые коэффициенты корреляции, показывающие степень корреляции соответственно внутри или между оценками. 6.11. Оговорите, что предположения, соответствующие критерию, имеют место. Все, что нужно включить в отчет, — это утверждение о проверке некоторых предположений. Эти предположения относятся к шкале измерения, как отмечалось выше при описании коэффициентов. 6.12. Указывайте значение коэффициента корреляции. Коэффициент корреляции показывает силу и направление взаимосвязи между двумя переменными. Коэффициенты корреляции меняются в пределах от -1 до +1, где 1 означает полную корреляцию, а О — отсутствие корреляции. Отрицательный коэффициент (например, -0,82) говорит о том, что одна из переменных стремится возрастать с уменьшением другой, т. е. об обратной связи. Положительный коэффициент (например, +0,75) говорит о стремлении переменных возрастать или убывать одновременно. Корреляционный анализ часто изображается графически с помощью «диаграммы рассеяния» данных (см. рис. 6.1 и 6.2). Диаграмма рассеяния, примерно напоминающая круг, свидетельствует о слабой или вовсе отсутствующей линейной корреляции. Чем больше диаграмма рассеяния становится диагональной, эллипсовидной, тем сильнее корреляция. Иногда корреляции выявляются для нескольких пар переменных. В этом случае коэффициенты можно представить в стандартной корреляционной матрице (табл. 6.2). Щ Корреляция — вопрос уровня. Хотя о двух переменных принято говорить как о «коррелированных», точной границы или значения г, после которой они «становятся» коррелированными, нет. Пожалуй, вместо того, чтобы говорить о «наличии» или «отсутствии» корреляции, лучше использовать фразы типа «наблюдалась умеренная (или слабая, или сильная) корреляция переменных». Интерпретация результатов также зависит от природы исследования. Значение г, равное 0,7, между весом при рождении и пенсионным доходом через 65 лет было бы неправдоподобно высоким, поскольку взаимосвязь между этими переменными, очевидно, намного сложнее, чем можно предположить. С другой стороны, г, равное 0,7, между двумя лабораторными испытаниями для одной и той же выборки может оказаться низким. Щ Наличие корреляции не означает наличия причинной связи [4,5]. Качество почерка и размер обуви сильно коррелируют, но одно, очевидно, не является следствием другого. И то и другое меняется с возрастом; взросление скорее всего является истинной «причиной» как улучшения почерка, так и увеличения размера обуви. Корреляционный анализ выявляет не причины, а лишь взаимосвязи и — до некоторой степени — силу этих взаимосвязей.
98 Составление статистических отчетов в медицине Таблица 6.2 Стандартная корреляционная матрица^ Переменная 1 2 3 4 1 г Р п ... ... ... ... 2 г Р п -0,24^ ОДО 29 ... Переменная 3 г Р п ~0Л7 037 27 -0,22 0,24 28 ... ... 4 г Р п 0,01 0,94 30 -0,38 0,03 31 0,32 0,08 29 5 г Р л 0,009 0,96 30 0,03 0,83 31 -0,11 0,53 29 0,28 0,10 32 ^ Для упрощения презентации дубликаты клеток обычно оставляются чистыми (отмечены многоточиями); п — объем выборки. ^ Здесь корреляция для переменных 1 и 2 равна г = 0,24 (р = 0,20) для 29 субъектов, имеющих значения обеих переменных, где г— коэффициент корреляции, р — значение вероятности. 6.13. Указывайте для корреляции достигнутое р-значение. Все р-значения приводите до двух значащих цифр. Избегайте выражений типа «р меньше, чем» или «р больше, чем». Значение р для коэффициента корреляции является результатом проверки нулевой гипотезы о том, что «истинный» коэффициент равен нулю, т. е. что между двумя переменными нет линейной связи. Значение р ничего не говорит о клинической важности или силе взаимосвязи [6]. При проверке значимости значение г обычно сравнивается с нулем, но можно рассчитать вероятность того, что г отличается от любого значения между +1 и -1. 6.14. При проведении первоочередных сравнений указывайте (95%-й) доверительный интервал для коэффициента корреляции независимо от того, является ли он статистически знaчимым^ Те коэффициенты корреляции, которые не являются статистически значимыми, нужно интерпретировать в свете статистической мощности критерия ради отыскания клинически ' Доверительный интервал для коэффициента корреляции является несимметричным и для своей оценки требует выполнения так называемого преобразования Фишера, приводящего распределение преобразованной величины к асимптотически нормальному распределению. Детали построения доверительного интервала для коэффициента корреляции достаточно подробно описаны во многих изданиях, приведенных в Приложении к русскому переводу. Достаточно подробно эта процедура описана в книге Э. Ферстер, Б. Реиц. Методы корреляционного и регрессионного анализа. М., 1983. С. 177-180.
Отчет об анализах связей и корреляций 99 важного значения г. Доверительные интервалы полезны тем, что имеют отношение к адекватности объема выборки, и результатом изучения выборок с большими объемами являются более узкие доверительные интервалы. ф См. указание 3.1: указание в отчете доверительных интервалов. бЛ 5. При проведении первоочередных сравнений включайте диаграмму рассеяния данных. Графическое представление взаимосвязи между двумя переменными часто упрощает понимание этой взаимосвязи. На рис. 6.1 показаны две сильно (линейно) коррелированные переменные; на рис. 6.2 показаны две слабо (линейно) коррелированные переменные. ф Корреляцию следует оценивать не визуально, а математически [7]. Литература 1. Godfrey К. Simple linear regression in medical research. In: Bailar JC, Mosteller F, eds. Medical Uses of Statistics, 2nd ed. Boston: NEJM Books; 1992:201-32. 2. Altman DG, Bland JM. Measurement in medicine: the analysis of method comparison studies. Statistician. 1983; 32:307-17. 3. Murray GD. Statistical guidelines for the British Journal of Surgery. Br J Surg. 1991; 78:782-4. 4. Altman DG, Gore SM, Gardner MJ, Pocock SJ. Statistical guidelines for contributors to medical journals. BMJ. 1983; 286:1489-93. 5. Schoolman HM, BecktelJM, Best WR, Johnson AE. Statistics in medical research: principles versus practices. J Lab Clin Med. 1968; 71:357-67. 6. Sheehan TJ. The medical literature: let the reader beware. Arch Intern Med. 1980; 140:472-4. 7. Badgley RE An assessment of research methods reported in 103 scientific articles from two Canadian medical journals. Can Med Assoc J. 1961; 85:246-50.
100 Составление статистических отчетов в медицине Глава 7 Предсказание значений, зависящих от одной или более переменных Отчет о регрессионном анализе Коэффициент линейной регрессии говорит о влиянии, которое оказывает на общий исход каэюдая из независимых переменных в контексте (или в «подгонке» по ним) всех остальных переменных. J. CoNCATO, А. R. Feinstein, т. R. Holford [1] Регрессионный анализ' — это область статистики, пытающаяся предсказать или оценить значение (зависимой) переменной отклика по известным значениям одной или нескольких (независимых) предикторных переменных. Анализ, в котором используется одна преди- кторная переменная, называется простой регрессией; если же используется совокупность предикторных переменных, он называется множественной регрессией. Если переменная отклика является бинарной (двоичной) категориальной переменной (такой, как болен — не болен), такой анализ называется логистической регрессией. Если переменная отклика непрерывна и линейно связана с независимой переменной (переменными), такой анализ называется линейной регрессией. Как линейный, так и логистический регрессионный анализы могут быть простым или множественным, в соответствии с вышесказанным. В типичном случае исследователь соберет данные по нескольким возможным предиктор- ным переменным, определит, какие переменные наиболее сильно связаны с переменной отклика, и затем включит эти переменные в математическую модель (уравнение регрессии). Другими словами, модель «подгоняется» под данные. Таким образом, цель множественного регрессионного анализа состоит, по существу, в том, чтобы выяснить, какое сочетание предикторных переменных наилучшим образом предсказывает значение переменной отклика. Регрессионный анализ можно применять для «контроля за» возможными совместными воздействиями независимых предикторных переменных, связанных с переменными отклика. Регрессионный анализ может, например, отделить друг от друга влияние, скажем, возраста и пола на выживаемость после операции. Еще его можно использовать при создании индексов риска. Индекс риска комбинирует несколько переменных в единственный показатель, который связан со специфическим исходом или специфической вероятностью бо- 1 Без преувеличения можно сказать, что регрессионный анализ является одним из стержневых, ведущих методов прикладной статистики. Несмотря на долгую историю этого метода, он и в настоящее время интенсивно развивается. Благодаря своим уникальным возможностям он щироко применяется во многих отраслях знания. См.: Corlett Т. Ballade of Multiple Regression // Journal of the Royal Statistical Society. Series С (Applied Statistics). Vol. 12. No. 3. P. 145. С содержанием баллады читатели могут ознакомиться по адресу: http://www.research-network.org.uk/ resources/winterOS .pdf
Отчет о регрессионном анализе 101 лезни. Здесь переменные для индекса риска — предикторы из уравнения регрессии, а сам индекс — значение, предсказанное регрессионной моделью. Модели регрессии тесно связаны с другим классом статистических моделей, называемых моделями ANOVA. Обычно множественный регрессионный анализ используется при работе с непрерывными предикторными переменными, тогда как ANOVA — при анализе категориальных предикторных переменных. Когда исследование включает как непрерывные, так и категориальные предикторные переменные, анализ обычно называется множественным регрессионным, а иногда — ковариационным (ANCOVA). ANCOVA обычно используется там, где главный интерес представляют категориальные предикторные переменные и где необходимо контролировать влияние мешающих переменных — либо категориальных, либо непрерывных. Указания по отчету об ANOVA даны в гл. 8. Существует несколько видов регрессионного анализа. • Простая линейная регрессия используется для оценки связи между одной непрерывной предикторной переменной и одной переменной отклика (зависимой переменной), линейно меняющейся в некотором диапазоне значений {см. указания 7.1-7.10), • Множественная линейная регрессия используется для оценки линейной связи между двумя или более непрерывными или категориальными переменными и одной непрерывной зависимой переменной отклика {см. указания 7.11-7.22). • Простая логистическая регрессия используется для оценки связи между одной непрерывной или категориальной предикторной переменной и одной категориальной обычно бинарной переменной отклика, например имел или не имел место сердечный приступ {см. указания 7.23-7.30). • Множественная логистическая регрессия используется для оценки связи между двумя или более непрерывными или категориальными предикторными переменными и одной категориальной переменной отклика {см. указания 7.31-7.42). • Нелинейная регрессия используется для оценки переменных, связанных нелинейной зависимостью, которая, как правило, не трансформируется в линейную. Эти уравнения моделируют более сложные взаимосвязи по сравнению с другими формами регрессионного анализа. • Полиномиальная регрессия может использоваться для любой из вышеприведенных комбинаций предикторных переменных и переменных отклика, если они связаны такой криволинейной зависимостью, которая требует, скажем, возведения в квадрат или в куб одной или более предикторных переменных модели. • Регрессия пропорциональных рисков Кокса — разновидность анализа времени (выживания) до наступления некоторого события, используется для оценки связи между двумя или более непрерывными или категориальными переменными и одной непрерывной переменной отклика (время до наступления этого события). В типичном случае событие (обычно смерть) еще не произошло в отношении всех участников выборки, что создает цензурированные наблюдения {см. гл. 9), • Мета-регрессия — это приложение регрессионного анализа, используемое в сочетании с метаанализом. Здесь точки данных являются результатами отдельных исследований, включенных в метаанализ {см. гл. 17). Здесь мы даем указания по составлению отчетов о первых четырех типах регрессионного анализа, наиболее широко применяемых в медицине. Некоторые из этих указаний применимы более чем к одному типу; мы продублировали их там, где это необходимо, чтобы
102 Составление статистических отчетов в медицине сделать каждый набор указаний самодостаточным. Пояснения и указания по нелинейному и полиномиальному анализу остаются вне пределов данной книги. Регрессия Кокса, в силу своей распространенности в медицинских исследованиях, описана отдельно в гл. 9, поскольку включает в себя разные виды переменной отклика. ПРОСТОЙ ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ Предсказание значений одной непрерывной переменной отклика, зависящей от одной непрерывной предикторной переменной Образец презентации Мы попытались предсказать изменение уровня сыворотки в зависимости от веса у 453 испытуемых с помощью простого линейного регрессионного анализа. Угловой коэффициент линии регрессии был значительно больше нуля, что указывало на рост уровня сыворотки одновременно с увеличением веса (угловой коэффициент = 0,25,95% ДИ 0,19-0,31,4^51 - ^'^' р < 0,001; Y = 12,6 + 0,25Х; г^ = 0,67). Здесь: • 453 — объем выборки. • 0,25 — угловой коэффициент линии регрессии; он появляется также в уравнении регрессии в качестве коэффициента при предикторной переменной X (вес). Коэффициент 0,25 означает, что на каждый дополнительный килограмм веса среднее значение уровня сыворотки возрастает на 0,25 мг/дл. • 95% ДИ оценивает диапазон, в котором угловой коэффициент, скорее всего, окажется в 95 из 100 подобных исследований. Этот интервал не содержит нуля, что указывает на статистическую значимость результатов на уровне 0,05. • 8,3 — значение статистики критерия Стьюдента из t-распределения с 451 степенью свободы, использованной для определения достигнутого уровня р-значения. • р — вероятность получить крайнее или выходящее за крайние пределы значение углового коэффициента по сравнению с наблюдаемым, если на самом деле между переменными нет линейной связи. Следовательно, малое значение р (меньшее, чем 0,05) является свидетельством против нулевой гипотезы, которая заключается в равенстве углового коэффициента нулю. • Линия регрессии описана уравнением, в котором Y — предсказываемое значение при данном X на изучаемом интервале его изменения; 12,6 ~~ значение Y, в котором линия регрессии пересекает ось Y (точка пересечения с осью У) в случае, когда X = О кг, находится в интервале изменения данных; 0,25 — угловой коэффициент линии регрессии; X — значение, в зависимости от которого делается предсказание. Числа 12,6 и 0,25 называются коэффициентами регрессии. В большинстве статистических проверок рассматривается коэффициент регрессии для предикторной переменной, т. е. угловой коэффициент. Как отмечалось выше, коэффициент 0,25 означает, что с каждым добавочным килограммом веса средний уровень сыворотки возрастает на 0,25 мг/дл. • г^ — это коэффициент детерминации (квадрат коэффициента корреляции для диаграммы рассеяния данных), указывающий на то, что 67 % изменчивости уровня сыворотки, вероятно, следует объяснить его взаимосвязью с изменчивостью веса. Это мера «согласия» модели с данными.
Отчет о регрессионном анализе 103 7.1. Опишите интересующую вас взаимосвязь или цель анализа. Простой линейный регрессионный анализ используется для проверки линейности взаимосвязи между одной предикторной переменной и одной переменной отклика, или стремления одной переменной изменяться вместе с другой. Простой линейный регрессионный анализ можно также использовать для предсказания значения переменной отклика по предикторной переменной. К примеру, с его помощью можно оценить взаимосвязь возраста с уровнем холестерина и предсказать уровень холестерина в крови в зависимости от возраста. 72. Идентифицируйте каждую используемую в сравнении переменную и охарактеризуйте ее описательной статистикой. Для простого линейного регрессионного анализа требуется две непрерывные переменные. Одна из них должна быть идентифицирована как предикторная, другая — как переменная отклика. Распределение каждой из них следует охарактеризовать центральной мерой (например, средним) и мерой рассеяния (например, СО). 73, Оговорите сделанные для простого линейного регрессионного анализа предположения и способы их проверки. Все, что нужно включить в отчет, — это подтверждение некоторых предположений. Для простого регрессионного анализа они состоят в следующем. • Зависимость между X и Y линейна во всем диапазоне исследуемых значений. • Распределения Y имеют равные дисперсии (или СО) при каждом значении X; иными словами, СО Y одинаково вне зависимости от значения X. • Каждое значение У независимо от остальных значений У'. • Переменная отклика У распределена нормально при каждом значении предикторной переменной X. Для проверки этих предположений существуют как формальные (например, проверки статистических гипотез), так и неформальные процедуры (например, просмотр графиков распределения остатков; см. рис. 21.26). Данные, для которых эти предположения нарушаются, иногда можно скорректировать (например, при помощи преобразования данных). Такого рода корректировки должны оговариваться особо. 7.4. Укажите, каким образом рассматривались аномальные значения (выбросы). Выбросы — это экстремальные значения, которые кажутся аномальными. Игнорировать выбросы нельзя; они в действительности могут указать на особые случаи, открывающие новые области исследования. Однако они могут оказать непропорциональное воздействие на результаты регрессионного анализа. В отчете следует сообщать обо всех выбросах, но иногда допустимо анализировать данные и без них, если для такого игнорирования есть законные основания. Но это должно быть отражено в отчете вместе с причинами игнорирования аномальных значений (например, загрязненные образцы или неоткалиброванное оборудование). Если игнорировать выбросы на законных основаниях нельзя, то ради демонстрации их влияния допустимо привести результаты и с выбросами, и без них. ' в данном случае авторы не вполне корректны. Независимыми между собой должны быть не сами значения Y, а отклонения этих значений от величин, предсказанных по уравнению регрессии, так называемые невязки.
104 Составление статистических отчетов в медицине ^ «Даже единичный выброс может оказать глубокое влияние на взаимосвязь, выводимую из линии регрессии» [2,3]. 7.5. Приведите уравнение линейной регрессии. Линия регрессии описывается уравнением прямой (или «моделью»): Y = a + bX, где Y— предсказываемое значение переменной отклика, а — свободный член, точка, в которой линия регрессии пересекает ось Y, b — угловой коэффициент линии регрессии, а X — предикторная переменная, с помощью которой предсказываются значения Y. По данному значению предикторной переменной X можно вычислить соответствующее значение У. Таким образом, наиболее вероятное значение Y можно предсказать для всякого значения X в пределах изучаемого диапазона. В то время как коэффициент корреляции г показывает направление и силу взаимосвязи между двумя переменными, коэффициент регрессии при предикторной переменной (угловой коэффициент линии регрессии или b в уравнении регрессии, рис. 7.1) показывает, насколько среднее значение переменной отклика Y меняется с каждой единицей изменения предикторной переменной X. Уравнение можно привести в тексте или на диаграмме рассеяния данных (см. указание 7.9), л = 25 г" = 0,81 р = 0,05 Y = 0,03 + 1,07X Z (U Q. (U го S Z о» Q. Остатки Точки данных Линия регрессии ■ 95%-я доверительная полоса для линии регрессии Предикторная переменная, единицы измерения Рис. 7.1. Гипотетическая диаграмма рассеяния, на которой отмечены компоненты графического представления регрессионного анализа. 95% ДИ вокруг линии регрессии (доверительная полоса) указывает на пригодность данной модели. Эти полосы непригодны для предсказания отдельных или средних откликов; они скорее предназначены для демонстрации точности линии регрессии [8]. Доверительные полосы расширяются на концах линии вследствие того, что на концах диапазона измеряемых значений обычно имеется меньшее количество точечных наблюдений, и это уменьшает точность оценок на каждом конце диапазона. В левом верхнем углу рисунка даны также компоненты математического анализа регрессии: п — объем выборки, г^ — коэффициент детерминации, р — значение вероятности, полученное при проверке гипотезы о равенстве углового коэффициента нулю, а Y — значение переменной отклика, предсказанное, согласно вышеприведенному, из уравнения регрессии
Отчет о регрессионном анализе 105 7.6. Укажите действительное значение р и (95%-й) доверительный интервал для коэффициента регрессии при предикторной переменной. Коэффициент для предикторной переменной в уравнении простой линейной регрессии (угловой коэффициент линии регрессии) является мерой взаимосвязи между двумя переменными. Линия регрессии, у которой он равен нулю, — горизонтальная линия, означает отсутствие линейной зависимости между переменными: значение переменной отклика Y одинаково для всех значений предикторной переменной X. Таким образом, нулевой угловой коэффициент становится нулевой гипотезой, которую следует проверить. Иными словами, /7-значение показывает вероятность получить данную или большую величину углового коэффициента, если на самом деле между переменными нет линейной связи. Кроме того, угловой коэффициент линии регрессии — всего лишь оценка, и точность этой оценки следует указывать при помощи доверительного интервала {см. гл. 3). 7 J. Представьте меру «согласия» модели с данными [4]. На предсказательное значение модели регрессии влияет то, насколько хорошо она «подходит» к данным. Таким образом, мера «согласия» полезна своим свойством выявлять, насколько хорошо модель отражает данные, по которым она была создана. Меры согласия включают коэффициенты корреляции и ассоциированные с ними/;-значения, коэффициент детерминации (/^) и его ассоциированное/7-значение, оценки остатков и выбросов, стандартную ошибку, среднеквадратичную ошибку стандартного отклонения остатков, чувствительность и специфичность модели, а также результаты применения любого из нескольких критериев согласия или отсутствия согласия. Простой линейный регрессионный анализ можно рассматривать как расширенный корреляционный анализ, за исключением того, что теперь одна переменная используется для предсказания поведения другой с добавлением линии регрессии. Как и при корреляционном анализе (см. гл. б), взаимосвязь полезно иллюстрировать при помощи диаграмм рассеяния (см. рис. 7.1). Сам коэффициент корреляции может косвенно показывать, насколько хорошо способна предсказывать модель. Если простая линейная регрессионная модель предназначена для предсказания с той или иной степенью точности, корреляции должны превышать, скажем, 0,7 и быть статистически значимыми. Коэффициент корреляции, связанный с диаграммой рассеяния, бывает также полезным в виде коэффициента детерминации (/^). Эта мера определенности показывает, в какой степени изменчивость, вариабельность переменной отклика объясняется вариабельностью предикторной переменной. Например, если корреляция между толщиной кожной складки и количеством туловищного жира равна 0,8, то г^ = 0,64, или 64 %. Это значит, что 64 % изменчивости количества туловищного жира может объясняться изменчивостью толщины кожной складки. Значение г^, равное 1, означает, что все точечные наблюдения попадают на линию регрессии, тогда как его равенство нулю означает, что предикторная переменная (X) не является линейно связанной с переменной отклика (Y). Даже значение коэффициента 0,7 объясняет только около половины интересующей нас изменчивости (г^ = 0,7 X 0,7 = 0,49 = 49 %). Поэтому корреляция, скажем, г = 0,3 может не быть клинически полезной, поскольку одна переменная объясняет слишком малую часть изменения (здесь Н = 9 %). При других же обстоятельствах объяснение одной переменной 9 % изменчивости зависимой переменной может оказаться прорывом.
106 Составление статистических отчетов в медицине ^ Коэффициент детерминации (/^), применяемый в простом регрессионном анализе, аналогичен коэффициенту множественной детерминации (jR^), применяемому во множественном регрессионном анализе, но имеет отличие. Строчная буква г говорит о наличии только двух переменных (одной предикторной и одной переменной отклика); заглавная R говорит о более чем двух переменных (более одной предикторной и одной переменной отклика). ^ Коэффициент корреляции и коэффициент детерминации в регрессионном анализе описывают влияние предикторной переменной (X) на переменную отклика (Y); они не описывают влияние Y на X [2,5]. Остаток (невязка) — это разность между значением, предсказанным моделью, и реальным значением полученной точки наблюдения. Чем меньше остаток, тем лучше предсказание. Остатки можно также изобразить графически, чтобы выяснить, насколько хорошо удовлетворяется предположение линейности {см. рис. 21.26). Таким образом, график остатков (один из видов «диагностических графиков модели»), на котором их значения малы для всех значений X, подразумевая, что они остаются близкими к нулевой средней разности, показывает, что предположение линейности справедливо и что модель способна к предсказанию с приемлемым качеством. Оценки выбросов действуют так же, как оценки остатков, по той причине, что они и относящиеся к ним остатки изображены на рисунке как те точки наблюдений, которые подлежат исследованию. Более сложной мерой согласия является среднеквадратичная ошибка (известная также как стандартное отклонение отстатков). Среднеквадратичная ошибка вычисляется путем извлечения квадратного корня из среднего арифметического квадратов остатков. Она выражается в тех же единицах, что и данные, а не в квадратных единицах, и представляет величину «типичной» ошибки модели. Согласие регрессионной модели может также выражаться ее способностью давать правильные предсказания, например на каких пациентов препарат оказывает действие, а на каких — нет. В данном случае можно найти чувствительность, специфичность или диагностическую точность модели: ее способность правильно идентифицировать тех пациентов, на которых препарат окажет действие (чувствительность), тех, на кого препарат не окажет действия (специфичность), или общую долю правильных решений (диагностическая точность). {См. указание 10.8.) Формальные критерии согласия рассчитывают р-значение. Если оно статистически значимо, модель плохо согласуется с данными. К общепринятым критериям можно отнести критерии согласия хи-квадрат, Хосмера—^Лемешова, Колмогорова—Смирнова, Крамера— Смирнова—фон Мизеса и Андерсона—Дарлинга. 7.8, Определите, была ли модель обоснована. Регрессионные модели можно обосновать или протестировать на похожем множестве данных, с тем чтобы показать, что они объясняют то, что должны объяснить. • Один из методов обоснования, применяемый для больших выборок, состоит в том, чтобы построить модель, скажем, на 75 % данных, а затем составить другую модель для оставшихся 25 % и выяснить, оказались ли модели схожими. • Другой метод заключается в удалении данных от каждого объекта по очереди и пересчете модели. Затем оцениваются коэффициенты и предсказательные обоснованности
Отчет о регрессионном анализе 107 всех полученных при этом моделей. Такие методы известны под названием методов складного ножа (англ. —jackknife). • Третий метод заключается в создании другой модели на отдельном множестве похожих данных. После этого определяется, есть ли между этими моделями какие-либо отличия. 7.9. Для первоочередных сравнений включите в отчет диаграмму рассеяния данных, линию регрессии и (95%-й) доверительный интервал (или полосу предсказания) линии регрессии. При простом линейном регрессионном анализе, так же как и при корреляционном, данные можно изобразить в виде диаграммы рассеяния (см. рис. 6.1 и 6.2) с проведенной через них линией регрессии (см. рис 7.1). Рисунок такого рода покажет: t наличие выбросов; t является ли взаимосвязь на самом деле линейной (хотя линейность следует оценивать математически, а не визуально); • ширину (95%-й) доверительной полосы вокруг линии регрессии, что указывает на соответствие подгонки. Доверительные полосы показывают точность наклона линии регрессии, а не индивидуальные значения или предсказания. ф Не удлиняйте линию регрессии за пределы данных [6-8]. Линия регрессии имеет силу только в диапазоне тех данных, по которым она вычисляется. Поскольку многие взаимосвязи линейны только внутри определенных диапазонов, неразумно предполагать, что линия регрессии останется неизменной при более низких или более высоких значениях предикторной переменной (рис. 7.2). ф Поскольку линия регрессии не должна продолжаться за пределы данных, она не должна проходить через ось Y, если X не может принимать значение 0. При графическом представлении исхода в зависимости от веса последний не может принимать значение О, поэтому прямая не должна пересекать ось Y, несмотря на то что точка пересечения с осью Y существует для всякого уравнения простой линейной регрессии (рис. 7.2). @ Убедитесь, что число точек наблюдения на рисунке соответствует количеству включенных в отчет наблюдений. В дополнение к обычному стремлению к точности подсчет отмеченных значений может выявить случайно пропущенные выбросы. 7.10. Укажите название применяемого при анализе статистического пакета или программы. Указание программного пакета, использованного в статистическом анализе, важно по следующим соображениям: если коммерческие пакеты обычно бывают легализованными и обновленными, то создаваемые в частном порядке программы — не всегда. Кроме того, не всякое статистическое программное обеспечение использует одинаковые алгоритмы или опции по умолчанию при вычислении одной и той же статистики. Вследствие этого результаты могут варьироваться от пакета к пакету или от алгоритма к алгоритму, В числе наиболее используемых пакетов находятся SAS (Statistical Analysis Systems), BMDP, SPSS (Statistical Package for the Social Sciences), StatXact, Stat View, StatSoft, InStat, Statistical Navigator, SysStat, Minitab, LISPJEL, EQS, EGE и GLIM.
108 Составление статистических отчетов в медицине (С I (U Q. (U го Z =Г X 0) ОС fD X X (U (U Q. Ф С п = 25 г2 = 0,81 р = 0,05 Y = 0,03 + 1,07X .-••'* ^^ г ^^у""^ Если линию предполагается удлинить до пересечения с осью Y, то это означает возможность принятия значений, близких нулю • /■^ Линия регрессии имеет силу лишь в том диапазоне данных, который рассматривался в анализе; здесь — от 6 до 21 кг 12 15 Вес, кг 18 21 24 27 30 Рис. 7.2. Гипотетическая линия регрессии с некорректным удлинением за пределы данных в обоих направлениях. Вес, к примеру, не может быть равным О кг, поэтому левый конец линии не должен пересекать ось У; кроме того, связь может оказаться нелинейной для больших значений веса, поэтому правый конец линии не должен продолжаться за пределы диапазона данных МНОЖЕСТВЕННЫЙ ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ Предсказание одной непрерывной переменной отклика по двум и более непрерывным предикторным переменным Образец презентации Нами разработана модель для предсказания значения полной функции Y для пациентов с множественным склерозом на основе степени тяжести болезни Х^ (уровень 1 — наименее тяжелая форма, 15 — наиболее тяжелая), способности передвигаться (скорость ходьбы, выражаемая в количестве пройденных дорожек в минуту) Х^ и количества поражений Xj. Окончательная модель имела /?^ равное 0,58: Y = 40,8 + 3,98Х^ + 1,22X2 ~ 2,09X3. Продолжение на след, стр.
Отчет о регрессионном анализе 109 Образец презентации (продолжение) Здесь: • Y —- переменная отклика, значение полной функции. • Х^, Xj и Хз — предикторные переменные (иногда их называют факторами риска), • Числа, стоящие перед X, ^ з' называются коэффициентами регрессии, или бета-весами. Коэффициенты интерпретируются так: если Х^ и Х^ остаются постоянными (или «фиксируют» тяжесть болезни и количество поражений), то среднее значение функции вырастает примерно в один с четвертью раза (1,22, коэффициент при Х^) на каждую дополнительную дорожку в минуту (табл. 7.1). • Коэффициент множественной детерминации /?^ показывает ту долю суммарной вариации переменной отклика, которая объясняется с помощью данной модели. Здесь значения трех переменных объясняют 58 % изменчивости переменной отклика. Таблица 7,1 Табличный отчет о множественной линейной регрессионной модели с тремя предикторными переменными Переменная Коэффициент Стандартная (Р) ошибка 95% ДИ Статистика критерия Вальда х^ Свободный член X. х^ Хз 40,79 3,98 1,22 -2,09 2,55 2,37 0,29 0,28 — -0,67...+8,63 0,66-1,80 -2,64...-1,54 — 1,68 4,20 -7,34 — 0,10 < 0,001 < 0,001 Свободный член — математическая константа, не имеющая клинической интерпретации; Х^-Хз — три предикторные переменные; коэффициент — весовое значение предикторной переменной в уравнении; коэффициент регрессии, или бета-вес; стандартная ошибка — оценка точности коэффициентов; 95% ДИ — 95%-е доверительные интервалы для коэффициентов; статистика критерия Вальда ;^^ вычислена по данным для сравнения с распределением хи-квадрат с одной степенью свободы; р-значение — переменные 2 и 3 являются статистически значимыми независимыми переменными для переменной отклика. 7.11. Опишите интересующую взаимосвязь или цель анализа [9]. 7.12. Идентифицируйте сравниваемые переменные и снабдите каждую из них описательной статистикой. Переменная отклика в множественном линейном регрессионном анализе является непрерывной, а предикторные переменные могут быть либо категориальными, либо непрерывными.
110 Составление статистических отчетов в медицине 7Л 3. Оговорите сделанные для множеавенного линейного регрессионного анализа предположения и способы их проверки [9]. Все, что нужно включить в отчет, — это подтверждение некоторых допущений. Для множественного регрессионного анализа они представляют собой обобщения допущений, сделанных ранее для простого линейного регрессионного анализа. • Зависимость между каэюдым из X и Y линейна во всем диапазоне исследуемых значений. • Распределения Y имеют равные дисперсии (или СО) при каж:дом значении каэюдого из X; иными словами, СО Y одинаково вне зависимости от значения X. • Каждое значение Y независимо от других для каэюдого значения каждого X. • Переменная отклика У распределена нормально для каждого значения каждой преди- кторной переменной Х^, Х2, Х3 и т. д. 7,14. Укажите, как в анализах изучались выбросы [9]. ^ См. указание 7.4: рассмотрение выбросов в данных. 7Л 5. Укажите, как в анализах изучались пропуски [9]. Пропуски могут стать проблемой в регрессионном анализе, потому что они уменьшают объем выборки, если не приняты меры коррекции. Например, при создании модели предсказания веса по возрасту и росту значения каждой из этих переменных должны быть собраны для каждого пациента. Пациент, данные о возрасте которого отсутствуют, исключается из анализа, и объем выборки уменьшается на единицу. Потери вследствие пропусков в регрессионных моделях с несколькими переменными могут быть обычным делом'. Однако иногда недостающие данные можно восстановить с помощью процедуры восстановления (реконструкции). Методы простого восстановления включают использование средних всех наблюдаемых значений, вместо пропущенных значений; использование среднего наблюдаемого значения для того же субъекта в другое время; использование среднего между предыдущим и последующим значениями для этого субъекта, если они существуют; или использование самого последнего наблюдаемого значения для данного субъекта (метод переноса последнего наблюдения, обычно применяемый в фармацевтических исследованиях). Регрессионное восстановление включает в себя создание регрессионной модели для предсказания пропущенных значений. При восстановлении методом «горячей колоды» («hot deck») все наблюдения делятся на группы с похожими характеристиками, такими как «белые мужчины в возрасте от 18 до 25 лет». Пропущенное значение заменяется значением этой же переменной, случайно выбранным среди мужчин этой группы. В модели пропусков для «данных с пропусками» создается переменная, и данные анализируются так, как если бы «пропуск» был просто другой категорией этой переменной. Например, в качестве четырех категорий тяжести заболевания можно определить умеренное, средней тяжести и тяжелое заболевания, а также отсутствие болезни. Преимущества ' Еще сложнее решение этой проблемы в случае множественного регрессионного анализа. Чем больше пре- дикторных переменных, тем больше наблюдений, которые имеют хотя бы один пропуск по той или иной переменной. В результате все меньшая доля полностью измеренных наблюдений может принять участие в оценке параметров уравнения регрессии. И для нахождения оптимального компромисса в этой ситуации, позволяюшего минимизировать возможные потери информации и получить при этом достаточно интересные и надежные регрессионные модели, от биостатистика требуется огромный опыт и большой объем работы.
Отчет о регрессионном анализе 111 этого метода состоят в том, что ни один случай не выпадает из анализа и что незамеченное сходство между людьми с пропущенными значениями будет охвачено новой категорией. Возможны и другие методы восстановления, но они должны базироваться на надежных обоснованиях. Во всяком случае, сравнивать пациентов с пропусками и с полными данными всегда полезно. Если, к примеру, пациенты с пропусками и с полными данными схожи по возрасту, полу, расе, истории болезни и, возможно, иногда даже по исходам болезни и т. д., то пропуски, вероятно, не будут представлять собой проблемы. 7.16. Отметьте, каким образом выбирались предикторные переменные, появляющиеся в итоговой модели [9]. Одним из первых шагов при построении множественной регрессионной модели является идентификация предикторных переменных, значимо связанных с переменными отклика. В этом процессе, называемом одномерным анализом, могут рассматриваться несколько дюжин переменных по одной за один раз. Часто в одномерном анализе для идентификации широкого диапазона предикторных переменных, которые могут быть связаны с переменной отклика, используется менее ограничительный уровень альфа, такой как 0,1. Это означает, что в одномерном анализе переменные ср-значением, меньшим 0,1, рассматриваются на предмет включения в модель. Если модель находится в центре внимания статьи, может оказаться полезным отразить в отчете результаты одномерного анализа. Переменные можно перечислить в таблице вместе с подходящими описательными статистиками (т. е. средним и СО или медианой и ин- терквартильной широтой) и /^-значениями для их взаимосвязи с переменной отклика. Второй шаг в построении регрессионной модели заключается в идентификации наилучшей комбинации предикторных переменных, включаемых в модель. При одновременной регрессии все предикторные переменные включаются в модель и тестируются одной группой. При иерархической регрессии исследователь определяет количество предикторных переменных и порядок, в котором они вводятся в модель. Обычными процедурами являются прямая, обратная, пошаговая методики, а также методика выбора наилучшего подмножества предикторов. При прямом отборе переменных предикторные переменные добавляются к модели по одной за один шаг, начиная с той переменной, которая сильнее всего связана с переменной отклика (переменная с наименьшим значением /?, определенным в ходе одномерного анализа). После добавления каждой переменной рассчитывается модель и определяется влияние этой переменной на /?^. Процесс прекращается тогда, когда добавление переменных больше не улучшает значение R^. При обратном отборе переменных модель сначала рассчитывается со всеми возможными предикторными переменными (как и при одновременной регрессии), а затем вычисляется заново после удаления переменной с наименее значимой взаимосвязью с переменной отклика. Процесс продолжается до тех пор, пока в модели не останутся только статистически значимые переменные. Пошаговый отбор включает в себя сочетание прямого и обратного отбора, что позволяет переменным попадать в модель или выходить из нее (прямой или обратный отбор) на любом этапе процесса'. ' Нередко для того, чтобы найти несколько интересных и надежных уравнений регрессии, приходится, используя различные комбинации многих опций и алгоритмов оценок, находить десятки, а то и сотни уравнений. Следует отметить, что подобная технология трудно формализуема и требует как большого практического опыта работы с пакетами, имеющими внутренний язык программирования, так и творческого подхода к выбору последовательности используемых алгоритмов.
112 Составление статистических отчетов в медицине Ограниченность этих методик отбора состоит в том, что они предполагают существование единственного «наилучшего подмножества» предикторных переменных. Однако в большинстве случаев никакого единственного «лучшего» подмножества не существует. Q Эмпирическое правило определения объема выборки, необходимого для надежного применения рассмотренных методик построения модели, состоит в том, что отношение числа наблюдений к числу переменных должно быть не менее 10 к 1 [9]. Так, модель с 5 предикторными переменными должна основываться на выборке объемом не менее 50 пациентов'. 7.17. Укажите, все ли возможные предикторные переменные прошли проверку на коллинеарноаь (независимость) [9]. Предикторные переменные в уравнении множественной линейной регрессии должны быть независимы друг от друга. Если две или более предикторных переменных коррелированны, т. е. если их линии регрессии параллельны («коллинеарны»), они не являются независимыми. Кол линеарные переменные прибавляют к модели во многом одинаковую информацию, и поэтому нужна только одна из них. На предмет включения в окончательный вариант модели должна рассматриваться переменная с наиболее сильной взаимосвязью с переменной отклика. ^ Отказ от определения кореллированных переменных может сделать результаты анализа недействительными. 7Л 8. Укажите, проверялись ли предикторные переменные на взаимодействие. Две предикторные переменные называются взаимодействующими, если влияние одной предикторной переменной на переменную отклика зависит от уровня второй предиктор- ной переменной. Взаимодействие переменных означает, что они должны рассматриваться совместно, а не по отдельности. Так, например, если алкоголь взаимодействует в крови с антибиотиками, в модели должна быть одна переменная для уровня алкоголя в крови, одна — для уровня антибиотика, а также член взаимодействия, выражающий взаимосвязь между уровнем алкоголя и антибиотика в сыворотке. 7.19. Приведите в отчете уравнение множественной линейной регрессии или сведите данные о нем в таблицу. Табл. 7.1 показывает, каким образом дается отчет о модели множественной линейной регрессии. Включите количество наблюдений в анализе, а также связанную с ним стандартную ошибку, /?-значение и (95%-й) доверительный интервал для каждого коэффициента в уравнении [9]. 7.20. Приведите значение меры «согласия» моделей с данными. ^ См. указание 7.7: определение меры «согласия». 7.21. Укажите, была ли модель обоснована. Q См. указание 7.8: проверка обоснованности регрессионных моделей. ' Здесь идет речь о числе наблюдений, каждое из которых не содержит ни одного пропуска по всем используемым переменным. Реально доля наблюдеГ'А^пропусками колеблется от О до 20 % (а то и больше).
Отчет о регрессионном анализе 113 7.22. Укажите название применяемого при анализе статистического пакета или программы. ф См. указание 7.10: отчет о статистических пакетах и программах. ПРОСТОЙ ЛОГИСТИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ Предсказание одной (бинарной) категориальной переменной отклика по одной предикторной переменной Образец презентации Среди 453 пациентов либо с высокими (> 220 мг/дл), либо с низкими (< 220 мг/дл) уровнями сыворотки вес оказался значимой независимой переменной для уровней сыворотки (весовой коэффициент = 0,44; СО = 0,11;^^^^^^ = 16Д р < 0,001; отношение шансов = 1,55; 95% ДИ 1,25-1,93). Здесь: • 453 — количество участников исследования. • 0,44 — регрессионный коэффициент при предикторной переменной, вес. • 0,11 — стандартная ошибка коэффициента регрессии, показывающая точность оценки коэффициента. Регрессионный анализ — один из тех немногих случаев, в которых следует указать стандартную ошибку. • 16,0 — значение статистики критерия, вычисленное по данным выборки и сравниваемое с распределением хи-квадрат с одной степенью свободы. Статистика критерия используется для определения р-значения. • р — вероятность получить крайнее или превосходящее крайнее значение отношения шансов по сравнению с наблюдаемым, если на самом деле отношение шансов равно 1. Здесь в силу малости значения р {менее 0,05) имеется свидетельство против нулевой гипотезы, заключающейся в том, что отношение шансов равно 1. Отсюда следует, что вес действительно влияет на серологические уровни. • 1,55 — отношение шансов для веса. Оно показывает, что с каждым дополнительным килограммом веса риск иметь высокие уровни сыворотки (как определено выше) возрастает в 1,55 раза, или на 55 %. • 95% ДИ для отношения шансов говорит о том, что в 95 из 100 подобных исследований следует ожидать попадание значения отношения шансов в интервал от 1,25 до 1,93. • Табл. 7.2 дает альтернативный отчет об анализе. 7.23. Опишите интересующую вас взаимосвязь или цель анализа. Простой логистический регрессионный анализ наиболее часто используется тогда, когда переменная отклика имеет два значения (но иногда три или более). Как и при простом линейном регрессионном анализе, одна непрерывная предикторная переменная используется для предсказания значений переменной отклика'. ' Точнее — предсказания вероятностей появления той или иной градации категориальной переменной отклика для конкретной комбинации значений предикторных переменных.
114 Составление статистических отчетов в медицине Таблица 7,2 Табличный отчет о простой логистической регрессионной модели, анализирующей взаимосвязь между весом и высоким или низким уровнями сыворотки „ . . ^ Статистика ^ _ Коэффи- Стандартная Отношение ^^^, _,^ Переменная ,«. Г критерия р-значение 95% ДИ циент(В) ошибка ^ , шансов Вальда -^ Свободный член -1,89 0Д8 — — — — Вес 0,44 0,11 16,0 < 0,001 1,55 1,25-1,93 Свободный член — математическая константа, не имеющая клинической интерпретации; вес — предикторная переменная (Х^); коэффициент — весовое значение предикторной переменной в уравнении; коэффициент регрессии, или бета-вес; стандартная ошибка — оценка точности коэффициента при переменной веса; статистика критерия Вальда ;^^ вычислена по данным для сравнения с распределением хи-квадрат с одной степенью свободы; р-значение — вес является статистически значимой независимой переменной для высоких уровней сыворотки; отношение шансов — на каждую единицу увеличения веса шанс иметь высокие уровни сыворотки возрастает в 1,55 раза; 95% ДИ — «истинное» значение отношения шансов, скорее всего, заключено в пределах от 1,25 до 1,93. 7*24. Идентифицируйте сравниваемые переменные и охарактеризуйте каждую из них описательной статистикой. Предикторная переменная будет непрерывной или категориальной, а переменная отклика будет бинарной. Особая схема измерений или кодирования могут оказывать заметное влияние на числовые значения и интерпретацию коэффициентов регрессии [1]; например, влияние возраста отличается при кодировании групп с разницей в 1 год, в 10 лет, или на бинарные категории (моложе или старше 65 лет). 7.25. Оговорите сделанные для простого логистического линейного регрессионного анализа предположения и способы их проверки. Все, что нужно включить в отчет, — это подтверждение некоторых допущений. Описание допущений для простого (и множественного) логистического регрессионного анализа выходит за рамки этой книги, но, как и во всех видах регрессионного анализа, нужна некоторая уверенность в правомерности этих допущений и уведомление о том, как это проверено. Как и ранее, существуют как формальные, так и неформальные (графические) процедуры проверки {см. указание 7.3). Данные, для которых предположения нарушаются, иногда можно скорректировать. Такого рода корректировки должны оговариваться особо. 7.26. Укажите, каким образом рассматривались выбросы. Q См. указание 7.4: рассмотрение выбросов в данных. 7.27. Отразите уравнение логистической регрессии в таблице. Уравнения логистической регрессии приводятся в отчетах редко вследствие трудностей при их интерпретации'. Вместо этого итоги анализа приводятся так, как показано в табл. 7.2. ' Действительно, интерпретация уравнения логистической регрессии требует немалых знаний теории этого метода. Кроме того, в различных статистических пакетах отличаются объем результатов и степень их детализации. Если же учесть, что в разных пакетах и процедурах используются разные алгоритмы оценок, то очевидно, сколько нюансов необходимо знать и учитывать при интерпретации этих результатов. Именно поэтому такой анализ должен производить профессионал в области биостатистики, и он же должен участвовать в дальнейшей интерпретации полученных результатов.
Отчет о регрессионном анализе 115 Включите в отчет количество наблюдений в анализе, коэффициент при предикторной переменной и связанную с ним стандартную ошибку, отношение шансов, его (95%-й) доверительный интервал, р-значение. Уравнение простой логистической регрессии выглядит так: 1 Вероятность исхода = где е — математическая константа (приближенно равная 2,72), Ь^ — константа модели, 6, — коэффициент при предикторной переменной X. Отношения шансов широко используются в логистическом регрессионном анализе. Для бинарной предикторной переменной отношение шансов равно дроби, в числителе которой стоят шансы того, что событие произойдет в одной группе, а в знаменателе — шансы того, что оно произойдет в другой. Отношение шансов, равное 1, означает, что вероятность, к примеру, сердечного приступа одинакова в обеих группах. Чем больше отношение шансов, тем с большей вероятностью следует ожидать события в группе с данными в числителе. Отношение шансов представляет собой оценку, следовательно, точность этой оценки можно описать при помощи доверительного интервала. Например, результат можно сформулировать так: «Вероятность сердечного приступа у курящих в 4,2 раза выше, чем у некурящих (95% ДИ 1,32 - 13,33;р = 0,03). {См. также гл. 2.) 7.28. Приведите значение меры согласия моделей с данными. Q См. указание 7.7: определение согласия. 7.29. Укажите, была ли модель обоснована. 0 См. указание 7.8: проверка обоснованности регрессионных моделей. 7.30. Укажите название применяемого при анализе статистического пакета или программы. 0 См. указание 7.10: отчет о статистических пакетах и программах. МНОЖЕСТВЕННЫЙ ЛОГИСТИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ Предсказание значений одной (бинарной) категориальной переменной по двум или более предикторным переменным 7.31. Опишите интересующую вас взаимосвязь или цель анализа. 7.32. Идентифицируйте сравниваемые переменные и охарактеризуйте каждую из них описательной статистикой. Важное значение в отчете может иметь указание того, как были закодированы переменные [4]. Категориальные предикторные переменные с множественными категориями, градациями должны рассматриваться с помощью индикаторных переменных. Например, можно ввести следующие типы занятости: работа в офисе, тяжелая работа, легкая работа
116 Составление статистических отчетов в медицине Образец презентации Наши результаты были использованы для построения модели предсказания инсульта (Y), в зависимости от курения (Х^), веса (Х^), возраста (Хд) и пола (Х^). Здесь: • Y — переменная отклика, возникновение или отсутствие инсульта» • Х^, Х^, Хз и Х^ — предикторные переменные (иногда их называют факторами риска), • Числа, стоящие перед Х^ ^за' называются коэффициентами, или бета-весами» • Табл. 7.3^ показывает результаты этого гипотетического анализа. Таблица 7,3 Табличный отчет о множественной логистической регрессионной модели с четырьмя предикторными переменными Переменная Свободный член X, X. Хз X. Коэффициент (Р) -1,89 1,435 -0,847 3,045 2,200 Стандартная ошибка 0,48 0,589 0,690 1,260 0,990 Статистика критерия Вальда х^ — 5,93 1,51 5,84 4,94 р-значение — 0,02 0,22 0,02 0,03 Отношение шансов — 4,2 0,43 21,01 9,03 95% ДИ — 1,32-13,33 0,111-1,66 1,78-248,29 1,30-62,83 Свободный член — математическая константа, не имеющая клинической интерпретации; Х^-Х^ — четыре предикторные переменные; коэффициент ф) — весовое значение для каждой предикторной переменной модели; коэффициенты регрессии, или бета-весы; стандартная ошибка — оценка погрешности весовых значений; статистика критерия Вальда ;^^ вычислена по данным для сравнения с распределением хи-квадрат с одной степенью свободы; р — значение вероятности, указывающее на то, что переменные 1,3 и 4 статистически значимо связаны с переменной отклика; отношение шансов — на каждую единицу увеличения, скажем, переменной 1 при фиксации остальных переменных модели шансы наступления исследуемого события возрастают в 4,2 раза. Аналогично, на каждую единицу увеличения, скажем, переменной Х^ при фиксации остальных переменных модели шансы события убывают в 0,43 раза; 95% ДИ — 95%-й доверительный интервал для оценки отношения шансов. ' Содержание такой таблицы во многом определяется возможностями используемого статистического пакета. К примеру, в табл. 7.3 отсутствуют такие важные характеристики уравнения, как безразмерные коэффициенты регрессии, позволяющие проранжировать, упорядочить предикторы по силе своего влияния на зависимую качественную переменную. Нет и такого показателя, как статистика D-Зомера, показывающая долю совпадений фактической принадлежности наблюдений к градациям зависимой качественной переменной отклика, с предсказанными по уравнению логит-рефессии. С примерами оформления результатов логистической регрессии читатели могут познакомиться в стзстьях: Дробилсев М. Ю., Макух Е. А., Дзантиева А. И. Сосудистая деменция в общей медицине: аспекты эпидемиологии, бремени болезни, терапии // Психиатрия и психофарматерапия. 2006. Т. 8, № 5 (http://old.consilium- medicum.com/media/psycho/06_05/16.shtml); Гарганеева Н. П., Леонов В. П. Логистическая регрессия в анализе связи артериальной гипертонии и психических расстройств // Сибирский медицинский журнал. 2001. № 3-4. С. 42^8 (http://www.biometrica.tomsk.ru/psycho3s.htm). — Прим. ред.
Отчет о регрессионном анализе 117 и отсутствие занятости. Тогда при кодировании для анализа определяется «опорный» уровень, с которым будет сравниваться каждый из других уровней, а затем определяются индикаторные переменные для сравнений. Например: • Индикаторная переменная №1 = 1, если человек занят тяжелым трудом, О в остальных случаях. • Индикаторная переменная № 2 = 1, если человек занят легким трудом, О в остальных случаях. • Индикаторная переменная № 3 = 1, если человек не работает, О в остальных случаях. Таким образом, все сочетания трех индикаторных переменных полностью описывают качественную переменную: Индикаторная переменная № 1 № 2 0 0 0 0 0 1 1 0 1 №3 0 1 0 0 Предикторная переменная Работа в офисе Отсутствие занятости Легкая работа Тяжелая работа Для понимания интерпретации читателю будет недостаточно простого указания трех коэффициентов регрессии для трех индикаторных переменных. Без информации о способе кодирования или, по крайней мере, о выбранном опорном уровне интерпретация невозможна. ф Обычно нужно определить по крайней мере десять событий-исходов для каждой независимой переменной модели [9]. 733. Оговорите сделанные для простого логистического линейного регрессионного анализа предположения и способы их проверки. Q См. указание 7.25: предположения регрессионного анализа. 734. Укажите, каким образом рассматривались выбросы. ф См. указание 7.4: рассмотрение выбросов. 735. Укажите, каким образом рассматривались пропуски в данных [9]. Q См. указание 7.15: укажите, каким образом рассматривались пропуски в данных. 736. Отметьте, каким образом выбирались предикторные переменные, появляющиеся в итоговом виде модели, или каким образом они подгонялись к ней [4]. Q См. указание 7.16: выбор переменных для модели.
118 Составление статистических отчетов в медицине 7.37. Укажите, прошли ли возможные предикторные переменные проверку на коллинеарность (корреляцию или взаимосвязь) [4]. ^ См. указание 7.17: укажите, все ли возможные предикторные переменные прошли проверку на коллинеарность. Q Отказ от определения кореллированных переменных может сделать результаты анализа недействительными. 738. Укажите, проверялись ли предикторные переменные на взаимодействие [4]. ^ См. указание 7.18: укажите, проверялись ли предикторные переменные на взаимодействие. 739. Отразите уравнение множественной логистической регрессии в таблице. Табл. 7.3 показывает, каким образом составляется отчет об уравнении множественной логистической регрессии. Включите в отчет количество наблюдений в анализе, коэффициенты при предикторных переменных и связанные с ними стандартные ошибки, отношения шансов, их (95%-е) доверительные интервалы, действительные/7-значения [4]. Q См. указание 7.27: отчет об отношениях шансов. 7.40. Приведите значение меры согласия моделей с данными [4,10]. Q См. указание 7.7: определение согласия. 7.41« Укажите, была ли модель обоснована [4]. @ См. указание 7.7: проверка обоснованности регрессионных моделей. 7.42. Укажите название применяемого при анализе статистического пакета или программы [10]. ft См. указание 7.10: отчет о статистических пакетах и программах. Литература 1. Concato J, Feinstein AR, Holford TR. The risk of determining risk with multivariable models. Ann Intern Med. 1993; 118:201-10. 2. Godfrey K. Simple linear regression in medical research. In: Bailar JC, Mosteller F, eds. Medical Uses of Statistics, 2nd ed. Boston: NEJM Books; 1992:201-32. 3. Hosmer DW, Taber S, Lemeshow S. The importance of assessing the fit of logistic regression models: a case study. Am J Public Health. 1991; 81:1630-5. 4. Bagley SC, White H, Golomb BA. Logistic regression in the medical literature: standards for use and reporting, with particular attention to one medical domain. J Clin Epidemiol. 2001; 54:979-85. 5. Altman DO, Gore SM, Gardner MJ, Pocock SJ. Statistical guidelines for contributors to medical journals. BMJ. 1983; 286:1489-93.
Отчет о регрессионном анализе 119 6. Altman DG. Statistics and ethics in medical research, VI — Presentation of results. BMJ. 1980; 281:1542-4. 7. Altman DG. Statistics in medical journals. Stat Med. 1982; 1:59-71. 8. O'Brien PC, Shampo MA. Statistics for clinicians: 7. Regression. Mayo Clin Proc. 1981; 56:452-4. 9. Shutty M. Guidelines for presenting muhivariate statistical analyses in Rehabilitation Psychology. Rehab Psych. 1994; 39:141-4. 10. Bender R, Grouven U. Logistic regression models used in medical research are poorly presented [Letter]. BMJ. 1996; 313:628.
120 Составление статистических отчетов в медицине Глава 8 Анализ групп со многими переменными Отчет о дисперсионном анализе Мы моэюем говорить о проверке равенства средних в группах, прошедших лечение, или о проверке того, что эффект от лечения нулевой. Подходящей процедурой для проверки равенства средних является дисперсионный анализ. D. С. Montgomery [Ц ANOVA является разновидностью проверки гипотез для исследований с двумя или более переменными. Он тесно связан с другим набором методик, называемых регрессионным анализом. Вообще говоря, ANOVA используется для оценки влияния категориальных пре- дикторных переменных, тогда как регрессионный анализ применяется для непрерывных предикторных переменных. Если в исследовании фигурируют как непрерывные, так и категориальные переменные, анализ можно назвать множественным регрессионным, или ковариационным, анализом (ANCOVA). Указания по отчету о регрессионном анализе включены в гл. 7. Как правило, под термином «ANOVA» подразумевается однофакторный ANOVA (см. ниже), но он относится и к любому другому виду ANOVA, подобно тому, как термин «регрессионный анализ» может относиться ко многим видам регрессионного анализа. Оба вида анализа включают в себя уравнения или «модели», которые дают итоговое представление о взаимосвязях между предикторными переменными и переменными отклика. Говоря коротко, ANOVA делит вариацию во всех данных на две части: вариацию между каждым из групповых средних и общим средним для всех групп (межгрунповая изменчивость) и вариацию между каждым из участников исследования и средним группы участников (внутригрунповая изменчивость). Если межгрупповая изменчивость намного превышает внутригрупповую, вероятно присутствие различий между групповыми средними. Дисперсионный анализ является методом группового сравнения, который выявляет статистически значимое различие между некоторыми из изучаемых групп. Если имеются указания на значимое различие, то за ANOVA обычно следует процедура множественных сравнений, сравнивающая сочетания групп с целью выявить дальнейшие различия между ними. Наиболее общеупотребительной процедурой такого рода является попарное сравнение, в ходе которого каждое групповое среднее сравнивается со всеми остальными групповыми средними (по два за один раз) с целью определить, какие группы отличаются значимо. При этом возникает проблема множественных сравнений, описанная в гл. 5, и поэтому сравнения выполняются вместе с процедурами, разработанными для учета этой проблемы.
Отчет о дисперсионном анализе 121 Многомерный дисперсионный анализ (MANOVA) применяется для сравнения влияний основных эффектов и взаимодействий категориальных переменных на несколько количественных переменных отклика. В MANOVA, как и в ANOVA, в качестве независимых переменных используются одна или более категориальных предикторных переменных, но, в отличие от ANOVA, здесь имеется более одной переменной отклика. MANOVA и MAN- CO VA являются видами «общих линейных моделей». Ниже описаны наиболее общеупотребительные процедуры ANOVA, используемые в биомедицинских исследованиях. (Пример предназначен лишь для того, чтобы помочь увидеть отличия между разными видами ANOVA. Мы не рекомендуем расширять анализ путем постепенного добавления переменных по одной за каждый раз.) Однофакторный ANOVA оценивает влияние одной (отсюда название «однофактор- ный») категориальной предикторной переменной (иногда называемой фактором) на одну непрерывную переменную отклика. Заметим также, что фактор (категория) имеет три или более альтернатив (или «уровней», или «значений»; например, группы крови А, В, АВ и 0). Если альтернатив только две (две группы), анализ сводится к /-критерию Стьюдента'. ПРИМЕР • Женщины с остеопорозом были распределены случайным образом по трем группам: лечение по стандартной методике, лечение по новой методике и плацебо (контрольная группа). Переменной отклика является изменение минеральной плотности костной ткани (непрерывная переменная). Предикторной переменной является вид лечения, по которому различаются группы. Результаты можно проанализировать с помощью однофакторного ANOVA. Двухфакторный ANOVA оценивает влияние двух категориальных предикторных переменных (как и ранее, иногда называемых факторами) на одну непрерывную переменную отклика. ПРИМЕР • В условиях предьщущего примера добавляем в качестве второй предикторной переменной возраст. Возраст классифицируется как одна из четырех порядковых категорий: от 30 до 40 лет, от 41 до 50, от 51 до 60, от 61 года и старше. При двух категориальных переменных — виде лечения (или группе) и возрасте — данные можно проанализировать с помощью двухфакторного ANOVA. Многофакторный ANOVA оценивает влияние трех или более категориальных предикторных переменных (по-прежнему называемых факторами) на одну непрерывную переменную отклика. ПРИМЕР • В условиях предыдущего примера добавление новых категориальных предикторных переменных, таких как диета (вегетарианская или невегетарианская) и употребление алкоголя (менее 60 мл алкоголя в день, от 60 до 150 мл в день, более 150 мл в день), может превратить двухфакторный анализ в четырехфакторный, или, проще говоря, многофакторный ANOVA. ' При выполнении двух условий возможности применимости /-критерия Стьюдента — нормальности распределения признака в обеих группах и равенстве дисперсий.
122 Составление статистических отчетов в медицине Ковариационный анализ (ANCOVA) оценивает влияние одной или более категориальных предикторных переменных при фиксированном влиянии некоторых других (возможно, непрерывных) предикторных переменных (теперь называемых ковариатами, или сопутствующими переменными) на одну непрерывную переменную отклика. ПРИМЕР • В условиях вышеприведенного примера предположим, что мы хотели бы зафиксировать степень тяжести заболевания. Женщины с более тяжелой формой остеопо- роза, возможно, имеют другие минеральные плотности костной ткани по сравнению с женщинами с более легкой формой. Если нам предстоит изучить взаимосвязь между видом лечения и возрастом на минеральную плотность костной ткани, мы должны зафиксировать степень тяжести заболевания. Мы, таким образом, добавляем другую (категориальную) предикторную переменную — степень тяжести заболевания (слабую, умеренную и тяжелую). Теперь анализ называется ковариационым анализом. ANOVA с повторными измерениями используется для оценки нескольких, или повторных, измерений от одних и тех же участников исследования при разных условиях (таких, как кровяное давление, измеренное в положении пациента лежа, сидя или стоя) или в разное время (например, мускульная сила через 1, 5, 10 и 20 дней после операции). ПРИМЕР • Снова отправляясь от того же самого примера, предположим, что мы располагаем измерениями минеральной плотности костной ткани для всех пациентов при появлении симптомов, через 6 и 12 месяцев после появления симптомов. В этом случае к модели ANOVA можно добавить предикторную переменную «время». Здесь время играет роль «повторного измерения»: хотя каждая женщина принадлежит к одной группе по виду лечения и к одной возрастной категории, у каждой из них плотность костной ткани измерялась трижды за данный промежуток времени (в самом начале появления симптомов, а также через 6 и 12 месяцев). УКАЗАНИЯ ПО ОФОРМЛЕНИЮ ВВЕДЕНИЯ 8.1. Опишите интересующие вас взаимосвязи или цель анализа. Обычно ANOVA используется для сравнения трех или более групповых средних на некоторой переменной отклика. В более общем случае с его помощью могут рассматриваться дополнительные предикторные переменные и оцениваться их совместные воздействия на переменную отклика. Если целью регрессионного анализа обычно является предсказание значения переменной отклика, то ANOVA обычно применяется для сравнения групп ради поиска различий в ее средних значениях. УКАЗАНИЯ ОТНОСИТЕЛЬНО МЕТОДОВ 8.2. Идентифицируйте переменные, используемые в сравнениях, и охарактеризуйте каждую из них описательными статистиками. предикторные переменные обычно бывают категориальными (обозначающими группы). Переменные отклика непрерывны и должны быть охарактеризованы мерой центральной
Отчет о дисперсионном анализе 123 Образец презентации' 66 женщин с остеопорозом были разделены на три группы в зависимости от вида лечения: группа 1 (п = 22), группа 2 (п = 22) и контрольная (п = 22). Через 6 недель было измерено изменение минеральной плотности костной ткани по сравнению с базовым уровнем. При помощи однофакторного ANOVA было выявлено статистически значимое различие между группами (Я^^з = б1;07;р < 0,001). Дальнейший анализ, проведенный с помощью процедуры попарного сравнения Тьюки для множественных сравнений, выявил статистически значимое преобладание среднего изменения (±G0) в группе 2 {1,6 г/см^ ± 0,2) над средним в группе 1 (1,1 г/см^ ± 0,2) и в контрольной группе (1,0 г/см^ ± 0,2) при общем уровне значимости 0,05. Здесь: • Задана численность каждой группы п. • Несмотря на то что распределение в группы по определенному признаку не является предпочтительным по сравнению с действительно случайным распределением, принцип распределения пациентов по группам здесь определен точно. • Сравнение групп производится с помощью однофакторного ANOVA, и результаты сравнения представлены в табл. 8.1. • Последующие множественные сравнения были осуществлены с помощью процедуры Тьюки. Приведены действительные средние изменения и СО для сравниваемых групп (хотя и в менее предпочтительной записи со знаком «±»), что позволяет читателям оценить клиническую важность результатов. • Уровень значимости, или порог, при котором результаты объявляются статистически значимыми, установлен равным 0,05, • 61,07 — значение F-критерия с 2 степенями свободы числителя и 63 для знаменателя (что показано нижними индексами в записи F^^^), вычисленное по исходным данным. • р — вероятность получить «групповой эффект», или влияние лечения на минеральную плотность костной ткани, крайнее или превышающее крайнее значение по сравнению с наблюдаемым, если на самом деле все групповые средние равны. Здесь у пациентов, проходивших различные виды лечения, были видны статистически значимые различия в откликах на лечение. Малое значение р отражает наличие в данных свидетельства против нулевой гипотезы, предполагающей отсутствие различий между группами. ^ Приведенный пример презентации не полный, так как в нем отсутствует информация о проверке условий допустимости использования ANOVA. Такая информация может, к примеру, иметь следующий вид: во всех трех сравниваемых группах минеральная плотность костной ткани имела нормальное распределение. Проверка нормальности производилась критериями Шапиро—Уилка (/? = 0,15) и Колмогорова— Смирнова {р = 0,12). Равенство трех генеральных дисперсий производилось с помощью критериев Барт- летта {р = 0,25) и Левене (р = 0,45). Критический уровень значимости был равен 5 %. — Прим. ред. тенденции (средним или медианой) и мерой рассеяния (СО или интерквартильной широтой), в зависимости от обстоятельств. 83. Идентифицируйте вид проводимого анализа. Виды ANOVA перечислены выше. Важно точно указать, использовался ли ANOVA с повторными измерениями, поскольку серийные измерения от одних и тех же участников исследования должны анализироваться иначе. ^ При идентификации вида ANOVA не смешивайте число групп с числом факторов. Группа в ANOVA — общий термин для одного фактора, который может включать в себя три или более выделенных по какому-то признаку подгруппы.
124 Составление статистических отчетов в медицине В однофакторном ANOVA сравниваются только группы, а «группа» является единственным фактором в анализе. В двухфакторном ANOVA анализируются «группа» и второй, добавочный фактор, который сам может включать в себя несколько «уровней» или подразделений. Например, группа крови может быть фактором, а группы А, В, АВ и О — уровнями этого фактора. Таким образом, вид ANOVA определяется числом факторов, а не числом уровней, групп или категорий. УКАЗАНИЯ ПО ОФОРМЛЕНИЮ РЕЗУЛЬТАТОВ 8«4, Оговорите предположения, подтверждающие правомерность проведения анализа. Все, что нужно включить в отчет, — это подтверждение некоторых допущений. Проведение ANOVA правомерно при следующих предположениях: • Переменная отклика Y распределена по приблизительно нормальному закону внутри каждого уровня каждого фактора (предикторной переменной X). • Распределения Y имеют равные дисперсии (или СО) внутри каждого уровня каждого фактора (предикторной переменной X); иными словами, СО Y одинаково независимо от значения X. • Каждое значение У независимо от остальных значений Y (иными словами, значения Y не спарены и не коррелируют). Это предположение неприменимо к ANOVA с повторными измерениями, поскольку по определению повторные измерения у тех же пациентов коррелированы. ANOVA с повторными измерениями разработан для того, чтобы приспособиться к этой корреляции. 8.5. Отразите результаты ANOVA в таблице. Табл. 8.1 и 8.2 показывают, каким образом обычно представляются результаты ANOVA. 8.6, Укажите, проверялись ли предикторные переменные на взаимодействие и как рассматривались эти взаимодействия. Два фактора (предикторные переменные) называются взаимодействующими, если влияние одного фактора на переменную отклика зависит от уровня второго фактора. Следствием взаимодействия переменных является необходимость рассматривать их совместно, а не по отдельности (см. указание 7.18). 8 J. Укажите действительное р-значение для каждого фактора. Нулевая гипотеза, проверяемая с помощью ANOVA, обычно заключается в равенстве групповых средних. Если найдено значимое /7, указывающее на итоговое групповое различие, выполняется процедура множественных сравнений. Ее целью является определение, скажем, того, какие групповые средние отличаются друг от друга. Далее, с помощью процедур множественных сравнений можно оценить все факторы (предикторные переменные), значимо связанные с переменной отклика, включая взаимодействия между факторами. 8«8, Дайте меру согласия модели дисперсионного анализа с данными. Оценка согласия показывает, насколько хорошо модель выражает наблюдаемые в данных взаимосвязи. Как и в регрессионном анализе {см. гл. 7), пригодность модели помогает уста-
Отчет о дисперсионном анализе 125 Таблица 8.1 Табличный отчет о результатах однофакторного дисперсионного анализа: анализ различий между тремя лечебными группами женщин с остеопорозом (п = 66)" Источник вариабельности Группа Ошибка Число степеней свободы 2 63 Суммы квадратов 4,96 2,56 Средние квадраты 2,48 0,04 F 61,07 Р < 0,001 ' Термин «однофакторный» указывает на наличие единственного фактора, «группы», которая имеет здесь три «уровня»: группы, в которых велось лечение вида 1 и 2, а также контрольная группа. См. образец презентации на с. 123. Источник вариабельности указывает на источники изменчивости минеральной плотности костной ткани как факторы в модели и как случайные ошибки (изменчивость не объясняется только факторами). Единственным фактором здесь является группа. Число степеней свободы — математическое понятие. Здесь для трех групп число степеней свободы равно 3-1, или 2; для 66 пациентов число степеней свободы для ошибки равно (66 - 1) - (3 - 1), или 63. Сумма квадратов: для группы — мера величины различий между группами; для ошибки — мера величины различий внутри групп, f—статистика F-критерия, рассчитанная по данным и сравниваемая с F-распределением, равна среднему квадрату между группами, деленному на средний квадрат внутри групп. р-значение—значение вероятности, указывающее на то, что групповой эффект, или влияние лечения на минеральную плот- ноаь костной ткани, был выше, чем можно было ожидать вследствие случайных причин при условии равенства групповых средних; иными словами, разница в откликах на лечение в группах была статистически значимой. Таблица 8,2 Табличный отчет о результатах двухфакторного дисперсионного анализа: анализ двух факторов (группа и возраст)" Источник изменчивости Группа Возраст Группа X возраст Ошибка Число степеней свободы 1 3 3 12 Сумма квадратов 0,64 3,92 4,91 3,43 Средние квадраты 0,64 1,31 1,64 0,29 F 2,24 4,57 5,72 — Р 0,16 0,02 0,01 — ^Анализ включает два фактора: группу (два уровня, или категории) и возраст (четыре категории, или уровня). Уровни каждой категории должны быть указаны в описании исследования. Группа и возраст значимо взаимодействуют и поэтому должны рассматриваться совместно. Источник изменчивости указывает на источники изменчивости в переменной отклика как факторы в модели (группа, возраст и взаимодействие между группой и возрастом) и как случайные ошибки (изменчивость не объясняется факторами). Число степеней свободы — математическое понятие. Здесь для двух групп число степеней свободы равно 2-1, или 1; для четырех возрастных категорий число степеней свободы равно 4-1, или 3. Для влияния взаимодействия между группой и возрастом (группа х возраст) числа степеней свободы для каждого фактора перемножаются: 3x1=3. Сумма квадратов — в отличие от однофакторного ANOVA, смысл суммы квадратов при многофакторном ANOVA пояснить нелегко, и ее лучше рассматривать просто как шаг при вычислении средних квадратов. Средние квадраты — суммы квадратов, деленные на числа степеней свободы; фактически — оценки изменчивости в данных. F— статистика критерия для F-распределения; для проверки эффектов взаимодействия и основных эффектов; равна среднему квадрату для каждого фактора, деленному на средний квадрат ошибки. р-значение — значения вероятности, указывающие на статистическую значимость влияния каждого фактора на переменную отклика. Возраст и группа взаимодействуют (р = 0,01) при воздействии на переменную отклика и должны в дальнейшем исследоваться совместно; иными словами, «основной эффект» группы или «основной эффект» возраста не должны исследоваться сами по себе.
126 Составление статистических отчетов в медицине повить рассмотрение остатков (разностей между наблюдаемыми значениями и их оценками с помощью модели). Приводить в отчете результаты рассмотрения невязок необязательно; достаточно сказать, что невязки были рассмотрены и что модель согласуется или не согласуется с данными. 8.9. Укажите, была ли модель обоснована. Модели ANOVA можно «обосновать» или протестировать на похожем множестве данных, с тем чтобы выяснить, объясняют ли они то, что требуется объяснить: • Один из методов обоснования, применяемый для больших выборок, состоит в том, чтобы применить модель, скажем, на 70 % данных, а затем составить другую модель для оставшихся 30 % и выяснить, оказались ли модели схожими. • Другой метод заключается в удалении данных от каждого объекта по очереди и пересчете модели. Затем можно сравнить коэффициенты всех моделей (они могут насчитываться сотнями). Такие методы называются процедурами складного ножа {англ. —jackknife). • Третий метод включает создание новой модели на отдельном множестве похожих данных с целью выявить различия результатов. 8.10. Укажите, каким образом были проанализированы выбросы в данных. Выбросы — это экстремальные значения, которые кажутся аномальными (в противоположность ошибкам при сборе данных или при записи, которые являются просто ошибками). Р1гнорировать истинные выбросы нельзя; они в действительности часто указывают на особые случаи, открывающие новые области исследования. Однако они могут оказать диспропорциональное воздействие на результаты ANOVA. Выбросы также могут стать причиной асимметричности распределения данных и поэтому иногда подправляются путем преобразования данных {см. указание 1.14). В отчете следует сообщать обо всех выбросах, но иногда допустимо анализировать данные и без них, если для такого игнорирования есть законные основания. Но это должно быть отражено в отчете вместе с причинами игнорирования выбросов. Если игнорировать выбросы на законных основаниях нельзя, то ради демонстрации их влияния на результаты допустимо привести результаты с выбросами и без них. 8.11. Укажите название применяемого при анализе статистического пакета или программы. Указание программного пакета, использованного в статистическом анализе, важно по следующим соображениям: если коммерческие пакеты обычно бывают легализованными и обновляемыми, то разработанные в частном порядке программы — не всегда. Кроме того, не все статистическое программное обеспечение использует одинаковые алгоритмы или опции по умолчанию при вычислении одной и той же статистики. Вследствие этого результаты могут варьироваться от пакета к пакету и от алгоритма к алгоритму. ANOVA входит в состав большинства крупных статистических пакетов. В числе чаще используемых пакетов находятся SAS (Statistical Analysis Systems), BMDP, SPSS (Statistical Package for the Social Sciences — статистический пакет для общественных наук), StatXact, Stat View, StatSoft, InStat, Statistical Navigator, SysStat, Minitab, LISREL и EQS. Литература 1. Montgomery DC. Design and Analysis of Experiments, 2nd ed. New York: John Wiley and Sons; 1984.
Отчет об анализе выживаемости 127 Глава 9 Оценка событий во времени как конечных точек Отчет об анализе выживаемости Кривые выэюиваемости обеспечивают оценки вероятности выэюить в зависимости от времени, прошедшего с начала исследования. Они дают наиболее полную картину того, как на протяэюении всего времени обстоят дела с вы- эюиванием при различных видах лечения. F. MosTELLER, J. p. Gilbert, В. М. МсРеек [1] Анализ времени до наступления события включает в себя оценки вероятности того, что некоторое событие произойдет в те или иные моменты времени. В технике, к примеру, анализ времени до наступления отказа оценивает длину временного интервала, в течение которого оборудование будет работать в штатном режиме. Анализ выживаемости, наиболее распространенное приложение анализа времени до наступления события в медицине, оценивает вероятность выжить как функцию времени, начиная с некоторого исходного пункта, например с даты постановки диагноза или хирургического вмешательства. Интересующим нас событием в этой главе будет смерть, но предметом анализа может быть и любое другое событие, такое как рецидив болезни, отказ оборудования или прояснение симптомов. Статистические методы, описанные в других главах этой книги, для анализа данных о выживаемости неприменимы, поскольку не все пациенты могут наблюдаться в течение одного и того же промежутка времени. Кроме того, и это, пожалуй, является более важной причиной, за время проведения анализа конечная точка (в данном случае — смерть) может наблюдаться не у всех пациентов; в действительности может и не наступить совсем за все время исследования. Данные участников, для которых интересующая нас конечная точка еще не наблюдалась, или в случае, если об исходе ничего не известно, называются цензури- рованными. Анализ выживаемости разработан для приспособления к цензурированным данным. В анализе выживаемости для каждого субъекта записывается длина временного промежутка между отправной точкой и смертью (или датой последнего текущего обследования до начала анализа, если субъект еще жив). Процент еще живых субъектов в конце каждого из намеченных промежутков времени (например, каждого месяца, каждого года или каждых 5 лет) используется для оценки вероятности того, что типичный субъект будет жив к концу любого заданного периода. На графике эти оценки образуют распределение вероятностей выживания в течение различных промежутков времени (кривую выживания). Кроме того, путем сравнения двух или более таких кривых можно выявлять статистические
128 Составление статистических отчетов в медицине Образец презентации Значения оценок Каплана—Мейера частоты выживания наших больных раком в течение 5 лет после лечения (рис. 9.1) оказались равными 67 % (95% ДИ 52,9-81,1 %) для группы, прошедшей хирургическое лечение (п = 55), и 10 % (95% ДИ 0,6-19,4 %) для группы, прошедшей медикаментозное лечение {п - 46). Лог-ранговый критерий выявил статистически значимое различие по частоте выживания с течением времени (р < 0,001). Медиана времени выживания составила 6,3 года для группы, прошедшей хирургическое лечение, и лишь 3,8 года для прошедших медикаментозное лечение. Таким образом, хирургическое лечение оказалось более эффективным для продления жизни по сравнению с медикаментозной терапией. Дальнейшее исследование, проведенное с помощью регрессионного анализа пропорциональных рисков Кокса для контроля за действием лечения, показало, что пациенты с метастатическим раком умирают от рака в 6,5 раза чаще, чем те, у которых рак не метастазировал (95% ДИ для отношения угрозы или риска 2,8-15,0;р< 0,001). Здесь: • На рис. 9.1 показаны кривые Каплана—Мейера для этих данных. • Исследуемая совокупность состоит из 101 проходящего лечение от рака пациента; 55 проходят хирургическое лечение, 46 — медикаментозное. • По оценкам метода анализа выживания Каплана—Мейера, частоты выживания за 5 лет в группах, проходящих хирургическое и медикаментозное лечение, составили соответственно 67 и 10 %. Для этих оценок приведены также 95% ДИ. • Согласно оценкам, 50 % прооперированных пациентов умрут в течение 6,3 года после операции; другие 50 % либо выживут, либо умрут позже, чем через 6,3 года после операции. Половина же из прошедших медикаментозное лечение пациентов умрет в течение 3,8 года лечения. (Эти результаты являются медианами времени выживания) • Лог-ранговый критерий, используемый для сравнения кривых выживания, полученных от этих двух групп, показывает статистически значимое различие между группами, • Последующие наблюдения с учетом различия групп (т. е. при учете действия хирургического или медикаментозного лечения) показали, что уровень риска (или отношение рисков) для метастатического рака составил 6,5:1. Это означает, что для пациентов с метастатическим раком вероятность умереть от рака в 6,5 раза выше, чем у пациентов без метастатического рака, что было определено с помощью регрессионного анализа пропорциональных рисков Кокса. • 95% ДИ для уровня риска показывает точность оценки. • Значения р показывают, что в условиях нулевой гипотезы случайность не является возможным объяснением различий во времени выживания между двумя группами или для риска умереть при метастатическом раке. Здесь малые значения р свидетельствуют против нулевой гипотезы, заключающейся в отсутствии различий. различия в эффективности соответствующих видов лечения, выражающейся частотой выживания. Статистические модели можно также создавать для оценки риска смерти по заданной характеристике и корректировать с учетом влияния других характеристик, таких как пол и возраст.
Отчет об анализе выживаемости 129 100 Группа хирургического •: лечения 12 24 36 48 60 Выживаемость, месяцы 72 84 96 Мед. (л): 46 Хирург, (п): 55 44 54 39 51 19 34 4 18 О 10 Число живых Рис. 9.1. Кривая Каплана—Мейера является ступенчатой функцией, которая показывает оценки выраженного в процентах числа пациентов, остающихся в живых на различных временных этапах с начала исследования. Должно быть также указано число пациентов, живых по состоянию на те моменты, которые соответствуют основным точкам деления временной оси. Потери в ходе движения по временной оси поясняют, почему число пациентов, выживших к моменту медианы, может оказаться меньше 50 % от исходной выборки. (Здесь на момент медианы времени выживания остались в живых менее чем 10 пациентов из группы хирургического лечения; случилось это тогда, когда умерли 22 или 23 из начальных 55 пациентов) 9.1. Опишите взаимосвязи, присущие интересующему вас событию, и причины, побуждающие к исследованию\ Четко обозначьте интересующее вас событие (помните, что конечная точка, или переменная отклика в анализе выживаемости, — это в действительности время до наступления события, а не само событие), а также факторы, которые, как предполагается, связаны с этим событием и могут либо приблизить, либо отдалить его (предикторные переменные). Если ' Иногда упоминание об этом методе может иметь и спекулятивный, камуфляжный характер. Автор этих строк, являясь членом редколлегии «Сибирского медицинского журнала», получил на рецензию рукопись статьи «Опыт лечения вазилипом больных с острым коронарным синдромом без подъема сегмента ST». В ней сообщалось, что «...для анализа выживаемости использовали лог-ранговый критерий». В тексте рукописи не сообщалось ни об одном случае со смертельным исходом. Очевидно, что в этом случае анализ выживаемости не мог быть выполнен, и упоминание о нем не имеет смысла. Какова же тогда цель упоминания о нем? Когда этот вопрос был задан автору, доктору медицинских наук, сотруднице НИИ кардиологии ТНЦ СО РАМН, она не смогла на него ответить, сославщись, что статистический анализ выполнял другой человек, не являющийся автором рукописи.
130 Составление статистических отчетов в медицине событием является не смерть, а, например, отказ оборудования или исчезновение клинических симптомов, то следует пояснить клиническую важность такого события и значение связанных с ним предсказаний. 92. Опишите клинические характеристики исследуемой генеральной совокупности. Пациенты с одним и тем же заболеванием могут различаться по числу характеристик, способных повлиять на интересующий нас исход. Как минимум, уместно описать: • демографические особенности: возраст, пол, род занятий, образ жизни (курение, уровень физической подготовки, питание и т. д.); • клинические особенности: природа и продолжительность признаков и симптомов, первичный диагноз и т. д.; • параклинические особенности: результаты тестов и наружных обследований, указывающих на стадию или прогрессирование заболевания; • сопутствующие заболевания: другие факторы, способные взаимодействовать с исследуемой болезнью или ее лечением. 93. Укажите время, с которого начинается анализ. Время выживаемости можно начинать отсчитывать с любой из нескольких различных отправных точек: появление симптомов, первые патологические результаты анализа, дата постановки диагноза, дата госпитализации, дата начала лечения, дата после прохождения периода «операционной смертности» и т. д. Отправное время следует четко указать во избежание двусмысленности. Исследования с разными отправными точками бывает невозможно сравнивать из-за упреждающего смещения, при котором у пациентов с рано поставленным диагнозом в ходе болезни как будто получается большее значение медианы времени выживания, необязательно благодаря лучшему лечению, но лишь потому, что диагноз был просто поставлен раньше. 9.4. Опишите, при каких обстоятельствах были цензурированы данные. Анализ выживаемости может принимать в расчет два типа данных: цензурированные и нецензурированные. Нецензурированные данные являются «полными»: смерть уже наступила и временной интервал между отправной точкой и смертью известен (рис. 9.2). Кроме того, предполагается, что причина смерти имеет отношение к изучаемому заболеванию или вмешательству. С другой стороны, цензурированные данные — это «неполные данные», полученные от тех участников исследования, которые: • все еще живы, т. е. смерть во время анализа не наступила, и время выживаемости поэтому неизвестно; • умерли вследствие причин, не относящихся к заболеванию или лечению (эти смерти могут не фиксироваться в качестве событий, поскольку они теоретически не относятся к исследуемому заболеванию или лечению); • больше не являются участниками исследования, будучи исключенными из него или потерянными для дальнейших наблюдений. Распределение таких участников также важно для отчета в случае, когда в исследовании применялся анализ необходимости лечения (см. указание 13.37).
? 3 Отчет об анализе выживаемости 131 Окончание исследования Цензурирование: выбыл из наблюдения Цензурирование Умер Умер Цензурирование Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Слежение за пациентами от начала лечения до смерти, помесячно Рис. 9.2. При проведении анализа выживаемости пациенты в большинстве случаев становятся участниками исследования и покидают его в разное время. Таким образом, интересующее нас событие для некоторых пациентов (здесь — 3 и 4) не произошло. Пациенты 3 и 4, оставшиеся в живых к концу исследования, а также пациент 5, о состоянии которого ничего не известно вследствие потери наблюдения, представляют «цензури- рованные» данные 9i* Укажите статистические методы, с помощью которых оценивалась частота выживаемости. Для анализа данных по выживаемости имеется несколько статистических методов. Наиболее употребительными, однако, являются следующие: • Метод Каплана—^Мейера (или метод множительных оценок), при котором записываются точные даты смерти каждого индивидуума. Этот метод пригоден как для больших, так и для малых выборок. • Метод таблиц выживания (известный еще как страховой метод, а также как метод Катлера—Эдерера или Берксона—^Гейджа), при котором смертельные исходы записываются по временным интервалам (например, каждый месяц или каждый год). Этот метод наиболее общеупотребителен при работе с очень большими выборками, например в эпидемиологических исследованиях популяций. 9.6. Подтвердите выполнение необходимых условий для проведения анализа выживания. Просто скажите, выполняются ли необходимые условия. Условия для проведения анализа выживания с помощью кривой Каплана—^Мейера или таблиц выживаемости таковы: • диагностические и терапевтические процедуры, а также процедуры дальнейшего наблюдения оставались неизменными в ходе всего исследования; • риск последствий не менялся на протяжении исследования (это условие пропорциональных рисков в регрессионном анализе Кокса);
132 Составление статистических отчетов в медицине • смерти, выбытия и другие изменения в составе пациентов происходили равномерно на протяжении всего интервала последующего наблюдения; • одинаковое распределение последствий у пациентов из цензурированных данных и у оставшихся в исследовании. 9 J* Дайте оценку частоты выживания для каждой группы к заданным моментам времени наблюдения с доверительными интервалами, а также число участников исследования, подверженных риску смерти в каждый из этих моментов времени. Частота выживания — это выраэюенное в процентах число участников исследования, оставшихся в эюивых к заданному моменту времени. Как и все оценки, частота выживания должна сопровождаться 95% ДИ, показывающим точность оценки. Указание числа и статуса (жив или умер) участников, на которых основана каждая оценка, также способствует их объективности. Оценки следует предоставить на каждые логически обоснованные моменты времени наблюдения за пациентами (например, через 1 год, 5, 10 лет или 3, 6, 12 месяцев). ^ Частота выживания является, по сути, суррогатной конечной точкой итоговой смертности и ее следует интерпретировать с осторожностью. Непосредственная связь между частотами выживания и частотами смертности для одной и той же болезни имеется не всегда [8]. (Более подробное объяснение см. в разделе «Частоты заболеваемости и смертности» в гл. 12.) Q Иногда желательно отразить в отчете результаты анализа выживания посредством медианы времени высеивания, т. е. длиной промежутка времени, в течение которого умерли первые 50 % выборки пациентов. Результаты анализа выживания можно также выразить посредством длины временного промежутка, в течение которого исследуемые остались в жплвых. Когда умирают все члены группы, данные о выживании становятся нецензурированными, а распределение индивидуальных времен выживания можно описать с помощью медианы и интерквартильной широты (или с помощью среднего и СО, если данные распределены по приблизительно нормальному закону). Однако, поскольку исследуемые умирают в разное время, некоторые из них могут оставаться в живых в любой из заданных моментов времени, и поэтому данные о них считаются цензури- рованными. Время выживания цензурированных исследуемых неизвестно, поэтому истинный вид его распределения нельзя предполагать нормальным, а среднее, таким образом, не является приемлемой мерой центра распределения. Медиана времени выживания — период, за который умирает 50 % исследуемых и вне которого 50 % остаются в живых, — является, следовательно, более подходящим средством для описания тенденции времени выживания [2]. 9.8, Отобразите полные результаты на графике или в таблице. в некоторых исследованиях может представлять интерес только одна оценка срока выживания, как, например, используемая в отчетах об исследованиях по раку частота выживания в течение 5 лет. В других исследованиях могут потребоваться оценки, предоставляемые несколько раз в течение длительного периода. Наиболее употребительным графическим представлением ряда оценок является кривая Каплана—Мейера (см. рис. 9.1), которая представляет собой ступенчатую нисходящую ломаную и показывает процент пациентов генеральной совокупности, оставшихся в живых после определенного отрезка времени.
Отчет об анализе выживаемости 133 Оценки Каплана—Мейера можно также представить в таблице (табл. 9.1), как и результаты, полученные методом таблиц выживания (табл. 9.2). 9.9< Укажите статистические методы, с помощью которых сравниваются две или более кривых выживания. Чтобы выявить статистически отличие двух или более кривых выживания, к ним можно применить методы проверки гипотез. Среди такого рода методов наиболее употребительны два: • лог-ранговый критерий (или критерий Кокса—Мантеля), наиболее мощный для распознавания поздних различий в вероятностях выживания; • критерий Уилкоксона (или обобщение Бреслоу критерия Уилкоксона), наиболее эффективный для распознавания ранних различий в вероятностях выживания. При выполнении условий для проведения анализа выживемости (см. указание 9.6) может использоваться любая из указанных процедур. 9.10. При сравнении двух или более кривых выживания методами проверки гипотез указывайте действительное р-значение этого сравнения. Нулевая гипотеза заключается в том, что распределения сроков выживания не отличаются друг от друга. Значение р показывает вероятность увидеть крайнюю или даже большую степень различия между кривыми по сравнению с наблюдаемым в предположении, что распределения одинаковы. Таблица 9,1 Сводка оценок Каплана—Мейера для выборки в 145 пациентов^ Время, лет Выжившие, % 95% ДИ, % Число умерших Число Число цензуриро- подверженных ванных риску 0,5 1 2 3 5 97,9 97,2 95,1 85,2 77,6 95,5-100,0 94,5-100,0 91,6-95,1 79,7-90,7 68,0-97,2 3 4 7 21 26 0 0 3 68 118 142 141 135 56 1 ' Могут быть уместны и другие столбцы. Время — время (или интервал), за которое были вычислены оценки, измеренное от начального времени анализа; выбирается исследователем. Выживание, % — процент выживших в исходной выборке к тому или иному моменту времени; называется также частотой Выживания. 95% ДИ — показатель точности оценки частоты выживания. Вместо 95% ДИ часто указывается СОС. Число умерших — количество пациентов, умерших по исследуемой причине и для которых, соответственно, закончилось время выживания. Число цензурированных — количество пациентов, цензурированных с начала временного интервала; включает тех, за кем было потеряно наблюдение; тех, кто умер по иным, нежели изучаемым, причинам, или тех, кто остается в живых к концу последнего интервала. Число подверженных риску — количество пациентов, выживших (и, следовательно, подверженных риску смерти) к концу отрезка времени.
134 Составление статистических отчетов в медицине Таблица 9.2 Таблица выживаемости для 1999 пациентов" Годы после диагноза 0-1 1-2 2-3 3-4 4-5 5-6 Пациенты, за которыми было потеряно наблюдение, п 0 35 20 21 25 43 Умершие пациенты, п 300 212 150 180 130 89 Пациенты, подверженные риску, п 1999 1682 1443 1272 1069 328 Доля 1,00 0,85 0,74 0,67 0,58 0,50 Стандартная ошибка — : 0,003 0,009 0,011 0,019 0,033 ^ Могут быть уместны и другие столбцы. Годы после диагноза — интервалы, для которых оценивается время выживания. Пациенты, за которыми было потеряно наблюдение — число исследуемых, статус которых (жив или умер) неизвестен. Умершие пациенты — число исследуемых, которые умерли в течение временного интервала. Пациенты, подверженные риску — число исследуемых, остающихся в живых в течение временного интервала и, таким образом, подверженных риску смерти. Доля выживших — доля исследуемых, остающихся в живых к началу интервала; иногда называется накопленной частотой выживания. Стандартная ошибка — показатель точности оценки накопленной частоты выживания; если доля выживших равна 1,0, стандартная ошибка не определена. 9.11 • Укажите, с помощью какой регрессионной модели оценивались взаимосвязи между предикторными переменными и выживаемостью. Обычным методом для оценки взаимосвязей между предикторными переменными и частотой выживания является регрессионный анализ пропорциональных рисков Кокса (или регрессионный анализ Кокса). Результатом этого анализа является уравнение (или модель), которое можно представить в таблице, как показано в табл. 9.3. 9.12, Укажите меру риска для каждой из предикторных переменных. Мерой риска, которая сопровождает каждую предикторную переменную в регрессионном анализе Кокса, служит уровень риска (концептуально это то же самое, что и обычное отношение рисков, за исключением того, что оно связано с некоторым отрезком времени). Для бинарной переменной уровень риска, равный 1, означает, что для пациента риск смерти одинаков вне зависимости от того, обладает ли он соответствующей характеристикой. Больший, чем 1, уровень риска указывает на повышенный риск для пациентов с этой характеристикой; меньше 1 — на пониженный риск. Таким образом, если при диете с высоким содержанием жира уровень риска инсульта равен 5,4, то у пациентов, в диете которых велико содержание жиров, с большей в 5,4 раза вероятностью возникнет инсульт, нежели у тех, в диете которых содержание жиров невелико. В общем, уровень риска — это итоговое значение повышенного риска на каждую единицу или уровень роста предикторной переменной. Уровень риска и 95% ДИ могут быть даны в таблице с отчетом о регрессионном анализе Кокса (табл. 9.3).
Отчет об анализе выживаемости 135 Таблица 9,3 Регрессионная модель пропорциональных рисков Кокса, демонстрирующая влияние пяти переменных на риск смерти" Коэффи- ^^ Стандартная Статистика Отношение 95% Переменная циент ^ „ , р-значение _,. '^ ,„. ошибка Вальдах рисков ДИ (Р) X, (возрает) Xj (кровяное давление) Хз (холеетерин сыворотки) Х^ (курение в анамнезе) Xj (сердечное заболевание в анамнезе) 0,23 1,46 0,84 0,27 1,44 0,07 0,62 0,43 0,14 0,27 10,80 5,55 3,82 3,72 28,44 0,001 0,02 0,05 0,05 <аоог 1,26 4,31 2,32 1,31 4,22 ^;Г0-1,44 1,28-14,52 1,00-5,38 1,00-1,72 2,49-7,16 ^ Гипотетические данные. Переменная — исследуемые предикторные переменные: X — символ предикторной переменной. Коэффициент — коэффициенты являются весами для каждой переменной в уравнении и иногда рассматриваются как параметрические оценки. Положительный коэффициент регрессии при предикторной переменной означает нарастание риска и, следовательно, ухудшение прогноза с увеличением значений. Отрицательный коэффициент регрессии означает более благоприятный прогноз для пациентов с более высокими значениями соответствующей переменной. Они также называются бето-весами. Стандартная ошибка — вариабельность каждого из оцениваемых коэффициентов. Статистика Вальда^^ — статистика критерия, рассчитанная по данным; по ней определяются р-значения. р-значения — вероятность увидеть результаты, равные или превосходящие крайние значения по сравнению с действительно найденными, если справедлива нулевая гипотеза. Здесь р-значения указывают на то, что все переменные значимо связаны с риском смерти. Отношение рисков (или уровни рисков) — степень риска, связанная с каждой переменной при фиксации всех остальных переменных. Для бинарных переменных отношение рисков, равное 1, указывает на то, что обладание характеристикой переменной не способствует событию и не защищает против него. Отношения, меньшие 1, указывают на пониженный риск; большие 1 — на повышенный риск. Здесь вероятность умереть в течение 5 лет для пациента с сердечной болезнью в анамнезе в 4,22 раза выше по сравнению с пациентом без нее. В общем, отношение рисков — это итоговое значение повышенного риска на каждую единицу или уровень роста предикторной переменной. 95% ДИ — точность оценки отношения рисков. Чем уже доверительные интервалы, тем выше точность оценок. 9.13. Опишите качество жизни выживших. Выживание само по себе необязательно является адекватной конечной точкой медицинских исследований; некоторые технологии не столько отдаляют смерть, сколько продлевают страдания. Разумное использование медицинских технологий требует оценки их воздействия на качество жизни, как и их влияния на выживаемость. Литература 1. Mosteller F, Gilbert JP, McPeek В. Reporting standards and research strategies for controlled trials. Control Clin Trials. 1980; 1:37-58. 2. Altman DG, Gore SM, Gardner MJ, Pocock SJ. Statistical guidelines for contributors to medical journals. BMJ. 1983; 286:1489-93.
136 Составление статистических отчетов в медицине Глава 10 Определение наличия или отсутствия заболевания Отчет о характеристиках проведения диагностических тестов Критерием полезности диагностического теста является либо его способность добавить информацию к уэюе имеющейся, либо способность этой информации приводить к благоприятным изменениям в оказании помощи пациенту. R. Jaeschke, G. Н. Guyatt, D. L. Sackett [1] Эффективность лечения обычно зависит от точности диагностирования состояния пациента. Диагностические тесты разнообразны по форме: наблюдение за наличием или отсутствием клинических проявлений или симптомов, биохимическое описание ткани, анкета, чтение рентгенограммы, изменения электрических потенциалов, появление новых типов клеток и т. д. К сожалению, многие диагностические тесты не оценены должным образом. Часто в статье о том, как использовать тест, дается слишком мало информации, следствием чего являются разногласия в способах применения тестов [2]. В результате диагностическое тестирование становится источником больших финансовых потерь [3]. Нижеприведенные указания особенно уместны при описании разработки и характеристик нового диагностического теста. Однако большинство ссылок на диагностические тесты относится к их использованию в более широком исследовании, что уменьшает количество необходимых для рассмотрения указаний. В этой главе мы также коротко описываем те приложения теоремы Байеса, с помощью которых иногда характеризуются диагностические тесты. Сюда включены также указания Стандартов по отчетам о разработке характеристик диагностических тестов (STARD) [4]. ЦЕЛЬ ТЕСТА 10.1. Идентифицируйте цель теста. Цель диагностического теста заключается в том, чтобы выполнить особую функцию в особой популяции, которая, как предполагается, удовлетворяет особым условиям. Необходимо описать каждый из этих компонентов. Следует четко указать медицинское состояние или диагноз, которые должен выявить, определить или дифференцировать тест. Это же относится к стадиям тех состояний, для
Отчет о характеристиках проведения диагностических тестов 137 Образец презентации Гистероскопия, пробный исследуемый тест, применялась для диагностирования рака матки у женщин в предклимактерическом периоде. При сравнении с эталонными стандартами анализа данной патологии процедура показала 80%-ю чувствительность и 90%-ю специфичность, результатом процедуры было положительное отношение правдоподобия, равное 8. Преваленс рака матки в нашей группе исследуемых составляет 10 %. Прогностичность положительного результата теста, таким образом, составила 47,1 %. Положительный результат теста указывал на наличие злокачественной опухоли, подлежащей лечению. Межоценочная надежность равна приблизительно 82 %. Здесь: • Чувствительность — способность теста правильно идентифицировать пациентов, которые, как уже известно, страдают изучаемым заболеванием. В данном примере результаты гистероскопии дали положительный результат у 80 % женщин из тех, кто, по данным патологического анализа, действительно больны раком матки. Чувствительность является процентным выражением «истинно положительных» результатов. Остальные 20 % пациенток — женщины, у которых гистероскопия дала отрицательный результат, но которые, тем не менее, больны раком. Эти результаты называются ложноотрицательными. • Специфичность — способность теста правильно идентифицировать пациентов, которые, как уже установлено, не страдают изучаемым заболеванием. В данном примере результаты гистероскопии дали отрицательный результат у 90 % женщин из тех, кто, по данным патологического анализа, не страдает раком матки. Специфичность является процентным выражением «истинно отрицательных» результатов. Остальные 10 % здоровых пациенток — женщины, у которых гистероскопия дала положительный результат, несмотря на отсутствие рака. Эти результаты называются ложноположительными. • Эталонный, «золотой», стандарт — стандарт, по которому устанавливается точность «пробного» (исследуемого) теста. Он выражает собой «истину» или близок к ней настолько, насколько позволяют текущие измерения. • Отношение правдоподобия для положительных результатов теста объединяет чувствительность и специфичность одним числом, равным отношению вероятности того, что тестирование даст положительный результат у пациента, страдающего болезнью, к вероятности того, что результат будет положителен для пациента, не страдающего этой болезнью. Отношение правдоподобия, равное 8, указывает на то, что положительный результат в восемь раз вероятнее для пациентов, страдающих данной болезнью, чем для не страдающих. • Преваленс заболевания — доля популяции, пораженная болезнью, а также множитель при вычислении прогностичности положительного и отрицательного результатов. • Прогностичность положительного результата — вероятность того, что пациентка с положительным результатом гистероскопии действительно страдает раком матки. Прогностичность положительного результата теста, равная 47 %, означает, что у 47 из 100 женщин с положительными результатами гистероскопии действительно имеется рак. Прогностичность положительного результата и чувствительность — не одно и то же. Прогностичность говорит нам о статусе пациента при данном результате тестирования, тогда как отношения правдоподобия говорят нам о результате тестирования при данном статусе пациента. Чувствительность, в отличие от положительной прогностической ценности, не подвержена влиянию превалентности заболевания в тестируемой популяции. Если бы превалентность составила 90 %, а не 10 %, как указано выше, прогностичность положительного результата была бы равна 98,6 %; почти каждый с положительными результатами теста имел бы заболевание. Однако если бы превалентность была равна только, скажем, 1 %, прогностичность положительного результата была бы равна лишь 7,5 %. • Межоценочная надежность — степень согласия между гистероскопистами в их заключениях о наличии злокачественной опухоли, что в данном случае является подходящей мерой надежности теста, поскольку «результатом» теста является заключение. В данном случае совпадают 82 % суждений разных гистероскопистов об одних и тех же данных.
138 Составление статистических отчетов в медицине которых применим данный тест (например, ранняя или поздняя стадия рака) (см. указание 10.2). Популяцию, для которой предназначен тест, также следует четко идентифицировать и описать подходящими демографическими и клиническими показателями. Важно, например, знать, был ли предназначен тест для подростков с анемией, пострадавших от ожогов взрослых или беременных с сопутствующими заболеваниями [5]. Диагностические тесты обычно обладают одной из пяти функций [6]: • Скрининг-тест выполняется для видимо здоровых людей без выраженных симптомов с целью выявить «тех, кто с достаточно высокой степенью риска подвержен определенному расстройству, чтобы обосновать последующий диагностический тест или процедуру или же, при определенных обстоятельствах, прямое превентивное воздействие» [7]. Измерение кровяного давления, предлагаемое на общественных медицинских мероприятиях, является примером скрининг-теста. • Рутинный тест проводится как часть серии тестов и может дать результат в виде «выявленного случая» или положительного анализа, не относящегося к первоначальному состоянию. «Стандартный анализ крови» по требованию врачей, являющийся частью обычного врачебного осмотра, может выявить, например, анемию. • Тест для постановки диагноза назначается для того, чтобы идентифицировать или исключить то или иное расстройство; так, с помощью биопсии можно отличить доброкачественный кишечный полип от злокачественного. • Определение стадии заболевания проводится с целью охарактеризовать природу или степень состояния пациента, например степень метастазирования раковой опухоли или степень регургитации в неполностью закрывающемся митральном клапане. • Мониторинговый тест выполняется для наблюдения за состоянием пациента с течением времени. Тест на содержание сахара в крови, применяемый инсулинозависимы- ми диабетиками для регулировки своей дозы инсулина, — мониторинговый тест. ^ Насколько полезен тест? «Утку трудно спутать с тибетским быком, яком даже в отсутствие хромосомного анализа, поэтому если на первом месте диагностического теста стоит его способность различать и без того непохожие расстройства, то это является слабым аргументом в пользу его повсеместного применения <...> решающим преимуществом диагностического теста часто является его способность дифференцировать расстройства, которые бывает легко спутать друг с другом, особенно при резких различиях в их прогнозах и методах лечения» [6]. 10«2. Укажите стадию заболевания, для которой пригоден теа [5]. Некоторые тесты различаются по своей способности распознавать ранние и поздние формы заболевания. Этот «эффект спектра» [8], или «смесь случаев» [9, 10], диагностического теста может объясняться тремя компонентами, которые следует учитывать при указании стадии болезни: • Патологическая компонента тяжести заболевания или развития болезни; например, метастатический рак распознать легче, чем локализованное поражение. • Клиническая компонента выраженности или хронического характера симптомов; например, острый период заболевания бывает распознать легче, чем медленно прогрессирующее, хроническое заболевание.
Отчет о характеристиках проведения диагностических тестов 139 • Компонента сопутствующих заболеваний, которые напрямую не относятся к изучаемой болезни, но могут повлиять на результаты анализов. Знание спектра заболеваний, на котором тест дает точные результаты, важно потому, что истинное значение диагностического теста, вероятнее всего, заключено в его способности различать тесно связанные или сомнительные случаи [6]. Таким образом, тест, распознающий рак на более ранней стадии, полезней по сравнению с распознающим на более поздней. @ Идентифицируйте, если это уместно, все подгруппы, для которых тест может оказаться особенно эффективным [10, 11]. Некоторые диагностические тесты оказываются малоэффективными при проведении их в популяции с полным спектром заболевания, но хорошо проходят в некоторых подгруппах, для которых спектр гораздо уже. 103. Поясните клинический смысл положительных и отрицательных результатов теста. Положительный результат теста обычно указывает на отклонение от нормы или нежелательное состояние, тогда как отрицательный обычно указывает на норму или желательное состояние. Однако клинический смысл положительного или отрицательного результата зависят от того, каким образом определяется «норма» или «аномалия» (рис. 10.1). • Диагностическое определение нормы — это некоторый диапазон измерений, в котором некоторое условие отсутствует, а вне которого — вероятнее всего, присутствует. Это диагностическое определение нормы имеет первостепенное значение и основано (или должно быть основано) на свидетельствах в пользу наличия или отсутствия болезни в нормальном и аномальном диапазонах соответственно. Здесь положительный результат выступает в поддержку диагноза заболевания, а отрицательный — нет. • Терапевтическое определение нормы устанавливает диапазон измерений, в котором лечение не показано (в силу неэффективности или даже вреда), а вне его лечение предпочтительно. Как и предыдущее, данное определение, если оно основано на доказательствах эффективности лечения, является клинически полезным. Таким образом, положительный результат показывает целесообразность назначения лечения, а отрицательный — нет. Другие определения нормы, пожалуй, менее полезны для клинического принятия решений, хотя, к сожалению, распространены: • Определение по факторам риска основано на измерениях суррогатных конечных точек или маркеров заболеваний. Здесь норма определяется диапазоном измерений факторов риска, в котором риск заболевания не нарастает, а вне его — растет. Определение основано на предположении, согласно которому изменение фактора риска изменяет действительный риск заболеть. Например, за редкими исключениями, высокий уровень холестерина сыворотки не опасен сам по себе; «аномальным» его делает связанный с ним повышенный риск сердечного заболевания. Положительный результат теста указывает на возросший риск заболеть, тогда как отрицательный — не указывает. • Гауссово определение нормы основано на измерениях, проведенных в популяции при отсутствии заболевания. Нормальным обычно считается диапазон измерений, покрывающий два СО выше и ниже среднего; т. е. тот диапазон, который включает центральные 95 % от всех измерений. Однако наибольшие и наименьшие 2,5 %
140 Составление статистических отчетов в медицине «Нормальное» по Гауссову определению: центральные 95 % значений распределены между 3 и 9 мл «Нетипичное» по процентильному определению: верхние 5 % значений выше приблизительно 8,6 мл 6 7 8 9 Результаты теста, мл 10 11 12 13 14 15 о. Здоровые люди Больные люди Значения более 13 мл «нетипичны» по терапевтическому определению, если лечение предназначено только для этого диапазона значений «Нормальное» по диагмостическому определению: значения ниже 8 мл не связаны с болезнью 6 7 8 9 Результаты теста, мл 10 11 12 13 14 15 Рис. 10.1. Несколько определений нормы. (А) Статистические определения. Гауссово определение основано на нормальном распределении и считает «нормальным» диапазон значений, заключенных обычно между двумя стандартными отклонениями выше и ниже среднего (средние 95 % от значений распределения). Здесь считается «нормальным» диапазон между 3 и 9 мл, тогда как значения вне его на каждом конце (по 2,5 % значений на каждом) считаются «аномальными». Процентильное определение считает нормальными нижние (или верхние) 95 % диапазона значений; в данном случае диапазон от О до 8,6. Согласно этому определению, только верхние (или нижние) 5 % значений будут считаться «аномальными». (В) Клинические определения. Диагностическое определение показывает вероятность наличия болезни при данном результате теста; здесь отсчет ниже 8 мл указывает на отсутствие заболевания. Терапевтическое определение показывает полезность терапии для данного результата теста. Например, медицинские свидетельства могут говорить о том, что лечение подходит только для пациентов со значениями, скажем, 13 мл или выше. Другими словами, положительный результат теста при терапевтическом определении изменит способы ухода за пациентом значении — «аномальные» значения — могут не иметь клинических следствии; они просто нетипичны [12, 13]. Отчеты о большинстве стандартных анализов крови составлены с использованием этого определения нормы. Оно обычно предполагает, что результаты анализа распределены по нормальному закону (т. е. описываются гауссовым распределением, или колоколообразной кривой). К сожалению, результаты тестов
Отчет о характеристиках проведения диагностических тестов 141 редко бывают нормально распределенными [6]. Однако нетипичные значения необязательно указывают на болезнь, а нормальные — на ее отсутствие. Таким образом, положительный результат теста говорит лишь о нетипичности значения в нормальной популяции, а отрицательный — о его типичности. • Процентильное определение нормы выражает нормальный диапазон как произвольно взятый процент наименьших (или наибольших) значений всего диапазона. Например, нормальным может считаться любое значение из меньших 95 % всех результатов теста, и лишь значения из наибольших 5 % будут определены как аномальные, но это определение опять-таки может иметь лишь статистический, а не клинический смысл. Как и в описанном выше гауссовом определении, положительный результат теста показывает лишь нетипичность значения в нормальной популяции, а отрицательный — его типичность. • Социальное определение нормы основано на житейских представлениях о том, что является и что не является нормой. Желательный вес, например, или сроки таких знаковых событий, как появление молочных зубов, часто являются социальным определением нормы, связанной с ними, что может либо иметь, либо не иметь серьезных клинических последствий. ХАРАКТЕРИСТИКИ ВЫПОЛНЕНИЯ ТЕСТА 10.4. Опишите биологический принцип, на котором основан тест. Зная, как работает тест, читатели смогут легче оценить его соответствие своему назначению. Уровень детализации должен соответствовать целям исследования и нуждам аудитории. Q Укажите структуру и объем анкет, направленных на распознавание клинических состояний. Анкета, разработанная, к примеру, для идентификации депрессии, может содержать вопросы по телесным симптомам, эмоциональному состоянию и поведению. Каждый из этих разделов может оцениваться по собственной шкале, или же ответы могут просто описываться одной итоговой величиной, превышение порога которой указывает на высокое правдоподобие депрессии. (См. такэюе гл. 16.) 10.5. Укажите, насколько применяемый тест соответствует своему назначению, и эталонный тест, с которым он сравнивается. Обоснованность исследуемого теста определяется его способностью выдавать точные измерения, что определяется близостью его результатов к результатам эталонного теста. В качестве последнего может служить другой, общеупотребительный тест, в идеале — эталонный стандарт (или «золотой стандарт», хотя этот термин больше не является предпочтительным) — тест, который принят как точно измеряющий состояние. Например, результаты тестирования нагрузки можно сравнить с результатами коронарной ангиографии, эталонного теста, который также является эталонным стандартом для диагностики коронарной болезни сердца. Обычным, но некорректным способом проверки диагностического теста является вычисление коэффициента корреляции для результатов, полученных с помощью как применяемого, так и эталонного теста от одних и тех же пациентов. Но на коэффициент корреляции влияет степень вариабельности значений от пациента к пациенту, и эта вариабельность
142 Составление статистических отчетов в медицине не имеет отношения к тому, насколько хорошо результаты одного метода согласуются с результатами другого. Более уместным подходом является метод Бланда—^Альтмана, или метод «пределов согласия», при котором разности между парными измерениями откладываются на оси Y, а средние двух измерений — на оси X [14]. Этот подход аналогичен графическому представлению остатков в линейном регрессионном анализе {см. рис. 21.26), при котором высокая степень согласия показывается разностями, остающимися близкими к нулю на всем диапазоне измерений по оси X. Время между проведением исследуемого и эталонного тестов должно быть достаточно коротким, чтобы в состоянии пациентов не произошло ощутимых изменений [5]. Результаты исследуемого теста (положительные или отрицательные) должны быть также независимыми от проверки наличия или отсутствия болезни [5,6, 8,9,15-20]. Независимость лучше всего устанавливать при помощи «слепого» сравнения теста с эталонным стандартом. Результаты исследуемого теста следует интерпретировать при неизвестных результатах эталонного теста, а результаты эталонного — без знания результатов исследуемого [5]. На независимость исследуемого теста и его проверки по эталонному стандарту может оказать влияние по крайней мере три систематических ошибки [9]: • Ошибка влияния (или верификации) может иметь место, если результат более раннего диагностического теста влияет на тех, кто, как предполагается, должен будет пройти исследуемый тест. Отрицательный результат более раннего теста может уменьшить вероятность того, что некоторые пациенты пройдут исследуемый тест, а положительный — увеличить вероятность того, что испытуемый тест пройдут другие пациенты [5]. • Ошибка диагностического повторения может иметь место тогда, когда результаты прошлых тестов известны тем, кто интерпретирует результаты исследуемого теста. Например, если на томографе виден узелок в легких, то наличие нераспознанного поражения на рентгенограмме грудной клетки может стать более очевидным [17]. Слепое оценивание может уменьшить ошибку этого вида на испытательной стадии разработки теста. Но поскольку клиницисты постоянно знакомятся с результатами тестов при повседневном наблюдении за больными, надежда на слепые исследования может оказаться нереалистичной [И]. • Ошибка объединения может иметь место тогда, когда диагноз устанавливается на основании результатов самого исследуемого теста, а не исключительно с помощью эталонного. Объединение результатов в один диагноз нарушает независимость исследуемого теста по отношению к эталонному стандарту. Q Иногда бывает полезно указать в отчете долю больных и здоровых пациентов, распознанных эталонным тестом и исследуемым тестом, как и специфические результаты теста. 10 А. Сообщите о надежноаи теста. Надежность теста, или надежность «от теста к тесту», — способность выдавать единообразные результаты при проведении его в одних и тех же условиях. На надежность может влиять несколько факторов: • Различия в выполнении теста [6]. Результаты трансэзофагиальной эхокардиографии, например, могут варьироваться в зависимости от уровня мастерства врача, который вводит зонд.
Отчет о характеристиках проведения диагностических тестов 143 • Различия в обработке данных теста. Разные лаборатории могут использовать разные процедуры, по-разному калибровать оборудование, применять разные реагенты и т. д. • Различия в состояниях пациента, при которых он обследуется. Например, результаты анализа крови могут быть разными в течение дня, на разных стадиях заболевания или в разных популяциях пациентов, например у беременных женщин. [12, 21]. • Согласованность меэюду наблюдателями, или степень различий, с которыми двое или более экспертов интерпретируют одни и те же результаты, как это часто бывает при интерпретации визуальных анализов: рентгенограмм, томограмм или ультразвуковых карт. • Согласованность внутри наблюдателей, или степень различий, с которыми один и тот же эксперт интерпретирует один и тот же результат в разное время. Мерами согласованности оценок являются каппа-статистика, альфа Кронбаха, меж- и внутриклассовые коэффициенты корреляции, а также метод Бланда—Альтмана. 10.7. Опишите все сомнительные результаты теста и объясните, как они обрабатывались при расчете характеристик его выполнения. Не все тесты дают четкие положительные или отрицательные результаты. Возможно, была проглочена не вся порция бария; возможно, кишечный газ повлиял на ультразвуковую картину брюшной полости; возможно, бронхоскопическая биопсия не исключила и не подтвердила диагноз; возможно, исследователи не пришли к единому мнению при интерпретации клинических проявлений. Количество и долю неположительных и неотрицательных результатов важно знать потому, что такие результаты влияют на клиническую полезность теста и необходимость повторных или дополнительных анализов [5]. Simel и соавт. [22] различают три типа сомнительных результатов: 1. Промежуточные результаты — те, которые попадают в промежуток между отрицательным и положительным результатом. В тесте, основанном на присутствии в ткани клеток, окрашивающихся в синий цвет, «синеватые» клетки, которые не остались неокрашенными и не приобрели должного оттенка синего, можно считать промежуточными результатами. 2. Неопределенные результаты — те, которые нельзя отнести ни к положительным, ни к отрицательным. Известным неопределенным результатом являются, например, найденные в цитологическом мазке «атипичные слущенные клетки неизвестного вида» (ASCUS). 3. Неинтерпретируемые результаты получаются тогда, когда тест проводится с отклонениями от существующих стандартов. Например, стандартные рентгенограммы грудной клетки получаются в положении пациента лицом к экрану. Если снимок получен в положении к экрану спиной, пропорции снимка будут отличаться от тех, какими они должны были быть при правильной рентгеносъемке. Тогда будет невозможно правильно определить размеры некоторых структур: результаты будут неинтерпретируемыми. В отчете следует описать, каким образом такие результаты учитывались при расчете чувствительности и специфичности. Эти характеристики будут варьироваться в зависимости от того, считаются ли результаты положительными, отрицательными или они вовсе не принимались в расчет {см. указание 10.8 и табл. 10.1), 10.8. Укажите диагностическую чувствительность и специфичность теста, включив связанные с ними доверительные интервалы. Р1деальный диагностический тест возвращает положительный результат для всех пациентов, имеющих болезнь, и отрицательный для всех тех, у кого ее нет. Совершенны, однако.
144 Составление статистических отчетов в медицине лишь немногие тесты; большинство их обладает погрешностью, связанной с их применением (чувствительность и надежность меньше 100 %), и поэтому возвращает некоторое количество ложноположительных и ложноотрицательных результатов. Кроме того, результаты тестов у здоровых и больных пациентов часто перекрываются (рис. 10.2). Если большие значения одного распределения накладываются на малые значения другого, значения в области наложения не делают различий между здоровыми и больными субъектами. Даже точный результат теста, попавший в эту область, может тогда привести к диагностической ошибке. Диагностическую точность теста характеризуют два качества: чувствительность и специфичность. Табл. 10.1 показывает, каким образом вычисляются эти показатели [21, 22]. • Чувствительность отвечает на вопрос: «Насколько вероятен положительный результат теста, если пациент страдает данной болезнью?» [8]. Чувствительность 90 % означает, что из 100 человек с верифицированным диагнозом тест, вероятно, распознает 90 (частота истинно положительных результатов равно 90 %). Остальные 10 отрицательных результатов называются ложноотрицательными. • Специфичность отвечает на вопрос: «Насколько вероятен отрицательный результат теста, если пациент не страдает данной болезнью?» [8]. Специфичность 75 % означает, что из 100 человек, у которых доказано отсутствие данного заболевания, результат теста, вероятно, окажется отрицательным для 75 (частота истинно отрицательных результатов равна 75 %). Остальные 25 результатов называются ложноположительными. Один из способов запомнить разницу между истинными и ложными положительными и истинными и ложными отрицательными результатами состоит в следующем: • Истинно положительные результаты определяют распознанных пациентов, у которых подтверждено наличие болезни. • Истинно отрицательные результаты определяют не страдающих заболеванием людей, которые знают, что они не имеют данной болезни. • Ложноположительные результаты определяют пациентов-«стигматиков», которые считаются больными, но в действительности данной болезнью не страдают. • Ложноотрицательные результаты определяют «скрытых» пациентов, о болезни которых еще никому не известно. ^ Дайте обоснование выбора точки деления, определяющей чувствительность и специфичность. Существует альтернатива выбора между чувствительностью и специфичностью (рис. 10.2). Поскольку диапазоны нормальных и аномальных значений часто перекрываются, для определения «порога принятия решений» вводится точка деления, которую можно перемещать, изменяя чувствительность и специфичность теста. Другой характеристикой, которая часто отражается в отчетах наряду с чувствительностью и специфичностью, является диагностическая точность, или диагностическая эффективность (табл. 10.1). Диагностическая точность — это процент всех правильных решений (число истинно положительных и истинно отрицательных результатов, деленное на число всех решений). Точность теста зависит, однако, от преваленса заболевания. Более предпочтительным, хотя и более сложным показателем точности является рабочая характеристика, ROC-кривая {см. указание 10.10), площадь под которой показывает точность теста при разных точках деления (что также изменяет чувствительность и специфичность); таким образом, ROC-кривая не зависит от преваленса заболевания.
Отчет о характеристиках проведения диагностических тестов 145 Таблица 10,1 Вычисление характеристик диагностических тестов"* Реальное состояние популяции Результат теста Пациенты с заболеванием Пациенты без заболевания Всего Положительный Отрицательный Всего (истинно положительные) чувствительность с (ложноотрицательные) a-fc (ложноположительные) (истинно отрицательные) специфичность b + d a + b c + d a+b+c+d ^ Формулы справедливы в предположении, что выборка, на основе которой составлена таблица, отражает истинную превалентность болезни. Чувствительность Специфичность Частота ложноположительных Частота ложноотрицательных Преваленс Прогностичность положительного результата Прогностичность отрицательного результата Диагностическая точность (эффективность) Отношение правдоподобия для положительного результата теста Отношение правдоподобия для отрицательного результата теста Диагностическое отношение шансов = доля истинно положительных = а/(а + с). = доля ложноотрицательных = d/(b + d). = доля ложноположительных = b/(b + d) = 1 - специфичность. = доля ложноотрицательных = с/(а + с) = 1 - чувствительность. = доля популяции, пораженная болезнью = (а + с)/(а + Ь + с + d). = число больных пациентов с положительным результатом теста, деленное на число пациентов с положительным результатом теста: (преваленс)(чувствительность)/[(преваленс)(чувствительность)+ + (1 - преваленс) (1 - специфичность)]. Если таблица отражает преваленс, то ППР = а/(а + Ь). = число не страдающих болезнью пациентов с отрицательными результатами теста, деленное на число пациентов с отрицательными результатами теста: (1 - преваленс)(специфичность)/(1 - преваленс) (специфичность) + (преваленс) (1 - чувствительность)]. Если таблица отражает преваленс, то ПОР = d/(c -h d). = доля правильных результатов = (а + d)/(a -ь b + с -h d); или (прева- ленс)(чувствительность) + (1 - преваленс) (специфичность). = [а/(а -I- c)]/[b/(b -h d)] = чувствительность/(1 - специфичность). = [с/(а + c)]/[d/(b + d)] = (1 - чувствительность)/специфичность. = (a/c)/(b/d) или ad/bc. 10,9. Укажите отношения правдоподобия для положительных и отрицательных результатов теста. Отношения правдоподобия — еще один показатель диагностической точности теста, и они становятся все более популярными в отчетах о характеристиках диагностического теста. Отношение правдоподобия сочетает в одном числе чувствительность и специфичность теста. Таким образом, отношение правдоподобия для положительного результата теста — это чувствительность (доля истинно положительных результатов), деленная на 1 минус специфичность (долю ложноположительных результатов; табл. 10.1). Другими словами, отношение правдоподобия для положительного результата теста — это:
146 Составление статистических отчетов в медицине Точка деления № 1 Ложноположительный результат Результат, принимаемый как отрицательный 012345678 Результат, принимаемый как положительный 9 10 11 12 13 14 15 16 17 мл/ч Точка деления № 2 Точка деления № 3 Нет ложноположительных результатов Результат, принимаемый как отрицательный 8 9 мл/ч Результат, принимаемый как положительный 10 11 12 13 14 15 16 17 Рис. 10.2. Если, как это часто бывает, распределения значений для здоровых и больных пациентов перекрываются, чувствительность и специфичность теста можно изменить перемещением порога принятия решения, или «точки отсечения», на новое значение. Здесь распределения перекрываются в диапазоне от 7 до 11 мл/ч. (А) Точка деления (№ 1) в середине этого диапазона выравнивает число ложноположительных и ложноотрица- тельных результатов. (В) Перемещение точки деления к значению 7 мл/ч (№ 2) уничтожает ложноотрицательные результаты, но увеличивает долю ложноположительных. Аналогично, перемещение точки деления к 11 мл/ч (№ 3) уничтожает ложноположительные результаты, но увеличивает долю ложноотрицательных Правдоподобие положительного результата теста у пациентов, имеющих болезнь Правдоподобие положительного результата теста у пациентов, не имеющих болезнь Например, если отношение правдоподобия для положительного результата теста равно 6,2, то положительный результат теста у пациента, имеющего болезнь, в 6,2 раза вероятнее, чем у не имеющего. Отношение правдоподобия для отрицательного результата показывает шанс ожидать отрицательный результат у пациента, не имеющего болезни, в сравнении с тем, у кого она есть.
Отчет о характеристиках проведения диагностических тестов 147 10.10. Если диагностический тест является существенной частью исследования, а его интерпретация зависит от положения точки деления на множестве его значений, проиллюстрируйте его характеристики с помощью рабочей ха- рактериаики (ROC-кривой). Полезным способом представления характеристик диагностического теста является рабочая характеристика (ROC-кривая) (рис. 10.3). Эта ROC-кривая представляет собой график, на котором вдоль оси Y отложены значения чувствительности (доля истинно положительных результатов), а вдоль оси X — значения, равные 1 минус специфичность (или доля ложноположительных результатов); таким образом, ROC-кривая является графиком отношений правдоподобия для положительных результатов. При изменении порога принятия решений (т. е. при перемещении точки, отделяющей здоровых пациентов от больных, см. указание 10.8) меняются также чувствительность и специфичность теста. Эти значения нанесены на график и соединены, образуя ROC-кривую. н о Z л I S со ь- U 00 >ч ЭР л I- \J о X I- о а ф а о: (D Z л I Z S 0,0 0,2 0,4 0,6 0,8 1,0 Ложноположительная вероятность = 1 - специфичность Рис. 10.3. Для тестов, результаты которых выражаются непрерывной переменной, ROC-кривая изображает зависимость частоты истинно положительных результатов (чувствительность) от частоты ложноположительных (1 -специфичность) на всем диапазоне точек деления. Точки вдоль диагонали показывают результаты, не лучше случайных. Точки, наиболее близкие к верхнему левому углу, показывают точки деления, которые максимизируют число истинно положительных результатов и минимизируют число ложноположительных. Если тесты сравниваются на предмет достижения компромисса между чувствительностью и специфичностью, более предпочтительным является тесте наибольшей площадью под ROC-кривой. (В ряде статистических пакетов реализованы процедуры проверки статистических гипотез сравнения между собой двух или более ROC-кривых. — Прим. ред.)
148 Составление статистических отчетов в медицине ROC-кривая, которая распознает болезнь не лучше, чем простая случайность, будет лежать на прямой, идущей под углом 45° из точки пересечения осей X и Y в правый верхний угол рисунка (линия с единичным угловым коэффициентом, рис. 10.3). Точки на этой линии говорят о том, что тест дает одинаковое число истинно и ложноположительных результатов, т. е. не делает различий между здоровыми и больными исследуемыми. Наиболее точная ROC-кривая — та, которая выгнута к верхнему левому углу рисунка, перед тем как перейти к верхнему правому углу. Наилучшая точка деления для сбалансированности чувствительности и специфичности теста будет представлена той точкой кривой, которая лежит ближе всего к верхнему левому углу. Как отношение правдоподобия {см. указание 10.9), так и ROC-кривая выводятся из чувствительности и специфичности теста (см. указание 10.8). ф При сравнении диагностических тестов, для которых чувствительность и специфичность считаются одинаково важными, более точным будет считаться тест с большей площадью под ROC-кривой (см. рис. 10.3). Q Если тест является существенной частью исследования, отразите в отчете число и долю пациентов с болезнью и без нее, протестированных с целью определить специфичность и чувствительность. Число здоровых и больных участников исследования, выбранных для определения чувствительности и специфичности теста, по соглашению предполагается примерно одинаковым, что способствует полнейшему раскрытию возможностей теста [15]. Поскольку вне изучаемых популяций такие доли встречаются редко, для помощи в интерпретации результатов теста при его применении в клинической практике необходимы дополнительные показатели — прогностичность положительного и отрицательного результатов. В то время как чувствительность и специфичность являются характеристиками самого теста (если они вычислены при описанных условиях) и не зависят от преваленса болезни, прогностичность положительного и отрицательного результатов теста зависят от преваленса состояния в популяции, так же как и от его чувствительности и специфичности. КЛИНИЧЕСКОЕ ПРИМЕНЕНИЕ ТЕСТА 10Л1« Опишите, каким образом должен выполняться теа. Если предполагается принятие теста к практическому применению, следует описать клинические аспекты его выполнения [5]. Опишите, если это уместно, следующее: • протокол выполнения теста; • как интерпретировать результаты; • как готовить пациентов к проведению теста (например, специальные диеты, ограничение двигательной активности, лечение, прием жидкостей); • что могут испытывать пациенты во время проведения теста и после него; • какие меры предосторожности следует принять до, во время и после теста; • как брать, хранить, транспортировать или анализировать образцы; • какие неопределенности могут остаться до, во время и после проведения теста [6].
Отчет о характеристиках проведения диагностических тестов 149 10.12. Укажите прогностичности положительного и отрицательного результатов теста, а также связанный с ними преваленс заболевания. Правильно определенные чувствительность и специфичность (см. указание 10.8) являются характеристиками самого диагностического теста и не зависят от преваленса заболевания. Полезность результата теста для отдельного пациента зависит, однако, от преваленса заболевания в тестируемой популяции. Именно положительный результат теста окажется истинным с большей вероятностью, если болезнь широко распространена, нежели в случае редкой болезни: «Если вы слышите топот копыт, ищите лошадей, а не зебр». Другими словами, несмотря на то что у зебр есть копыта, звук топота копыт следует истолковывать в свете того факта, что лошади более распространены, чем зебры. Вероятность того, что топот копыт принадлежит лошадям, таким образом, намного больше вероятности того, что он принадлежит зебрам. Сочетая преваленс заболевания с чувствительностью и специфичностью, можно получить две другие полезные меры диагностической точности: прогно- стичность положительного и отрицательного результатов (см. табл. 10.1 и 10.2). • Прогностичность положительного результата (или точность положительного предсказания) отвечает на вопрос: «Если результат теста у пациента положителен, насколько велика вероятность того, что он страдает этой болезнью?» Для выявления болезни желательна высокая прогностичность положительного результата. Прогностичность положительного результата, равная 83 %, означает, что 83 из 100 пациентов с положительным результатом теста, скорее всего, действительно страдают этой болезнью. • Прогностичность отрицательного результата (или точность отрицательного предсказания) отвечает на вопрос: «Если результат теста у пациента отрицателен, насколько велика вероятность того, что он не страдает этой болезнью?» Для исключения возможности болезни желательна высокая прогностичность отрицательного результата. Прогностичность отрицательного результата, равная 94 %, означает, что 94 из 100 пациентов с отрицательным результатом теста, скорее всего, не страдают этой болезнью. Таблица 10,2 Прогностичность положительного и отрицательного результатов диагностического теста с чувствительностью 80 % и специфичностью 90 % для различных относительных преваленсов (претестовая вероятность того, что данный пациент страдает заболеванием) Претестовая вероятность заболевания Характеристика (преваленс) Прогностичность положительного результата, %^ Прогностичность отрицательного результата, %^ Диагностическая точность (%) ^ Если преваленс болезни составляет 1 %, то болезнь, вероятно, имеется только у 7 или 8 из 100 (7,5 %) пациентов с положительным результатом теста; у остальных результаты будут ложноположительными. Если преваленс болезни составляет 90 %, то болезнь, вероятно, имеется у 98 или 99 из 100 (98,6 %) пациентов. ^ Если преваленс болезни составляет 1 %, то болезнью, вероятно, не страдает ни один из всех 100 (99,8 %) пациентов с отрицательным результатом теста; ложноотрицательных результатов либо будет очень мало, либо не будет совсем. Однако если преваленс болезни составляет 90%, то среди пациентов с отрицательными результатами болезни не будет, вероятно, лишь у 33 из 100 (33,3 %), а результаты у остальных будут ложноотрицательными. 1% 7,5 99,8 89,9 10% 47,1 97,6 89,0 50% 88,9 81,8 85,0 90% 98,6 33,3 81,0
150 Составление статистических отчетов в медицине Полезный способ отразить прогностичности теста показан на рис. 10.4 [23]. Прогно- стичность от101адывается в зависимости от превалентности заболевания, а чувствительность и специфичность отражаются в виде двух кривых для прогностичности положительного и отрицательного результатов. Тем самым клиницисты могут оценить прогностичности по данным о превалентности для своих пациентов. Чувствительность = 90 % Специфичность = 90 % Чувствительность = 50 ^ Специфичность = 90 % Прогностичность положительного результата о 20 40 60 80 100 Преваленс заболевания, % Прогностичность положительного результата о 20 40 60 80 100 Преваленс заболевания, % Рис. 10.4. График, отражающий характеристики диагностических тестов. В клинической практике прогностичности теста могут оказаться более полезными, чем его чувствительность и специфичность. (А)Тест с чувствительностью 90 % и специфичностью 90 %. (В) Тест с чувствительностью 50 % и специфичностью 90 %. (Elsenberg М. J. Accuracy and predictive values In clinical decision-making. Cleve Clin J Med. 1995; 62:311-6; приведено с разрешения) ПРИМЕНЕНИЕ ТЕОРЕМЫ БАЙЕСА В ДИАГНОСТИЧЕСКОМ ТЕСТИРОВАНИИ Прогностичности часто вычисляются при помощи теоремы Байеса. Эта теорема представляет собой уравнение, связывающее «априорную (или претестовую) вероятность», «правдоподобие» и «апостериорную (или посттестовую) вероятность». Проще говоря, теорема Байеса использует новую информацию (правдоподобие; информацию, добавленную благодаря результатам теста) для обновления старой (априорной вероятности). Обновленный результат является апостериорной вероятностью, или, в данном случае, прогностично- стью теста (см. такэюе гл. 11), • Априорная (или претестовая) вероятность заболевания может быть просто прева- ленсом заболевания; другими словами, вероятностью того, что случайно выбранный пациент болен. Однако она может В1слючать и другую информацию, поднимающую «показатель подозрения» на особый диагноз, такую как наличие проявлений и симптомов болезни. • Правдоподобие — это в данном случае вероятность того, что диагностический тест даст определенный результат при особых условиях. Два таких особых условия выражаются в отношениях правдоподобия для положительного и отрицательного результатов {см. указание 10.9). В отношении правдоподобия для положительного результата
Отчет о характеристиках проведения диагностических тестов 151 0,1 0,2 0,5 % 10 20 30 40 50 60 70 «апостериорную вероятность» наличия болезни. 10.13. При отчете о применении сочетания двух и более диагностических теаов укажите порядок их выполнения, характеристики их проведения, а также вклад каждого из них в заключительный результат. Тесты с разными степенями чувствительности и специфичности можно применять одновременно или последовательно с целью увеличить их диагностическую ценность, сократить затраты или то и другое вместе. В действительности тесты чаще применяются последовательно, нежели изолированно друг от друга [9]. 80 90 95 99 1000 + 500 + 200 + 100 4- 50 20 10 + 5 -I- 2 1 + 0,5 0,2 0,1 0,05 0,02 0,01 0,005 0,002 0,001 99 теста вероятность, стоящая в числителе, является правдоподобием полоэюительного результата теста для пациентов, у которых есть болезнь; другими словами — чувствительностью теста. Вероятность, стоящая в знаменателе, является правдоподобием положительного результата среди тех пациентов, у которых ее нет. Она равна 1 минус специфичность теста (см. табл. 10.1). • Апостериорная (или посттестовая) вероятность заболевания — это вероятность того, что пациент страдает болезнью, если известны преваленс и результаты диагностического теста: прогностичности положительного или отрицательного результата теста. ПРИМЕР • Если априорная вероятность заболевания (скажем, преваленс болезни в популяции, прошедшей рутинное обследование на ее наличие) равна 10 %, а отношение правдоподобия для положительного результата равно 20 (это значит, что положительный результат у страдающего болезнью пациента в 20 раз вероятнее, чем у не страдающего), то апостериорная вероятность болезни при положительном результате равна около 70 %. Таким образом, в данном случае в обследованной популяции пациент с положительным результатом будет иметь 70 % шансов оказаться больным. Этот результат легко получить с помощью номограммы (рис. 10.5) [1, 24]. ф Полезный диагностический тест имеет высокое отношение правдоподобия и тем самым значительно изменяет V 95 90 80 70 60 50 40 30 20 10 % V 1 0,1 h 0,1 0,1 Претестовая вероятность Отношение правдоподобия Посттестовая вероятность Рис. 10.5. Номограмма позволяет определить прогностичности положительного и отрицательного результатов (апостериорные вероятности заболевания) по отношениям правдоподобия теста и преваленсу заболевания в популяции (априорная вероятность заболевания). (FaganT. J. Nomogram for Bayes'theorem [Letter]. N Engl J Med. 1975;293:257; приведено с разрешения)
152 Составление статистических отчетов в медицине В таких случаях желательна диаграмма, показывающая взаимосвязи и характеристики тестов (рис. 10.6). СООБРАЖЕНИЯ ОТНОСИТЕЛЬНО ПРИНЯТИЯ ТЕСТА Если основной мыслью статьи является стремление ввести тест в практику, следует учесть приведенные ниже указания. 10«14« Опишите влияние теста на способы лечения пациента и течение болезни. Конечной целью диагностического теста является улучшение ухода за пациентом. Таким образом, необходимо описать, как влияет тест на лечение пациента и на течение болезни [9,25]. Истина Истина < s. 14 2 4 38 18 QQ Р -4. U + 13 1 1 3 Чувствительность = 14/16 = 87,5 * Специфичность = 38/42 = 90,5 % Чувствительность = 13/14 = 92,9 % Специфичность = 3/4 = 75,0 % Истина t + 13 3 4 38 Чувствительность = 13/16 = 81,3 % Специфичность = 38/42 = 90,5 % Истина Тест Истина А В + + + + + 00 с + 12 4 4 38 15 1 6 36 Чувствительность =15/16 = 93,8 % Специфичность = 36/42 = 85,7 % Чувствительность =12/16 = 75,0 % Специфичность = 38/42 = 90,5 % Рис. 10.6. Диагностические тесты можно проводить последовательно {А) или одновременно {В), с тем чтобы увеличить их полезность и/или сократить связанные с ними расходы. Следует указать вклад каждого теста в окончательный итог анализа. Здесь выборка отражает 30%-й преваленс заболевания. В случае А 18 пациентов с положительным результатом теста А дополнительно проходят тест В, что увеличивает чувствительность с примерно 88 % до примерно 93 %. В случае В тесты проводятся совместно, и считается, что положительный результат имеют все пациенты с положительным результатом хотя бы по одному тесту. Тем самым чувствительность увеличивается по сравнению с отдельно взятыми тестами
Отчет о характеристиках проведения диагностических тестов 153 10.15* Представьте информацию о тесте по существу. Многие диагностические тесты принимаются преждевременно из-за того, что не были оценены должным образом. Тесты, достоинства которых доказаны на каждой из описанных ниже пяти стадий, скорее всего, окажутся более ценными в клинической практике, чем не прошедшие такую проверку [24]: • Стадия 1: тест точно и достоверно идентифицирует случаи очевидной патологии при тщательно контролируемых условиях. • Стадия 2: тест точно и достоверно дифференцирует здоровых людей из контрольной группы от пациентов с узким, хорошо выраженным спектром заболевания. • Стадия 3: тест точно и достоверно дифференцирует здоровых людей из контрольной группы от пациентов с более широким спектром заболевания, включая менее типичные и менее тяжелые проявления. • Стадия 4: тест точно и достоверно дифференцирует более разнородные группы пациентов и контрольные группы. В частности, в каждую группу следует включить пациентов с сопутствующими заболеваниями. В числе последних должны быть те болезни и состояния, которые легче всего спутать с исследуемым заболеванием, а также те, симптомы и методы лечения которых могут затруднить проведение теста. • Стадия 5: тест точно и достоверно дифференцирует болезнь в типичном клиническом составе пациентов. Выборка в таком исследовании должна включать вторичных пациентов с полным спектром заболевания, здоровых пациентов, пациентов с сопутствующими заболеваниями и без них, а также тех, кому тест может быть назначен скорее всего. @ Иногда важно указать, будут ли клинические данные, доступные при интерпретации результатов теста в ходе его проверки, доступны с внедрением теста в клиническую практику [5]. Щ Со временем эффективность теста может меняться благодаря технологическим улучшениям и росту мастерства персонала [9]. 10*16. Опишите человеческие, финансовые и материальные ресурсы, необходимые для предложения теаа в сложившихся условиях. Совершенствование медицинских технологий означает, что применение теста может потребовать больше ресурсов, чем кажется на первый взгляд: • Требуемые человеческие ресурсы могут включать опытных операторов, квалифицированных специалистов по содержанию и ремонту оборудования, обученный персонал клинической поддержки. • Требуемые финансовые ресурсы могут включать затраты на приобретение, содержание, накладные расходы, затраты на приобретение материалов, эксплуатационные расходы, расходы на обучение, страховку и замещение. • Требуемые материальные ресурсы могут включать лабораторное пространство, мощности по расчету и обработке данных, а также зону контролируемого доступа. 10Л 7« Опишите связанные с принятием теста затраты и выгоды. Медицинские аспекты внедрения теста могут включать следующее: • диагностическую надежность;
154 Составление статистических отчетов в медицине • инвазивность; • возможности вызвать или предотвратить вредные реакции; • возможности потребовать или избежать госпитализации; • возможности отложить лечение до появления результатов; • влияние на предоставление лечения, если состояния диагностируются с возрастающей частотой; • влияние на пациентов, которым в результате тестирования поставлен неверный диагноз; ложноположительные результаты могут, например, привести к новым, ненужным тестам и беспокойствам, в то время как ложноотрицательные результаты могут непреднамеренно задержать необходимое лечение [26]. 10.18. Опишите связанные с принятием теаа финансовые затраты и выгоды. Тесты, благодаря которым ставятся более точные диагнозы на более ранней стадии, способствуют большим возможностям лечения, но в то же время могут повлечь изменения в финансовом отношении. Финансовые аспекты могут включать следующее: • расходы при выполнении теста, на одного пациента и общие; • перераспределение бремени расходов на тест; • стоимость процедур, которые с внедрением теста становятся необходимыми или ненужными; • сэкономленные средства при отмене более дорогостоящего теста; • отмена промежуточных тестов и связанных с ними расходов; • влияние тестовых ошибок и неверных диагнозов. 10«19« Опишите, каким образом тест сравнивается с аналогичными. Следует обсудить достоинства нового теста по сравнению с альтернативными. Важен вопрос: «Чем этот тест лучше действующих стандартных?» [2]. Тесты можно сравнивать по их точности (если возможно, сравните ROC-кривые [5]), достоверности, простоте проведения, стоимости проведения и действию на пациентов (инвазивность, дискомфорт, удобство). Литература 1. Jaeschke R, Guyatt GH, Sackett DL Users' guides to the medical literature. III. How to use an article about a diagnostic test. B. What are the results and will they help me in caring for my patients? The Evidence- Based Medicine Working Group. JAMA. 1994; 271:703-7. 2. Evidence and Diagnostics. Bandolier Evidence-Based Health Care; February 2002. Available at www.ebandolier.com. Accessed August 8, 2005. 3. van Walraven C, Naylor CD. Do we know what inappropriate laboratory utilization is? A systematic review of laboratory clinical audits. JAMA. 1998 280:550-8. 4. Bossuyt PM, Reitsma JB, Bruns DE, et al Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative [Review]. BMJ. 2003; 326:41-4. 5. Whiting P, Rutjes AWS, Dinnes J, et al Development and validation of methods for assessing the quality of diagnostic accuracy studies. Health Technol Assess. 2004; 8:1-234. 6. Haynes RB. How to read clinical journals: II.To learn about a diagnostic test. Can Med Assoc J. 1981; 124:703-10. 7. WaldN, Cuckle H. Reporting the assessment of screening and diagnostic tests. Br J Obstet Gynaecol. 1989;96:389-96. 8. RansohoffDF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of diagnostic tests. N Engl J Med. 1978; 299:926-30.
Отчет о характеристиках проведения диагностических тестов 155 9. Begg СВ. Biases in the assessment of diagnostic tests. Stat Med. 1987; 6:411-23. 10. Begg CB, Pocock SJ, Freedman L, Zelen M. State of the art in comparative cancer clinical trials. Cancer 1987; 60:2811-5. 11. ReidMC, Lacks MS, FeinsteinAR. Use of methodologic standards in diagnostic test research. JAMA. 1995;274:645-51. 12. Griner PF, Mayewski RJ, Mushlin Al, Greenland P Selection and inteфretation of diagnostic tests and procedures: principles and applications. Ann Intern Med. 1981; 94:557-92. 13. Diamond GA, Forrester JS. Clinical trials and statistical verdicts: probable grounds for appeal. Ann Intern Med. 1983;98:385-94. 14. AltmanDG, Bland JM. Measurement in medicine: the analysis of method comparison studies. Statistician. 1983; 32:307-17. 15. Metz CE. Basic principles of ROC analysis. Semm Nucl Med. 1978; 8:283-98. 16. Cooper LS, Chalmers TC, McAlly M, et al. The poor quality of early evaluations of magnetic resonance imaging. JAMA. 1988; 259:3277-80. 17. Jaeschke R, Guyatt GH, SackettDL. Users' guides to the medical literature. III. How to use an article about a diagnostic test. The Evidence-Based Medicine Working Group. A. Are the results of the study valid? JAMA. 1994;271:389-91. 18. Sox HC Jr Probability theory in the use of diagnostic tests: an introduction to critical study of the literature. Ann Intern Med. 1986; 104:60-6. 19. Sheps SB, Schechter MT. The assessment of diagnostic tests: a survey of current medical research. JAMA. 1984;252:2418-22. 20. ArrollB, Schecter MT, Sheps SB. The assessment of diagnostic tests: a comparison of medical literature in 1982 and 1985. J Gen Intern Med. 1988; 3:443-7. 21. Riegelman RK, Hirsch RP. Studying a Study and Testing a Test, 2nd ed. Boston: Little, Brown; 1989. 22. Simel DL, Feussner JR, Delong ER, Matchar DB. Intermediate, indeterminate, and uninterpretable diagnostic test results. Med Decis Making. 1987; 7:107-14. 23. Eisenberg MJ. Accuracy and predictive values in clinical decision-making. Cleve Clin J Med. 1995; 62:311-6. 24. Nierenberg AA, Feinstein AR. How to evaluate a diagnostic marker test. JAMA. 1988; 259:1699- 1702. 25. Guyatt GH, Tugwell PX, Feeny DH, et al. A framework for clinical evaluation of diagnostic technologies. Can Med Assoc J. 1986; 134:587-94. 26. Welch HG. Should I Be Tested for Cancer? Maybe Not and Here's Why. Berkeley: University of California Press, 2004.
156 Составление статистических отчетов в медицине Глава 11 Рассмотрение априорных вероятностей Отчет о байесовских статистических анализах Сторонники байесовского подхода работают с вероятностями гипотез при данном мносисестве данных, тогда как сторонники частотного (те, кто пользуется классическими проверками гипотез) — с вероятностями мноэюеств данных при данной гипотезе. R. J.Lewis, R.L Wears [\] Большинство статистических анализов, рассмотренных в этой книге, основаны на том, что называется «частотным подходом» или «классической проверкой гипотез», наиболее популярной статистической школой с момента ее появления в 20-х гг. XX века. Однако среди ряда медиков-исследователей все более популярной становится альтернативная школа «байесовской статистики», поэтому мы кратко описываем и ее. Поскольку байесовский анализ не является общепринятым в биомедицинских исследованиях (несмотря на повсеместное применение теоремы Байеса в диагностическом тестировании, см. указание 10.13), об отчетах о его проведении написано мало. Таким образом, мы даем лишь несколько указаний. КРАТКОЕ ОПИСАНИЕ БАЙЕСОВСКОЙ СТАТИСТИКИ Теорема Байеса названа именем того, кто ее сформулировал — преподобного Томаса Байеса (1702-1761), пресвитерианского священника и любителя математики, жившего в Лондоне'. На этой теореме, описывающей математические взаимосвязи между априорной, или доэкспериментальной, вероятностью события и апостериорной, или послеэксперименталь- ной, вероятностью при данных значениях экспериментальных данных (представленных «правдоподобием»), и основана байесовская статистика. Проще говоря, байесовский метод начинается с множества предположений (доэкспериментальных вероятностей), а затем модифицирует их на основе собранных при изучении данных (правдоподобия), с тем чтобы получить обновленное множество предположений, называемых «послеэксперименальны- ми вероятностями» [2]. Таким образом, «байесовский анализ выясняет, каким образом результаты исследования изменяют мнение, сложившееся до проведения исследования» [3]. Байесовский подход концептуально привлекателен потому, что он моделирует конвенционал