В Нетологии сделали краткий конспект статьи из журнала Nature о перспективах статистической значимости в исследованиях и собрали комментарии экспертов по этому поводу.

Почему опасно опираться только на статистическую значимость

редакция нетологии

Обычное дело: на конференции докладчик может утверждать, что между двумя наблюдаемыми группами нет разницы, потому что различия в результате исследования статистически незначимые. Умаление роли различий приводит к массе последствий: от утраты части данных из исследований до дезинформации во время принятия политических решений.

Очень ярко опасность таких суждений можно увидеть на примере анализа побочных эффектов противовоспалительных препаратов. Результаты проведённых тестов не были статистически значимы. Поэтому один из учёных пришел к выводу, что приём препаратов не связан с возникновением у ряда пациентов мерцательной аритмии. Фактически процент попадания в группу риска варьируется от 9% до 33% с учётом коэффициента риска -1,2. То есть повышенный риск существует для пациентов с предрасположенностью к таким заболеваниям.

Таким образом, «статистически незначимые результаты» показали существенную степень риска для пациентов. Но этот риск проигнорировали из-за «незначительности» результатов. Если оценивать необходимость ранжирования статических данных лишь на основании «значимости», можно серьёзно ошибиться.

Проблема в том, что классификация результатов на «статистически значимые» и «статистически незначимые» заставляет людей думать, что их разделённые таким образом выборки различны. Ложно полагать, что прохождения порога статистической значимости достаточно, чтобы показать достоверность результата. Ведь запрос на статистическую значимость побуждает исследователей выбирать данные и методы, которые заведомо иллюстрируют достаточную значимость для желаемого результата. Или, наоборот, не доходят до нормы прохождения в случае с нежелательными результатами.

Распространение в массовой культуре такого мышления привело к тому, что учёные и редакторы журналов стали отдавать предпочтение «значимым» результатам, искажая факты.

Еще в 2016 году Американская статистическая организация заявила: недопустимо злоупотреблять показателями статистической значимости и референсных значений.

После публикации петиции 250 человек подписали её в первые 24 часа. Спустя неделю заявление поддержали уже 800 человек — статистики, клинические и медицинские исследователи, биологи и психологи из более чем 50 стран и всех континентов. Специалисты согласились, что нужно прекратить применение P-критерия значимости, используя традиционный, дихотомический способ (деление на два взаимоисключающих понятия: a или не-a), а также выделяя категории на основе коэффициента Байеса и других статистических показателей. Петиция предлагает исследователям избегать описаний практических последствий всех значений внутри контрольных интервалов экспериментов.

Значения за пределами интервала несущественно отличаются от значений внутри него. Точечная оценка оптимальна: проще воспринимать значения от точки к точке, чем сравнивать их в каждом отдельном интервале и в интервалах в совокупности. Порог статистической значимости в 0,05% основан на двух ложных идеях:

с вероятностью 95% сам вычисленный интервал содержит истинное значение в сочетании;
это и есть основа для окончательного решения.

Что бы ни показывали статистические данные, важно уметь аргументировать окончательные результаты и анализировать все данные в совокупности, а не сознательно выбранные для дискуссий. Научные выводы всегда выходят далеко за рамки чисто статистических. Исходные данные, дизайн исследования, качество данных и понимание основных механизмов работы зачастую важнее, чем статистические показатели Р-критерия или интервалы.

На примере социально-значимых последствий проблема заключается в следующем. Камень преткновения для несогласных с пенсионной реформой — необходимость принимать решение с двумя опциями: «да» или «нет». Статистическая значимость — недостаточное подкрепление для таких решений. В законодательной, политической и деловой сферах на их фоне выигрывают решения, основанные на расчёте возможных рисков, выгоды и вероятности наступления всех потенциальных последствий.

Создатели петиции надеются, что люди будут тратить меньше времени на подсчёт статистических показателей и рассуждать более глобально. Отказ от категоризации поможет остановить чрезмерную убеждённость учёных в своей правоте, необоснованные утверждения об «отсутствии различий» и абсурдные заявления о «провале репликации», когда результаты оригинального и повторного исследований слишком схожи.

Злоупотребление статистической значимостью уже нанесло большой вред научному сообществу и тем, кто в своей работе полагается на научные рекомендации. Р-критерий, интервалы и другие статистические показатели безусловно важны, но настало время для разработки критерия реальной статистической значимости.

курс

Сквозная аналитика ?

Узнать больше

Научитесь настраивать систему аналитики с нуля, чтобы правильно распределять бюджет на рекламу и не терять прибыль
Узнайте, как «подружить» онлайн с офлайном в одной системе, чтобы видеть, с какой рекламы пользователи совершили покупку по телефону, а с какой на сайте
Научитесь видеть весь путь клиента

Вячеслав Мурашкин

Data Scientist в Яндекс [с августа 2019 года — Data Scientist в Google]

Качественно провести тест при внедрении нового функционала в интернет-сервисах и приложениях — непростая задача. В этом я убедился во время работы с Рамблер Новости, Яндекс.Маркет, рекомендательным сервисом RetailRocket.

Даже если есть возможность собрать большой объём данных, к ним в комплекте идут подводные камни. Например, пользователи могут перетекать из одной группы в другую, могут влиять внешние факторы: выходные, длинные праздники или тест глобального изменения запущен на отдельном сегменте — «только пользователи, которые пришли по рекламным объявлениям». Это лишь немногие причины, из-за которых можно сделать некорректные выводы, а результаты теста следует поставить под сомнения.

Тесты на цифровых сервисах проверять долго: нужно время для накопления достаточного объема выборки, большие вложения — зачастую необходимы доработки в инфраструктуре. Поэтому если изменение всё равно нужно внедрить, в некоторых случаях целесообразно делать это без тестов, сравнивая результаты, например, с аналогичными периодами в предыдущем месяце или году.

Выбирая между статистической и практической значимостью, важно понимать, какой эффект в денежном эквиваленте можно получить для бизнеса. Даже несущественное увеличение конверсии в интернет-магазине может ощутимо повысить выручку.

Алексей Артемов

Научный сотрудник Сколковского института науки и технологий

Если посмотреть на сложившийся подход к принятию решений в большинстве областей: от традиционно «числовых» экономики, торговли, маркетинга до изначально качественных биомедицины, политики, социологии, — то увидим, что решения в этих областях опираются на количественные показатели.

Как статистику важна общность, воспроизводимость выводов (отсюда понятия «почти наверное», «за исключением множества нулевой меры» и подобные), так и фармацевту нужны мощные инструменты оценки влияния препаратов на непосредственно испытуемых и на всю популяцию.

Поэтому процессы принятия решений изучают и формализуют. Известны ограничения такой формализации. Например, большинство законов статистики — асимптотические, то есть характеризуются периодичностью возникновения событий. Без этого не работает, например, закон больших чисел: при достаточном повторении эксперимента отклонения в результате становятся ничтожными. Схожие ограничения относятся и к использованию доверительных интервалов и p-value, за исключением того, что теперь речь идёт об очень практическом правиле.

Доверительные интервалы любят использовать, слабо представляя изменения статистических критериев в различных условиях. Например, вероятность отвергнуть нулевую гипотезу «связи между событиями нет» зависит не только от того, насколько она отличается от истины, но и от размера выборки в эксперименте. Другим примером, на который обращают внимание в статье, служит учет размера P-критерия для принятия решения. Например, есть исследование, в котором за три года женщины делали упражнения не меньше часа в день и набрали «значимо меньше» веса, чем те, которые делали упражнения меньше 20 минут в день. Р-значение согласно исследованию — < 0.001, разница в набранном весе составила 150 г. Практическая значимость такого эффекта сомнительна.

Есть и области, в которых использование доверительных интервалов всё ещё в зачаточном состоянии. Например, я занимаюсь в институте компьютерным зрением, и судить о воспроизводимости результатов порой здесь не приходится. К сожалению, повсеместное использование таких простых методов, как доверительные интервалы, в продвинутых областях науки ещё предстоит увидеть.

Хотите написать колонку для Нетологии? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

ЧИТАТЬ ТАКЖЕ

? Сквозная, маркетинговая, продуктовая и мобильная аналитика: что это и зачем нужно компаниям

? Как сквозная аналитика помогает бизнесу