Forecasting is not about the numbers ИЛИ почему НЕЛЬЗЯ верить большинству прогнозов аналитиков


Ну что ж, начинаем погружаться в дебри прогнозирования. В данной статье я остановлюсь на иллюзиях в прогнозировании. Тем более — есть наглядные графики, которые позволяют показать весь масштаб проблематики, которая стоит перед прогнозистами.
Сперва прошу взглянуть на график, который был любезно предоставлен Институтом Джона Хоппкинса — один из старейших исследовательских университетов в Западном полушарии, известный сильной подготовкой специалистов в области медицины, химии, биологии и права.
На графике отражена ежедневная динамика количества инфицированных COVID-19 в России в самом начале пандемии:

График распространения Covid-19 в России в начале пандемии.

Далее взгляните на второй график, уже с данными по Москве, который был любезно предоставлен одним прогнозистом, грамотным математиком, с которым я познакомился в одном из профессиональных чатов Telegram:

График распределения Гаусса

Согласитесь, похожи! Что не удивительно. Эпидемия началась с Москвы и первое время максимальный прирост инфицированных был именно в столице России.

Отличие графиков лишь в том, что второй содержит дополнительную аналитику. На основании известных данных (синие столбики) была построена модель (красная кривая), согласно которой можно с высокой долей вероятности сказать, что мы имеем дело с классическим распределением Гаусса, что описывается одноименным “колоколом”. Т.е. прогнозист выдвинул гипотезу, что заболеваемость может быть описана законом нормального распределения.

У графиков есть нечто общее, как и у всех эпидемий: период стремительного роста, “плато”, постепенное угасание. Хотя если копнуть глубже в вирусологию, общего там может быть как раз мало, потому что эпидемия развивается в каждой локации совершенно по разному, на что влияют множество факторов: демография, меры, предпринимаемые правительством, плотность населения, заразность вируса, характер распространения вируса и т.д.

Так вот возвращаясь к графикам: как только люди видят колокол Гаусса, многие мысленно начинают аплодировать — какая великолепная аналитика, вот это да, мы тоже так хотим научиться прогнозировать! Хотя ценность подобной аналитики стремится к нулю. В данной модели не учтено ничего, кроме ряда данных. И я скажу более — практически невозможно было учесть ключевые данные, потому что они скрыты от нас политикой…

Сейчас легко проверить данные по России — на момент написания статьи график выглядит так:

График заболеваемости Covid в РФ

Стрелкой я указал на окончание первого графика этой статьи. Как видно — никакого колокола Гаусса в итоге не получилось (синим я дорисовал его правую часть, так, как должно было быть согласно прогнозу)!

И никакой адекватной модели построить тут невозможно. Количество инфицированных хорошо коррелируется с количеством проведенных тестирование населения. А на данном графике мы не обладаем данной информацией, хотя постфактум знаем — тестов в правой части графика проводилось гораздо больше, чем в левой.

Также на графике видна еще одна закономерность — некое ограничение системы. Скорее даже искусственное, но все же ограничение. Уж больно ровно идет инфицирование населения. Совершенно непонятно, что было бы, если тестов завезли в 2 раза больше?

К чему это я? К тому, что для построения правильного прогноза мало обладать лишь рядом данных (будь то продажи, возвраты и прочее). Нужно больше данных. И навыков, как оперировать этим массивом.

Хотя биржевые аналитики успешно справляются с этим и ежедневно выпускают ботов-трейдеров, которые учитывают определенный набор данных для принятия решения купить/продать акции. Но все это делается, в основном, в краткосрочно-среднесрочной перспективе.

Рекомендация в случае наличия такого рода неопределенностей:
сокращать горизонт прогнозирования и увеличивать периодичность построения прогноза.
На втором графике было достаточно точно предсказано количество инфицированных на следующий день. Но с горизонтом в неделю — ошибка прогноза была уже сильно высока.

Мораль: перед прогнозирование нужно понять, какие факторы влияют и/или будут влиять в будущем, как мы можем их оцифровать и применить в своей модели (которую нужно еще подобрать), какой горизонт планирования выбрать и как часто пересматривать свой прогноз. Ну и как же без оценки точности своего прогноза. Но об этом более подробно напишу в следующих статьях.

P.S. На момент написания статьи не было известно ни о второй-третьей волнах пандемии, а у нас в России уже четвертая волна на подходе. Что, естественно, еще раз доказывает, что вся эта диванная аналитика прогнозистов, в большинстве своем, бесполезная вещь.