Разбор статьи про COVID-19: идея, модель, обработка данных


2 года 4 мес. назад - 2 года 4 мес. назад #56115 от Георгий Лейбович
Александр Запорожцев (далее - АЗ) любезно представил статью группы авторов, касающуюся построения прогностической модели развития эпидемии в конкретном регионе РФ весной 2020 года. Кроме моего любопытства (далее - ГЛ) присутствовал ещё интерес АЗ относительно того, где место картам Шухарта при построении динамической модели. Мне показалось, что разбор статьи интересен и с точки зрения выбора модели, и с точки зрения обработки данных (ближе к интересу АЗ). Мы начали обсуждение в теме TQM - вопросы , но, поскольку обсуждение затянулось, я решил перенести его в отдельную тему, где можно разгуляться, не мешая теме "несущей" ветки.
Хочу сразу предложить, чтобы все недостатки статьи (и достоинства, коли будут обнаружены) Александр не воспринимал, как упрёк ему лично, а лишь общее стремление к совершенству :), тем более, что у статьи - коллектив авторов и ненадёжные источники данных. Поэтому спорить до потери критиками пульса нет необходимости :)
Не думаю, что есть смысл переносить предыдущее обсуждение, так как обсуждающие должны помнить или знают, где посмотреть, а если кого-то заинтересует - можно подключиться по ходу или посмотреть предыдущее.
Я буду нумеровать каждое следующее замечание, что и другим критикам советую, тогда будет понятно, на что АЗ (если захочет) или кто-то другой отвечает, и что осталось без внимания. Приглашаю принять участие и других желающих, так как не претендую на абсолютную правоту. Просто интересно воспользоваться случаем, которые АЗ любезно подкидывает, и размять косточки мозга :)
Вот отдохну немного после Дня благодарения и начну.

Статья вложена в посте 5609

Вложенный файл:

Имя файла: Articalnew24-22.doc
Размер файла:990 KB
Вложения:

Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.


2 года 4 мес. назад #56116 от Александр Филонов
Биг дата.

Сверил пока данные AЗ на июнь 2020 по миру. 70K зараженных. 4K умерло. Каждый 17-й. Cовпадает.

Там же приводится статистика. Выборочно проверили кол-во реально зараженных. В 10 раз больше, чем официально.
Спасибо сказали: Aлександр Вьюшин

Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.


2 года 4 мес. назад #56131 от Георгий Лейбович
1 Начну с самого начала. Статья называется "Прогностический алгоритм распространения коронавирусной инфекции на региональном уровне". То есть, авторов работы должна в первую очередь заботить прогностическая способность построенного алгоритма, а не максимальное совпадение результатов прогноза с исходными данными, на которых построен алгоритм. Почему это важно? Исходные данные получены в неконтролируемых условиях сбора информации и качества выполнения (кто, где, как собирает), в неизвестных условиях распространения инфекции (поведение людей, однородность популяции) при некоторых приблизительно известных характеристиках протекания болезни (время выздоровления, инфекционность, отчасти смертность). Поэтому, попытка добиваться лучшего качества алгоритма подгонкой его под поведение развития заболевания в период получения данных может быть гораздо менее важна, чем обработка и осмысление данных и параметров алгоритма, полученных на их основе. Попробую показать, что имеется в виду.
2. В модели развития эпидемии используется соотношение dR/dt = ϓI, где R - переболевшие, I - заражённые, параметр ϓ - свойство заболевания (меняется в небольших пределах), характеризующее долю выздоравливающих за ед-цу времени. Оно должно быть в среднем более или менее постоянным (при однородной популяции) и зависящим от длительности болезни. Авторами построен график ϓ(t): Рис 4 в статье, на котором показана линейная аппроксимация параметра ϓ. Покажем, какие значения преобретает этот параметр в точках 1 день, 30-й день, 60-й день:
1 день ϓ = 0,0046
30-й день ϓ = 0,0191
60-й день ϓ = 0,0341
то есть, при подгонке модели этот параметр, который определяется, в основном, протеканием болезни, и обратно пропорционален продолжительности болезни, меняется в 7,4 раза, а в течение 2 месяца (собственно, прогноз ) - в 1,8 раза.
Теперь другой параметр, β, характеризующий, по сути, вероятность заражения. Расчёт по предложенной в статье формуле для β (имеет вид exp) даёт за те же дни значения: 0,24; 0,071; 0,02. То есть, меняется за два месяца в 12 раза, а за последний - в 3,5 раза.
Но дело в том, что в статье указана ещё одна характеристика - R0= β/ϓ , характеризующая конкуренцию развития и убывания эпидемии. Когда R0>1 эпидемия развивается, а когда R0< 1 - угасает. В предложенном алгоритме эта величина изменяется от 52 в самом начале до 3 к концу 1 месяца и падает до 0,54 в конце 2 месяца. Собственно, что мы и наблюдаем согласно кривым прогноза в то время, как кривые количества заражённых идут вверх с нарастающей скоростью..
3. Если существенное изменение параметров ϓ и β можно списать на несовершенство модели и закрыть на это глаза в случае успеха, то происходящее с параметром R0 следовало проверить и обратить на него внимание, тем более, что он указан в статье, как один из наиболее важных. Получающееся падение значения этого параметра ниже 1 говорит о затухании эпидемии и необходимости просто немного перетерпеть и не вкладывать дополнительные средства на борьбу с инфекцией. Это, на мой взгляд, наибольший недостаток работы с моделью.
То есть, авторы могли заранее насторожиться, так как никаких оснований ждать, что эпидемия рассосётся, не было (если не слушать идиотов из телевизора).
4. И ещё к работе с моделью. Поскольку количество восприимчивых людей долго остаётся близким к исходному населению (уменьшение на несколько процентов, что уж точно ниже точности прочих замеров), можно приравнять к 1 отношение S/N и упростить систему уравнений до двух, что не должно повлиять на точность алгоритма на данной стадии развития эпидемии.
А можно ли было, с этой же моделью, действовать другим образом, привлекая столь любимые Александром Запорожцевым диаграммы поведения процесса и получить другой результат?
Это мы попробуем чуть позже проверить в следующей серии. :)

Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.


2 года 4 мес. назад #56142 от Георгий Лейбович
5. Хочу ещё сказать пару слов о параметре ϓ .
Очевидно, что R(t)= I(t-t0), где to - средняя продолжительность болезни; с другой стороны, dR/dt = ϓI. Кроме того, dI/dt = β I.
Комбинируя эти уравнения, можно получит выражение, связывающее ϓ, β и to. Оно имеет вид

β/ϓ = exp(βto) ................................................. (*)

Далее, если нам удастся сделать оценку ϓи β, мы сможем оценить to - продолжительность болезни! Воспользуемся этим далее.
6. Перед тем, как перейти к техническим вопросам (для отдыха :)), хочу отметить чрезвычайно важный недостаток статьи: ничего не сказано о сборе данных, и мы не знаем, сразу выбросить данные, помучиться или отнестись с некоторым доверием. Но попробуем вынуть, что возможно.
7. Обратимся к статье, Рис.4. Что такое аппроксимация? Это подбор функциональной зависимости среднего значения одной переменной от другой. Что в нашем случае очень напоминает анализ данных с помощью любимых Запорожцевым диаграмм поведения процесса (ДПП). Первое, что мы должны сделать - проверить данные на однородность: могли ли они быть получены из одного и того же множества. Быстрый взгляд на график показывает, что хоть наклонная прямая, хоть горизонтальная - а всё плохо, сплошь признаки разного происхождения. Самое простое - группы данных по одну сторону и далеко от средней линии. Впрочем, АЗ и написал, что данные плохие. НО тогда и результат обработки не лучше. Что делать? Если посмотреть на исходные данные, то количество подсчётов всё больше и больше, следовательно, есть шанс, что относительная погрешность всё меньше. Мы видим с 24 точки приличную картину. Вспоминаем, что наша задача - прогноз, то есть, если данные начинают вести себя лучше к концу, то этим и воспользуемся (всяко лучше, чем если в самом начале). Кроме того, видим, что и группа точек 13 - 18 ведут себя похожим образом, а между этими группами - что-то произошло. Остановимся на 24 - 29. Результат построения даёт среднее значение ϓ равным 0,013
8. Аналогично посмотрим на Рис. 5 для β. Помня о предыдущем графике, возьму тоже 6 последних точек. Тогда средн. β = 0,092
9 . Вернёмся к соотношению параметров (*) Подставляя найденные ϓ и β, получим для t0 получим величину 21, что соответствует продолжительности болезни в 21 день. По-моему, это близко к современным данным. Во всяком случае, учитывая точность данных. При этом показатель R0 = 7
10. Я прикинул, что с такими параметрами рост I будет более быстрым, чем согласно собранным данным. Ну и что?
1. Не предполагается затухание эпидемии
2. Мы не знаем, во сколько раз снижаются сообщаемые показатели. Если это происходит в соответствии с независимыми данными, то очень похоже.
3. Нет никаких сравнений с другими моделями и все сравнительные утверждения голословны. И, конечно, голословна положительная оценка модели.
4. Прочитав внимательно стаью ещё раз, я обнаружил, что она написана много позже времени получения данных, и никто не мешал авторам взять новые данные и проверить работу алгоритма на больших данных, раз уж он прогнозировал всё наоборот.

Всё, запал прошёл, да и сказать больше нечего. Я по таким кривым данным не стал бы строить прогноз. Трешь на входе - трешь на выходе.

Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.


2 года 4 мес. назад #56145 от Георгий Лейбович
Решил ещё немного поиграть с результатами обработки первого месяца и видом кривой - второго. Обрабатывать результаты второго месяца желания пока нет, но предположим, что тенденция снижения скорости роста - правда. Оставаясь в рамках простой модели, предположим, что основным тормозящим фактором становится уменьшениелюдей, чувствительных к инфекции, S. Как это может быть? Это может быть, если работает кластерный механизм распространения инфекции. В самом начале эпидемии инфекция может распространяться в ограниченной группе людей (район, возраст, профессия, ...). Да и сбор информации может отражать именно размер популяции кластера. Тогда при большом количестве заражённых нельзя считать S/N = const=1, и добавляется уравнение для S. Но величины параметров бетта и гамма, найденные для малого числа больных, остаются в силе.
Я нашёл, что в этом случае, когда dI/dT = 0, то есть, при выходе на плато, S/N = 0,16, или при 84% нечувствительных (переболели, прививки, иммунитет), что похоже на представления о групповом иммунитете.
Если верить данным и найти dI/dT в разных точках кривой, то можно оценить размер кластера.
Вновь резкое возрастание кривой для I означает, скорее всего, выход в новый кластер.
А может быть, что мы наблюдаем изменение в характере сбора или предъявления информации.

Ну, уж теперь всё, так как становится всё важнее достоверность информации. Просто хотел показать, что из простых, но достоверных данных (!) можно извлечь многое для понимания происходящего.

Желаю всем здоровья. Предохраняйтесь от Ковида, это очень неприятное заболевание (знаю по знакомым), наглядно вижу, как прививки останавливают распространение по кластерам.

Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.


2 года 4 мес. назад - 2 года 4 мес. назад #56147 от Александр Филонов


Ну, уж теперь всё, так как становится всё важнее достоверность информации. Просто хотел показать, что из простых, но достоверных данных (!) можно извлечь многое для понимания происходящего.


Информацию можно по разному трактовать. К примеру, выход на плато - выход на максимум "бутылочного горлышка". Больница просто не принимает лишних больных. И отсекает их на входе. . I=I visible .

При этом смертность, (если не манипулировать диагнозом), линейно растет. На что и обращал внимание Шпер, на которого ссылался АЗ.
Спасибо сказали: Георгий Лейбович

Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.


2 года 4 мес. назад #56150 от Георгий Лейбович



Информацию можно по разному трактовать. К примеру, выход на плато - выход на максимум "бутылочного горлышка". Больница просто не принимает лишних больных. И отсекает их на входе. . I=I visible .

При этом смертность, (если не манипулировать диагнозом), линейно растет. На что и обращал внимание Шпер, на которого ссылался АЗ.

Конечно, Александр, всё начинается с качества сбора данных. И даже если модель выбрана неудачно, то, зная её ограничения, но доверяя данным, можно извлечь некоторые новые знания.

Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.

Работает на Kunena форум