疫情|大数据发现:美国新冠“零号病人”或于2019年4月出现

当前 , 新冠病毒溯源是全人类面临的共同挑战 。 为快速、精准地推进溯源 , 数学家开始尝试基于大数据分析的溯源方法 , 和生物学家并肩作战 , 寻找“零号病人” 。
9月22日 , 中国科学院科技论文预发布平台(ChinaXiv)上发表了一项基于新的大数据分析方法得到的溯源结果 ,美国新冠“零号病人”大概率出现在2019年9月前后 , 最早是罗德岛州首例感染发生概率50%的日期为2019年4月26日 , 远早于美国官方公布的全美首例确诊日期2020年1月20日 。
尽管2020年初新冠疫情在中国暴发 , 但一系列研究已经显示 , 美国、西班牙、法国、意大利、巴西等多国早在中国疫情暴发前就已出现遭病毒侵袭的痕迹 。 在这项工作中 , 研究人员基于已公开数据并根据传染病模型和统计方法 , 建立最优化模型 , 对美国部分州和中国武汉市、浙江省等地的疫情起源时间进行了推断 。
论文提出 , 结合数学模型和人工智能技术对传染病进行定性和定量分析 , 可以揭示传染病流行规律 。 目前 , 根据传染病模型和数据进行疫情预测的研究比较多 , 但是利用大数据分析的方法建立数学模型“倒推”疫情变化的研究 , 国内外都比较少 。
论文中显示 , 科研人员主要根据经典传染病模型和统计方法 , 建立“模型与数据混合驱动的疫情传播模型” , 并且应用最小二乘估计和核密度估计方法 , 得到模型参数 。 他们利用美国东北部12州每日公布的疫情数据 , 分别求出美国东北部这12州的初期疫情传播模型所对应的参数 。 在此基础上 , 推断出它们各自的首例、50例和100例的感染时间及其对应的概率 。
计算结果显示 , 对于美国东北部的12州 , 新冠疫情首例感染发生大概率出现在2019年9月前后 , 最早是罗德岛州首例感染发生概率50%的日期为2019年4月26日 , 最晚是特拉华州首例感染发生概率50%的日期为2019年11月30日 , 均早于美国官方公布的全美首例确诊日期2020年1月20日 。
此外 , 为验证这一新方法 , 研究团队还利用同一模型和中国的公开数据 , 推断了中国武汉市和浙江省首例、50例和100例病例感染时间 。 武汉市首例感染发生概率50%的日期为2019年12月20日 , 浙江省首例感染发生概率50%的日期为2019年12月23日 。 据此推断 , 中国新冠疫情大概率从2019年12月下旬开始流行 , 这一结论与流行病学调查结果基本相符 , 证明该计算方法准确可靠 。
论文表明 , 如果其它国家或地区疫情传播初期检测数据比较准确 , 可以利用该方法对疫情起源时间进行推断 , 在给定概率意义下计算出首例和若干例的感染时间 。
相关论文信息: http://chinaxiv.org/abs/202109.00058
【疫情|大数据发现:美国新冠“零号病人”或于2019年4月出现】

推荐阅读