指导教师:王沛1,陆君安3 (问题设计、可视化、写作、分析)
参与学生:靳烟雨1,朱梦凡2,王玲玲1,陈顺杰1 (数据搜集、数据整理、分析)
1.BEVITOR伟德
2.中南财经政法大学统计与数学学院
3.武汉大学BEVITOR伟德
摘要:本文对公开报导的河南省2020年1月21日至2月11日期间确诊的1105例新型冠状肺炎(下称COVID-19,根据世卫组织最新命名)患者数据进行了深入的统计分析。数据表明, 河南省2月3日新增确诊人数达到峰值,2月4日开始新增确诊人数逐日下降;各地市中信阳疫情最重,目前每天新增患者人数在全省居首位。男性患者占比55%;患者年龄基本呈正态分布,41-50岁居多,占比接近23%;21-60岁占比81%,是染病重点人群,也是防控和目标免疫的重点。潜伏期十分重要但难以准确估计,难点在于无法确知感染时间。由于公开数据提供的信息有限, 我们把自首次接触可疑人员或从武汉返程(下称暴露)日期开始至出现身体不适的时间间隔做为潜伏期的估计。首次可疑接触不见得被传染(不能排除有中间潜伏的第二者),在此假定下对潜伏期的估计可能会偏高。通过分析首次暴露至发病时间低于14天的 439 例病人发现,平均估计潜伏期为6.5天,众数为4天,中位数为7天;60%左右的病人潜伏期在7天以下。分析还发现,近期确诊的有武汉旅行史人数和各地市总确诊人数之间高度正相关,Pearson相关系数达到近0.96。此外,此次COVID-19传播具有很高的聚集性特点,很多地方出现以家族为单位的集聚式爆发现象。研究还表明,全省各地市人民医院和传染病医院是收治病人的主力,当前应该优先保证病人相对集中医院的医疗物资的供给。本文研究基于网上报导数据,仅供参考,希望本研究能为民众和有关部门了解河南省的疫情特点和现状提供一些参考价值。
一、引言
2019年底爆发自武汉华南海鲜市场的新型冠状病毒肺炎(COVID-19)至今已经持续一月有余,截止2020年2月12日,直接导致全国44700余例确诊,1110余例死亡。各种报导及研究表明,COVID-19疫情不同于2003年的SARS之处有如下几点[1-3]:1)传染率更高;2)具有潜伏期;3)潜伏期可以传染;4)致死率低。导致此次疫情更加难以防控[4-10]。
交通、通信等技术的进步为人类提供便利的同时,也为传染病的快速和大范围传播提供了条件。1月23日开始, 武汉采取了封城措施, 全国各地相继采取交通阻断、隔离等手段积极防控疫情的扩散。疫情爆发以来,科研人员对于COVID-19病毒及其传播问题的研究紧跟其上[11-25],目前已有初步研究锁定穿山甲可能为COVID-19的潜在中间宿主[22],相关研究可以为疫情防控提供参考[11-25]。我们发现,全国各地疾控部门及时上报更新本地确诊病例相关信息,部分地方还发布了感染者的一些细节性信息,借助这些信息的挖掘,可以帮助我们更清楚的认识此次疫情的现状及特性。
河南省近邻湖北,为本次疫情的重灾区之一。对河南省疫情数据的分析有助于人们了解疫情在我省的传播现状和特征,为加强防范提供指导。本文围绕河南省2020年1月21日至2月10日18地市确诊的1105例病例数据,进行深入的统计分析,藉此帮助人们了解此次疫情的发展、现状、以及通过公布的病例数据对潜伏期进行估计,以期为人们认识此次疫情提供统计上的一些认识。
二、主要结果
1. 河南省确诊病例时间序列演变
截止2月10日河南省共确诊1105例病人,自1月21日至2月10日每日新增确诊及累计确诊人数时间序列图见图1.
图1:河南省1月21日至2月10日确诊病例人数情况。A. 全省每日新增人数演变;B. 18地市每日新增热图;C. 全省累计确诊人数;D. 18地市累计确诊人数热图。热图横轴为18地市名字首字母缩写。
由图1可见,新增确诊人数2月3日达到峰值,2月4日开始明显逐日下降;18地市中信阳、南阳、驻马店、郑州、商丘、周口、平顶山病例较多,但近日来新增确诊病例均有减少趋势,信阳地区每日新增人数在全省仍最多,仍为省内疫情重灾区。
2. 确诊病例的性别、年龄分布
对于收集到的确诊病例, 我们提取到1047例患者的性别和年龄信息, 从全省及18地市两方面分别对其进行了统计分析, 具体见图2.
图2:河南省1047个确诊病例性别及年龄分布。A.整体男女比例;B.18地市男女数量对比;C.整体年龄分布;D. 18地市年龄分布。
统计分析(图2)发现:有信息的1047例病例中男性占55%,女性占45%,男性居多。一方面可能是男性人口整体数量多于女性,另一方面,男性外出活动轨迹可能比女性更广等。对各地市而言,疫情较重的郑州、信阳、驻马店男性占多数;而南阳女患者数量居多。
患者年龄基本呈正态分布,41-50岁最多,占比22.59%;21-60岁人员占比81.19%,年龄在21-60岁之间的是社会主要劳动力,外出务工以及社交圈比较广泛,因此也是染病重点人群。18地市各年龄段分布情况和全省趋势基本一致。
3. 病例潜伏期分布
潜伏期是指病原体从侵入人体至人体最早出现临床症状的这段时间[26,27]。不同的传染病的潜伏期长短不同,同一种传染病一般具有相对固定的潜伏期,但是由于进入机体的病原体数量、毒力、繁殖能力以及不同机体的抵抗力强弱不同,实际测得的潜伏期应该围绕某个值近似服从对数正态分布[28]。潜伏期一般可以通过生理观察或生物实验测定[28]。潜伏期的确定对于疾病传播的控制和政策制定具有重要意义。
新冠肺炎病毒的潜伏期估计是一个比较困难的问题。难点在于发病时间是容易确定的,而感染时间却很难确定。下面,我们假定从首次接触可疑人员或从武汉返程(下称暴露)日期开始至出现身体不适的时间间隔为潜伏期。目前我们搜集的信息许多是几月几日离开武汉或接触武汉人员,几月几日发病。例如 南阳出现的第二例病例周某某的儿子在1月6日离开武汉到社旗家中,这时二人都没有感染,周某某2月3日发病,其儿子未患病;根据现有数据并不能排除周某某中间有接触其他的携带病毒者(传播链A到B到C的话,中间的B未知)的可能。如果简单地从1月6日到2月3日统计潜伏期,则为 28天, 这是不合理的。另外,由于本研究纯粹根据网络公布的患者描述信息而推测,不可避免会存在一定的偏差。根据我们搜集的数据,460例患者可以大致估计出潜伏期,以国家公布的14天潜伏期为依据,剔除大于14天的数据,对余下的439例数据进行统计分析,统计结果见图3。
图3:河南报告病例中439例病人的估计潜伏期分布. A:潜伏期确诊病人数目分布;B:潜伏期从小到大确诊病人比例累积分布;C. 从暴露到患病人数转移图,图中节点大小和当天暴露人数和确诊人数之和成正比,边的粗细和人数成正比;D.从1月5日到2月7日每天转入转出人数分布。转入对应于患病,转出对应于暴露。
由图3及表1可见,439例病例平均估计潜伏期为6.5天(表1),众数为4天,中位数为7天;60%左右的病人估计潜伏期在7天以下。正如前所述,由于本统计结果假定从首次接触可疑人员或从武汉返程日期开始至出现身体不适的时间间隔为潜伏期,统计的数据可能稍微偏高,但整体规律性应该有一定的实际意义。此统计结果和[29]的研究结果基本一致。长的潜伏期给患者的早发现、早隔离、早治疗带来了阻碍;另外,由于此传染病具有潜伏期感染性,可能会导致潜在的感染人数攀升,对于COVID-19疫情的防控带来了挑战。
此外,我们发现这439例患者中1月24日之前每天发病的人数较多(图3C的每个日期节点的入度),暴露人数在1月3日到2月8日都有分布,大部分时间暴露人数多于确诊人数(图3C, D);1月13日到1月24日之间发病人数和暴露人数都最多(图3C, D)。此统计结果和实际情况是吻合的,因为此段时间正值寒假开始放假和武汉封城前后,人员流动比较频繁;另外,这可能也和1月20日官方宣布COVID-19人传人有关。
4. 确诊病例武汉旅行史及接触史分析
我们同时统计研究了收集到的确诊病例的武汉旅行史及和可疑病例的接触史问题 (见图4)。526例染病者具有武汉旅行史,在各地市的分布如图4A所示;其与各地市目前确诊人数的散点图见图4B. 其中我们搜集的数据中,有250人被公布了交通方式,交通方式基本涉及铁路、大巴和自驾三类,各类占比情况见图4B.
图4. 共计1047例病例中,各地市有无武汉旅行史及接触史与当前各地市确诊人数之间的关系。A. 18地市有无武汉旅行史和接触史人员数量;B. 确诊有武汉旅行史人员交通方式选择;C.各地市有武汉旅行史人员数与当前确诊数散点图;D. 确诊无武汉旅行史人数与当前确诊人数散点图;E. 各地市确诊有接触武汉人员数量与当前确诊人数散点图.
各地市有武汉旅行史人员数量与目前确诊人数高度相关(图4C),Pearson相关系数高达0.9592. 拟合直线方程为:Y=1.7302X1+7.8955; Y表示确诊人数,X1表示确诊人员中有武汉旅行史人数。南阳市确诊人数和有武汉旅行史人员数量比值略高(偏离拟合线上方较远),可能意味着南阳存在较多潜伏者;反过来,也可能说明南阳市排查力度比较大,患病者及早得到了确诊等。另外,武汉流入河南后确诊的患者交通方式上以自驾和铁路为主,46%的人通过铁路或汽车等交通工具流入河南(图4B),同车次乘客可能存在较大风险。确诊无武汉旅行史人数与当前确诊人数也呈现较高相关性(图4D),拟合直线方程为Y=1.9114X2+2.5243,相关系数为0.9459,相关性稍低于图4C中的情形,说明除武汉旅行史这一重要因素之外,无武汉旅行史人员(不排除有接触)对于目前确诊人数也有重要影响。各地市确诊有接触武汉人员数量与当前确诊人数的相关系数为0.9034(图4E),拟合直线方程为Y=4.8136X3+19.9253. 这说明有武汉接触史的人员有较大的染病风险。
5. 确诊人员场所聚集性及家族聚集性网络分析
根据可查的各地市、各医院收治的病人、病人转院信息、病人间亲属关系信息,我们构建了一个异构网络(图5)。网络中包含的节点有两类:医院和病人;节点大小和每个节点的度大小成正比(医院的度为医院收治的病人数+医院间转诊数,病人的度为该病人聚集感染人数+就诊医院数);网络中的边有不同含义:医院间的边表示转院关系,病人间的边表示亲属或朋友关系,病人和医院间的边表示病人和医院间的就诊关系。
图5. 河南省18地市各医院收治病人及病人间聚集性网络分析。A. 河南省18地市医院与收治确诊病人间、医院间(转院)、病人间关系网络;A图右侧上方放大图展示了郑州市金水医院收治的5例亲属间传播网络图;A图右侧下方放大图展示了收治病人数最多的信阳第五人民医院;B. 开封市的网络;C. 河南省收治病人数量前20的医院病人数直方图。(注:本图仅根据网上报导的可查病例数据绘制并统计)
由图5可见,此次传染病存在明显的聚集性特点。特别地,郑州市5例新冠肺炎患者为亲友关系,5例病人为相继传播感染,收治于郑州市金水医院;开封市确诊病例也存在家族聚集性特点。新冠肺炎聚集性爆发的特点告诫我们防控传播应该减少聚集,避免接触性传播;此外,省内各地市人民医院和传染病医院是收治病人的主力。信阳市第五人民医院收治数量最多,其次是郑州市第六人民医院和罗山县人民医院。开封市确诊病例集中在杞县人民医院、开封市传染病医院和尉氏县人民医院。这对于各地调配防疫物资具有一定参考意义。
三、结论及探讨
通过搜集的网络上公开公布的河南省18地市1000余例确诊病例数据,我们对河南省感染新冠肺炎的病例信息进行了统计分析。全省及各地市的感染人数时间序列数据表明河南省2月3日新增确诊人数达到峰值,2月4日开始新增确诊人数明显逐日下降;18地市中信阳灾情最为严重,目前每天新增患者人数在全省仍最多,可能主要是由于信阳和湖北接壤,从疫区流入的人员数量较多。河南省确诊患者男性居多,占比55%;患病者年龄基本呈正态分布,41-50岁最多,占比接近23%;21-60岁占比81%,年龄在21-60岁之间的是社会主要劳动力,外出务工以及社交圈比较广泛,因此也是染病重点人群,也是下一步进行防控和目标免疫的重点方向。18地市各年龄段分布情况和全省趋势基本一致。当然,不排除这种统计结果也可能和各年龄段人口在全省人口中的比例有关。
通过对确诊的439例病例的潜伏期的分析表明,COVID-19的平均潜伏期可能6.5天左右,超过60%以上的病人潜伏期在7天及以下,较长的潜伏期给患者的早发现、早隔离、早治疗带来了诸多困难;另外,由于此传染病具有潜伏期感染性,可能会导致潜在的感染人数攀升,对于COVID-19的防控带来挑战。
对于河南省18地市而言,近期确诊的有武汉旅行史人数和各地市总确诊人数之间高度正相关,Pearson相关系数达到近0.96。此外,此次COVID-19传播具有很高的聚集性特点,很多地方出现以家族为单位的集聚式爆发现象。全省各大医院中,各地市人民医院和传染病医院是收治病人的主力。信阳市第五人民医院收治数量最多,其次是郑州市第六人民医院和罗山县人民医院。开封市确诊病例集中在杞县人民医院、开封市传染病医院和尉氏县人民医院。应该优先保证病人相对集中医院的医疗物资的供给。
本研究基于网上公布的数据,数据质量参差不齐,收集的实际确诊的1105例数据信息不完整,研究其中一些问题时只有部分的有效数据可用,本文所得结论可能存在偏差,仅供参考。我们后期会进一步完善数据并进行更系统的研究。此外,我们下一步也在考虑外省的一些数据,希望通过更大量数据的统计分析得出一些一般规律。最后,建议大家减少不必要的外出和可疑人员的接触,不把病毒带回家,也盼望此次疫情早日结束,中华大地早日恢复往日的生机。
致谢
此文研究过程中和BEVITOR伟德王绍利及陈爱敏副教授进行过相关讨论,在此表示致谢。
参考文献
[1]Zhu N, Zhang D, Wang W, et al., A novel coronavirus from patients with pneumonia in China, 2019. N. Engl. J. Med., 2020. Doi: 10.1056\/NEJMoa2001017.
[2]Huang C, Wang Y, Li X, et al., Clinical features of patients infected with 2019 novel coronavirus in Wuhan, China. Lancet, 2020. Doi:10.1016\/S0140-6736(20)30183-5.
[3] Zhou P, Yang XL, Wang XG, et al., A pneumonia outbreak associated with a new coronavirus of probable bat origin. Nature, 2020. https://doi.org/10.1038/s41586-020-2012-7.
[4]Pastor-Satorras R, Vespignani A, Epidemic spreading in scale free networks. Phys. Rev. Lett., 2001, 86, 14, 3200-3203.
[5]Kitsak M, Gallos LK, Havlin S, et al., Identification of influential spreaders in complex networks. Nat. Phys., 2010, 6: 888-893.
[6]Wang P, Tian C, Lu J, Identifying influential spreaders in artificial complex networks. J. Syst. Sci. & Complex., 2014, 27: 650-665.
[7]Lü LY, Chen D, Ren X, et al., Vital nodes identification in complex networks. Phys. Rep., 2016, 650: 1--63.
[8] Zhang ZK, Liu C, Zhan XX, et al., Dynamics of information diffusion and its applications on complex networks. Phys. Rep., 2016, 651: 1-34.
[9]Wei X, Wu X, Chen S, Lu J, Chen G, Cooperative epidemic spreading on a two-layered interconnected network. SIAM J. Applied Dyn. Syst., 2018. 17(2): 1503-1520.
[10]Xu S, Wang P, Zhang CX, Lü J, Spectral learning algorithm reveals propagation capability of complex network. IEEE Trans. Cyber., 2019, 49(12): 4253-4261.
[11]百度疫情实时大数据报告: https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_pc_3.
[12]封城前,武汉人出行的目的地是哪里?互联网大数据告诉你:
https://baijiahao.baidu.com/s?id=1656605112631631045&wfr=spider&for=pc.
[13] 防控力度多大才能遏制疫情发展? 网络动力学推演给你答案: https://m.thepaper.cn/user_3730791.
[14]扩散信息、交通管制、自我隔离,哪个更能遏制病毒传播?https://swarma.org/?p=18233
[15]周涛:武汉肺炎基本再生数与SARS接近,确属可防可控的传染病: https://new.qq.com/omn/20200126/20200126A08P9W00.html?pc.
[16] 武汉新冠肺炎传播与控制简单的数学模型与预测: http://www.sohu.com/a/369783314_741733.
[17]Tang B.,Wang X., Li Q, et al., Estimation of the transmission risk of 2019-nCov and its implication for public health interventions. SSRN, 2020. https://ssrn.com/abstract=3525558 or http://dx.doi.org/10.2139/ssrn.3525558
[18] Pastor-Satorras R, Castellano C, Van Mieghem P, et al., Epidemic processes in complex networks. Rev. Mod. Phys., 2015, 87, 925-946.
[19] 河南各地病例最新详情发布,详细到村,多例亲属间感染!: https://mp.weixin.qq.com/s?__biz=MjM5OTMxNjE0Mw==&mid=2651611513&idx=1&sn=ad3daa31b3e7c9264c56be2c915d48c0&chksm=bcc59eb98bb217af4f90027070777579e764527be6a3a06890c20f21b6fd81b6a83b58719f7a&mpshare=1&scene=1&srcid=0204FvXzdTd23Fx3aIMhxlk9&sharer_sharetime=1580784636125&sharer_shareid=36376b31ed34dad00848b11de09dfe0a#rd
[20] 一场同学会,6人确诊染病!: https://mp.weixin.qq.com/s?__biz=MjM5OTAzNDE3NA==&mid=2659653353&idx=2&sn=3c1f25fad38c11be9eee234daf9a7d86&chksm=bdb21ab88ac593ae4ee6325152ff196c914d210e1202b4312a4782ea0b3a60dcc2f8bba6c73a&mpshare=1&scene=1&srcid=&sharer_sharetime=1580787243647&sharer_shareid=0a4c190c035057d9555e8de85cb27998#rd
[21]百度文库:SARS-MERS及其溯源: https://wenku.baidu.com/view/6a93aa0ecbaedd3383c4bb4cf7ec4afe04a1b1d3.html
[22]华南农业大学发现穿山甲为新型冠状病毒潜在中间宿主, https://www.scau.edu.cn/2020/0207/c1300a219015/page.htm
[23]陆君安,王沛,从复杂网络小世界、无标度、高聚类特性看新型冠状病毒肺炎,集智俱乐部,https://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247501241&idx=1&sn=1ae1c9da26d80e0afea144373dfd2e31&chksm=e8979f34dfe0162203f71857afd23eaed24303f4a46de1e1f29ece3ebb7935e61e17789fbaaa&mpshare=1&scene=1&srcid=&sharer_sharetime=1580991328796&sharer_shareid=425d5330754fad3d1ddcad6b891fe133#rd
[24]河南省新型冠状病毒感染肺炎疫情时空特征初步分析,http://skc.henu.edu.cn/info/1047/4673.htm
[25] 面向新冠疫情的数据可视化分析与模拟预测, https://mp.weixin.qq.com/s?__biz=MzU3NTczNzI2MQ==&mid=2247484006&idx=1&sn=57d8cd06d511fdc3d22d87e0842f6b9b&chksm=fd1fdea4ca6857b2810933007cca58874c1b522b5b02a21c91394cab25dd5b07f74803216c04&mpshare=1&scene=1&srcid=&sharer_sharetime=1581371760526&sharer_shareid=6a282fa4fe10c9b910ad6c133c73ba26#rd
[26]Incubation period. Merriam-Webster.com Dictionary, Merriam-Webster, https://www.merriam-webster.com/dictionary/incubation%20period. Accessed 12 Feb. 2020.
[27] Armenian H K, Lilienfeld A M., Incubation period of disease, Epidemiologic Rev., 1983, 5(1): 1-15.
[28] 梁建章, 用统计学思维分析和确定防疫隔离天数, https://mp.weixin.qq.com/s?__biz=MzUxOTUzNzIyNQ==&mid=2247484566&idx=1&sn=78ced27748f7282ff058df0eee9ea501&chksm=f9f953b0ce8edaa601b4dd0c26a2d74c22cda5343e0ac6bb5da8b97b1204c21849a6693e2ec9&mpshare=1&scene=1&srcid=&sharer_sharetime=1581558526135&sharer_shareid=6a282fa4fe10c9b910ad6c133c73ba26#rd
[29] Yang Y. et al., Epidemiological and clinical features of the 2019 novel coronavirus outbreak in China, medRxiv, https://doi.org/10.1101/2020.02.10.20021675.