政府、医疗保健专业人员和行业争相应对新冠肺炎大流行在尽可能减少对公众健康和全球经济的影响的战斗中,有一些强大的盟友:大数据和预测分析,结合人工智能和一系列热传感器。

新冠肺炎属于与严重急性呼吸综合征(SARS)和普通感冒相关的同一病毒家族。因为它是一种人类以前没有免疫力的新型病毒,它的早期影响是毁灭性的。在中国湖北省收到第一份报告数月后,大多数国家的检测结果充其量只是零星的,这使得全球各地的人口无法确定他们中间的实际病例数量,也无法确定如何应对危险,甚至无法了解其范围。不久,人工智能和数据分析技术专家就认识到人工智能技术和数据科学支持流行病学家和政府危机应对团队工作的潜力。

数据分析和数学,加上物理学,可以深入理解自然过程。数据科学先驱已经对公共卫生产生了影响,部署了数据收集和分析,以帮助减缓早期疫情的传播。数据分析的第一个历史应用是在1852年,当时伦敦爆发了霍乱。约翰·斯诺是第一批数据驱动的流行病学家之一,他对伦敦发生的死亡病例进行了地理空间分析,从而能够分离出疾病的源头。根据他的分析,当局能够针对性地采取干预措施,并迅速控制疫情的蔓延。

让我们评估一下数据

通过在数据分析系统中运行模型,研究人员能够估计趋势的发展。一个例子是SIR模型,这是一个流行病学模型,它计算了一段时间内封闭人群中感染传染病的理论人数。该模型使用耦合方程分析易感人群的数量S(t);感染人数,I(t);以及康复人数R(t)。

其中一个最简单的SIR模型是Kermack-McKendrick模型,这是许多其他房室模型的基础。在这方面,我发现了一个分析1.帕多瓦大学研究生埃托雷·马里奥蒂(Ettore Mariotti)于3月初发表了一篇非常有趣的文章。

考虑一个岛屿——我们的系统——人们既不能离开也不能进入。岛上的每个人在给定时间都可能处于以下状态之一:“易感”、“已感染”和“已恢复”(因此,缩写SIR)。在一定的概率下,从未患过这种疾病的人(S)在康复前(R)可能会患病并感染(I)一段时间。就新冠肺炎而言,适当的做法是将模型扩展为附加状态“暴露”,以包括感染病毒但尚未感染的人群(SEIR模型;图1)。


图1:SEIR模型(图片:triplebyte.com)

该模型考虑了两个因素:病毒的动态和个体的相互作用。(后者非常复杂,并得益于这里描述的工具。)有了这些信息,就可以定义R0参数,它表示感染者可能感染的人数。

例如,假设人A生病了,我们的系统R0=2,这意味着A会感染两个人。这两个人将依次感染四个人,每个人将感染另外两个人(因此4×。R0可以捕捉三种基本场景(图2)。


图2:R0基本场景(图片:triplebyte.com)

学校、健身房、剧院、餐馆和其他公共场所的关闭减少了社交活动的数量,从而降低了R0。由于该病毒已使公共卫生资源紧张到临界点,将R0参数降低到统一以下至关重要。如果R0>1,则疾病传播;如果R0<1,则疾病消失。因此,各国政府对人们的流动性施加了严厉的限制,试图在冠状病毒爆发期间降低R0。

需要注意的是,R0测量的是疾病的潜在传播,而不是疾病传播的速度。考虑流感病毒的普遍性,其R0仅约为1.3。高R0是令人担忧的原因,但不是恐慌的原因。

R0是一个平均值,因此它可能会受到特定人群中“超级传播者”数量等因素的影响。超级传播者是指感染人数出乎意料地多的感染者。超级传播者事件发生在SARS和MERS疫情以及当前大流行期间。然而,这类事件并不一定是一个坏兆头,因为它们可能表明,导致疫情持续的人数减少。超级传播者也可能更容易识别和控制,因为他们的症状可能更严重。

简而言之,R0是一个移动目标。追踪每一个病例和疾病的传播是极其困难的,因此估计R0是复杂和具有挑战性的。估计值通常会随着新数据的可用性而变化。

为了帮助当局控制R0,人工智能的使用,加上手机GPS跟踪的数据收集,可以创建分析模型,预测哪些社区更有可能发生病例,哪些社区需要紧急干预。

大数据、AI和传感器

在疫情期间,临床数据的质量和一致性可能会有很大的变化。这类并发症包括假阳性患者。然而,大数据和人工智能可以用来检查隔离人员的遵守情况,机器学习可以用于药物研究。

亚洲的冠状病毒应对行动提供了许多通过使用数字技术实施干预措施的例子。配备智能扫描仪和摄像头的无人机能够检测不遵守隔离措施的人,并检测人们的体温。中国和台湾已经为此使用了智能摄像机。

总部位于香港的人工智能技术公司SenseTime开发了一个平台,可以通过扫描人们的面部来检测发烧,即使他们戴着医用口罩。SenseTime的非接触式体温检测软件已在北京、上海和深圳的地铁站、学校和公共中心实施。

与此同时,阿里巴巴开发了一个基于人工智能的新冠肺炎诊断系统,通过计算机断层扫描(CT扫描)检测新的冠状病毒病例,准确率高达96%。

总部位于纽约的Graphen正与哥伦比亚大学的研究人员合作,定义病毒每个基因定位的典型形式,并确定确切的变体。研究人员正在使用Graphen的Ardi AI平台,该平台模拟人脑的功能,以存储突变数据并将其可视化。典型的可视化将病毒与一组具有相同基因组序列的病毒进行比对。通过单击相应的节点,可以查看与病毒相关的信息,包括受影响者的位置、性别和年龄。

与此同时,大数据已被广泛用于改进监控系统,以绘制病毒传播的地图。

大数据的获取和处理需要新的收集和分析方法和技术。特别是,我们可以区分四种大数据分析方法:

阿里巴巴还开发了一款名为支付宝健康码(Alipay Health Code)的应用程序,该应用程序使用中国医疗系统提供的大数据来指示谁可以或不能进入公共场所。

BlueDot是一家总部位于多伦多的初创公司,拥有一个围绕人工智能构建的平台,该公司开发了智能系统,以实现对传染病传播的自动监测和预测。BlueDot平台在SARS疫情期间得到了应用,其效果得到了证实。

值得注意的是,2019年12月,蓝点还对冠状病毒的潜在严重性提出了警告,再次证明其模型是正确的。BlueDot使用的工具包括自然语言处理技术。

Insilico Medicine(马里兰州洛克维尔)是另一家专注于通过人工智能预防疾病的公司。该公司正在开发并将下一代人工智能和深度学习方法应用于药物发现和药物开发过程的每一步。Insilico最近利用其系统分析了可能适合对抗新型冠状病毒的分子,并分享了结果。随着这一问题的出版,该公司正在策划一个用于疫苗开发的信息数据库。

研究经济影响

除了对健康的影响外,新冠肺炎还对全球经济造成了毁灭性的身体打击。在这里,大数据和人工智能也可以帮助分析影响并制定适当的应对措施。例如,卫星分析技术帮助微众银行的研究人员确定了中国受影响最大的行业,例如钢铁行业。分析显示,中国钢厂的产量在疫情初期已降至产能的最低29%,但到2月9日已恢复至产能的76%(图3)。


图3:2019年12月30日(左)和2020年1月29日的并排卫星图像显示,疫情初期,中国钢铁行业活动大幅下降。(图片:spectrum.eieee.org)

然后,研究人员利用人工智能研究了其他类型的生产和商业活动。一种方法是简单地计算大型停车场的汽车数量。这项分析显示,截至2月10日,特斯拉在上海的汽车生产已完全恢复,而上海迪士尼乐园等旅游场馆仍处于关闭状态。

通过分析GPS卫星数据,可以确定哪些人在上下班。该软件随后统计了每个城市的通勤人数,并比较了2019年农历新年假期开始时和2020年相应日期的通勤人数。在这两年中,通勤量在假期开始时都有所下降,但今年,假期后的正常交通量并没有像2019年那样恢复。

随着活动的缓慢恢复,WeBank的研究人员计算出,到2020年3月10日,大约75%的劳动力已经重返工作岗位。根据这些曲线预测,研究人员得出结论,除武汉工人外,大多数中国工人将在3月底前返回工作岗位。

那些试图应对新冠病毒挑战的人可以使用强大的工具,在危机解决后,证明其价值的解决方案很可能成为标准做法。


参考

1.Mariotti,E.(2020年3月6日)。模拟意大利新冠肺炎疫情.