济南白癜风医院 http://pf.39.net/bdfyy/bdfyc/190326/6997150.htmlDataprocessing
——从斯诺地图到新冠疫情地图
数据处理(dataprocessing)是对数据的采集、存储、检索、加工、变换和传输。
数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
斯诺霍乱地图
斯诺霍乱地图的制作是为了寻找年发生在伦敦的霍乱的源头,我们首先追溯到年伦敦市区,当时伦敦拥有百万人口,是世界上最大的城市,但在华丽的外表下,城市公共基础设施却破烂不堪——污水系统露天放置,系统设施老旧,人们的污水系统和供水的水井隔离不完全,污水直接排放到泰晤士河;化粪池等设施直接暴露在街道上。在这种环境下,平均每十年就会有一次大型的霍乱横扫伦敦,尤其在年爆发了最大的一次霍乱。
LONDON
当时由于一位女婴患病去世,而这家的化粪池临近SOHO地区的最重要的抽水机且由于之间隔离不善,导致SOHO地区的供给水源受到污染,爆发了霍乱。起初人们认为霍乱是通过空气传播的,即当时的流行理论是瘴气理论,*府也仅仅是采取清空化粪池,将污水导入泰晤士河等收效甚微的工作,但JohnSnow医生在走访SOHO地区每一家用户后,绘制了著名的斯诺死亡地图,并认为霍乱的来源是该地区的水井,下面通过我制作的两张地图来分析一下斯诺是如何根据用户来推测霍乱来源的。
一
在斯诺确定可疑水井后,第一步,通过自己的亲身实践一以及根据人们日常行进的范围和路线画出了可疑水井的大致影响范围并且统计了水井附近每户家庭的死亡人数。通过地图,我们能够看出BroadwickStreet和LexingtonStreet交叉口西南角的水泵疑似传染源。
水井和死亡人数统计图
二
第二步,依据泰森多边形的原理,即距离最短的原则绘制Voronoi图,划出每个水井的影响范围,其中在中心街道出的水井附近的病例相比于其他水井附近病例显得尤其多,而且在该水井确定的泰森多边形边界处病例明显减少,由此可以看出BoradwickStreet的水泵很大程度上是传染源。
泰森多边形模型建立
三
第三步,将所有的患病住户与附近的水井使用直线连接在一起,更为清楚的显示出水井对周围用户的影响,之后再按照实际路况情况以及到达水井所花费的实际时间依据距离最短的原则进行进一步划分,最终确定水井对附近用户患病的影响。最后,为了论证霍乱是由水源污染引起的,我们可以将位于中心街区的水井隐藏,这样看来其他水井附近感染人群势均力敌且都没有中心街区的水井影响程度大。由此,我们可以看出,年的霍乱是由水源污染引起的。
路线分析
启发
年霍乱已过去多年,但是斯诺地图却对后来的流行病研究影响深刻斯诺地图第一次将数据的处理和可视化应用到流行病的研究中,将患者假想为一个数据点,通过对数据点的相互作用以及收到外界作用下自身的运动进行研究得到规律,并将这种规律表现在地图之上,具有更强的说服力。这种数据模型的处理和可视化在近期新冠病*的防控中也产生了重要作用。
新冠疫情地图
疫情实时统计数据
疫情期间,人们的工作主要是围绕新冠疫情的感染人数的预测和传播路径的模拟,下面将主要对传播路径的模拟进行说明:我们将城市看作一个数据点,与斯诺地图类似,这个数据点与外界的接触频率决定了疫情传播的程度,也就是现实中的城市的交通通量。交通通量越大,病*的传播机率就会越大。斯诺地图中利用泰森多边形进行水井对附近的影响程度,在对新冠疫情的预测中,决定因素是在基于交通通量的基础之上测算出来的距离,而非两地之间的实际距离。拿我的家乡东营举例:东营市附近的市基本全都有疫情感染者,但是由于东营市内没有高铁,交通流量不大,折算下来的距离也就相应的远,更小几率出现感染者。
在确定感染者之后,通过数据的处理可以得到感染者的大致路线图,通过对此感染者的最可能路线进行模拟:将感染者作为一个游离运动的数据点,按照感染者所在城市的流量大小得出其他人员随机访问城市的概率,接触者到达下一城市后再根据流量得出可能访问的城市以及可能的非直接接触者,依次得到未知感染者的可能路线。
特定时间人口迁移图
感染者传播模型
总结
相比于年斯诺作图条件,现在我们可以利用大数据运算以及GIS等技术来获取人员流动的状态以及疫情的实时数据等更加多样的满足人类特定需求的地图,更加方便地解决问题,但是两者的基本思想都是通过数学模型对所能取得的数据进行处理,将数据处理运用到地图制作中得到相关的专题地图。
-end-
作者:高山林
图片来源:百度地图慧眼、知乎
使用软件:GeoHey极海云
预览时标签不可点收录于话题#个上一篇下一篇