Using Big Data to study the link between human mobility and socio-economic development
大数据提供了创建社会数字神经系统的可能性,实现对社会经济现象相关方面的实时测量、监测和预测。
本文研究了人类移动模式和社会经济发展的相关性。
测量了每个个体的移动量(mobility volume)和移动多样性(mobility diversity),并在城市水平( municipality level)上聚合这些测量,研究其和外部社会经济指标( external socio-economic indicator)的相关性。
该研究发现三个结果:
①聚合的人类移动模式与社会经济指标相关
②移动多样性(用个体用户轨迹的熵来定义)与外部社会经济指标的相关性最强
③移动量和移动多样性与社会经济指标有相反的相关性
Paper Reading
Intro
提出一个问题:我们能否通过大数据的视角,仅仅通过观察居民的移动,来监测和预测城市的社会经济发展?
文章随后介绍了多样性对自然生态系统的重要性,并指出多样性对于移动系统同样也是一个关键概念,移动模式的数量和多样性对城市的社会经济发展具有较高的预测能力。
文章基于大尺度移动电话数据进行以下处理:
(阐述了该研究发现的三个结果)
①在移动电话数据上定义两个个体移动的度量:
移动量:个体的特征行走距离( the characteristic traveled distance),即个体移动的典型距离(the typical distance)
移动多样性:个体在他位置上移动的多样化,即个体移动的访问地点的分布
②在城市水平聚合两种个体度量并探索该聚合度量与不同方面的外部社会经济指标(财富、就业、教育和匮乏/贫困(deprivation))之间的相关性。
发现两种移动度量都与外部社会经济相关,特别是移动多样性表示出更强的相关性。
③观察到在城市水平移动量和移动多样性与社会经济指标呈负相关或正相关,说明它们在城市社会经济发展中起不同的作用。
说明了该文章的重要性:
①移动量和移动多样性是可以用来深刻理解互联社会复杂性的关键概念。
②研究揭示了大数据在提供具有代表性、相对廉价和现成的度量作为社会经济发展的代理的高潜力。可以定义新的统计指标来描述一个地区的幸福指数(这类测量不能使用传统的普查和调查)
Mobile Phone Data
记录了法国45天内2000w匿名用户的2亿次通话数据(CDR)
该数据格式:

经过筛选后剩余600万活跃用户的移动轨迹
Socio-Economic Data
本文使用了法国INSEE提供的2007年所有官方居民超过1000人城市的社会经济指标数据集。
主要分为四个方面:
①个人平均收入:某一城市的平均收入
②教育率:城市中只有初等教育的居民占全市人口的比例
③失业率:失业人口与全市人口的比率
④匮乏/贫困指数:通过选择反映个体贫困的变量,将其与具体的系数进行线性组合形成单个指标,具体如下:
初步验证表明,该贫困指数与各城市的收入和教育存在高度关联。下图反映了法国城市水平上这四个指标的分布,每个分布都有明显的峰值,突出了典型的社会经济价值(socio-economic values)在整个法国城市的存在。

Measuring Human Mobility
the volume of mobility
回转半径
它描述了个体u从他的质心出发访问的信号塔的空间扩散过程。

该图描绘了两名用户的回转半径。其中圆圈的分布代表到访信号塔的空间分布,圆圈的大小与他们的访问频率成正比。
红色的圆圈代表最常访问的位置
UserA的回转半径较小,因为他访问的地点彼此接近
UserB的回转半径较大,因为他访问的地点互相远离

该图反映了回转半径在数据集中的分布,该分布很好地近似于一个重尾(heavy-tail)分布,表明回转半径有很大的可变性。
the diversity of mobility
使用Shannon熵来度量个体u的移动多样性
其中e=(a,b)代表始出发信号塔和目标信号塔之间的一次移动,E是所有可能的出发地-目的地对的集合,p(e)是信号塔a和b之间发生移动的可能性,N是个体u移动轨迹的总数。
当个体从不同的起点和目的地进行许多不同的移动时,移动熵是高的;当个体表现出少数反复移动时,移动熵是低的。
通过回转半径测量,人类移动模式有惊人的异质性。通过移动熵测量,人类移动也同时具有高度的可预测性。

该图展示了数据集中两个个体移动熵的可视化网络。图中的结点代表信号塔,边代表两座信号塔之间发生的移动。结点的大小表明该用户在该信号塔发出呼叫次数,边的大小与该用户在边上行程次数成正比。
UserX具有较低的移动熵,因为他的行程分布在几个较大的首选边上
UserY具有较高的移动熵,因为他的行程分布在许多等大小的边上
移动熵还量化了预测个体未来行踪的可能性。具有非常规律的移动模式的个体拥有接近于零的移动熵,他们的行踪是相当可预测的;相反高移动熵的个体更不可预测。

该图反映了移动熵在数据集上的分布,表示人类移动模式的较高的平均可预测性。(Question1)
Correlation Analysis
在CDR数据集上计算这两种移动度量后,本文在城市水平对个体数据进行聚合:
①将每个用户访问最频繁位置
②基于这些家的位置,将这些用户分配给相应的城市
通过计算分配到该城市的用户的平均值、均值和标准差来聚合回转半径和移动熵。
计算得到5100个城市的集合,其中每个城市包括这两个聚合的指标。
下表反映出聚合的移动度量与社会经济指标的相关性

从该表中,可以得到以下结论:
①移动多样性比移动量更能预测社会经济发展(无论以怎样的方式聚合,移动多样性有更强的相关性)(Fig5)
②人均收入、初等教育程度和贫困指数与移动度量的相关性强于失业率
③移动多样性和移动量对于社会经济指标有相反的相关
④实际数据得到该结果不是偶然的。本文将该结果与一个空模型比较(null model),该模型将用户随机分配到法国各个城市。
首先从数据集中均匀抽取N个用户,并将他们分配给一个随机的拥有N个用户的城市。
聚合分配给同一城市的用户的个体多样性度量
- 重复此过程100次,并取每个城市在这100次实验中聚合值的均值
空模型的结果与所有社会经济指标没有相关性,证实了这一结论。
Discussion Of The Results
该研究中最显著的结果是观察到人类移动,特别是移动多样性在城市尺度与社会经济指标相关。
特别的是,在城市水平,移动熵与人均收入正相关,与贫困指数、初等教育率、失业率呈负相关。

该图反映了人类移动度量与社会经济指标的相关性。通过x轴上测量的十分位数,将城市分为十等份。对于每个分组,在y轴上计算测量值的平均值和标准偏差,并通过黑色的误差条将它们绘制出来。可以观察到,移动熵与社会经济指标的相关性比旋转半径更强。
本文指出人类移动的更多样化与更高的总体财富、更受教育的地区和更低水平的贫困有关。


该图反映出移动熵在贫困指数不同十分位数的分布。
根据贫困指数的十分位数将城市划分为十个等大小的组。对于每个组,分别画出该组移动熵的分布。
蓝色虚线代表分布的拟合,红色虚线代表分布的平均值。
可以观察到由贫困指数定义的十分位数的移动熵分布的均值和方差都在系统地变化,描述了基于社会经济指标出现的熵的不同分布的亚种群(subpopulation)。
Limits of predictability in human mobility是人类移动的可预测性中一项开创性的工作,它指出移动熵在由性别或年龄等个人特征描述的不同亚种群中非常稳定。两项工作对比说明,城市的社会经济状况相比于个体人口特征,与个体流动性更相关。
观察到的结果也表明社会经济发展与可预测性的关系:居住在更发达和更富裕地区的人表现出更高的移动熵,因此移动模式更不可预测。
即使移动多样性与社会经济指标之间的相关性很明显,也很难提出一个假说来解释它们之间的联系。社会经济指标与移动多样性之间的联系是双向的。有可能是一个发展较好的地区提供各种各样的活动,先进的公共交通网络,更多就业机会和更多样化的工作,以及其他因素促进了移动的多样性。也可能是个体移动的更多样性导致更高的社会经济,因为它可以滋养经济,提供更多经济机会,促进人和货物的流动。
另一个结论是,移动量和移动多样性呈相反的关系。
例如:由Fig5可以看出,聚合的移动量越高,社会经济发展水平越低;而聚合的移动多样性越高,社会经济发展水平越高。
假设人类移动是由日常活动驱动的,一个可能的解释是生活在发达城市的人们有广泛的活动,导致高度移动多样性;而生活在发展程度较低城市的人(比如在农村中),被迫地去寻找在他的城市中找不到的活动,造成很大的移动量。
为了研究这一假设,计算了聚合移动多样性与聚合移动量的相关性。

该图反映了聚合移动多样性和聚合移动量的相关性。根据平均熵的十分位数将城市分为十份等大小的组,对每组计算回转半径的平均值和标准差,并通过黑色的误差条将它们绘制出来。可以观察到,移动多样性和移动量之间呈负相关。
Conclusion
本文作者打算在三个方向上扩展本研究。
①社会多样性与移动多样性哪个更能代表社会经济发展以及它们在社会经济发展中所起的不同作用。
②更多了解聚合移动度量和社会经济指标之间的关系,有利于实施和验证预测模型。
③从多维视角考察人类移动模式与社会经济发展之间的关系,通过使用更多其他指标,来了解社会经济发展的哪些方面与提出的移动度量最相关。
补充
重尾分布
重尾分布 Heavy-tailed distributions是指其尾部呈现出不受指数限制的概率分布
同power-law
香农熵
拿出之前收藏的关于熵的博客:https://blog.csdn.net/Lison_Zhu/article/details/97234817
香农熵即熵的定义
定义事件
当越不可能的事件发生了,我们获取到的信息量就越大。越可能发生的事件发生了,我们获取到的信息量就越小。信息量和事件发生的概率有关。而熵用来表示所有信息量的期望,n代表n种可能性。
Question
1.到底可不可预测 Fig3图释表示人类移动模式的高度不可预测性,正文中表示个体的移动模式具有较高的平均可预测性。引用文章Limits of Predictability in Human Mobility中abstract提到:通过测量每个个体的移动熵,我们发现整个用户群的用户移动有93%的潜在可预测性。回头去深挖一下这篇文章,我觉得从我目前读过的角度来看,应该是高度的可预测性,但从移动熵的分布来看,高移动熵的人分布居多,明显更不可预测。
- 本文标题:Using Big Data to study the link between human mobility and socio-economic development
- 本文作者:y4ny4n
- 创建时间:2021-12-16 22:28:30
- 本文链接:https://y4ny4n.cn/2021/12/16/scd/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!