当前位置:广昱文档网 >专题范文 > 公文范文 >

基于腾讯迁徙数据的全国春运人口流动时空格局分析

时间:2023-10-10 14:25:05 来源:网友投稿

陶坤旺 赵习枝* 蓝玉珍 陈 颂 焦明连 张福浩

1(中国测绘科学研究院 北京 100830)

2(江苏海洋大学海洋技术与测绘学院 连云港 222005)

人口流动是我国改革开放以来规模最大、意义最为深远的地理过程之一[1]。科学地认识人口流动的时空特征,对于编制城镇化发展、土地利用等各类空间规划具有重要意义。传统的人口流动研究主要依赖于人口普查、抽样调查、问卷调查等方法,存在数据获取困难、更新频率低等问题。随着大数据时代的到来,利用移动轨迹、手机信令等数据分析大范围、长时序、多尺度的人口流动成为可能。其中,腾讯、百度等公司提供的人口迁徙数据能够全面、实时地记录全国人口流动情况,因而常被应用于人口流动的相关研究。如赵梓渝等[2]基于百度迁徙数据,利用有向加权转变中心性和控制力的方法识别城市网络层级结构,揭示了人口流动的二维空间特征和地理分布特征。

随着我国社会经济的发展,节日期间人员流动加剧。与其他节假日相比,人们对于春节回家过年的情感诉求更为强烈。因此,春节期间出现了我国规模最大、覆盖范围最广的人口迁移现象——春运。春运是城市与区域间人口流动的缩影和集中反映,可通过春运来透视更长时间轴的区域人口迁移状况。目前,针对春节期间流动人口的研究内容主要包括:人口流动时间序列变化[3-4]、空间格局[5-7]及春运对城市环境[8]和社会经济的影响[9-10]等。刘海洋等[3]基于腾讯迁徙数据,对中国城市人口流动的时空特征进行分析发现,春运期间,人口流动在空间上形成了以省会城市为集散中心的集散体系,在时间上则形成以春节为界的返乡潮和返工潮现象;
Xu 等[11]利用社区聚类算法划分中国城市网络组团结构,并探讨了城市群之间人口流动与城市发展的关系。人口流动的研究方法主要包括网络分析、重力模型等;
在数据源的选取方面以百度迁徙、腾讯迁移、微博签到等数据为主;
在空间尺度上,涉及全国、城市群、省域和城市;
在时间尺度上,主要以短时序的春运研究为主[12-14]。如张宇等[12]从网络、城际联系和城市节点维度分析了客流网络结构;
赵梓渝等[13]基于百度迁徙数据,比较了改进重力模型与实测流之间的误差,得出不同省份人口的距离衰减系数存在高低差异的结论。李涛等[14]基于腾讯位置大数据,通过改进的重力模型,探究城市群之间迁移衰减规律。

但上述研究,或基于某一年的数据源研究短时序人口流动规律;
或以重点区域为研究区,研究小范围内的人口流动时空分布,缺少长时序、多空间尺度的春运期间人口流动特征。针对上述不足,本文基于 2015—2018 年腾讯官方人口迁徙数据,通过网络分析方法建立春运期间全国城市联系网络,分析城市网络空间结构特征;
通过DBSCAN 对城市人口流动时间序列进行聚类,探究城市人口流动时序特征;
通过重力模型探讨距离对城市间联系的影响,以及春运期间人口迁入和迁出城市的时空分布规律。本文的主要贡献有:(1)基于腾讯迁徙大数据,分析我国城市分布随着人口流动呈现的城市群格局;
(2)探究 2015—2018 年春运期间人口流动规律与类型,以期为今后的春运期间相关政策制定与城市管理的科学部署提供理论依据。

本研究使用的数据来自腾讯迁徙数据。“腾讯迁徙”是腾讯公司以用户的移动定位信息拟算出来的无纲量数据,描述了汽车、火车、飞机 3种出行方式的人口流动情况。该数据以地级市为基本单位,统计每天各城市间的人口流入与流出情况,具有实时、大规模、连续观测的优点,但受平台限制,只有排名前 10 的城市间人口迁徙记录。本文通过各个城市间的人口迁入迁出记录适当补充其他城市的人口流动情况,即a城市迁出至b城市的人口等于b城市从a城市迁入的人口,以刻画出全国城市的人口出行特征。

本文选取 2015—2018 年春节期间的人口迁徙数据。其中,春运周期包括春节前 15 天和春节后 25 天,共计 40 天。数据覆盖了 287 个地级市、7 个地区、30 个少数民族自治州、3 个盟,共计 327 个地级以上行政区划。受平台发布信息限制,上述数据不包括莱芜市(2019 年被撤销)、香港、澳门、台湾和海南三沙市。

本文选取上述 327 个城市作为网络节点,节点之间联系强度作为值,构建有向网络矩阵。部分网络矩阵如表 1 所示。其中,源节点与目标节点为相互连接城市的行政代码。

表1 部分网络矩阵Table 1 Partial complex network matrix

2.1 研究方法

2.1.1 时空分析方法

复杂网络具有小世界性以及无标度性,其实质是利用节点与边表示一组事物之间的关系。因此,构建关键词网络需要明确节点与节点之间的关系。本文的网络以城市为节点,一个城市到另外一个城市的连接作为边,通过分析人口入度和出度可知,人口流动具有明显的空间网络结构。根据人口联系强度构建人口流动矩阵S如公式(1)所示。

其中,S代表人口联系强度,即作为边的权重,常用的网络分析指标如下。

(1)联系强度

(3)模块度

当某些节点关系特别紧密时,即可结成一个社区网络。模块度指标Q是衡量网络社区划分好坏的评价标准[15],揭示网络内部的局部集聚特征。其计算公式如公式(4)所示,当Q值在0.3~0.7 之间时,表明聚类效果较好。

(4)接近中心性

接近中心性[16]强调节点在整个网络中的中心性,是该节点与网络中其余所有节点最短距离之和,其计算公式如公式(5)所示。

利用 Gephi 工具分别计算模块度、平均聚类系数、平均路径长度等指标:模块度反映宏观整体的聚类效果;
平均聚类系数用以表征微观节点之间的关联关系,反映“小世界”网络特征;
平均路径长度可表征社区网络结构的可达性,评价社区网络的连通性能与组织效率。网络矩阵数据结果如表 2 所示。

表2 网络矩阵结果Table 2 Complex network matrix results

由表 2 可知,2015—2018 年春运周期的模块度均在 0.5 左右,且平均值大于 0.5,说明全国城市网络聚类效果较好;
平均聚类系数在0.492~0.527 之间,聚类系数越大,“小世界”特征越明显;
4 年平均路径长度接近于 3°,表明全国范围内两两城市间平均需要经过 3 个中间节点城市才能实现通勤。

2.1.2 聚类方法

DBSCAN 是一种基于密度的聚类算法,由密度可达关系导出的最大密度相连的样本集合作为一个簇[17]。该算法可在发现认识形状空间簇的同时,有效处理噪声点,被广泛应用于图像分析、机器学习、数据挖掘等领域。算法主要参数有邻域距离Eps和邻域距离内包含的最小样本数目Minpts。算法流程为:(1)在空间中任选一点p,计算点p的Eps邻域内点数量n;
(2)若n>Minpts,则表明点p是核心对象,创建以p为核心的集群标签;
(3)返回密度相连的点集合,将其Eps邻域中的点加入该簇中,并确保与点p密度相连的所有点都在该簇中;
(4)迭代计算(1)~(3),直至没有新的点可加入任意簇中时,聚类算法结束;
(5)未被加入任何簇的点即为噪声点。

本研究利用 DBSCAN 识别春节期间全国人口流动的各大城市类型,并借助k-dist图经过多次迭代试验选取最优参数。

2.1.3 重力模型

为定量分析距离对省内、省际人口流动的影响,本文采用重力模型拟合中国城市省内、省际人口出行联系强度与距离的关系。省内联系指各省份内部城市之间的人口出行联系;
省际联系指该省份城市与全国其他省份城市间的人口出行联系。重力模型拟合公式为:

3.1 城市人口流动网络结构特征

本研究利用自然断点法对全国城市关联强度进行分类,可有效减少人为因素干扰。自然断点法结束聚类的条件是组间方差最大、组内方差最小。每幅图根据数据特点自动进行分类。图 1 为2015—2018 年全国主要城市关联强度。接近中心性越强的城市对人口的吸引力越强。本文使用ArcGIS10.2 中的自然断点法,将 327 个城市按对外联系强度值划分为 5 个梯队。2015—2018 年,接近中心性排名前 9 位的城市包括北京、上海、深圳、广州、重庆、成都、杭州、西安和武汉,这些城市为第 1 梯队,是经济实力较强的城市,春运期间人口流动强度较大。它们的邻居节点数量基本覆盖了整个城市网络,且均具备较大的经济规模、便利的交通条件及充足的人力资源。该结果与向歆等[4]的研究发现有所不同,原因在于百度迁徙数据的缺失,向歆等的研究基于百度迁徙数据,但仅选择了 2015 年和 2019 年的重合城市数据。研究结果中接近中心性排名靠前的城市只有北京、上海、重庆、广州、深圳和成都。第2 梯队是南京、昆明、长沙、郑州、苏州、哈尔滨、天津等具有行政地位的省会城市及中心性优势较强的城市。这些城市之间的网络地位差异较大,行政等级高的城市人口流入流出能力略高于第 2 梯队的其他城市;
在时间尺度方面,第 2 梯队的城市联系强度在逐渐加大。第 3 梯队是内江、资阳、湛江、铜仁等三线城市,以西部地区及经济较落后城市为主,接近中心性明显减弱。由此可知,我国经济发展空间尺度上失衡,虽在“一带一路”、“西部建设”的作用下,经济平衡发展取得了一定的成效,但仍需加强西部建设。

图1 2015—2018 年全国主要城市联系强度空间关联图Fig. 1 Spatial correlation diagram of national urban connection intensity from 2015 to 2018

由于冬季北方气候寒冷,越来越多人选择在热带、亚热带气候区的城市度过春节。厦门、三亚等城市旅游资源丰富、旅游业发达、环境优美、冬季气候宜人。所以在春节期间,与其他旅游城市相比,此类城市人口流动联系度较高,且随着经济发展,呈逐年增加趋势。2015—2018 年,东北三省、贵港、乌鲁木齐、青岛、太原等城市人口流动性持续减弱,说明这些城市的人口吸引力不足,侧面反映出近年的发展状况并不乐观,证实了在快速城市化影响下,小城市的资源匮乏导致了人口流失。相对地,吸引力逐渐上升的城市为:佛山、无锡、徐州、嘉兴、扬州等经济综合实力较强的城市。由上述信息可知,2015—2018 年,以工业为主的城市发展速度缓慢,对人才的吸引能力下降,经济发展受到限制,而互联网的蓬勃发展,使一些小城市抓住机遇,吸引了大量高技术水平人才,经济得到了快速发展。

从路线来看,按照春运期间联系强度大小排序,2015—2018 年春运期间人口流动强度排名前 8 位为:佛山到广州、保定到北京、廊坊到北京、上海到苏州、西安到咸阳、广州到东莞、惠州到深圳和东莞到深圳。通过分析流动路线可知,2015—2018 年春运期间人口省内流动强度整体大于省际流动强度,城市间联系紧密的大多为北上广及东部沿海城市。在这些路线中,福建的厦门、泉州、漳州地区虽然地理位置较好、经济发达且气候具有一定的优势,但未进入全国城市人口联系强度前 20 名,未能体现其区域职能及经济优势。

3.2 春运期间人口流动时序分析

为探究在时间节点上全国城市流入流出特征,本文按照除夕前、春节假期、春节假期结束后 3 个时段(其中,除夕前为包含除夕夜当天的前 15 天;
春节假期为初一到初七共计 7 天;
假期结束为初八至年后二十五,共计 18 天,3 个时段共计 40 天),计算研究区内各城市的每日净流量。采用 DBSCAN 聚类方法,对春节期间全国范围内各城市逐日人口净迁移时间序列进行聚类,最终得到聚类数为 5,得到 2015—2018 年的聚类图,如图 2 所示。由图 2 可知,2015—2018年人口流动规模具有明显的“潮汐现象”,与刘海洋等[3]的研究结果一致,但聚类结果有所差异。通过自然断点法得到的聚类结果忽略了城市的空间异质性;
K-means受聚类过程中的异常值影响较大;
而利用 DBSCAN 算法得到的聚类结果更能识别城市群之间的流动关系,如京津冀城市群、珠江三角洲城市群等。

由图 2 可知,全国城市的人口流动主要表现为迁入转迁出型、迁出转迁入型。其中,迁入转迁出型集中在中小型城市:衡阳、茂名、赣州、玉林、六安、徐州、保定等城市。这些城市大多位于人口大省和经济欠发达省区,与刘海洋等[3]描述的春运期间人口流出省份一致。迁出转迁入型表现为人口在除夕前从经济发达区以及省会城市迁入到中国的中部、西部和东北三省,除夕后再迁回至原来的大城市,如:北京、深圳、上海、乌鲁木齐等一线城市和省会城市。这些城市具有省行政中心、经济优势以及良好的交通地理位置优势。与其他年份不同的是,2018 年迁出转迁入型自春运开始持续至正月初二,可能由于春节前一部分人未买到返程票或其他因素无法在除夕夜前返回家乡。总体来看全国人口流动的净流量大致保持平稳。

图2 2015—2018 年全国净流量图Fig. 2 National net flow from 2015 to 2018

除夕前,2015 年的人口净迁移最低点为深圳(713 070 人次),成为人口净流量最大的城市,其余 3 年最低点的城市均为成都,人口流出的方向逐渐转向西部区域,成都的虹吸力显著增强。除夕前,除 2017 年人口流入最高点是阳江市外,其他年份人口流入最高点均为茂名市,人口流入的城市形成“返工潮”。2015—2018年,人口流入城市逐渐增多,主要为东部的福建、山东、浙江,中部的河南、陕西、山西,北部的黑龙江、吉林,西部的贵州、云南、甘肃等省份。

除夕后,2015—2018 年正月初一开始,北京、成都、郑州、武汉、西安、上海、长沙、昆明、厦门、苏州等城市渐渐涌入人口,形成“务工潮”,原因是为了避免大规模返工高峰期,大部分人群选择提前返工,这反映了我国春运时期流动人口分布的基本格局和人口迁徙的基本趋势。人口流动在正月初六出现高峰,但部分人群正月十五后才开始返程,因此,正月十六将再次出现春运人口迁徙小高峰。其中,2015—2017 年的人口净迁移最高点时间为正月初六,最高点城市均为北京。2018 年,人口净迁移最高点时间为正月十六,最高点城市为郑州,印证了河南省统计局发布的 2018 年河南人口发展报告:郑州首次成为常住人口最多的城市[18]。

3.3 重力模型拟合与距离衰减规律

基于人口流动的城市紧密性仍遵循地理空间效应的制约,为分析春运期间不同时间段人口流动距离衰减特征,本文将 4 年数据划分为除夕前、除夕后 2 个阶段,并利用幂函数对重力模型进行拟合,具体拟合函数见表 3。

由表 3 可知,2015—2018 年除夕前,对内和对外联系层面距离衰减系数β分别为 1.486 和1.774。从吸引力系数来看,除夕前对内联系层面的e和f值为 0.781、0.659,对外联系层面的e和f值为 0.715、0.644。表明随着距离的增加,城市吸引力在逐渐降低,省内城市受到较强的交通流影响,全国省内城市展现出较强的外向吸引力。除夕后,对内和对外联系层面距离衰减系数β分别为 1.402 和 1.599,对内联系层面的e和f值为 0.712、0.891,对外联系层面的e和f值为0.782、0.730。除夕前的出行距离均高于除夕后的出行距离,原因是节前人们“回乡心切”所致。节后人口流动时间弹性较大,选择出行的时间不局限于春运期间。因此,随着距离衰减系数的增加,吸引力因子存在较小的偏差浮动。

表3 春运数据拟合Table 3 Spring Festival population mobility data fitting

由重力模型处理的数据可知,短距离出行人口集中在南部区域的广州、深圳、厦门、漳州、泉州,中国西部的成都周边和西安、咸阳之间,中部的郑州、开封、合肥、六安以及东部的苏州、无锡、杭州、绍兴。随着距离的增加,人口流动的强度越来越低,受地理邻近效应影响更加明显。长距离出行则形成了以京沪为核心的跨区域组团、广深为核心的区域组团和成渝为核心的跨区域组团。

通过分析人口省际联系数据,发现一些偏远城市开始与大城市进行流动性互动,如西部贵州省的铜仁与重庆、中部的济宁和北京建立联系等。尽管上述城市之间的联系偏弱,但是长距离的互动打破了城市之间的距离制约,使得中国城市间网络结构表现出更强的空间自主性和网络交互性。

4.1 结论

“腾讯迁徙”大数据基于位置服务,全程、实时、直观地表达了城市之间的人口流动轨迹。本研究利用腾讯迁徙数据,分析了我国城市间人口流动空间布局。首先,通过不同时间的人口流动模式差异,构建了城市联系网络,在此基础上,对城市间动态关联关系进行分析,较为全面地反映了我国春运期间人口流动情况,并在一定程度上弥补了统计数据无法反映人口动态变化的不足。然后,基于人口迁徙净流量数据,本研究探究了春运期间人口迁入和迁出城市的时空分布规律。主要结论如下:(1)从联系强度来看:全国城市网络呈现稳定的“菱形”结构,邻近省份之间形成组团模式,呈现出东强西弱的联系强度差异。联系强度大的城市关联节点较多,北京、上海、深圳、广州、重庆、成都、杭州、西安、武汉等城市具有较强的联系强度;
而沈阳、贵港、乌鲁木齐、青岛、太原等城市出现人口联系强度衰减的现象。除“菱形”结构外,西北部和东北部的城市中转和承接能力具有强大优势。(2)从净迁移视角来看:除夕前,人口主要从一线城市及省会城市流出,流入城市主要为经济不发达的中小城市,表明一线城市为主要的劳动力输入型,而三线城市及三线城市以下为劳动力输出型城市。春节假期后,城市输入输出表现相反,返工城市多为经济发达及沿海的大城市。春节假期期间,大城市人流量最高是在正月初六,之后这些城市人口流动呈现下降趋势,总体人口流进大于流出,直到正月十六突然上升,然后慢慢开始下降。(3)通过重力模型分析发现,2015—2018年省内流动性大于省外流动性,距离衰减效应明显,人员流动主要发生在省内城市之间。

4.2 讨论

春节对国人的特殊意义与情感价值造就了全国最大规模的人口流动。本文通过采集2015—2018 年春运期间,“腾讯迁徙”大数据平台中国内 327 个城市之间的逐日人口流动数据,从长时序、多空间尺度的角度,充分研究了春运期间的人口流动特征。研究发现 DBSCAN 算法可以更精准地识别城市群,并通过该算法得出的人口流动类型与对应年份中国的发展情况相吻合。但本文尚存有不足:(1)受数据限制,在分析城市间人口流动时,本文存在精度不足、覆盖人口有偏和数据不连续等缺陷,虽然腾讯产品用户广泛,但仍有大量群体的日常流动行为未被记录;
(2)通过与多源数据的融合,可有效改善单一数据有偏和低精度的问题,但为保护隐私,腾讯数据的属性信息并未公开,仍有大量出行路径无法被拆解,不能完整识别用户的出行。

在今后的研究中,可结合多源数据,进一步完善航运、私家车等出行方式的人口流动信息;
还可从多个角度出发,识别精细尺度的城市结构体系,了解城市网络的内在联系,深入研究中国城市网络的变化机制。

猜你喜欢人口聚类流动《世界人口日》青春期健康(2022年13期)2022-07-18人口转型为何在加速 精读英语文摘(2022年4期)2022-06-05流动的光小哥白尼(趣味科学)(2020年6期)2020-05-22基于K-means聚类的车-地无线通信场强研究铁道通信信号(2019年6期)2019-10-08人口最少的国家小天使·一年级语数英综合(2018年3期)2018-06-221723 万人,我国人口数据下滑引关注领导决策信息(2018年10期)2018-05-22基于高斯混合聚类的阵列干涉SAR三维成像雷达学报(2017年6期)2017-03-26为什么海水会流动小天使·五年级语数英综合(2016年9期)2016-10-09一种层次初始的聚类个数自适应的聚类方法研究电子设计工程(2015年6期)2015-02-27自适应确定K-means算法的聚类数:以遥感图像聚类为例华东师范大学学报(自然科学版)(2014年6期)2014-02-27

推荐访问:腾讯 迁徙 春运