【建成环境与行为研究】居民个体出行行为聚类及出行模式分析——以三亚市为例 | 上海城市规划
1
数据与方法
1.1数据与处理
手机信令数据示例
居民出行的OD(Origin-Destination)数据提取采用文献中的方法,将停留时间超过15 min的地点作为一个停驻地,如下图所示,蓝色为手机信令的原始轨迹点,红色为提取之后的OD。统计发现,87%的居民在一天中的停驻地不超过5个。将停驻地按照停留时间长短进行排序,并取前5个停驻地依次标签为“位置1”“位置2”…“位置5”。于是,居民OD中的起终点可以用位置标签替代。
手机信令数据处理过程
将带位置标签的OD按照15min间隔划分为1×96的时间序列,每个子区段的值用唯一的位置标签表示。当某子区段内出现多个位置时,则该区段的位置标签根据所占时间最长的位置标签确定。再将每个子区段根据位置标签用长度为5的0—1向量表示,0表示该区段不属于该位置标签,1表示该区段属于该位置标签。由此,每个居民一天的出行轨迹可以表示为1×480(即24×4×5)的一维向量。所有出行者(N个出行者)的出行行为可以表示为N×480的二维矩阵。数据分解过程如下图所示。
数据分解示意
对于居民个体活动来说,有些特征是完全相似的。有必要进一步压缩数据维度,简化N×480的出行矩阵。本文首先采用主成分分析(Principal Components Analysis, PCA)对数据进行降维。PCA通过线性变换将原始数据变换为一组各维度线性无关的数据,可用于提取数据的主要特征分量,常用于高维数据的降维。此外,主成分分析还有助于发现数据模型中影响因素最大的主要成分。通过主成分分析得到的主成分称为“特征活动”,即可以表示所有出行个体的共同出行行为。
1.2 狄利克雷过程混合模型
本文采用狄利克雷过程混合模型(Dirichlet Process Mixture Model, DPMM)对降维之后的出行行为矩阵(N×m, m为主成分分析之后的维度)进行聚类分析。矩阵的每一行xi =(ci1 ,ci2 ,… ,cim )为一个居民个体,其中 c i j =(0,1)。该向量可以由参数为Θ={ θ 1 ,…θ m }的多项式分布 Mult(Θ) 表示,如果多个个体为同一类,这些个体的参数Θ相同。假定n个向量x= {x1 ,x2 ,… ,x n }相互独立且来自某个混合分布 F(Θ) ,参数Θ来自狄利克雷过程 G~DP(α 0 ,G 0 ) ,即分布的参数的先验是一个狄利克雷过程,集中参数为 α 0 ,基分布为 G 0 。那么DPMM可以表示为:
(1)
(2)
(3)
(4)
式(1)表示第i个个体的二项时间序列是由参数为Θ z i 的多项式分布产生, z i 为第i类的类别标签;式(2)表示每个类的类别参数是由狄利克雷分布产生的,K是类别的总数,从实际数据中得出;式(3)表示第i个个体对每个类的选择,服从参数为Π的多项式分布;式(4)中参数Π= ( π1 ,… πk +1 ) 则表示个体属于每个分类的概率,这个概率可以从狄利克雷过程中抽样得到。
1.3 模型求解
本文使用中餐馆过程求解DPMM。每个个体 xi 属于既有类的概率以及属于一个新类的概率分别为:
(5)
(6)
其中, k 是样本 xi 所属的类别编号,K+1为样本 xi 被分配到新类的编号;B是归一化因子。 Z -i 表示除 Z i 的其他所有的类别,式(5)表示样本被重新分配到既有类的概率,式(6)表示样本被分配到一个新类的概率。
相较于其他聚类方法,DPMM具有两个重要优点:一是该聚类方法无需事先指定聚类数量,通过模型逐次迭代得到聚类数量的最优值;二是该方法具有发现新类别的能力。
2
结果与分析
根据前文所述方法,本文共提取有出行的个体43万,并从中随机抽取5万个个体,进行个体出行聚类及出行模式分析。
2.1 个体行为主成分
首先采用Python进行主成分分析。指定降维后的主成分比例在90%以上时,得到38个主成分,即“特征活动”。为简化文章篇幅,下图所示为占比最大的前4个“特征活动”,占比达到31%。图中每一列分别代表一个“特征活动”,横坐标为时刻,纵坐标为5个位置标签,图中颜色(数值)为该时空位置的可能性,数值越高,表示可能性越大。
主成分分析结果
第1个“特征活动”表示在0:00—8:00个体处于“位置1”,而在9:00—24:00处于“位置2”,全天中处于“位置3”“位置4”“位置5”的可能性很小。实际上,该“特征活动”也是本文中发现的有别于传统调查法的最大区别,即一天中首尾时段所在位置不一致的现象。
第2个“特征活动”表示在工作时间7:00—18:00个体位于“位置1”,而休息时间0:00—9:00、19:00—24:00位于“位置2”。由此可以判断出“位置1”为工作地而“位置2”为家庭居住地。以往手机信令研究中将个人一天所在时间最长的位置地点推断为家庭所在地。但从本次实践中发现,由于手机信令数据采集的时间误差较大,往往会造成在工作地的时间比在家庭所在地时间长的情况。因此,结合个体出行行为深化对家庭所在地、工作所在地的分析至关重要。这也是本方法的优点之一。
2.2 个体行为聚类及特征分析
在主成分分析的基础上,本文最终得到15个个体行为聚类,聚类结果如下图所示。其中横坐标为时刻,纵坐标中每一行为一个出行者,不同颜色代表不同的位置标签。
个体行为聚类结果
以上图(2、3)类为例,类别2个体表现出的共同行为为:8:00前、19:00后位于“位置1”,8:00—12:00、14:00—18:00位于“位置2”,12:00—14:00的位置无共同特征。而类别3的共同行为为:早晚位于“位置1”,工作时间段8:00—17:00位于“位置2”。尽管在数学意义上,类别2、3有明确的区别,但从实际的出行模式上,可以推测这两类均属于典型通勤出行模式的范畴。因此,有必要进一步对个体行为聚类进行归纳总结,得到契合城市特征的出行模式分析。
2.2.1 常规出行模式
第1类为常规的非活跃类出行模式。全天大部分时间在位置1,偶尔有一些随机的、短时间停留的出行活动。
第2、3、4、5类为常规的通勤类出行模式。全天中“位置1”与“位置2”的停留时间基本相同,出行活动发生于6: 00—18: 00之间,且凌晨与深夜的位置一致。其中第2类可以理解为个体在中午工作休息期间伴有其他出行活动;第3类则为在工作时段无外出行为发生。第4类相对特殊,可以理解为一天中在工作地点的停留时间超过在家的时间。本文将第5类出行也归纳为通勤类活动,因为其出行的时刻分布与通勤类出行相一致,但是并不一定具有固定工作地性质。
2.2.2 非常规出行模式
传统问卷调查默认居民早晚位置一致,即为家庭所在地,居民一天的出行为一个封闭的环路。但从本次手机信令数据的研究发现,就三亚市而言,早晚位置不一致的现象非常普遍。图中第6、7、8、9、10类即为此类模式。
第6、7、8类的突出特征是出行首尾位置存在不一致的现象,除了“位置1”“位置2”停留时间较长外,其余位置停留时间均较短。这可能与三亚市的产业结构有关。三亚市内不仅有大量游客,更有大量旅游行业从业人员。这类人员的工作性质与普通通勤人员完全不同,常常夜间工作、白天休息,或白班、夜班交替轮换,造成深夜与白天位置不重合的现象,本文将此类模式称为“旅游服务类出行模式”。
第9、10类的突出特征是“位置2”与“位置3”的停留时间差别不大,意味着一天中有两个主要的活动地点,且停留时间均很长。这与游客的出行行为存在一致性。此外,市域外围乡镇居民进入中心城区办事且当日无法往返等情况也与此类相似。本文将此类模式称为“游客类出行模式”。
2.2.3 弹性出行模式
第11、12、13、14、15类可以理解为典型的弹性出行模式。传统的基于问卷的居民出行调查法将弹性出行依据出行目的进行划分,本质上期望建立目的与居民社会经济之间的联系。本文则从个体出行行为的维度考察此类出行的特征。可以发现,弹性出行发生的时间可分为8:00—12:00(第6类)、10:00—14:00(第7类)、14:00—18:00(第8类)、17:00—20:00(第9类)及18:00—深夜(第10类)。不同时段的活动位置停留时间不一,第6、10类的活动停留时间较长;而第7、8、9类的活动停留时间相对较短。各类出行模式的人群占比如下表所示。
典型出行模式与个体聚类对应关系
2.3 空间分布
出行模式在空间上的分布特征能进一步反映城市空间结构与个体出行之间的相互关系。下图为5类出行特征在市域范围内的空间分布。
a 常住人口
b 外地游客
c 非活跃类出行模式
d 通勤类出行模式
e 旅游服务类出行模式
f 游客类出行模式
g 弹性出行模式
不同出行特征的空间分布
为进一步说明各出行模式与城市空间的联系,上图中a、b首先给出了三亚市常住人口、外地游客的住址分布,用以表现三亚市城市空间功能布局的基本特征。常住人口主要居住在老城区居住功能组团、各区所在镇居住中心,而旅游人口的住址主要分布在老城区、三亚主要旅游景区等旅游服务成熟的功能组团。
c为第I类出行模式,即非活跃类出行模式的住址分布。在空间上表现出相对均衡的特征,与常住人口的空间分布相契合。
d为第II类出行模式,即通勤类出行模式的住址分布。在空间上表现出集聚于老城的特征,主要集中在紧邻老城中心周边的居住片区。
e为第III类旅游服务类出行模式,即早晚住址不一致、且出行非常频繁。在空间上表现出集聚在老城主要旅游资源周边的特征。
f为第IV类游客类出行模式,即早晚住址不一致、但日出行较少,且单一目的地停留时间较长。在空间上除了在老城内集中,在旅游景区周边也有集聚现象。
g为第V类弹性出行模式。在空间上表现出与常住人口分布规律相似的特征,并无明显集聚现象。
3
结论与讨论
与以往基于问卷的调查相比,本文基于手机信令的个体行为聚类有助于发现新的出行模式。考虑到三亚市作为旅游城市,大量旅游业从业人员存在特定的工作方式(夜间上班、白天在家,或“三班倒”交替工作),以及旅游人员有更换住宿地点的特征,该发现有助于更加深入地了解居民活动规律,并在此基础上为基于活动的交通需求预测模型提供帮助。在聚类方法上,本文采用基于狄利克雷过程混合模型(DPMM)进行聚类。与其他聚类方法相比,该方法可在不事先假定聚类数量的情况下,自动发现新的聚类类别,对在大数据背景下丰富既有的研究手段有一定的帮助。该方法适用于任何城市任何类型的手机信令数据,甚至可以扩展为其他数据类型,如出租车GPS等时空采集度更加精细的数据。
详情请关注《上海城市规划》2020年第5期《居民个体出行行为聚类及出行模式分析——以三亚市为例》,作者:陈仲,中国城市规划设计研究院;杨克青(通信作者),华南理工大学。本文内容仅代表作者观点。
中国科技核心期刊、 RCCSE中国核心学术期刊、《中国学术期刊网络出版总库》全文收录、《中国学术期刊影响因子年报》统计源期刊、《中国核心期刊(遴选)数据库》全文收录、美国《乌利希期刊指南》(Ulrich's Periodicals Directory)收录期刊、中国人文社会科学引文数据库来源期刊
版权说明:
1.版权归本网站或原作者所有;
2.未经本网或原作者允许不得转载本文内容,否则将视为侵权;
3.转载或者引用本文内容请注明来源及原作者;
4.对于不遵守此声明或者其他违法使用本文内容者,本人依法保留追究权等。