TransBigData는 일반 교통 시공간 빅데이터(예: 택시 GPS 데이터, 공유 자전거 데이터, 버스 GPS 데이터 등)를 빠르고 간결하게 처리하는 방법을 제공합니다. TransBigData는 트래픽 시공간 빅데이터 분석의 각 단계에 대한 다양한 처리 방법을 제공합니다. 코드는 간결하고 효율적이며 유연하며 간결한 코드로 복잡한 데이터 작업을 구현할 수 있습니다.
현재 TransBigData는 주로 다음과 같은 방법을 제공합니다.
TransBigData는 pip 또는 conda를 통해 설치할 수 있습니다. 설치하려면 명령 프롬프트에서 다음 코드를 실행하세요.
pip install -U transbigdata
설치가 완료된 후 Python에서 다음 코드를 실행하여 TransBigData 패키지를 가져옵니다.
import transbigdata as tbd
TransBigData는 데이터 처리에 일반적으로 사용되는 Pandas 및 GeoPandas 패키지와 원활하게 연결될 수 있습니다. 먼저 Pandas 패키지를 소개하고 택시 GPS 데이터를 읽습니다.
import pandas as pd # 读取数据 data = pd.read_csv('TaxiData-Sample.csv',header = None) data.columns = ['VehicleNum','time','lon','lat','OpenStatus','Speed'] data.head()
결과는 그림 2에 표시됩니다.
▲ 그림 2 택시 GPS 데이터
그런 다음 GeoPandas 패키지를 도입하여 지역 정보를 읽습니다. 연구 범위 및 표시:
import geopandas as gpd # 读取研究范围区域信息 sz = gpd.read_file(r'sz/sz.shp') sz.plot()
결과는 그림 3에 표시됩니다.
▲ 그림 3 연구 범위의 지역 정보
TransBigData 패키지는 교통 시공간 데이터에 대한 몇 가지 일반적인 전처리 방법을 통합합니다. 그 중 tbd.clean_outofshape 메소드는 데이터와 연구 범위 영역 정보를 입력하고, 연구 범위 밖의 데이터를 제거할 수 있다. tbd.clean_taxi_status 메소드는 택시 GPS 데이터에서 순간적인 승객 상태 변화 기록을 제거할 수 있다. 전처리 방법을 사용할 때 데이터 테이블의 중요 정보 열에 해당하는 열 이름을 전달해야 합니다. 코드는 다음과 같습니다.
# 数据预处理 #剔除研究范围外的数据,计算原理是在方法中先栅格化后栅格匹配研究范围后实现对应。因此这里需要同时定义栅格大小,越小则精度越高 data = tbd.clean_outofshape(data, sz, col=['lon', 'lat'], accuracy=500) # 剔除出租车数据中载客状态瞬间变化的数据 data = tbd.clean_taxi_status(data, col=['VehicleNum', 'time', 'OpenStatus'])
위 코드를 처리한 후 연구 외부의 데이터를 결합했습니다. 승객 상태의 즉각적인 변화에 대한 데이터가 포함된 택시 GPS 데이터의 범위는 제거됩니다.
래스터 형식(지리적 공간에서 동일한 크기의 그리드)은 데이터 분포를 표현하는 가장 기본적인 방법입니다. GPS 데이터가 래스터화된 후 각 데이터 포인트에는 해당 위치의 래스터 정보가 포함됩니다. 래스터를 사용하여 데이터의 분포를 표현할 때, 그것이 나타내는 분포는 실제 상황에 가깝습니다.
TransBigData 도구는 완전하고 빠르고 편리한 래스터 처리 시스템을 제공합니다. 래스터 분할을 위해 TransBigData를 사용하는 경우 먼저 래스터화 매개변수(래스터 좌표계를 정의하는 것으로 이해될 수 있음)를 결정해야 합니다. 매개변수는 래스터화를 빠르게 수행하는 데 도움이 될 수 있습니다.
# 定义研究范围边界 bounds = [113.75, 22.4,114.62, 22.86] # 通过边界获取栅格化参数 params = tbd.area_to_params(bounds,accuracy = 1000) params
출력:
{'slon': 113.75, 'slat': 22.4, 'deltalon': 0.00974336289289822, 'deltalat': 0.008993210412845813, 'theta': 0, 'method': 'rect', 'gridsize': 1000}
내용 이때 출력되는 래스터화 매개변수 params 중 래스터 좌표계의 원점 좌표(slon, slat), 단일 래스터의 경도 및 위도 길이와 너비(deltalon, deltalat), 래스터의 회전 각도(theta)가 저장됩니다. , 래스터 그리드의 모양(메서드 매개변수, 값은 정사각형, 삼각형, 육각형 헥사일 수 있음) 및 그리드의 크기(그리드 크기 매개변수, 미터 단위)입니다.
래스터화 매개변수를 얻은 후 TransBigData에서 제공하는 방법을 사용하여 래스터 일치 및 GPS 데이터 생성과 같은 작업을 수행할 수 있습니다.
전체 래스터 처리 방법 시스템은 그림 4에 나와 있습니다.
▲ 그림 4 TransBigData에서 제공하는 래스터 처리 시스템
tbd.GPS_to_grid 방법을 사용하면 각 택시에 대한 GPS 포인트를 생성할 수 있습니다. LONCOL 및 LATCOL이 생성되며 이 두 열은 함께 래스터를 지정합니다.
# 将GPS数据对应至栅格,将生成的栅格编号列赋值到数据表上作为新的两列 data['LONCOL'],data['LATCOL']= tbd.GPS_to_grids(data['lon'],data['lat'],params)
下一步,聚合集计每一栅格内的数据量,并为栅格生成地理几何图形,构建GeoDataFrame:
# 聚合集计栅格内数据量 grid_agg=data.groupby(['LONCOL','LATCOL'])['VehicleNum'].count().reset_index() # 生成栅格的几何图形 grid_agg['geometry']=tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params) # 转换为GeoDataFrame grid_agg=gpd.GeoDataFrame(grid_agg) # 绘制栅格 grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r')
结果如图5所示:
▲图5 数据栅格化的结果
对于一个正式的数据可视化图来说,我们还需要添加底图、色条、指北针和比例尺。TransBigData也提供了相应的功能,代码如下:
import matplotlib.pyplot as plt fig =plt.figure(1,(8,8),dpi=300) ax =plt.subplot(111) plt.sca(ax) # 添加行政区划边界作为底图 sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.1),linewidths=0.5) # 定义色条位置 cax = plt.axes([0.04, 0.33, 0.02, 0.3]) plt.title('Data count') plt.sca(ax) # 绘制数据 grid_agg.plot(column = 'VehicleNum',cmap = 'autumn_r',ax = ax,cax = cax,legend = True) # 添加指北针和比例尺 tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10) plt.axis('off') plt.xlim(bounds[0],bounds[2]) plt.ylim(bounds[1],bounds[3]) plt.show()
结果如图6所示:
▲图6 tbd包绘制的出租车GPS数据分布
针对出租车GPS数据,TransBigData提供了直接从数据中提取出出租车订单起讫点(OD)信息的方法,代码如下:
# 从GPS数据提取OD oddat=tbd.taxigps_to_od(data,col=['VehicleNum','time','Lng','Lat','OpenStatus']) oddata
结果如图7所示:
▲图7 tbd包提取的出租车OD
TransBigData包提供的栅格化方法可以让我们快速地进行栅格化定义,只需要修改accuracy参数,即可快速定义不同大小粒度的栅格。我们重新定义一个2km*2km的栅格坐标系,将其参数传入tbd.odagg_grid方法对OD进行栅格化聚合集计并生成GeoDataFrame:
# 重新定义栅格,获取栅格化参数 params=tbd.area_to_params(bounds,accuracy = 2000) # 栅格化OD并集计 od_gdf=tbd.odagg_grid(oddata,params) od_gdf.plot(column = 'count')
结果如图8所示:
▲图8 tbd集计的栅格OD
添加地图底图,色条与比例尺指北针:
# 创建图框 import matplotlib.pyplot as plt fig =plt.figure(1,(8,8),dpi=300) ax =plt.subplot(111) plt.sca(ax) # 添加行政区划边界作为底图 sz.plot(ax=ax,edgecolor=(0,0,0,1),facecolor=(0,0,0,0),linewidths=0.5) # 绘制colorbar cax=plt.axes([0.05, 0.33, 0.02, 0.3]) plt.title('Data count') plt.sca(ax) # 绘制OD od_gdf.plot(ax = ax,column = 'count',cmap = 'Blues_r',linewidth = 0.5,vmax = 10,cax = cax,legend = True) # 添加比例尺和指北针 tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect = [0.06,0.03],zorder = 10) plt.axis('off') plt.xlim(bounds[0],bounds[2]) plt.ylim(bounds[1],bounds[3]) plt.show()
结果如图9所示:
▲ 图9 TransBigData绘制的栅格OD数据
同时,TransBigData包也提供了将OD直接聚合集计到区域间的方法:
# OD集计到区域 # 方法1:在不传入栅格化参数时,直接用经纬度匹配 od_gdf = tbd.odagg_shape(oddata,sz,round_accuracy=6) # 方法2:传入栅格化参数时,程序会先栅格化后匹配以加快运算速度,数据量大时建议使用 od_gdf = tbd.odagg_shape(oddata,sz,params = params) od_gdf.plot(column = 'count')
结果如图10所示:
▲图10 tbd集计的小区OD
加载地图底图并调整出图参数:
# 创建图框 import matplotlib.pyplot as plt import plot_map fig =plt.figure(1,(8,8),dpi=300) ax =plt.subplot(111) plt.sca(ax) # 添加行政区划边界作为底图 sz.plot(ax = ax,edgecolor = (0,0,0,0),facecolor = (0,0,0,0.2),linewidths=0.5) # 绘制colorbar cax = plt.axes([0.05, 0.33, 0.02, 0.3]) plt.title('count') plt.sca(ax) # 绘制OD od_gdf.plot(ax = ax,vmax = 100,column = 'count',cax = cax,cmap = 'autumn_r',linewidth = 1,legend = True) # 添加比例尺和指北针 tbd.plotscale(ax,bounds = bounds,textsize = 10,compasssize = 1,accuracy = 2000,rect = [0.06,0.03],zorder = 10) plt.axis('off') plt.xlim(bounds[0],bounds[2]) plt.ylim(bounds[1],bounds[3]) plt.show()
结果如图11所示:
▲ 图11区域间OD可视化结果
在TransBigData中,我们可以对出租车数据使用简单的代码在jupyter notebook中快速进行交互可视化。这些可视化方法底层依托了keplergl包,可视化的结果不再是静态的图片,而是能够与鼠标响应交互的地图应用。
tbd.visualization_data方法可以实现数据分布的可视化,将数据传入该方法后,TransBigData会首先对数据点进行栅格集计,然后生成数据的栅格,并将数据量映射至颜色上。代码如下:
结果如图12所示:
# 可视化数据点分布 tbd.visualization_data(data,col = ['lon','lat'],accuracy=1000,height = 500)
▲ 图12数据分布的栅格可视化
对于出租车数据中所提取出的出行OD,也可使用tbd.visualization_od方法实现OD的弧线可视化。该方法也会对OD数据进行栅格聚合集计,生成OD弧线,并将不同大小的OD出行量映射至不同颜色。代码如下:
# 可视化数据点分布 tbd.visualization_od(oddata,accuracy=2000,height = 500)
结果如图13所示:
▲ 图13 OD分布的弧线可视化
对个体级的连续追踪数据,tbd.visualization_trip方法可以将数据点处理为带有时间戳的轨迹信息并动态地展示,代码如下:
# 动态可视化轨迹 tbd.visualization_trip(data,col = ['lon','lat','VehicleNum','time'],height = 500)
结果图14所示。点击其中的播放键,可以看到出租车运行的动态轨迹效果。
위 내용은 멋지네요. Python이 교통 데이터 시각화를 실현합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!