首页 > 范文大全 > 正文

RFID匹配数据的有效性分析和统计检验方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇RFID匹配数据的有效性分析和统计检验方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:交通数据的有效性分析和检验是提高智能交通系统应用效率的重要基础之一。本文针对rfid匹配数据,结合南京市建成的RFID交通数据采集平台,系统进行了RFID匹配数据有效性分析,并提出了基于统计技术的RFID匹配数据有效性检验方法。算例表明提出的方法可检测出异常RFID匹配数据。

关键词:RFID匹配数据;异常数据;数据有效性析;检验

1 背景

城市化和机动化的迅猛发展,使得城市机动保有量日渐增加,随之而来的是城市范围内的交通拥堵现象,降低了城市交通系统的运行效率,严重影响了城市居民的日常工作和生活。为了应对城市交通拥堵问题,基于先进技术应用的城市智能交通系统建设得到了广泛的关注,发展迅猛。如结合2008年北京奥运会建立了北京奥运智能交通管理与服务综合系统;结合2010年上海世博会建立了上海世博智能交通技术综合集成系统;结合2010年广州亚运会建立了广州亚运智能交通系统及应用,一方面为上述重大体育比赛或文化盛会的顺利完成发挥了保障和支撑作用,另一方面,又形成了一系列的解决我国城市交通拥堵的研究成果和技术解决方案。

和传统的交通系统相比,广泛的交通信息采集和处理是智能交通系统独有的特点。在智能交通系统建设过程中,已经有一系列的交通检测技术得到了应用,如传统的磁感应线圈技术、微波检测技术、视频检测技术等,并在城市智能交通系统的建设领域获得了广泛的应用。随着信息采集和处理技术的进一步发展,当前以RFID(Radio Frequency Identification)技术为典型代表的基于物联网技术的城市交通信息采集技术日益发展,并已经在一些城市得到了应用,如南京已经建成的基于RFID技术的城市交通信息采集平台,可以采集到每一辆车的通行信息和特征信息,形成了海量的交通数据库,奠定了交通分析和信息挖掘的基础。

然而随着信息处理技术的不断发展,城市交通系统领域虽然已经相继建立了大量的信息系统,积累了海量的交通数据,但是很多系统出现了“数据丰富,信息贫乏”现象,数据质量不高是原因之一,主要表现在交通数据库中存在相当数据的错误数据、缺失数据和可疑数据等三类问题[1-2]。为了应对上述数据质量问题,数据有效性检验技术应运而生。本文以目前领先的交通数据采集技术RFID技术为研究对象,分析RFID匹配数据的有效性,并提出基于统计技术的RFID匹配数据有效性检验方法,以为后续的RFID数据挖掘和分析提供数据支撑。

2 交通数据采集和有效性检验综述

2.1 交通数据采集方法

城市交通运行状态的实时采集技术,或城市交通运行状态的实时感知技术是构建有效的城市智能交通系统的基础。常用的道路交通状态采集方法如下所述。

⑴感应线圈。感应线圈是一种常用的道路断面交通数据采集技术,其原理是通过预埋在道路面层下的感应线圈感知通过的车辆,并计算交通状态数据,主要包括断面流量,交通流断面速度,占有率,其优点是技术成熟,成本较低,可以探测到所有经过感应线圈的车辆数据,缺点是须埋入路面,维护困难,受自然和车辆影响较大;并当车辆拥堵严重时,检测精度下降。

⑵微波检测器。微波检测器是一种常用的道路断面交通数据采集技术,其原理是通过车辆的反射回波分析进行车辆检测,优点是在路侧安装,不影响路面,维护方便,在车流较为均匀稳定时准确度较高,缺点是在拥堵路段或者车流不稳定路段检测精度较低,特别是在有大车遮挡时检测效果不理想。

⑶视频检测器。视频检测器是一种常用的道路断面交通数据采集技术,其原理是通过视频摄像机作为传感器采集交通视频,并在视频采集范围内设置虚拟检测区,通过视频背景值的变化来检测车辆,优点是路侧安装,不影响路面,价格便宜,缺点是易受恶劣天气、灯光和阴影等环境的影响。

⑷浮动车。浮动车是一种常用的路段交通数据采集技术,其原理是通过在车辆上配置位置检测器如GPS等,实时检测车辆的行驶轨迹,并计算路段交通状态数据,其优点是交通数据准确,可以直接计算路段交通数据,缺点是交通数据采集样本受到检测车辆的限制,难以构建整体交通状态数据库。

⑸车牌匹配。车牌匹配是一种基于图像处理的路段交通数据采集技术,其原理是通过视频检测等技术,在路段两端进行车辆车牌特征匹配,从而获取路段交通状态数据,其优点是可以获得较多的路段交通状态数据,一旦匹配成功,数据准确度较高,同样,其缺点是车牌匹配受到车牌检测技术限制很大,在复杂交通环境下难以实现有效的车牌识别及匹配。

上述传统的交通数据采集技术侧重于对交通流信息的采集,对单个车辆信息的关注整体上来说不高;虽然个别方法如车牌匹配技术考虑到了车辆的识别信息,但上述识别信息受到图像处理技术和复杂交通环境的限制,仍需采用更加先进的技术加以完善和提高。物联网技术,特别是以RFID技术为代表的车辆网技术发展,为单一车辆特征数据的采集奠定了技术基础,使得车辆信息和车流信息的综合采集成为了可能,为实现道路交通系统的综合感知提供了前提。

2.2 交通数据有效性检验

数据检验技术最早出现在美国,初期主要是针对全美社会保险号,取得了良好的效果。在交通数据有效性检验领域,由于交通数据采集方法的限制,主要是针对基于线圈的交通数据,常用的检验方法主要包括逻辑检验方法,阈值检验方法,基于交通流理论的检验方法,综合检验方法等[3-6]。逻辑检验方法是检测交通数据中的一些明显的逻辑性错误,如数据采集时间漂移、重复记录等,可以通过人工观测的方法实施。阈值检验方法是常用的一种数据有效性检验方法,其主要的原理是根据历史交通数据资料、经验公式或者交通流的基本理论,确定交通流参数的可能的取值范围,如流量、占有率或者速度等,并根据上述确定的范围的采集到的相应交通流参数进行检验,认为落在预定范围的交通流数据是可疑的。这个方法简单易行,但是阈值的确定往往受到多种因素的影响,在不同的情况下需要进行特定的研究。基于交通流理论的检验方法的基本原理是交通参数之间应当满通流理论的规定性,如交通流量、密度和速度的三参数模型等,在出现不满足上述交通流模型的情况时,所采集到的交通流数据是可疑的。综合检测方法是将阈值检测和交通流理论检测等方法综合应用,以寻找交通流数据样本中的更加隐蔽的可疑数据,常用的如最大密度法和平均有效车长法等。

在RFID数据有效性检验方面,当前的主要研究内容是针对RFID的原始数据流进行有效性检验,主要方法有滑动窗口方法[7]、时序关系法[8]、自适应时间阈值法[9]等,然而在基于RFID技术的交通数据有效性检验方面还处在初级的阶段,研究成果并不多见。

3 RFID技术与RFID匹配数据

3.1 RFID技术

无线射频识别技术(简称RFID)是一种非接触式自动识别技术,其基本原理是利用射频信号或空间耦合(电感或电磁耦合)的传输特性,实现对物体或商品的自动识别,被广泛应用于物流、供应链、动物和车辆识别、门禁系统、图书管理、自动收费和生产制造等领域。RFID射频自动识别技术由电子标签(Tag)、阅读器(Reader)和数据交换与管理系统(Processor)三大部分组成。当携带电子标签的物体在距离0~10米的范围内接近阅读器时,阅读器内部控制系统控制阅读器发出微波查询信号;安装在物体表面的电子标签收到阅读器的查询信号后,将此信号与标签中的数据信息合成一体反射回电子标签读出装置,反射回的微波合成信号已携带有电子标签数据信息,阅读器接收到电子标签反射回的微波合成信号后,经阅读器内部微处理器处理后即可将电子标签贮存的识别代码等信息分离读取出,进一步传输到数据交换和管理系统存储,也可以通过相应接口导出至数据库进行第二层面的处理。

RFID技术最大的优点在于非接触,在完成识别工作时无需人工干预,适用于自动化系统,概括起来,RFID技术具有以下特点:1)识别精度高,可快速准确的识别物体,2)采用无线电射频,可以绕开障碍物,并透过外部材料读取数据,可工作于恶劣的环境中,3)可以同时对多个物体进行识读,4)储存的信息量大且信息可加密保存,是一般条形码存贮信息量的几十倍,甚至上百倍。

3.2 RFID匹配数据

RFID原始数据包括每辆装有RFID标签的车辆通过各RFID基站的过车数据,包括通过该基站的时间和RFID标签中存储的准确的车辆信息,如车牌等。利用传输系统将读写器采集到的车辆信息传回到交通信息中心后,基于RFID基站采集到过车车牌号和车辆通过时刻,针对任意一组和路网相匹配的RFID基站对,可以匹配得到每一辆车通过该RFID基站对的平均行程车速,此类由相邻基站匹配而得到的数据称为匹配数据。值得说明的是,在RFID匹配数据的计算过程中,RFID基站对的构建是基础,必须考虑到路网的几何拓扑结构,在进行车流方向分析的基础上,形成以RFID基站对为基础的完备的RFID基站网络。

可以看出,上述RFID匹配数据的计算是基于RFID技术的交通数据采集系统中的关键环节之一,其匹配数据直接体现了每一车辆的行驶状态信息,为进行进一步的数据处理、获得其他交通数据参数奠定了基础。在上述过程中,由于交通路网和交通驾驶行为的复杂性,RFID匹配数据往往也存在和传统交通数据采集方法相类的数据质量问题,需要加以分析和检验,提高RFID匹配数据的有效性和质量。

4 RFID匹配数据有效性分析和检验

如上所述,高质量的交通流数据是智能运输系统得以实现预期功能的基础。RFID技术作为在智能交通数据采集技术的最新发展,具有快速获得大量车辆信息的特点,其中RFID匹配数据是其中最为基础和重要的数据。为了提高RFID匹配数据的质量,有必要对RFID匹配数据进行有效性分析和检验,以提高数据集质量,奠定后续数据挖掘和分析的基础。以下以南京市建设的基于RFID技术的交通系统采集平台为对象进行RFID匹配数据的有效性分析和检验。

4.1 RFID匹配数据分析

⑴数据选择。RFID匹配数据的选择包括RFID基站对的选择和分析时段的选择,如下所述。

1)选取基站对:根据基站所在道路的不同类型和交通状况,选取RFID样本基站对。路段类型主要选取主干道、次干道和支路3类,交通情况选取拥堵、交通量较大、自由流3种情况,则共选取3*3=9种情况下的基站对,各选取5个基站对,共45个基站对。在选取时要注意选取有视频的基站对,以对比查看道路交通状况。

2)选取时间段:选取高峰、平峰、夜间三种情况的时间段共2小时,如7:30-8:00,14:00-14:30,1:00-1:30。

⑵实例分析。在选定数据的基础上,采用如下步骤进行数据的分析,即调取每个RFID基站对在某一时间段内各匹配数据经过起终点基站的时刻数据,逐个查看其时间差t,若t

1)绕路导致行程车速为负值。分析发现在RFID基站对(6117,6115)在2012/10/23日14:00-14:20内的过车数据中,“苏0001”的行程车速为负值,明显是错误数据(为保护驾驶人隐私,本文对车辆牌照信息加以隐藏处理,下同)。追踪该车在当日17:30-17:50的过车路径情况如下图1所示,可以看出,该车辆依次经过RFID基站6117和6115后,因两次调头,又经过了RFID基站6116,并再次经过了RFID基站6117,在数据匹配时,由于RFID基站检测技术在路段上基站检测范围外的检测和跟踪盲点,将通过RFID基站6115的时间和第二次经过RFID基站6117的时间进行了匹配,导致了行程车速为负的情况。

2)绕路导致行程车速过小。基站对(6024,6026)在2012/10/23日17:30-17:50的过车数据中的速度分布如图2。通过视频跟踪发现当时该基站对间路段的交通状况为轻微拥堵,大部分数据是与交通状况相符的,但有3个小于10km/h的速度值与其他的数据相比偏小,需进一步分析。

选取最小值,即牌号为“苏0002”的车辆的行程车速5.76km/h进行分析,追踪该车牌在当日17:30-17:50的过车路径情况如下图3,可以发现该车辆在经过起点基站6024后,又经过了另外两个站点后才经过终点基站6026,存在绕路的情况,导致其经过基站对(6024,6026)的行程车速偏小,不能很好的代表该路段的交通状况,需要检验处理。

⑶总结。在进行大量实证数据分析的基础上,总结形成RFID匹配数据异常数据分析总结表如表1。

4.2 基于统计的匹配数据检测

在大量RFID匹配数据分析的基础上,提出基于统计分析的匹配数据有效性检验方法,实现对RFID匹配数据的有效性检验。

⑴算法原理。由于交通流的渐变特性,在固定时间段内道路上的车辆车速分布相对连续,这也就说明匹配车速的分布不可能在短时间内出现大幅度的偏差,针对这种状况可以采用统计的方法对匹配车速进行有效性检验。根据RFID匹配数据的连续性特征,提出利用统计分布模型对匹配车速进行有效性检验,针对RFID基站对在固定时间段内采集到的车辆车速计算其均值μ和方差σ,并假设上诉车辆车速符合正态分布,所以根据正态分布的性质,构建(μ-2σ,μ+2σ)区间作为有效的RFID匹配数据范围,其中95%的RFID匹配数据将落在该区间内,而将落在该区间之外的RFID匹配数据作为可疑的数据加以处理。除此之外,考虑到城市交通速度的可能范围,选取120km/h作为城市交通流速度的上限。综上所述,基于统计技术的RFID匹配数据有效性检验步骤如下:

1)获取RFID原始数据。2)选定某一时间段和RFID基站对,获取RFID匹配数据,计算车辆的行程车速。3)计算RFID匹配数据的行程车速的均值μ和方差σ。4)根据均值μ和方差σ确定阈值。5)根据阈值,检验该时间段内该RFID匹配数据的有效性:若v1120km/h,则v1属于错误数据;若μ-2σ< v1

⑵算例。以基站对(6095,6096)的17:59:00-18:00:00时间段内RFID匹配车速作为样本进行检验实例分析。在选定的基站对和时间范围内,共有9个速度样本如表2。

根据表2数据计算出匹配车速的均值μ=34.64km/h,方差σ=13.91km/h,从而得到该时段匹配车速的阈值范围为(6.82km/h,62.46km/h),并根据该范围筛选出车牌苏0010的匹配车速为异常数据。通过对该路段在该时间段内的视频观察,可以发现该路段交通流在高峰时段17:30:00至18:30:00间缓慢前进,车速稳定在较低水平,不可能出现大幅度的跳跃,确认苏0010的匹配车速为异常数据,验证了算法的有效性。

5 结论

以RFID技术为典型代表的物联网技术将提高智能交通系统的数据采集效率,构建海量的交通数据库。然而,上述数据库的有效分析和信息挖掘要求RFID数据具有较高的质量。本文在阐述相关的交通数据采集和有效性分析方法的基础上,针对RFID匹配数据,结合南京市建成的RFID交通数据采集平台数据,系统进行了RFID匹配数据的有效性分析,发现各类RFID匹配数据异常现象,并结合现场视频深入分析了异常的原因;同时,在进行RFID匹配数据有效性分析的基础上,利用统计技术提供了一种RFID匹配数据有效性判别方法,并给出了实际的算例,结果表明,所提出的有效性算法可以检测异常的RFID匹配数据。

交通数据的有效性分析和检验是提高智能交通系统应用效率的重要基础之一。在RFID交通数据采集技术领域,由于RFID交通采集技术的应用尚不广泛,在该方向的研究还处在起始阶段,本文的研究成果将推动该领域的研究发展。

致谢

本研究受到国家科技支撑计划课题No.2011BAK21B01《南京城市综合智能交通系统关键技术研究及应用示范》资助。

[参考文献]

[1]耿彦斌,于雷,赵慧.ITS 数据质量控制技术及应用研究[J].中国安全科学学报,2005,15(1): 82-87.

[2]王晓原,张敬磊,吴芳.交通流数据清洗规则研究[J].计算机工程,2011,37(20):191-193.

[3]秦玲,郭艳梅.吴鹏.断面交通检测数据检验及预处理关键技术研究[J].公路交通科技,2006(11):39-41.

[4]Turochy R.E and Smith B.L.New procedure for detector data screening in traffic management systems[J].Transportation Research Record,2000,No.1727:127-131.

[5]Jacobson L.N.,Nihan N .L.and Bender J.D.Detecting erroneous loop detector data in a freeway traffic management system[J].Transportation Research Record,1990,1287:151-166.

[6]Chen C.,Kwon J.,Rice J.,et al.Detecting errors and imputing missing data for single-loop surveillance systems [J].Transportation Research Record,2003,No.1855:160-167.

[7]周兴强.RFID数据流清洗技术及其系统实现[D].大连海事大学,2011,5:1-8.

[8]王霞,玄丽娟,夏秀峰.基于时序关系的RFID不确定数据清洗算法[J]. 辽宁大学学报,2012,39(2):159-161.

[9]潘伟杰,李少波,许吉斌.自适应时间阈值的RFID数据清洗算法[J],制造业自动化,2012,34(7):24-27.