对话“大数据抓小偷”研究者  :提高精准度依靠更多数据

admin2018-06-03 20:12:26

 

(原标题 :对话“大数据抓小偷”研究者 :提高精准度依靠更多数据)

新京报快讯(记者王梦遥)近日 ,大数据抓小偷的一则新闻受到了不少关注。报道称  ,美国罗格斯大学熊辉教授等人的一项研究成果显示,绝大多数乘客乘坐公交或地铁出行 ,都会选择最优出行方案 ,但极少数人的乘车线路很奇怪,如果某人的异常行为足够多 ,他就有可能是小偷 。

报道显示,研究人员分析了北京市2014年4月至6月间约16亿次公交卡刷卡数据记录,共涉及约600万名乘客 。他们在北京建立有896条公交路线  、近4.5万个公交车站与18条地铁路线 、320个地铁站的公共交通网络数据集 ,通过数据建模从庞大的公交卡记录中过滤掉普通乘客;第二步 ,结合从警方报告和微博上收集到的失窃信息 ,通过机器学习算法从异常出行信息中挖掘出潜在的小偷 。

结果显示,用后来确认的小偷验证,按上述方法可以归为行为异常的准确率高达92.7% 。但是反过来的精准度有点低:每筛选出14个行为异常的可疑者 ,只有1人后来被确认为小偷。

大数据抓小偷的流程究竟是怎么样的?怎么把行动异常的正常人跟小偷区分开来?目前跟国内警方开展合作的情况如何?带着这些问题,记者今天专访了美国罗格斯新泽西州立大学罗格斯商学院管理科学与信息系统系正教授熊辉 。

医生在给一个病人看病时,要先听病人有什么病症,然后做化验 ,通过化验结果初步判断大概得了什么。俣灾⑾乱┲瘟  。我们做数据分析的流程一样 ,想用公交数据抓小偷 ,先要有分析的数据,也要提取相关的特征 ,就是什么样的乘客能反馈这个人是小偷 。

我们假设小偷跟绝大多数人的行动轨迹是不一样的 ,绝大多数人是规律的,周末可能会有些变化;但是小偷不符合这样一个规律,我们就要提取小偷的规律 ,他可能呆在地铁里很长时间 ,另外换站比较频繁  。

所以第一步是找出行为异常的公交卡,因为小偷的行为肯定是异常的;但不是所有异常的都是小偷  ,否则会有很多的虚假报警,把这部分人抽取出来之后 ,一小部分人被分离出来了。我们建立一个监督预测模型 ,就用到了北京一个反扒微博中已经公布的小偷信息 。用这个可以验证哪些是真正的小偷。

先把行为异常者抽取出来 ,然后建立一个预测模型 ,跟微博上通报的信息进行匹配  ,根据已经被证实的小偷的情况 ,判断谁是小偷 ,这些特征再放到学习模型中 ,就可以知道哪些是小偷、哪些是其他人 。

这需要用到已被验证的小偷信息 ,然后回过去看他们公交卡的运转规律  ,然后提取出来  。

其中有两个特征可以帮助我们判断 ,有一个我们没有写进研究报告中  ,就是小偷用的卡经常是偷来的,这张卡以前的运转规律是正常的,突然从某天开始变得很不规律 ,当我们发现有一张卡从规则行为变成不规则行为时,这个人是有嫌疑的。

另外一个规律就是小偷基本上是团伙犯罪 ,当这种不规则性又呈现出共性的时候 ,比如我们有1000张行动不规律的卡 ,其中有3张异常行动规律表现得高度一致 。

有可能 。所以我们的判断不能仅依赖一个特征 ,而是需要多个特征综合判断 ,这些特征会帮助我们建立一个系统,最后的结果是根据很多特征判断出来的。

这涉及到召回率和精确度的问题 。假设北京每天有1000万个乘客 ,其中有2000个小偷 ,我们首先要圈个大圈圈出2万人 ,保证绝大多数小偷都在2万人中 ,这就是为什么我们能得到92.7%那么高的比例  。但是反过来说 ,如果2万人里只有2000个小偷 ,10个人中会有9个是误报  。

但如果我们在实践过程中能拿到更好的数据  、更多的样本 ,结果可以不断改善 ,可能我们圈出来的只有5000人  ,这时候误判率就会降低很多 。这其中是有改进空间的 。

现在我们处于推广的阶段,很多地方的公安机关跟我们联系,比如广州和杭州等等  ,打算10月份去看看他们的数据和我们接口的情况 ,我们开发的系统能不能跟他们接上 。但是现在还处于接触的阶段 。

第一是数据的质量,包括数据搜集的历史有多长、完整度有多高 、数据搜集过程中会不会有缺失的情况  。第二是跟公安的联系协作情况 ,包括系统的搭建 、经费支出 、落地单位等。

因为抓小偷肯定要抓现 。颐巧杓频氖欠⑾忠徽趴ㄓ邢右 ,一刷进去我们就能监控到,站里的摄像头可以拍到嫌疑人的长相,反扒手可以跟上。这个工具的好处是给反扒手一个定向的对象;另外可以告诉你哪几个人可能是一伙儿的 ,抓到一个人之后可以拿他的数据到系统里去做校验。

编辑 :李丰倪雪莹

(原标题 :对话“大数据抓小偷”研究者:提高精准度依靠更多数据)

阅读列表

推荐

最新发布

xQaBsbWohN5GbYyeXY7Sc8CDxczCH7ms02mcqWTnSwKYFD87uYj37BXxKuHkpXUSQXZLqaAQAOZwbQUd8vNM6hZ2M3MeXs6bfQsWcAyRUYdsHMwKmVqRhIFd