在“热概念”下“冷思考”的公安大数据

【数据猿导读】 大数据这段时间已经炒热到了极点,但是,炒概念的要远远多于落地能发挥实际作用的,在很多领域包括公安。南京世纪桥软件CEO李伟将会带我们一起冷静下来思考,大数据到底能给我们带来什么?大数据真正的现状又是什么样子以及大数据未来的发展方向

在“热概念”下“冷思考”的公安大数据

前面已经有几位专家讲了大数据的技术,还有一些解决方案,但我今天不想和大家谈技术,因为公安大大数据应用,肯定是一些成熟技术在这一行业的应用,如果需要进行底层技术的革新,就公安行业目前现状肯定是玩不了这个,刚刚小艾跟我聊天说了一句很经典的话:每一次公安行业的革新都是起源于技术,寄希望单靠技术就能够把工作翻个身,但是,最后的结果往往也是死于技术,或者说被所谓的技术给玩死了。

我在公安机关管了十多年的行业软件研发和推广应用,现在又转身成为一个软件公司负责人,可以不夸张的讲,在在座的各位老总里,我可能是最清楚公安业务的,我是从派出所民警一天天干起来的,在在座的各位公安科信部门的负责同志里,我可能又是最清楚软件如何落地应用以及商业推广模式的,因此,从我跨界这一角度看公安大数据,我经常说的就是我们一定要很清醒,很冷静。所以我为今天的演讲定了一个题——大数据的“冷思考”?

南京世纪桥软件CEO李伟

为何要说冷思考,因为大数据这段时间已经炒热到了极点,但是,炒概念的要远远多于落地能发挥实际作用的,因此,我们是不是要冷静一点,看看大数据到底能给我们带来什么?今天主要跟大家交流三个方面的内容:一是对近些年本人参与的所谓的“大数据”的实践进行一个简要回顾;二是谈谈我眼里的大数据现状;三是针对公安行业交流一些数据应用及发展方向的思考。

这些年所谓的“大数据”历程

为什么叫“所谓”,因为我自己心里很清楚,从2011年开始从12亿的车辆卡口数据中排查“套牌车”,到目前在想用算法来计算某类犯罪的发展趋势,所接触的,所使用的数据准确点讲应该是“动态的海量结构化数据”。至少跟我心目中的“大数据”还有很大的差距。为什么要做这样一个回顾,说白了,怕大家认为我是个光说不练的江湖骗子。

第一个案例,套牌车排查。就是在12亿的卡口数据中找出了三百四十五个车牌,这些车牌符合一个特征,五分钟之内在相距十公里以上的卡口被电子警察都拍到了。这是我第一次用HADOOP来进行数据预处理和分析,这是在2011年初。

第二个案例,在2012年的夏天,我忽然想看一看,坏人们登记住旅馆有没有规律,因此我找来了在押人员数据,汇聚了大约5个多亿的旅馆数据,同样用了“HADOOP+ORCLE”的套路,发现有盗窃前科的坏人都喜欢在半夜2点和凌晨六七点去开房,而且是19岁到23岁为主,还更倾向于床位数在50个以下的中低档旅馆,等等。

第三个案例,是特殊人员的监控。同样是通过车辆轨迹,判断人员的相应状态,因为这个话题比较敏感,就不详细跟大家阐述了。

第四个案例,我把它称为“流窜车”排查,简单讲就是基于存储在异地的海量数据,进行分布式的交叉比对,目标是找出发案前后1小时在A市活动的车辆,同时在4小时前后该车又在B、C等市活动,如果这些车辆的涉车人员为此类案件前科,那流窜犯罪的概率就相当大了。

以上就是前期做的一些工作,其实回顾起来也没有什么感到特别值得骄傲的,如果说这些年我们参与大数据这项工作还有那么一点点骄傲的话,那就是在这个过程中,包括一些争论中,我们逐步形成了一些行业大数据应用的思路、理念,甚至一些看起来都有点不着边际的想法。

我眼中的“大数据”现状

本人比较喜欢古诗,最近经常和我儿子一起背唐诗,我就用四句古诗来形容一下我们所面临的“大数据”现状:

第一句:天街小雨润如酥,草色遥看近却无。这是我用来形容目前大数据的整个大环境的。“天街”是什么?是京城!京城的小雨非常滋润对不对,非常美丽,国家出台的大数据发展纲要,各个部委办局都很积极,昨天在飞机上还在拜读环保部的大数据方案,但是,这些只能远观不能亵玩,落到地面,落到基层,却只能是“近却无”的感觉,为什么?缺少具体的实施方案,缺少具体的落地案例,应用层没有享受到大数据能带来什么好处,只是听到一片关于大数据的呼声。最近微信圈里都在转一篇文章,发展大数据不要一味追求数据规模大,要“应用为先”,这是李国杰院士写的。大家想一想,只要是搞IT,搞软件的都知道,我们要以应用需求为导向,这是搞软件的最基本常识,但是这个常识现在需要一个院士来呼吁,可想我们所面临的现状有多么尴尬,多么的不正常。

第二句:白发三千丈,缘愁似个长。这是我用来形容公安行业的,三千丈很长很长,诗人用了夸张的手法,公安行业的数据也在用这个手法,经常看到一个地市的汇报材料就在说,我们有两百多亿条数据,甚至可以精确到个位。且不论到底有没有这么多数据,你先能不能告诉我这个Oracle 11g的OCP,你是用什么方法把数据的条数最后累加到百亿量级的,还是过一段时间加一点来估算估算的?所以,公安行业的数据现状并不是非常的乐观,所以我们会看到一些有见识的领导在发愁,一面号称公安部门是坐在数据金矿上,但一面心底缘愁真的似个长。

第三句:我本将心向明月,奈何明月照沟渠。这是一句很有意思的诗,念到这首诗我就会想起《天下无贼》的那个桥段。这句是用来形容目前公安行业的数据管理现状的,我们经常讲,信息化是三分建设,七分应用,十分管理,十二分的数据质量。这句诗就跟后两者有关系,上级管理部门的出发点肯定都是好的,建系统,推应用,推不动怎么办?最有用的一招就是出台考核办法,不考核大家不干,但是一考核大家就开始乱干。目前公安机关的可信的数据有多少,我经常会举起一只手,非常夸张的说,不超过一只手,110报警是真的,这是老百姓打过来的,在押人员是真的,这个做假自己是也要被关进去的,还有多少数据是真实的,我们的巡逻盘查数据真实吗?暂住人口数据能反应真实的暂住人口情况吗?还有案件数据能说明社会面发案情况吗?不能!所以说,明月最后大部分都照到沟渠里去了。

第四句:竹外桃花三两枝,春江水暖鸭先知。前面三句把我们当前面临的形势说得都很悲观,第四句要涨一涨士气,当前在大数据应用的方向上,我们很多地方已经开始了积极探索的步伐。像部里的云搜索,还有那个国家啥平台,包括一些省厅,市局,都已经在开始试水大数据应用,在所有的这些探索中,我最关心的就是打击违法犯罪这一方向,群众看公安,关键看破案,公安信息化,公安大数据,首要是要解决破案问题,连坏人都不去搞,都搞不定,天天喊互联网+有什么用,天天喊为民服务有什么用,那是本末倒置。所以,从前面试水的几个案例看,也是在朝着打击违法犯罪的方向去发展。这一切都表明,公安行业的大数据春天已经来临。但是这个春天不是我们坐等能等来的,需要一批人去思考,去探索,就像刘禹锡那句诗,千淘万漉虽辛苦,吹尽狂沙始到金……

大数据下一步发展方向的思考

第一、以应用为导向。公安行业的大数据应用不是搞底层研发,是要解决实际问题,大数据在公安行业现实的应用场景到底有哪些,这是我们要好好思考的问题。结合前期实践认为,个人认为至少目前三个方向是可行的,一是规律总结,二是人物刻画,三是趋势预判。这个分类可能不是很合理,可能有交叉的地方,但是,这三个方面是具备实践条件的(具体案例略)

第二、关于数据以及来源问题。这个问题非常关键,大数据没有可信的数据支撑,就会精确误导,靠考核,靠层级压迫,靠搞大规模会战去搞数据,显然是不能满足大数据应用的需要的。目前我们具备大数据特征的数据有:1、“人车物”轨迹,时间、空间与实体形成动态轨迹,这些是很好的大数据源头;2、行为日志,这个与系统日志,数据库日志有相同之处,但又不完全相同,举个例子,我最近做了个基于手机的考试系统,十道题,是可以自己在家做的,因此所有人交上来都是满分,但是,我记录了两道题之间的时间,结果我发现第三题有80%的人都等待了一分钟以上,而其余的题都点得很快,虽然所有的人第三题结果都是对的,但是我告诉负责培训的同志,第三题是薄弱环节,很多人需要强化这方面的知识培训。这就是行为日志的作用。3、音视频,这个就不用多说了。4、传感器,没有传感器的大规模应用,就不要谈啥大数据,这是我很久以前就说的观点。5、社会民众参与。这一点很多人都没有觉醒过来,公安行业玩大数据,不能光靠自己的力量,要学会打人民群众的汪洋大海战争,找到社会公众、包括其他单位部门的利益驱动点,发动大家来参与,围绕数据做文章,特别是学会跨领域使用数据。(几个案例略),关于大数据应用的数据来源问题,我还是用一句诗来形容吧,大数据背景下的数据,都是那种带有“随风潜入夜,润物细无声”特征的。

第三、关于智库的共建与共享。发动公众参与的过程中,大家都会产生一些创意,我们要把这些创意集中起来建库管理,要进行归类、分析、优化、整合,最终形成大数据应用的一个知识库(智库),这个知识库是开放式的,大家可以去共享,可以去评价,去推荐的。(案例略)

第四、关于工具手段支撑。最关键的几个,简单算法在公安行业的落地,当前所谓的大数据应用要成功,肯定首先是“海量数据+简单算法”的成功,这是一个目前已经证实的可行套路,大数据应用在业务逻辑层面不要去想得太复杂。基于大数据的建模工具,这个就不多说了,我也一直在做这个事情,其中重点包括数据资源组织与预处理、分布式计算、流式计算等内容。还有就是模型的标准化,这个也不是一句话两句话能讲清楚的,大致意思就是大数据的模型一定要做到可复制,可扩展,可移植,这样才有应用的生命力。

最后,强调一下整体的数据管理架构。我眼中的大数据应用的整体架构,应该是一个“混搭”型模式,从最底层的,数量最多的非结构化数据,到中间层的半结构化数据,再到顶层的结构化数据,分别有不同的工具、不同的方式来处理。但一条主线就是努力使更多的非结构化数据往结构化数据的方向走,这也是人类社会依托计算机这一工具来认识世界、理解世界的一条必由之途。

最后,用我和业界一位大哥级人物的对话结束今天的分享。这位大哥说:当哪一天公安机关不谈到大数据的“大”字时,这个行业就真正理解了大数据。我说:现在我是个商人,当商人不谈到钱的时候,他就开始赚大钱了。谢谢大家。


来源:数据派

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

相关精彩内容推荐

我要评论