站在互联网+风口上:百度地图背后的大数据能飞起来吗
在互联网+热潮下,谈的火的话题之一是大数据,而在大数据领域做得风生水起的当属百度和阿里了。从世界杯预测、高考预测、到奥斯卡奖项预测,百度大数据吊足了大家的胃口,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,可以收集到移动互联网用户海量得出行数据,百度迁徙更是在春节期间一炮走红,百度热力图、百度天眼等产品也相继出世。天地之间,无论何时何地,我们的世界都漂浮着海量的时空大数据,站在互联网+的风口上,这些时空大数据能飞起来吗?它们究竟有哪些用武之地呢?本期名人堂皮皮邀请到了百度研究院大数据部实验室数据科学家吴海山坐镇,为我们揭晓百度大数据的神秘面纱。
皮皮(Q1):您好!很高兴有机会采访到您,我了解到您此前在IBM研究院从事商业数据的研究与优化,现在负责百度时空大数据的挖掘研究,那很多人可能对时空大数据感到困惑,究竟什么样的数据是时空大数据呢?您觉得IBM的大数据和百度的大数据来源有啥区别?
吴海山(A1):所谓的时空大数据(spatial-temporal big data),指的是随着时间变化的空间数据,为典型的就是人出行时产生的历史轨迹,根据轨迹我们就可以知道你什么时候(时)出现在什么地方(空)。近年来,随着移动互联网的普及,有定位传感器的智能手机覆盖面也越来越广,每天会不断产生海量的人为位置数据,也就是时空大数据。
大数据可是说是IBM炒红的一个概念。IBM主要以提供商业解决方案为主,主要的客户来自交通、电力和银行等行业。从某种意义上来说,IBM本身不产出数据,主要提供对数据的存储硬件设备和相应的数据分析软件平台。和IBM不同的是,百度是一个互联网公司。放眼望去,网民每天可产生近百亿的搜索,像百度地图、百度搜索等都产生了海量的数据。
皮皮(Q2):今年春节前夕,业界以“人群迁移”为主题的大数据可视化项目---百度迁徙精彩亮相了,有人把它比喻成上帝的视角来看待大数据的魅力,大家可以实时查看人口的流动情况、查询实时航班信息、还能嗅探到火车站和飞机场热度等,这些以yanhua般美丽炫酷的信息图背后到底用到了百度哪些技术呢?
吴海山(A2):百度迁徙是一个非常棒的项目,尤其是今年的百度迁徙还加入了百度天眼的航班信息、火车站信息等,效果非常炫。我本人并没有参与到这个项目,所以无法对具体的技术细节做讲解。不过总体来讲包括这样几个部分:其一,后端实时流数据的传输和计算。每天由百度地图产生的各种数据量非常大,百度迁徙需要尽量缩短数据的清洗、处理等带来的时间延迟,百度拥有自己强大的流计算平台;其二,前端的数据可视化技术。这个用到了百度自己开发的Echarts,可以高效的呈现可视化时空数据。
皮皮(Q3):百度地图覆盖500万公里路网和95%的高速公路,支持337个地级城市高清卫星图和热力图服务,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,它是如何做到数据的实时定位的呢?我们知道百度推出的很多O2O服务都以百度地图作为流量入口,比如天气应用、同城类应用等第三方应用能不能和我们分享下百度地图发力O2O的案例?
吴海山(A3):百度拥有自己研发的定位SDK,可以通过多种方式,如通信基站、GPS卫星 、WIFI等方式在不同情景下实现的实时定位,当然不同的定位方式,精度有所不同。
作为百度研究院的大数据实验室(big data lab, BDL),我们主要结合公司的长期战略,进行相对前沿的研究,孵化相关有潜力的产品demo。比如我们近有一个关于智能化、个性化的地图搜索技术,当大家在百度地图上搜索“某某饭店”时,我们会根据用户的历史位置检索偏好等信息,准确预测用户到访该饭店的时间,然后饭店可以提前为用户排号、检查停车位等服务,并根据到访的用户量优化资源配置,从而实现打通线上、线下服务。我们还推出了算法,可以预测用户下一个要搜索位置的类型,超前一步,将用户想找的位置放在前面,通过预测性位置搜索(predictive location search)提高用户的体验。
皮皮(Q4):百度在大数据上动作频频,比如世界杯预测、高考预测、奥斯卡预测吊足了大家的胃口,春节期间百度迁徙更是一炮走红,百度热力图、百度天眼等产品也相继出世,而支撑这背后的团队无疑归功于像您一样,一群百度研究院大数据实验室的工程师们,能否和我们介绍下百度研究院大数据实验室?您们在研发诸如上述的百度大数据产品时有哪些创意和趣闻轶事呢?
吴海山(A4):百度研究院(Baidu Research)有三个实验室,除了我们的大数据实验室(BDL), 还有深度学习实验室(IDL)和在美国硅谷人工智能实验室(AI Lab)。研究院的院长是Andrew Ng博士,我们实验室的主任是的机器学习科学家张潼教授。除了时空数据的研究,我们实验室的研究方向还有智能预测引擎(如百度高考预测、世界杯预测等)、大规模机器学习算法研究、智能医疗等方向,实验室的主要成员都是来自国内外的知名研究院所。作为公司的研究部门,我们本身并不负责一个完成产品的开发,更侧重根据研究成果开发prototype,然后会有相关的产品部分负责产品化。
皮皮(Q5):我国人口众多,重大文体活动、节假日集hui等活动中,容易出现因人群过度拥挤而引发的危险乃至事故。那么百度大数据是否可以提前预测,做到事前预警呢?请结合上海踩踏事件谈谈您的想法。
吴海山(A5):说起人群拥挤的研究,还要从我在普林斯顿的博士后研究说起。我一直对自然界的群体行为十分感兴趣,当时主要研究的就是鱼的群体行为,就是想探索为什么鱼可以成群的游泳、背后有哪些玄机?有个非常不错的研究成果,近刚刚发表在美国科学院院刊(PNAS)上,我们通过计算机视觉、机器学习的方法探索了信息在鱼群中的传播机理。对于人群来讲,行为其实更加复杂。尽管国内外也有不少学者对人群的异常行为做了很少研究,但是要说预测,还是非常非常困难的事情。我个人觉得,我们多能做的是可以提前发现异常,进行预警还是相对可行的。
上海外滩发生踩踏悲剧后,1月2日,我们实验室就在用百度的定位数据进行了可视化分析,然后负责开展与百度大数据的外滩踩踏事件分析。通过和其他几位同事一起尝试融合百度的多个数据源,试图还原当时的场景,看是否可以在事后寻找一些可以对将来有帮助的线索。根据我个人的研究经验,发生踩踏事情基本是难以预测的,国内外都发生过多次这样的悲剧,比如当时很多媒体报道认为,由于人多导致了悲剧,我们的分析结果表明,南京东路附近同样达到过类似的人群密度,但却没有发生悲剧。我们当时的研究也主要集中在预警而不是预测上。根据我们的研究,我们发现通过融合多个数据源,是有可能进行预警的:我们发现用户在去目的地之前,会提前使用百度地图进行搜索,进行路径规划后,到达现场,这个时间的提前量在半个小时到两个小时不等,我们还用了鸟巢、首体等地点大型活动的数据进行了验证,也发现了同样的现象。而且地图位置的搜索量和人口定位量也高度相关,这意味着我们可以提前预测人口流量。如果人口流量超过一定阈值,相关部门则可以进行提前布置警力等来预防。此外,我们还研究预测算法,来更准确的预测人流量。目前我们正在开发该产品,希望将来百度大数据能为公共安全贡献一份力量。
皮皮(Q6):被誉为互联网下一个入口的是LBS,百度、阿里、腾讯三大互联网巨头纷纷在地理位置服务领域加大了布局,互联网地图的“入口”之争将会愈演愈烈,高德地图对百度地图步步紧逼,百度LBS开放平台横跨了Web端、移动端、服务端,能否和我们谈谈百度LBS有哪些优势?
吴海山(A6):时空大数据挖掘作为我们实验室的一个重要研究方向,产出的研究成果,将会为百度LBS提供强大的“百度时空大脑”:比如我们重点研究的个性化和预测性的位置搜索(personalized and predictive location search)将可以服务百度地图搜索;我们对基于百度大数据的公共安全领域的研究,将可以帮助百度LBS在将来拓展该领域的市场;我们还有一些更加前沿的项目研究,这些研究结果不但可以更好的理解百度用户的行为,实现更加智能的人与服务的链接,还可以让公众看到,这些研究在将来受益所有的中国人。通过数据洞察当今的中国,是我们的使命。
相关文章