关于地理大数据
作者:老俞
一、地理大数据是什么?
大体来说就是把社会经济、自然资源、商业信息等但凡具有一点空间维度的数据一股脑儿拿来进行空间化处理,并和基础底图进行叠加整合,形成一种新的数据表现形式。地理大数据真正兴起大约是从去年初开始的,吸引了包括百度、四维图新、ESRI、超图等在内的众多豪门的参与。经过近两年的摸索和实践,应用方向逐渐聚集在地理商业智能领域(Geo-BI)。地理商业智能并不是一个新的概念,无非是将地理大数据和地理信息技术等地理基因注入到商业智能,说白了就是传统的数据仓库的改头换面,加入了一些地理因子,新瓶装旧酒罢了。
传统的商业智能(BI)很重视数据可视化技术,通过可视化技术使人们对数据仓库中的数据不再局限于通过关系表来观察和分析,而是以更直观的方式来看待数据及其结构关系。虽然可视化技术可以将数据的各个属性值以多维数据的形式表示,并从不同的纬度进行观察,但是它在空间维度面前缺无能为力,而地理数据可视化的出现恰好弥补了这个遗憾。
地理数据可视化充分利用了地理信息技术提供的空间数据可视化的能力,将所有的行业信息通过处理整合成地理大数据,用地图的方式进行可视化表达,以完美的姿态解决了大数据中的空间位置表达问题;同时,利用地理信息技术的空间分析能力,为地理大数据涉及到的大量的空间分析提供了处理能力,在空间维度上初步实现了大数据的分析。
看到这儿,地信专业的同学估计要忍不住噗哧得笑了:别整这些玄乎的,这不就是地图制图嘛,和平日里搞的专题数据配图一样样儿得嘛。你们说的没错,如果地理大数据的应用到此为止,那地理数据可视化和地图制图还真的区别不大。是不是很Simple?门槛很低?连我们这些普通从业者都觉得简单,资深牛人们岂会不知?于是一系列地信背景的创业公司如雨后春笋般拔地而起,纷纷入场:超图成立了“超图数据”从事地理大数据服务、地图汇升级成地图慧专注于互联网地理商业分析服务、几个从超图离开的年轻人创立了“地图无忧”专业提供地理商业智能相关服务、北京捷泰天域的智图(GeoQ)全面发力地理大数据、ESRI原技术总监王昊创立了GeoHey剑指地理在线服务……
老俞花了两周时间仔细研究了这些创业公司提供的互联网地理大数据服务,试图把握地理数据可视化的行业脉搏,然而逛完一圈后却发现情况并非和想象的一样美好……
从时间节点上看,这波地理大数据创业风应该是受去年CaroDB获风投青睐,从大洋那边儿刮过来的,在国内迅速落地,各家凭借资本的力量大肆开始跑马圈地。CartoDB和MapBox一直是我比较关注的两个在线地图应用产品,第一次使用CaroDB时被其Symbol和CartoCss给震惊了,原来在线地图制图还可以这样玩。国内类似的创业项目或多或少都有CartoDB的影子,他们提供的服务比较类似,基于在线地图应用提供地理大数据服务。当笔者在使用地图无忧、智图和GeoHey三个产品时,竟然产生了傻傻分不清楚的感觉。地理大数据服务的基础是地理数据可视化,相较于CarotDB对地图元素展示控制的细腻程度,国内的项目在地理数据可视化上下的功夫显然是不够的,粗糙得多了(坦白地说,也算够用)。他们更多地强调地理大数据的多元性和丰富性,各家争相提供种类齐全的地理大数据。
笔者产生了第一个疑问:用户自有数据的管理是不是足够了?笔者在使用的时候发现一个共性,几个平台基本只能接受Excel、CSV、Json等几类格式的离线数据,这本无可厚非。这几类格式简单明了,容易掌握。问题处在离线这个点上。离线数据意味着不能自动更新,意味着数据一次导入以后就“死”了,要更新只有两个选择:在线逐一修改或重新导入一份新数据。数据量少还好,如果数据量大呢?如果用户自有数据不是手工生成的,而是由已有业务系统自动生成的呢?数据在线更新后如何反向流回业务系统里?这些问题横亘在创业公司面前,是躲不开的。
笔者的第二个疑问:如何保障这些平台提供的地理大数据的准确性?这些数据的来源是否权威可信?提供海量的丰富的地理大数据为地理商业智能提供弹药本无可厚非,但既然是商业智能,自然得保证数据的准确性和现势性,过时的数据和不正确的数据同样都是没有价值的。国内信息孤岛普遍存在,跨部门、跨行业的数据共享并不顺畅,有价值的公共信息资源和商业数据开放程度比较低,基本处于死锁状态,无法顺畅流动。有意思的是,几个平台提供的同一类地理大数据的结果还不完全相同,显然保证第三方数据的精准度是赢得用户信任的基础。
笔者的第三个疑问:地理可视化是本还是末?传统的商业智能经过了二十多年的发展才逐步形成一套规范化的理念和运作模式,地理商业智能是一个比较新的概念,至少在国外也还没有成熟的解决方案,在国内更是新生事物。地理商业智能究竟是GEO-bi还是geo-BI?至少从国内目前几个项目来看,没有商业智能体系所必须的数据仓库、数据抽取、OLAP、数据挖掘等部件,更多的还是数据展示。GEO-bi也许已经回答了这个问题。
地理数据可视化是一个非常有意思的方向,对于习惯了生活在ArcGIS和Supermap平台商为我们构建的生态环境下的地信人来说,就仿佛是推开了一扇窗户,感受外部世界吹来的一股清风。老俞的闲言碎语看过听过就罢了,只是,地理数据可视化:Simple,Not Easy!
二、地理可视化应用的引爆点
地理可视化作为数据可视化的分支,目的是要解决大数据在地理空间维度的相关问题。从地理可视化内在的地图特性来看,我觉得,在三个应用场景可能存在引爆点:
网络制图应用、在线地理信息应用、基于特定意义的模型驱动
网络制图应用是用户最为熟悉的产品设计形态。对于广大不具备地图制图技术背景的用户,网络制图应用不仅免去了专业制图软件高昂的购置费用,还简化了地图制图表达要求,降低了地图制作的技术门槛。作为一款优秀的网络制图应用,需要具备三方面的能力:第一,帮助用户制作标准的、规范的、符合地图表达要求的地图;第二,能够尽可能多的兼容用户自有的数据格式,并且能引导用户分析和制作有意义有价值的地理可视化产品(通过场景模板或地理分析业务模型);第三,能衔接用户最终使用的真实应用场景,比如用户创作的地图产品能够导入excel/word等常用软件和。网络制图应用的另一种模式是地图中间件的形式和某些特定行业的专业软件(如金融行业/ERP软件)进行集成耦合,满足它们对空间数据的处理和表达需求。
在线地理信息应用以SaaS的形态向用户提供专业的地理可视化服务,它隐藏了复杂的地理数据分析过程,把最终结果简洁直观的提供给用户。在线地理信息应用产品的一种服务方式,是在满足基本的地图设计原则上,引入地理分析技术,比如:商业选址/路线动态规划等;它的另一种服务方式是垂直业务模式,通过关注某类或某几类行业的业务数据和业务需求,在线提供一套完整的业务解决方案,满足大部分用户基本的业务需求。实际上,网络制图应用和在线GIS服务正在慢慢的改变地理可视化和空间数据的生态环境,它们的未来发展目标是成为大众可以使用的门户服务之一,可以集成或者混搭到其它众多应用中去。
基于特定意义的模型驱动是从地理大数据的大数据特性出发,强调大数据的规律发现和趋势预测的能力。地理可视化的一个重要作用是基于地理空间数据可视化效果,为用户提供辅助决策,引导用户进行形态预测。也就是,基于地理大数据(复杂散乱的带有业务特质的空间数据),抽象出业务特征维度,基于各种数据挖掘和分析形成客户画像,最终对客户人群的行为做出预测。地理数据的空间描述永远是简单的X/Y/Z或标准地址编码,而业务数据则是纷繁复杂各不相同。空间数据和业务数据的结合点就是空间位置,利用数据融合技术(海量数据清洗/处理/挖掘)融合两种不同数据类型。基于一套符合行业业务需求的具有特定意义的业务模型,驱动数据在业务通道中流动,最后形成一个对真实数据背后隐藏的复杂关系有显性指导意义的结论。
三、优秀的GISer到底在哪里
地理信息行业年度论坛
ESRI、超图、泰伯传媒(3SNews)每年都会举办行业交流论坛。论坛围绕地理信息生态环境展开。每一年的论坛都会按照主题分成几个会场,邀请行业内的一些名角大腕进行专场汇报。你需要做的就是挑几个感兴趣的主题,然后进入会场;当汇报开始时,坐到观众席的中后排位置,观察前排的情况。通常嘉宾汇报尾声会安排互动交流,优秀的GISer有时会向嘉宾提出一些经过思考的问题,他们就是你的目标;汇报结束后,用你擅长的方式去认识他们,互加微信。再往后,就看你循循善诱的本事了。招聘本身其实是一个认识比自己优秀的人的过程。
ESRI/超图开发者大赛
ESRI、超图每年都举办高校地理信息开发者大赛,吸引了很多在校GISer参与。公司举办大赛的目的固然为了培养更多的大学生使用自家产品,但客观上确实带动了一批大学生GISer投入到地理信息技术应用里去。我看过几届大赛获奖的项目资料,很有意思。这些项目本身没有太过复杂的技术门槛。参赛大学生尚未涉及具体行业,项目灵感脱离行业需求,聚焦在地理信息技术应用本身,反而不落俗套,让我们这些内行人眼前一亮。多看看这些大赛的获奖项目,和这些参赛选手建立联系,等他们临近毕业的时候吸引他们加入公司。
GitHub开源项目
网上流传着一句话:程序员遇到技术问题时,三流的上百度,二流的上StackOverflow,一流的上GitHub。最近一两年,我发现在GitHub的Comments里写博客的人越来越多,而且博文质量普遍很高。GitHub上国内GISer开源的项目比较少,Watch和Fork的多些。我一直用GitHub,Follow了一些著名的项目,如:Openlayers/Leaflet/MapBox等等。ESRI近年来为了让ArcGIS平台适应技术的发展,开源了很多项目,如:esri-leaflet、bootstrap-map-js、gis-tools-for-hadoop等等。当你关注和使用这些项目时,会发现其实周围有很多GISer,大家通过技术交流的方式增进了解和信任。我的微信组里有许多GISer是从GitHub上认识的,这些人中间有些或许就是未来的同事和朋友。
