09-01

大数据的突破

在不久之前,大数据分析的概念只是一个梦。通常用SQL语言来写的传统数据库将数据存储在表格和条形图中,但当存储诸如电子邮件和短信这样的文字流时就变得很有限,并且不能处理图像和视频。

新型数据库在2009年年末开始出现,如MongoDBCassandraSimpleDB没有那些限制并能让分析者对数据建立查询。

这种 NoSQL(not only SQL)数据库,使公司分析庞大的数据变得不同于以前,即使它们是传统的。例如,Verisk Analytics的风险顾问分析师对上百万顾客记录运用不同模型和分析方法帮助确定保险诈骗索赔。

Cerisk公司的副总裁兼信息主管佩里·罗泰拉(PerryRotella)说,在InternationaBussiness Machines上使用传统DB2数据库是“耗时6小时的工作”,要工作一晚上。分析师要时刻盯着结果并建立查询,不然就要重做。他说,每次都要耗费几周的时间,分析师需要建立一个新的统计模型。公司近期转型向NOSQL数据库了,这使分析师在30秒内就能运行查询。

最近开发的程序自然语言处理和机器学习依赖于电脑程序自身去寻找图样,甚至是分辨上下文中模棱两可的词汇。使用自然语言处理程序可以使程序识别出“炸弹”是指一个百老汇喜剧,而不是恐怖分子用的东西。

直到最近,复杂的电脑程序需要在昂贵的硬件上运行,比如大型主机计算机。如今一个由雅虎研发、谷歌提供技术支持,以孩子的玩具大象命名的Hadoop 开放资源软件框架,使查询由程序自身完成。

不同的分析任务分配给了许多廉价的服务器,当任务完成时的重组查询前面每个服器解决问题的一部分。将复杂的查询交给成本低廉的电脑服务器完成,使人们更快地解答各种问题。

网上汽车市场Edmunds.com能帮助汽车交易者通过与出厂时相比车标、型号等特征,预测交易的车辆能留在它们那里多长时间。这种预测帮助减少了汽车未卖出的天数——"交易者的最重要的销售绩效之一”,Edmunds网站的信息主管非利普·波特洛夫(PPilippotlof) 说。