大数据分析是指大量信息的积累和分析。一个调研和咨询公司说,一个有着总共500万兆字节的商务活动数据的组织是一个有大数据的组织。百万兆字节是指有100万个字节,所以一个有着500万商务活动数据的公司就是大数据公司。大数据能为公司提供:
·更深度的洞察。大数据调研人员洞察一切个体、一切产品、一切部分、一切事件、一切交易,而不是只看到市场细分、类别、集合或其他层级划分信息。
·更广阔的视野。为了了解复杂的、演变的、相关的情况从而提供更精确的洞察,大数据分析考虑到一切数据,体系的和非体系的。
举个有关更深更广的洞察的例子,Cable电视的供应商表示,95%的订购都能按时满足。这听起来很厉害,但当你知道该公司每天有3000个订单,也就是说每天有150个顾客要在家里白白浪费时间等待时,你就不这么觉得了。如果可以将遗漏的订单与呼叫中心、搜索中心和重复购买中心的数据,以及推特和脸谱网上的评论相联系,经理就能知道每年他们遭受了多少差评,还不包括重新安排时间和加快进展拜访所带来的外的成本。
1.定义关系
对于科学家和市场调研人员来说,大数据分析代表了范式的转变。传统的科学方法包括得到问题信息、做假设,然后测试数据以决定接受或拒绝无效假设。假设驱动的调研以由调研人员规定好的因素为基础,它限制了去探索思维所能想象的。数据驱动科学让我们先收集数据,再看看数据告诉了我们什么,这与传统科学截然相反。
2.大数据的突破
在不久之前,大数据分析的概念只是一个梦。通常用SQL语言来写的传统数据库将数据存储在表格和条形图中,但当存储诸如电子邮件和短信这样的文字流时就变得很有限,并且不能处理图像和视频。
新型数据库在 2009年年末开始出现,如MongoDB、Cassandra和SimpleDB没有那些限制并能让分析者对数据建立查询。
最近开发的程序自然语言处理和机器学习依赖于电脑程序自身去寻找图样,甚至是分辨上下文中模棱两可的词汇。使用自然语言处理程序可以使程序识别出“炸弹”是指一个百老汇喜剧,而不是恐怖分子用的东西。
直到最近,复杂的电脑程序需要在昂贵的硬件上运行,比如大型主机计算机。如今:一个由雅虎研发、谷歌提供技术支持,以孩子的玩具大象命名的Hadoop开放资源软件框架,使查询由程序自身完成。
不同的分析任务分配给了许多廉价的服务器,当任务完成时的重组查询前面每个服务器解决问题的一部分。将复杂的查询交给成木低廉的电脑服务器完成,使人们更快地解答各种问题。
3.使大数据更具操作性
过于复杂的输出让人感到无所适从甚至会形成怀疑,因此需要更直观的工具来辅助日常决策。在市场调研的传统世界,产品经理或其他市场经理要到市场调研部门(或发送一份调研计划书)描述问题。调研人员接着要通过访谈他人来执行调研,紧接着是分析数据。下一步是幻灯片展示。最后,经理也许会也许不会采取行动。在大数据分析这一新领域,顾客的心理被传送到在规定基础上运营商务的人员那里。例如,商店经理、产品经理和呼叫中心管理者会收到专门为他们特定职能发送的信息。
自动化的决策制定在大数据分析中同样发挥重要作用。例如,一家网上商店在实时的基础上收到产品推荐,比如顾客正在购买过程中。大数据分析可以在顾客在分行或联系呼叫中心时为其推广信用卡。大数据的自动化要求为顾客进行私人订制,满足其特别需求这将是一个增长态势。
4.数据可视化
当然,不是所有的大数据输出都会导致决策自动化,大数据输出必须规范化、合理化。大多数人记不住比电话号码还长的一连串数字。所以,如何使上亿的数字变得合理?答案是利用图像展示或数据可视化。数据可视化(data visualization)是使用图像可视技术阐述数据间的关系。数据可视化公司,如Gooddata、Ayasdi、Tidemark和Platfora,将大量数据转化成图像,以更直观地面对对它们来说重要的信息。