Menu
云计算的大数据分析技术与应用
         大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产      
        1 大数据和云计算之间的关系
  大数据分析处理可以将云计算作为平台和基础,即大数据统计和分析所依赖的各种关键技术都需要依靠云计算提供支持,可以说云计算成为大数据处理分析的重要途径和主要优势,云计算强大的计算能力和数据存储能力能够为大数据处理分析带来丰富性和多元性,使其能够提供更为便捷的服务。云计算作为一种计算方式,大数据成为其计算的对象之一。大数据在分析处理时强调存储能力,而云计算则强调计算能力。一方面,大数据处理分析是对自身进行计算和处理的过程,其过程需要以云计算强大的计算能力为根基;另一方面,大数据本身带来的多元化应用使得云计算具有了强大的实际应用能力。
  如果大数据在统计出海量的可视化信息之后,却没有云计算的支持,技术人员是难以对其进行数据总结和分析的,在这种情况下大数据和普通的统计数据信息没有本质区别,应用于各行各业之中将会受到很大限制。而没有海量大数据的充实,云计算的数据处理能力也无从发挥,事实上云计算的数据处理能力在处理简单数据时将会产生大材小用的违和感。云计算和大数据势相辅相成、优势相长的关系,二者结合能够提升对方的实用价值,并在对方的计算发展过程中相会促进,实现了传统信息处理和分析技术无法理解和比拟的功能和优势。
  2 基于云計算的大数据分析技术功能分析
  第一,可视化。实现信息处理过程的可视化对普通用户还是数据分析专业人士来说都是基本要求。基于此需求形成的重要因素是大数据进行数据分析的基础。大数据分析的结果需要借助云计算可视化功能,使得数据分析者能够直接地获得分析数据,使得大数据能够对其分析和判断提供具有参考价值的指导。
  第二,数据挖掘算法。为计算处理系统提供数据信息是数据挖掘要实现的终极目标。云计算提供的分割、集群、孤立点和其他运算方式能够深入到大数据信息内部,使得计算系统能够更加深刻地挖掘出数据的价值。数据挖掘算法一方面要处理海量数据,另一方面要提供快速处理数据能力,将数据处理分析的实用价值展现出来。
  第三,预测分析能力。对于数据挖掘得到的结果,云计算可以提供预测分析功能,数据分析人员能够形成对分析结果处理方式的系统范式,在可视化结果和数据挖掘技术的加持下,理性分析可以让人们通过数据分析形成对未来决策的客观判断。
  第四,语义引擎。大数据带来海量的非结构化数据信息,这使得信息的呈现方式呈现出前所未有的多元性,同时也给数据分析带来全新的挑战。如果要将数据信息应用到实际过程之中去,对信息的解析和提取则是非常必要的。云计算提供的语义引擎能够在文档之中任意地进行数据信息提取,使得数据分析人员在应用的时候即时调取。
  第五,数据管理与数据质量。大数据处理分析通过数据管理与数据质量实现在管理实践上的应用,云计算能够提供的标准化流程和工具能够是其进行数据处理分析的基础,从而在预先定义的分析结果中保障其质量。大数据是一次天翻地覆的技术性变革,数据管理和质量将成为必须关注的目标。大数据时代是现代技术得到全新数据信息支持的时代,但是其数据质量保障和数据管理安全得不到用户的肯定和认可,大数据信息的实用价值无从展现。
  3 基于云计算的大数据分析应用途径
  第一,大数据联机分析。云计算和大数据分析结合应用的主要形式是数据仓库系统的联机分析,在借助复杂的分析操控技术的基础上,使得分析结果能够在实际决策中发挥作用,进而得到直观的分析结果,最终方便信息使用者进行查询和调取。云计算能力在应用联机分析之后能够进行综合数据分析,能够让信息决策者通过多角度和多层次感受到数据的实用价值。现如今多维分析已经成为大数据分析的重要特征之一。所以有必要在数据库仓库之中引入联机分析技术是很有必要的,从而实现对海量信息的全面快速处理,对决策支持系统的判断起到推动作用。很多电商在运营过程中都具有自身独特的数据库,能够在商业决策中提供可行性分析,比如各大搜索引擎比如百度、雅虎和谷歌则可以根据数据库中的信息进行关键词统计,对所有商用词语进行数据仓库系统整合,在联机分析的基础上实现最快的信息检索和有力的信息调取。百度公司的大数据应用和数据仓库的技术方式应用最为典型的一个结果就是百度云盘,其在2009年就开始运营百度云盘,实现了大数据应用的商业价值发挥,为同行业企业进行大数据联机分析提供了良好的借鉴和经验。
  第二,通过大数据进行数据挖掘。大数据分析技术不应该仅仅停留在表面信息提取方面,还要通过隐性知识的整合来对数据仓库之中的相关关联信息进行挖掘,将海量信息中隐藏的更有挖掘价值的信息展现出来。在云计算下的大数据分析技术主要运用了分布式并行技术进行数据挖掘,其可以再很短的时间内对机器集群开展并行任务的拆分,多台空闲设备可以在第一时间内进行统一的计算和处理,极大地提升了大数据的数据处理速度和数据处理能力。云计算提供了Map Reduce挖掘模型,技术分析人员可以通过映射Map函数内特定分块数据完成处理过程,在提升数据应用效果的同时将和本次数据分析处理无关的计算集群排除出去。
  第三,利用大数据达到可视化应用。让人们享受到可视化的分析结果是大数据分析能力的直接体现。大数据的分析出的可视化信息结果使得海量信息内部又有了内部联系基础,实现对相关发展趋势的预测。一般来说,大数据是以图形或者图像作为输出模式的,能够简单、直接地提供对于未知信息的处理结果。可视化信息使得人们能够获得更加具有参考价值的数据分析结果,突破了简单观察结果的限制,同时将直观的方式规划出体现结构关系的促进作用和影响方式。