围绕hadoop开源流的大数据实现框架

服务近2000家企业，依托一系列实践中打磨过的技术和产品，根据企业的具体业务问题和需求，针对性的提供各行业大数据解决方案。

目前围绕Hadoop体系的大数据架构包括：

传统大数据架构

数据分析的业务没有发生任何变化，但是因为数据量、性能等问题导致系统无法正常使用，需要进行升级改造，那么此类架构便是为了解决这个问题。依然保留了ETL的动作，将数据经过ETL动作进入数据存储。数据分析需求依旧以BI场景为主，但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上，流式架构数据全程以流的形式处理，在数据接入端将ETL替换为数据通道。经过流处理加工后的数据，以消息的形式直接推送给了消费者。存储部分在外围系统以窗口的形式进行存储。适用于预警、监控、对数据有有效期要求的情况。

Lambda架构

Lambda架构算大数据系统里面举足轻重的架构，数据通道分为两条分支：实时流和离线。实时流依照流式架构，保障了其实时性，而离线则以批处理方式为主，保障了最终一致性。适用于同时存在实时和离线需求的情况。

Kappa架构

Kappa架构在Lambda的基础上进行了优化，将实时和流部分进行了合并，将数据通道以消息队列进行替代。因此对于Kappa架构来说，依旧以流处理为主，但是数据却在数据湖层面进行了存储，当需要进行离线分析或者再次计算的时候，则将数据湖的数据再次经过消息队列重播一次则可。

Unifield架构

Unifield架构将机器学习和数据处理揉为一体，在流处理层新增了机器学习层。数据在经过数据通道进入数据湖后，新增了模型训练部分，并且将其在流式层进行使用。同时流式层不单使用模型，也包含着对模型的持续训练。适用于有着大量数据需要分析，同时对机器学习方便又有着非常大的需求或者有规划的情况。