大数据平台
在大数据时代,随着数据的数量、类型和生成速度不断增长,以存储、运算、展现作为目的和如何充分利用“活力”数据实现业务创新突破,则是企业搭建大数据平台的根本目的所在。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
慧点与主流的大数据平台厂商有着悠久的合作历史,如戴尔易安信、IBM、SAP、Oracle、微软、新华三、华为等;可帮助用户提供咨询、规划、部署和售后支持服务。
慧点在大数据平台搭建方面有着多年的实践经验,可在数据同步、数据脱敏、数据归档方面进行按需定制开发,同时也对整个数据流过程进行有效的安全管控;在大数据平台的部署时会兼顾客户现有数据结构和模型,既能帮助用户节省大数据平台的搭建成本,同时也能缩减建设周期。
选择超融合一体机是搭建大数据平台的趋势
从2017年开始,业界已经有企业开始推广人工智能(AI)+大数据+云计算三种能力整合的一体机产品,超融合一体机更适合互联网行业的应用属性,因此在云、大数据、AI时代,一体机会是一个趋势,截至到2018年,35%的服务器都将以集成系统方式交付,这里的集成系统就包括超融合、软硬一体机等多种形态。
所谓一体机,是软件与硬件相结合的集成系统产品,其一般集数据处理、数据传输、数据存储三方面于一体。一体机通过预先集成、测试、优化,能够实现快速部署、简化IT基础架构,节省资源,提升系统高可用性和可扩展性。
为什么要选择超融合一体机
目前市场上接受度较高的就是数据库一体机,其主要原因是:
1.数据库加速,为取得更好的数据库性能,会在硬件层、弹性存储层做垂直深入的调优,例如采用读写更快的SSD盘,采用面向数据库独特的读写算法。
2.数据库加固,为保证数据库数据不丢失、不损坏,会在中间件服务层增加数据库的备份/恢复、容灾、定期校验等服务,提高数据的可用性。
超融合一体机的优势
简化(预集成)、优化的基础设施,降低部署管理难度
而从IT基础设施发展角度看,复杂的计算、网络、存储等系统的集成模式已经成为业务创新的“绊脚石”。简化(预集成)、优化的基础设施才能为数据驱动“智能化”提供更好的保障,解放IT人员的部署运维工作,真正有精力关注业务创新、数据智能等领域。
大数据处理软件的设计原则是“本地化计算”,“计算与存储一体”
以Hadoop、Spark为代表的大数据处理框架,架构设计原则之一就是:本地化计算。这摒弃了传统计算和存储系统分开的架构,而采用服务器的CPU和硬盘作为计算存储能力。本地化计算(计算随数据分布)是指并行计算框架智能地将计算任务指派到存储着该任务所需数据的节点,从而避免传统分布式计算中严重的数据传输瓶颈。
深度学习、神经网络算法需特殊硬件
以卷积神经网络CNN
为例,训练深度学习模型所需要的计算力是超大规模的,比如基于ImageNet数据集训练CNN,数据集一共大约120万张图片,训练算法需要对这个数据集扫描100遍(epoch),这意味着10^18次浮点计算,即1exaFlops。简单演算一下,基于一个主频为2.0GHz的CPU
core来训练这样的模型需要好几年的时间。而采用GPU(NVIDIA Tesla
P40),单块只需50小时。按照一台2U服务器装载4块GPU计算,只需要12.5小时。这也就是GPU比CPU在人工智能上的侵略性优势、而谷歌的TPU处理性能号称比GPU快百倍。
而大数据一体机可很方便的加入GPU、TPU、FPGA
等专有硬件,就形成了特有的竞争力。(上诉神经网络算法只是这类专有硬件应用的冰山一角,其他例如:数据库加速、语言识别、视频处理等,都需要大量专有硬件)
数据驱动:客户都需要有一个自己的“大脑”
数据资产正变得越来越重要,因此谁也不希望自己的数据被某几个云巨头存储和分析。因此未来各行各业的客户势必需要一个自己的“大脑”,而大数据一体机是很好的承载平台。一方面保证数据资产留在自己的IDC机房,另一方面也具备便捷运维、高效分析的能力。