热线电话

热线电话:400-910-9998

UNIS DataEngine大数据

  • 产品概述
  • 主要特性及优势
  • 产品功能特性表
  • 运行环境

产品概述

在DT时代的今天,各行各业时时刻刻都在产生海量结构多样的数据。传统数据库技术已无法满足高效处理这些数据、挖掘潜在价值的要求,急需一整套专业化的大数据解决方案来点石成金,UNIS DataEngine大数据平台在此背景下应运而生。

UNIS DataEngine采用离线计算引擎、流式计算引擎和分布式数据库引擎融合的计算框架为用户提供完整的大数据平台解决方案,包括数据采集转换、存储计算、分析挖掘、共享交换、BI展示以及运维管理等全系列功能,帮助用户构建海量数据处理系统,发现数据的内在价值,助力客户获取新的市场机会。

主要特性及优势

先进的融合计算架构

采用离线计算引擎、流式计算引擎和分布式数据库引擎融合的技术架构,对半结构化、非结构化数据提供低成本存储,并提供低时延、高并发的查询和分析功能;对结构化数据采用分布式数据库引擎,支持列式存储、分布式计算、智能索引等功能,实现高性能结构化数据分析处理。集成离线计算引擎、流式计算引擎多种计算方式,利用资源管理组件统一管理调度,可在同一份数据集上运行多种计算引擎,能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。

高性价比的分布式集群

基于x86服务器本地的计算与存储资源,计算集群可以动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本;同时,在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供计算和存储的高可靠保证,具备较强的容错性。

多源的数据集成

将不同业务系统中分散、零乱、标准不统一的各种源数据中的数据进行汇聚。支持从DBMS、互联网、物联网、企业生产系统等各种数据源中提取数据。各类数据经过抽取、清洗和转化后,实现多对多地加载到包含但不限于大数据集群和各类关系型数据库中。该过程由一个统一的操作接口封装,经过无代码的可视化配置后,可实现自动化地、分布式地执行整个ETL作业流程。

数据分层和分级存储

把数据按照不同阶段分为ODS(Oper-ational Data Store)数据、轻度汇总数据和应用数据,分别存储在关系型数据库、分布式数据库引擎,满足不同阶段的计算需求;按照在线数据、历史数据等来管理数据生命周期,满足在线数据的高性能存储的需求;将核心模型数据通过改造融入到数据仓库的核心模型中,减少数据冗余,提升数据质量。

数据分析挖掘

支持R语言,集成机器学习算法库Mahout和Spark MLlib,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。

数据服务接口

提供交互式SQL和可编程API,提取数据存储计算平台的数据处理结果,屏蔽底层细节,为上层应用提供数据服务。主要包括SQL接口、MapReduce/Spark/Storm计算接口等多种可编程API、全文实时搜索接口、业务定向接口、关联查询接口,满足数据查询、可视化BI展示、数据交换、数据分析、目录服务、综合查询等业务应用的需要。

可视化运维管理

提供Web图形化界面对集群管理和监控,对集群的节点、主机和服务的运行状态直观显示。并提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等功能,在可管理性方面优势显著。

产品功能特性表

管理平面功能

服务名称 服务功能说明
安装部署 提供定制部署、Zero部署和虚机部署等多种集群部署方式,满足用户不同应用场景需求。提供Web图形化界面和快速向导,引导用户快捷高效地建立集群(Zero部署是UNIS自研的大规模集群快速部署功能)
机架管理 实现HDFS副本存放策略的可视化管理
配置管理 实现集群各项服务配置参数的历史快照功能,记录配置变更,方便性能调优
用户和组管理 支持单用户和用户组管理,便捷的用户和组的增删操作,提供不同级别的访问权限控制
主机管理 实时监控主机各项硬件资源(CPU、内存、磁盘、网络等)及其上承载的服务运行状态。执行主机级别操作如停止、运行主机上的服务等
服务管理 对集群的各项服务做集中式管理,提供启动服务、停止服务、修改属性和设定运行参数等功能。实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时监控
监控和告警 监控集群运行的健康状态,在特定的情况下发出信息,帮助识别和定位问题原因。可自定义告警的监控间隔和阈值、触发条件、告警通知方式
多租户 支持多租户隔离使用集群资源
安全管理 支持本地、LDAP和Kerberos多种身份认证方式,实现访问权限控制。支持对文件、目录、表、列、行等细粒度的访问控制,可防止对集群的恶意使用和篡改,保证集群安全可靠
数据管理 实现数据的压缩、备份、交换及数据ETL的管理

运行环境

分布式数据库引擎节点所需的软硬件配置

属性 最低配置 推荐配置
CPU 2路×4核,2.0Ghz 2路×8核,3.0Ghz及以上
内存 64GB DDR3 128GB及以上DDR4 DIMM插槽
系统盘 10krpm 300G SAS盘,2块RAID1 10krpm 300G SAS盘及以上,2块RAID1
数据盘 10krpm SATA盘,单盘容量不超过4T 10krpm SAS盘及以上,单盘容量不超过4T
网卡 千兆网卡 万兆网卡聚合
操作系统 CentOS 6.5(64位) CentOS 6.5(64位)

离线计算引擎节点所需的软硬件配置

属性 最低配置 推荐配置
CPU 2路×4核,2.0Ghz 2路×8核,3.0Ghz及以上
内存 64GB DDR3 128GB及以上DDR4 DIMM插槽
系统盘 10krpm 300G SATA盘,2块RAID1 10krpm 600G SAS盘及以上,2块RAID1
数据盘 7.2krpm SATA盘,单盘容量不超过4T 10krpm SATA盘及以上,单盘容量不超过4T
网卡 千兆网卡 万兆网卡聚合
操作系统 CentOS 6.5(64位) CentOS 6.5(64位)