旗云平台白皮书 - marketplace-res-cbc-cn.obs ... ›...

Post on 31-May-2020

16 views 0 download

Transcript of 旗云平台白皮书 - marketplace-res-cbc-cn.obs ... ›...

旗云平台白皮书

2017 年 12 月

1、产品概述

旗云,开启监控运维控智能化,一体化时代。全天候运维服务加

全方位社群交流。共享经验,分享知识,为客户提供更加有效多元的

综合监控运维服务。面对IT基础设施的资产管理和运维中所遇到的痛

点,旗云致力打造时效、协同、统一、 跨云的综合云端监控运维服

务产品。

1.1、产品特点之——统一界面

旗云针对传统运维工作中IT基础资源厂家众多,数目庞大,地域

覆盖广,运维工具种类繁 多、部署分散等特点,提供集云监控与运

维工具一体化的集中管理方案。

1.2、产品特点之——三方协调

灵活的部署,多层的架构模式,保障旗云服务于企业的同时,也

可直接服务于企业的客户,方便 各类资产服务商提升服务价值。合

作共赢于企业业务,协助企业体现自身价值。

1.3、产品特点之——跨云管理

旗云全方位支持各种客户资产之间 的跨云监控和分发式管理;

并对客户已经在使用的产品和服务做API 接口对接,满足您更灵活的

需求。 致力于协助企业打造混合云。

1.4、产品特点之——灵动运维

由监控到运维,统一联动形成闭环。依托部署在云端的电信级

7*24小时监控平台为客户自己组建的广域网和局域网提供网络监控

服务。客户只需在局域网内任意一台可上网的电脑上安装一个采集器,

直接接入服务即可实现对网络的监控管理,节约软硬件投资,减少维

护人员投入、提高运维效率。和遍布全国的IT运维支撑体系对接之后

可以直接有效的完成全国性运维体系的闭环。

2、架构设计

2.1、产品架构图及说明

图 2-1 旗云平台技术架构图

旗云平台采用主流的分布式服务架构,平台包括以下几部分:

Web:平台前端页面,部署于 Tomcat 容器,利用 Nginx前端分发,实现多应用负

载提供服务。前端访问采取 https 协议。

Workstation:平台核心部分,利用 Dubbo Rpc 对外提供服务,供 Web 端调用,

处理 Web端请求,接收采集结果数据,告警数据,进行处理,入库,发送邮件短

信。Workstation 内嵌了分布式缓存 Ignite,提高数据访问效率。

Kafka:平台的消息服务器,用于处理平台策略下发到客户侧,告知采集服务器

Proxy 进行采集任务,并且接收采集结果数据,告警数据上传到平台端。

Zookeeper:分布式协调服务,用于调度 Kafka 与 Workstation 的 Dubbo Rpc。

Proxy:收集 Agent 采集上来的服务器信息,同时支持 SSH,SNMP 方式采集可达

网络内的设备信息,收集来源于 SNMP Trap 以及 Syslog 的告警信息,并统一将

采集结果发送到平台。

Agent:使用插件探针的方式,安装在被监控服务器上,采集设备信息,通过 proxy

发送给平台。

平台中各个组件之间的流传数据,均采用 MD5 进行加密后传输,Kafka 访问利用

SSL 证书认证访问方式。提高系统安全性。

2.2、产品功能堆叠图及说明

产品从功能演进上,按照基础模块,NMP,运维支撑,APM 的顺序进行发展。

基础模块包括数据采集,CMDB,应用数据,文件,应用接入,基础模块包含了数

据获取方式,数据存储手段与方式,以及数据展现手段。

NMP 包括资产管理,性能管理,告警管理,统计分析。此部分相当于系统的眼,

用于观测系统运行状况。

运维支撑模块包括运维管理,拨测管理,流程管理,巡检管理。此部分相当于系

统的手,用于完成操作,解决客户环境中的问题。

APM 包括业务场景管理,应用管理,流量管理还有日志管理。目前可采取第三方

接入的方式,扩展我方平台的监控管理能力。

2.3、产品功能模块主要说明

采集器模块,采集器分为 proxy 和 agent。Proxy 为集中式采集,agent 为分布

式采集。Proxy部署于客户端的一台服务器上,用于通过 SNMP,SSH等方式进行

采集可达网络内的网元,也可以通过 SNMP Trap 与 Syslog 接收,进行告警解析。

通过 Proxy,数据上传到平台端。Agent 是可选组件,需要配合 Proxy 来使用,

通过部署在待采集服务器上,Agent 通过执行本地命令,获取采集结果,发送给

Proxy,经过 Proxy,传到平台端。

资产管理,对资产信息进行管理,包括生命周期管理,与财务信息管理。

性能管理,对监控设备运行状态,通过性能指标的形式进行呈现。

告警管理,告警分为三种,故障告警,配置变化告警,性能告警。故障告警为设

备主动通过 SNMP Trap 还有 Syslog 等手段上报过来的告警,称为故障告警;配

置变化告警为设备中,配置指标有了变化所发生的一种告警;性能告警为客户根

据业务,设定好性能指标阈值,超过阈值即触发性能告警。利用以上三种告警,

对网络中发生的各种告警信息,进行生成告警,提醒运维人员。

统计分析,通过统计报表的形式,汇总展示设备一段时间内的汇总数据,对整体

分析客户 IT环境,提供依据。

工单管理,针对被认为是有较大影响的需要解决的告警信息,客户可以通过工单

系统,进行派单,处理工单的流程操作,用于流程化的解决问题。

拨测管理,利用 ping,tcp ping,tracert 等手段,诊断网络中的故障。

2.4、产品技术路线说明

旗云平台通过 dubbo rpc进行分布式服务治理;利用消息中间件 kafka,进行平

台各模块间解耦;利用 flume的定制化开发,解决数据传输灵活性,消息分发灵

活性,分布式处理能力易扩展。平台将标准化接口作为重要技术目标,通过标准

化接口,实现了平台能力易于扩展,便于接入第三方进行合作。平台自底向上各

个部分均采用分布式架构实现,平台计算能力易扩展性强。

3、产品技术特色介绍

3.1、标准化采集数据

旗云平台采集结果数据采用统一的标准化模型,通过各种协议采集的结果,均按

照统一的标准的采集结果进行上传。数据规范标准,平台后续处理,与底层采集

无关。做到业务与底层采集方式隔离。并且只要遵循旗云标准化数据格式,都可

以和旗云平台对接,扩展旗云平台能力的同时,也为其他厂商开放了旗云的服务。

3.2、数据展示及数据处理

旗云平台支持 Web 和 APP方式数据展示,数据处理采用分布式计算的方式进行处

理。数据展示方式多样灵活,数据处理能力易扩展。

3.3、可扩展开放平台

旗云平台开放标准 API,支持第三方平台对接,扩展旗云平台的能力的同时,也

为其他平台提供旗云监控运维服务。

3.4、采集能力

旗云平台支持 SNMP,SSH,Agent,Syslog 等多种主流的采集方式,支持网络设

备,安全设备,中间件,链路,服务器等多种类型设备的采集。

3.5、数据安全

旗云平台 web端访问采用 https 方式进行加密。消息传递,在 Kafka上,采用了

SSL 证书的方式。在平台间传递数据,采用 MD5将敏感信息进行加密后传输。并

且在客户侧,旗云只收集客户允许收集的待监控指标,进行收集,加密上传,不

存在敏感数据泄露的风险。

4、页面交互

4.1、首页仪表盘图表自定义

可自定义展示符合各类客户业务的图表信息。客户可根据页面自

定义操作设置首页仪表盘展示图表规则。

4.2、数据图独立显示

可针对不同资源设备及单台设备性能指标进行组件配置,组件包

括性能指标的类型及内容。

4.3、统计数据图表

支持各种维度统计图表,可提供图表导出功能,保存设备统计数

据。方便总结统计工作。

5、告警及工单管理

5.1、告警监控

告警监控用于监控告警信息,及时展示推送来的告警信息,并给

告警信息设置相对应的告警阶段,方便告警信息管理。

5.2、告警查询

5.3、工单管理

通过运维管理可以对告警转为的工单和手动增加的工单进行管

理。同时具有查询功能。

6、合作共赢

合作商是以租用平台的方式购买服务,旗云云监控服务平台

单独划分空间给外包服务商,对于终端客户看来,所有的资源都

是外包服务商搭建提供,同时,对于外包服务商也可以把平台提

供的服务,作为产品提供给终端客户,当核心业务或者物理服务

器发生故障,第一时间通知客户和运维人员,提升外包服务商的

服务质量,增加客户的满意度。

7、可拓展定制

旗云云监控平台提供标准的 API 接口,利用这些接口,可以和旗

云云监控平台进行数据交换,从而实现旗云云监控平台与第三方 IT

管理软件或其它软件之间的集成。