数据中心运维管理详细方案完整版

2023/05 作者:ihunter 0 0


数据中心运维管理详细方案完整版


第一章 某数据中心基础运维概述

某数据中心的基础运维工作主要包含包括四个部分:基础环境、网络、服务器存储和基础软件。

其中第一部分机房基础环境部分,包含机柜位置、空调、消防、安防、弱电、ups等最基础的机房环境设施。需要对这些基础环境部分进行运维维护,确保整个机房环境正常稳定。

第二部分为网络环境,包括当前数据中心所有的交换机、路由器等设备,以及由这些设备组成的所有网络,需要监控网络运行情况并提出网络风险评估,定期对网络进行优化配置,提高网络运行效率,保证整个网络环境的安全。

第三部分服务器和存储部分,包含整个数据中心的小型机、服务器、存储设备、san交换机等设备。这些设备支撑着整个业务系统,是非常重要的基础硬件环境。需要监控这些设备的运行情况,及时处理出现的问题和变更,并基于整个环境提供优化。

第四部分为基础软件部分,包括各种操作系统、数据库、中间件、备份软件等等。要求这些软件可以正常工作,并优化配置,为平台和工作站正常服务,当这些软件出现问题时,能发现并提出解决方案;可以协助应用人员解决故障或进行对应的变更、升级等操作。

本方案将基于这几个方面进行设计,确保数据中心正常、高效运行。


第二章 数据中心运维分类

某数据中心运维团队将根据当前数据中心的实际情况和对应的管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。我们将基于以下几个方面对运维工作进行描述

2.1 基础环境运维管理

针对基本的机房环境设施,我们的工作内容包含以下这些内容:

1) 机房机柜摆放规划和机柜管理;

2) 服务器和网络设备摆放规划和日常管理;

3) 设备出入机房审批登记管理;

4) 内部人员出入机房审批登记管理;

5) 外部来宾机房参观审批登记管理;

6) 机房电力系统监控、问题及时上报;

7) 消防监控系统监控、接收报警短信和联系第三方;

8) 空调报警系统监控、接收报警短信和联系第三方;确认空调运行状态良好。清洁机房的空调防尘网。

9) 温湿度报警监控、接受报警短信和联系专业第三方;

10) 漏水报警系统监控、接受报警短信和联系专业第三方;

11) ic卡门禁系统日常运维;

12) 视频监控系统日常运维;

13) ups报警系统监控和联系第三方;

14) 机房资产管理系统(cmdb)。

15) 机房环境。清理机房的杂物,将机房物品定置。清洁机房门窗、地面。定期清洁电池室的地面;检查机房所有与外界的空洞是否已严密封堵,严密防鼠;检查机房玻璃、地板、天花板、通气口,墙体表面是否正常,外观是否完好,有否出现老化现象。检查机房是否有漏水现象。检查机房墙壁是否有渗水现象。填写巡检记录,有问题及时报告。

16) 巡视电池间;检查电池工作状态。

17) 确认机房照明良好,出现问题及时报告。

18) 视频网络播放系统。定期检查可用性,有问题及时与专业第三方公司联系解决。

19) 填写巡检记录。

2.2 网络运维管理

针对数据中心的网络部分,运维内容主要包含以下内容:

1) 测试网络接入速度,监控网络访问可用性和访问质量,出现问题第一时间直接联系接入商解决。

2) 网络接入商变化时,配合网络接入商对网络变更方案的可行性审查、问题审查。配合网络接入商更替施工。

3) 局域网。本地局域网日常管理和维护;vlan 划分;网络性能优化;故障排除;网络节点周期性检查,发现潜在问题,并解决。

4) 无线局域网。负责无线局域网的日常管理和维护;客户端不能正常接入网络的故障排除;网络性能优化;故障排除;网络节点周期性检查,发现潜在问题并解决。

5) 远程接入。制定vpn使用策略,实施vpn用户日常远程接入服务器的管理,以及性能优化和故障排除等。

6) 网络病毒查杀和网络安全保护。

7) 根据实际项目或安排而产生的其他工作。

2.3 服务器和存储运维管理

2.3.1 服务器运行情况及性能监测

数据中心运维团队将通过综合监控系统实施7*24小时平台设备监控,发现告警,并进行处理,解决问题。对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。并且还提供针对各服务器物理资源的使用情况和操作系统的运行情况、进行实时监控,提供服务器安全监测报告。

主机性能监控的检查列表包括:

 cpu利用率

 内存使用情况

 交换区使用情况

 磁盘i/o情况

 关键文件系统的状态

 重要进程的运行情况(例程数量、消耗cpu、占用内存)

 操作系统的各类日志文件

 网络、端口信息

 ……

运维团队需根据检查列表进行日常检查,并不断地改进日常检查列表,以满足对系统监控的需要。

2.3.2 服务器软硬件兼容性检查

数据中心运维团队在维护系统稳定运行的同时,需主动收集系统关键补丁、软件补丁、硬件微码等信息,在通过数据中心专家评审的前提下,对相关设备进行升级服务,并在升级完成后配合应用方对系统进行测试。升级前后需要和应用方及时做好沟通确认工作,确保不会产生兼容性导致的故障。

2.3.3 磁盘阵列设备管理

运维团队需要对磁盘阵列设备及其相关的部件(如硬盘、控制器等)进行编号,并记录在案,对软件设置中的参数也要进行详细的记录,并在每次变更后及时更新相关的信息。

除此之外,运维团队定期(暂定每半年)对于每个服务器的系统容量监测的审核,并制定相应的容量规划,主要监测文件系统的空间、数据库的空间资源利用情况,分析资源利用趋势,并提供资源情况报表。

1)文件系统空间管理

 定期检查文件系统的空间使用情况,根据业务发展需求和新业务的增加,制定合理的空间分配方案,新增、修改或删除空间。

 对文件系统空间的使用进行监控,发现空间使用不合理或需要清理的协调解决。

2)数据库空间管理

 应实时监测数据存储空间的使用情况,根据业务数据的数据量、数据结构以及增长速度,制定合适的数据存储和结构优化策略,动态增加新的空间以存放业务数据;

定期检查数据存储空间的使用情况,根据实际情况规划增加新的空间,填写数据库空间新增/修改/删除申请表,经审核后实施,并更新数据库配置状况记录表。

2.3.4 机柜、电源、网线布局管理

运维团队对于新上架安装的设备,需要进行拍照留档,确认各线路位置,并对服务器的电源部分进行编号整理,最终登记在册。

2.3.5 协助第三方维护

对于由专业第三方提供运维的设备,设备出现问题后运维团队需及时通知第三方并告知采购人,视情况严重性,决定是否启动应急预案;配合第三方服务商一起排查和解决问题,实施为了解决故障而进行的系统软硬件的补丁、升级及维护工作。独立处理初级系统故障,与第三方厂商或服务商配合解决高级别系统故障。记录问题、故障的解决办法及解决过程。做出临时的配置变更以排除故障,在必要的时候,提出永久性配置变更建议。

2.4 基础软件运维管理

2.4.1 操作系统

运维团队充分保障服务器操作系统的稳定运行,将提供以下服务内容:

1) 系统升级

运维团队在维护系统稳定运行的同时,需主动收集系统关键补丁、软件补丁等信息,在通过数据中心专家评审的前提下,对相关系统进行升级服务,并在升级完成后配合应用方对系统进行测试。升级前后需要和应用方及时做好沟通确认工作,确保不会产生兼容性导致的故障。

2) 操作系统稳定性监控定时查看操作系统日志及iis日志,查看cpu、内存占用率,排除故障。

3) 权限与文件管理

服务器应明确责任人及管理帐号持有人,不应出现多人单帐户,单人多帐户的情况,不利于在服务器出现问题后,对服务器进行操作维护、查找问题。

4) 定期检查磁盘空间

进行磁盘文件排列的优化和错误扫描,并处理错误;安全地删除系统各路径下存放的临时文件、无用文件、备份文件等等,完全释放磁盘空间。

5) 维护系统注册表。

6) 系统配置。优化系统配置,关闭无用服务和端口,以最适合系统运行方式,最小化安装等。维护系统配置文档。

7) 负责系统用户管理,如增加、删除用户、重置用户密码、管理用户权限等。进行系统用户管理时,记录所有相关的系统变更。

8) 对于新安装的服务器,运维团队应负责安装必要的应用软件:如远程监控工具、备份工具、防病毒软件等。

2.4.2 数据库

运维团队将对数据进行日常维护,在数据库性能监控的检查列表包括:

 资源使用情况

 运行情况

 数据库进程状态

 数据库连接状态

 数据库进程使用资源

 数据库的表空间(数据表空间、索引空间、临时表空间等等)使用情况;

 数据库日志空间

 回滚段使用情况

 数据库锁的数量

 死锁的发生、死锁资源

 数据库碎片的数量

 磁盘i/o

 数据库运行日志

 数据库用户登录情况

 监控结果应做登记管理,如实记录系统日常运行状况及异常情况,填写日常运行情况记录表;

 ……

除此之外,数据库的运维工作还包含一些其他工作,如:

1) 数据库备份和恢复

2) 做好备份计划,工程师定时完成,因备份占用内存较大,在访问量大的情况下进行。当出现数据问题时,向采购人管理部门通报,说明数据情况,后恢复。

3) 访问性能优化及数据库同步

4) 服务器管理人员需记录详细的设置;数据库如需要同步,应明确同步时间或实时同步等方式。

5) 数据库日志和表空间,定期进行整理,问题解决。

2.4.3 中间件

运维团队针对中间件的运维工作,内容如下:

1) oracle weblogic,辅助开发公司进行配置,保留配置文档。模块配置与更新,配合第三方配置.java及wls的版本及更新工作。操作系统模块配置与更新,配合第三方配置操作系统到可用的版本及更新。配合反馈第三方解决服务错误日志中的问题。

2) 新软件安装,收集安装光盘、安装合同(可复印学习)、使用说明书、授权书(liscense)。纸质版文件扫描后入库,电子版文件进入配置库。

2.4.4 备份系统

为保证在系统崩溃或停止运行时能尽快恢复系统,将制定相关的数据备份制度。应针对不同系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和不定期备份。重要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间。

2.4.5 应用系统

当前的应用系统及相关的开发工作由第三方公司负责,运维团队主要起配合作用,相关的工作内容如下:

1) 当应用出现问题,及时联系第三方解决,并做问题记录。

2) 配合第三方进行操作系统、数据库和中间件的系统配置,并做配置记录,在有授权运维的系统中,熟悉应用系统维护方法。

3) 配合第三方新应用系统上线,需收集安装文件,源代码,部署文档、运维文档。扫描后,入配置库。与合同库相关联,记录维护期间联系人,原公司质保期。

4) 每日上班后、下班前检查可用性,确认无灾难性问题、黑客篡改问题。

5) 其他待完成工作,根据实际情况来处理。


第三章 运维工作内容

3.1 日常维护工作

运维团队的值班安排分三班,保持7x24小时的人员安排,在任何时间数据中心都由值班人员。运维团队根据数据中心的运维管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。

3.2 系统性能监控管理

运维团队通过综合监控系统等实施7*24a小时平台设备监控,发现告警,并进行处理,解决问题。使用综合监控系统对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。

3.3 系统维护管理

1)故障处理

运维团队负责故障发现、故障分析、故障处理工作,在规定时间内,处理完成故障,同时负责调查故障原因,最后编写详细的《故障报告》,包括故障发生的起止时间、原因、现象、处理过程、处理结果和处理经验。如果故障设备或组件为第三方维保,值班工程师负责和第三方对接,迅速解决问题。

2)软件和补丁维护

操作系统级别的软件和补丁服务

运维团队对于维保设备提供所有软件补丁,提供预警服务,对于软件的维护版本提供补丁,并按稳定性和安全性的要求,提供是否升级的建议,评估风险和制作实施方案。

故障经工程师的分析表明它是由一个软件错误所引起的,那么运维团队需提供相应的软件版本和补丁。

对于软件版本和补丁的安装,运维团队首先将确认是否可以在对应平台上进行装载。若确认可实施,运维团队则将提供补丁升级服务,升级前要配合相关应用方做好测试。

3)应急预案及演练

为加强风险管理意识,提高应急预案相关人员的应急处置能力,及时发现应急预案可能存在的问题,确保在紧急情况下,应急预案能够真正发挥作用,需要通过周期性的演习演练来不断检验应急体系应急预案的可靠性、有效性和可操作性。

应急预案的演习演练方式、演习演练频度等内容明确如下:

1、演练分为桌面演练和实战演练两种方式,每次演练都应该有相关技术人员全程参与。

2、定期桌面演练,定期实战演练;

3、每次演练结束之后应进行分析和总结,及时完成应急预案的更新、优化和完善。

4)协助第三方维护

在服务期内,运维团队将配合第三方或服务商进行系统的升级、替换、新部件(模块)安装等,并在实施完成后确认工作正常。

5)备份

为保证在系统崩溃或停止运行时能尽快恢复系统,将制定相关的数据备份制度。应针对不同系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和不定期备份。重要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间。

6)系统优化

对于巡检或日常维护过程中发现的系统隐患或系统不是处于满意状态,提供相关系统优化的报告。

对于运行情况跟踪,预防性诊断设备存在的隐患,提供系统优化建议,提供系统规范和流程的建议,提供系统优化概要。

7)硬件设备统计

运维团队将定期对参保设备进行统计。

8)质量分析报告

运维团队建立数据中心平台的质量分析报告。每月汇总设备运行质量、系统性能等指标,进行数据中心平台运行质量分析,排除质量隐患,不断提高网络运行质量和服务质量。

运维工程师应每周和每月对于数据中心在网系统运行情况作分析,数据采集、统计和分析系统设备的运行数据,形成系统运行周报和月报。

分析报告,包括优化设备运行的绩效,提高系统稳定性的建议,对于系统扩容和优化投资的建议,提供系统运行情况概要,系统中关键设备的运行情况分析,并能识别和解决潜在问题,做好预警,制定并实施相应的优化措施,并对于系统的扩容和项目投资提供建议报告。

3.4 系统配置与支持维护

运维团队的日常工作中,在系统配置和支持方面的工作内容如下:

维护系统软硬件配置文档;

负责系统用户管理,如增加、删除用户、重置用户密码、管理用户权限等;

进行系统用户管理时必须遵循数据中心的账户命名规则及账户密码策略,并文档记录所有相关的系统变更;

每月提交系统账户变更月报;

配合第三方进行升级、安装系统,及时更新操作系统补丁,进行系统软件备份;

根据运维报告及统计报表,每月制定维护作业计划,并提交日常维护报告;

3.5 系统容量管理

运维团队至少每半年进行一次对于每个服务器的系统容量监测的审核,并制定相应的容量规划,主要监测文件系统的空间、数据库的空间资源利用情况,分析资源利用趋势,并提供资源情况月报表。

1)文件系统空间管理

定期检查文件系统的空间使用情况,根据业务发展需求和新业务的增加,制定合理的空间分配方案,新增、修改或删除空间。

对文件系统空间的使用进行监控,发现空间使用不合理或需要清理的协调解决。

2)数据库空间管理

应实时监测数据存储空间的使用情况,根据业务数据的数据量、数据结构以及增长速度,制定合适的数据存储和结构优化策略,动态增加新的空间以存放业务数据;

定期检查数据存储空间的使用情况,根据实际情况规划增加新的空间,填写数据库空间新增/修改/删除申请表,经审核后实施,并更新数据库配置状况记录表;

3.6 巡检工作

除了依靠数据中心的监控软件,还要求运维团队对服务器、存储、操作系统、数据库、中间件等基础设施进行巡检,并编写巡检报告。通过巡检可以对当前系统的运行状况有一个详细的了解,对巡检中发现的问题可以及时采取预防性措施,降低故障发生的概率,提高系统的可靠性。

巡检工作需要检查以下几个方面:

场地环境检查:包括机房的温度、湿度、通风及ups工作状态等的检测;

操作系统:检查补丁完整性,记录软件版本,以保证系统发挥最佳性能;

外设检查:对网卡或hba卡、磁盘驱动器的读写、磁带机的读写进行检测;

网络设备检查:运行环境检查、led控制面板、ios版本信息、进程状态、内存利用率、接口状态、路由表状态、网络连通性测试;

设备清洁:对相关设备进行维护保洁工作,使设备保持良好的运行状态;

系统日志检查;

文件系统检查、清理;

系统配置检查;

系统和数据备份检查;

系统运行情况分析;

系统总体性能评估。

1)机房环境日常检查内容

机房环境服务是为机房设备如小型机、网络设备和存储设备等提供一个安全可靠的物理环境,确保机房设备不会因为环境因素导致不能正常运行或损坏。

为了达到此目的,机房环境需具备以下标准:

确保机房温度在24+2℃之间,最大温度变化率不超过10℃/小时;

确保机房湿度在50+5%之间;

确保机房电压在220v+5%之间,电压频率在50.5~49.5之间,瞬间变动电压不超过220v+/-15%,总谐波不高于5%;

机房电源地线方面确保机房接地线与任何导线完全隔离及绝缘,接地线线径至少为3.5mm,系统接地电阻在电源插座连线与地线间不大于2欧姆,在电源输出座连线与地线间电压小于1v,在接地线的接地端测的接地电阻不大于1欧姆;

确保机房为网络设备、空调、视频等提供独立的冗余双电源供应系统,杜绝电源公用现象,确保网络设备电源无隐患;

确保机房整洁干净,避免机房在阳光直射之下;

确保机房无线电杂波干扰低于0.5v/米;

2)服务器、存储、操作系统、数据库、中间件巡检及巡检报告内容

针对服务器、存储、操作系统、数据库、中间件等比较重要的组件,数据中心制定了按月巡检的计划,需要按照巡检报告的模板进行检查,巡检报告要涵盖以下内容:

3.7 定期服务报告

系统维护档案,详细记录数据中心相关的设备信息和项目管理信息。在日常运维中,服务报告和技术文档由运维团队的相关人员负责维护和更新。

系统维护档案将分为以下四个部分:

3.7.1 设备配置档案

维护设备及软件清单、系统功能、详细配置信息及软件版本和设备pn号;

设备位置、网络拓扑、设备连接拓扑及各种工程图纸;

如果系统发生变更,如实施软件、补丁、微码升级或业务调整,同步更新配置档案;

系统双机、备份设置和运行情况。

3.7.2 服务文档

技术参数的配置文档;

处理故障时的《故障处理报告》;

每季度的《季度运维总结》;

每次重大故障处理后发布《重大问题分析报告》;

共享维护内容及其他技术资源整理知识库;

每次巡检时的《巡检报告》;

微码更新、性能分析及优化、机房搬迁等服务实施方案、专业服务报告和技术建议等。

3.7.3 服务总结

运维团队根据自身的工作内容,在每季度需要对自己的工作进行汇总,并生成《季度运维总结》。

报告中的具体内容包括:

故障处理及备件更换情况汇总;

设备状况分析及评价;

人员出勤情况,工作量,或资源使用情况,包括第三方供应商服务情况;

重大事件和变更情况;

配置管理相关信息;

趋势信息;

下一步工作计划;

3.8 运行维护优化评估

(1) 建立基于数据中心的基础运维服务管理框架体系及运维团队,根据网络的现状提出整体安全规划,包括日常维护计划、安全风险控制计划、应急响应计划等

(2) 提供风险评估、灾难恢复、应急响应、安全培训服务并提供报告

(3) 安全检测

每季度定期对服务范围内的对网络设备、服务器操作系统、数据库系统、应用软件系统的安全策略和安全配置进行检查和测试,从中获得相关的信息、发现系统面临的威胁以及存在的安全性。

(4) 安全评估。

每季度对服务范围内的整体网络系统进行全面、统一的系统性的安全风险评估,识别和控制网络中的关键资产及可能会产生的安全风险,并对所发现的问题提供优化、改进建议。并根据评估的结果为关键资产建立应急响应预案以及细微调整其后安全维护服务所要监控的内容。

(5) 策略优化

根据安全评估的结果每半年对系统策略及网络系统进行优化设计,制定调整系统策略优化、网络拓扑优化、安全域规划与配置、ip规划、vlan优化等策略,并根据实际情况调整与实施。

(6) 应急预案与演练

根据数据中心的现状,模拟实际灾难发生场景,提供各种应急预案,经过采购人讨论,协助采购人实施演练。

(7) 培训

运维服务期内,安排以运维管理、安全为主题的培训,数量为4~5人次,按要求制定相应的培训计划。

(8) 资料收集存档

参与机房运维涉及的专业第三方机构合同的起草、谈判,与采购人一起对第三方机构进行管理。整理收集涉及到的第三方合同,中间文档、过程记录,备查,按照采购人规定进行提交。

3.9 应急保障措施和组织

3.9.1 应急响应系统

运维团队在处理紧急情况和重大事项时,会启用应急指挥系统:

接口人:应用系统下,各个相关方的固定接口人,一般为项目经理

运维团队:事故发生期间提供直接的技术咨询、指导服务,负责直接处理故障。

二线专家:严重事件由承保的第三方服务商或原厂商的二线专家最快速度到达现场处理事故。

3.9.2 应急响应过程

应急响应过程划分为四个主要阶段:应急准备、监测与预警、应急处置措施和总结改进。

a)应急准备阶段的工作包括:组建应急响应组织,确定应急响应制度,系统性识别运行维护服务对象及运行维护活动中可能出现的风险,定义应急事件级别,制定预案,开展培训和演练;

b)监测与预警阶段的工作包括:进行日常监测,及时发现应急事件并有效预警,进行核实和评估,以规定的策略和程序启动预案,并保持对应急事件的跟踪;

c)应急处置阶段的工作包括:采取必要的应急调度手段,基于预案开展故障排查与诊断,对故障进行有效、快速的处理与系统恢复,及时通报应急事件,提供持续性服务保障,进行结果评价,关闭事件;

d)总结改进阶段的工作包括:对应急事件发生原因、处理过程和结果进行总结分析,持续改进应急工作,完善信息系统。

3.9.3 制定应急保障预案及演练

为了应对业务系统可能出现的紧急故障,运维团队将定期模拟故障演练服务。

运维团队有一套整体的应急方案,以确保数据中心在系统发生突发事件或灾难情况下能够迅速恢复it服务,从而保证系统业务的持续运行。根据普遍认可的最佳实践指导原则,it应急和it灾难恢复的定义应该是:

“计算机系统灾难是指任何造成计算机系统不能处理业务的时间超过了可容忍程度的事故。应急方案是指计算机系统灾难发生后,按照既定的应急恢复方案在一定时间内恢复系统运行和业务处理的过程。”

为了应对生产系统可能出现的紧急故障(重大、严重故障),数据中心将从事前预防和事后处理两个方面制定紧急故障应处理预案。

(a)事前预防:

 应急涉及到多个层面的配合,每方都需要指定专人负责在紧急故障发生时及时沟通

 数据中心专家支持团队进行系统风险评估,提出系统整改建议,制定紧急故障应急处理预案

 进行一定次数的实际演练,包括后备系统切换测试、备份数据还原测试

 对流程进行持续性跟踪,系统出现变更后,重新评估流程的有效性

(b)事后处理:

 响应时间:由工程师立即做出响应

 故障修复:由经验丰富的专家支持团队提供专人支持,包括搭建测试环境、远程和现场故障诊断和排除;同时启动紧急故障处理流程,按既定程序做应急处理

应急演练:

应急演练计划至少每季度一次进行测试和演练,以保证:

 计划内容能够反映当前的状况;

 计划的有效性和可操作性;

 应急演练人员熟悉应急恢复流程。

所有测试和演练的结果应当依据事先确定好的标准,来判断测试和演练是否成功。如:多长时间恢复服务,会出现多少问题,及问题的严重性等。在测试完成后应记录下结果,并根据需要对应急恢复计划进行修订。针对演练或测试过程中出现的问题和失败应该进行说明并体现在相应的改进计划中。

3.10 it运维服务工具

3.10.1 运维监控平台

运维服务事件管理系统是支撑运维管理组织中各运维角色按照规定的运维事件流程开展运维活动的信息化系统。一方面,该系统要支持运维服务提供者对运维服务事件管理对象进行管理,以实现运维服务的能力;另一方面,要支持运维服务提供者按照商定的服务级别协议方便地向运维服务使用者提供运维服务;同时,要支持运维服务管理者对整个运维服务事件的考核、监督和评估。运维服务事件管理工具是构成运行管理体系不可缺少的元素,从被动管理向主动管理转化的重要部分,为整个运行管理体系的高效实施奠定了基础。

1)监控拓扑

当前数据中心采用了某运维监控平台,对数据中心设备进行监测。用户通过客户端登录运维监控平台,查看所有被监控设备的运行情况。当前监控平台支持机房环境、网络设备、存储设备、服务器设备、系统和数据库等组件的监控,支持故障预警等服务。

2)主机监控

为确保数据中心服务器高速、稳定运转,运维监控平台从多个方面对主机服务器的硬件设备及操作系统进行监控管理和性能管理。它通过采集服务器的cpu、内存、硬盘、网卡等硬件的关键运行参数,以及软件和应用程序的进程、服务、端口等的运行状况,对系统日志进行分类扫描查询。通过数据采集和分析,运维监控平台能够及时对影响用户服务器运行性能的故障事件发送报警,并采取相应的故障处理措施,保证服务器的正常安全运行。

windows服务器监控

运维监控平台对服务器的监控支持agent代理、snmp和wmi非代理三大方式,方便不同用户对服务器全面监控的需求。

linux服务器监控

运维监控平台对linux服务器的监控支持agent代理、snmp和ssh、telnet非代理三大方式,方便不同用户对服务器全面监控的需求。

3)网络设备监控

运维监控平台可以从各个方面对数据中心的网络设备进行监测和管理,内容包括网络设备的可用性、设备性能、流量管理等等。运维监控平台的网络设备管理系统支持的网络设备,包括各种类型的交换机、路由器、防火墙、voip网关设备和其他启用了snmp协议的网络设备。

运维监控平台监测对象主要包括网络设备(路由器、交换机、防火墙)的状态,如端口,路由器cpu负载等,支持cisco、华为、港湾、juniper等各主流厂家的路由器、交换机,支持netscreen、cisco、天融信等主流厂商的防火墙等网络安全设备。

 网络设备监控

 安全设备监控

不同类型设备,所监控的内容会有不同。

4)应用监控

运维监控平台的应用监测模块可以全面智能的监测用户各种与应用相关的服务。运维监控平台对各种数据库、中间件和web从应用可用性、系统资源占用和性能指标三个方面提供全面的监测管理策略,确保应用的运行正常。

 oracle监控

 ms-sql监控

5)监测器参数设置

监测平台中所有监测器,都可以设置重试次数、超时等。

 监测器间隔:5秒 至 指定小时,如每10秒监测一次,或每5小时监测一次;

 监测器工作计划:可以设置7x24或5x8工作时间;

 错误后重试:任意重试次数,但建议不超过99;

 错误频率:监测器发生错误后,调整监测器的监测间隔,如cpu监测器原监测间隔为10分钟一次,发生错误后,监测间隔调整为1分钟一次;

 故障处理记录:针对监测器,记录故障处理的内容;

 阀值设置:最多可以设置8个阀值检测条件,每个阀值检测条件之间可以用:并、或的关系。

6)拓扑管理

自动发现能够自动识别设备类型,包括各种服务器类型、路由器、交换机、等等,以及它们之间的关系,并且自动将它们存储到公用对象库中对应的类中。

 故障告警管理

运维监控平台故障管理系统是管理数据中心的设备、网络和业务所出现的故障;帮助网管人员采集、统计和分析来自网络各方面的报警信息和故障信息,准确预警、定位和解决网络中的故障。

 故障告警方式

运维监控平台提供短信息、语音、声音、远程声音、邮件、脚本等多种方式及时发出警报。可以及时通企业的网管人员发现、定位和处理故障,让系统的管理从被动变为主动,可有效地预防故障发生,也可在故障发生时快速进行定位,及时处理好故障。

 报警控制台

关于对警报和故障的管理,运维监控平台主要通过报警控制台来进行。运维监控平台报警控制台包括四个方面:配置文件及接口数据、故障事件搜集、故障事件过滤、告警呈现。

7)用户权限设计

运维监控平台支持精细的用户分级管理功能,用户按照权限分为超级管理员和一般管理员两类:超级管理员具备全部管理功能,可以为一般管理员配置不同的用户名、密码和权限;一般管理员具备部分管理功能(例如只读)。对一般管理员的功能限制主要从两方面来进行,一方面是管理对象权限设置,另一方面是管理功能权限设置,对于一般管理员的管理对象权限设置可以精确到对任意管理对象和管理对象权限的自由组合。


数据中心运维管理方案精编

数据中心运维监控管理平台解决方案应该根据实际数据中心的管理现状来分析当前要解决的问题,这样才能因病下药,药到病除。

数据中心运维管理方案

一、管理现状

网络环境复杂

随着企业IT架构的不断扩展,网络设备、安全设备、服务器等数量增多,加之虚拟化云架构的出现和普及,数据中心的复杂程度越来越高,运维管理的需求急剧攀升。

一个稳定且高效的数据中心运维管理软件可以为政企的管理和发展提供强大的支持。

故障难定位、无统一规范

数据中心中设备需要长时间、不间断、低能耗、安全可靠的运行,一旦发生故障,需要快速定位,及时准确处理,通知业务相关部门,这一切关对于运维人员都是巨大的压力。

网强运维监控管理平台集成了从故障发现、到工单处理、处理反馈等为运维系统提供了一个完整的不管提升的流程处理机制。

IT运维成本高,如何高效可控?

一边是企业信息化需求下不断增长的IT支出,一边是不断缩减的IT预算。IT系统越来越庞大,人员却没有增加,人力资源投入导致运作成本的增加。

对于设备资产管理不到位,导致资源没有得到合理的使用。如何高效、有序、可靠地管理整个计算机网络系统,对信息中心的正常运作尤为重要。

如何保障业务稳健?

随着企业发展,IT设备也随之更新和增加,如果用传统的维护方式就会浪费大量的人力物力,同时,如果IT运维人员没有系统的知识体系,就会导致企业的IT相关工作面临极大的危机和隐患。

在日常的运维工作中,IT运维人员多在被动的处理已发生的故障,这会影响公司整体的运行,如果稍有不慎,甚至会集中爆发出一系列问题。

二、解决方案

01  

集成化整体

数据中心运维监控管理平台使用户方便地了解到当前整个网络和数据中心管理情况,包括网络设备、服务器、数据库、中间件、网页服务、链路、业务系统的当天信息和历史信息,以便从多方面了解网络的历史和实时运行情况。

对于用户管理比较复杂的网络环境与服务系统提供了便捷,在运维监控管理平台的展示中就可以看日常工作时关注的网络对象情况,而且操作步骤简单,易于用户接受。

多元化一览

数据中心运维监控管理平台支持对多种网络设备集中管理,可跨厂商、跨平台,有良好的扩展能力,同时管理大量网元数,支持灵活的分布式部署。运维监控管理平台对符合 SNMP 标准协议的设备支持全网自动发现。

一览监控提供对IT设备的资源管理、性能监控、故障定位、数据分析、资产管理、可视化展现等做到实时监控,将运维监控管理平台设备运行情况一览无余,构建网络和数据中心管理,全面提高用户管理水平。

动态化视图

网强运维管理平台动态可视化拓扑图,系统自动生成网络拓扑,直观掌控全局。

实时掌握运维监控管理平台环境中各种资源的当前分布与设备运行情况,提供丰富的图形化视图和便捷的布局模式,满足用户各种场景的拓扑展示,将复杂的网络关系以最简明、直观的方式呈现。

通过颜色策略、动态流量、告警提示变化来表示每个资源的异常等级,做到故障快速定位,帮忙IT运维管理人员快速掌握全局网络和数据中心管理状况。

智能告警监控

数据中心运维监控管理平台可以满足运维人员不同时间段不同监控的需要。

故障管理将违反阈值的指标,通过客户端,邮件,短信,微信,声光等多种方式,告知运维人员进行及时响应,并在网管故障中进行统一展现,将触发的告警信息按照告警的类型、级别、地域、时间等多维度进行智能分类,并提供知识库,方便用户对所有的异常信息进行受理和诊断。

同时结合ITIL流程理念,可与网强ITSM流程进行实时联动,故障产生后可快速在ITSM流程中生成请求工单,方便用户建立规范。

详细化报表管理

统一运维管理平台集中展示当前系统中已订阅的报表,自动定时发布所形成的日报、周报、月报、年报以及指定时间段的业务报表,可以对具体内容进行查看与配置,运维监控管理平台支持自定义报表类型,以及报表的查看权限,方便共享使用,且支持 excel、PDF格式的导出便于发布和提交,供领导查看。

三维机房管理

数据中心运维监控管理平台通过3D立体化模拟机房,以直观、交互易用的实时数据对接方式,运维监控管理平台将机房动力环境的温湿度、烟雾、漏水、电源、气体浓度、红外、门禁、视频监控系统、空调及UPS等机房动力环境监控与管理。

统一运维管理平台与网络环境的IT 资源机柜拓扑联动,完整集成到机房管理中进行全面监控、打造网络和数据中心管理信息。

IT流程管理系统

数据中心运维监控管理平台以ITIL/ITSM为核心实现工单管理规范和自动化统一运维管理平台,将运维监控管理规范化为一系列标准流程,包括服务台、事件管理、问题管理、变更管理服务进行规范定义,简化事件处理流程,提高运维监控管理水平。

对工单类型、状态、申告人进行展示管理,实现工单派发,直接在工单列表进行工单处理、工单扭转、工单关闭等过程的规范和自动化,以图形的形式,实时记录全部的操作流程,展示工作的流向顺序,明确流程管理责任,提高网络和数据中心管理工作效率。

实用与便捷的知识库

数据中心运维监控管理平台提供内建的知识库,同时支持用户多分级多分类的知识体系建立,在系统上快速构建自己的知识库。

知识库是为了逐步建立和完善事件处理和性能分析的知识,记载对不同告警情况的不同处理手段以及对异常的能指标所采取的优化措施,以供查询、共享经验,为维护人员处理告警、性能分析提供辅助分析决策,可进行快速查看知识,自动解决问题,减少运维人员的工作压力。

全生命周期管理

数据中心运维监控管理平台统计企业所有设备硬件及软件资产,将众多IT设备信息整合,高效统一运维管理企业设备资源,展现硬件、软件以IT服务之间的逻辑关系。清晰查看其相互之间的父子依赖关系。

统一运维管理平台记录设备资产上线、维修、申领、报废、借出、报废、合同信息、维护商等资产数据管理进行系统化管理,并详细记录每个设备的使用情况和各种状态变更记录,如维修的次数、借出、使用人员变更等,掌握资产走向,避免资产走向不明。

视频运维监控管理平台

网强的智能视频管理是业界首创的真正以运维人员的需求和设备运行维护保障的视角出发,统一运维管理平台将整合跨厂商跨平台的管理模式,将分级下属的视频设备进行统一展现和管理,视频设备的运行情况,统计概括,根源分析,以全局管理帮助用户进行网络和数据中心管理和分析。

运维监控管理平台做好事前预防、事中根源分析找到问题源头、事后统计分析。运维监控管理平台确保视频设备正常使用和运行维护状况,对网络和数据中心管理进行有效管理,保障视频监控业务的可靠连续和高质量运行。

数据中心运维监控管理平台,是网强公司为政府、企业、医疗等各单位的数据中心的运维服务和运维监控提供的一体化自动化的管理平台。可管理网络设备、服务器、数据库、中间件、服务、安全设备、虚拟机集群、存储运维管理、机房动环等, 能实现运维监控管理、统一运维管理。

满足各行业网络和数据中心管理的运维功能需求,数据中心综合管理平台集成了监控管理平台和运维管理平台,实现了从设备集中监控、集中告警、集中展示到设备CMDB管理、ITSM流程管理、数据中心能力管理的全面数据中心综合管理平台,打造一体化智慧运维解决方案。

拓扑管理

自动发现能够自动识别设备类型,包括各种服务器类型、路由器、交换机、等等,以及它们之间的关系,并且自动将它们存储到公用对象库中对应的类中。

 故障告警管理

华胜运维监控平台故障管理系统是管理数据中心的设备、网络和业务所出现的故障;帮助网管人员采集、统计和分析来自网络各方面的报警信息和故障信息,准确预警、定位和解决网络中的故障。

 故障告警方式

华胜运维监控平台提供短信息、语音、声音、远程声音、邮件、脚本等多种方式及时发出警报。可以及时通企业的网管人员发现、定位和处理故障,让系统的管理从被动变为主动,可有效地预防故障发生,也可在故障发生时快速进行定位,及时处理好故障。

 报警控制台

关于对警报和故障的管理,华胜运维监控平台主要通过报警控制台来进行。华胜运维监控平台报警控制台包括四个方面:配置文件及接口数据、故障事件搜集、故障事件过滤、告警呈现。

用户权限设计

华胜运维监控平台支持精细的用户分级管理功能,用户按照权限分为超级管理员和一般管理员两类:超级管理员具备全部管理功能,可以为一般管理员配置不同的用户名、密码和权限;一般管理员具备部分管理功能(例如只读)。对一般管理员的功能限制主要从两方面来进行,一方面是管理对象权限设置,另一方面是管理功能权限设置,对于一般管理员的管理对象权限设置可以精确到对任意管理对象和管理对象权限的自由组合。

一套完整数据中心机房工程管理实施方案

01

正文

第1章机房工程的管理技术制度与要求

管理是为了实现预期的目标进行的协调活动。为确保机房安全运转、工作有序开展、设备正常使用,机房需要制定管理规章制度。

机房管理就是对制定的规章制度执行、检查和改进。执行就是按照制定的规章制度去实施;检查就是将执行的过程或结果与规章制度进行对比,总结出经验,找出差距;改进是通过检查总结出的经验,将经验转变为长效机制或新的规定,针对检查发现的问题进行纠正,制定纠正、预防措施。

随着云计算的发展,机房规模急剧扩大(大、中型机房通常是指面积数千至数万平方米)、机房数量不断增加,由小规模、封闭式、单一功能向大规模、开放式、多功能方向发展,机房管理更为重要。机房管理水平的高低也直接影响着机房的使用率和使用寿命,机房管理应引起机房管理人员的高度重视。

1.1机房管理科长和管理人员的岗位职责1.1.1机房管理科长岗位职责

机房管理科长(组长、主管领导或经理)是中心领导管理好机房日常运维工作的得力助手和参谋。机房管理是管理科长日常工作的全职岗位,对于机房管理科长来说,机房管理是为了使机房设备正常运转,保障机房有良好的运行环境和工作环境。机房管理科长的岗位职责要重点注意如下内容:

1)严格制度。机房管理是一项看得见、摸得着的实际工作,面对诸多因素和关系,必须“严”字当头。机房日常管理应根据实际需要,抓常规管理。建立、健全计算机机房的各项规章制度是机房管理工作的前提。制定相应的机房管理制度,使日常管理工作做到有章可循,有据可依。

2)严格管理。作为部门领导一定要有从严管理的指导思想,要严格管理、严格要求,并使这种严格思想贯彻落实到管理工作的全过程,在实际工作中要常讲、常查,要不怕得罪人,必要时还要制定各种奖惩措施。

3)做好日常运维和巡检工作,包括配电、空调、消防等设施的检查工作。

4)不断学习。机房管理牵涉面广,事务又多,是一项专业性强、“繁”、“杂”、“难”、“累”的工作,具有一定的不可预见性,且不同程度地存在技术难度。目前国内许多报刊杂志包括互联网络中,有关机房管理的介绍层出不穷,机房管理科长需要有责任心和不断学习的进取心。机房管理科长除了要掌握丰富的计算机软硬件知识和具有较强的动手能力外,还需要掌握一定的设备管理技巧,学习各种设备如配电系统、地线系统、空调、防火设备、UPS等的正确操作方法,从而杜绝因操作不当造成的人为事故。不断学习,总结经验,取长补短,才能做好机房管理工作。

5)做好机房的防火、防盗及供电系统、空调系统、通风系统的安全和日常养护工作,提高安全意识。定期检查安全设施情况,并做好记录,发现问题立即整改。

6)定期检修,重视完善。机房以及有关设备也有老化、更新、修复等问题,除进行日常的检修外,还应对机房建设时存在的缺陷,机件的磨损、老化,紧固件的松动,装修变形等问题定期检修、更改或完善。坚持每年定期对机房整修一次,即检测安全防火设备、检修空调设备、除尘、玻璃隔断调整加固、照明设备检修、安全防盗、协调相关设备维修人员进行维修,安排好相关维修工作。

7)对于发生的故障与事故及时逐级上报,并做协调工作,做好故障与事故的记录工作,做好问题的分析和跟进处理工作。

8)完善电气系统设备技术档案和资料,建立相关管理制度、操作规程、应急预案等。

9)在制度化管理上下功夫,组织、指导、制定年度工作计划和各种操作规程、管理规定、岗位职责和安全责任制等,并监督落实,以实现科学、有序、安全的管理。

10)机房不能出现事故,加强巡视巡检。要管理好机房不是一件容易的事情在条件许可的情况下,应建立经济合理的易损件、易耗件的备用库,保证及时更换,定期更换。对设备的运行情况进行分析,制定预防和常用解决方案,从而保证机房的正常运转。

11)严格机房钥匙管理,机房钥匙只允许管理人员配带。

1.1.2机房管理科长的“三心”

机房管理科长的三心即责任心、学习心、宽容心。

1.责任心

责任心主要有如下内容:

(1)安全管理

机房安全是第一位的,可以说是机房管理体系的灵魂。威胁机房安全的因素主要有火灾、设备故障、病毒。机房安全管理就是告诉人们,在进行机房管理的同时,通过采用计划、组织、技术等手段,依据机房、环境因素的运动规律,采取控制措施,预防事故的发生。

(2)六个坚持

六个坚持是指:

1)坚持管机房同时管安全;

2)坚持按操作规程管理机房;

3)坚持预防为主;

4)坚持全员管理;

5)坚持设备维护;

6)坚持日常巡检工作。

(3)四不放过

四不放过是指在调查处理机房事故时:

1)必须坚持事故原因分析不清不放过;

2)员工及事故责任人受不到教育不放过;

3)事故隐患不整改不放过;

4)事故责任人不处理不放过。

(4)文明管理

文明管理是指在管理时:

1)具有文明的措施(机房的各项规章制度);

2)建立管理组织,明确岗位职责,健全管理制度(培训教育、检查、奖惩、卫生等专项管理制度);

3)进行现场管理。

2.学习心

科长的大部分时间是做机房管理的实际工作。他要不断地学习各种设备的正确操作方法和管理方法,管理的思维方式与知识结构要紧跟时代的步伐,并在技术上与项目一起成长。只有这样才能让科长提高领导能力,在管理工作中伸展自如、张弛有度。

3.宽容心

科长要有宽容的心态,特别是对比较年轻的员工。现在的员工都比较年轻,没有社会的阅历,自我为中心的意识强、自尊心强,有时候会做出一些过分的行为。当员工做了错事或工作中出现差错时,不要谴责,不要去追究责任。作为科长,应该多花一些精力去关心员工,多给予理解,做到“宰相肚里能撑船”,了解事情的起因,避免将来再犯错。

年轻员工有自己的长处和短处,要经常表扬他的长处,求同存异,具有一颗宽容的心。

1.1.3管理人员岗位职责

机房日常运行、维护是管理人员的全职工作岗位。管理人员的岗位职责需要重点注意如下内容:

1)负责机房电气系统的运行、维护、保养、管理工作。

2)认真贯彻落实岗位责任制,遵守各项规章制度,严格执行操作规程和员工守则。严格执行机房值班制度,做好值班记录;严格执行机房设备使用登记制度,做好设备登记工作。

3)熟悉设备操作规程,熟悉仪器仪表使用方法。熟悉、掌握设备的原理、布置、控制、设备性能、使用状况及运维操作。维护工作应遵循设备故障与维修的操作步骤、基本原则和维修方法进行。机房应备有设备所用的各种零配件,供维修使用。

4)服从领导的调度和工作安排,按时、按质、按量地完成任务,不擅自离岗和串岗,禁止在上班时间炒股、浏览无关新闻、网上游戏、看在线电影、听音乐等。

5)努力学习,不断提高思想素质和业务技术水平,全面熟悉管辖范围内的各种操作规程,提高工作效率、质量。

6)认真填写原始记录,分析设备运行情况,并掌握其规律,发现问题及时解决,准确无误地填制各种报表和表格。

7)勤巡查,发现问题及时向管理科长汇报,听取指示。

8)参与并协助设备的维护和保养工作。设备发生故障及时组织检修,发现隐患及时组织处理,做好技术把关工作,保证所管辖系统设备处于优良的技术状态。做到“三干净”(设备干净、机房干净、工作场地干净)、“四不漏”(不漏电、不漏油、不漏气、不漏水)、“五良好”(使用性能良好、密封良好、润滑良好、紧固良好、调整良好)。

9)发扬主人翁精神,开动脑筋,大胆提出合理化建议。

10)做好本班设备的年月检修保养计划和备品备件计划,报主管审核。

1.2机房内管理的内容1.2.1制定机房管理的规章制度

建立健全计算机机房各项规章制度是做好机房管理的关键。在机房日常管理工作中应根据系统的具体情况、工作性质,制定出一套完善的机房管理规章制度,以保证机房正常运行。规章制度用来规范机房的管理,是机房管理的标准。规章制度要通过日常工作中对它的执行来体现和完善。机房管理制度一般包括:管理科长岗位负责制、技术管理岗位职责、中心机房管理制度、安全运行管理制度、计算机病毒防范管理制度、安全管理制度、故障机维修登记制度、机房违章处理制度、机房巡检制度等。有了章法,机房管理就有了依据,严格管理的指导思想也能落在实处。

1.2.2大、中型机房的日常维护工作管理的内容

大、中型机房的日常维护工作的管理要重点注意如下内容:

1)保持机房整洁卫生,管理人员负责日常维护及机房卫生工作,做到一天一小扫,一周一大扫,保持机房清洁干净,防尘防潮,防止鼠虫进入。

2)不准在机房内会客,谢绝外单位人员进入机房,禁止聊天、喧哗、吃零食、抽烟、乱扔杂物等,保持机房整洁安静。

3)严禁携带易燃、易爆及强磁性物品进入机房。

4)设备一般不得用于私事,严禁在设备的计算机终端上玩游戏,禁止装入其他无关的软件或将计算机挪作他用。

5)日常检测,包括对设备运作情况及系统应用情况的检测。

①设备运行情况检测:

·每日分8次(每3小时)定时进行主要网络设备的检测。做好每日网络巡查与服务器运行情况记录。

·每日对外网服务器日志进行分析,对长时间扫描的IP做好记录,并采取跟踪,一旦发现问题及时处理,把隐患消灭在萌芽状态。

·定期运用系统的网络监视器、网管软件,对网络漏洞进行自我扫描检测,进行分析,做好相应记录。

②系统应用情况检测:

·对应用软件要每天进行检测,及时升级,特别是防毒软件的升级。

·各种应用功能配置参数进行修改时必须与值班人员一同进行,并登记记录。新增加功能必须经过主管领导签字同意。

6)如发现机器故障应及时向主管及上级领导报告,并负责计算机及外设的日常维护与排除故障,处理不了的问题应立即向有关单位联系解决。遇到紧急情况不要慌张,切忌手忙脚乱。在遇到三包范围内的故障时,应及时催促公司上门或将机器送公司维修。

7)机房计算机只供机房工作人员使用。未经组长同意,任何人不准随意删改和增加系统文件,不得将机房内资料、工具等物品带出机房。

8)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。外单位需借出设备及物品,应有单位证明和经手人签名的借条,经主管领导批准后,机房工作负责人才能开具放行条。未经主管领导同意,不准自行复制系统内所有的软件和数据或将其赠送、转借给外单位人员。

9)经常检查网络和各设备运行情况,发现问题及时解决,并向主管领导报告。

10)其他人员需使用机房内设备应征得管理人员许可,并报经主管同意后方可进入机房。

11)对机房内网络与设备的运行、应用、维护、查看等情况,建立档案,做好系统日志。要对发生的故障(隐患)以及排除故障情况做好详细记录;值班人员必须认真、如实、详细填写《机房日志》等各种登记簿,详细记录来人、事件、处理经过等,以备后查。定时做好中心服务器的日志和存档工作,任何人不得删除运行记录的文档,否则追究责任。如机房发现意外和紧急情况要及时报告,对重大事故要注意保护好现场。

12)要统一管理机房内的设备,计算机及其相关设备的驱动程序、保修卡等随机文件与资料要保存完整。要明确专人负责计算机文档、信息化等资料的保管,要做到资料齐全,存放安全。

13)机房内的交换机和服务器是公司办公自动化的关键设备,任何人不得自行配置或更改系统参数。

14)各客户机应及时做好自身数据的保存工作,不得擅自更改系统及网络设置。如确有工作需要应报至办公室,由办公室指派专人进行,并记录在案。

15)要做好机房的安全工作,对服务器的各种账号、密码严格保密。对网络运行做好监控、做好记录。

16)要及时做好各服务器系统的补丁修正与升级工作。

17)管理人员要有较强的病毒防范意识,要定期对病毒库进行检测,并做好病毒库系统的定时升级工作。发现病毒应及时处理,并做好记录。

18)未经许可,不得在各服务器上安装新软件。如确实工作需要安装,要经过有关领导批准。

19)应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全地恢复。所有备份数据不得更改,并要求做到本地和异地双备份保存。

20)机房内所有设备应妥善保管,任何人不得擅自开关、移动或者使用机房中的任何设备,如有此方面的需要,需有主管领导的批示。

1.2.3大、中型机房的日常安全管理的内容

大、中型机房的日常安全管理,要重点注意如下10点内容:

1.出入机房管理的内容

1)严禁非机房工作人员进入机房,特殊情况需经中心负责人批准,并认真填写登记表后方可进入。严禁非工作人员上机操作。进入机房人员应遵守机房管理制度。

2)进入机房人员不得携带任何易燃、易爆、腐蚀性、强电磁、辐射性、流体物质等对设备正常运行构成威胁的物品。严禁将其他与机房工作无关的物品带入机房。

3)若管理人员申请调走,报告经单位批准前,重大的管理工作提前交接,把密码、钥匙、注意的问题等交接给单位指定人员。

2.机房防火管理的内容

机房是重点防火单位,应做好防火工作。机房工作人员必须严格遵守各项操作规程。拆装设备时必需断电,不允许带电作业;维修设备时必须先切断设备电源,再行维修;禁止使用汽油、酒精等易燃易爆品清洗带电设备;严禁在机房内吸烟和使用加热器具。

防火管理的重点是气体灭火系统能否发挥正常作用。对气体灭火系统维护管理要注意如下4点内容:

1)气体灭火系统应由经过专门培训,并经考核合格的人负责定期检查和维护。

2)应做好对气体灭火系统的定期检查,并做好记录。检查中发现的问题应及时处理。

3)每月应对系统进行一次检查,发现问题应及时处置,检查内容及要求如下:

·对全部系统组件进行外观检查,系统组件应无碰撞变形及其他机械性损伤,表面应无锈蚀,保护漆层应完好,铭牌应清晰,手动操作装置的保护罩、铅封和安全标志应完整。

·全部系统组件的安装位置不得有其他物件阻挡或妨碍其正常工作。

·驱动控制盘面板上的指示灯应正常,各开关位置应正确,各接线应无松动现象。

·火灾探测器表面应保持清洁,应无任何会干扰或影响火灾探测器探测性能的擦伤、油渍及油漆。

·储存容器上的压力表,其指针应在正常的范围内。

·设备可否移位。

·设备工作是否正常。

4)每年应对系统进行两次全面检查,检查内容和要求除按月检查的内容外,还应符合如下要求:

①防护区的开口情况、防护区的用途及可燃物的种类、数量、分布情况,应符合设计规定。防护区外的疏散通道应保持畅通。

②储存容器的固定支架,应无松动现象。

③灭火剂输送管路与喷嘴的连接、灭火剂输送管路本身的连接应安装牢固。

④灭火剂输送管路及电气管路的固定支架应无松动现象。

⑤高压软管应无变形、裂纹及老化。

⑥各喷嘴孔口,应无杂物堵塞。

⑦对每个防护区进行一次模拟自动启动试验。

⑧手动控制、手动/自动切换、紧急停止操作、备用灭火剂储存容器切换操作应正常。

⑨探测设备运行情况检查:主要检查连接线路及探测器灵敏性。

⑩控制设备运行情况检查:

·控制器接受火灾信号情况(包括探测、急启、急停、反馈)。

·控制器接受故障信号情况(包括探测、急启、急停、反馈、主备电、阀线)。

·控制器联动性能及各个被联动器件的性能。

·记录并分析控制器储存信息。

[11]建立灭火系统使用档案,对使用、检查、维修与试验做详细记录。

3.机房用电安全管理的内容

1)机房人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程,注意用电安全,无触电隐患,注意节约用电。

2)机房应安排有专业资质的电工定期检查供电、用电设备、设施。

3)机房内不得乱拉乱接电线、电源,应选用安全、有保证的供电、用电器材。

4)在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。

5)严禁随意对设备断电、更改设备供电线路;严禁随意串接、并接、搭接各种供电线路。

6)如发现用电安全隐患,应立即采取措施解决,不能解决的必须及时向相关负责人员提出解决。

7)禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。

8)在使用功率超过特定瓦数的用电设备前,必须得到机房管理人员批准,并在保证线路保险的基础上使用。

9)在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。

4.设备安全管理的内容

机房设备要保持清洁、卫生,定期打扫,不定期对机房内设备进行检查,发现故障及时检修,并要登记、报告。因违章作业造成事故损失的,要按责任事故处理。设备安全管理的具体内容如下:

1)机房人员必须熟知机房内设备的基本安全操作和规则。

2)定期检查、整理硬件物理连接线路,定期检查硬件运作状态(如设备指示灯、仪表),从而及时了解硬件运作状态。

3)禁止随意搬动设备、随意在设备上进行安装、拆卸硬件或随意更改设备连线,禁止随意进行硬件复位。

4)路由器、交换机和服务器以及通信设备是网络的关键设备,不得自行配置或更换,更不能挪作他用。要定期检查是否规范,经有关领导同意后再变更。

5)网管人员应做好网络安全工作,服务器、各种核心设备等的各种重要账号严格保密,规范管理。监控网络上的数据流,从中检测出攻击的行为并给予响应和处理。做好操作系统的补丁修正工作。

6)禁止在正式运行的服务器上进行试验性质的配置操作,需要对服务器进行配置,应在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

7)不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。未经机房管理人员允许,更不允许他人操作机房内部的设备,对于核心服务器和设备的调整配置,更需要小组人员的共同同意后才能进行。

8)对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。

9)对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备进行更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。

10)网管人员统一管理计算机及其相关设备,完整保存计算机及其相关设备的驱动程序、保修卡及重要随机文件。

11)值班人员必须密切监视中心设备运行状况以及各网点运行情况,确保安全、高效运行。

12)未经负责人批准,不得在中心机房设备上编写、修改、更换各类软件系统及更改设备参数配置。各类软件系统的维护、增删、配置的更改,各类硬件设备的添加、更换必须经负责人书面批准后方可进行;必须按规定进行详细登记和记录,对各类软件、现场资料、档案整理存档。

13)健全中心全部设备固定资产账目,机房内所有设备、仪器、仪表等物品要妥善保管。管理人员每学期核对一次,做到账、物相符。

14)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。外单位需借出设备及物品,应有单位证明和经手人签名的借条,经主管领导批准后,机房工作负责人才能开具放行条。

5.计算机病毒防范管理的内容

1)对新购进的计算机及设备,为防止原始计算机病毒的侵害,要组织专业人员检查后方可安装运行;软盘、光盘等移动媒体,以及外来的系统和软件、下载软件等要先进行计算机病毒检查,确认无计算机病毒后才可以使用;严禁使用未经清查的、来历不明的软盘、光盘等。

2)要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和检查。要安装防计算机病毒软件,并定期或及时(随时)更新(升级)计算机病毒防范产品的版本;要使用国家规定的、具有计算机使用系统安全专用产品销售许可证的防计算机病毒产品。

3)跟踪计算机病毒发展的最新动态,及时了解计算机病毒,特别是有严重破坏力的计算机病毒的爆发日期或爆发条件,在一些破坏性较大的计算机病毒发作日期前,要及时在网上发布通知。

4)禁止任何人利用本单位计算机下载、复制、观看和传播各类与工作无关的视频文件。

5)禁止任何人利用本单位计算机查看、复制互联网上与工作无关的信息。

6)严禁使用盗版软件,特别是盗版的杀毒软件,严禁在工作计算机上安装、运行各类游戏软件。

7)外来人员携带来的各种可以在计算机上运行的文件及软件等数字信息,未经同意,禁止复制到本单位计算机内。如遇特殊情况,必须由相应的信息管理部门人员使用最新版本的反病毒软件检测通过后,方可使用,检测人员及时做好来访和检测记录,以备查看。

8)服务器要尽量做到专机专用,特别是具有读写权限、身份确认功能的认证服务器一定要专用;对共享的网络文件服务器,应特别加以维护,控制读写权限,不在服务器上运行无关软件和程序。

9)随时注意计算机的各种异常现象,一旦发现,应立即用查毒软件仔细检查。

10)服务器要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和分析;特别是邮件服务器。发现病毒立即处理并通知上级管理人员。

11)一旦发现中心服务器有被侵入及恶意攻击的记录,应及时采取措施遏止并向主管领导报告;一旦发生计算机病毒疫情,要启动应急计划,采取应急措施,将损失降到最小。

12)发现或受到“计算机病毒”攻击后的管理措施:

·当出现计算机病毒传染迹象时,立即隔离被感染的系统和网络,并进行处理,不应带“毒”继续运行;

·发现计算机病毒后,一般应利用防杀计算机病毒软件清除文件中的计算机病毒;杀毒完成后,重启计算机,再次用防杀计算机病毒软件检查系统中是否还存在计算机病毒,并确定被感染破坏的数据是否确实完全恢复;

·如果破坏程度比较严重,或感染的是重要数据文件,则自己不要盲目修复,而要请计算机病毒防范的专业人员处理,即使是计算机专业人员也要慎重;

·对于杀毒软件无法杀除的计算机病毒,应将计算机病毒样本送交有关部门,以供详细分析。

·若发现网上有色情及政治敏感内容,及时报告有关部门处理。

13)单位应定期与不定期对制度的执行情况进行检查,督促各项制度的落实,并作为人员考核的依据。

6.防雷管理的内容

1)防雷装置应当每年检测一次,对爆炸和火灾危险环境场所的防雷装置应当每半年检测一次。

2)防雷装置投入使用后,应建立管理制度,指定专人负责,做好防雷装置的日常维护工作。发现防雷装置存在隐患时,应当及时采取措施进行处理。对防雷装置的设计、安装、隐蔽工程图纸资料、年检测试记录等,均应及时归档,妥善保管。

3)每年雷雨季节前应对接地系统进行检查和维护。主要检查连接处是否紧固、接触是否良好、接地引下线有无锈蚀、接地体附近地面有无异常,如果发现问题应及时处理。

4)接地网的接地电阻宜每年采用数字式接地电阻测量仪进行一次测量。

5)每年雷雨季节前应对运行中的防雷元器件进行一次检测,雷雨季节中要加强外观巡视,发现异常应及时处理。

6)当发生雷击事故后,应及时调查分析原因和雷害损失,提出改进防护措施。

设备遭受雷击后应对损坏情况进行调查分析,调查分析内容主要包括:

·各种电气绝缘部分有无击穿闪络的痕迹,有无烧焦气味,设备元件损坏部位,设备的电气参数变化情况;

·各种防雷元件损坏情况,参数变化情况。

·安装了雷电测量装置的,应记录测量数据,计算出雷电流幅值。

·了解雷害事故地点附近的情况,分析附近地质、地形和周围环境特点及当时的气象情况。

·保留雷击损坏部件,必要时对现场进行拍照或录像,做好各种记录。

·根据上述调查情况,组织有关专家分析,写出调查分析报告及改进措施。

7.软件安全管理的内容

1)必须定期检查软件的运行状况,进行数据和软件日志备份。

2)禁止在正式运行的服务器上进行试验性质的软件调试,禁止在服务器上随意安装软件。需要对服务器进行配置,必须在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

3)对会影响到全局的软件更改、调试等操作应先发布通知,并且应有充分的时间、方案、人员准备,才能进行软件配置的更改。

4)对重大软件配置的更改,应先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改,并应做好详细的更改和操作记录。对软件进行更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先备份原有软件系统和落实好应急措施。

①制定周详的事前预防策略,具体如下:

·对信息传递途径进行控制,实现通信设备和存储设备的控制;

·通过网络接入保护,实现外来计算机的接入局域网限制;

·安装严密的报警系统,对非法接入进行及时报警提示;

·制定周详的互联网信息传递阻断策略,对非法信息传递进行阻断。

②对泄密行为进行事中记录和控制,具体如下:

·对泄密行为及时启动控制和报警系统;

·对泄密过程进行屏幕记录,方便现场查看,事后录像回放;

·详尽的电子文档操作痕迹记录,包括访问、创建、复制、改名、删除、打印等操作;

·集中审查终端共享,防止共享泄密行为。

③详尽的日志信息,提高事后追查的准确率,具体如下:

·进行电子文档操作及屏幕记录,便于信息泄密事后追查;

·对互联网信息传递进行记录,便于信息泄密事后追查;

·对系统用户进行日志审计,实现系统安全管理。

5)不允许任何人员在服务器等核心设备上进行与工作范围无关的软件调试和操作。未经机房管理人员允许,不能带领、指示他人进入机房和对网络及软件环境进行更改和操作。

6)系统管理员对业务系统进行数据整理、故障恢复等操作,必须有其上级授权。

7)系统管理员不得使用他人操作代码进行业务操作。

8)系统管理员调离岗位,上级管理员(或相关负责人)应及时注销其代码并生成新的系统管理员代码。

9)对数据实施严格的安全与保密管理,防止系统数据的非法生成、变更等,严格按照专业备份要求管理。机房管理人员应恪守保密制度,不得擅自泄露中心各种信息资料与数据,也要注意与外方合作工作时各种信息资料与数据的保密。

10)为确保数据的安全保密,对单位及内部人员送交的数据及处理后的数据都必须按有关规定履行交接登记手续。

8.机房资料、文档和数据安全管理的内容

1)资料、文档、数据等必须有效组织、整理和归档备案。

2)禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其他无关人员或向外随意传播。

3)对于牵涉网络安全、数据安全的重要信息、密码、资料、文档等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关数据的,应由机房相关负责人代为查阅,并只能向其提供与其当前工作内容相关的数据或资料。

4)重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据应保证其可还原性,防止遗失重要数据。

5)服务器、路由器等重要设备的超级用户密码由指定专人(不参与系统开发和维护的人员)设置和管理,并由密码设置人员将密码装入密码信封,在骑缝处加盖个人名章或签字后交给密码管理人员存档并登记。如遇特殊情况需要启用封存的密码,必须经过相关部门负责人同意,由密码使用人员向密码管理人员索取,使用完毕后,须立即更改并封存,同时在“密码管理登记簿”中登记。

6)系统维护用户的密码应至少由两人共同设置、保管和使用。密码应定期修改,间隔时间不得超过一个月,如发现或怀疑密码遗失或泄漏应立即修改,并在相应登记簿记录用户名、修改时间、修改人等内容。

7)机房内使用的文献、书籍和文具不允许私自带出。

8)存放备份数据的介质必须具有明确的标识。备份数据必须异地存放,并明确落实异地备份数据的管理职责。

9)注意计算机重要信息资料和数据存储介质的存放、运输安全和保密管理,保证存储介质的物理安全。

10)任何非应用性业务数据的使用及存放数据的设备或介质的调拨、转让、废弃或销毁必须严格按照程序进行逐级审批,以保证备份数据安全完整。

11)数据恢复前,必须对原环境的数据进行备份,防止有用数据的丢失。数据恢复过程中要严格按照数据恢复手册执行,出现问题时由技术部门进行现场技术支持。数据恢复后,必须进行验证、确认,确保数据恢复的完整性和可用性。

12)数据清理前必须对数据进行备份,在确认备份正确后方可进行清理操作。

13)需要长期保存的数据,数据管理部门需与相关部门制定转存方案,根据转存方案和查询使用方法要在介质有效期内进行转存,防止存储介质过期失效,通过有效的查询、使用方法保证数据的完整性和可用性。转存的数据必须有详细的文档记录。

14)管理部门应对报废设备中存有的程序、数据资料进行备份后清除,并妥善处理废弃无用的资料和介质,防止泄密。

15)重要文件资料既要建立、保存文字资料,同时还要建立保存磁盘文件资料。

9.电源及UPS管理的内容

1)机房内的电源开关、电源插座要明确标出控制的设备。

2)在电源配电盘附近张贴电源系统图。

3)不得随便改变线路和变动开关。

4)保持适宜的环境温度。影响蓄电池寿命的重要因素是环境温度,一般电池生产厂家要求的最佳环境温度是在20~25℃之间。虽然温度的升高对电池放电能力有所提高,但付出的代价却是电池的寿命大大缩短。据试验测定,环境温度一旦超过25℃,每升高10℃,电池的寿命就要缩短一半。

5)UPS电源在正常使用的情况下,主机的维护工作很少,主要是防尘和定期除尘。大量灰尘会造成器件散热不好。一般每季度应彻底清洁一次。其次就是在除尘时,检查各连接件和插接件有无松动和接触不牢的情况。

6)熟悉UPS的工作原理和操作规程。

7)需经常检查的项目有:

·清洁并检测电池两端电压、温度;

·连接处有无松动,腐蚀现象;

·电池外观是否完好,有无壳变形和渗漏;

·极柱、安全阀周围是否有酸雾逸出;

·主机设备是否正常。

8)对UPS的工作异常情况要做好记录,并及时联系有关单位进行处理。

9)UPS应妥善保养,除了电池自动检测外,每3个月放电一次。

10.空调管理的内容

1)本着正确使用、安全管理、专人负责、中低运行、节约用电的原则,切实保障空调的有效使用和管理。网络中心机房为保证设备良好的工作环境,应保持合适的机房温度和湿度,机房温度应保持在23℃~26℃,机房湿度应低于70%。

2)巡视监控。当值管理员每隔2小时巡视一次中央空调机组,巡视部位包括中央空调主机、冷却塔、控制柜(箱)及管路、闸阀等附件。巡视监控的主要内容如下:

·检查线电压(正常380 V,不能超额定值的±10%)。

·检查三相电流(三相是否平衡,是否超额定值)。

·检查气压(正常500 mmH2O)。

·检查高压(<12 kgf/cm2)。

·检查低压(>2.5 kgf/cm2)。

·冷却水进水温度(正常<32℃)。

·冷冻水出水温度(正常6℃~8℃)。

·检查中央空调主机运转是否有异常振动或噪音。

·检查冷却塔风机运转是否平稳、冷却塔水位是否正常。·检查管道、闸阀是否有渗漏,冷冻保温层是否完好。

·检查控制柜(箱)鉴别元器件运作是否正常,有无异常噪音或气味。

巡视过程中如发现上述情况有不正常时,当值管理员应及时采取措施予以解决,处理不了的问题应及时详细地向上级汇报。整改时,应严格遵守《中央空调维修保养标准作业规程》。

3)中央空调机房管理具体内容如下:

·非值班人员不准进入中央空调机房,若需要进入,须经工程部主管同意,并在值班人员的陪同下方可进入中央空调机房。

·中央空调机房内严禁存放易燃、易爆等危险品。

·中央空调机房内应备齐消防器材、防毒用品,并应放置在方便、显眼处。中央空调机房内严禁吸烟。

·每班打扫一次中央空调机房的卫生,每周清洁一次中央空调机房内的设备设施,做到地面、天花板、门窗、墙壁、设备设施表面无积尘、无油渍、无锈蚀、无污物,表面油漆完好,整洁光亮。

·中央空调机房内应当通风良好,光线足够,门窗开启灵活。

·中央空调机房应当做到随时上锁,钥匙由当值班管理员保管,当值管理员不得私自配钥匙。

·接班人员应准时接班,接班人员应认真听取交班人员交代,并查看《中央空调运行日记》,检查工具、物品是否齐全,确认无误后在《中央空调运行日记》表上签名。

·对于中央空调的运行情况,当值管理员应及时、完整、规范、清晰地记录在《中央空调运行日记》表内,并于每月的2日之前把上一个月的记录整理成册后存档,并报一份到后勤管理处,保存期为2年。

4)定期进行日常巡视,确保空调系统的正常运行。

5)定期进行一次室外机的清理,防止因散热不良造成空调的工作异常。

6)每年进行一次全面检修。

1.3机房巡检的要求

机房巡检是机房管理的重要组成部分。机房巡检人员在系统巡检计划的指导下完成巡检作业。巡检对象主要是针对机房中比较重要、比较关键的设备。目的是及时查找、发现信息系统设备隐患,排除故障。机房巡检的设备不同、使用环境不同、季节不同,巡检的周期和频次也有所不同。

巡检时需带巡检内容的常备工具,做到眼见、耳听、鼻闻、手摸、工具检查,加强对巡检设备关键内容的巡检力度,防患于未然。

机房巡检必须要有记录,巡检记录直接关联到巡检的效果。管理人员利用巡检能够掌握机房运行情况,能更好地对数据进行客观的统计、研究,为领导作出迅速、准确的判断和决策提供科学依据。巡检记录的覆盖面要全面,操作性要强。

巡检记录应在巡检期间填写,以记录时间为准,不得事后补填或超前记录。巡检记录及时填写电子版以供做周汇报时附加;纸介质的巡检记录表必须妥善归档保存。

1.4机房巡检的具体内容1.4.1供配电巡检的具体内容

1.4.2给排水巡检的具体内容

1.4.3空调系统巡检的具体内容

1.4.4消防巡检的具体内容

1.4.5网络设备巡检的具体内容

网络设备巡检分工作状态巡查和网络设备具体内容的巡检。

1.网络主要设备工作状态巡查

为保证网络正常运行,需要每日分三次定期进行网络主要设备(服务器、路由器、交换机、防火墙、磁盘阵列)的工作状态巡查。做好每日网络设备主要巡查和巡查记录。

2.网络设备巡检具体内容

每日分三次定期进行网络主要设备(服务器、路由器、交换机、防火墙、磁盘阵列)的具体内容巡检。巡检具体内容如表8-7所

1.4.6机房环境巡检的具体内容

1.4.7照明巡检的具体内容

1.4.8防雷巡检的具体内容

1.5机房巡检的台账内容

台账原是指摆放在台上供人翻阅的账簿,故名台账。台账是明细记录表,为了加强某方面的管理、更加详细地了解某方面的信息而设置的一种辅助账簿,没有固定的格式,没有固定的账页,可根据实际需要自行设计,尽量详细,以全面反映某方面的信息。

1.6机房参观管理

新一代的机房,普通人很难进入,为了让更多的人了解新一代的机房,同时也进一步提高员工的爱岗敬业意识,更好地宣传公司形象、发展公司新业务,机房安排外来人员参观。

机房安排外来人员参观要注意如下7点:

1)外来人员参观机房,须有公司指定人员陪同。

2)计算机处理秘密事务时,不得接待参观人员或靠近观看。

3)操作人员按公司陪同人员要求可以在计算机演示、咨询;对参观人员不合理要求,陪同人员应婉拒,操作人员不得擅自操作。

4)经同意,参观人员可以实地操作计算机,但须有公司人员的认可,不得调阅公司机密文件。

5)参观人员不得拥挤、喧哗,应听从陪同人员安排。

6)参观结束后,操作人员应整理如常。

7)参观机房要填写登记审批表,机房维护人员负责登记、监督工作,确认无误后方可进入。


数据中心运维解决方案精选

每个数据中心之所以能够稳定的运行下去,需要有专门的人员和相关的数据中心运维方案来支撑,下面是一份其他公司的数据中心的运维解决方案,一起看看别人怎么做的吧。

一、概况

xxx客户数据中心机房于X年投入使用,目前即将过保和需要续保运维的设备。

二、维保的意义

通过机房设备维护保养可以提高设备的使用寿命,降低设备出现故障的概率,避免重特大事故发生,避免不必要的经济损失。设备故障时,可提供快速的备件供应,技术支持,故障处理等服务。

通过系统的维护可以提前发现问题,并解决问题。将故障消灭在萌芽状态,提高系统的安全性,做到为客户排忧解难,减少客户人力、物力投入的成本。为机房内各系统及设备的正常运行提供安全保障。可延迟客户设备的淘汰时间,使可用价值最大化。

通过引入专业的维护公司,可以将客户管理人员从日常需要完成专业性很强的维护保养工作中解放出来,提升客户的工作效率,更好的发挥信息或科技部门的自职能。

通过专业的维护,将机房内各设备的运行数据进行整理,进行数据分析,给客户的机房基础设施建设、管理和投入提供依据。

三、维护范围

1、数据中心供配电系统

2、数据中心信息化系统

3、全院信息化终端设备

4、数据库及虚拟化系统

四、提供的服务

为更好的服务好客户,确实按质按量的对设备进行维护;我公司根据国家相关标准及厂商维护标准,结合自身多年经验积累和客户需求,制定了一套自有的服务

内容:

1、我公司在本地储备相应设备的备品备件,确保在系统出现故障时,及时免费更换新的器件,保障设备使用安全。

2.我公司和客户建立24小时联络机制,同时指定一名负 责人与使用方保持沟通,确保7*24小时都可靠联系到工程技术人员,所有节日都照此标准执行。

3.快速进行故障抢修:故障服务响应时间不多于30分钟, 2小时内至少2人以上携带相关工具、仪器到达故障现场,直到设备恢复正常运行。

4.我公司对维修维护的设施设备的使用性能负责,在维修维护过程中严格执行技术规范,保证设施设备的性能符合相关技术标准要求。在维修维护间,我方应对设施设备可能存在的故障隐患做出评估,并进行恰当的预防性处理,以保证设施设备的安全运行。若故障隐患超出维修维护范围的,及时书面通知客户,并提出消除隐患建议。

5.维护巡检中我公司提供设备系统图或使用说明书:将机房内设备的整个系统等汇编成资料,由维护人员进行统一放置 ,便于应急查询。

6. 巡检次数每年不少于四次,每次巡检后,由维修维护方提供巡检报告,并由使用方签字确认。每月由我公司客户服务人员定期进行回访,听取客户意见反馈,搭建起双方的沟通渠道。

数据中心是现代企业信息化建设的核心,它承载着企业的重要数据和应用系统,因此数据中心的运维非常重要。为了提高数据中心的运维效率和稳定性,我们提出以下合理化建议:


一、建立完善的设备管理制度

数据中心的设备管理是保障数据中心稳定运行的基础。建议制定完善的设备管理制度,包括设备采购、验收、安装、调试、维护、升级和报废等各个环节的规范和流程,明确责任和权限,确保设备管理的规范和高效。

二、建立健全的备份和恢复机制

数据中心存储着企业的重要数据和应用系统,数据安全备份是非常关键的。建议建立健全的备份和恢复机制,包括备份周期、备份方式、备份存储位置备份恢复测试等方面的规范和流程,并定期进行备份恢复测试,确保备份的可靠性和恢复的及时性。

三、建立有效的安全管理制度

数据中心的安全管理是保障数据中心安全稳定运行的重要保障。建议建立有效的安全管理制度,包括物理安全、网络安全、应用安全等多个方面的规范和流程,加强安全审计和监控,确保数据中心的安全和稳定。

四、建立高效的故障处理机制

数据中心设备的故障是不可避免的,建议建立高效的故障处理机制,包括故障报告、故障诊断、故障定位、故障修复和故障分析等方面的流程和规范,确保故障及时处理和准确定位,避免故障对数据中心的影响。

五、建立全面的绩效考核制度

数据中心运维人员的绩效考核是推动数据中心运维工作不断改进和提高的重要手段。建议建立全面的绩效考核制度,包括工作量、工作质量、故障处理、客户满意度等多个方面的考核指标,确保数据中心运维人员的工作能够得到有效激励和推动。

以上是我们对数据中心运维合理化建议的提出,希望能够对数据中心运维工作的改进和提高有所帮助。同时,我们也希望企业能够建立健全的奖励建议制度,鼓励员工积极提出改进建议,促进企业的持续发展。

数据中心运维报告(精选)

一 什么是数据中心运维:数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。作为一个数据中心的良好运转离不开苦逼的运维人。一个数据中心的日常运维工作基本涉及到了IT相关的所有专业,从数据中心机房的设计、暖通、动力、服务器、存储、网络、综合布线、系统、应用、开发、数据分析、数据挖掘等,基本你能想到的相关IT技术在数据中心都能够一一找到。所以数据中心俨然就是一个IT技术的聚集地。

其实我一直认为像很多大型的数据中心运维人员应该将自己定位于数据中心的项目运营分析管理人员,而不是简简单单的技术人员。实际上很多数据中心的技术工作厂家支撑人员都帮你做了,很多数据中心都购买了大量的厂商服务及维保服务。打个比方,你在数据中心负责华为核心交换设备的,单单该设备来说,你在数据中心里面你是专业的。但是与华为的工程师一比,你掌握的很多技术就相对要弱的多。这也很正常,人家是厂家,这个设备就是他们造出来的,他们天天各地处理故障,见过的各种现象远比你见得多。实际上,对于一个运维华为核心交换设备的这位运维人员来说,实际上他执行的更多的是使用和养护工作。

下面我来做一个很简单的比喻,一个数据中心的运维人员就好比一个单位的司机,你平常需要做的,就是熟练掌握你所开的那辆车的操作流程、了解车的性能、怎么开这辆车更合理、什么时候去接领导、让领导坐这车舒适度达到最高。能做到上述几点,你就是单位里一个合格的驾驶员。如果平常没事干再把车里车外擦的蹭蹭亮,路上从来没有剐蹭,天天准时把领导送到家和单位,那你就是一个优秀的司机了。

但是真的车出了毛病了,比如开起来抖动、漏油,这时候你肯定要开去4S店修理了。如果是你自己的车,那就是找个时间去4S店修车、付钱、提车、回家一气呵成。但是单位的车就不一样了,正常情况下你要修车,要给领导说明情况,给车队长说明原因,然后在单位内部填写相关的维修申请,经过车队长、领导同意了才能开去修。这是为什么呢?因为你修这车要报销啊,报销就要有依据,要有来龙去脉。而除了提交修车申请,你还要与4S店大概沟通下修车需要花费的时间,如果时间很长,当天你修不好,那么你就要去和车队长说明下情况,协调看看还有什么车可以开去接领导。而如果领导正好有非常重要的事情需要用车,而你这个车虽然有点抖动,但开起来暂时满打满去,一时半会也不会坏在路上,那么你这修车的时间就还要往后挪一挪。最后车修好了,你还要拿着4S店的发票去原单位报销,直到报账结束,这整个事情才算做完。

这修车的整个过程,驾驶员就是数据中心的运维人员,汽车就是运维人员日常维护的对象,4S店就是厂商技术人员。对于4S店来说,他天天都在修同一款车型的车,不管什么毛病他都立马能够找到解决对策,他有相关的零配件,只要有钱都能给你修好,最坏的结果就是给你换台车。4S店关注的是车的本身,你驾驶员技术再好也只是开车技术好,真要修车,你就不一定修的动。对于驾驶员来说,为了修这个车,他要花很多的时间去问4S店、去报告领导、去找办公室、去找车队长、去4S店、去报销等。而这中间花的时间通常情况下远比修车本身花的时间多。

二 例如:云计算数据运维中心可分为五类:

(一)机房环境基础设施部分。这里主要指为保障数据中心所管理设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于用户来说几乎是透明的,因为大多数用户基本并不会关注到数据心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的应用来说,却是致命的。

(二)在提供IT服务过程中所应用的各种设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。

(三)系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见,摸得着”,但却是IT服务的逻辑载体。

(四)管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其直接相关的资源,从而间接地提升的可用性与可靠性。

(五)人员,包括了数据中心的技术人员、运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理的对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。

三 运维对象的最终运维内容

云计算数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。要对每一个管理对象的日常维护工作内容有一个明确的定义,定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统的全生命周期的追踪管理。


数据中心运维报告


一、前言

随着云计算技术的不断发展,越来越多的企业选择将其业务迁移至云端。云计算数据中心作为云计算技术的核心,其运维管理也变得越来越重要。本报告旨在探讨云计算数据中心运维的相关内容,并提供相关建议和措施,以提高数据中心的运行效率和可靠性。


二、云计算数据中心运维的基本概念

云计算数据中心运维是指管理和维护云计算数据中心的活动。它包括了云计算数据中心的机房设计、服务器、存储、网络、综合布线、系统、应用、开发、数据分析、数据挖掘等方面。与传统数据中心相比,云计算数据中心运维还需要考虑到虚拟化技术及其产品,比如云计算管理平台、虚拟机管理平台等,以及云计算服务的架构设计、部署和维护等。


三、云计算数据中心运维的关键点


1. 服务的质量、可用性、安全性、可扩展性等因素

在云计算数据中心运维过程中,服务的质量、可用性、安全性、可扩展性等因素是非常重要的。为了确保服务质量,运维人员需要关注系统的性能和稳定性,定期进行系统性能测试和负载测试。对于可用性和可扩展性,需要采取相应的措施,如使用负载均衡技术、分布式架构等。对于安全性,需要采取相应的安全措施,如防火墙、入侵检测、加密等。

2. 利用监控、管理、自动化等手段来支持云计算的运行

在云计算数据中心运维过程中,利用监控、管理、自动化等手段来支持云计算的运行是非常重要的。运维人员需要实时监控系统状态,及时发现和解决问题。同时,需要使用自动化工具来提高运维效率,如自动化部署、自动化监控、自动化备份等。

3. 容错能力、运行状态监控、数据备份、安全控制、访问控制、网络安全等

在云计算数据中心运维过程中,容错能力、运行状态监控、数据备份、安全控制、访问控制、网络安全等也是非常重要的。容错能力是指系统能够在出现故障时继续运行的能力,如冗余技术、备份技术等。运行状态监控是指对系统状态进行实时监控,及时发现和解决问题。数据备份是指对重要数据进行备份,以防数据丢失。安全控制是指对系统进行安全控制,如入侵检测、防火墙等。访问控制是指对用户进行访问控制,确保系统安全。网络安全是指对数据进行加密和保护,确保数据安全。

4. 可伸缩性、资源配置、计费规则、容灾技术、性能监控等方面

在云计算数据中心运维过程中,还需要考虑到可伸缩性、资源配置、计费规则、容灾技术、性能监控等方面。可伸缩性是指系统能够随着业务需求的增长而扩展。资源配置是指对系统资源进行配置,以满足业务需求。计费规则是指对系统进行计费,确保系统的经济效益。容灾技术是指在系统出现故障时,能够及时恢复系统。性能监控是指对系统性能进行监控,及时发现和解决问题。


四、云计算数据中心运维的建议和措施

1. 加强监控和管理

在云计算数据中心运维过程中,需要加强对系统的监控和管理,及时发现和解决问题。可以使用监控工具,如Nagios、Zabbix等,对系统进行实时监控。同时,需要使用自动化工具,如Ansible、Salt等,提高运维效率。另外,需要制定相应的管理流程,确保运维工作有条不紊。

2. 建立容错机制

在云计算数据中心运维过程中,需要建立容错机制,确保系统能够在出现故障时继续运行。可以使用冗余技术、备份技术等,提高系统的可靠性。同时,需要定期进行容错演练,确保容错机制的有效性。

3. 加强安全控制

在云计算数据中心运维过程中,需要加强安全控制,确保系统的安全。可以使用入侵检测、防火墙等安全措施,防止黑客攻击。同时,需要对数据进行加密和保护,确保数据安全。

4. 实现自动化运维

在云计算数据中心运维过程中,需要实现自动化运维,提高运维效率。可以使用自动化工具,如自动化部署、自动化备份、自动化监控等,减少运维人员的工作量。同时,需要实现自动化运维流程,确保运维工作有条不紊。


五、总结

云计算数据中心运维是云计算技术的核心,对于企业的业务运营至关重要。在云计算数据中心运维过程中,需要加强监控和管理,建立容错机制,加强安全控制,实现自动化运维等措施,以提高数据中心的运行效率和可靠性。

数据中心机房工程管理实施方案

第1章机房工程的管理技术制度与要求

管理是为了实现预期的目标进行的协调活动。为确保机房安全运转、工作有序开展、设备正常使用,机房需要制定管理规章制度。

机房管理就是对制定的规章制度执行、检查和改进。执行就是按照制定的规章制度去实施;检查就是将执行的过程或结果与规章制度进行对比,总结出经验,找出差距;改进是通过检查总结出的经验,将经验转变为长效机制或新的规定,针对检查发现的问题进行纠正,制定纠正、预防措施。

随着云计算的发展,机房规模急剧扩大(大、中型机房通常是指面积数千至数万平方米)、机房数量不断增加,由小规模、封闭式、单一功能向大规模、开放式、多功能方向发展,机房管理更为重要。机房管理水平的高低也直接影响着机房的使用率和使用寿命,机房管理应引起机房管理人员的高度重视。

1.1 机房管理科长和管理人员的岗位职责

1.1.1 机房管理科长岗位职责

机房管理科长(组长、主管领导或经理)是中心领导管理好机房日常运维工作的得力助手和参谋。机房管理是管理科长日常工作的全职岗位,对于机房管理科长来说,机房管理是为了使机房设备正常运转,保障机房有良好的运行环境和工作环境。机房管理科长的岗位职责要重点注意如下内容:

1)严格制度。机房管理是一项看得见、摸得着的实际工作,面对诸多因素和关系,必须“严”字当头。机房日常管理应根据实际需要,抓常规管理。建立、健全计算机机房的各项规章制度是机房管理工作的前提。制定相应的机房管理制度,使日常管理工作做到有章可循,有据可依。

2)严格管理。作为部门领导一定要有从严管理的指导思想,要严格管理、严格要求,并使这种严格思想贯彻落实到管理工作的全过程,在实际工作中要常讲、常查,要不怕得罪人,必要时还要制定各种奖惩措施。

3)做好日常运维和巡检工作,包括配电、空调、消防等设施的检查工作。

4)不断学习。机房管理牵涉面广,事务又多,是一项专业性强、“繁”、“杂”、“难”、“累”的工作,具有一定的不可预见性,且不同程度地存在技术难度。目前国内许多报刊杂志包括互联网络中,有关机房管理的介绍层出不穷,机房管理科长需要有责任心和不断学习的进取心。机房管理科长除了要掌握丰富的计算机软硬件知识和具有较强的动手能力外,还需要掌握一定的设备管理技巧,学习各种设备如配电系统、地线系统、空调、防火设备、UPS等的正确操作方法,从而杜绝因操作不当造成的人为事故。不断学习,总结经验,取长补短,才能做好机房管理工作。

5)做好机房的防火、防盗及供电系统、空调系统、通风系统的安全和日常养护工作,提高安全意识。定期检查安全设施情况,并做好记录,发现问题立即整改。

6)定期检修,重视完善。机房以及有关设备也有老化、更新、修复等问题,除进行日常的检修外,还应对机房建设时存在的缺陷,机件的磨损、老化,紧固件的松动,装修变形等问题定期检修、更改或完善。坚持每年定期对机房整修一次,即检测安全防火设备、检修空调设备、除尘、玻璃隔断调整加固、照明设备检修、安全防盗、协调相关设备维修人员进行维修,安排好相关维修工作。

7)对于发生的故障与事故及时逐级上报,并做协调工作,做好故障与事故的记录工作,做好问题的分析和跟进处理工作。

8)完善电气系统设备技术档案和资料,建立相关管理制度、操作规程、应急预案等。

9)在制度化管理上下功夫,组织、指导、制定年度工作计划和各种操作规程、管理规定、岗位职责和安全责任制等,并监督落实,以实现科学、有序、安全的管理。

10)机房不能出现事故,加强巡视巡检。要管理好机房不是一件容易的事情在条件许可的情况下,应建立经济合理的易损件、易耗件的备用库,保证及时更换,定期更换。对设备的运行情况进行分析,制定预防和常用解决方案,从而保证机房的正常运转。

11)严格机房钥匙管理,机房钥匙只允许管理人员配带。

1.1.2 机房管理科长的“三心”

机房管理科长的三心即责任心、学习心、宽容心。

1.责任心

责任心主要有如下内容:

(1)安全管理

机房安全是第一位的,可以说是机房管理体系的灵魂。威胁机房安全的因素主要有火灾、设备故障、病毒。机房安全管理就是告诉人们,在进行机房管理的同时,通过采用计划、组织、技术等手段,依据机房、环境因素的运动规律,采取控制措施,预防事故的发生。

(2)六个坚持

六个坚持是指:

1)坚持管机房同时管安全;

2)坚持按操作规程管理机房;

3)坚持预防为主;

4)坚持全员管理;

5)坚持设备维护;

6)坚持日常巡检工作。

(3)四不放过

四不放过是指在调查处理机房事故时:

1)必须坚持事故原因分析不清不放过;

2)员工及事故责任人受不到教育不放过;

3)事故隐患不整改不放过;

4)事故责任人不处理不放过。

(4)文明管理

文明管理是指在管理时:

1)具有文明的措施(机房的各项规章制度);

2)建立管理组织,明确岗位职责,健全管理制度(培训教育、检查、奖惩、卫生等专项管理制度);

3)进行现场管理。

2.学习心

科长的大部分时间是做机房管理的实际工作。他要不断地学习各种设备的正确操作方法和管理方法,管理的思维方式与知识结构要紧跟时代的步伐,并在技术上与项目一起成长。只有这样才能让科长提高领导能力,在管理工作中伸展自如、张弛有度。

3.宽容心

科长要有宽容的心态,特别是对比较年轻的员工。现在的员工都比较年轻,没有社会的阅历,自我为中心的意识强、自尊心强,有时候会做出一些过分的行为。当员工做了错事或工作中出现差错时,不要谴责,不要去追究责任。作为科长,应该多花一些精力去关心员工,多给予理解,做到“宰相肚里能撑船”,了解事情的起因,避免将来再犯错。

年轻员工有自己的长处和短处,要经常表扬他的长处,求同存异,具有一颗宽容的心。

1.1.3 管理人员岗位职责

机房日常运行、维护是管理人员的全职工作岗位。管理人员的岗位职责需要重点注意如下内容:

1)负责机房电气系统的运行、维护、保养、管理工作。

2)认真贯彻落实岗位责任制,遵守各项规章制度,严格执行操作规程和员工守则。严格执行机房值班制度,做好值班记录;严格执行机房设备使用登记制度,做好设备登记工作。

3)熟悉设备操作规程,熟悉仪器仪表使用方法。熟悉、掌握设备的原理、布置、控制、设备性能、使用状况及运维操作。维护工作应遵循设备故障与维修的操作步骤、基本原则和维修方法进行。机房应备有设备所用的各种零配件,供维修使用。

4)服从领导的调度和工作安排,按时、按质、按量地完成任务,不擅自离岗和串岗,禁止在上班时间炒股、浏览无关新闻、网上游戏、看在线电影、听音乐等。

5)努力学习,不断提高思想素质和业务技术水平,全面熟悉管辖范围内的各种操作规程,提高工作效率、质量。

6)认真填写原始记录,分析设备运行情况,并掌握其规律,发现问题及时解决,准确无误地填制各种报表和表格。

7)勤巡查,发现问题及时向管理科长汇报,听取指示。

8)参与并协助设备的维护和保养工作。设备发生故障及时组织检修,发现隐患及时组织处理,做好技术把关工作,保证所管辖系统设备处于优良的技术状态。做到“三干净”(设备干净、机房干净、工作场地干净)、“四不漏”(不漏电、不漏油、不漏气、不漏水)、“五良好”(使用性能良好、密封良好、润滑良好、紧固良好、调整良好)。

9)发扬主人翁精神,开动脑筋,大胆提出合理化建议。

10)做好本班设备的年月检修保养计划和备品备件计划,报主管审核。

1.2 机房内管理的内容

1.2.1 制定机房管理的规章制度

建立健全计算机机房各项规章制度是做好机房管理的关键。在机房日常管理工作中应根据系统的具体情况、工作性质,制定出一套完善的机房管理规章制度,以保证机房正常运行。规章制度用来规范机房的管理,是机房管理的标准。规章制度要通过日常工作中对它的执行来体现和完善。机房管理制度一般包括:管理科长岗位负责制、技术管理岗位职责、中心机房管理制度、安全运行管理制度、计算机病毒防范管理制度、安全管理制度、故障机维修登记制度、机房违章处理制度、机房巡检制度等。有了章法,机房管理就有了依据,严格管理的指导思想也能落在实处。

1.2.2 大、中型机房的日常维护工作管理的内容

大、中型机房的日常维护工作的管理要重点注意如下内容:

1)保持机房整洁卫生,管理人员负责日常维护及机房卫生工作,做到一天一小扫,一周一大扫,保持机房清洁干净,防尘防潮,防止鼠虫进入。

2)不准在机房内会客,谢绝外单位人员进入机房,禁止聊天、喧哗、吃零食、抽烟、乱扔杂物等,保持机房整洁安静。

3)严禁携带易燃、易爆及强磁性物品进入机房。

4)设备一般不得用于私事,严禁在设备的计算机终端上玩游戏,禁止装入其他无关的软件或将计算机挪作他用。

5)日常检测,包括对设备运作情况及系统应用情况的检测。

①设备运行情况检测:

·每日分8次(每3小时)定时进行主要网络设备的检测。做好每日网络巡查与服务器运行情况记录。

·每日对外网服务器日志进行分析,对长时间扫描的IP做好记录,并采取跟踪,一旦发现问题及时处理,把隐患消灭在萌芽状态。

·定期运用系统的网络监视器、网管软件,对网络漏洞进行自我扫描检测,进行分析,做好相应记录。

②系统应用情况检测:

·对应用软件要每天进行检测,及时升级,特别是防毒软件的升级。

·各种应用功能配置参数进行修改时必须与值班人员一同进行,并登记记录。新增加功能必须经过主管领导签字同意。

6)如发现机器故障应及时向主管及上级领导报告,并负责计算机及外设的日常维护与排除故障,处理不了的问题应立即向有关单位联系解决。遇到紧急情况不要慌张,切忌手忙脚乱。在遇到三包范围内的故障时,应及时催促公司上门或将机器送公司维修。

7)机房计算机只供机房工作人员使用。未经组长同意,任何人不准随意删改和增加系统文件,不得将机房内资料、工具等物品带出机房。

8)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。外单位需借出设备及物品,应有单位证明和经手人签名的借条,经主管领导批准后,机房工作负责人才能开具放行条。未经主管领导同意,不准自行复制系统内所有的软件和数据或将其赠送、转借给外单位人员。

9)经常检查网络和各设备运行情况,发现问题及时解决,并向主管领导报告。

10)其他人员需使用机房内设备应征得管理人员许可,并报经主管同意后方可进入机房。

11)对机房内网络与设备的运行、应用、维护、查看等情况,建立档案,做好系统日志。要对发生的故障(隐患)以及排除故障情况做好详细记录;值班人员必须认真、如实、详细填写《机房日志》等各种登记簿,详细记录来人、事件、处理经过等,以备后查。定时做好中心服务器的日志和存档工作,任何人不得删除运行记录的文档,否则追究责任。如机房发现意外和紧急情况要及时报告,对重大事故要注意保护好现场。

12)要统一管理机房内的设备,计算机及其相关设备的驱动程序、保修卡等随机文件与资料要保存完整。要明确专人负责计算机文档、信息化等资料的保管,要做到资料齐全,存放安全。

13)机房内的交换机和服务器是公司办公自动化的关键设备,任何人不得自行配置或更改系统参数。

14)各客户机应及时做好自身数据的保存工作,不得擅自更改系统及网络设置。如确有工作需要应报至办公室,由办公室指派专人进行,并记录在案。

15)要做好机房的安全工作,对服务器的各种账号、密码严格保密。对网络运行做好监控、做好记录。

16)要及时做好各服务器系统的补丁修正与升级工作。

17)管理人员要有较强的病毒防范意识,要定期对病毒库进行检测,并做好病毒库系统的定时升级工作。发现病毒应及时处理,并做好记录。

18)未经许可,不得在各服务器上安装新软件。如确实工作需要安装,要经过有关领导批准。

19)应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全地恢复。所有备份数据不得更改,并要求做到本地和异地双备份保存。

20)机房内所有设备应妥善保管,任何人不得擅自开关、移动或者使用机房中的任何设备,如有此方面的需要,需有主管领导的批示。

1.2.3 大、中型机房的日常安全管理的内容

大、中型机房的日常安全管理,要重点注意如下10点内容:

1.出入机房管理的内容

1)严禁非机房工作人员进入机房,特殊情况需经中心负责人批准,并认真填写登记表后方可进入。严禁非工作人员上机操作。进入机房人员应遵守机房管理制度。

2)进入机房人员不得携带任何易燃、易爆、腐蚀性、强电磁、辐射性、流体物质等对设备正常运行构成威胁的物品。严禁将其他与机房工作无关的物品带入机房。

3)若管理人员申请调走,报告经单位批准前,重大的管理工作提前交接,把密码、钥匙、注意的问题等交接给单位指定人员。

2.机房防火管理的内容

机房是重点防火单位,应做好防火工作。机房工作人员必须严格遵守各项操作规程。拆装设备时必需断电,不允许带电作业;维修设备时必须先切断设备电源,再行维修;禁止使用汽油、酒精等易燃易爆品清洗带电设备;严禁在机房内吸烟和使用加热器具。

防火管理的重点是气体灭火系统能否发挥正常作用。对气体灭火系统维护管理要注意如下4点内容:

1)气体灭火系统应由经过专门培训,并经考核合格的人负责定期检查和维护。

2)应做好对气体灭火系统的定期检查,并做好记录。检查中发现的问题应及时处理。

3)每月应对系统进行一次检查,发现问题应及时处置,检查内容及要求如下:

·对全部系统组件进行外观检查,系统组件应无碰撞变形及其他机械性损伤,表面应无锈蚀,保护漆层应完好,铭牌应清晰,手动操作装置的保护罩、铅封和安全标志应完整。

·全部系统组件的安装位置不得有其他物件阻挡或妨碍其正常工作。

·驱动控制盘面板上的指示灯应正常,各开关位置应正确,各接线应无松动现象。

·火灾探测器表面应保持清洁,应无任何会干扰或影响火灾探测器探测性能的擦伤、油渍及油漆。

·储存容器上的压力表,其指针应在正常的范围内。

·设备可否移位。

·设备工作是否正常。

4)每年应对系统进行两次全面检查,检查内容和要求除按月检查的内容外,还应符合如下要求:

①防护区的开口情况、防护区的用途及可燃物的种类、数量、分布情况,应符合设计规定。防护区外的疏散通道应保持畅通。

②储存容器的固定支架,应无松动现象。

③灭火剂输送管路与喷嘴的连接、灭火剂输送管路本身的连接应安装牢固。

④灭火剂输送管路及电气管路的固定支架应无松动现象。

⑤高压软管应无变形、裂纹及老化。

⑥各喷嘴孔口,应无杂物堵塞。

⑦对每个防护区进行一次模拟自动启动试验。

⑧手动控制、手动/自动切换、紧急停止操作、备用灭火剂储存容器切换操作应正常。

⑨探测设备运行情况检查:主要检查连接线路及探测器灵敏性。

⑩控制设备运行情况检查:

·控制器接受火灾信号情况(包括探测、急启、急停、反馈)。

·控制器接受故障信号情况(包括探测、急启、急停、反馈、主备电、阀线)。

·控制器联动性能及各个被联动器件的性能。

·记录并分析控制器储存信息。

[11]建立灭火系统使用档案,对使用、检查、维修与试验做详细记录。

3.机房用电安全管理的内容

1)机房人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程,注意用电安全,无触电隐患,注意节约用电。

2)机房应安排有专业资质的电工定期检查供电、用电设备、设施。

3)机房内不得乱拉乱接电线、电源,应选用安全、有保证的供电、用电器材。

4)在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。

5)严禁随意对设备断电、更改设备供电线路;严禁随意串接、并接、搭接各种供电线路。

6)如发现用电安全隐患,应立即采取措施解决,不能解决的必须及时向相关负责人员提出解决。

7)禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。

8)在使用功率超过特定瓦数的用电设备前,必须得到机房管理人员批准,并在保证线路保险的基础上使用。

9)在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。

4.设备安全管理的内容

机房设备要保持清洁、卫生,定期打扫,不定期对机房内设备进行检查,发现故障及时检修,并要登记、报告。因违章作业造成事故损失的,要按责任事故处理。设备安全管理的具体内容如下:

1)机房人员必须熟知机房内设备的基本安全操作和规则。

2)定期检查、整理硬件物理连接线路,定期检查硬件运作状态(如设备指示灯、仪表),从而及时了解硬件运作状态。

3)禁止随意搬动设备、随意在设备上进行安装、拆卸硬件或随意更改设备连线,禁止随意进行硬件复位。

4)路由器、交换机和服务器以及通信设备是网络的关键设备,不得自行配置或更换,更不能挪作他用。要定期检查是否规范,经有关领导同意后再变更。

5)网管人员应做好网络安全工作,服务器、各种核心设备等的各种重要账号严格保密,规范管理。监控网络上的数据流,从中检测出攻击的行为并给予响应和处理。做好操作系统的补丁修正工作。

6)禁止在正式运行的服务器上进行试验性质的配置操作,需要对服务器进行配置,应在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

7)不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。未经机房管理人员允许,更不允许他人操作机房内部的设备,对于核心服务器和设备的调整配置,更需要小组人员的共同同意后才能进行。

8)对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。

9)对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备进行更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。

10)网管人员统一管理计算机及其相关设备,完整保存计算机及其相关设备的驱动程序、保修卡及重要随机文件。

11)值班人员必须密切监视中心设备运行状况以及各网点运行情况,确保安全、高效运行。

12)未经负责人批准,不得在中心机房设备上编写、修改、更换各类软件系统及更改设备参数配置。各类软件系统的维护、增删、配置的更改,各类硬件设备的添加、更换必须经负责人书面批准后方可进行;必须按规定进行详细登记和记录,对各类软件、现场资料、档案整理存档。

13)健全中心全部设备固定资产账目,机房内所有设备、仪器、仪表等物品要妥善保管。管理人员每学期核对一次,做到账、物相符。

14)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。外单位需借出设备及物品,应有单位证明和经手人签名的借条,经主管领导批准后,机房工作负责人才能开具放行条。

5.计算机病毒防范管理的内容

1)对新购进的计算机及设备,为防止原始计算机病毒的侵害,要组织专业人员检查后方可安装运行;软盘、光盘等移动媒体,以及外来的系统和软件、下载软件等要先进行计算机病毒检查,确认无计算机病毒后才可以使用;严禁使用未经清查的、来历不明的软盘、光盘等。

2)要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和检查。要安装防计算机病毒软件,并定期或及时(随时)更新(升级)计算机病毒防范产品的版本;要使用国家规定的、具有计算机使用系统安全专用产品销售许可证的防计算机病毒产品。

3)跟踪计算机病毒发展的最新动态,及时了解计算机病毒,特别是有严重破坏力的计算机病毒的爆发日期或爆发条件,在一些破坏性较大的计算机病毒发作日期前,要及时在网上发布通知。

4)禁止任何人利用本单位计算机下载、复制、观看和传播各类与工作无关的视频文件。

5)禁止任何人利用本单位计算机查看、复制互联网上与工作无关的信息。

6)严禁使用盗版软件,特别是盗版的杀毒软件,严禁在工作计算机上安装、运行各类游戏软件。

7)外来人员携带来的各种可以在计算机上运行的文件及软件等数字信息,未经同意,禁止复制到本单位计算机内。如遇特殊情况,必须由相应的信息管理部门人员使用最新版本的反病毒软件检测通过后,方可使用,检测人员及时做好来访和检测记录,以备查看。

8)服务器要尽量做到专机专用,特别是具有读写权限、身份确认功能的认证服务器一定要专用;对共享的网络文件服务器,应特别加以维护,控制读写权限,不在服务器上运行无关软件和程序。

9)随时注意计算机的各种异常现象,一旦发现,应立即用查毒软件仔细检查。

10)服务器要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和分析;特别是邮件服务器。发现病毒立即处理并通知上级管理人员。

11)一旦发现中心服务器有被侵入及恶意攻击的记录,应及时采取措施遏止并向主管领导报告;一旦发生计算机病毒疫情,要启动应急计划,采取应急措施,将损失降到最小。

12)发现或受到“计算机病毒”攻击后的管理措施:

·当出现计算机病毒传染迹象时,立即隔离被感染的系统和网络,并进行处理,不应带“毒”继续运行;

·发现计算机病毒后,一般应利用防杀计算机病毒软件清除文件中的计算机病毒;杀毒完成后,重启计算机,再次用防杀计算机病毒软件检查系统中是否还存在计算机病毒,并确定被感染破坏的数据是否确实完全恢复;

·如果破坏程度比较严重,或感染的是重要数据文件,则自己不要盲目修复,而要请计算机病毒防范的专业人员处理,即使是计算机专业人员也要慎重;

·对于杀毒软件无法杀除的计算机病毒,应将计算机病毒样本送交有关部门,以供详细分析。

·若发现网上有色情及政治敏感内容,及时报告有关部门处理。

13)单位应定期与不定期对制度的执行情况进行检查,督促各项制度的落实,并作为人员考核的依据。

6.防雷管理的内容

1)防雷装置应当每年检测一次,对爆炸和火灾危险环境场所的防雷装置应当每半年检测一次。

2)防雷装置投入使用后,应建立管理制度,指定专人负责,做好防雷装置的日常维护工作。发现防雷装置存在隐患时,应当及时采取措施进行处理。对防雷装置的设计、安装、隐蔽工程图纸资料、年检测试记录等,均应及时归档,妥善保管。

3)每年雷雨季节前应对接地系统进行检查和维护。主要检查连接处是否紧固、接触是否良好、接地引下线有无锈蚀、接地体附近地面有无异常,如果发现问题应及时处理。

4)接地网的接地电阻宜每年采用数字式接地电阻测量仪进行一次测量。

5)每年雷雨季节前应对运行中的防雷元器件进行一次检测,雷雨季节中要加强外观巡视,发现异常应及时处理。

6)当发生雷击事故后,应及时调查分析原因和雷害损失,提出改进防护措施。

设备遭受雷击后应对损坏情况进行调查分析,调查分析内容主要包括:

·各种电气绝缘部分有无击穿闪络的痕迹,有无烧焦气味,设备元件损坏部位,设备的电气参数变化情况;

·各种防雷元件损坏情况,参数变化情况。

·安装了雷电测量装置的,应记录测量数据,计算出雷电流幅值。

·了解雷害事故地点附近的情况,分析附近地质、地形和周围环境特点及当时的气象情况。

·保留雷击损坏部件,必要时对现场进行拍照或录像,做好各种记录。

·根据上述调查情况,组织有关专家分析,写出调查分析报告及改进措施。

7.软件安全管理的内容

1)必须定期检查软件的运行状况,进行数据和软件日志备份。

2)禁止在正式运行的服务器上进行试验性质的软件调试,禁止在服务器上随意安装软件。需要对服务器进行配置,必须在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

3)对会影响到全局的软件更改、调试等操作应先发布通知,并且应有充分的时间、方案、人员准备,才能进行软件配置的更改。

4)对重大软件配置的更改,应先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改,并应做好详细的更改和操作记录。对软件进行更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先备份原有软件系统和落实好应急措施。

①制定周详的事前预防策略,具体如下:

·对信息传递途径进行控制,实现通信设备和存储设备的控制;

·通过网络接入保护,实现外来计算机的接入局域网限制;

·安装严密的报警系统,对非法接入进行及时报警提示;

·制定周详的互联网信息传递阻断策略,对非法信息传递进行阻断。

②对泄密行为进行事中记录和控制,具体如下:

·对泄密行为及时启动控制和报警系统;

·对泄密过程进行屏幕记录,方便现场查看,事后录像回放;

·详尽的电子文档操作痕迹记录,包括访问、创建、复制、改名、删除、打印等操作;

·集中审查终端共享,防止共享泄密行为。

③详尽的日志信息,提高事后追查的准确率,具体如下:

·进行电子文档操作及屏幕记录,便于信息泄密事后追查;

·对互联网信息传递进行记录,便于信息泄密事后追查;

·对系统用户进行日志审计,实现系统安全管理。

5)不允许任何人员在服务器等核心设备上进行与工作范围无关的软件调试和操作。未经机房管理人员允许,不能带领、指示他人进入机房和对网络及软件环境进行更改和操作。

6)系统管理员对业务系统进行数据整理、故障恢复等操作,必须有其上级授权。

7)系统管理员不得使用他人操作代码进行业务操作。

8)系统管理员调离岗位,上级管理员(或相关负责人)应及时注销其代码并生成新的系统管理员代码。

9)对数据实施严格的安全与保密管理,防止系统数据的非法生成、变更等,严格按照专业备份要求管理。机房管理人员应恪守保密制度,不得擅自泄露中心各种信息资料与数据,也要注意与外方合作工作时各种信息资料与数据的保密。

10)为确保数据的安全保密,对单位及内部人员送交的数据及处理后的数据都必须按有关规定履行交接登记手续。

8.机房资料、文档和数据安全管理的内容

1)资料、文档、数据等必须有效组织、整理和归档备案。

2)禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其他无关人员或向外随意传播。

3)对于牵涉网络安全、数据安全的重要信息、密码、资料、文档等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关数据的,应由机房相关负责人代为查阅,并只能向其提供与其当前工作内容相关的数据或资料。

4)重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据应保证其可还原性,防止遗失重要数据。

5)服务器、路由器等重要设备的超级用户密码由指定专人(不参与系统开发和维护的人员)设置和管理,并由密码设置人员将密码装入密码信封,在骑缝处加盖个人名章或签字后交给密码管理人员存档并登记。如遇特殊情况需要启用封存的密码,必须经过相关部门负责人同意,由密码使用人员向密码管理人员索取,使用完毕后,须立即更改并封存,同时在“密码管理登记簿”中登记。

6)系统维护用户的密码应至少由两人共同设置、保管和使用。密码应定期修改,间隔时间不得超过一个月,如发现或怀疑密码遗失或泄漏应立即修改,并在相应登记簿记录用户名、修改时间、修改人等内容。

7)机房内使用的文献、书籍和文具不允许私自带出。

8)存放备份数据的介质必须具有明确的标识。备份数据必须异地存放,并明确落实异地备份数据的管理职责。

9)注意计算机重要信息资料和数据存储介质的存放、运输安全和保密管理,保证存储介质的物理安全。

10)任何非应用性业务数据的使用及存放数据的设备或介质的调拨、转让、废弃或销毁必须严格按照程序进行逐级审批,以保证备份数据安全完整。

11)数据恢复前,必须对原环境的数据进行备份,防止有用数据的丢失。数据恢复过程中要严格按照数据恢复手册执行,出现问题时由技术部门进行现场技术支持。数据恢复后,必须进行验证、确认,确保数据恢复的完整性和可用性。

12)数据清理前必须对数据进行备份,在确认备份正确后方可进行清理操作。

13)需要长期保存的数据,数据管理部门需与相关部门制定转存方案,根据转存方案和查询使用方法要在介质有效期内进行转存,防止存储介质过期失效,通过有效的查询、使用方法保证数据的完整性和可用性。转存的数据必须有详细的文档记录。

14)管理部门应对报废设备中存有的程序、数据资料进行备份后清除,并妥善处理废弃无用的资料和介质,防止泄密。

15)重要文件资料既要建立、保存文字资料,同时还要建立保存磁盘文件资料。

9.电源及UPS管理的内容

1)机房内的电源开关、电源插座要明确标出控制的设备。

2)在电源配电盘附近张贴电源系统图。

3)不得随便改变线路和变动开关。

4)保持适宜的环境温度。影响蓄电池寿命的重要因素是环境温度,一般电池生产厂家要求的最佳环境温度是在20~25℃之间。虽然温度的升高对电池放电能力有所提高,但付出的代价却是电池的寿命大大缩短。据试验测定,环境温度一旦超过25℃,每升高10℃,电池的寿命就要缩短一半。

5)UPS电源在正常使用的情况下,主机的维护工作很少,主要是防尘和定期除尘。大量灰尘会造成器件散热不好。一般每季度应彻底清洁一次。其次就是在除尘时,检查各连接件和插接件有无松动和接触不牢的情况。

6)熟悉UPS的工作原理和操作规程。

7)需经常检查的项目有:

·清洁并检测电池两端电压、温度;

·连接处有无松动,腐蚀现象;

·电池外观是否完好,有无壳变形和渗漏;

·极柱、安全阀周围是否有酸雾逸出;

·主机设备是否正常。

8)对UPS的工作异常情况要做好记录,并及时联系有关单位进行处理。

9)UPS应妥善保养,除了电池自动检测外,每3个月放电一次。

10.空调管理的内容

1)本着正确使用、安全管理、专人负责、中低运行、节约用电的原则,切实保障空调的有效使用和管理。网络中心机房为保证设备良好的工作环境,应保持合适的机房温度和湿度,机房温度应保持在23℃~26℃,机房湿度应低于70%。

2)巡视监控。当值管理员每隔2小时巡视一次中央空调机组,巡视部位包括中央空调主机、冷却塔、控制柜(箱)及管路、闸阀等附件。巡视监控的主要内容如下:

·检查线电压(正常380 V,不能超额定值的±10%)。

·检查三相电流(三相是否平衡,是否超额定值)。

·检查气压(正常500 mmH2O)。

·检查高压(<12 kgf/cm2)。

·检查低压(>2.5 kgf/cm2)。

·冷却水进水温度(正常<32℃)。

·冷冻水出水温度(正常6℃~8℃)。

·检查中央空调主机运转是否有异常振动或噪音。

·检查冷却塔风机运转是否平稳、冷却塔水位是否正常。·检查管道、闸阀是否有渗漏,冷冻保温层是否完好。

·检查控制柜(箱)鉴别元器件运作是否正常,有无异常噪音或气味。

巡视过程中如发现上述情况有不正常时,当值管理员应及时采取措施予以解决,处理不了的问题应及时详细地向上级汇报。整改时,应严格遵守《中央空调维修保养标准作业规程》。

3)中央空调机房管理具体内容如下:

·非值班人员不准进入中央空调机房,若需要进入,须经工程部主管同意,并在值班人员的陪同下方可进入中央空调机房。

·中央空调机房内严禁存放易燃、易爆等危险品。

·中央空调机房内应备齐消防器材、防毒用品,并应放置在方便、显眼处。中央空调机房内严禁吸烟。

·每班打扫一次中央空调机房的卫生,每周清洁一次中央空调机房内的设备设施,做到地面、天花板、门窗、墙壁、设备设施表面无积尘、无油渍、无锈蚀、无污物,表面油漆完好,整洁光亮。

·中央空调机房内应当通风良好,光线足够,门窗开启灵活。

·中央空调机房应当做到随时上锁,钥匙由当值班管理员保管,当值管理员不得私自配钥匙。

·接班人员应准时接班,接班人员应认真听取交班人员交代,并查看《中央空调运行日记》,检查工具、物品是否齐全,确认无误后在《中央空调运行日记》表上签名。

·对于中央空调的运行情况,当值管理员应及时、完整、规范、清晰地记录在《中央空调运行日记》表内,并于每月的2日之前把上一个月的记录整理成册后存档,并报一份到后勤管理处,保存期为2年。

4)定期进行日常巡视,确保空调系统的正常运行。

5)定期进行一次室外机的清理,防止因散热不良造成空调的工作异常。

6)每年进行一次全面检修。

1.3 机房巡检的要求

机房巡检是机房管理的重要组成部分。机房巡检人员在系统巡检计划的指导下完成巡检作业。巡检对象主要是针对机房中比较重要、比较关键的设备。目的是及时查找、发现信息系统设备隐患,排除故障。机房巡检的设备不同、使用环境不同、季节不同,巡检的周期和频次也有所不同,如表8-1所示。/

巡检时需带巡检内容的常备工具,做到眼见、耳听、鼻闻、手摸、工具检查,加强对巡检设备关键内容的巡检力度,防患于未然。

机房巡检必须要有记录,巡检记录直接关联到巡检的效果。管理人员利用巡检能够掌握机房运行情况,能更好地对数据进行客观的统计、研究,为领导作出迅速、准确的判断和决策提供科学依据。巡检记录的覆盖面要全面,操作性要强。

巡检记录应在巡检期间填写,以记录时间为准,不得事后补填或超前记录。巡检记录及时填写电子版以供做周汇报时附加;纸介质的巡检记录表必须妥善归档保存。

1.4 机房巡检的具体内容

1.4.1 供配电巡检的具体内容

1.4.2 给排水巡检的具体内容

1.4.3 空调系统巡检的具体内容

1.4.4 消防巡检的具体内容

1.4.5 网络设备巡检的具体内容

网络设备巡检分工作状态巡查和网络设备具体内容的巡检。

1.网络主要设备工作状态巡查

为保证网络正常运行,需要每日分三次定期进行网络主要设备(服务器、路由器、交换机、防火墙、磁盘阵列)的工作状态巡查。做好每日网络设备主要巡查和巡查记录。

2.网络设备巡检具体内容

每日分三次定期进行网络主要设备(服务器、路由器、交换机、防火墙、磁盘阵列)的具体内容巡检。

1.4.6 机房环境巡检的具体内容

1.4.7 照明巡检的具体内容

1.4.8 防雷巡检的具体内容

1.5 机房巡检的台账内容

台账原是指摆放在台上供人翻阅的账簿,故名台账。台账是明细记录表,为了加强某方面的管理、更加详细地了解某方面的信息而设置的一种辅助账簿,没有固定的格式,没有固定的账页,可根据实际需要自行设计,尽量详细,以全面反映某方面的信息。

1.6 机房参观管理

新一代的机房,普通人很难进入,为了让更多的人了解新一代的机房,同时也进一步提高员工的爱岗敬业意识,更好地宣传公司形象、发展公司新业务,机房安排外来人员参观。

机房安排外来人员参观要注意如下7点:

1)外来人员参观机房,须有公司指定人员陪同。

2)计算机处理秘密事务时,不得接待参观人员或靠近观看。

3)操作人员按公司陪同人员要求可以在计算机演示、咨询;对参观人员不合理要求,陪同人员应婉拒,操作人员不得擅自操作。

4)经同意,参观人员可以实地操作计算机,但须有公司人员的认可,不得调阅公司机密文件。

5)参观人员不得拥挤、喧哗,应听从陪同人员安排。

6)参观结束后,操作人员应整理如常。

7)参观机房要填写登记审批表,机房维护人员负责登记、监督工作,确认无误后方可进入。



数据中心管理年终工作总结

经过一年的努力工作,那么我们在工作上也不断的得到进步和成长,下面是由出国留学网小编为大家整理的“数据中心运维管理年终工作总结”,仅供参考,欢迎大家阅读。

  数据中心运维管理年终工作总结(一)

  总结这事,说易也难。如果只是单纯地罗列一下这一年自己都干了点什么工作,相信这难不倒大家,但要用一份总结不仅表明这一年做了哪些工作,还要说清楚工作成效,甚至为明年的工作提出改进的建议,这就不是那么简单的了。

  作为it运维管理人员,除了自己的工作表现,更肩负着整个企业it系统健康运营的重任,所以我认为运维人员的年终总结更应该倾向于结合本单位整体运维情况,以便于来年it工作的有序发展。

  那么,it运维管理员如何写好一份年终总结呢?我建议可以从以下几个方面入手:

  一、资产清点

  作为整个企业的it“管家”,首先应该对管理的资产情况了然于胸。比如说:

  现在的it规模是怎样的?网络链路总长是多少?网络设备和服务器的数量、类型各是什么?都是什么品牌的?还有每个服务器上运行的数据库、中间件的类型和数量等等,这些情况都应该一个不漏、有条理地梳理清楚。

  搞清楚“有什么”的问题以后,还应该做个比较,目前的资产情况和历年相比有什么变化,是增加还是减少了,这些变动都体现在哪里?这些数据整理出来,一张清晰的“资产图”便被轻松地“绘制”出来了。

  二、业务构成及分析

  it系统说到底是为业务来服务的,一个企业里,最重要的应该就是业务系统的稳定运行和增效。所以it运维管理员的总结里,必然不能缺少对业务系统保障情况的描述。

  当然我们首先也应该勾勒出“业务”的大体形象:目前我们所有的业务系统有哪些?哪些是核心的业务,它们在解决何种问题,为用户提供了哪些服务?这些业务又运行在哪些服务器上,它们的运行状态如何…?这样我们先直观地把“业务系统”介绍给大家。

  接下来我们可以深入地去剖析一下这些业务的运行状况,比如:我们的业务系统一年中平均每月主干链路的总流量达到了多少?将这些业务流量排名,前几位的是哪些?这些高流量的业务有多少人次在访问?这些业务的平均无故障运行时间是多少?根据其设计,这些业务的可用性指标达到多少?是远未达到使用预设,差一些到满负荷,还是已经超负荷…等等

  还有“变化”的视角是应该一直具备的,还需要与往年比,哪些业务是新增的,这些新增业务的使用情况如何,是用得较多还是较少?

  通过以上的梳理和总结,相信看到报告的人都会对这一年的业务系统情况有一个相对清晰的了解了。

  三、事件处理情况

  理清了资产和业务情况,还应该对一年中所做的事件处理情况进行汇总。你是否能说清楚it部门这一年处理的事件数量有多少?这些事件分类有哪些?哪些是重大事件?这一年里产生过哪些重大的事件?这些重大事件对整个it系统的影响是什么?是否针对此进行过全面的分析,并给到过改进的意见?采取了哪些措施保障了核心业务的sla?这些数据也有助于对全年的运维工作进行了解。


运维人员个人年终工作总结范文

  至20xx年x月底,x公司在xx公司的运维又届满一年的时间了。在这为期一年的运维工作当中,x的业务飞速发展,设备数量不断增加,人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平和管理经验上也有了本质的提高。

  一、细致缜密的完成计划中的日常运维工作:严把质量;服务至上;严格要求;技术领先

  1、承接运维工作初始信息技术部的各位领导就对我们的运维工作给予厚望,并提出了认真完善服务水平的方针。我们在服务过程中严格按照这一要求,以对保障xx的发展,对用户负责的精神,把“严把质量,服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高,多次获得了用户的认可。

  2、对于在工作中信息技术部提出的新要求、新方案,我们及时相应配合,本着“严格要求”的原则,对于提出的要求科学性的分析研究,及时提出完整周密的解决方案,并拟请用户试行或测试后实施。有力的保障了运维工作的及时有效性。

  对于提高服务业务技术水平上,按照信息技术部的统一规划,按时完成一系列的既定培训计划。按照“技术领先”的原则,通过技术上的培训提高了业务水平和解决故障的效率;通过制定有效的安全机制和培训,健全了x信息外包人员安全机制;通过保密制度的培训使运维人员能够树立自觉维护x的信息安全防范意识;通过客户服务意识的培训提高了客户的满意度。

  二、吸收先进经验,保质保量的完成运维的各项任务

  运维期内主机、服务器、网络和桌面均没有发生严重的生产安全事故,对于一些潜在的威胁也都在得到信息技术部门的批示下,审慎周密的完成了整改工作。运用先进的技术和经验提高劳动效率和运维工作质量:

  1、运用先进的运维工具提高劳动效率。通过监控软件随时保持信息的及时性、可控性,一旦发生问题可以迅速定位和修复。

  2、经过信息技术部指导,我们在运维工作中大量了采用xx技术。使我们在高效完成运维工作的情况下,为xx节约了大量的费用投入。

  3、在工作的过程中注意新技术和新方法的学习和收集,对于有利于运维工作的成功方案及时整理并提交信息技术部。经过x年来的维护工作存储了大量的知识库信息。

  三、适应任务需要,及时解决运维过程中的遇到的问题

  1、在运维过程中遇到突发问题及时与信息技术部门相关人员进行沟通,对于紧急情况的处理按照《应急预案》进行对应处理。在节假日安排主要人员进行值班和备勤,保障24小时均能及时相应。

  2、在运维工作过程中,积极协助新增设备的各项实施工作,获得了信息技术部的肯定;在到货、验收、集成方案和安装调试过程中提供全程保障;对于数据的迁移、备份,各人按照自己的职责,在制定详尽的计划后、经过信息技术部的批准严格按照方案实施;

  3、在配合一些公司的重大活动、事件时,为应对信息技术部人员不足的情况。我们一方面做好运维工作的情况下,另一方面派出部分或全部人员协助信息技术部的各项工作,以弥补其人力不足的状况;

  4、对于机房的升级改造过程...



数据中心基础设施运维是什么

互联网数据中心,就是在一个恒温恒湿,有空调的空间,里面有承载互联网数据的地方,有智能柜、专门的技术人员维护。数据中心可概括为五大系统:装修系统、电气系统、通风空调系统、弱电系统、消防系统。1、电气系统硬件设施包含:高低配电柜、变压器、柴油发电机、电池、摄像头配电柜等。2、通风空调系统硬件设施包含:空调器、新风机、冷冻机组等3、还有各种的辅助软件管制管控等。一、依托先进的技术、运营管理技术,为客户提供各类数据中心升级服务,满足动态需求:

智能便捷

通过自主研发的人工智能管理工具及平台,智能运维管理平台 ,DECOS节能优化管理系统,运维管理APP服务

安全可靠

云数据中心生命周期内,7*24小时的全系统运营,确保业务的连续性

最大范围减少人为失误,并实现已安装基础设施的利益最大化

绿色高效

最大可能提高云数据中心运营管理效率,保持和提升云数据中心可用性,延长设备使用寿命

最大限度降低运行能耗成本,实现云数据中心绿色化

二、以业务为视角,以服务为核心,以智能化运维平台为支撑,保障数据中心安全稳定高效运行

通过一体化运维解决方案基于业界成熟的IT服务管理体系和最佳实践,以业务为视角,以服务为核心,以智能化运维平台为支撑,通过专业化的咨询设计、转型实施和平台场景化整合交付,助力客户实现高效运营目标并持续提升业务创新能力。

作为数据中心全生命周期建设与运维的领跑者,在国内率先开展数据中心智慧运维研究,吸纳国际先进运维理论并进行本土化,总结归纳出适合国内数据中心智慧运维的成熟管理体系,满足并促进国家重点行业数据中心智慧运维能力提升,鼎力促进数据中心智慧运维的高安全、高可靠、高品质发展。

三、智慧运营与运维,优化运维成本,降低运行风险,保障智慧数据中心的可用性

依托物联网、DCIM+BIM应用,通过人工智能的能耗优化、实时CFD、大数据和人工智能的故障预测、VR虚拟现实、专家系统应急预案虚拟部署压力测试、机器人巡视等技术手段,在智慧数据中心全生命周期内7*24的保证客户业务连续性,提升客户服务质量;开展的监控、记录、测试、维修、改造等一系列标准化工作,帮助客户节能减排;进行技术培训、咨询评估、解决方案设计实施等技术服务,达到数据中心连续、稳定、高效及安全运行的目标,提高客户满意度。

拥有专业系统的智慧运维与运营服务管理规范,全流程智慧服务细分近300项专业服务操作,根据客户实际情况及需求量身定制服务方案,可为客户提供数据中心以及指挥控制中心基础设施的智能化、全流程智慧运营管理与服务。

四、延长基础设施生命周期,节能减排,助力提高核心竞争力

高效、精准、专业的智慧运营与运维是数据中心持久安全运行的重要保障,培养专业性人才和团队的成本高,并且专业基础薄弱。因此,数据中心智慧运维首选委托专业服务机构,定制满足数据中心智慧运维需求的服务方案,与专业的“贴心管家”长期合作,高效解决复杂、琐碎且专业度要求极高的运维难题。

运维体系设计

作为国内运维体系建设的先行者,基于自身10多年的云数据中心基础设施运维管理经验,吸纳ITIL、Uptime、运维白皮书等国内外先进理念,为客户量身定制一套科学合理、先进高效、符合中国国情、容易落地的运维体系。

数据中心运营整体托管

数据中心运维人员专业度要求高,团队组建难度大,因此数据中心运营整体托管是安全性、性价比较高的选择。按照数据中心运维管理体系配置专业化运维管理团队,为客户提供管家式专业运营整体托管服务,实现了数据中心的体系化、标准化、流程化的高水平运维管理,从而实现数据中心高安全、低能耗、长周期地连续稳定运行。

专业设施设备维保

凭借多年大中型数据中心的建设及运维经验,深刻理解客户业务及IT需求,成功将IT服务管理的理念和标准体系运用到数据中心基础设施的大型机电系统的运维管理服务领域,通过对专业设施设备提供定期巡检维护、故障排除、配置修正、软件升级等技术服务,为设备稳定运行增加了重要的安全保障,有益于延长设备的生命周期。

系统变更(升级)方案设计与实施

依托世界领先的云数据中心建设技术、运营管理技术、先进的设施设备产品,持续为客户提供云数据中心系统完善与升级的方案设计与实施服务,保障和提升云数据中心的可用性。

能效管理与节能

数据中心基础设施运维,除了日常巡检、设备维护保养、演练、故障处理、测试升级等基础工作,更要关注节能减排,提升可用性。

拥有一系列节能服务产品,如自主研发的节能优化系统、具有法律效力的能效监测、具有公信力的节能认证等,可以为客户数据中心提供专业化的能效管理与节能服务。

培训及人才管理

为客户提供开拓性、体系化、规范化的培训服务,通过扎实理论基础与实际操练,为数据中心行业培养优秀的复合型管理人才,以满足客户岗位职责需求。


数据中心工作报告精选

冲先锋、表率党员示范站排头

从青年突击队的"-家一品” 工程“阀门注脂维护保养”的立项到党员的“先锋工程”再到2020年度 先进标赶广军,无-不体现了运维应急中心以自己能干的自2干为准则,铸就生产经营高起点的决心。

面对新人、新业务,我们不等、不靠,主动出击,中心领导亲自带队,现场指导,不仅高质量完成了克里特阀门涡轮头进水故障处理、三股流换热器检修、阀门注脂维护等8项计划性维检修工作,还及时的完成了阴极保护系统检测、采气树及井口控制柜维护、压缩机一级保养等5项计划外维保工作,此外在应急故障处理和双6采气保运工作中,累计完成36项应急处理工作。参照以往外委工作量费用支出,今年预计节约外委费用300万元。

开展工作以来,我们立足当下,在工作中积累经验、提升素质、强化技能。党员同志面对困难工作冲在头,处处起到先锋模范带头作用。在6台三股流换热器检修中,运维员工能够克服烈日酷暑,抡起大锤拆卸、安装手腕圆垫密封面精心修补,仔细打磨不嫌烦,换来的是换热器自采气投产以来无-渗漏,保障安全生产平稳运行;在对每年的”操心大户”乙二醇计量泵维保时,提前谋划采购更换原厂进口膜片,改善了膜片频繁破裂的困扰;针对由于频繁的装卸泵头导致膜片支架及泵头密封面磨损,使得膜片厚度不足造成泵头渗液的难题,我们创新思维提出增加聚四氟乙烯薄膜补偿厚度,成功改善泵头渗液难题,延长了进口膜片使用时间;针对导热油循环泵振动大这个顽疾,使用百分表测试对中偏差值,使用振动测试仪检测对中效果,三台循环泵震动得到明显改善。所有这些都彰显了运维人对设备维护粗活细干,精益求精的本色。

另外,从雷61压缩机进场安装到气密性试验再到试运投产,运维应急中心组织人员全过程跟踪、检查、督促整改问题16项,组织气密性试验,确保安装施工质量及施工进度;投产之初,提供技术支持并全力组织人员保运,I证了雷61储气库一次性安全顺利投产成功; 双6采气投产伊始,为确保应急故障处理及时高效,安排人员日间保运,夜间值守,按照制定的设备巡检制度巡检、维护。在设备维护和运行保障工作上,发挥了重要作用。


“线上+线下”两手抓,加强全员教育建设

根据"两学-做” 教育实施方案,党支部从组织开展学习、党课、学习先进典型、开展主题党日和建强基层组织5个方面,明确主要内容,计划开展时间和主要落实形式,充分发挥基层党组织战斗堡垒作用和共产党员先锋模范作用,全面落实储气库公司党委“五融五合五提升" ,力保障“百亿方气库” 建设的工作要求。

开展“强党建提素质赠书”活动, 7月1日,公司党委沈书记亲自为运维应急中心党支部送来“及时雨”党建知识、党史知识、专业知识等书籍29种。我支部马上建立书籍目录、借阅清单,引导全员在悦读经典、增强技术本领、品味人生的过程中,进-步增强广 大党员不忘初心、牢记使命意识。

全力落实“十九届四中全会网络学习班"的计划,保证全体党员及时认真的上好每一节课, 切切实实转化为推动我们储气库高质星发展的强大动力。

在党员教育上一是领导干部按照规定每月参加一次党组中心组理论学习。二是集中学习《中国共产党章程》、《习近平治国理政节选》和《中华人民共和国民法典》等党纪法规。三是建立支部微信群学习平台,开展党员学习交流研讨,定期传达上级党委知识精神,提供每月-学资料,营造热爱学习的氛围,不断提高党员的理论知识素养。四是组织开展党课三次,既要通过党课学习增强党性和提高理论水平,更重要的是要以讲党课的方式来提升党性修养。我支部坚持制定学习计划,创新学习形式,丰富学习方法,建立学习制度,教育党员终身学习理念。采取“书记领导带头学,专家学者辅导学,业余时间自己学,办理培训集中学,树立典型激励学”等形式,激发党员学习兴趣和学习动力,增强学习的吸引力和实效性,同时注重党员的学习效果以及在实际工作中的运用。每名党员年内要认真完誠学习笔记。

我们率先提出“建一流班子、带一-流团队、创一-流业绩”口号,积极响应上级机关号召,我们争做三个第活动通知第一时间传达,学习教育第一时间宣贯,工作内容第-时间完成。积极开展丰富多彩活动出”安全早班车”特色培训教育。自中心成立至今,每天6:30左右在微信工作群分享三条安全知识、一条现场隐患排查,目前已推出100余期,是常规安全培训的有效补充和特色提升。

”安全早班车” 活动以”互联网+”为手段将安全培训化整为零、融入日常,构建线上线下相结合的培训模式,转变思路、创新方式,有效提升员工安全理论知识水平和现场安全管理意识。参加党员观影活动两次、"庆国庆湿地” “融合共建 携手打造储气安全”两次徒步活动,通过活动,不仅提升了历史责任意识和历史使命感,宣扬爱国主义维护民族尊严,丰富了教育实践活动的内容,而且形式多样,寓教于乐,弘扬主旋律、提升了全体党员的精气神。组织和动员干部职工积极参加安全生产月”护航百亿方”竞赛、”爱读书爱阅读” 读书、青年职工职业生涯展报、油水井分析、迎国庆歌唱比赛、羽毛球比赛、篮球比赛等活动。在各项比赛中均取得优异成绩。取得的成绩提高了职工的自信心,增进了运维新集体的成就感和自豪感,增强了队伍的凝聚力。其次在活动中把握参赛的契机,不为竞赛而竞赛。各级领导通过参与活动也可以增进对员工的了解,在参加活动的过程中可以与员工聊天谈心,以朋友的身份去了解员工的思想现状和诉求,帮助他们解决生产中或生活中的各种各样的难题。关心员工思想动态,必须及时消除职工思想情绪波动,确保人人树立起"安全第一,以人为本”的基本生产思想。安全生产和企业的经济效益密切相关,工会为员工发放了小马扎、暖水壶、遮阳帐篷、夏季为员工送清凉,让员工感受企业温暖。成立以来,运维应急中心在公司领导支持下,积极开展工作,取得了一定的成绩。同时,我们也认识到工作中还存在很多不足,新的一年,我们将会总结经验,重新起航。

努力做好以下工作:

一、加强员工培训,提高队伍素质,拓宽业务范围,让党员同志起到先锋模范带头作用,人争当示范岗。

二、继续保持每月安全内部审核和“安全早班车”等安全管理好做法,进一步提高员工安全意识, 做到安全生产永不懈怠。

三、做好运维应急中心宣传工作,宣传工作具有对外和对内的双重作用,它所塑造的运维形象,所突出的运维精神面貌成为外界了解运维的一个重要窗口。它对内部具有凝聚思想、鼓舞士气作用, 我支部接下来将不断提升写作能力,提高工作标准。


《数据中心运维工作报告》


本报告是关于数据中心运维工作的一次总结。

本次数据中心运维工作共包括以下几项内容:

1、硬件维护:包括对数据中心服务器、网络设备、存储设备等硬件的定期检查、维护和维修。

2、系统维护:包括对操作系统、数据库、应用软件等的定期检查、升级和维护。

3、安全管理:包括对数据中心的安全配置、安全审计、风险识别等的定期检查和管理。

4、网络管理:包括对数据中心网络的定期检查、维护和优化等。

5、监控管理:包括对数据中心服务器、网络、存储等设备的实时监控管理。

6、故障管理:包括对数据中心服务器、网络、存储等设备的故障诊断和处理。

本次数据中心运维工作按时完成,并保障了数据中心的正常运行。未来,我们将继续努力,提供更优质、更安全的数据中心运维服务,为企业提供更好的服务。


数据中心运维工作报告


一、运维工作总体情况

数据中心运维工作,是生产系统的运行环境的重要保障,也是企业的核心业务的有效运行的关键因素。随着企业的发展和业务的壮大,数据中心的运维工作也在逐步完善和拓展。

数据中心运维工作的主要内容是:系统稳定运行,安全可靠;运行环境的优化,服务质量的提升;根据业务需要,按时完成计划性和非计划性的维护和保养;根据业务流程,确保系统的安全性,确保系统的性能;建立和完善数据中心运维管理制度,提高运维效率;建立和完善故障处理流程,确保故障的及时处理;建立和完善系统管理、安全管理等体系,提高数据中心的安全性和稳定性。


二、数据中心运维应急中心推进工作

为贯彻落实党的十九大精神,加强党的建设,提高党员整体素质,营造学习型和严谨负责的党支部氛围,数据中心运维应急中心以自己能做的自主干为准则,认真落实中央、省、市党组织关于党的建设要求,积极推进全体党员学习教育,努力提升业务能力,以高质量完成8项计划性维检修工作和5项计划外维保工作,做到优化运行环境,保障安全生产平稳运行。

1.线上学习

积极开展线上学习活动,搭建知识库,把最新的技术和知识更新到知识库中,同时结合现场实际情况,组织相关培训,不断提升员工技能,及时掌握新知识,以提高运行稳定性和安全性,确保系统的正常运行。

2.线下活动

积极参与各类社会活动,以实践学习结合,不断提高组织工作和个人素质,深入开展书籍赠书活动,并全力落实十九届四中全会网络学习班,以提升团队凝聚力和团结协作精神。

3.储气库项目

为了扎实推进储气库项目的安全可靠的投产运行,数据中心运维应急中心认真按照相关法规和标准,建立完善的管理制度,构建完善的安全监控体系,加强安全措施,确保安全可靠的运行。


三、总结

数据中心运维工作是生产系统运行环境的重要保障,也是企业核心业务正常运行的关键因素。数据中心运维应急中心通过积极推进全体党员学习教育,努力提升业务能力,以高质量完成计划性维检修工作和非计划外维保工作,做到优化运行环境,保障安全生产平稳运行,努力推进储气库项目的安全可靠的投产运行。经过一段时间的努力,数据中心运维工作基本达到了规范化和自动化的要求,为企业的发展提供了强有力的保障。


赞(0) 更多分享

上篇: 中华人民共和国网络安全法
下篇: 多台路由器,不同网段的设备之间如何互访?