为了保证关键业务的连续运行,存储系统需要全天候就绪。存储系统的日常易于维护和可视化管理变得十分关键。XE2000软件定义存储一体机拥有完善的软硬件运维管理功能,可简化日常运维,减少运维人员和时间成本投入。
01硬件运维
硬件方面,XE2000本身可通过前、后面板指示灯,硬盘灯等显示情况以及管理软件来进行管理,以及分析是否存在硬件故障情况。
前面板指示灯
以前面板指示灯为例,123分别是系统健康,网络和电源等,绿色则表示正常,红色或者黄色显示告警。4是UID灯,登录管理软件后会亮灯。
后面板指示灯,1是以太网连接状态指示灯,绿灯常亮,网络链路已连通;灯灭,网口链路没有连通。2是以太网接口数据传输状态指示灯,绿色闪烁,网口正在接受或发送数据;灯灭,网口没有接受或发送数据。3和4是电源模块状态指示灯,绿色常亮模块工作正常;橙灯闪烁或者常亮表示告警或已经出现损坏。
后面板指示灯
前面板的硬盘灯,Fault灯如果是橙色,则是故障,如果不亮说明没有设置好RAID。
查看硬件是否故障,还可以进入管理软件查看。管理软件中的【整体概况】页面可以查看服务器的基本信息和基本状态。管理软件中的【健康诊断】中可以查看【事件日志】和【管理软件日志】,来分析是否存在硬件故障。
02软件运维
1、概览检查
通过Web登陆存储UI界面。在概览界面,查看【数据状态】和【健康状态】,当这两个栏目都显示正常或健康状态时,集群正常;在【告警】栏目检查是否有严重和紧急的告警,如果有则及时检查;在【存储池容量使用】栏目查看存储池容量使用是否超过75%,如果是则考虑扩容;
2、服务器检查
在【服务器管理】界面查看服务器的【状态】,如果健康状态显示告警或离线状态则要检查并分析原因;查看服务器的【CPU和内存利用率】,如果显示超过80%要监控并分析原因;检查【系统盘容量使用率和IO利用率】,如果系统盘容量使用较高,要分析并清理无用文件,如果系统盘IO利用率较高则要分析并降低系统盘负载。
3、SSD缓存检查
在【缓存管理】界面查看缓存盘状态;如果显示健康状态则正常,如果显示告警状态则要分析SSD盘是否发生故障;查看SSD的【写入寿命】,写入寿命显示在30%以下时要及时更换SSD;在“性能”选项卡页面可查看到SSD读写带宽、读写IOPS和延时。
4、硬盘检查
在【硬盘管理】界面查看硬盘状态;如果显示健康状态,则正常,如果显示告警状态则要分析硬盘是否发生故障;查看硬盘的容量使用情况,如果硬盘使用量超过75%则要及时扩容。
在【硬盘管理】列表模式下,可以查看osd状态和性能,点击某块osd,可查看硬盘的SMART信息。
5、更换SATA盘
在【硬盘管理】界面中有个别osd显示告警状态,检查并确认是硬盘故障后,进入该osd所在服务器的【服务器管理】—【物理盘】界面,点击【硬盘点灯】开启手动点灯功能,对故障盘进行手动点灯,确认故障盘位置。
找到故障硬盘后,将故障盘从服务器中拔出,安装新的SATA盘到服务器;然后在存储UI管理界面中的【硬盘管理】界面找到故障盘,选中故障盘->【操作】列表中点击【硬盘重建】->选择【新物理盘】->选中新盘后点击【下一步】->设置缓存盘选中【原缓存】后点击【下一步】进行硬盘重建。
硬盘重建成功后,osd为健康状态,同时存储池开始数据重平衡,等待数据重平衡完成后,集群恢复正常,硬盘更换完成。
6、配置邮箱告警
在【通知列表】界面点击【配置邮箱服务器】按钮,即可快速配置存储邮件告警。邮箱服务器配置完成后,在通知列表中点击【创建】故障信息通知邮箱;在【告警中心】->【告警通知】页面添加告警规则。