联想DM5000H日常维护手册
- HPC存储
- 2024-06-03
- 942热度
- 0评论
一、目的
Lenovo 解决方案能够助客户有效地简化运作,同时最大限度地降低风险,为那些不断经历变化的企业提供更高的性能和可扩展性。借助于产品、技术和合作伙伴的良好组合,Lenovo 解决方案有助于解决最为迫切的IT 和业务问题,同时最大限度地提高投资回报率。
本指南是为初次使用Lenovo存储系统的人员编写的基本管理知识,目标是指导维护人员如何进行每天的健康检查。详细的存储系统和命令管理参见随机手册,在线帮助及http://support.Lenovo.com/。
二、硬件设备说明
前端:
后端:
端口名称 | 端口用途及描述 |
---|---|
0a-0d | 3Gb或6Gb SAS接口 用于连接Lenovo存储后端SAS或SATA磁盘柜 |
0e-0h | 16Gb FC或10Gb Ethernet用于连接集群交换机或前端主机 |
e0c-e0d | 10Gb网络接口 用于接前端交换机或前端主机 |
e0M、SP | 1000Mb网络接口 其中e0M口用于远程网络管理端口;SP口为远程串口 |
solt1\~solt2 | 扩展槽位,用于接10Mb/100Mb/1000Mb/10Gb以太网卡网卡(10Gb以太网卡支持FCoE)、2Gb/4Gb/8Gb光纤卡、3Gb/6Gb SAS卡、256GB/512GB/1TB PAM II卡、或者SCSI卡; |
机架/电源/磁盘
盘柜电源图
三、配置存储方式
通过System Manager 图形管理接口配置
System Manager是一个图形管理界面,使您能够从 Web 浏览器中管理存储系统和存储对象(例如磁盘、卷和聚合)以及执行与存储系统相关的常见管理任务。作为集群管理员,您可以使用 System Manager 管理整个集群及其资源。
通过命令行(CLI)配置
您可以用CONSOLE口 (将PC机的串口与Lenovo随机带的console线连在filer的CONSOLE口, 打开windows里的hyperterminal或其它仿真终端,波特率设置为default: 115200波特率, 8位,无校验,1位停止位)。缺省管理员账号为admin,密码一般在安装时设置,可以使用security login password命令修改。或者通过SSH协议远程登录SP,输入system console转至console口管理。输入?或者help可以看到全部命令。
命令行使用方法
cluster::> ?
up Go up one directory
cluster> Manage clusters
dashboard> Display dashboards
event> Manage system events
exit Quit the CLI session
history Show the history of commands for this CLI session
job> Manage jobs and job schedules
lun> Manage LUNs
man Display the on-line manual pages
network> Manage physical and virtual network connections
qos> QoS settings
redo Execute a previous command
rows Show/Set the rows for this CLI session
run Run interactive or non-interactive commands in the node shell
security> The security directory
set Display/Set CLI session settings
sis Manage volume efficiency
snapmirror> Manage SnapMirror
statistics> Display operational statistics
storage> Manage physical storage, including disks, aggregates, and failover
system> The system directory
top Go to the top-level directory
volume> Manage virtual storage, including volumes, snapshots, and mirrors
vserver> Manage Vservers
命令的详细参数和使用方法可以通过 ? 得到,例如:
cluster::> cluster ?
contact-info> Manage contact information for the cluster.
create Create a cluster
date> Manage cluster's date and time setting
ha> Manage high-availability configuration
identity> Manage the cluster's attributes, including name and serial number
join Join an existing cluster using the specified member's IP address
modify Modify cluster node membership attributes
peer> Manage cluster peer relationships
setup Setup wizard
show Display cluster node members
statistics> Display cluster statistics
设备正常开关机顺序
开机顺序:
1、 开启集群交换机;
2、 按照磁盘柜的Shelf ID号依次开启磁盘柜的电源,大概20秒后再开启存储控制器;
3、 开启接有Lenovo存储的以太网交换机或者光纤交换机;
4、 开启有挂载Lenovo存储空间的服务器或者磁带库;
关机顺序:
1、 确认所有连接的应用程序已经关闭(包括通过FCP或ISCSI连接到存储的Oracle Server等服务,和通过NAS连接到存储的应用);
2、 确认连接到存储的服务器已关闭(通过FCP或ISCSI连接的服务器);
3、 通过串口或SSH以root用户或者其它管理员账户登陆到系统;
4、 分别对两个机头输入system node halt -inhibit-takeover true命令,并且回到Loader>状态;
5、 先关控制器电源,在依次倒着按照Shelf ID 号关闭磁盘柜电源。
四、Lenovo设备日常操作
System Manager图形界面操作
现在作为 Web 服务随 Clustered Data ONTAP提供,默认情况下处于启用状态,您可以使用浏览器并输入Cluster管IP(https://172.18.200.30)进行访问。输入用户名和密码(admin/Lenovo123),点击Sign in图标进入System Manager管理界面。(缺省管理员为admin,密码在初始安装时可以设定
集群模式分为:(Dashboard)信息板;(Applications & Tiers)应用程序和层;(Storage)存储;(network)网络;(Protection)保护;(Events&Jobs)事件和作业;(Configuration)配置
创建存储池(Aggregate)
创建新的Aggr,此操作在扩容时候用的上,一般由PSE或者代理工程师完成此步操作;给新建aggr 起名为aggr\_test,选择添加多少颗磁盘到aggr\_test存储池中,注意:添加磁盘至同一个aggregate(存储池)时,必须选择同样类型、大小和转速的磁盘,否则将于转速最慢,大小最小的磁盘类型为上限;当然,不可以将SATA磁盘加入到SAS 磁盘的Aggr中,反之一样也不行。
1、点击Storage->Aggregates&Disks,点击Create,
2、点击Change,raidtype选择为 Raid\_dp,选择Raid Group Size。点击Save保存退出。
注明:FC /SAS磁盘的RaidSize 默认为16
3、点击Create ,完成存储池创建.
到此,存储池已经创建好,下面开始新建卷
创建存储虚拟机(Storage Virtual Machines)
Storage Virtual Machine(SVM,以前称为 Vserver) 由若干个数据卷以及一个或多个用于向客户端提供数据的 LIF 组成。Storage Virtual Machine可为客户端提供数据访问,不受物理存储或控制器限制,这一点与其他任何存储系统类似。SVM 可提供诸多优势,例如,无中断运行、可扩展性、安全性和统一存储。
1、创建SVM,选中Storage Virtual Machine,点击Create,输入SVM Name:svm\_test,选择此SVM需要使用的协议,及DNS信息,点击Submit&Continue。
image.png注意:选择协议时,如没有相应License,则对应协议无法选择并使用。
2、 此处分别配置CIFS/NFS协议,可以先行跳过,后续再配置,点击Skip。
image.png3、根据需要配置基于SVM层面的管理端口。
image.png4、点击OK,完成SVM的配置
创建逻辑端口(Logic InterFace)
从Clustered Data ONTAP 8.3起,前端应用基于SVM的LIF访问数据,需要对每个SVM建立基于SVM的数据访问LIF。
1、点击Network(网络),选中Netwrok Interfaces(网络接口)子菜单,点击Create
image.png输入LIF name:lif\_test,端口类型:Servers Data,SVM选择之前新建的svm\_test,协议选择相应的类型,Assign IP Address选择自定义IP或者从Subnets池中自动选择。
image.png2、选择前端业务访问的端口,端口类型可选择物理port,ifgrp,或者vlan。
image.png3、点击Create,创建LIF结束。
创建灵活卷(Flex Volume)
由于集群模式的volume是基于SVM并提供给前端访问,因此在创建volume之前先要确定所在的SVM。
[1]()、创建Flex volume,[点击Storage Virtual Machines,选择]()Storage(存储)->volumes(卷),Create volume菜单
image.png2、填写Volume Name为vol\_test,选择之前新建的aggr\_test,
image.png3、选择其为“NAS”或“SAN”共享方式,并调整cifs\_test的大小,设置快照预留空间等操作(快照预留Snapshot Reserves可以灵活调整,0为不预留)
image.png4、点击 “Storage Efficient”,选择是否开启a-sis(重复数据删除功能),是否开启重复数据删除功能具体需要看前端应用,比如前端业务为虚拟桌面、或者邮件系统,则建议开启重复数据删除功能,起到存储最优使用效率;
image.png5、完成volume\_test卷创建;到此步骤,Volume卷创建完成;我们可以正式开始配置NAS(CIFS或NFS)的空间规划配置;
创建NAS 共享(CIFS/NFS)
1、 创建CIFS协议文件共享
A、Clustered Data ONTAP系统,必须要有AD域控服务器才能提供CIFS服务(ONTAP 9.X后可以基于workgroup访问),所以SVM需要先加进域。点击SVM,选择SVM setup(SVM 设置)->SiteA\_SVM-> CIFS,点击Setup
image.pngB、输入NetBios Name:cifs\_server,填写Domain,并输入具有管理员权限的用户名及密码。至此,CIFS协议已正常启用。
image.pngC、选择Storage Virtual Machines
Storage(存储)->Shares(共享),点击 “Create Shares(创建共享)”按钮,新建一个CIFS 共享。
image.pngD、选择之前新建的vol\_test卷建立共享。
image.pngE、更改Share Name为cifs\_share,默认为volume的名称,并对其进行描述,以便日后更方便识别。
image.pngF、点击“Create”按钮。完成CIFS 共享创建。
image.pngG、权限设置,选择cifs\_share享路径,点击“Edit”进行共享权限设置;Lenovo存储中权限设置只有三种:full control、read and write、read only;点击“Permission”,设置用户权限;选择“add”并添加”administrators”组用户,选择“remove”则是删除某个用户或组的使用权限;
image.pngH、点击“options”进行高级options设置;可设置是否允许共享文件夹的内外部超级链接,以及结合内部病毒服务器进行设置病毒扫描;点击“save and close”完成CIFS 共享的权限设置。
image.png注意:若将Lenovo 存储加入Windows的域环境中,那么其权限设置操作则可以完全通过Windows AD 的Administrator 来管理设置;
I、Windows 主机端操作
选择映射网络驱动器,输入存储IP地址(之前创建的lif\_test的IP)或System Name(SVM加域时命名的的cifs\_server)及共享名,并勾上“登陆时重新连接”。第一次连接需要输入用户名密码,选择记住密码,下次登陆时候将可直接连接到共享空间;若不是当前用户可点击different username,以指定的用户名口令登陆(和当前windows用户不同)
image.png[2、 创建NFS协议文件共享]()
A、选择DM5000H->svm\_test->Configuration->Protocols->NFS,首先Enable NFS协议。
image.pngB、选择DM5000H->svm\_test->Policies->Export Polucies,编辑Export Policy,在default默认策略中新建rule,指定Client为0.0.0.0/0。
image.pngC、新建策略名为export\_policy\_test的策略,新建角色,可指定Client为某一个或多个IP或某个网段,但是不能设置同一个网段中某些联系的IP。点击“Create”新建包含角色的策略完成。
image.pngD、点击Storage Virtual Machines,
选择Storage(存储)->Namespace(接合路径),改vol\_test卷的Export Policy为test。
image.pngE、Linux 主机端mount操作
Snapshot配置管理
Lenovo 存储的快照可对aggregate 和volume两个层面而言,适用最小对象为volume,当然平时用户使用最多的基于volume层面的快照备份及恢复;以下是对vol\_test卷创建快照的实例:
[1]()、Protection (保护)->Snapshot Policies(snapshot策略),创建快照备份策略,快照保留份数以及快照备份时间点(可自定义或者使用系统默认配置)
image.png2、Storage(存储)->Volumes(卷),选中vol\_test卷,点击Snapshot Copies中的Configure,设置快照大小,选择上一步新建的snapshot\_policy\_test策略。
image.png注:系统默认快照保留大小为该快照卷的5%,默认显示快照路径,默认default策略保留6份hourly的快照和2份nightly的快照;
3、快照恢复。点击SnapShot Copies中的Restore,选择需要具体恢复到哪一个时间点。提示是否确认将该volume的数据恢复到拍快照的那个时间点,点确认,则恢复到快照备份时间点,若放弃则不恢复;注意:这个恢复是针对整个volume而言,而不是针对单个文件;当然也可以用命令针对某单个文件进行恢复(filer>snap restore -t file -s test /vol/vol1/test/test.txt)。
目录配额配置管理
1、Storage(存储)->Quotas(配额),点击Create
image.png2、选择新建针对某个volume的配额
image.png3、选择配置配额的volume或者qtree,配额类型有3中,即分别可对qtree、user或group 进行做配额,点击Next
4、Hard Limit 设置为1g ,soft limit 800MB,Threshold 750MB, 分别是指所有用户最大可用到1G ,用到750MB时候会有告警提示,用到时候800MB 会提示用户已经无可用空间,但此时还能继续用知道数据存放到1GB为止;File Count 中的 Hard limit 和soft Limit,分别是指该共享路径下面最多包含100000×1000个文件,用到8000×1000个时候会提示文件个数已经用完;点击Next
image.png5、再次点击Next并Finsish,针对vol\_test卷,完成quota的配置。
创建SAN共享 (以FCP协议为例)
1、确认FC协议状态,点击Storage Virtual Machines,选择SVM->svm Settings(SVM设置)->FC/FCoE,点击Start,开启FC协议。
image.png2、为了前端主机能通过光纤交换机访问到存储,需要创建fc lif,每个控制器的每个FC创建一个fc lif。
点击Network,选中Netwrok Interfaces子菜单,点击Create
创建fc,选择svm\_test,选择控制器的fc端口,点击Create,依次类推,创建多个fc lif。
image.png3、创建Portsets,点击Storage Virtual Machines,选择Storage(存储)->LUNs->Portsets(端口集),选中Portsets子菜单,点击Create
image.png4、创建Initiator Groups(启动程序组),点击Storage Virtual Machines,选择Storage->LUNs->Initiator创建,选择系统类型以及传输协议,注意:若选择FC/FCoE,在无特殊条件下建议开启ALUA功能;选择Portset为之前创建的fc,添加前端主机HBA卡的wwpn号或对应的IQN号。
image.png5、创建lun,点击Storage Virtual Machines,选择Storage(存储)->LUNs->LUN Management(LUN 管理),点击Create
image.png6、点击Next,新建lun 名字,lun 类型及大小;
image.png7、点击Next,选择lun存储在的aggr为aggr\_test,默认新建lun\_test\_test的volume,点击next;
image.png8、选择之前新建的A11\_S3 ,LUN ID可为空,系统自动添加。
image.png9、点击Next,确认是否配置Storage Quality of Service
image.png10、核对我们新建lun的配置信息;点击next,完成lun的创建;
image.png11、点击Finish,完成;
image.png
12、配置光纤交换机,Clustered Data ONTAP不支持port zone,需要划wwpn zone,前端主机根据系统类型安装多路径软件,扫描新增加磁盘,格式化分区并使用。
CLI 命令行操作
用SecureCRT/Putty等工具,使用ssh或者Telnet协议,ssh /telnet存储e0M口远程管理地址,其登陆用户名为:admin,密码为:xxxxxx,也可以用ssh/telnet 存储SP口远程串口地址,具备串口一样功能, 其登陆用户名为:admin,密码为跟admin的密码一致;(Lenovo存储默认telnet协议是关闭状态)
创建存储池(Aggregate)
Data OnTap 8.0以后,根据不同的硬件型号,最大的Aggregate可用容量可以达到100TB。
新创建aggregate:storage aggregate create -aggregate -diskcount 14 -node DM5000H-02 -raidtype raid\_dp -disksize 600 disktype SAS -maxraidsize 16
在node DM5000H-02下创建一个64位系统的aggr\_test,raidsize为16,raid类型为raid\_dp,共包括10颗FCAL的磁盘。
参看创建成功后存储池情况:
image.png1、为现有的Aggregate增加磁盘:storage aggregate add -aggregate -diskcount <磁盘数目> #输入需要添加的磁盘数量
storage aggregate show 察看结果
例如:往aggr\_test存储池中添加2颗磁盘;
image.png2、修改Aggregate快照保留
storage aggregate modify -aggregate -percent-snapshot-space 0 #关闭aggregate级snapshot的空间预留
例如:关闭aggr\_test的快照功能,并且取消策略;
参看默认情况:
image.png调整后情况:
image.png3、修改Aggregate名称 Aggr rename –aggregate -newname
例如:将aggr\_test名改为aggr1
image.png4、修改aggr的raid group的大小(对之前raidsize的不做影响)
aggr modify –aggregate <aggr\_name> –maxraidsize <目标raidsize></aggr\_name>
例如:将aggr\_test的raidsize调整为12
创建存储虚拟机(Storage Virtual Machines)
vserver create -vserver -aggregate -rootvolume -rootvolume-security-style
例如:新建svm\_test,根卷为svm\_test\_root并位于aggr\_test
创建逻辑端口(Logic InterFace)
1、创建基于svm的lif用户数据访问
network interface create -vserver -lif -role data -data-protocol cifs,nfs,fcache -home-node -home-port -address -netmask -status-admin up
例如:新建lif\_test,home node为DM5000H-02的e0d端口,ip为172.16.1.104,netmask为255.255.255.0,状态为up
image.png2、Clustered Data ONTAP中为了实现lif的高可用,引入failover group功能,lif在某个端口出现故障问题时,lif会自动迁移至failover group中下一可用端口,此步骤仅能通过命令行模式操作。
新建failover-group:failover-groups create -vserver -failover-group -targets [node:port]()
向新建的failover-group增加端口:failover-groups add-targets -vserver -failover-group -targets node:port
例如:新建failover\_group\_svm\_test,第一个端口为fas80x0-02:e0d,增加另一个端口为fas80x0-01:e0d
image.png3、将新建的lif放进新建的failover group中,以实现网络的高可用。
创建灵活卷(Flex Volume)
1、参看现有卷使用情况:df
例如:
image.png2、创建vol : vol create
例如:在aggr\_test上创建一个1g的vol\_test卷.
image.png3、调整volsize:vol size -new-size
例如:将vol\_test 大小调整为2g
image.png4、删除快照:snapshot delete –vserver -volume –snaphot <指定的snapshot名># “*”代表所有的snapshot
例如:删除vol\_test中所有快照;
image.png5、删除vol:vol offline 和vol destroy
例如:把vol\_test卷删除;
创建NAS共享(CIFS/NFS)
1、 创建CIFS协议文件共享
A、在加域之前,确认dns已经正确配置。
image.pngB、将svm\_test添加进域控,
image.pngC、将vol\_test卷mount至根目录
image.pngD、新建share目录
例如:将vol\_test已cifs\_share名共享出来,默认权限为everyone的Full Controll
image.pngE、修改共享权限
例如:将everyone的Full Controll权限更改成readonly
image.pngF、将共享路径添加为网络映射盘,该操作详见4.1.6章节的第J小节的Windows 端主机操作
2、 创建NFS协议文件共享
A、确认NFS协议已经启用
image.pngB、新建针对vol\_test卷的NFS共享策略,为了前端能够mount到数据卷,需要将根的策略设为0.0.0.0/0,否则前端mount报权限受限。
image.pngC、将新建的export\_policy\_test策略应用给vol\_test卷
image.pngD、Linux主机mount测试
Snapshot 配置管理
1、参看快照策略
集群模式的快照管理和7模式不同,首先需要先建立一个快照策略。从下图可以得知,一共有三个快照策略,default、default-1weekly、none;
image.png2、为volume选择快照策略
例如:vol\_test卷选择快照策略default-1weekly,需要与周为单位的快照保留1份,与天为单位的快照保留2份,与小时为单位的快照保留6份,备份时间点分别为8:00、12:00、16:00、20:00、23:00,快照预留空间设置为占该卷的5%;
image.png3、取消快照策略及取消快照预留空间
例如:取消vol\_test的快照策略及取消快照预留空间;
目录配额配置管理
1、参看目录配额
例如:
image.png从上图可以得知,该套存储目前尚未做目录配额;
2、限制用户(/用户组)使用 vol(/qtree)空间
image.png例如: quota的类型选择用户;
image.png例如:针对所有用户应用quota;
image.png例如:限制所有访问vol\_test的用户只能使用20MB空间;
image.png至此,quota设置完成。
3、取消目录配额,quota off /vol/volname(/qtreename)
例如:取消vol\_test的目录配额
创建SAN 共享 (以FCP协议为例)
1、确认FCP服务已经启用
image.png2、参看LUN使用情况lun show
image.png从上图,表明目前该套存储未配置SAN环境存储;
3、创建LUN
lun create -vserver [ -path /vol/<vol\_name>/ -size 50m -ostype windows</vol\_name>
例如:在svm\_test下创建1个名为lun\_test大小为50m LUN,并且挂载给windows主机;
image.png4、创建FC LIF
image.png5、创建Portset
image.png6、创建igroup
igroup create -igroup -vserver <svm\_name> -protocol fcp -ostype windows –initiator -portset -vserver </svm\_name>
image.png7、lun 映射
lun map -vserver -path -igroup
image.png8、配置光纤交换机,Clustered Data ONTAP不支持port zone,需要划wwpn zone,前端主机根据系统类型安装多路径软件,扫描新增加磁盘,格式化分区并使用。
五、Lenovo设备日常维护
观察指示灯
现场首先进行指示灯和LCD面板检查,判断是否有异常情况发生。
硬件状态检查
system health alert show 检查告警情况
DM5000H::*> dashboard health vserver show
DM5000H::*> cluster show
DM5000H::*> event log show –nodes * -severity ERROR,CRITICAL,EMERGENCY
DM5000H::> set diag
DM5000H::*> cluster ring show
正常情况:
无告警
非正常情况:
任何一个node没有一个spare disk或者有failed Disk,就是非正常情况。
DM5000H::> environment sensors show 检查所有硬件
以上显示结果应该没有failed,error,warning等字样
检查故障硬盘状态及将更换后的硬盘assign至控制器
DM5000H::> storage show disk –broken #查看故障硬盘属于哪个node
DM5000H::> run –node #进入node shell
DM5000H-01 > disk assign #assign disk
检查网络是否正常
从存储设备指定lif ping ip
地址,输入:
network ping –lif -destination
检查FILERNAME 机头的网络连通性。
正常情况:
有相应,无丢包。
非正常情况:
ping不通或者丢包严重。
DM5000H::> network port show 主要网口状态应为up
DM5000H::> network interface show 所有的LIF都在home port上
检查Cluster HA状态是否正常
DM5000H::*> storage failover show
正常情况:
2个节点状态应该为enable
非正常情况:
任何一个机头显示非如上所示,就属于非正常情况。
检查卷容量是否正常
使用aggr show或者vol show检查空间使用状况。
正常情况:
capacity 低于或等于80%。
非正常情况:
capacity 高于80%。
Inode数量检查
使用df –i命令检查inode数据使用情况
正常情况:
Inode值低于或等于80%
非正常情况:
Inode值高于80%
建议使用“vol modify -volume -files ”命令更改卷的inode 大小,避免因inode数量爆满导致卷无法写入;由于影像平台应用数据小文件类型,所以建议inode数值尽量大,此更改可以在线调整,实时生效。
例如: vol modify -volume vol1 –files 20000 将卷vol1的inode数值更改为20000
性能检查
DM5000H::*> statistics show-periodic CPU利用率应该在80%以下
[日志文件检查]()
event log show –nodes * -severity ERROR,CRITICAL,EMERGENCY
命令会自动检查是否有failed,error,warning等字样.
如有,则会显示出来
收集autosupport信息
system autosupport invoke -type all 触发最新autosupport信息
system autosupport history show 显示最近触发的asup的时间和进度
https:///spi//etc/log/
cDot8.2 以后可以直接通过http浏览器直接下载autosupport
常用命令
查看网络配置信息:
network interface show –vserver -lif
查看SAN LIF
network interface show -data-protocol iscsi|fcp
检查Node
cluster::> storage failover show
cluster::> storage aggregate show
cluster::> storage volume show
cluster::> cluster ha show
cluster::> cluster show
查看Disk:
cluster::> storage aggregate show
cluster::> storage disk show –state broken
cluster::> storage disk show –state reconstructing -longop
cluster::> storage disk show –state zeroing -longop
集群交换机检查
cluster::*> ping-cluster -node
cluster::>network interface show -role cluster
cluster::>system cluster-switch show
电源、磁盘柜、控制器检查
cluster::>system environment sensors show
链路检查
cluster::> node run –node * sysconfig