简介
本文档旨在帮助您在收到“MSO refued, Warm start-up Failed”消息时对Cisco PGW 2200进行故障排除。在您发出MML命令sw-over::confirm后,将显示此错误消息。由于热启动是低优先级和异步活动,因此多个组件可能正在热启动其备用对等体。警报可帮助操作人员了解备用设备何时准备好作为备用设备接管。当procM向IOCM发送Make Peer Standby请求时发出警报。只有在热启动成功后才清除警报。
先决条件
要求
Cisco 建议您了解以下主题:
使用的组件
本文档中的信息基于以下软件和硬件版本:
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
规则
有关文档规则的详细信息,请参阅 Cisco 技术提示规则。
故障排除
在活动Cisco PGW 2200上发出MML命令sw-over::Confirm后,您将收到此错误。
PGW2200 mml> sw-over::Confirm
MGC-01 - Media Gateway Controller 2004-05-26 11:37:37.061 MEST
M DENY
SROF
"Proc Mgr"
/* MSO refused, Warm start-up Failed. */
;
PGW2200 mml>
注意:“热重启”表示STANDBY已准备好接收检查点数据。这通常发生在复制器和IOCC MTP3等通过IOCM的进程上。可能是SS7 IOCC是IOCM拒绝sw-over命令的原因。其他问题也可能是如此。在本例中,请收集包含本部分信息的日志信息。
当用户尝试手动切换(MSO)并被拒绝时,MML会以以下原因之一作出响应:
-
MSO refused, standby system not ready — 切换失败,因为备用系统未就绪。
-
MSO refused, warm start-up in progress — 切换失败,因为备用系统的启动正在进行。
-
MSO refued, Warm start-up Failed - MSO被拒绝,热启动切换失败。
-
MSO refused, System is not in active state — 切换失败,因为PGW 2200主机未处于活动状态。
-
MSO refused, Detected standalone Flag — 交换机失败,因为未配置备用PGW 2200主机。
PGW2200 mml> rtrv-alms
MGC-01 - Media Gateway Controller 2004-05-26 11:37:40.732 MEST
M RTRV
"lnk-1-cisco1: 2004-04-29 18:24:43.766 MEST,ALM=\"SC FAIL\",SEV=MJ"
"lnk-1-cisco2: 2004-04-29 18:24:43.779 MEST,ALM=\"SC FAIL\",SEV=MJ"
"lnk-2-cisco3: 2004-04-29 18:24:43.797 MEST,ALM=\"SC FAIL\",SEV=MJ"
注意:始终使用MML rtrv-alms命令检查sw-over::confirm命令期间发生的警报。在/opt/CiscoMGC/var/log目录下,结合使用UNIX命令tail -f platform.log执行此操作。另请检查链接到sw-over命令的错误消息。
链接到此情况的platform.log错误消息为:
Wed May 1 16:13:47:752 2004 MEST | ProcessManager
(PID 698) <Error>GEN_ERR_HA_MSO: Cannot comply with Manual
Switch Over request. Reason Warm start up failed
故障排除过程示例
在IOCM中启动“热启动”过程时,“备用热启动”警报会设置在活动框中。
仅当“热启动”过程成功完成时,才会从“活动”框中自动清除警报。
如果出现“Warm-Start(暖启动)”故障,则不清除此警报。如果发生这种情况,则仅在稍后成功处理暖启动时清除警报。
警报的影响是手动切换被拒绝。
如果警报不清除,则采取以下纠正措施:
-
确保在主用和备用PGW 2200中将pom.dataSync参数设置为true。
-
停止并启动备用PGW 2200软件。
-
如果警报仍未清除,请打开技术支持服务请求并在目录/opt/CiscoMGC/var/log和mml.log - alarm.log下记录platform.log,当前PGW 2200配置、发现警报时的前两个配置目录(CFG_)以及从两个PGW 2200到的platform.log服务请求。
以下是故障排除过程的示例:
-
检查与此错误消息链接的任何项目的发行说明。这些问题在Cisco PGW 2200的更新版本中已解决。
确保未遇到任何损坏的补丁。在/opt/CiscoMGC/var/log目录下报告问题时,验证platform.log文件。另请检查/var/adm目录下与UNIX错误消息相关的文件消息。
思科建议您升级到最新的Cisco PGW 2200补丁。
如果此步骤中的一切正常,请继续执行步骤2。
-
发出netstat -a命令,查看复制是否处于已建立模式(例如,活动<->备用模式)。
发出MML prov-sync命令,查看此命令是否正常工作。此外,再次发出sw-over::confirm命令并检查状态。Cisco PGW 2200使用复制TCP端口2970,2974。
例如,检查活动系统以查看其是否处于ESTABLISHED模式。
mgc-bru-20 mml> rtrv-ne
MGC-01 - Media Gateway Controller 2004-05-28 11:03:46.236 GMT
M RTRV
"Type:MGC"
"Hardware platform:sun4u sparc SUNW,UltraAX-i2"
"Vendor:"Cisco Systems, Inc.""
"Location:MGC-01 - Media Gateway Controller"
"Version:"9.3(2)""
"Platform State:ACTIVE"
;
mgc-bru-20 mml>
mgcusr@mgc-bru-20% netstat -a | grep 29\[0-9\]\[0-9\]
mgc-bru-20.2974 *.* 0 0 24576 0 LISTEN
mgc-bru-20.2970 *.* 0 0 24576 0 LISTEN
mgc-bru-20.37637 mgc-bru-22.2974 24820 0 24820 0 ESTABLISHED
mgc-bru-20.37638 mgc-bru-22.2970 24820 0 24820 0 ESTABLISHED
mgc-bru-20.telnet dhcp-peg3-cl31144-254-5-149.cisco.com.2906 65256 3 25D
mgcusr@mgc-bru-20%
此示例检查备用系统的ESTABLISHED模式。
mgc-bru-22 mml> rtrv-ne
MGC-01 - Media Gateway Controller 2004-05-28 13:09:20.552 MSD
M RTRV
"Type:MGC"
"Hardware platform:sun4u sparc SUNW,Ultra-5_10"
"Vendor:"Cisco Systems, Inc.""
"Location:MGC-01 - Media Gateway Controller"
"Version:"9.3(2)""
"Platform State:STANDBY"
;
mgc-bru-22 mml>
mgcusr@mgc-bru-22% netstat -a | grep 29\[0-9\]\[0-9\]
mgc-bru-22.2974 *.* 0 0 24576 0 LISTEN
mgc-bru-22.2970 *.* 0 0 24576 0 LISTEN
mgc-bru-22.2974 mgc-bru-20.37637 24820 0 24820 0 ESTABLISHED
mgc-bru-22.2970 mgc-bru-20.37638 24820 0 24820 0 ESTABLISHED
mgc-bru-22.telnet dhcp-peg3-cl31144-254-5-149.cisco.com.2910 65256 1 25D
mgcusr@mgc-bru-22%
如果此操作正常,请继续执行步骤3。
-
使用UNIX diff命令检查活动和备用上的两个配置是否相同。
发出UNIX命令netstat -i ,查看Ierrs、Oerrs和Collis值的计数器是否没有增加。
mgcusr@PGW2200% netstat -i
Name Mtu Net/Dest Address Ipkts Ierrs Opkts Oerrs Collis Queue
lo0 8232 loopback localhost 28389215 0 28389215 0 0 0
eri0 1500 mgc-bru-20 mgc-bru-20 187731714 231 185007958 3 0
eri1 1500 mgc-bru-20b mgc-bru-20b 0 0 82 2 0 0
mgcusr@PGW2200%
检查Cisco PGW 2200上的配置,并在/opt目录下创建Cisco PGW 2200备用文件。这是您在最终检查后删除的临时目录。
#mkdir temp
使用FTP将所有信息从Cisco PGW 2200 Active复制到/opt/CiscoMGC/etc目录下。将此信息移动到/opt/temp目录下的Cisco PGW 2200备用目录和子目录下。在执行此操作之前,请确保您有Cisco PGW 2200主用/备用的备份。
注意:在UNIX dircmp命令期间,仅XECfgParm.dat会更改。您还可以运行UNIX命令diff。
# dircmp -d /opt/temp /opt/CiscoMGC/etc/
May 31 13:52 2004 Comparison of /opt/temp /opt/CiscoMGC/etc/ Page 1
directory .
same ./accRespCat.dat
same ./alarmCats.dat
same ./alarmTable.dat
same ./auxSigPath.dat
same ./bearChan.dat
same ./bearChanSwitched.dat
same ./buckets.dat
same ./cable.dat
same ./charge.dat
same ./chargeholiday.dat
same ./codec.dat
same ./components.dat
same ./compTypes.dat
same ./condRoute.dat
same ./Copyright
same ./crossConnect.dat
same ./dependencies.dat
same ./dialplan.dat
same ./digitAnalysis.dat
same ./dmprSink.dat
same ./dns.dat
same ./dpc.dat
same ./extNodes.dat
same ./extNodeTypes.dat
same ./extProcess.dat
same ./files.dat
same ./gtdParam.dat
same ./linkSetProtocol.dat
same ./mclCallReject.dat
same ./mclThreshold.dat
same ./mdlProcess.dat
same ./measCats.dat
same ./measProfs.dat
same ./mmlCommands.dat
same ./percRoute.dat
same ./physLineIf.dat
same ./processes.dat
same ./procGroups.dat
same ./profileComps.dat
same ./profiles.dat
same ./profileTypes.dat
same ./properties.dat
same ./propSet.xml.dat
same ./propSet.xml.dat.old.newfile
same ./propSet.xml.dat.old.newfile.newfile
same ./propSet.xml.dat.old.newfile.newfile.newfile
same ./propVal.xsd.dat
same ./routeAnalysis.bin
same ./routeAnalysis.dat
same ./routes.dat
same ./services.dat
same ./sigChanDev.dat
same ./sigChanDevIp.dat
same ./sigPath.dat
same ./snmpmgr.dat
same ./stp.dat
same ./tables.dat
same ./tariff.dat
same ./testLine.dat
same ./thresholds.dat
same ./trigger.dat
same ./trigger.template
same ./trunkGroup.dat
same ./variant.dat
same ./variant.dat.old.newfile
same ./variant.dat.old.newfile.newfile
same ./variant.dat.old.newfile.newfile.newfile
same ./version.dat
different ./XECfgParm.dat
为了帮助您排除故障,您还需要考虑这些问题发生前后网络的变化。例如,网关升级、配置更改、添加的任何新电路等。
如果此步骤中的一切正常,请继续执行步骤4。
-
在大多数情况下,此错误消息链接到I/O信道控制器(IOCC)进程,这些进程在备用Cisco PGW 2200上未运行或发生故障。如果出现这种情况,请使用UNIX命令停止并启动备用Cisco PGW 2200应用。/CiscoMGC stop。然后在/etc/init.d目录下使用。/CiscoMGC start命令重新启动应用程序。
在Cisco PGW 2200备用主机上运行MML命令rtrv-softw:all,确保所有进程都正确运行。
PGW2200 mml> rtrv-softw:all
MGC-01 - Media Gateway Controller 2004-05-31 13:04:21.410 MSD
M RTRV
"CFM-01:RUNNING STANDBY"
"ALM-01:RUNNING STANDBY"
"MM-01:RUNNING STANDBY"
"AMDMPR-01:RUNNING STANDBY"
"CDRDMPR-01:RUNNING STANDBY"
"DSKM-01:RUNNING IN N/A STATE"
"MMDB-01:RUNNING IN N/A STATE"
"POM-01:RUNNING STANDBY"
"MEASAGT:RUNNING STANDBY"
"OPERSAGT:RUNNING STANDBY"
"ss7-i-1:RUNNING IN N/A STATE"
"mgcp-1:RUNNING IN N/A STATE"
"Replic-01:RUNNING STANDBY"
"ENG-01:RUNNING STANDBY"
"IOCM-01:RUNNING STANDBY"
"TCAP-01:RUNNING IN N/A STATE"
"eisup-1:RUNNING IN N/A STATE"
"FOD-01:RUNNING IN N/A STATE"
"sip-1:RUNNING IN N/A STATE"
;
PGW2200 mml>
如果所有进程显示它们已正确运行,但在MML命令sw-over期间仍显示错误消息,请继续执行步骤5。否则,请检查故障原因。
例如,如果更新并添加一些新的SS7中继,并运行到此sw-over failure消息中。此时,将ss7-i-1进程更改为调试模式。这提供了/opt/CiscoMGC/var/log/platform.log文件中错误消息的更多详细信息。默认值等于错误状态。
PGW2200 mml>rtrv-log:all
MGC-01 - Media Gateway Controller 2004-05-31 13:10:35.376 MSD
M RTRV
"CFM-01:ERR"
"ALM-01:ERR"
"MM-01:ERR"
"AMDMPR-01:ERR"
"CDRDMPR-01:ERR"
"DSKM-01:ERR"
"MMDB-01:ERR"
"POM-01:ERR"
"MEASAGT:ERR"
"OPERSAGT:ERR"
"ss7-i-1:ERR"
"mgcp-1:ERR"
"Replic-01:ERR"
"ENG-01:ERR"
"IOCM-01:ERR"
"TCAP-01:ERR"
"eisup-1:ERR"
"FOD-01:ERR"
"sip-1:ERR"
;
PGW2200 mml>
-
在Cisco PGW 2200备用主机上使用此MML命令将ss7-i-1进程更改为调试模式。
mml> set-log:ss7-i-1:debug,confirm
-
发出UNIX命令vi以删除备用上XECfgParm.dat文件的/opt/CiscoMGC/etc目录下的#字符。
ioChanMgr.logPrio = Debug
foverd.logPrio = Debug
-
在/etc/init.d目录下,在备用Cisco PGW 2200上运行命令./CiscoMGC/stop和./CiscoMGC/start。
-
再次发出MML命令sw-over::confirm。然后,检查MML rtrv-alms命令和UNIX命令tail -f platform.log以获取错误消息信息。
-
检查活动Cisco PGW 2200上的复制进程是否处于活动状态。
PGW2200 mml> rtrv-softw:all
<snip>
"Replic-01:RUNNING ACTIVE"
<snip>
收集所有信息并将这些详细信息添加到服务请求。
-
如果所有这些步骤都经过测试/检查,则可以继续执行此步骤,因为主用Cisco PGW 2200上仍可能存在问题。
在维护窗口期间,您需要使用/etc/init.d/CiscoMGC stop命令关闭活动的Cisco PGW 2200。
备用设备需要接管。但是,在执行此步骤之前,请确保来自活动系统的所有配置信息(步骤3)和rtrv-tc:all命令显示呼叫的状态大于或等于活动Cisco PGW 2200。另请使用rtrv-softw:all命令检查所有进程是否都处于STANDBY状态。
如果此步骤失败,请打开一个服务请求,该请求包含与错误消息相关的所有详细信息和信息。
相关信息