簡介
本文檔介紹運行統一計算系統管理器(UCSM)運行狀況和升級前檢查工具的過程。
必要條件
需求
思科建議您在系統上安裝Python 3.6或更高版本。
注意:如果您運行的是Windows作業系統,則可以安裝Python並配置環境路徑。
注意:請勿為Python問題提交TAC支援請求/指令碼運行失敗。請參閱CLI命令部分,手動確定問題並根據確定的問題打開TAC案例。
採用元件
本文件所述內容不限於特定軟體和硬體版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
UCSM檢查工具是在UCSM上執行主動自檢查以確保其穩定性和恢復能力的實用程式。它幫助自動對UCS系統進行運行狀況清單和升級前檢查,以在UCS基礎設施升級和維護操作發生時節省時間。
注意:請始終下載並使用最新版本的工具。由於該工具經常增強,因此當您使用較舊版本時,可能會遺漏重要的檢查。
注意:此指令碼是一個盡力而為、可自由使用的指令碼。但是,它無法辨識所有問題。
使用時機
- 維護活動前後的UCS運行狀況檢查
- 使用思科TAC時
- 隨時進行主動運行狀況檢查
使用方法
Windows作業系統
步驟 1.從Python下載下載最新版本的Python
步驟 2.使用正常安裝過程並按一下Install Now(推薦方法)以下載安裝程式。
注意:確保選中Add Python to PATH。
步驟 3.導航到系統上安裝Python的目錄。
步驟 4.打開命令提示符並鍵入命令Python以驗證Python安裝。
步驟 5.從此處下載最新版本的運行狀況檢查指令碼,並將其儲存到資料夾。現在,請擷取壓縮檔案,如圖所示。
步驟 6.下載並儲存最新UCSM技術支援日誌到已建立的資料夾,如圖所示。點選此連結查詢下載UCSM日誌包的步驟:生成UCSM技術支援。
步驟 7.打開CMD和cd並轉到UCMTool.py所在的資料夾,然後運行UCMTool.py,如圖所示。
步驟 8.輸入UCSM技術支援檔案所在的檔案路徑並選擇desired 選項。
1. UCSM運行狀況檢查
2. 升級前檢查
MacOS
步驟 1.MacOS安裝了預設Python,驗證安裝的Python版本,如下所示:
注意:如果Python版本低於3.6,請升級到3.6及更高版本。
注意:如果Python版本是3.6或更高版本,請跳至步驟5,否則跳至步驟2。
步驟 2.從https://www.python.org/downloads/macos/下載最新版本的Python。
步驟 3.使用正常安裝程式完成/升級Python安裝。
步驟 4.從此處下載最新版本的運行狀況檢查指令碼,並儲存到資料夾。現在,請解壓縮檔案,如下圖所示:
步驟 5.下載並儲存最新UCSM技術支援日誌到已建立的資料夾,如此圖中所示。點選連結查詢下載UCSM日誌包的步驟:生成UCSM技術支援。
步驟 6.打開終端,瀏覽到已下載運行狀況檢查指令碼的目錄,運行python UCMTool.py或python3UCMTool.py,如下所示:
步驟 7.輸入UCSM技術支援檔案所在的檔案路徑並選擇desired 選項以運行指令碼。
1. UCSM運行狀況檢查
- 升級前檢查
瞭解執行的輸出/檢查
UCSM運行狀況檢查執行的檢查
這些檢查由UCSM-Healthchecktool執行:
UCSM HA集群狀態:顯示交換矩陣互聯的集群狀態。
PMON進程狀態:顯示Cisco UCS Manager中所有進程的狀態。
檔案系統掛載:顯示掛載表格。
檢查/var/sysmgr大小問題:檢查/var/ sysmgr使用情況。
檢查/var/tmp大小問題:檢查/var/ tmp使用情況。
6296 在重新通電後出現無響應,硬體修訂版更新:驗證交換矩陣互聯模組及其硬體修訂版號。
嚴重性為嚴重性或嚴重性為嚴重性的故障:如果UCS Manager中有任何嚴重性或嚴重性警報,則報告此錯誤。
檢查可用的備份:驗證UCS Manager中是否有可用的備份。
金鑰環證書檢查:檢查金鑰環是否過期或有效。
需要或不需要安全修復措施:透過驗證FI模型及其版本來檢查是否需要或不需要shafeshut解決方法。
Cisco UCS Manager版本4.x中已過時的硬體:在Cisco UCS Manager 4.x版本中檢查是否有任何已過時的硬體。
從3.1.x開始找到的已棄用硬體:在Cisco UCS Manager 3.x版本中檢查是否有任何已棄用的硬體
檢查B200M4是否由於空白的MRAID12G欄位而重新啟動:檢查B200M4伺服器是否具有空白的MRAID12G RAID控制器序列號。
UCSM 3.1最大功率分配的變化導致刀片發現故障:驗證在UCS Manager中配置的電源策略。
bootflash損壞存在故障代碼F1219:檢查是否存在bootflash損壞。
檢查httpd無法在刪除預設金鑰環時啟動:檢查是否刪除了預設金鑰環。
第3代FI具有不清理的檔案系統狀態-「檔案系統狀態:清理但有錯誤」:檢查檔案系統錯誤。
檢查伺服器是否自動安裝到4.0(4b)無法啟用SAS控制器:驗證主機韌體版本和SAS擴展器版本
檢查C系列韌體升級是否持續很長時間「執行伺服器清單」 PNU OS清單:它會驗證伺服器型號及其版本,以辨識您是否遇到此問題。
檢查使用句點或連字元的UCSM身份驗證域:驗證是否用句點或連字元配置身份驗證域名。
本地或回退身份驗證失敗:檢查為特定FI型號配置的身份驗證方法,並驗證其版本。
UCSM和UCS Central之間的運行狀況檢查:驗證UCSManager是否已在UCS Central中註冊
LAN和SAN針腳組:檢查集群中的lan/san針腳配置,並在升級前/任何MW活動之前突出顯示以檢查配置
檢查UCSM中存在待處理活動:驗證UCS Manager域中是否存在任何待處理活動。
IOM的狀況檢查:檢查IO模組的整體狀況。
UCSM中可用的核心檔案檢查:驗證是否在60天內找到任何核心檔案。
脫節L2潛在配置錯誤:驗證在配置脫節L2的情況下是否存在任何配置錯誤。
VIC 1400和6400連結翻動問題:檢查此瑕疵中是否存在狀況
在韌體更新期間檢查2304 IOM斷開連線並重新連線:驗證交換矩陣互聯和IO模組型號並確定是否存在任何潛在問題。
DME狀況檢查:驗證Data Management Engine (DME)資料庫的狀況。
FI上的介面啟用和弗洛吉匹配數:驗證介面和弗洛吉會話數
超巨型或標準MTU檢查:確定MTU配置。
UCSM工具輸出編號示例
afrahmad@AFRAHMAD-M-C3RS ucsm_health_check-master $ python UCSMTool.py
UCS Health Check Tool 1.1
Enter the UCSM file path: /Users/afrahmad/Desktop/20190328180425_fabric-5410-1k08_UCSM.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 2
Enter the UCS Target Version [Ex:4.1(1x)]: 4.2(1i)
Log Extraction: [########################] COMPLETED
UCSM Version: 3.2(3h)A
Target Version: 4.2(1i)
Upgrade Path: 3.2(3) ==> 4.2(1i)
Summary Result:
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 8 | Check Backup Available | No Backup | Please ensure to take backup, |
| | | | Refer this link: |
| | | | http://go2.cisco.com/UCSBackup |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Found | Review the release notes to verify the hardware compatibility. |
| | | | Refer this link: |
| | | | http://go2.cisco.com/RN-4 |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Found | Contact TAC |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 23 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 24 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 25 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 26 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 27 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 28 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 29 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 30 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 5, |
| | | | Flogi Count: 12 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 5, |
| | | | Flogi Count: 12 |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 31 | Jumbo or Standard MTU Check | NOT_FOUND | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
Faults with Severity Major:
F0207: Adapter ether host interface 3/3/1/2 link state: down
F0207: Adapter ether host interface 3/3/1/4 link state: down
F0207: Adapter ether host interface 3/3/1/3 link state: down
F0283: ether VIF 1153 on server 3 / 3 of switch B down, reason: Admin config change
F0479: Virtual interface 1153 link state is down
We would recommend Customers should complete the below prior to an upgrade:
a. Review firmware release notes
b. Review compatibility
c. Upload required images
d. Generate/Review UCSM show tech
e. Determine vulnerable upgrade bugs and complete pro-active workaround
f. Verify FI HA and UCSM PMON status
g. Generate all configuration and full state backups (right before upgrade)
h. Verify data path is ready (right before upgrade)
i. Disable call home (right before upgrade)
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
分析工具輸出-後續步驟
- 該工具可自動執行UCS系統上手動命令的流程。
- 如果工具運行OK並在所有測試中顯示PASS/NOT FOUND。UCS系統適用於指令碼執行的所有檢查。
- 如果工具FAIL/FOUND 出現在某些檢查中或者未成功運行,您可以使用CLI命令(此處列出)對UCS系統/交換矩陣互聯執行與手動指令碼相同的檢查。
- 此工具不檢查是否出現任何舊/新/開/解決的警告,因此強烈建議您在進行任何升級或維護活動之前檢視UCS發行版本註釋和升級指南。
提示:對於UCS環境的一般運行狀況檢查,思科TAC不提供此服務。思科的CX客戶交付團隊(以前稱為高級服務)提供錯誤清除/風險分析。如果您需要此類服務,請與您的銷售/客戶團隊聯絡。
CLI命令
到兩個交換矩陣互聯的SSH:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.