المقدمة
يوضح هذا المستند كيفية أستكشاف الأسباب الشائعة لخطأ تعذر الوصول إلى الخادم الذي يمكن رؤيته لمعظم أنواع خوادم UCS وإصلاحها.
المتطلبات الأساسية
المتطلبات
توصي Cisco بأن تكون لديك معرفة بإدارة الخوادم في Unified Computing System Manager (UCSM) ووضع Intersight Managed Mode (IMM).
المكونات المستخدمة
لا يقتصر هذا المستند على إصدارات برامج ومكونات مادية معينة.
تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك قيد التشغيل، فتأكد من فهمك للتأثير المحتمل لأي أمر.
معلومات أساسية
هناك خطأ شائع يمكن أن يستلم المستخدمين في مجال UCS الخاص بهم وهو أن يخطرك بأن الخادم غير قابل للوصول. وقد يرجع ذلك إلى عدد من الأسباب وقد يبدو الخطأ بطرق مختلفة قليلة اعتمادا على أدوات المراقبة وإصدارات UCSM/IMM.
System Notification from [UCSM Domain Name] - diagnostic:GOLD-minor - 2023-05-25 01:56:41 GMT-04:00 Recovered : Server x/y (service profile: org-root/ls-[service_profile]) inaccessible
Serial number: [Server Serial]
Alert: System Name: [UCSM Domain Name]
Time of Event:2022-08-31 03:15:04 GMT-05:00 Event Description:Server x (service profile: org-root/ls-[service_profile]) inaccessible Severity Level:4
إذا كانت IMM قيد الاستخدام، فقد تم فقد رسالة الاتصال بالخادم في واجهة المستخدم الرسومية (GUI). كما يمكن ملاحظة عدم الاتصال بأخطاء Intersight.
تم فقد الاتصال بالخادم بواسطة IMM
يمكن ملاحظة هذا التنبيه عندما تواجه وحدة التحكم في الإدارة المتكاملة (CIMC) من Cisco الموجودة على خادم نصلي مشكلة ما ثم تقوم بإعادة التمهيد أو محاولة إعادة التمهيد. يؤدي هذا إلى تشغيل تنبيه يتعذر الوصول إليه للخادم لأنه أثناء إعادة تمهيد مستوى إدارة الخادم النصلي، لا يمكن ل UCSM/IMM الاتصال بالخادم النصلي وبالتالي يعتقد أنه يتعذر الوصول إليه. بمجرد إعادة تمهيد وحدة التحكم في الوصول للبنية الأساسية (CIMC)، تعود حالة الخوادم النصلية إلى حالتها الطبيعية.
لهذا السبب يمكنك تلقي هذا التنبيه، ثم عند التحقق من المجال، يقوم الخادم بالبحث عن معلومات صحيحة.
مرجع الخلل الشائع
معرف تصحيح الأخطاء من Cisco CSCwe19822 - ينطبق على خوادم M5/M6 بعد 4.2(2c)/بعد 5.0(1c) لسلسلة X
معرف تصحيح الأخطاء من Cisco CSCwa85667 - ينطبق على خوادم M5/M6 بين 4.1(3e) - 4.2(2a) يتضمن أيضا سلسلة X بعد 5.0(1b)
معرف تصحيح الأخطاء من Cisco CSCvz62711 - ينطبق على خوادم M5/M6 بين 4.1(3d) - 4.2(2a)
معرف تصحيح الأخطاء من Cisco CSCwi50991 - ينطبق على الخوادم النصلية من السلسلة M5/M6 على الرمز قبل 4.3(2e)
معرف تصحيح الأخطاء من Cisco CSCvv79912 - ينطبق على خوادم M5/M6 بين 4.0(4h) و 4.2(1a)/4.1(3d)
معرف تصحيح الأخطاء من Cisco CSCvh25786 - ينطبق على خوادم M4/M5 بعد 2.0(13f) و 3.0(4a)
استكشاف الأخطاء وإصلاحها
السيناريو 1
الحالة الأولى والأكثر شيوعا هي إستقبال التنبيه عند التحقق من UCSM/IMM فإن الخادم يبدو قابلا للتشغيل وصحيا ولا توجد به أية أخطاء (جديدة). عند فحص نظام التشغيل، يبدو أنه يعمل دون أي إختلالات.
خادم سليم في UCSM
تظهر حزم السجل هذه الرسالة في أحد سجلات OBFL التي يمكن العثور عليها في CIMCx_TechSupport.tar.gz > obfl > obfl-log.
3:2022 Sep 8 10:54:33 UTC:+0000:(4.2(2d)):kernel:-:[watchdog_init]:976:BMC Watchdog resetted BMC.
وهذا يخبرنا أن وحدة التحكم في إدارة الاتصالات تحطمت وتم إعادة تشغيلها من تلقاء نفسها.
في هذا السيناريو، لا يلزم إتخاذ مزيد من الإجراءات نظرا لأن CIMC تمت إعادة تمهيده بنجاح ولا توجد مشاكل في الخادم.
السيناريو 2
الحالة التالية هي تلقي التنبيه عند التحقق من UCSM/IMM ما يزال الخادم يظهر على أنه يتعذر الوصول إليه إذا كان إستخدام UCSM أو مفصولا إذا كان إستخدام IMM. عند فحص نظام التشغيل، يبدو أنه يعمل دون أي إختلالات.
بما أن نظام التشغيل قيد التشغيل والتشغيل ولكن لا يمكن ل UCSM/IMM الاتصال بالخادم النصلي، فهذا يعني أن وحدة التحكم في الوصول عن بعد (CIMC) إما لم تقم بإعادة التمهيد أو توقفت أثناء العملية.
تتمثل الخطوة الأولى في هذا السيناريو في بروتوكول SSH أو وحدة التحكم في منافذ ربط البنية (FI) وتشغيل هذا الأمر إستبدال x/y بالهيكل/الخادم النصلي المتأثرة. هناك ثلاث نتائج مختلفة.
1) تم الاتصال ب CIMC بنجاح.
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.1...
Connected to 127.5.1.1.
Escape character is '^]'.
CIMC Debug Firmware Utility Shell [ support ]
[ help ]#
إذا تم عرض هذا الإخراج، فلا يزال هناك بعض الحياة على CIMC ويمكنك محاولة إعادة تعيين CIMC لاستعادة الخادم النصلي.
إذا كان UCSM قيد الاستخدام، انتقل إلى Equipment > Chassis (المعدات) > Chassis Number (رقم الهيكل) > Server Number (الخوادم) > Recovery Server (إسترداد الخادم) > إعادة ضبط CIMC.
موقع خادم Recover للخادم النصلي
إعادة ضبط CIMC
إذا كانت IMM قيد الاستخدام، قم بالانتقال إلى الخادم المتأثر وحدد إجراءات > نظام > إعادة تشغيل وحدة التحكم في الإدارة.
إعادة تمهيد وحدة التحكم في إدارة IMM
إذا عاد الخادم إلى وضعه الطبيعي بعد إعادة تشغيل CIMC، فسيتم حل المشكلة ولا يلزم إتخاذ أي إجراء آخر.
إذا استمر الخطأ، فقم بمتابعة خطوات أستكشاف الأخطاء وإصلاحها الخاصة بمخرج وحدة التحكم في الوصول المقبل.
2) فشل الاتصال ب CIMC.
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.8...
telnet: Unable to connect to remote host: No route to host
3) الاتصال بأدوات تثبيت CIMC. في هذه الحالة، لا يحدث أي شيء بعد تشغيل الأمر وعند محاولة الفرار (Ctrl + C) يتم ملاحظة ذلك.
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
^C
Console escape. Commands are:
l go to line mode
c go to command mode
z suspend telnet
e exit telent
continuing...
حل المشاكل لأي من المخرجين الأخيرين هو نفسه. في هذه الحالات، يكون CIMC معطلا تماما وغير قادر على الاتصال بمنافذ الموصلات البينية الليفية. يلزم إعادة تمهيد الخادم لاستعادة CIMC. يوصى دائما بأخذ إطار صيانة عند إعادة تشغيل الخوادم النصلية.
إذا كان UCSM قيد الاستخدام، فيمكنك محاكاة إعادة ضبط الخادم النصلي بشكل فعلي من خلال SSHing إلى منافذ ربط البنية وتشغيل هذا الأمر الذي يستبدل x/y بالهيكل/الخادم المتأثر. من الضروري إدخال الهيكل/الخادم الصحيح لأن هذا الأمر لا يطلب منك التأكيد.
UCSM-A# reset slot x/y
ملاحظة: يقوم الأمر reset slot بإعادة تمهيد الخادم النصلي في الفتحة المخصصة بسرعة x/y. الرجاء التأكد من أن الخادم آمن لإعادة التشغيل إذا كان نظام التشغيل لا يزال قيد التشغيل.
لا يقوم هذا الأمر بإرجاع أي شيء إذا نجح. إذا فشل تنفيذ الأمر، يتم عرض رسالة.
إذا كانت IMM قيد الاستخدام، أو أن الأمر reset slot لم يحل المشكلة التي يتعذر الوصول إليها، فعندئذ يكون الخيار الآخر الوحيد هو إعادة إرسال الخادم النصلي فعليا.
إذا إستمرت المشكلة بعد إعادة تعيين الخادم النصلي ماديا، فراجع TAC للحصول على مزيد من أستكشاف الأخطاء وإصلاحها.
السيناريو 3
الحالة الأخيرة هي إستلام التنبيه، ثم عند التحقق من UCSM/IMM، يظل الخادم يظهر على أنه يتعذر الوصول إليه إذا كان إستخدام UCSM أو مفصولا إذا كان إستخدام IMM. عند التحقق من نظام التشغيل، يكون هذا النظام معطلا ويتعذر الوصول إليه أيضا.
في هذه الحالة، كل ما يمكن القيام به هو إعادة تشغيل الخادم. إذا لم تكن عملية إعادة التشغيل ممكنة، فقم بإعادة بيع الخادم بشكل فعلي.
إذا إستمرت المشكلة بعد إعادة تعيين الخادم النصلي ماديا، فراجع TAC للحصول على مزيد من أستكشاف الأخطاء وإصلاحها.
القرار
قد تكون هناك أسباب عديدة لتلقي أخطاء يتعذر الوصول إليها على الخادم، بعضها أكثر تأثيرا من غيرها. تعد الخطوات الواردة هنا مكانا جيدا للبدء في تقييم ما إذا كان أي أستكشاف أخطاء وإصلاحها مطلوبا أو إذا كان المجال الخاص بك سليما ولا توجد حاجة إلى إجراء.