Introdução
Este documento descreve como solucionar problemas de módulos de memória e problemas relacionados na solução Cisco Unified Computing System (UCS).
Pré-requisitos
Requisitos
A Cisco recomenda o conhecimento do Cisco Unified Computing System (UCS).
Componentes Utilizados
Este documento não se restringe a versões de software e hardware específicas.
No entanto, este documento aborda:
- Servidores blade Cisco UCS B-Series
- UCS Manager
- O UCS usa DIMM (Dual In-line Memory Module) como módulos de RAM.
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Metodologia de solução de problemas
Esta seção aborda várias partes de problemas de memória do UCS.
- Colocação da memória
- Solução de problemas de DIMMs via UCSM e CLI
- Registros para fazer check-in do suporte técnico
Termos e acrônimos
DIMM |
Módulo de memória dupla em linha |
ECC |
Código de Correção de Erro |
LVDIMM |
DIMM de baixa voltagem |
MCA |
Arquitetura de verificação de máquina |
MEMBRO |
Memory Built-in Self Test (Teste automático integrado da memória) |
MRC |
Código de referência de memória |
POST |
Autoteste de inicialização |
SPD |
Detecção de presença serial |
DDR |
Taxa de dados dupla |
RAS |
Confiabilidade, disponibilidade e facilidade de manutenção |
Colocação da memória
O posicionamento da memória é um dos aspectos físicos mais notáveis da solução UCS.
Normalmente, o servidor vem com memória pré-preenchida com uma quantidade solicitada.
No entanto, em caso de dúvida, consulte o guia de instalação de hardware.
Para as regras de preenchimento de memória, consulte as especificações técnicas da série B para a plataforma específica.
Link para especificações técnicas da série B:
Data sheets
Erros de memória
- Erro de DIMM
- Multibit = incorrigível
- O POST é mapeado pelo BIOS; o SO não vê o DIMM.
- O tempo de execução geralmente causa a reinicialização do SO.
- Único bit = corrigível
- O SO continua a ver o DIMM.
- Erro de ECC (Código de Correção de Erro)
- Erro de paridade
- Erro SPD (Serial Presence Detect)
- Erro de configuração
- DIMMs não suportados
- Preenchimento de DIMM sem suporte
- DIMMs não emparelhados
- Erros de incompatibilidade
- Erro de identidade não estabelecida
- Verificar e atualizar o catálogo.
Erros corrigíveis versus incorrigíveis
A correção ou não de um erro específico depende da intensidade do código ECC empregado no sistema de memória.
O hardware dedicado é capaz de corrigir erros corrigíveis quando eles ocorrem sem nenhum impacto na execução do programa.
Os DIMMs com erros corrigíveis não estão desativados e estão disponíveis para uso pelo sistema operacional. O Total Memory
e Effective Memory
são os mesmos.
Esses erros corrigíveis são relatados no estado de operabilidade do UCSM como Degraded
enquanto a operabilidade geral é Operable
com erros corrigíveis.
Erros incorrigíveis impossibilitam que o aplicativo ou o sistema operacional continue a execução.
Os DIMMs com erros incorrigíveis são desativados e o SO não os vê. Nesse caso, o UCSM operState muda para Inoperable (Não operacional).
Solucionar problemas de DIMMs via UCSM e CLI
Verificar erros da GUI
UCSM |
Logs |
Descrição |
Status do DIMM |
Operabilidade |
SEL |
Comentários |
Operável |
Operável |
Verifique o registro SEL em busca de erros relacionados ao DIMM. |
Um DIMM está instalado e funcionando. |
Operável |
Degradado |
Verifique se há erros ECC no SEL. |
Um erro corrigível de DIMM ECC é detectado durante o tempo de execução. |
Removido |
N/A |
Sem logs |
Um DIMM não está instalado ou os dados SPD estão corrompidos. |
Desabilitado |
Operável |
Verifique se há erros não detectáveis de identidade no SEL. |
Verificar e atualizar o catálogo de recursos. |
Desabilitado |
N/A |
Verifique se outro DIMM de entrada falhou no mesmo canal. |
Um DIMM está íntegro, mas está desabilitado porque a regra de configuração não pôde ser mantida por um DIMM com falha no mesmo canal. |
Desabilitado |
N/A |
Sem logs |
Falha na regra de configuração de memória devido a DIMMs perdidos. |
Inoperable |
Inoperable/Replacement required (Não operacional/Substituição necessária) |
|
Erro UE ECC detectado. |
Degradado |
Inoperable |
Verifique se há erros ECC no SEL. |
O status e a operabilidade do DIMM foram alterados devido a erros de ECC detectados antes da reinicialização do host. |
Degradado |
Inoperable/Replacement required (Não operacional/Substituição necessária) |
Verifique se há erros ECC no SEL durante o POST/MRC. |
Erro ECC incorrigível detectado durante o tempo de execução, o DIMM permanece disponível para o SO, o SO trava e volta a funcionar, mas ainda pode usar esse DIMM. O erro pode ocorrer novamente mais tarde. O DIMM deve ser substituído na maioria das situações. |
Para obter estatísticas, navegue até Equipment > Chassis > Server > Inventory > Memory,
e clique com o botão direito do mouse em Memory
e selecione show navigator.
Verificar erros do CLI
Esses comandos são úteis ao solucionar erros do CLI.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
Do escopo da matriz de memória, você também pode obter acesso ao DIMM.
scope server X/Y > scope memory-array Z > scope DIMM N
A partir daí, você pode obter estatísticas por DIMM ou redefinir os contadores de erro.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
Se você vir um erro corrigível que corresponda a essas informações, o problema pode ser corrigido reinicializando o BMC em vez de reinicializar o servidor blade.
Use estes comandos CLI do Cisco UCS Manager:
(Redefinir o BMC não afeta o SO em execução no blade.)
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
Com as versões 2.27, 3.1 e superiores do UCS, os limites de erros corrigidos de memória foram removidos.
Portanto, os módulos de memória não são mais reportados como Inoperable
or Degraded
exclusivamente devido a erros de memória corrigidos.
De acordo com o whitepaper Como gerenciar erros de memória corrigíveis nos servidores Cisco UCS
As demandas do setor por maior capacidade, maior largura de banda e menores voltagens operacionais resultam em taxas de erro de memória maiores.
Tradicionalmente, o setor tem tratado os erros corrigíveis da mesma forma que os erros incorrigíveis, exigindo que o módulo seja substituído imediatamente após o alerta.
Considerando uma pesquisa extensa que os erros corrigíveis não estão correlacionados com erros incorrigíveis e que os erros corrigíveis não degradam o desempenho do sistema, a equipe do Cisco UCS recomenda a substituição imediata de módulos com erros corrigíveis.
Os clientes que tiverem um alerta de memória degradada para erros corrigíveis são aconselhados a redefinir o erro de memória e retomar a operação. Essa recomendação ajuda a evitar a interrupção desnecessária do servidor. Futuras melhorias no gerenciamento de erros distinguem entre vários tipos de erros corrigíveis e identificam as ações apropriadas, se houver, necessárias.
No mínimo, use a versão 2.1(3c) ou 2.2(1b) que tenha aprimoramento com o gerenciamento de erros de memória do UCS
Arquivos de log para verificar no suporte técnico
UCSM_X_TechSupport > sam_techsupportinfo
fornece informações sobre DIMM e matriz de memória.
Suporte técnico para chassi/servidor
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
Com base na plataforma/versão, navegue até os arquivos no pacote de suporte técnico.
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
Esses arquivos fornecem informações sobre a memória conforme vistos no nível do BIOS.
É possível fazer novamente referência cruzada das informações com as tabelas de relatórios de estados do DIMM.
Exemplo:
/var/nuova/BIOS/RankMarginTest.txt
- Útil para mostrar os resultados do teste do MEMBIST de teste de treinamento do BIOS.
- Procure erros.
- Verifique se há DIMMs mapeados.
- Mostrar informações específicas do DIMM (Fornecedor/velocidade/PID).
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A primeira coluna tem dois valores:
Localizador de DIMM (F2)
Status do DIMM (01)
Aqui está uma breve descrição de cada status:
0x00 // Não instalado (sem DIMM)
0x01 // Instalado (Trabalhando)
/// 0x02-0F (Reservado)
//// Falhou
0x10 // Falha no treinamento
0x11 // Falha no treinamento do relógio
//// 0x12-17 (Reservado)
0x18 // MemBIST com falha
//// 0x19-1F (Reservado)
//// Ignorado
0x20 // Ignorado (Desabilitado do console de depuração)
0x21 // Ignorado (Erro SPD relatado pelo BMC)
0x22 // Ignorado (Não-RDIMM)
0x23 // Ignorado (Não-ECC)
0x24 // Ignorado (Não-x4)
0x25 // Ignorado (Falha em outro PDIMM no mesmo LDIMM)
0x26 // Ignorado (Falha em outro LDIMM no mesmo canal)
0x27 // Ignorado (Falha em outro canal no LockStep ou Mirror)
0x28 // Ignorado (preenchimento PDIMM inválido)
0x29 // Ignorado (Incompatibilidade de organização PDIMM)
0x2A // Ignorado (Incompatibilidade de fornecedor de registro PDIMM)
//// 0x2B-7F (Reservado)
var/nuova/BIOS > MemoryHob.txt
Mostra a memória efetiva e com falha instalada no servidor.
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - O status do DIMM é marcado como falha quando ele falha no teste MemBist. Substitua por um DIMM em boas condições.
Descrição do status do DIMM
00h Não instalado (sem DIMM)
01h instalado (em funcionamento)
02h-0Fh Reservado
10h Reprovado (Treinamento)
11h Falhou (Treinamento do relógio)
12h - 17h Reservado
18h com falha (MemBIST)
19h-1Fh Reservado
20h Ignorado (Desativado no console de depuração)
21h Ignorado (erro de SPD relatado pelo BMC)
22h Ignorado (Não-RDIMM)
23h Ignorado (Não-ECC)
24h Ignorado (Não-x4)
25h ignorado (outro PDIMM no mesmo LDIMM falhou)
26h Ignorado (falha em outro LDIMM do mesmo canal)
27h Ignorado (Outro canal no LockStep ou Mirror)
28h Ignorado (população de memória inválida)
29h Ignorado (Incompatibilidade de organização)
2Ah ignorado (incompatibilidade de fornecedor de registro)
2Bh- 7Fh Reservado
80h Ignorado (Looping Alternativo)
81h Ignorado (barramento I2C preso)
82h - FFh Reservado
Lista de bloqueio de DIMM
IN Cisco UCS Manager
, o estado do Dual In-line Memory Module
(DIMM) é baseado em registros de eventos SEL.
Quando o BIOS encontra um erro de memória não corrigível durante a execução do teste de memória, o DIMM é marcado como defeituoso.
Um DIMM com defeito é considerado um dispositivo não funcional.
Se você ativar a lista de bloqueio de DIMM, o Cisco UCS Manager monitorará as mensagens de execução do teste de memória e fará a lista de bloqueio de qualquer DIMM que encontrar erros de memória nos dados de SPD de DIMM.
A lista de bloqueio de DIMM foi introduzida como uma política global opcional no UCSM 2.2(2).
O firmware do servidor deve ser 2.2(1)+ para blades B-series e 2.2(3)+ para servidores rack C-series para implementar adequadamente esse recurso.
No UCSM 2.2(4), o DIMM, Blocklisting, está ativado.
Abra o arquivo de suporte técnico .../var/log/DimmBL.log
Abra o arquivo /var/nuova/BIOS/MrcOut.txt se ele estiver disponível
Localize a tabela DIMM Status (Status do DIMM). Procure DIMM Status (Status do DIMM):
DIMM na lista de bloqueio = 1E
Localize a tabela DIMM Status (Status do DIMM). Procure DIMM Status (Status do DIMM):
Status do DIMM:
00 - Não instalado
01 - Instalado
10 - Reprovado (Falha no treinamento) limpar
1E - Com falha (DIMM bloqueado listado pela BMC)
1F - Falha (Erro de SPD)
25 - Desativado (outro DIMM falhou no mesmo canal.)
Exemplo:
Status do DIMM:
|=======================|
| Memória | Status do DIMM |
| Canal | 1 2 3 |
|=======================|
| R | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
Status do DIMM:
01 - Instalado
1E - Com falha (DIMM bloqueado listado pela BMC)
1F - Falha (Erro de SPD)
25 - Desativado (outro DIMM falhou no mesmo canal)
Métodos para limpar erros de listagem de bloqueio de DIMM
GUI do UCSM
CLI UCSM
UCS-B/chassis/server # reset-all-memory-errors
Informações Relacionadas
Erros notáveis
O regulador de tensão com ID de bug da Cisco CSCug93076 B200M3-DDR apresenta ruído excessivo sob carga leve
O sensor de falhas do DIMM CSCup07488 IPMI com ID de erro da Cisco está configurando Dimm degradado sem contagem de erros.
ID de bug Cisco CSCud2620 Maior precisão na identificação de DIMMs degradados
O bug da Cisco ID CSCuw44524 C460M4, B260M4 ou B460M4 IVB clear CMOS pode causar erro de memória UECC
Erros de Cisco bug ID CSCur19705 ECC/UECC observados no B200M3
A documentação do ID de bug da Cisco CSCvm8447Reset ECC steps está ausente para servidores independentes da Colusa