簡介
本檔案介紹分析Cisco Virtualized Infrastructure Manager(CVIM)計算節點中記憶體使用率高相關問題的程式。
必要條件
需求
思科建議您瞭解Linux中的記憶體管理和HugePages。
什麼是HugePage?
啟用HugePages允許作業系統支援大於預設值(通常為4 KB)的記憶體頁。使用非常大的頁面大小可以通過減少訪問頁面表條目所需的系統資源來增強系統效能。因此,通常使用HugePages來降低記憶體延遲。
問題描述
CVIM計算節點上的高記憶體使用率警報,而CVIM未觸發任何警報。與記憶體利用率相關的警報可通過第三方監控工具或監控控制面板獲得。
分析
可以觀察到OS中的高記憶體利用率(根據 free
和 sar
命令輸出。
[root@cvim-computex ~]# free -m
total used free shared buff/cache available
Mem: 385410 365882 7602 3621 11925 8411
Swap: 2047 0 2047
[root@cvim-computex ~]# sar -r
Linux 4.18.0-193.81.1.el8_2.x86_64 (pod1-compute4.mx2) 08/24/2023 _x86_64_ (112 CPU)
12:00:46 AM kbmemfree kbavail kbmemused %memused kbbuffers kbcached kbcommit %commit kbactive kbinact kbdirty
12:10:34 AM 7493576 7871200 387166528 98.10 4240 9334356 12893752 3.25 4891940 6325076 68
12:20:11 AM 7503208 7883396 387156896 98.10 4240 9337364 12872708 3.24 4885008 6328096 16
12:30:34 AM 7485648 7869540 387174456 98.10 4240 9340556 12902748 3.25 4892948 6331276 36
12:40:46 AM 7494396 7880940 387165708 98.10 4240 9343636 12866964 3.24 4886908 6334364 20
12:50:34 AM 7479616 7869772 387180488 98.10 4240 9346720 12905156 3.25 4892408 6337444 56
01:00:46 AM 7490304 7883016 387169800 98.10 4240 9349832 12860152 3.24 4885308 6340500 56
01:10:34 AM 7472248 7868672 387187856 98.11 4240 9352836 12896932 3.25 4892604 6343556 28
01:20:46 AM 7484308 7883276 387175796 98.10 4240 9355948 12867972 3.24 4885172 6346676 16
01:30:34 AM 7475092 7869596 387185012 98.11 4240 9350840 12904328 3.25 4892448 6341556 44
01:40:46 AM 7485436 7882508 387174668 98.10 4240 9353932 12864252 3.24 4885148 6344660 56
01:50:34 AM 7468840 7869520 387191264 98.11 4240 9357036 12907464 3.25 4893552 6347752 164
02:00:46 AM 7479076 7882428 387181028 98.10 4240 9360124 12861892 3.24 4886044 6350844 68
使用 ps
命令來識別記憶體使用率最高的進程。
[root@cvim-computex ~]# ps -aux --sort -rss
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 328199 1207 0.2 541893584 ? RLl Mar12 2948779:31 /usr/bin/vpp -c /etc/vpp/vpp.conf
root 1829 0.0 0.0 379024 227692 ? Ss Mar12 14:21 /usr/lib/systemd/systemd-journald
通過使用檢查統計資訊,驗證容器記憶體使用情況 podman
或 docker
指令。
[root@cvim-computex ~]# podman stats
ID NAME CPU % MEM USAGE / LIMIT MEM % NET IO BLOCK IO PIDS
2f8fdc4b63a4 fluentd_31902 -- 301.2MB / 404.1GB 0.07% -- / -- 9.265MB / 89.68GB 75
34d806a30733 novalibvirt_31902 -- 42.16MB / 404.1GB 0.01% -- / -- 589.8kB / 22.13MB 44
48292d2fa956 novassh_31902 -- 5.882MB / 404.1GB 0.00% -- / -- 475.1kB / 167.3MB 2
7b2ce84e86b3 novacompute_31902 -- 231.8MB / 404.1GB 0.06% -- / -- 761.9kB / 2.43GB 49
89c01c14ef3f neutron_vpp_31902 -- 1.209GB / 404.1GB 0.30% -- / -- 0B / 7.66MB 35
根據提供的輸出,似乎沒有進程顯示高記憶體使用率。此外,這些容器似乎利用了少量記憶體。
其 free
命令仍顯示高記憶體使用率。
root@cvim-computex ~]# free -m
total used free shared buff/cache available
Mem: 385410 366751 7310 3496 11348 7696
Swap: 2047 5 2042
[root@cvim-computex ~]#
疑難排解
要理解這種記憶體利用率,必須瞭解HugePage記憶體。
如果Pod是通過HugePages啟用的,必須注意使用合適的風格,以確保系統記憶體不用於啟動VM。VM使用系統記憶體可能會導致CVIM不穩定,因為工作負載和基礎架構都在爭奪為基礎架構預留的資源。
檢查HugePages:
[root@cvim-computex ~]# tail /sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages
90001
[root@cvim-computex ~]# tail /sys/devices/system/node/node0/hugepages/hugepages-1048576kB/nr_hugepages
0
[root@cvim-computex ~]# tail /sys/devices/system/node/node1/hugepages/hugepages-2048kB/nr_hugepages
90000
[root@cvim-computex ~]# tail /sys/devices/system/node/node1/hugepages/hugepages-1048576kB/nr_hugepages
0
[root@cvim-computex ~]#
nr_hugepages
是HugePages的總數。
(90001 + 90000)x 2M = 360GB預留給HugePage。
另請注意,總實體記憶體的5%預留給正常記憶體頁(4KB)以供作業系統使用,即使配置了100%的HugePage也是如此。
385GB(免費總計) — 360GB(保留用於HugePage)= 25GB保留用於普通頁面。
因此,記憶體利用率高,如在 sar
和 free
應為命令。
使用上述命令檢查實際記憶體使用情況。
[root@mgmt-node ~]# ip -br -4 a s br_api
br_api UP 10.x.x.x/24
[root@mgmt-node ~]# curl -sS -g -u admin:password --cacert /var/www/mercury/mercury-ca.crt https://10.x.x.x:9090/api/v1/query --data-urlencode 'query=100 * (mem_free + mem_buffered + mem_cached) / ((mem_total - sum without(NUMAnode, pagename, pagesize) (hugepages_nr)) or mem_total)' | python -mjson.tool
sample output:
{
"status": "success",
"data": {
"resultType": "vector",
"result": [
{
"metric": {
"host": "cvim-computex",
"instance": "10.x.x.x:9273",
"job": "telegraf",
"node_type": "compute"
},
"value": [
1693479719.383,
"76.16486394450624" --> Actual available memory percentage.
]
},
{
"metric": {
"host": "cvim-computey",
"instance": "10.x.x.x:9273",
"job": "telegraf",
"node_type": "compute"
},
"value": [
1693479719.383,
"76.63431887455388"
僅當可用記憶體小於10%時,CVIM才會觸發警報。
警報名稱 — mem_available_percent
可用系統記憶體不足10%。系統和OpenStack基礎設施服務均使用常規4K頁記憶體,不包含超大頁。此警報可能表示RAM量不足或系統或基礎架構記憶體使用異常。