пятница, 12 декабря 2025 г.

ESXi Real Troubleshooting Scenario

 

1️⃣ Gerçek troubleshooting senaryosu (Case Study)

🎯 Senaryo

  • Storage: All-Flash iSCSI (Active/Active, ALUA)

  • ESXi: 7.x

  • Şikayet:

    “VM’ler arada donuyor ama storage dashboard yeşil”


🔍 Adım 1 – esxtop (disk)

DAVG/cmd: 3–4 ms ✅ KAVG/cmd: 0.5 ms ✅ QAVG/cmd: 15–20 ms ❌

➡️ Storage hızlı ama IO queue’da bekliyor


🔍 Adım 2 – Path dağılımı

Path1: 90% IO Path2–4: %3–4

➡️ RR var gibi ama fiilen Fixed çalışıyor


🔍 Adım 3 – PSP kontrolü

PSP: VMW_PSP_RR IOPS: 1000 (default)

🎯 Root cause bulundu


🛠️ Çözüm

esxcli storage nmp psp roundrobin deviceconfig set \ -d naa.xxx -t iops -I 1 -U true

📈 Sonuç

MetricÖnceSonra
QAVG18 ms0.3 ms
VM freezeVarYok
IO dağılımıDengesizDengeli

📌 Storage değil, multipath ayarı suçluydu.


2️⃣ iSCSI vs FC – Latency farkları (gerçek hayat)

🔹 iSCSI

  • TCP/IP

  • CPU etkisi var

  • NIC & MTU hassas

Tipik latency (All-Flash):

  • 0.8 – 2 ms


🔹 Fibre Channel

  • Dedicated fabric

  • Daha stabil

  • CPU yükü yok

Tipik latency:

  • 0.5 – 1 ms


⚖️ Karşılaştırma tablosu

ÖzellikiSCSIFC
LatencyBir tık yüksekDaha düşük
MaliyetDüşükYüksek
YönetimKolayKarmaşık
Multipath hassasiyetiYüksekOrta

📌 Yanlış iSCSI tuning = FC’den 5 kat yavaş


3️⃣ NVMe-oF multipath tuning

NVMe-oF = latency canavarı
Ama yanlış ayarla çöpe gider.


🔹 NVMe-oF vs SCSI farkı

  • Queue depth çok daha yüksek

  • Path switching çok hızlı


🔹 En iyi pratikler

  • PSP: RR

  • IOPS: 1

  • Path sayısı: 2–4 (fazlası gereksiz)

  • Queue Depth: Vendor default


🔹 Kontrol komutları

esxcli nvme device list esxcli nvme path list

Latency esxtop’ta:

DAVG < 1 ms QAVG ≈ 0

🚨 Eğer QAVG > 1 ms ise:

  • Fazla path

  • NIC oversubscription


4️⃣ VM bazlı latency analizi (altın değerinde)

🔹 esxtop → VM view

v

Açılacak kolonlar:

  • GAVG

  • DAVG

  • KAVG

  • QAVG


🔍 Yorumlama

DurumAnlam
VM GAVG yüksek, host düşükVM içi problem
VM + Host yüksekStorage
VM tek başına yüksekNoisy neighbor

🔹 VM içinden teyit

Windows

diskspd -c10G -d30 -r -w30 -b8K -t4 -o32 c:\test.dat

Linux

iostat -x 1

🚨 En kritik red flag (ezberle)

“Host storage hızlı ama tek VM yavaşsa,
suçlu %90 VM içi IO pattern’dır.”


🎯 Final özet

  • esxtop = gerçek hayat

  • QAVG = multipath alarmı

  • iSCSI doğru ayarlanırsa FC’ye yaklaşır

  • NVMe-oF küçük hatayı affetmez

  • VM bazlı analiz = root cause buldurur

Комментариев нет:

Отправить комментарий