понедельник, 7 июля 2025 г.

ESXTOP Disk View – Real Latency Analysis (Production Scenario)

  • 1️⃣ Gerçek latency analiziesxtop (disk view)

    🔹 esxtop başlat

    esxtop

    🔹 Disk ekranına geç

    d

    🔹 Latency kolonlarını aç (çok kritik)

    f

    Aç (SPACE ile):

    • DAVG/cmd → Device latency (storage)

    • KAVG/cmd → Kernel latency (ESXi)

    • GAVG/cmd → Guest gördüğü latency

    • QAVG/cmd → Queue latency


    📊 Latency değerleri nasıl yorumlanır?

    DeğerNormalAlarm
    DAVG< 5 ms (flash)> 20 ms
    KAVG< 1 ms> 2 ms
    QAVG≈ 0> 5 ms
    GAVGDAVG + KAVG

    🔥 Alarm senaryoları

    • DAVG yüksek → Storage tarafı yavaş

    • QAVG yüksek → Queue dolu (multipath / queue issue)

    • KAVG yüksek → ESXi / driver / HBA sorunu

    📌 Multipath problemi %90 QAVG olarak çıkar


    2️⃣ Path başına IO dağılımını canlı görmek

    🔹 esxtop → Disk → Path view

    d p

    Bu ekran:

    • Her path’in ayrı IO aldığını gösterir

    • RR düzgün çalışıyor mu → burada belli olur

    Bakacağın kolonlar:

    • CMDS/s

    • READS/s

    • WRITES/s

    • LAT/rd, LAT/wr


    🔹 Sağlıklı RR nasıl görünür?

    • Path’ler arasında yakın değerler

    • 1 path %90 yükteyse ❌

    📌 Eğer:

    • Sadece 1 path IO alıyorsa
      ➡️ RR çalışmıyor / Fixed aktif


    3️⃣ PSP değiştirince performans nasıl ölçülür?

    🔹 Adım adım doğru yöntem

    1️⃣ Değişiklik öncesi snapshot al

    • esxtop değerleri (avg)

    • Latency not et

    • IO dağılımı


    2️⃣ PSP değiştir

    esxcli storage nmp device set -d naa.xxx -p VMW_PSP_RR

    IOPS=1 ver:

    esxcli storage nmp psp roundrobin deviceconfig set \ -d naa.xxx -t iops -I 1 -U true

    3️⃣ Load altında ölç

    • Prod workload açıkken

    • esxtop ile 5–10 dk izle


    📈 Beklenen sonuçlar

    MetricÖnceSonra
    DAVGYüksek
    QAVGYüksek⬇⬇
    Path IODengesizDengeli

    📌 Sadece boşta ölçüm = yanlış sonuç


    4️⃣ Yanlış multipath red flag’ler 🚨

    Bunları görüyorsan dur ve incele 👇


    ❌ Red Flag #1

    RR var ama sadece 1 path IO alıyor

    ➡️ Sebep:

    • ALUA non-optimized path’ler

    • Storage Active/Passive


    ❌ Red Flag #2

    QAVG sürekli yüksek

    ➡️ Sebep:

    • Queue Depth düşük

    • RR + çok path + IOPS=1 dengesiz


    ❌ Red Flag #3

    Latency anlık zıplıyor

    ➡️ Sebep:

    • Path thrashing

    • Yanlış PSP

    • IOPS çok düşük / çok yüksek


    ❌ Red Flag #4

    APD / PDL event’leri

    /var/log/vmkernel.log

    ➡️ Multipath failover sorunu


    ❌ Red Flag #5

    Storage hızlı ama VM yavaş

    ➡️ %80 ihtimalle:

    • PSP yanlış

    • RR default (1000 IOPS)

    • Queue yanlış


    🧠 Mini teşhis checklist (ezberle bunu)

    • esxtop → DAVG / KAVG / QAVG

    • Path view → IO dağılıyor mu?

    • PSP = RR mi?

    • IOPS = 1 mi?

    • Queue Depth mantıklı mı?

    • Vendor guide uyuyor mu?


    🔥 Son söz (sahadan gerçek)

    “Latency problemi storage değil,
    %70 multipath & queue konfigürasyonudur.”