VMware Fault Tolerance (FT), bir sanal makinenin yanında farklı bir ESXi host üzerinde anlık eşzamanlı çalışan ikinci bir kopya tutarak host arızasında yeniden başlatma beklemeden hizmetin devam etmesini hedefler. Bu yüzden FT, klasik restart tabanlı korumadan çok, kesintiyi en aza indiren bir sürekli erişilebilirlik yaklaşımıdır.
Kısa cevap: FT etkinleştirildiğinde bir Primary VM ve bir Secondary VM oluşturulur; Secondary, Primary ile sanal lockstep içinde çalışır ve Primary host düştüğünde Secondary kaldığı noktadan devam eder.
Kısa Özet
- Broadcom KB'ye göre FT, host arızasında no data loss ve no noticeable service interruption hedefleyen bir koruma modelidir.
- Primary ve Secondary VM, vLockstep mantığıyla aynı talimat akışını işler.
- Primary ile Secondary arasındaki senkronizasyon gecikmesi tipik olarak 1 milisaniyenin altındadır.
- FT failover için vCenter çevrimiçi olmak zorunda değildir; failover ve yeni Secondary oluşturma işlemi vCenter kapalıyken de sürebilir.
- Broadcom yönlendirmesine göre sunucu CPU'sunun SMP-FT desteklemesi ve sistemin en az 6 toplam CPU thread sunması gerekir.
- Broadcom KB 301553, vSphere 7.x ve 8.x için FT korunan tek VM sınırını lisansa göre 2 vCPU veya 8 vCPU olarak dokümante eder.
- CPU hot add, memory hot add, Namespace enabled VM ve aktif snapshot / linked-clone disk durumları FT ile uyumsuz olabilir.
- FT ağı koparsa Primary VM kısa süreli stun durumuna girebilir; Broadcom KB 377099 bu beklemenin en fazla 8 saniye olacak şekilde yapılandırılabildiğini belirtir.
İçindekiler
- VMware Fault Tolerance Nedir?
- VMware FT Nasıl Çalışır?
- FT ile HA Arasındaki Fark Nedir?
- Ön Koşullar, Limitler ve Uyumsuz Özellikler
- Performans ve Ağ Tasarımı
- Operasyonel Kontrol Listesi
- Sık Sorulan Sorular

Görsel: Wikimedia Commons - OneX Data Center, CC BY-SA 4.0.
VMware Fault Tolerance Nedir?
Fault Tolerance, kritik bir VM'i sadece yedeklemek veya host arızasından sonra yeniden ayağa kaldırmak yerine, aynı anda iki host üzerinde çalışır halde tutmaya odaklanır. Bu yaklaşım özellikle birkaç dakikalık restart penceresinin bile problem olduğu uygulamalarda anlam kazanır.
Pratikte FT, cluster içindeki bir VM için ikinci bir yürütüm kopyası oluşturur. Primary VM üretim trafiğini işlerken Secondary VM aynı CPU talimat akışını takip eder. Primary host kaybedildiğinde Secondary yeni Primary olur ve istemci tarafında görünür kesinti minimum seviyede kalır.
Ankara'da üretim, ERP ya da saha operasyonu yöneten ekiplerde FT genellikle tüm sanallaştırma katmanına değil, sadece yeniden başlatma toleransı düşük birkaç kritik VM'e uygulanır.
VMware FT Nasıl Çalışır?
1) Primary ve Secondary VM birlikte oluşturulur
FT açıldığında sistem, korunan VM için ikinci bir kopya üretir. Bu Secondary VM farklı hostta çalışır ve asıl amacı, Primary host kaybedildiğinde beklemeden yürütümü devralmaktır.
2) vLockstep ve FT logging devreye girer
Broadcom KB 307309'a göre Primary ve Secondary, vLockstep yaklaşımıyla aynı komut akışını işler. İki taraf arasındaki durum bilgisi FT logging ağı üzerinden senkronize edilir. Tipik gecikmenin 1 ms altı olması, FT'nin neden ağ kalitesine duyarlı olduğunu açıkça gösterir.
3) Failover restart olmadan ilerler
Primary host arızalanırsa Secondary, Primary'nin kaldığı noktadan devam eder. Aynı KB'de bunun dinamik failover olduğu, klasik restart akışına göre çalışmadığı ve istemci tarafında fark edilir kesinti üretmemeyi hedeflediği belirtilir. Sonrasında VMware HA, cluster içinde yeni bir Secondary VM oluşturarak tekrar yedeklilik sağlar.
4) vCenter bağımlılığı sınırlıdır
Failover kararı için vCenter'ın ayakta olması gerekmez. Broadcom'un FT SSS dokümanına göre vCenter çevrimdışı olsa bile Primary -> Secondary geçişi devam eder; hatta yeni Secondary kopyanın oluşması da sürebilir.
FT ile HA Arasındaki Fark Nedir?
| Özellik | VMware FT | VMware HA |
|---|---|---|
| Koruma yaklaşımı | Aynı anda çalışan ikinci kopya | Host arızasından sonra restart |
| Kesinti profili | Çok düşük, anlık devralma hedefi | Uygulama restart süresi kadar kesinti olabilir |
| Kullanım alanı | Az sayıda kritik VM | Cluster genelinde geniş koruma |
| Operasyon maliyeti | Daha seçici ve daha dikkatli tasarım ister | Daha genel ve yaygın koruma modeli |
Bu yüzden FT ile HA rakip değil, tamamlayıcıdır. FT çok kritik birkaç VM için "çalışmaya devam et" katmanı sağlar; HA ise failover sonrası yeni Secondary oluşturarak ve FT dışındaki VM'leri yeniden başlatarak cluster'ın genel sürekliliğini destekler.
Ön Koşullar, Limitler ve Uyumsuz Özellikler
CPU ve platform uygunluğu
Broadcom KB 334895, FT'nin CPU desteğine bağlı olduğunu vurgular. Dokümana göre:
- CPU tarafında Supports SMP-FT desteği kontrol edilmelidir.
- FT için sistemde en az 6 toplam CPU thread önerilir.
- SMP-FT desteği için başlangıç seviyesi olarak Intel Sandy Bridge ve üzeri veya AMD Bulldozer ve üzeri işlemci aileleri referans verilir.
Bu nedenle FT planlamasında ilk kontrol noktası her zaman VMware Compatibility Guide içindeki CPU kabiliyetidir.
Lisans ve vCPU sınırları
Broadcom KB 301553, vSphere 7.x ve 8.x için FT korunan tek bir VM'de desteklenen vCPU sayısının lisans düzeyine bağlı olduğunu belirtir:
- vSphere Standard / Enterprise: en fazla 2 vCPU
- vSphere Enterprise Plus: en fazla 8 vCPU
Bu sınır, özellikle vCenter Server Appliance veya lisans katmanına göre büyüyen uygulama VM'lerinde tasarım kararını doğrudan etkiler.
FT ile uyumsuz olabilen özellikler
Resmi KB'lerde tekrar eden üç kritik uyumsuzluk var:
- CPU hot add / memory hot add: FT pre-check aşamasında engel çıkarabilir.
- Namespace enabled VM: FT ile uyumsuzdur.
- Aktif snapshot veya linked-clone / delta disk durumu: FT etkinleştirmeyi engeller.
Bu yüzden "Turn On Fault Tolerance" öncesinde sadece host uygunluğu değil, VM konfigürasyonu da ayrıca kontrol edilmelidir.
Performans ve Ağ Tasarımı
Broadcom KB 307309, FT açıkken performans overhead'inin beklenen davranış olduğunu söyler; çünkü sistem Primary ile Secondary arasındaki durumu eşitlemek için VM'i saniyede çok kez kısa aralıklarla durdurup senkronize eder. Özellikle yüksek throughput veya gecikmeye duyarlı iş yüklerinde bu etki test edilmeden üretime çıkmak doğru değildir.
Broadcom KB 377099 şu iki pratik noktayı öne çıkarır:
- Uygunluk kontrolü tamamlandığı halde yükte sorun varsa FT korunan VM'in vCPU sayısını 8'den 4'e veya 4'ten 2'ye düşürerek tekrar test etmek anlamlı olabilir.
- FT ağı kesildiğinde Primary VM birkaç saniye cevap vermez hale gelebilir; bu stun süresi en fazla 8 saniye olacak şekilde davranabilir.
Çoklu FT VMkernel NIC tasarımında da dikkatli olmak gerekir. Broadcom KB 415828, birden fazla FT VMkernel arayüzü kullanılacaksa bunların aynı subnet içinde olmaması gerektiğini, aksi halde Primary ile Secondary iletişiminin bozulabileceğini açıkça gösterir.
Operasyonel Kontrol Listesi
- CPU ailesinin VMware Compatibility Guide üzerinde Supports SMP-FT olarak işaretlendiği doğrulandı.
- Host tarafında en az 6 CPU thread ve yeterli kaynak kapasitesi kontrol edildi.
- Korunacak VM'in vCPU boyutu, lisans sınırı ve gerçek performans ihtiyacına göre yeniden değerlendirildi.
- VM üzerinde CPU hot add, memory hot add ve benzeri uyumsuz ayarlar kapatıldı.
- VM'de aktif snapshot, linked-clone veya konsolidasyon gerektiren disk durumu olmadığı doğrulandı.
- VM'in Namespace özelliği kapalı olduğu teyit edildi.
- FT logging için ayrılan VMkernel tasarımı gözden geçirildi; çoklu NIC varsa her biri farklı subnet'e yerleştirildi.
- Üretim öncesi Test Failover senaryosu çalıştırıldı ve sonuç kayda alındı.
Sık Sorulan Sorular
FT ile HA birlikte çalışır mı?
Evet. FT, host arızasında Secondary VM'in anında devralmasını sağlar; HA ise bu olaydan sonra yeni bir Secondary VM oluşturarak yedekliliği yeniden kurar.
FT, her sanal makine için gerekli mi?
Hayır. FT daha çok restart toleransı çok düşük, sayıca az ve gerçekten kritik VM'ler için mantıklıdır. Tüm cluster'da varsayılan koruma modeli genelde HA olur.
FT testini en doğru nasıl yaparım?
Broadcom KB 302196, en güvenli yaklaşımın vCenter içindeki Test Failover fonksiyonunu kullanmak olduğunu söyler. Rastgele ağ kesme veya belirsiz senaryolar, beklenmeyen sonuçlar üretebilir.
vCenter kapalıyken FT çalışmaya devam eder mi?
Evet. Broadcom KB 307309'a göre vCenter çevrimdışı olsa bile failover gerçekleşebilir ve yeni Secondary VM de oluşturulabilir.
FT ağı sorun yaşarsa ne olur?
Primary ile Secondary iletişimi bozulursa Primary VM kısa süreliğine stun durumuna girebilir. Ağ sorunları uzarsa failover veya senkronizasyon iptali gibi davranışlar devreye girebilir; bu yüzden FT ağı ayrı izlenmelidir.
Sonuç
VMware Fault Tolerance, yeniden başlatma sonrası toparlanmadan ziyade, host arızası anında hizmeti sürdürmeye odaklanan üst seviye bir erişilebilirlik mekanizmasıdır. Gerçek fayda; doğru CPU uygunluğu, temiz VM konfigürasyonu, düşük gecikmeli FT ağı ve yalnız gerçekten kritik iş yüklerine seçici uygulama ile elde edilir.
İlgili konularda devam etmek isterseniz şu rehberlere de bakabilirsiniz:
- VMware HA (High Availability) Nedir?
- VMware vMotion Nedir ve Nasıl Çalışır?
- VMware DRS Nedir ve Nasıl Çalışır?
Kurumsal sanallaştırma tasarımı veya FT uygunluk değerlendirmesi için bizimle iletişime geçebilirsiniz.
Kaynaklar
- Broadcom KB 307309 - FAQ: VMware Fault Tolerance
- Broadcom KB 334895 - VMware vSphere Fault Tolerance
- Broadcom KB 301553 - CPU hot plug is not supported when enabling FT
- Broadcom KB 419953 - Fault Tolerance is not supported for VMs with Namespace enabled
- Broadcom KB 420352 - The virtual machine has virtual disk in linked-clone mode
- Broadcom KB 377099 - After enabling FT, performance or hung issues reported
- Broadcom KB 302196 - Fault Tolerance failure scenarios
- Broadcom KB 415828 - FT primary VM hangs due to multiple VMkernel NICs on the same subnet
- Broadcom TechDocs - Fault Tolerance Requirements, Limits, and Licensing
- Wikimedia Commons - OneX Data Center



