Dell PowerStore controller failure sorunu, çoğu ekipte yalnız “bir controller düştü” diye özetlenir; oysa doğru yaklaşım, node state, peer node sağlığı, host path durumu, dump kanıtı ve bilinen yazılım senaryolarını aynı zincirde okumaktır. Kısa cevap şudur: PowerStore tarafında controller failure teşhisinde önce 0x00304404, 0x00304203, 0x00307701 ve 0x0030CB01 gibi node olaylarını ayırmak; sonra peer node'nun normal çalıştığını, host path'lerin sağlıklı olduğunu ve ilgili node'un gerçekten reboot, hardware fault veya software join-back problemi yaşayıp yaşamadığını doğrulamak gerekir.
Bu rehber özellikle şu ekipler içindir:
- PowerStore T veya X yöneten storage ekipleri
- PowerStore üzerinde kritik VMware veya kurumsal iş yükleri çalıştıran sistem ekipleri
- controller failure sonrası hemen node reboot etmek yerine güvenli teşhis akışı kurmak isteyen yöneticiler
- donanım arızası ile PowerStoreOS kaynaklı join-back sorununu ayırmak isteyen operasyon ekipleri
Hızlı Özet
- Dell Planning Guide, bir PowerStore appliance'ın
2Ubase enclosure içindeiki nodeve25 driveyapısıyla geldiğini belirtir. - Dell Hardware Information Guide, her base enclosure içinde iki node bulunduğunu ve node'un compute yeteneğini taşıyan akıllı bileşen olduğunu açıkça söyler.
- Dell Node States KB'sine göre
0x00304404alert'i, node'un shut down, reboot halinde olması veya system software çalıştıramaması nedeniyle peer node tarafından görülememesi halinde oluşabilir. - Dell Unexpected Node Reboot KB'si, controller failure benzeri olaylarda önce alerts-events, dump dosyaları ve
uptimedoğrulaması yapılmasını önerir. - Dell Node Fails to Join Back KB'si, PowerStoreOS
3.xüzerinde beklenmedik reboot sonrası failover tetiklenmeyip node'un cluster'a dönemediği nadir senaryonun3.6.1.0ve sonrasında giderildiğini belirtir. - Dell Reboot Procedures Guide, peer node normal çalışmıyorsa node reboot edilmemesi ve tüm hostlardan peer node'a yeterli sağlıklı path bulunduğunun doğrulanması gerektiğini açıkça vurgular.
İçindekiler
- PowerStore Controller Failure Ne Anlama Gelir?
- İlk Olarak Hangi Alert Kodları Okunmalı?
- Güvenli Teşhis Akışı Nasıl Kurulur?
- Node Reboot Ne Zaman Güvenlidir?
- Hangi Senaryolar Gerçekten Hardware Fault Gösterir?
- En Sık Yapılan Hatalar Nelerdir?
- İlgili İçerikler
- Kontrol Listesi
- LeonX ile Sonraki Adım
- Sık Sorulan Sorular
- Kaynaklar

Görsel: Wikimedia Commons - Grid storage rack with numbers.
PowerStore Controller Failure Ne Anlama Gelir?
PowerStore tarafında “controller failure” ifadesi çoğu zaman klasik storage terminolojisinden taşınır. Ancak Dell dokümanlarında temel yapı controller yerine node kavramı üzerinden okunur. Planning Guide'a göre appliance; storage ve compute kaynaklarını birlikte taşıyan bir bileşendir ve base enclosure içinde iki node vardır. Hardware Information Guide da her node'un compute yeteneğini sağlayan akıllı bileşen olduğunu netleştirir.
Bu nedenle sahada controller failure diye görülen olaylar gerçekte şu başlıklardan birine düşer:
- node reboot
- node disconnected state
- node failed lifecycle state
- peer node ile iletişim kaybı
- donanım uyumsuzluğu veya node replacement problemi
- PowerStoreOS tarafında join-back sorunu
Doğru teşhis için önce “node fiziksel olarak gerçekten fault mu, yoksa reboot-sonrası geçici state mi?” sorusu cevaplanmalıdır.
İlk Olarak Hangi Alert Kodları Okunmalı?
Dell'in resmi KB'leri, controller failure benzeri olaylarda ilk bakılması gereken olayları net gösterir.
0x00304404 - Node has been physically removed or shut down
BaseEnclosure Node States KB'ye göre bu olay, node shut down, reboot halinde veya system software çalıştıramadığı için peer node tarafından görülemiyorsa oluşabilir. Bu nedenle bu kod tek başına “anakart yandı” anlamına gelmez.
0x00304203 - Node has stopped
Aynı KB bu olayın, node shut down, reboot veya peer ile iletişim kaybı halinde oluşabileceğini söyler. Yani ağ, yazılım ve donanım birlikte düşünülmelidir.
0x00304403 - Node lifecycle state changed
Bu state, platform software veya firmware'in node üzerinde bir fault condition algıladığını gösterebilir. Burada controller failure daha çok “fault detected by platform” yönüne kayar.
0x00307701 ve 0x0030CB01
Unexpected Node Reboot ve Node Fails to Join Back KB'leri, XENV is not active ve I/O is not ready on the node olaylarının join-back veya reboot-sonrası recovery sorunlarında birlikte görülebileceğini gösterir.
Node uyumsuzluk kodları
BaseEnclosure Node States KB ayrıca 0x0030AC02, 0x0030AC03, 0x0030AC04 ve 0x0030AC05 gibi node model, part number veya resume information uyumsuzluklarını da listeler. Özellikle node replacement sonrasında controller failure gibi görünen bazı durumlar aslında eşleşmeyen node veya desteklenmeyen node kaynaklıdır.
Güvenli Teşhis Akışı Nasıl Kurulur?
1. Önce appliance mimarisini doğru okuyun
PowerStore tek node'lu kutu değildir. Bir appliance içinde iki node bulunduğu için her controller failure vakasında şu iki soru sabittir:
- peer node normal mi?
- workload peer node üzerinden servis almaya devam ediyor mu?
Bu noktada Donanım & Yazılım Hizmetleri altında sunduğumuz NAS / SAN Depolama Kurulum ve Yapılandırma hizmeti, PowerStore node ve fabric katmanını birlikte okumakta doğrudan ilgili uzmanlık alanıdır.
2. PowerStore Manager içinde alerts ve events ekranını açın
Unexpected Node Reboot KB, Monitoring altındaki ALERTS ve EVENTS sekmelerinde zaman damgası, event code ve mesaj detaylarının kontrol edilmesini önerir. Hızlı ve güvenli başlangıç budur. Önce event zincirini görün, sonra aksiyon alın.
3. Dump ve support materials toplayın
Aynı KB'ye göre kernel dump dosyaları Data Collect içine her zaman dahil değildir. Dell bu yüzden:
svc_dc list_dumps- support materials collection
- node başına
uptime
gibi kontrolleri önerir. Yani controller failure sonrası yalnız GUI ekran görüntüsü yetmez; kanıt seti toplanmalıdır.
4. Peer node ve host path sağlığını doğrulayın
Reboot Procedures Guide açık: peer node normal çalışmıyorsa node reboot etmeyin. Ayrıca tüm bağlı hostlardan peer node'a yeterli ve sağlıklı path olduğundan emin olun. Bu nokta kritik, çünkü yanlış zamanda yapılan reboot performans düşüşünü doğrudan kesintiye çevirebilir.
Bu aynı zamanda Depolama Kapasite Planlama ve Performans Optimizasyonu hizmetiyle de ilişkilidir; çünkü failure anında workload tek node'a bindiğinde latency ve path davranışı da birlikte yorumlanmalıdır.
5. Bilinen yazılım sürümü senaryolarını dışlayın
Node Fails to Join Back KB, PowerStoreOS 3.x üzerinde beklenmedik reboot sonrası node failover tetiklenmeyip cluster'a dönememe senaryosunu anlatır ve bunun 3.6.1.0 ve sonrasında giderildiğini söyler. Eğer controller failure görüntüsü hardware fault olmadan, reboot sonrası disconnected-not_ready hattında gidiyorsa sürüm kontrolü zorunludur.
Node Reboot Ne Zaman Güvenlidir?
Reboot, teşhis aracı olabilir ama ilk refleks olmamalıdır. Dell'in resmi prosedürüne göre reboot öncesinde şu şartlar sağlanmalıdır:
- peer node operating normally
- hostlardan peer node'a sufficient healthy paths
- management IP ve service account erişimi hazır
- olay ve dump toplama tamamlanmış
Guide içindeki service script akışı da nettir:
svc_node reboot localsvc_node reboot peer
Ancak bu komutları ezbere çalıştırmak yerine önce neden reboot gerektiği netleştirilmelidir.
Hangi Senaryolar Gerçekten Hardware Fault Gösterir?
Her disconnected state hardware değildir; ama bazı alert'ler donanım yönünü güçlendirir.
Node lifecycle failed state
0x00304403 gibi lifecycle state değişimleri, platform software veya firmware tarafından fault condition algılandığını gösterebilir.
Uyumlu olmayan veya desteklenmeyen replacement node
0x0030AC02, 0x0030AC03, 0x0030AC04, 0x0030AC05 hattı; peer ile model uyuşmazlığı, beklenen part number farklılığı veya node resume information okunamaması gibi durumlara işaret eder. Bu tip senaryolarda KB doğrudan node replacement veya support escalation önerir.
Overheating ve cooling sorunu
BaseEnclosure Node States KB'deki 0x00304003 sıcaklık alert'i, node overheating veya cooling probleminde daha fazla reboot aksiyonunu önlemek için ortam ve airflow kontrolü yapılması gerektiğini söyler. Yani controller failure'ın kökü bazen storage software değil, termal koşullardır.
İlgili İçerikler
- Dell PowerStore Controller Architecture Nedir?
- Dell PowerStore High Latency Sorunu Nasıl Çözülür?
- Dell PowerStore Volume Not Visible Sorunu
- Dell Storage Multipath Not Working Sorunu
En Sık Yapılan Hatalar Nelerdir?
0x00304404 kodunu doğrudan donanım arızası sanmak
Bu kod reboot, shutdown veya software-run failure yüzünden de çıkabilir. Event zinciri görülmeden node change kararı verilmemelidir.
Peer node sağlığını kontrol etmeden reboot başlatmak
Dell bunu açıkça riskli kabul eder. Peer sorunluyken ikinci node'u da etkilemek service interruption yaratabilir.
Dump toplamadan olayı kapatmaya çalışmak
Unexpected reboot sonrasında dump ve support materials olmadan gerçek kök neden kaybolabilir.
Sürüm kaynaklı known issue olasılığını atlamak
PowerStoreOS 3.x join-back senaryosu gibi bilinen durumlar, donanım arızası gibi yorumlanabilir.
Host path ve ALUA davranışını yok saymak
Controller failure anında problem yalnız storage kutusunda görünmez; host tarafında tek node akışı, path kaybı veya latency şişmesi de tabloya dahil olur.
Kontrol Listesi
-
ALERTSveEVENTSekranında event code zinciri çıkarıldı -
0x00304404,0x00304203,0x00304403,0x00307701,0x0030CB01gibi olaylar ayrıştırıldı - peer node'nun normal çalıştığı doğrulandı
- hostlardan peer node'a yeterli sağlıklı path bulunduğu kontrol edildi
- support materials ve dump toplama tamamlandı
- node
uptimeile gerçek reboot zamanı doğrulandı - PowerStoreOS sürümü known-issue hattına karşı kontrol edildi
LeonX ile Sonraki Adım
Dell PowerStore controller failure sorunu, yalnız bir node'u kapatıp açma işi değildir; node state, peer health, host path, alert code ve sürüm davranışını birlikte okumayı gerektirir. LeonX, Donanım & Yazılım Hizmetleri altında özellikle NAS / SAN Depolama Kurulum ve Yapılandırma ve Depolama Kapasite Planlama ve Performans Optimizasyonu hizmetleriyle PowerStore controller failure vakalarında storage, fabric ve host katmanını birlikte inceler. Mevcut ortamınızı değerlendirmek veya teklif almak için İletişim sayfasından ilerleyebilirsiniz.
İlgili sayfalar:
- Donanım & Yazılım Hizmetleri
- NAS / SAN Depolama Kurulum ve Yapılandırma
- Depolama Kapasite Planlama ve Performans Optimizasyonu
- İletişim
Sık Sorulan Sorular
PowerStore controller failure her zaman hardware arızası mıdır?
Hayır. Dell KB'leri reboot, software issue, peer communication loss ve node replacement senaryolarının benzer alert üretilebildiğini gösterir.
0x00304404 alert'i ne anlama gelir?
Node'un physically removed or shut down olarak görüldüğünü belirtir; pratikte bu state reboot, shutdown veya system software çalışamaması nedeniyle oluşabilir.
Controller failure sonrası node reboot etmek doğru ilk adım mı?
Hayır. Önce peer node sağlığı, host path'ler, event zinciri ve dump kanıtı doğrulanmalıdır.
Node join-back sorunu yazılım kaynaklı olabilir mi?
Evet. Dell, PowerStoreOS 3.x üzerindeki nadir bir failover tetikleme sorununu ve düzeltme sürümünü resmi KB'de açıklar.
Hangi durumda doğrudan support escalation gerekir?
Node model mismatch, unsupported replacement node, resume information okunamaması veya persistent disconnected state gibi durumlarda resmi KB'ler support escalation önerir.
Sonuç
Dell PowerStore controller failure sorunu, tek bir alert satırıyla yorumlanamaz. Doğru yaklaşım; node state kodlarını, peer node sağlığını, host path durumunu, dump kanıtını ve yazılım sürümü etkisini birlikte değerlendirmektir. Böylece gereksiz donanım değişimi yerine gerçek kök neden daha hızlı bulunur ve müdahale daha güvenli hale gelir.
Kaynaklar
- Dell PowerStore Planning Guide - Appliances
- Dell PowerStore Hardware Information Guide - Base enclosure component overview
- PowerStore Alerts: BaseEnclosure Node States
- PowerStore: Unexpected node reboot or kernel panic
- PowerStore: Node Fails to Join Back to the Cluster
- Dell PowerStore Power Down and Reboot Procedures Guide
- Wikimedia Commons - Grid storage rack with numbers



