اصطلاحات کلیدی بازیابی از فاجعه (Disaster Recovery) که باید بدانید
در زمان بحران، هیچکس دوست ندارد درباره اینکه یک فرآیند کسبوکار یا یک مؤلفهی فناوری اطلاعات دقیقاً چیست و چگونه کار میکند، دچار ابهام باشد.
بازیابی از فاجعه (Disaster Recovery) راهبردی است که سازمانها برای آمادگی در برابر اختلال یا توقف کامل عملیات و همچنین بازیابی پس از آن به کار میگیرند. بازیابی از فاجعه در حوزه IT به مسائل مرتبط با داده، سرویس و زیرساخت میپردازد تا قابلیت عملکرد سیستمها مجدداً برقرار شود.
با توجه به گستردگی فناوریها و عملکردهای درگیر در DR، ضروری است کارکنانی که در این حوزه فعالیت میکنند، درک دقیقی از اصطلاحات تخصصی داشته باشند. دسترسی به اطلاعات صحیح باعث میشود تا بتوانید مستقیماً در حل مشکل نقش داشته باشید و وضعیت لحظهبهلحظهی بازیابی را به ذینفعان مرتبط اطلاع دهید.
برخی از اصطلاحات رایج بازیابی از فاجعه ممکن است برای اعضای تیمی که تمرکز اصلیشان بر پروتکلها، ابزارهای اتوماسیون یا سایر جنبههای فنی IT است، ناآشنا باشد. در ادامه، ۲۷ اصطلاح کلیدی حوزه Disaster Recovery معرفی و تعریف شدهاند که تیمهای IT، نیروهای DR و مدیران ارشد باید برای برنامهریزی و اجرای یک بازیابی موفق با آنها آشنا باشند.
اصطلاحات رایج در بازیابی از فاجعه
Backup (پشتیبانگیری)
پشتیبانها نسخههایی از دادهها، برنامهها و تنظیمات سیستم هستند که روی رسانهای جایگزین ذخیره میشوند تا در صورت خرابی دیسک یا از دست رفتن داده، امکان بازیابی فراهم شود. سه نوع اصلی بکاپ وجود دارد:
Full Backup (پشتیبانگیری کامل)
از تمام دادههای مشخصشده نسخهبرداری میکند، بدون توجه به اینکه از آخرین بکاپ تغییری کردهاند یا نه. فرآیند بازیابی ساده است، اما به زمان و فضای ذخیرهسازی زیادی نیاز دارد. معمولاً بهصورت هفتگی یا ماهانه انجام میشود.
Incremental Backup (پشتیبانگیری افزایشی)
فقط دادههایی را بکاپ میگیرد که از آخرین بکاپ (کامل یا افزایشی) تغییر کردهاند. حجم بکاپ کمتر است، اما فرآیند بازیابی پیچیدهتر و زمانبرتر خواهد بود. معمولاً یک فول بکاپ هفتگی و بکاپهای افزایشی روزانه انجام میشود.
Differential Backup (پشتیبانگیری تفاضلی)
تمام دادههایی که از آخرین فول بکاپ تغییر کردهاند را ذخیره میکند. سریعتر از فول و کندتر از اینکریمنتال است. فضای بیشتری از افزایشی و کمتر از کامل مصرف میکند. بازیابی آن سادهتر از افزایشی است، زیرا فقط به آخرین فول و آخرین دیفرنشیال نیاز است.
Business Continuity (تداوم کسبوکار)
فرآیندی برای حفظ عملیات سازمان در حین و پس از وقوع بحران. برنامهریزی تداوم کسبوکار، نقاط شکست، ریسکها و الزامات SLA را مشخص میکند. تمرکز آن بیشتر بر حفظ عملکرد کسبوکار در بحران است تا بازیابی کامل زیرساخت. معمولاً همراه با DR و تحت عنوان BCDR مطرح میشود.
Business Impact Analysis (BIA) – تحلیل تأثیر کسبوکار
ارزیابی اثرات منفی بالقوهی بحران بر عملیات حیاتی سازمان. این تحلیل معمولاً توسط تیم داخلی یا مشاوران انجام شده و نتایج آن با مدیریت ارشد بررسی میشود تا در صورت نیاز، تغییراتی در برنامه DR اعمال گردد.
Crisis Communications (ارتباطات بحران)
در زمان بحران، اطلاعرسانی دقیق به کارکنان، ذینفعان، عموم و نهادهای مرتبط حیاتی است. بسیاری از سازمانها از سیستمهای اعلان اضطراری خودکار برای ارسال پیامهای فوری استفاده میکنند.
Disaster Recovery as a Service (DRaaS)
مدلی که در آن دادهها و سرویسها به یک ارائهدهندهی ثالث منتقل و تکثیر میشوند تا تداوم کسبوکار تضمین شود. DRaaS میتواند جایگزین مقرونبهصرفهای برای راهاندازی سایتهای DR داخلی باشد.
Disaster Recovery Plan (برنامه بازیابی از فاجعه)
سندی که مراحل و رویههای بازیابی عملیات پس از بحران را مشخص میکند. این برنامه میتواند مبتنی بر سناریوهای خاص یا رویکرد همهخطر (All-Hazards) باشد و شامل اهداف، اطلاعات تماس، ریسکها، دسترسیها و تجربیات قبلی سازمان است.
Disaster Recovery Site (سایت بازیابی از فاجعه)
مکان فیزیکی جایگزین برای ادامه عملیات در بحران. سه نوع اصلی دارد:
- Hot Site (سایت داغ): کاملاً آماده و بدون وقفه جایگزین سایت اصلی میشود.
- Warm Site (سایت گرم): نیمهآماده و نیازمند پیکربندی و نیروی انسانی.
- Cold Site (سایت سرد): حداقل زیرساخت را دارد و آمادهسازی آن زمانبر است.
Failover
انتقال خودکار یا دستی سرویسها به سایت یا پلتفرم جایگزین در صورت بروز خرابی.
Failback
بازگرداندن سرویسها به سایت یا سیستم اصلی پس از رفع مشکل.
Fault Tolerance (تحملپذیری خطا)
قابلیت ادامهی عملکرد سیستم حتی در صورت خرابی یک مؤلفه، معمولاً از طریق افزونگی. مانند RAID، Replication و سختافزارهای Redundant.
Hot Spare
قطعهی آماده و متصل برای جایگزینی فوری در زمان خرابی، مانند دیسک یدکی در RAID.
Known Good Component
قطعه یا تجهیزی که تست شده و عملکرد صحیح آن تأیید شده و برای عیبیابی جایگزین میشود.
MTBF – Mean Time Between Failures
میانگین زمان عملکرد یک تجهیز قابل تعمیر بین دو خرابی. عدد بالاتر نشاندهنده قابلیت اطمینان بیشتر است.
MTTF – Mean Time To Failure
میانگین زمان تا خرابی برای تجهیزات غیرقابل تعمیر. برای پیشبینی طول عمر استفاده میشود.
MTTR – Mean Time To Repair
میانگین زمان لازم برای بازگردانی سرویس پس از خرابی. مبنای تعیین RTO است.
RAID
آرایهای از دیسکهای مستقل برای افزایش دسترسپذیری و حفاظت داده. مانند RAID 1، RAID 5 و سایر سطوح.
RPO – Recovery Point Objective
حداکثر میزان از دست رفتن داده که قابل تحمل است. مبنای تعیین استراتژی بکاپ.
RTO – Recovery Time Objective
حداکثر زمان مجاز برای بازیابی یک سرویس قبل از بروز خسارت غیرقابل قبول.
Redundancy (افزونگی)
استفاده از چند مؤلفه برای حذف نقاط تکخرابی (SPOF).
Restore (File)
بازیابی یک یا چند فایل از بکاپ.
Restore (System)
بازگردانی سیستم به وضعیت قبلی از طریق بکاپ، معمولاً شامل تنظیمات سیستمعامل.
Risk (ریسک)
احتمال بروز خسارت در صورت بهرهبرداری تهدید از یک آسیبپذیری.
SLA – Service Level Agreement
توافقنامه سطح خدمات که تعهدات، سطح عملکرد و مسئولیتها را مشخص میکند.
Single Point of Failure (SPOF)
نقطهای که خرابی آن کل سیستم را از کار میاندازد.
Snapshot
کپی لحظهای از داده یا دیسک که برای بازگردانی سریع استفاده میشود، اما جایگزین بکاپ نیست.
Threat (تهدید)
منبع بالقوهی خسارت، طبیعی یا انسانی.
Vulnerability (آسیبپذیری)
ضعفی که یک تهدید میتواند از آن سوءاستفاده کند.