메뉴 λ‹«κΈ°

🚨 이둠과 ν˜„μ‹€μ˜ 차이: 데이터센터 ν™”μž¬ μ‹œλ‚˜λ¦¬μ˜€λ³„ DR ν›ˆλ ¨(DRP, Disaster Recovery Plan) κ°€μ΄λ“œ

πŸ’‘ μ„œλ‘ : DR ν›ˆλ ¨, λ³΄ν—˜μ΄ μ•„λ‹Œ ν•„μˆ˜ 생쑴 μ „λž΅

아무리 ν›Œλ₯­ν•œ 1μ°¨, 2μ°¨, 3μ°¨ μ„œλ²„λ₯Ό κ΅¬μΆ•ν–ˆλ”λΌλ„, μ‹€μ œ μœ„κΈ° μƒν™©μ—μ„œ μ‚¬λžŒλ“€μ΄ νŒ¨λ‹‰ ν•˜μ§€ μ•Šκ³  μ‹œμŠ€ν…œμ„ μ ˆμ°¨λŒ€λ‘œ 볡ꡬ할 수 μ—†λ‹€λ©΄ λ¬΄μš©μ§€λ¬Όμž…λ‹ˆλ‹€. SK C&C 판ꡐ ν™”μž¬μ™€ κ΅­μ •μžμ› ν™”μž¬ μ‚¬λ‘€λŠ” DR μ‹œμŠ€ν…œμ΄ ‘μ„€μΉ˜’만으둜 λλ‚˜μ„œλŠ” μ•ˆ λœλ‹€λŠ” 것을 λͺ…ν™•νžˆ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. 이번 ν¬μŠ€νŒ…μ—μ„œλŠ” κ΅¬μΆ•λœ DR μ‹œμŠ€ν…œμ΄ RTO/RPO λͺ©ν‘œλ₯Ό λ‹¬μ„±ν•˜λŠ”μ§€ κ²€μ¦ν•˜λŠ” DR ν›ˆλ ¨(DR Drill) 방법과 μ‹€μ œ λŒ€μ‘ 맀뉴얼을 λ‹€λ£Ήλ‹ˆλ‹€.


1. DR ν›ˆλ ¨μ˜ 핡심 λͺ©ν‘œ: RTO와 RPO 달성 검증

DR ν›ˆλ ¨μ€ RTO(볡ꡬ μ‹œκ°„ λͺ©ν‘œ)와 RPO(볡ꡬ μ‹œμ  λͺ©ν‘œ)λΌλŠ” 두 κ°€μ§€ 핡심 μ§€ν‘œλ₯Ό μ‹€μ œ ν™˜κ²½μ—μ„œ 달성할 수 μžˆλŠ”μ§€ ν™•μΈν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.

μ§€ν‘œμ •μ˜ν›ˆλ ¨μ—μ„œ 검증할 사항
RTO(Recovery Time Objective)μ„œλΉ„μŠ€κ°€ λ‹€μš΄λœ μ‹œμ λΆ€ν„° 볡ꡬ μ™„λ£Œ μ‹œμ κΉŒμ§€ κ±Έλ¦¬λŠ” μ΅œλŒ€ ν—ˆμš© μ‹œκ°„.1μ°¨ μ„œλ²„ μž₯μ•  μ‹œ 2μ°¨ μ„œλ²„λ‘œ μ „ν™˜(Failover)ν•˜λŠ” 데 κ±Έλ¦¬λŠ” μ‹œκ°„.
RPO (Recovery Point Objective)ν—ˆμš© κ°€λŠ₯ν•œ μ΅œλŒ€ 데이터 μ†μ‹€λŸ‰ (μ‹œκ°„ λ‹¨μœ„).1μ°¨ μ„œλ²„ λ‹€μš΄ μ§μ „κΉŒμ§€ 데이터 λ³΅μ œκ°€ μ™„λ£Œλ˜μ—ˆλŠ”μ§€, μœ μ‹€λœ 데이터가 μ—†λŠ”μ§€.

ν›ˆλ ¨μ˜ μ€‘μš”μ„±: ꡬ좕 μ‹œ μ„€μ •λœ 볡ꡬ λͺ©ν‘œ(예: RTO 4μ‹œκ°„, RPO 1μ‹œκ°„)λ₯Ό 반볡 ν›ˆλ ¨μ„ 톡해 μ‹€μ œ μƒν™©μ—μ„œλ„ 였차 없이 달성할 수 μžˆλŠ”μ§€ 확인해야 ν•©λ‹ˆλ‹€.


2. μ‹œλ‚˜λ¦¬μ˜€λ³„ DR ν›ˆλ ¨ μ‹€ν–‰ 맀뉴얼

DR ν›ˆλ ¨μ€ λ‹¨μˆœνžˆ ‘볡ꡬ’ λ²„νŠΌμ„ λˆ„λ₯΄λŠ” 것이 μ•„λ‹ˆλΌ, μ—¬λŸ¬ μœ ν˜•μ˜ μž₯μ•  상황을 κ°€μ •ν•œ μ‹œλ‚˜λ¦¬μ˜€ 기반으둜 μ§„ν–‰λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€.

2.1. μ‹œλ‚˜λ¦¬μ˜€ 1: 1μ°¨ μ„œλ²„ λ‚΄λΆ€ μž₯μ•  (Failover ν›ˆλ ¨)
κ°€μž₯ λΉˆλ²ˆν•˜κ²Œ λ°œμƒν•˜λŠ” μž₯μ•  상황에 λŒ€ν•œ λŒ€μ‘ λŠ₯λ ₯을 μ κ²€ν•©λ‹ˆλ‹€.
κ°€μ •: 1μ°¨ μ„œλ²„μ˜ OS λ˜λŠ” μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ— 치λͺ…적인 였λ₯˜ λ°œμƒ.
ν›ˆλ ¨ 절차 :
1. μž₯μ•  감지 및 μ„ μ–Έ: λͺ¨λ‹ˆν„°λ§ μ‹œμŠ€ν…œμ„ 톡해 μž₯μ• λ₯Ό μΈμ§€ν•˜κ³  DR μ„ μ–Έ(Declare Disaster).
2. μžλ™ Failover 확인: 2μ°¨ μ„œλ²„λ‘œ μ„œλΉ„μŠ€κ°€ μžλ™μœΌλ‘œ μ „ν™˜λ˜λŠ”μ§€ 확인.
3. 데이터 무결성 검증: 2μ°¨ μ„œλ²„ μ „ν™˜ ν›„, 졜근 기둝된 νŠΈλžœμž­μ…˜μ΄ λˆ„λ½ 없이 μ‘΄μž¬ν•˜λŠ”μ§€ 검사 (RPO 검증).
4. 1μ°¨ μ„œλ²„ 볡ꡬ ν›„ 볡귀(Failback): 1μ°¨ μ„œλ²„ 볡ꡬ ν›„, μ„œλΉ„μŠ€λ₯Ό λ‹€μ‹œ 1μ°¨ μ„œλ²„λ‘œ μ•ˆμ „ν•˜κ²Œ μ „ν™˜ν•˜λŠ” μ—­κ³Όμ •(Failback) μˆ˜ν–‰.

2.2. μ‹œλ‚˜λ¦¬μ˜€ 2: 데이터센터 κ΄‘μ—­ μž¬ν•΄ (3μ°¨ λ°±μ—… 볡원 ν›ˆλ ¨)
판ꡐ ν™”μž¬λ‚˜ κ΅­μ •μžμ› ν™”μž¬μ²˜λŸΌ 1μ°¨, 2μ°¨ μ„œλ²„κ°€ μœ„μΉ˜ν•œ 물리적 곡간 전체가 μ†Œμ‹€λ˜λŠ” μ΅œμ•…μ˜ 상황을 κ°€μ •ν•©λ‹ˆλ‹€. 이 ν›ˆλ ¨μ€ 3μ°¨ μ„œλ²„μ˜ μœ νš¨μ„±μ„ κ²€μ¦ν•©λ‹ˆλ‹€.
κ°€μ •: 1μ°¨ 및 2μ°¨ μ„œλ²„κ°€ ν¬ν•¨λœ 데이터센터 전체 μ •μ „ λ˜λŠ” μ „μ†Œ.
ν›ˆλ ¨ 절차 :
1. 3μ°¨ μ„œλ²„ μ ‘κ·Ό ν†΅μ œ 확인: 망 λΆ„λ¦¬λœ 3μ°¨ μ„œλ²„λ‘œμ˜ μΈκ°€λœ 경둜(λ³΄μ•ˆ κ²Œμ΄νŠΈμ›¨μ΄) μ™Έμ—λŠ” 접근이 μ™„λ²½νžˆ μ°¨λ‹¨λ˜λŠ”μ§€ 확인.
2. 데이터 볡원(Restore) ν…ŒμŠ€νŠΈ: 3μ°¨ μ„œλ²„μ— λ³΄κ΄€λœ λΆˆλ³€μ„±(Immutable) λ°±μ—… 데이터λ₯Ό μƒˆλ‘œμš΄ μ„œλ²„(μž„μ‹œ 볡ꡬ ν™˜κ²½)둜 볡원.
3. λ³΅μ›λœ μ‹œμŠ€ν…œ 가동: λ³΅μ›λœ 데이터λ₯Ό 기반으둜 핡심 μ„œλΉ„μŠ€κ°€ μž‘λ™ν•˜λŠ”μ§€ 확인 (이 과정이 RTO의 μ΅œμ’… μΈ‘μ •κ°’).


3. DR ν›ˆλ ¨μ˜ 성곡을 μœ„ν•œ 싀무 μ§€μΉ¨

3.1. πŸ“ DR 런뢁(Runbook)의 μ‹€μ§ˆν™”
DR 런뢁(Runbook)은 비상 상황 μ‹œ 따라야 ν•  상세 μ ˆμ°¨μ„œμž…λ‹ˆλ‹€. λ‹¨μˆœνžˆ 이둠을 λ‚˜μ—΄ν•˜λŠ” 것이 μ•„λ‹ˆλΌ, ‘μž₯μ•  발견 μ‹œκ°„’, ‘λˆ„κ°€’, ‘무엇을’, ‘μ–΄λ–»κ²Œ’ ν•΄μ•Ό ν•˜λŠ”μ§€ ꡬ체적인 λͺ…령어와 μ—°λ½λ§κΉŒμ§€ 포함해야 ν•©λ‹ˆλ‹€. ν›ˆλ ¨ ν›„μ—λŠ” 맀번 런뢁의 정확성을 μ—…λ°μ΄νŠΈν•΄μ•Ό ν•©λ‹ˆλ‹€.

3.2. πŸ› οΈ λͺ¨λ‹ˆν„°λ§ μ‹œμŠ€ν…œκ³Όμ˜ 연동
μž₯μ•  λ°œμƒ μ‹œ λͺ¨λ‹ˆν„°λ§ μ‹œμŠ€ν…œμ΄ 1μ°¨ μ„œλ²„μ˜ 문제λ₯Ό μžλ™μœΌλ‘œ μΈμ§€ν•˜κ³ , 2μ°¨ μ„œλ²„λ‘œ μ „ν™˜μ„ μ‹œλ„ν•˜κ±°λ‚˜ λ‹΄λ‹Ήμžμ—κ²Œ 경보λ₯Ό λ³΄λ‚΄λŠ” μ‹œκ°„μ΄ RTO μΈ‘μ •μ˜ μ‹œμž‘μ μž…λ‹ˆλ‹€. λͺ¨λ‹ˆν„°λ§μ΄ μ •ν™•ν•˜κ²Œ μž‘λ™ν•˜λŠ”μ§€ ν›ˆλ ¨ λ•Œ λ°˜λ“œμ‹œ 점검해야 ν•©λ‹ˆλ‹€.


πŸ“Š κ²°λ‘ : odenwar.net, ν˜„μ‹€μ μΈ DR κ²½ν—˜κ³Ό λͺ©ν‘œ

저희 odenwar.net은 이둠적인 μ„œλ²„ ꡬ좕에 λ§Œμ‘±ν•˜μ§€ μ•Šκ³ , λΆ„κΈ°λ³„λ‘œ μ‹€μ œ μž₯μ•  μ‹œλ‚˜λ¦¬μ˜€ 기반의 DR ν›ˆλ ¨μ„ μ‹€μ‹œν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. ν›ˆλ ¨μ„ 톡해 μ €ν¬λŠ” **볡ꡬ μ‹œκ°„(RTO)**의 ν˜„μ‹€μ μΈ 지점을 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

μ‹€μ œ 볡원 μž‘μ—…μ„ μˆ˜ν–‰ν–ˆμ„ λ•Œ, μž‘μ€ 문제 λ°œμƒ μ‹œ μ΅œμ†Œ 2μ‹œκ°„, λ³΄ν†΅μ˜ λ³΅μž‘ν•œ μž₯μ• λŠ” 6μ‹œκ°„μ΄ μ†Œμš”λ˜μ—ˆμœΌλ©°, μ΅œλŒ€ 휴일 κΈ°μ€€ 1.5일의 μ‹œκ°„μ΄ κ±Έλ¦° κ²½ν—˜μ΄ μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λ‹Ήμ΄ˆ μ„€μ •ν–ˆλ˜ 이상적인 RTO λͺ©ν‘œμ™€ ν˜„μ‹€μ μΈ 격차가 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

DR ν›ˆλ ¨μ€ 이처럼 ν˜„μ‹€μ μΈ RTOλ₯Ό μΈ‘μ •ν•˜κ³  격차λ₯Ό μ€„μ΄λŠ” κ³Όμ •μž…λ‹ˆλ‹€. μ €ν¬λŠ” ν˜„μž¬μ˜ RTOλ₯Ό κ°œμ„ ν•˜κΈ° μœ„ν•΄ μžλ™ν™” 슀크립트 μ΅œμ ν™”, 2μ°¨ μ„œλ²„ μžμ› 증섀, 그리고 데이터 동기화 μ§€μ—° μ‹œκ°„ 단좕 등에 μ§‘μ€‘ν•˜μ—¬ ν–₯ν›„μ—λŠ” 볡ꡬ μ‹œκ°„μ„ 획기적으둜 μ€„μ΄λŠ” λ…Έλ ₯을 지속할 κ³„νšμž…λ‹ˆλ‹€.

DR ν›ˆλ ¨μ€ 기술적인 검증을 λ„˜μ–΄, νŒ€μ˜ μœ„κΈ° λŒ€μ‘ λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€κ³  RTO 단좕을 μœ„ν•œ ꡬ체적인 λ‘œλ“œλ§΅μ„ μ œμ‹œν•˜λŠ” νˆ¬μžμž…λ‹ˆλ‹€.

저희 odenwar.net은 μ΄λŸ¬ν•œ μ‹€μ „ DR ν›ˆλ ¨ κ²½ν—˜κ³Ό ν˜„μ‹€μ μΈ RTO κ°œμ„  λ…Έν•˜μš°λ₯Ό λ°”νƒ•μœΌλ‘œ, κ·€μ‚¬μ˜ μ‹œμŠ€ν…œμ— κ°€μž₯ μ ν•©ν•œ μž¬ν•΄ 볡ꡬ κ³„νš(DRP) 수립 및 ν›ˆλ ¨ μ»¨μ„€νŒ…μ„ μ œκ³΅ν•  μ€€λΉ„κ°€ λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. κ·€μ‚¬μ˜ μ„œλΉ„μŠ€κ°€ μ–΄λ–€ μƒν™©μ—μ„œλ„ λ©ˆμΆ”μ§€ μ•Šλ„λ‘ μ „λ¬Έκ°€μ˜ 도움이 ν•„μš”ν•˜μ‹œλ‹€λ©΄ μ–Έμ œλ“  연락 μ£Όμ‹­μ‹œμ˜€.

[DRP ꡬ좕 및 ν›ˆλ ¨ μ „λ¬Έ 문의]

business@odenwar.net으둜 연락 μ£Όμ‹œλ©΄, κ·€μ‚¬μ˜ RTO/RPO λͺ©ν‘œ 달성을 μœ„ν•œ ν˜„μ‹€μ μΈ DR μ†”λ£¨μ…˜μ„ μ œκ³΅ν•΄ λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€.

Posted in Job Story

λŒ“κΈ€ 남기기