Description

This curriculum spans the design, implementation, and governance of high-availability systems across technology and organizational boundaries, comparable in scope to a multi-phase infrastructure resilience program or an enterprise-wide business continuity initiative.

Module 1: Defining System Availability Requirements

Selecting appropriate availability metrics (e.g., uptime percentage, MTBF, MTTR) based on business impact and service tier agreements
Negotiating availability targets with stakeholders when infrastructure constraints limit achievable SLAs
Differentiating between perceived and actual availability in user-facing systems
Mapping application dependencies to assess cascading failure risks in availability calculations
Establishing thresholds for incident classification based on duration and user impact
Aligning availability goals with disaster recovery and business continuity planning timelines
Documenting exceptions for legacy systems that cannot meet current availability standards
Integrating user experience monitoring into availability reporting to capture functional outages

Module 2: High Availability Architecture Design

Choosing between active-passive and active-active configurations based on data consistency and cost requirements
Designing stateless services to enable horizontal scaling and seamless failover
Implementing quorum-based decision making in distributed clusters to prevent split-brain scenarios
Configuring load balancer health checks to avoid routing traffic to degraded nodes
Selecting replication strategies (synchronous vs. asynchronous) based on RPO and latency tolerance
Architecting multi-region deployments with traffic routing policies using DNS or global load balancers
Validating failover automation through controlled disruption testing in production-like environments
Isolating failure domains in cloud environments using availability zones and fault domains

Module 3: Redundancy and Failover Implementation

Configuring automated failover mechanisms for databases while managing transaction loss risks
Testing failover scripts under network partition conditions to validate decision logic
Implementing heartbeat monitoring with appropriate timeout thresholds to avoid false failovers
Managing shared storage dependencies that can undermine redundancy claims
Coordinating failover sequencing across interdependent services to prevent startup conflicts
Handling session persistence during failover using distributed session stores
Documenting manual override procedures for automated failover systems during maintenance
Monitoring failover history to detect recurring instability patterns

Module 4: Monitoring and Alerting for Availability

Designing synthetic transactions to proactively detect availability degradation
Calibrating alert thresholds to balance sensitivity with operational noise
Correlating alerts across layers (network, host, application) to identify root causes
Implementing escalation policies based on incident duration and severity
Using canary deployments to validate system stability before full rollout
Integrating external monitoring to detect regional outages beyond internal visibility
Establishing baseline performance profiles to detect subtle availability erosion
Managing alert fatigue by suppressing non-actionable notifications during known events

Module 5: Incident Response and Recovery

Activating incident response teams based on predefined severity criteria
Executing runbook procedures for common availability failure scenarios
Communicating outage status to internal and external stakeholders without speculation
Preserving system state for post-incident analysis before remediation
Coordinating parallel recovery efforts across infrastructure, database, and application teams
Declaring incident resolution based on sustained stability, not just symptom disappearance
Conducting real-time blameless incident bridging across time zones
Managing external communications during regulatory-reportable outages

Module 6: Change Management and Deployment Safety

Requiring availability impact assessments for all production changes
Implementing deployment windows aligned with business-critical operations
Using feature flags to decouple deployment from activation
Rolling back changes based on automated health checks, not just error rates
Validating backup and restore procedures before schema or configuration changes
Enforcing peer review of high-risk configuration modifications
Tracking change velocity to identify periods of elevated availability risk
Requiring rollback plans for all deployment packages, including data migration scripts

Module 7: Capacity Planning and Scalability

Forecasting resource needs based on historical growth and seasonal patterns
Identifying scalability bottlenecks in stateful components during load testing
Right-sizing cloud instances to balance cost and performance headroom
Implementing auto-scaling policies with cooldown periods to prevent thrashing
Monitoring queue depths and thread pool utilization as early saturation indicators
Planning for data sharding when single-instance capacity limits are approached
Validating backup storage scalability under peak write conditions
Assessing third-party service rate limits as potential availability constraints

Module 8: Dependency and Supply Chain Risk

Mapping direct and transitive dependencies to assess third-party availability risks
Requiring SLAs and uptime reports from critical vendors
Implementing circuit breakers for external service dependencies
Designing fallback modes for degraded third-party service performance
Tracking end-of-life dates for hardware and software components in the stack
Validating disaster recovery capabilities of cloud providers through documentation review
Managing DNS provider redundancy to prevent domain resolution outages
Assessing geopolitical risks in multi-region hosting provider selection

Module 9: Governance and Compliance in Availability

Documenting availability controls for regulatory audits (e.g., SOC 2, HIPAA)
Defining retention periods for incident logs and monitoring data
Conducting regular business impact analyses to validate recovery priorities
Requiring availability testing in penetration test scopes
Establishing approval workflows for exceptions to availability standards
Reporting availability metrics to executive leadership and board committees
Aligning backup encryption practices with data sovereignty requirements
Reviewing third-party audit reports (e.g., ISO 27001) for critical infrastructure providers