Description

This curriculum spans the technical and operational rigor of a multi-workshop program for engineering teams modernizing complex, production-grade systems, addressing the same design, governance, and evolution challenges encountered in large-scale advisory engagements.

Module 1: Foundations of Dynamic System Design

Selecting appropriate system boundaries when integrating legacy components with event-driven microservices.
Defining state management strategies for systems requiring eventual consistency across distributed nodes.
Choosing between message brokers (e.g., Kafka vs RabbitMQ) based on throughput, durability, and replay requirements.
Implementing circuit breakers and fallback mechanisms to maintain partial functionality during service degradation.
Designing idempotent operations to handle duplicate messages in asynchronous workflows.
Establishing observability baselines including structured logging, distributed tracing, and metric collection from inception.

Module 2: Runtime Adaptability and Configuration Management

Implementing feature flags with targeting rules while minimizing performance overhead in high-frequency services.
Securing dynamic configuration stores (e.g., Consul, etcd) with role-based access and audit logging.
Managing configuration drift across environments using version-controlled configuration snapshots.
Designing runtime reconfiguration mechanisms that avoid restarts while ensuring consistency.
Handling configuration validation and rollback during failed dynamic updates in production.
Integrating configuration changes with CI/CD pipelines to enforce staging promotion gates.

Module 3: Event-Driven Architecture Patterns

Modeling domain events with explicit schemas and versioning to support backward compatibility.
Deciding between publish-subscribe and event sourcing based on auditability and state reconstruction needs.
Partitioning event streams to balance parallel processing and ordering guarantees.
Implementing dead-letter queues and monitoring for failed event processing retries.
Enforcing event schema governance using schema registries with compatibility policies.
Designing compensating transactions for sagas in long-running business processes without two-phase commit.

Module 4: State Management in Distributed Systems

Choosing between client-side and server-side state storage based on scalability and security constraints.
Implementing distributed locking mechanisms while avoiding deadlock and split-brain scenarios.
Designing state reconciliation processes for systems with intermittent connectivity.
Using CRDTs (Conflict-Free Replicated Data Types) for highly available collaborative applications.
Managing state snapshots and garbage collection in event-sourced aggregates.
Coordinating state migrations during schema evolution without downtime.

Module 5: Resilience and Fault Tolerance Engineering

Configuring retry budgets with exponential backoff and jitter to prevent cascading failures.
Implementing bulkheads to isolate failures in shared resources like thread pools or databases.
Designing health checks that reflect actual service dependencies and readiness criteria.
Simulating network partitions and latency spikes in staging environments using chaos engineering tools.
Establishing SLI/SLO definitions and error budget policies for incident response prioritization.
Automating failover procedures while ensuring data consistency across regions.

Module 6: Scalability and Load Management

Designing horizontal scaling strategies that account for stateful components and session affinity.
Implementing adaptive rate limiting at API gateways based on real-time traffic patterns.
Sharding databases based on access patterns while managing cross-shard query complexity.
Using caching layers with appropriate eviction policies and cache-invalidation strategies.
Monitoring queue backlogs in message-processing systems to trigger auto-scaling events.
Optimizing connection pooling for database and service-to-service communication under load.

Module 7: Governance and Operational Control

Enforcing API contract compliance through automated gatekeeping in service registration.
Implementing audit trails for configuration changes and deployment activities across environments.
Managing service ownership and escalation paths in large-scale microservices ecosystems.
Standardizing deployment manifests to support multi-environment consistency and drift detection.
Integrating security scanning into CI/CD pipelines without introducing unacceptable latency.
Establishing incident review processes that translate outages into system improvements.

Module 8: Evolution and Technical Debt Management

Planning incremental rewrites using the Strangler Fig pattern without disrupting business operations.
Tracking and prioritizing technical debt using measurable indicators like test coverage and bug recurrence.
Refactoring tightly coupled services while maintaining backward-compatible APIs.
Deprecating old endpoints with clear timelines and monitoring for residual usage.
Assessing performance regressions after architectural changes using production benchmarks.
Documenting architectural decisions in ADRs (Architecture Decision Records) for future maintainers.