3.2 容错与容灾设计:当第三方服务崩溃时如何保证业务不中断?
引言
在构建复杂的分布式系统时,我们不可避免地要依赖各种第三方服务,如短信网关、邮件服务器、微信API等。这些外部依赖往往是系统中最不可控的因素,它们可能因为网络问题、服务过载、维护升级等各种原因而出现故障。当这些关键的第三方服务崩溃时,如果系统没有良好的容错和容灾机制,就可能导致业务中断,严重影响用户体验和业务连续性。
本节我们将深入探讨通知平台的容错与容灾设计,包括多提供商支持、故障检测、自动切换、数据备份等关键技术,确保在第三方服务崩溃时业务依然能够正常运行。
容错与容灾的核心挑战
在设计容错与容灾方案时,我们面临以下几个核心挑战:
- 故障检测:如何快速准确地检测到第三方服务的故障
- 自动切换:如何在检测到故障后自动切换到备用方案
- 数据一致性:如何保证在切换过程中数据的一致性
- 恢复机制:如何在主服务恢复后安全地切回
- 成本控制:如何在保证高可用的同时控制额外的成本
多提供商支持
为了提高系统的容错能力,我们需要支持多个相同类型的提供商,当主提供商出现故障时可以自动切换到备用提供商。
第三方服务管理器
``go
// ThirdPartyServiceManager 第三方服务管理器
type ThirdPartyServiceManager struct {
// 不同类型的服务提供者
smsProviders map[string]SMSProvider
emailProviders map[string]EmailProvider
wechatProviders map[string]WeChatProvider
// 当前活跃的提供者 activeProviders map[string]string // serviceType -> providerID // 负载均衡器 loadBalancer LoadBalancer // 健康检查器 healthChecker *HealthChecker // 配置管理器 configManager *ConfigManager // 互斥锁 mutex sync.RWMutex}
// SMSProvider 短信提供商接口
type SMSProvider interface {
// 发送短信
Send(message *SMSMessage) (*SMSResult, error)
// 查询发送状态 QueryStatus(messageID string) (*SMSStatus, error) // 获取提供商ID GetProviderID() string // 获取提供商状态 GetStatus() ProviderStatus // 健康检查 HealthCheck() error}
// EmailProvider 邮件提供商接口
type EmailProvider interface {
// 发送邮件
Send(message *EmailMessage) (*EmailResult, error)
// 获取提供商ID GetProviderID() string // 获取提供商状态 GetStatus() ProviderStatus // 健康检查 HealthCheck() error}
// WeChatProvider 微信提供商接口
type WeChatProvider interface {
// 发送微信消息
Send(message *WeChatMessage) (*WeChatResult, error)
// 获取提供商ID GetProviderID() string // 获取提供商状态 GetStatus() ProviderStatus // 健康检查 HealthCheck() error}
// ProviderStatus 提供商状态
type ProviderStatus int
const (
StatusActive ProviderStatus = iota
StatusInactive
StatusMaintenance
StatusError
)
// NewThirdPartyServiceManager 创建第三方服务管理器
func NewThirdPartyServiceManager(configManager *ConfigManager) *ThirdPartyServiceManager {
manager := &ThirdPartyServiceManager{
smsProviders: make(map[string]SMSProvider),
emailProviders: make(map[string]EmailProvider),
wechatProviders: make(map[string]WeChatProvider),
activeProviders: make(map[string]string),
configManager: configManager,
loadBalancer: NewRoundRobinLoadBalancer(),
healthChecker: NewHealthChecker(),
}
// 初始化活跃提供商 manager.activeProviders["sms"] = configManager.GetDefaultProvider("sms") manager.activeProviders["email"] = configManager.GetDefaultProvider("email") manager.activeProviders["wechat"] = configManager.GetDefaultProvider("wechat") return manager}
### 短信提供商实现 ``go // AliyunSMSProvider 阿里云短信提供商 type AliyunSMSProvider struct { config *AliyunSMSConfig client *AliyunSMSClient status ProviderStatus lastCheck time.Time mutex sync.RWMutex } // TencentSMSProvider 腾讯云短信提供商 type TencentSMSProvider struct { config *TencentSMSConfig client *TencentSMSClient status ProviderStatus lastCheck time.Time mutex sync.RWMutex } // Send 发送短信 func (a *AliyunSMSProvider) Send(message *SMSMessage) (*SMSResult, error) { // 检查提供商状态 if a.GetStatus() != StatusActive { return nil, errors.New("provider is not active") } // 构造请求 request := &AliyunSMSRequest{ PhoneNumbers: strings.Join(message.To, ","), SignName: message.SignName, TemplateCode: message.TemplateCode, TemplateParam: message.TemplateParam, } // 发送请求 response, err := a.client.SendSMS(request) if err != nil { return nil, fmt.Errorf("failed to send sms: %v", err) } // 构造结果 result := &SMSResult{ MessageID: response.BizId, ExternalID: response.RequestId, Status: "sent", Provider: a.GetProviderID(), } return result, nil } // HealthCheck 健康检查 func (a *AliyunSMSProvider) HealthCheck() error { // 发送测试短信 testMessage := &SMSMe