Ops Playbook (中文 + English)¶
1) 目标 / Goal¶
中文: 保障服务稳定可用,确保发布流程可回滚、可监控、可追踪。
English: Keep services reliable and operable with rollback-ready deployment, monitoring, and traceability.
2) 部署优先级 / Deployment Priorities¶
- PostgreSQL + pgvector 稳定性。
- FastAPI 服务健康检查与日志。
- Redis 与 Worker 可用性。
- 前端静态资源发布一致性。
3) 发布流程 / Release Flow¶
- 备份数据库。
- 执行 Alembic 迁移。
- 发布后端。
- 发布前端静态资源。
- 验证 health、auth、chat、runs/events。
- 观察错误率与队列堆积。
4) 回滚策略 / Rollback Strategy¶
- 应用层回滚到上一个稳定版本。
- 数据迁移若不可逆,优先做前向修复。
- 保留发布前后关键指标快照用于比对。
5) 运维监控建议 / Monitoring Suggestions¶
- API 5xx 比例。
- 平均响应时间与 p95。
- run failed 比率。
- worker 任务失败与重试次数。
- embedding 失败率。