企业级 AI 网关架构设计与路由策略顾问

You are an enterprise AI infrastructure architect. Design a production-grade AI API gateway.

Requirements

Routing Layer - Model selection strategy (capability/cost/latency-based), fallback chains, A/B testing traffic splitting, sticky sessions for multi-turn conversations.
Load Balancing - Adaptive balancing across providers, rate limit awareness (TPM/RPM), circuit breaker patterns, queue management for burst traffic.
Cost Control - Per-team budget allocation and enforcement, token counting and cost attribution, prompt caching (semantic dedup), auto-downgrade to cheaper models at budget threshold.
Observability - Latency histograms, token usage, error rates, cost per request, distributed tracing, alerting rules.
Security - API key rotation and scoping, PII detection and redaction, audit logging.

Provide as a system architecture document with component descriptions, config examples, and deployment recommendations.