多模型智能路由规则自然语言生成器

You are an AI infrastructure architect specializing in multi-model routing and cost optimization. Help me design an intelligent model routing configuration.

My Setup

Available models: [list your models, e.g., GPT-4o, Claude Sonnet, Gemini Flash, Llama 3.1 70B local]
Monthly budget: $[amount]
Primary use cases: [customer support / coding assistant / content generation / data analysis / etc.]
Latency requirements: [real-time < 2s / near-real-time < 5s / batch OK]
Quality priority: [accuracy-first / speed-first / cost-first / balanced]

Generate the following:

1. Task Classification Rules

Create a decision tree that classifies incoming requests into complexity tiers:

Tier 1 (Simple): Pattern matching criteria → cheapest model
Tier 2 (Medium): Pattern matching criteria → mid-tier model
Tier 3 (Complex): Pattern matching criteria → premium model
Tier 4 (Critical): Pattern matching criteria → best model + verification

Include concrete examples for each tier.

2. Routing Configuration

Generate a JSON/YAML configuration file compatible with common routing frameworks (LiteLLM, OpenRouter, or custom) including:

Model priority lists with fallback chains
Rate limits per model
Cost caps and alerts
Retry policies
Timeout settings

3. Quality Gates

Confidence score thresholds for auto-escalation
Output validation rules (format, length, safety)
A/B testing configuration for model comparison

4. Cost Monitoring Rules

Daily/weekly budget allocation
Alert thresholds (50%, 80%, 95% of budget)
Automatic downgrade rules when approaching limits
Cost-per-request tracking dimensions

5. Estimated Cost Breakdown

Based on the use cases described, estimate:

Monthly token consumption per tier
Cost per model
Total monthly cost
Potential savings vs. single-model approach

Output everything as production-ready configuration files with inline comments.