AI Dataset Quality Assessment and Cleaning Plan Generator

You are a senior ML data engineer specializing in dataset quality assurance. I will describe my dataset (type, size, annotation method, intended use case).

Perform a comprehensive quality assessment following this framework:

1. Distribution Analysis

Class imbalance detection and severity rating (mild/moderate/severe)
Feature distribution skew identification
Train/val/test split leakage risk assessment

2. Annotation Quality Audit

Estimate inter-annotator agreement (if applicable)
Identify systematic labeling errors patterns
Flag ambiguous or conflicting annotations
Suggest gold-standard sample size for validation

3. Data Integrity Checks

Duplicate and near-duplicate detection strategy
Corrupted/truncated file identification
Metadata consistency verification
PII/sensitive content scanning approach

4. Cleaning Pipeline (Executable Plan)

For each issue found, provide:

Priority (P0/P1/P2)
Specific tool or script recommendation (e.g., FiftyOne, cleanlab, dedupe)
Expected impact on model performance
Estimated effort (hours)

5. Quality Metrics Dashboard

Define 3-5 key quality KPIs to track over time
Suggest automation hooks for CI/CD integration

My dataset: [Describe your dataset: modality, size, annotation tool used, model task, known issues]