AI Engineering Insights

Embeddings for intent classification: architecture trade-offs

Practical guide to building intent classifiers with embeddings. When shallow classifiers beat fine-tuning, how to handle confidence thresholds, and what actually matters in production.

8 min read · January 04, 2026
Similarity metrics for embeddings

Why almost always cosine and what actually works?

8 min read · December 29, 2025
Tokenizers: production economics cheat-sheet

Compact reference for tokenizer selection, metrics, and failure modes in production LLM systems.

8 min read · December 25, 2025
The metric gap: bridging business outcomes and AI component optimization

Why high component scores often mask system failures. A methodology for using E2E evaluation to prioritize engineering work.

7 min read · December 19, 2025
Reflection vs evaluation: why the Agent-Critic pattern fails without separation of concerns

Architectural separation of reflection (context generation) and evaluation (quality gating) prevents confirmation bias, premature stopping, and infinite loops in multi-agent research systems.

14 min read · December 15, 2025

Production AI systems, evaluation, and architecture