07-extraction-03-validation-framework

Dec 7, 2025

Validation Framework

LLM-as-a-Judge 패턴

문제: 문자열 비교의 한계

Ground Truth: "interview panel setup"
Predicted:    "Legal Ops Analyst hiring panel"

문자열 비교: ❌ FAIL (완전히 다름)
의미적 비교: ✅ PASS (같은 이벤트)

해결: Judge LLM

두 텍스트가 의미적으로 동등한지 LLM이 판단

Judge 구조

Input

function generateJudgePrompt(
  groundTruth: string,  // 정답 subject
  predicted: string     // 예측된 subject
):

Output

{
  "equivalent": true,
  "confidence": 0.85,
  "reasoning": "Rule 1 applies: predicted adds specificity to same event"
}

판정 규칙

Rule 1: Added Specificity = EQUIVALENT

"interview panel setup" vs "Legal Ops Analyst hiring panel"
→ EQUIVALENT (구체적 정보 추가)

"prod rollback incident" vs "Search API performance rollback"
→ EQUIVALENT (구체적 정보 추가)

Rule 2: Action vs Content = EQUIVALENT

"code review request" vs "memory indexer refactoring"
→ EQUIVALENT (같은 이메일의 다른 측면)

"requesting approval" vs "budget allocation decision"
→ EQUIVALENT (무엇을 vs 왜)

Rule 3: Temporal Qualifiers = EQUIVALENT

"security training" vs "annual security training"
→ EQUIVALENT (시간 한정자 추가)

"roadmap update" vs "Q1 roadmap update"
→ EQUIVALENT (분기 한정자 추가)

Rule 4: Reordering = EQUIVALENT

"integration sequencing decision" vs "product integration roadmap"
→ EQUIVALENT (같은 개념, 다른 어순)

Rule 5: NOT EQUIVALENT 조건

다음 경우에만 NOT EQUIVALENT:

완전히 다른 주제 (예: "채용" vs "예산")
다른 도메인 (예: "법적 계약" vs "엔지니어링 배포")
같은 이메일을 지칭할 수 없음

Confidence 가이드라인

Confidence	의미	판정
0.9-1.0	명확히 동등 (표현만 다름)	EQUIVALENT
0.7-0.9	동등 (구체성/프레이밍 차이)	EQUIVALENT
0.5-0.7	아마 동등 (약간 애매)	EQUIVALENT
0.3-0.5	애매함, 동등 쪽으로 기울임	EQUIVALENT
0.0-0.3	명확히 다름	NOT EQUIVALENT

핵심: confidence < 0.6이면 EQUIVALENT 쪽으로 판정

구현

scripts/prompts/judge-prompt.ts

export function generateJudgePrompt(
  groundTruth: string,
  predicted: string
): string {
  return `You are evaluating semantic equivalence...

Ground Truth: "${groundTruth}"
Predicted: "${predicted}"

CRITICAL RULES (apply in order):
1. ADDED SPECIFICITY = EQUIVALENT
2. ACTION vs CONTENT = EQUIVALENT
...

Output ONLY valid JSON:
{
  "equivalent": true or false,
  "confidence": 0.0 to 1.0,
  "reasoning": "brief explanation"
}`;
}

임베딩 유사도 (참고용)

Judge와 별개로 임베딩 유사도도 계산:

const gtEmbedding = await generateEmbedding(groundTruthSubject);
const predEmbedding = await generateEmbedding(predictedSubject);
const similarity = cosineSimilarity(gtEmbedding, predEmbedding);

용도: 디버깅 및 분석용 참고 지표 모델: text-embedding-3-small

성능 비교

방식	Subject Accuracy
문자열 비교	~20%
임베딩 유사도 (0.75 threshold)	~32%
Judge LLM (초기)	66%
Judge LLM (개선)	98%

비용

Judge 호출: ~$0.0002/이메일
전체 비용의 ~20%

‹

›