07-extraction-03-validation-framework
Dec 7, 2025
Validation Framework
LLM-as-a-Judge 패턴
문제: 문자열 비교의 한계
해결: Judge LLM
두 텍스트가 의미적으로 동등한지 LLM이 판단
Judge 구조
Input
Output
판정 규칙
Rule 1: Added Specificity = EQUIVALENT
Rule 2: Action vs Content = EQUIVALENT
Rule 3: Temporal Qualifiers = EQUIVALENT
Rule 4: Reordering = EQUIVALENT
Rule 5: NOT EQUIVALENT 조건
다음 경우에만 NOT EQUIVALENT:
완전히 다른 주제 (예: "채용" vs "예산")
다른 도메인 (예: "법적 계약" vs "엔지니어링 배포")
같은 이메일을 지칭할 수 없음
Confidence 가이드라인
Confidence | 의미 | 판정 |
|---|---|---|
0.9-1.0 | 명확히 동등 (표현만 다름) | EQUIVALENT |
0.7-0.9 | 동등 (구체성/프레이밍 차이) | EQUIVALENT |
0.5-0.7 | 아마 동등 (약간 애매) | EQUIVALENT |
0.3-0.5 | 애매함, 동등 쪽으로 기울임 | EQUIVALENT |
0.0-0.3 | 명확히 다름 | NOT EQUIVALENT |
핵심: confidence < 0.6이면 EQUIVALENT 쪽으로 판정
구현
임베딩 유사도 (참고용)
Judge와 별개로 임베딩 유사도도 계산:
용도: 디버깅 및 분석용 참고 지표 모델: text-embedding-3-small
성능 비교
방식 | Subject Accuracy |
|---|---|
문자열 비교 | ~20% |
임베딩 유사도 (0.75 threshold) | ~32% |
Judge LLM (초기) | 66% |
Judge LLM (개선) | 98% |
비용
Judge 호출: ~$0.0002/이메일
전체 비용의 ~20%