07-extraction-04-results
Dec 7, 2025
Experiment Results
최종 성과
Metric | Value |
|---|---|
Overall Accuracy | 88% (44/50) |
Domain Accuracy | 88% (44/50) |
Subject Accuracy | 98% (49/50) |
Avg Latency | 1,200ms |
Cost per Email | ~$0.001 |
도메인별 성능
Domain | Accuracy | Correct/Total |
|---|---|---|
finance | 100% | 8/8 |
hr | 100% | 10/10 |
engineering | 100% | 9/9 |
marketing | 100% | 6/6 |
legal | 100% | 5/5 |
operations | 75% | 6/8 |
general | 50% | 2/4 |
실패 케이스 분석
6개 실패 케이스
# | Expected | Predicted | 원인 |
|---|---|---|---|
1 | operations | engineering | 시스템 배포 → 기술 구현으로 해석 |
2 | operations | engineering | 인프라 작업 → 엔지니어링으로 해석 |
3 | general | hr | 팀 빌딩 이벤트 → HR 활동으로 해석 |
4 | general | operations | 일정 조율 → 운영 프로세스로 해석 |
5 | operations | finance | 비용 관련 운영 → 재무로 해석 |
6 | legal | operations | 컴플라이언스 프로세스 → 운영으로 해석 |
패턴 분석
operations 경계 모호: engineering, finance와 겹침
general 과소 분류: 다른 도메인으로 해석되는 경향
legal vs operations: 컴플라이언스 관련 경계 불명확
진화 과정
Phase 1: Baseline (Sonnet + 문자열 비교)
Accuracy: ~20%
Cost: $0.65/50 emails
Phase 2: Haiku + 임베딩 유사도
Accuracy: 32%
Cost: $0.05/50 emails
개선: 92% 비용 절감
Phase 3: Judge LLM 추가
Accuracy: 66%
개선: Subject 판정 정확도 향상
Phase 4: Judge 프롬프트 개선
Accuracy: 82%
개선: 더 관대한 동등성 규칙
Phase 5: Constitutional AI 적용
Accuracy: 88%
개선: 도메인 분류 정확도 향상
비용 분석
모델별 비용 비교
Model | Cost/50 emails | Accuracy |
|---|---|---|
Sonnet 4.5 | $0.65 | ~85% |
Haiku 3.5 | $0.05 | 88% |
비용 구성
Component | Cost | % |
|---|---|---|
Extraction (Haiku) | $0.04 | 77% |
Judge (Haiku) | $0.008 | 15% |
Embedding | $0.004 | 8% |
Total | $0.052 | 100% |
테스트 데이터셋
총 50개 실제 Gmail 이메일
수동 라벨링: domain, subject
분포:
hr: 10개 (20%)
engineering: 9개 (18%)
finance: 8개 (16%)
operations: 8개 (16%)
marketing: 6개 (12%)
legal: 5개 (10%)
general: 4개 (8%)
다음 단계
단기 개선
operations 경계 케이스 프롬프트 보강
general 분류 기준 명확화
테스트 데이터셋 확장 (100개+)
장기 계획
실시간 추출 파이프라인 구축
피드백 루프로 프롬프트 자동 개선
다국어 지원 (영어, 일어)
재현 방법
관련 파일
scripts/validate-extraction.ts: 메인 검증 스크립트scripts/prompts/extraction-prompt.ts: 추출 프롬프트scripts/prompts/judge-prompt.ts: Judge 프롬프트validation-emails.json: 테스트 데이터셋validation-results.json: 실행 결과