07-extraction-04-results

Dec 7, 2025

Experiment Results

최종 성과

Metric

Value

Overall Accuracy

88% (44/50)

Domain Accuracy

88% (44/50)

Subject Accuracy

98% (49/50)

Avg Latency

1,200ms

Cost per Email

~$0.001

도메인별 성능

Domain

Accuracy

Correct/Total

finance

100%

8/8

hr

100%

10/10

engineering

100%

9/9

marketing

100%

6/6

legal

100%

5/5

operations

75%

6/8

general

50%

2/4

실패 케이스 분석

6개 실패 케이스

#

Expected

Predicted

원인

1

operations

engineering

시스템 배포 → 기술 구현으로 해석

2

operations

engineering

인프라 작업 → 엔지니어링으로 해석

3

general

hr

팀 빌딩 이벤트 → HR 활동으로 해석

4

general

operations

일정 조율 → 운영 프로세스로 해석

5

operations

finance

비용 관련 운영 → 재무로 해석

6

legal

operations

컴플라이언스 프로세스 → 운영으로 해석

패턴 분석

  1. operations 경계 모호: engineering, finance와 겹침

  2. general 과소 분류: 다른 도메인으로 해석되는 경향

  3. legal vs operations: 컴플라이언스 관련 경계 불명확

진화 과정

Phase 1: Baseline (Sonnet + 문자열 비교)

  • Accuracy: ~20%

  • Cost: $0.65/50 emails

Phase 2: Haiku + 임베딩 유사도

  • Accuracy: 32%

  • Cost: $0.05/50 emails

  • 개선: 92% 비용 절감

Phase 3: Judge LLM 추가

  • Accuracy: 66%

  • 개선: Subject 판정 정확도 향상

Phase 4: Judge 프롬프트 개선

  • Accuracy: 82%

  • 개선: 더 관대한 동등성 규칙

Phase 5: Constitutional AI 적용

  • Accuracy: 88%

  • 개선: 도메인 분류 정확도 향상

비용 분석

모델별 비용 비교

Model

Cost/50 emails

Accuracy

Sonnet 4.5

$0.65

~85%

Haiku 3.5

$0.05

88%

비용 구성

Component

Cost

%

Extraction (Haiku)

$0.04

77%

Judge (Haiku)

$0.008

15%

Embedding

$0.004

8%

Total

$0.052

100%

테스트 데이터셋

  • 총 50개 실제 Gmail 이메일

  • 수동 라벨링: domain, subject

  • 분포:

    • hr: 10개 (20%)

    • engineering: 9개 (18%)

    • finance: 8개 (16%)

    • operations: 8개 (16%)

    • marketing: 6개 (12%)

    • legal: 5개 (10%)

    • general: 4개 (8%)

다음 단계

단기 개선

  1. operations 경계 케이스 프롬프트 보강

  2. general 분류 기준 명확화

  3. 테스트 데이터셋 확장 (100개+)

장기 계획

  1. 실시간 추출 파이프라인 구축

  2. 피드백 루프로 프롬프트 자동 개선

  3. 다국어 지원 (영어, 일어)

재현 방법

# 검증 실행
npx tsx scripts/validate-extraction.ts

# 결과 확인
cat validation-results.json | jq '.accuracy'

관련 파일

  • scripts/validate-extraction.ts: 메인 검증 스크립트

  • scripts/prompts/extraction-prompt.ts: 추출 프롬프트

  • scripts/prompts/judge-prompt.ts: Judge 프롬프트

  • validation-emails.json: 테스트 데이터셋

  • validation-results.json: 실행 결과