07-extraction-04-results

Dec 7, 2025

Experiment Results

최종 성과

Metric	Value
Overall Accuracy	88% (44/50)
Domain Accuracy	88% (44/50)
Subject Accuracy	98% (49/50)
Avg Latency	1,200ms
Cost per Email	~$0.001

도메인별 성능

Domain	Accuracy	Correct/Total
finance	100%	8/8
hr	100%	10/10
engineering	100%	9/9
marketing	100%	6/6
legal	100%	5/5
operations	75%	6/8
general	50%	2/4

실패 케이스 분석

6개 실패 케이스

#	Expected	Predicted	원인
1	operations	engineering	시스템 배포 → 기술 구현으로 해석
2	operations	engineering	인프라 작업 → 엔지니어링으로 해석
3	general	hr	팀 빌딩 이벤트 → HR 활동으로 해석
4	general	operations	일정 조율 → 운영 프로세스로 해석
5	operations	finance	비용 관련 운영 → 재무로 해석
6	legal	operations	컴플라이언스 프로세스 → 운영으로 해석

패턴 분석

operations 경계 모호: engineering, finance와 겹침
general 과소 분류: 다른 도메인으로 해석되는 경향
legal vs operations: 컴플라이언스 관련 경계 불명확

진화 과정

Phase 1: Baseline (Sonnet + 문자열 비교)

Accuracy: ~20%
Cost: $0.65/50 emails

Phase 2: Haiku + 임베딩 유사도

Accuracy: 32%
Cost: $0.05/50 emails
개선: 92% 비용 절감

Phase 3: Judge LLM 추가

Accuracy: 66%
개선: Subject 판정 정확도 향상

Phase 4: Judge 프롬프트 개선

Accuracy: 82%
개선: 더 관대한 동등성 규칙

Phase 5: Constitutional AI 적용

Accuracy: 88%
개선: 도메인 분류 정확도 향상

비용 분석

모델별 비용 비교

Model	Cost/50 emails	Accuracy
Sonnet 4.5	$0.65	~85%
Haiku 3.5	$0.05	88%

비용 구성

Component	Cost	%
Extraction (Haiku)	$0.04	77%
Judge (Haiku)	$0.008	15%
Embedding	$0.004	8%
Total	$0.052	100%

테스트 데이터셋

총 50개 실제 Gmail 이메일
수동 라벨링: domain, subject
분포:
- hr: 10개 (20%)
- engineering: 9개 (18%)
- finance: 8개 (16%)
- operations: 8개 (16%)
- marketing: 6개 (12%)
- legal: 5개 (10%)
- general: 4개 (8%)

다음 단계

단기 개선

operations 경계 케이스 프롬프트 보강
general 분류 기준 명확화
테스트 데이터셋 확장 (100개+)

장기 계획

실시간 추출 파이프라인 구축
피드백 루프로 프롬프트 자동 개선
다국어 지원 (영어, 일어)

재현 방법

# 검증 실행
npx tsx scripts/validate-extraction.ts

# 결과 확인
cat validation-results.json | jq '.accuracy'

07-extraction-04-results

Experiment Results

최종 성과

도메인별 성능

실패 케이스 분석

6개 실패 케이스

패턴 분석

진화 과정

Phase 1: Baseline (Sonnet + 문자열 비교)

Phase 2: Haiku + 임베딩 유사도

Phase 3: Judge LLM 추가

Phase 4: Judge 프롬프트 개선

Phase 5: Constitutional AI 적용

비용 분석

모델별 비용 비교

비용 구성

테스트 데이터셋

다음 단계

단기 개선

장기 계획

재현 방법

관련 파일