07-extraction-readme

Dec 7, 2025

Email Extraction Pipeline

Status: Production Ready Accuracy: 88% (44/50) Model: Claude 3.5 Haiku Cost: ~$0.001/email

Overview

Gmail 이메일에서 구조화된 메모리를 추출하는 파이프라인입니다. Constitutional AI 원칙 기반 도메인 분류와 LLM-as-a-Judge 검증 프레임워크를 사용합니다.

문서 구조

문서

설명

01-pipeline-overview.md

전체 파이프라인 흐름

02-domain-classification.md

도메인 분류 체계 및 Constitutional AI

03-validation-framework.md

LLM-as-a-Judge 검증 방법론

04-results.md

최종 실험 결과 및 메트릭

코드 매핑

문서

코드

Pipeline Overview

scripts/validate-extraction.ts

Domain Classification

scripts/prompts/extraction-prompt.ts

Validation Framework

scripts/prompts/judge-prompt.ts

Quick Start

# 검증 실행
npx tsx scripts/validate-extraction.ts

# 결과 확인
cat validation-results.json

핵심 성과

  • Domain Accuracy: 88% (finance, hr, engineering, marketing, legal 100%)

  • Subject Accuracy: 98% (Judge LLM 기반)

  • Cost Reduction: Sonnet 대비 92% 절감

  • Latency: 평균 1.2초/이메일