07-extraction-02-domain-classification

Dec 7, 2025

Domain Classification

도메인 분류 체계

Domain

설명

예시

finance

예산, 비용, 재무 결정

예산 승인, 비용 보고

hr

채용, 교육, 인사

면접 일정, 교육 공지

engineering

개발, 배포, 기술

코드 리뷰, 장애 대응

marketing

마케팅, 캠페인, 브랜드

캠페인 런칭, 성과 보고

legal

계약, 법률, 컴플라이언스

계약 검토, 정책 변경

operations

운영, 물류, 프로세스

시스템 점검, 프로세스 개선

general

위 카테고리에 해당 없음

일반 공지, 인사말

Constitutional AI 접근

문제: Test Contamination

기존 접근 (잘못된 방식):

예시: "Security training rollout" hr
예시: "Budget allocation" finance

→ Ground Truth 예시를 직접 프롬프트에 넣으면 데이터 누수 발생

해결: 원칙 기반 분류

테스트 데이터 없이 일반화된 원칙만으로 분류:

6가지 Constitutional Principles

Principle 1: Primary Action Over Context

핵심: WHAT(무엇을 하는가)으로 분류, WHO/WHERE는 무시

교육 프로그램 공지 hr (교육 활동)
  언급된 부서로 분류하지 않음

예산 배분 결정 finance (재무 결정)
  예산 받는 팀으로 분류하지 않음

어떤 부서든 채용 hr (채용 활동)
  채용하는 부서로 분류하지 않음

Principle 2: System Content Over Implementation

핵심: 시스템 구현/배포는 시스템의 목적으로 분류

재무 시스템 배포 finance (시스템 목적)
  operations (배포 활동)으로 분류하지 않음

HR 포털 업데이트 hr (시스템 목적)
  engineering으로 분류하지 않음

Principle 3: Context Keyword Immunity

핵심: 맥락 키워드에 속지 않음

"마케팅팀 예산 승인" finance
  "마케팅" 키워드 때문에 marketing으로 분류하지 않음

"엔지니어링 채용 면접" hr
  "엔지니어링" 키워드 때문에 engineering으로 분류하지 않음

Principle 4: Boundary Disambiguation

핵심: 애매한 경우 Primary Action 우선

상황

분류

이유

교육 예산

finance

예산 결정이 primary

채용 비용 보고

finance

비용 보고가 primary

마케팅 계약 검토

legal

계약 검토가 primary

Principle 5: "general" Category Definition

핵심: general은 진정으로 해당 없을 때만

다음에만 general 사용:

  • 순수 인사말/감사 메시지

  • 여러 도메인에 균등하게 해당

  • 어떤 도메인에도 맞지 않는 잡담

Principle 6: Focus Over Everything

핵심: 충돌 시 Primary Action이 항상 우선

우선순위:

  1. Primary Action (무엇을 하는가)

  2. System Purpose (Principle 2 해당시)

  3. Context (무시)

프롬프트 구조

scripts/prompts/extraction-prompt.ts
export const EXTRACTION_PROMPT = `
You are an expert at analyzing email content...

=== CONSTITUTIONAL PRINCIPLES ===

**PRINCIPLE 1: Primary Action Over Context**
...

**PRINCIPLE 6: Focus Over Everything**
...

=== OUTPUT FORMAT ===
{
  "domain": "...",
  "subject": "...",
  "action": "..."
}
`;

성능

Domain

Accuracy

Cases

finance

100%

8/8

hr

100%

10/10

engineering

100%

9/9

marketing

100%

6/6

legal

100%

5/5

operations

75%

6/8

general

50%

2/4

Overall

88%

44/50

개선 방향

  1. operations vs engineering 구분: 시스템 배포 관련 케이스 명확화

  2. general 최소화: 더 명확한 분류 기준 필요