06-consolidation-experiment-guide
Dec 7, 2025
Consolidation Experiment Guide
Phase 3.3 검증을 위한 실험 프레임워크
Overview
이 문서는 Decision Tree Logic이 올바르게 작동하는지 검증하기 위한 실험 방법론을 정의합니다.
핵심 아이디어: 정답이 정해진 테스트 케이스로 시스템을 검증
1. 실험 목표
검증하려는 것
결정 정확도: SKIP/UPDATE/CREATE 결정이 올바른가?
Threshold 적절성: 0.95/0.80/0.50 기준값이 적절한가?
Factor 가중치: content 50%, people 15% 등이 적절한가?
경계 안정성: 경계 근처(예: 0.79 vs 0.81)에서 합리적인가?
2. 데이터셋 구조
2.1 파일 구조
2.2 테스트 케이스 스키마
2.3 케이스 분포
Category | Easy | Medium | Hard | Edge | Total |
|---|---|---|---|---|---|
SKIP | 5 | 5 | 5 | 5 | 20 |
UPDATE | 5 | 5 | 5 | 5 | 20 |
CREATE | 5 | 5 | 5 | 5 | 20 |
CREATE+LINK | 5 | 5 | 5 | 5 | 20 |
Total | 20 | 20 | 20 | 20 | 80 |
3. 테스트 시나리오
3.1 SKIP 시나리오
ID | 시나리오 | 특징 | 난이도 |
|---|---|---|---|
SKIP_001 | 포워드 이메일 | threadId 다름 | Easy |
SKIP_002 | CC 추가 포워드 | 수신자 추가됨 | Easy |
SKIP_003 | 인용 회신 ("네 알겠습니다") | 원본 인용 포함 | Medium |
SKIP_004 | 같은 내용 다른 말투 | 패러프레이징 | Hard |
SKIP_005 | 경계 케이스 (0.96) | SKIP 경계 | Edge |
3.2 UPDATE 시나리오
ID | 시나리오 | 특징 | 난이도 |
|---|---|---|---|
UPDATE_001 | 예산 변경 | 금액만 변경 | Easy |
UPDATE_002 | 미팅 시간 변경 | 시간만 변경 | Easy |
UPDATE_003 | 프로젝트 범위 확대 | 부분 변경 | Medium |
UPDATE_004 | 여러 필드 동시 변경 | 복합 변경 | Hard |
UPDATE_005 | 경계 케이스 (0.81) | UPDATE 경계 | Edge |
3.3 CREATE 시나리오
ID | 시나리오 | 특징 | 난이도 |
|---|---|---|---|
CREATE_001 | 완전히 새로운 주제 | 유사 메모리 없음 | Easy |
CREATE_002 | 동명이인 | 같은 이름 다른 사람 | Medium |
CREATE_003 | 같은 키워드 다른 맥락 | 키워드 겹침 | Hard |
CREATE_004 | 프로젝트명 충돌 | 같은 프로젝트명 | Hard |
3.4 CREATE+LINK 시나리오
ID | 시나리오 | 특징 | 난이도 |
|---|---|---|---|
LINK_001 | Q1 → Q2 연결 | 분기별 프로젝트 | Easy |
LINK_002 | 후속 결정 | 이전 결정 참조 | Medium |
LINK_003 | 경계 케이스 (0.51) | RELATED 경계 | Edge |
4. 실험 설정
4.1 고정 변수 (Constants)
4.2 조작 변수 (Variables)
5. 실험 프로토콜
5.1 실행 단계
5.2 실험 config 예시
6. 평가 지표
6.1 1차 지표: 결정 정확도
6.2 2차 지표: 경계 안정성
6.3 3차 지표: Factor 영향도
7. 결과 시각화
7.1 정확도 대시보드
7.2 Confusion Matrix
7.3 실패 케이스 분석
8. UI 페이지 구조
/dashboard/exp
페이지별 기능
페이지 | 기능 |
|---|---|
메인 | 최근 실험 현황, Quick Actions |
Datasets | 데이터셋 버전 관리, 케이스 조회 |
Runs | 실험 실행, 설정 조절 |
결과 상세 | 정확도, Confusion Matrix, 실패 분석 |
Compare | 설정 변경 효과 비교 |
Playground | 단일 케이스 즉석 테스트 |
9. 다음 단계
Phase 1: 데이터셋 생성
v1 데이터셋 80개 케이스 작성
각 케이스 embedding 생성
Phase 2: 실험 인프라
실험 러너 스크립트
결과 저장/분석 로직
Phase 3: UI 구현
/exp 메인 대시보드
Playground 페이지
Phase 4: 반복 실험
Baseline 실험 실행
Threshold/Weight 튜닝
최적 설정 도출
참고
Decision Tree Logic
Similarity Types