-
AI(LLM Based RAG) 시스템 구축 - KPI & 검증 가이드IS & Audit 2025. 12. 7. 13:12
(@) LLM Based RAG 시스템 구축 - KPI & 검증 가이드
이번에는 가상의 "법원 AI 플랫폼 구축 및 모델 개발 사업"을 대상으로,
구축 완료 시점에서 실제 최종사용자(법관·재판연구관·법원 실무자)가 직접 테스트하여 '구축 적정성'을 판단할 수 있는 핵심 평가지표와 검증 가이드를 만들어 보겠습니다.
실제 감리에서 "최종 사용자 관점 평가(User Acceptance Level Metrics)"는 시스템이 설계·개발자 시각이 아니라, 법원 실사용자의 업무 성과에 어떤 영향을 미치는지를 확인하는 핵심 단계이기 때문에 매우 중요합니다.
아래 내용은 감리법인이 실제 UAT(User Acceptance Test) 또는 현장 검증 시 사용하는 수준으로 작성했습니다.

LLM Based RAG 시스템
사용자 관점 핵심 평가지표(KPI) & 검증 가이드
전체 KPI는 ① 모델 품질, ② RAG 품질, ③ 서비스 기능 품질, ④ 데이터 품질, ⑤ 플랫폼·보안·운영품질, ⑥ 확장성과 유지보수성의 6개 카테고리로 구성했습니다.
각 항목은 "평가지표(KPI) → 평가방법(테스트 방법) → 합격기준(판정기준)" 체계로 표현합니다.
Ⅰ. AI 모델 품질 KPI (LLM 자체 성능)
1. 법률 질의응답 정확도
- KPI: 정확성(Accuracy) / F1-score / 법령·판례 근거 참조율
- 평가 방법
- 법관·재판연구관이 실제 질문 100~300문항 투입
- 정답 대비 LLM 응답의 법률적 적정성 평가
- 근거 문단 참조 정확성도 포함
- 합격 기준
- 전체 질의 기준 정답률 ≥ 70%,
- 근거 표시 정확도 ≥ 80%
2. 법률 문서 요약 품질
- KPI: ROUGE-L, 일관성(Coherence), 누락 없이 핵심 포함 여부
- 평가 방법
- 판결문 50~100건 투입하여
➔ 요약의 정확성 및 쟁점 요지 반영율 검증
- 판결문 50~100건 투입하여
- 합격 기준
- ROUGE-L ≥ 0.65
- 판사·연구관 평가에서 "주요 쟁점 누락 없음" 90% 이상
3. 쟁점 분석・검토보고서 생성 품질
- KPI: 논리적 구조, 쟁점 식별 정확도, 법리 전개 일치성
- 평가 방법
- 실무자가 동일 사건 요약/쟁점 분석 요청 후➔ 쟁점 자동 추출 정확성 평가
- 합격 기준
- 실제 쟁점 대비 자동 탐지 정확도 ≥ 60%
- 보고서 자동생성 시 구조 오류 없음
Ⅱ. RAG 품질 KPI (검색·근거제시 품질)
4. 검색 정확도(NDCG·Recall)
- KPI: NDCG@5, Recall@5
- 평가 방법
- 동일 쿼리에 대해 기존 판례 검색 시스템과 비교 검증
- 합격 기준
- NDCG@5 ≥ 0.75
- Recall@5 ≥ 0.70
5. 근거 문단 매칭 정확도
- KPI: RAG 근거 문단 적합률
- 평가 방법
- 법관·검토관이 자동 추출 근거 문단의 적정성 수동 평가
- 합격 기준
- 적절한 근거 문단 비율 ≥ 80%
6. 환각(Hallucination) 억제률
- KPI: Fact Error Rate / Unsupported Claim Rate
- 평가 방법
- 100문항 답변을 근거 대비 검증
- 합격 기준
- 명백한 환각 비율 ≤ 5%
- 근거 미참조 응답 ≤ 10%
Ⅲ. 서비스 기능 품질 KPI (실제 업무 기능 중심)
7. 법률 검색·리서치 기능 사용성
- KPI: 검색 응답시간 / 검색 결과 신뢰도 / UI 접근성
- 평가 방법
- 사용자 30명 이상 시나리오 실행
- 시간계측 및 설문 병행
- 합격 기준
- 응답시간 ≤ 4초
- "만족/매우만족" 응답 80% 이상
8. 유사 판례 추천 품질
- KPI: 추천 판례의 적절성(법관 평가), 유사도 Score 일관성
- 평가 방법
- 실제 사건 50건 기준 추천 결과 평가
- 합격 기준
- 판례 적절성 평가 평균 ≥ 4점/5점
9. UI/UX 품질
- KPI: 근거제시 가독성 / 오류 메시지 명확성 / 사용자 흐름 완결성
- 평가 방법
- 시나리오 테스트 및 사용자 설문
- 합격 기준
- UX 만족도 ≥ 80%
- 사용자 오류율 ≤ 5%
Ⅳ. 데이터 품질 KPI
10. 데이터 정합성·완전성
- KPI: 정합성 ≥ 98%, 완전성 ≥ 97%
- 평가 방법
- 무작위 샘플링 1,000건 검사
- 합격 기준
- 오류율 ≤ 2%
11. 라벨링 품질
- KPI: inter-annotator agreement(Kappa 값)
- 평가 방법
- 2인 이상 라벨링 비교
- 합격 기준
- Kappa ≥ 0.75
Ⅴ. 플랫폼·보안·운영 품질 KPI
12. 시스템 안정성
- KPI: 장애 건수 / 가용성(Availability)
- 평가 방법
- 운영 1개월 기준 가용성 로그 분석
- 합격 기준
- Availability ≥ 99.5%
13. 보안 준수
- KPI: 접근통제 오류율, 비인가 접근 시도 탐지율
- 평가 방법
- 계정 권한 부여·차단 테스트
- 합격 기준
- 비인가 접근 모두 차단 / Audit Log 정상기록
14. LLMOps 운영성
- KPI: 배포 성공률 / 실험추적 완전성 / 모니터링 알림정확도
- 평가 방법
- CI/CD 실행 테스트
- MLflow registry 점검
- 합격 기준
- 배포 성공률 ≥ 95%
- 실험추적 누락 없음
- 드리프트 감지 정상 작동
Ⅵ. 확장성·유지보수성 KPI
15. 모델 확장 용이성
- KPI: 신규 모델 추가 시 배포 작업시간
- 평가 방법
- 신규 모델/LoRA 적용 시나리오로 재배포 테스트
- 합격 기준
- 신규 모델 반영 ≤ 30분 이내
16. 외부 연계 확장성
- KPI: 외부 API/내부 시스템 연동 기능성
- 평가 방법
- 외부 법률 DB 연동 테스트
- 합격 기준
- 연동 오류 없음
✅ KPI Checklist
(법원용 LLM Based RAG 시스템에 대한 사용자 관점 핵심 평가지표)
분류 평가항목 평가지표(KPI) 평가 방법 합격 기준 Ⅰ. AI 모델 품질 (LLM 성능) 1. 법률 질의응답 정확도 정확률, F1, 근거 참조율 법관·연구관 질의 100~300문항 테스트 정확률 ≥ 70%, 근거표시 ≥ 80% 2. 법률 문서 요약 품질 ROUGE-L, 일관성 판결문 50~100건 요약 비교 ROUGE-L ≥ 0.65, 쟁점누락 無 90% 3. 쟁점 분석·보고서 품질 쟁점 탐지율, 논리성 동일 사건 30~50건 테스트 자동 쟁점정확도 ≥ 60%, 구조 오류 無 Ⅱ. RAG 품질 4. 검색 정확도 NDCG@5, Recall@5 기존 검색시스템 대비 비교 NDCG@5 ≥ 0.75, Recall@5 ≥ 0.70 5. 근거 문단 정확도 근거 적합률 근거 문단 수동 평가 적합률 ≥ 80% 6. 환각 억제율 Fact Error Rate 100문항 검증 환각 ≤ 5%, 근거미참조 ≤ 10% Ⅲ. 서비스 기능 품질 7. 법률 검색/리서치 사용성 응답시간, UI 접근성 사용자 테스트 30명 응답 ≤ 4초, 만족도 ≥ 80% 8. 유사 판례 추천 품질 적절성 평가 사건 50건 테스트 평균 ≥ 4.0/5.0 9. UI/UX 품질 근거제시, 경고메시지, 흐름 시나리오 테스트 및 설문 UX 만족도 ≥ 80%, 오류율 ≤ 5% Ⅳ. 데이터 품질 10. 데이터 정합성·완전성 정합성·완전성 1,000건 샘플링 점검 정합성 ≥ 98%, 완전성 ≥ 97% 11. 라벨링 품질 Kappa 값 2인 라벨 비교 Kappa ≥ 0.75 Ⅴ. 플랫폼·보안·운영 품질 12. 시스템 안정성 Availability 운영 로그 1개월 분석 ≥ 99.5% 13. 보안 준수 접근통제·Audit Log 권한·로그 테스트 비인가 접근 차단, 로그 정상기록 14. LLMOps 운영성 배포성공률, 실험추적, 드리프트 CI/CD, MLflow 점검 배포 ≥ 95%, 추적누락 無, 드리프트 정상탐지 Ⅵ. 확장성·유지보수성 15. 모델 확장용이성 신규 모델 적용시간 신규 LoRA/모델 배포 테스트 ≤ 30분 16. 외부 연계 확장성 연동 기능성 외부 DB/API 연동 테스트 오류 無 2025.12.07.
Horus Hawks'IS & Audit' 카테고리의 다른 글
법률 온톨로지 및 지식 그래프 구축 방안 (0) 2025.12.07 AI 플랫폼 구축과 모델 개발 사업 - 단계별 감리 점검항목 (0) 2025.12.07 AI 플랫폼 및 모델 감리 - 핵심 점검 포인트 (0) 2025.12.07