-
법률 RAG 시스템 KPIIS & Audit 2025. 12. 13. 12:29
(@) 법률 RAG 시스템 KPI
법률 RAG 시스템을 안심하고 사용하기 위해서는 다음 세 가지 의문이 해소되어야 합니다. 이에 대한 해답을 정량적 수치로 증명하는 것이 본 평가의 목적입니다.
- 신뢰성 (Reliability): "AI가 없는 판례를 지어내거나(Hallucination), 법리를 왜곡하지 않는가?"
- 정확성 (Accuracy): "검색 결과가 내 사건 쟁점과 정확히 일치하는가?"
- 효용성 (Utility): "실제 업무에 도움이 되는 속도와 편의성을 갖추었는가?"
RAG 평가의 3요소 (The RAG Triad)
RAG에서는 쿼리, 검색된 컨텍스트, 생성된 응답이라는 세 가지 주요 구성 요소를 사용하여 품질을 평가할 수 있습니다. 검색 품질 저하, 잘못된 정보 제공, 관련 없는 답변 등 RAG의 일반적인 실패 원인은 모두 이 세 가지 구성 요소 간의 상호 작용에서 비롯됩니다. RAG 시스템의 이러한 일반적인 실패 유형을 식별하고 근본 원인을 파악하기 위하여 컨텍스트 관련성, 근거성, 응답 관련성으로 구성된 RAG 3 요소를 축으로 한 평가 시스템입니다.
- 컨텍스트 관련성(Context Relevance): 쿼리와 관련된 컨텍스트가 검색되는가?
- 근거성(Groundedness): 컨텍스트(상황; 근거 문서)에 따른 응답이 제공되는가?
- 응답 관련성(Answer Relevance): 응답이 질문과 관련이 있는가?

The RAG 3 Triad: https://www.snowflake.com/en/engineering-blog/eval-guided-optimization-llm-judges-rag-triad/ RAG 시스템 핵심 평가 지표 (KPI)
현대적인 RAG 평가 방법론(RAG Triad of metrics; Ragas, TruLens 등)을 반영하여 최종사용자(법관, 연구관 등)가 시스템을 신뢰하고 사용할 수 있는지를 판단하는 3대 축(정확성·신뢰성, 사용성·효율성, 안전성)으로 구성했습니다.
[평가 KPI 정의서]
법률이라는 도메인 특수성을 고려해 '환각 억제율'과 '근거 표시'를 지표로 관리하는 것은 법률 AI에서 필수적인 접근입니다.
대분류 평가 항목 평가지표 (KPI) 지표 산출 공식 / 정의 합격 기준 (Target) Ⅰ. 정확성 & 신뢰성
(Answers)1. 답변 충실성
(Faithfulness)환각(Hallucination) 없는 답변 비율 
• Nfaithful: 근거 문서(Context) 내 내용만으로 생성된 답변 수
• Ntotal: 전체 평가 문항 수≥ 95%
(필수)2. 답변 정답률
(Accuracy)의미적 유사도
(Semantic Similarity)
Avg ≥ 85% 3. 인용 정확도
(Citation)근거 링크 유효성 
• Lvalid: 클릭 시 올바른 판례/법령으로 이동하며, 해당 내용이 실제 존재하는 링크 수100%
(무결성)Ⅱ. 검색 품질
(Retrieval)4. 검색 적합성
(Context Relevance)Top-K 포함률
(Recall@K)
• R: 실제 정답을 포함하거나 정답 도출에 필요한 관련 문서 집합 (Relevant Documents).
• T_k: 시스템이 검색 결과로 상위 K개로 반환한 문서 집합 (Top-K Documents).
• |R ∩ T_k|: R 집합에 속하는 문서 중, 시스템이 반환한 T_k에 포함된 문서의 개수.Recall@5 ≥ 80% Ⅲ. 사용성
(UX/Performance)5. 체감 응답 속도 TTFT
(Time To First Token)
• 사용자가 '질문' 클릭 후 첫 글자가 화면에 렌더링 될 때까지의 시간≤ 2.5초 6. 답변 거절 능력
(Negative Rejection)모름 응답 정확도 
• DB에 없는 내용을 물었을 때 "알 수 없습니다"라고 올바르게 거절한 비율≥ 90% 7. 사용자 만족도 5점 척도 평가 
• 평가단이 주관적으로 평가한 유용성 점수 평균Avg ≥ 4.0 [KPI 별 측정 방법]
정량, 정성적 지표에 대해 자동 및 수동 평가가 병행됩니다(KPI 평가를 위한 측정지표 상세 정의, Goden Dataset 작성이나 수행 절차 가이드가 필요하시면 메일로 요청바랍니다).
KPI 번호 평가 항목 평가 방식 채점표 포함 여부 비고 (수동 평가 비효율성) 1. 답변 충실성 (환각) 수동 (주관식) 포함 (③ 환각 여부) 답변을 근거와 대조하는 최종 검토는 전문가가 필수. 2. 답변 정답률 (유사도) 자동 (LLM-Eval) 포함 (① 정확성) ① 항목이 정량적 유사도(자동)와 정성적 판단(수동)을 포괄. 3. 인용 정확도 수동 (링크 클릭) 포함 (② 근거 적절성) 사람이 링크를 직접 눌러봐야 100% 검증 가능. 4. 검색 적합성 (Recall@K) 자동 (Python Script) 제외 수백 건의 검색 순위를 사람이 일일이 대조 불가능. 5. 체감 응답 속도 (TTFT) 자동 (Log Analysis) 제외 사람이 스톱워치로 재는 것보다 시스템 로그가 정확함. 6. 답변 거절 능력 자동 (LLM-Eval) 제외 부정 질문 30개에 대한 거절 성공률은 자동 스크립트가 효율적. 7. 사용자 만족도 수동 (5점 척도) 포함 (④ 유용성) 주관적인 UX/효용성은 전문가의 정성 평가가 필수. 2025.12.13.
Horus Hawks(hoyal.kim@gmail.com)
'IS & Audit' 카테고리의 다른 글
법률 온톨로지 및 지식 그래프 구축 방안 (0) 2025.12.07 AI(LLM Based RAG) 시스템 구축 - KPI & 검증 가이드 (0) 2025.12.07 AI 플랫폼 구축과 모델 개발 사업 - 단계별 감리 점검항목 (0) 2025.12.07