-
AI 플랫폼 구축과 모델 개발 사업 - 단계별 감리 점검항목IS & Audit 2025. 12. 7. 12:08
아래 내용은 AI 플랫폼 구축과 모델 개발 사업에 대한 감리 단계를 설계단계 / 구축(종료)단계로 구분하고,
4대 감리영역: 1. 사업관리, 2. 응용(서비스), 3. 데이터, 4. 아키텍처(플랫폼·보안) 별로
점검항목 – 상세 검토항목 – 대상 산출물을 모두 표 형태로 정리한 감리 체크리스트입니다.
AI 모델 사업은 전통 SW 사업과 다른, 다음과 같은 특성을 고려하였습니다.
- 데이터 품질 기반
- 모델 불확실성
- 운영 중 지속 검증 필요
- 보안·접근 통제 중요

Ⅰ. 설계단계
영역 순번 점검항목 상세 검토항목 대상 산출물 사업관리 1 범위 정의서 적정성 - AI 모델 개발 범위 정의의 명확성 (LLM·RAG·Inference 등 포함 여부)
- 데이터 구축 범위(수집·정제·라벨링) 명확성
- 플랫폼 구축 범위(GPU·LLMOps·보안) 구체성• 제안요청서·요구사항정의서
• 범위정의서(Scope Statement)
• WBS(3 Depth 이상)
• 기능정의서(요약·사례추천·쟁점 분석 등)2 일정/마일스톤 수립 - 모델 개발, 데이터 구축, 플랫폼 구축 간 종속성 정의
- 주요 산출물 제출 일정 명시
- 법원 검수 일정 반영 여부• 종합일정표
• Gantt Chart
• Milestone 문서
• 변경관리 계획서3 위험관리 계획 - 모델 성능 리스크 정의(정확도, hallucination 등)
- 데이터 품질 리스크 정의
- GPU 자원 부족·보안위험 정의
- 완화 전략/시나리오 마련• 위험관리계획서
• 리스크 목록(Risk Register)
• 대응전략 문서4 산출물관리 계획 - 설계서, 데이터셋, 모델버전(V0, FT1, FT2 등) 관리방안
- MLflow 등 실험추적 계획
- 형상관리 전략• 형상관리 계획서
• 산출물 목록
• 모델 버전 규칙 문서5 품질관리 및 시험계획 적정성 • 시험 범위 정의(기능·성능·보안·데이터 품질 포함 여부)
• 도메인 특화 KPI 설정(F1, ROUGE, NDCG, 근거정확도 등)
• 테스트 데이터셋 구성 기준(대표성·균형성·난이도)
• 성능 판정 기준(Threshold) 명확성
• UAT(User Acceptance Test) 계획 포함 여부
• 성능저하 대비 재학습(재튜닝) 절차 기술 여부• 품질관리계획서(QA Plan)
• 시험계획서(STP: System Test Plan)
• 모델 성능평가 계획(Model Evaluation Plan)
• 테스트 데이터셋 정의서(검증·검수용)
• UAT 계획서(최종 사용자 참여 시험 계획)
• KPI 정의서(모델 성능 기준 문서)응용(서비스) 1 LLM 기반 모델 설계 - 기반 모델 선택 근거(성능·비용·라이선스)
- 파인튜닝 전략/방식(LoRA·SFT·RLHF) 설계 적정성
- inference 구조 정의• LLM 설계서
• 파인튜닝 전략서
• 토크나이저 확장 문서
• Hyperparameter 표2 RAG 설계 - Retriever-Ranker-Generator 구조 명확성
- Vector DB 구성/선택 근거
- 출력 제약 설계(근거 기반 응답)
- Latency 목표값 정의• RAG 설계서
• Vector DB 설정 문서
• Ranker 모델 설계
• Prompt 구조3 기능 요구사항 설계 - 요약·유사 사례 추천·쟁점 분석 등 기능 흐름 정의
- 성능 지표(KPI) 정의(정확도, F1, NDCG 등)
- LLM 응답 정책(근거제시·안전성) 포함 여부• 기능정의서
• API 정의서
• 설계 시나리오(IPO 모델)4 UX 설계 - 근거표시 규칙(문단, 출처, confidence score)
- 오류·불확실 응답 처리 정책
- 사용자 피드백·검증 기능• UX 설계서(와이어프레임, 화면흐름도, 스토리보드)
• 화면정의서(Screen Spec)
• RAG-UX 매핑 문서(근거 문단/메타데이터 표기 규칙)
• 오류 및 안내 메시지 정책 문서데이터 1 데이터 수집·정제 전략 - 법규정, 문헌, 연구 보고서 등 자료 출처 명확성
- OCR·비정형 처리 기준
- 비식별화·보안 처리 규칙• 데이터 정제 설계서
• 비식별화 규칙문서
• 정규표현식 규칙2 라벨링 설계 - 라벨링 스키마 정의(요약, 매칭 등)
- 품질 검수 프로세스 정의(2인 검증, Kappa 지표 등)
- Annotation guideline• Annotation guideline
• 라벨링 스키마 문서
• 검수 프로세스 정의3 Chunking/Embedding 설계 - chunk 크기(256~1024 tokens) 정의
- overlap 비율 정의
- embedding 모델 및 차원 정의
- 메타데이터 설계• chunking 규칙서
• embedding 설계서
• 메타데이터 JSON 스키마4 데이터 품질 기준 - 노이즈 제거 기준
- 불완전 문장 처리 규칙
- 품질 KPI(정합성, 완전성)• 데이터 전처리 규칙서(정제 규칙, cleaning rule set)
• 문장 분리·불완전 문장 처리 기준 문서
• 품질 검수 기준서(Quality guideline)
• 품질 KPI 정의 문서(정합성, 완전성 수치 기준)
• 데이터 샘플 및 검수 로그아키텍처(플랫폼/보안) 1 인프라 설계(GPU·스토리지) - GPU 타입(A100/H100 등), 메모리 용량
- 학습·추론 자원/환경 분리 여부
- 네트워크·스토리지 구성• 인프라 설계서
• 네트워크 구성도
• GPU 산정 근거 문서2 보안·접근제어 설계 - 인증/인가 체계
- 데이터 암호화(KMS)
- 로그·Audit 체계• 보안설계서
• RBAC 정책
• TLS 설정3 백업/장애대응 설계 - 모델 버전 백업 전략
- Vector DB 백업·스냅샷 정책
- DR 정책• 모델 버전 관리·백업 정책 문서(MLflow Model Registry 등)
• Vector DB(Faiss/Weaviate/Elastic) 백업·스냅샷 규칙서
• DR 구성도(주전산-DR센터 구조, 동기화 주기)
• 서비스 연속성 계획서(BCP/DRP)
• 장애대응 절차서(장애 식별-통지-복구 flow)
• 네트워크·스토리지 복제 구성 문서4 LLMOps 설계 - 모델배포 파이프라인(CI/CD for ML)
- 실험추적(MLflow) 구조
- 모니터링(성능·데이터 드리프트)• 모델 배포 파이프라인 설계 문서(Jenkins/GitHub Actions/K8s Deployment Flow)
• Model Registry 정책(MLflow Model Registry, 버전 관리 규칙)
• 실험관리(Experiment/Run) 저장 구조 정의서
• 모델/데이터 모니터링 설계서
• Serving Cluster 구조도(K8s/Inference Server)
• Observability 도구 연동 설계(Grafana, Prometheus 등)Ⅱ. 구축(종료) 단계
영역 순번 점검항목 상세 검토항목 대상 산출물 사업관리 1 일정 준수 여부 - 계획 대비 모델·데이터·플랫폼 구축 실적
- 지연 사유 관리 체계• 진행일정 vs baseline 일정
• 주간보고·회의록2 산출물 검수 - 설계서 대비 구현물(코드/플랫폼) 정합성
- 변경관리 이행• 개발 산출물
• 설계서/요구사항
• 변경관리 문서3 커뮤니케이션·이슈관리 - 이슈 트래킹 시스템 운영
- 발주기관의 질의·요청 반영 관리• 정기(주/월간) 및 수시 보고서
• 이슈관리대장응용(서비스) 1 모델 개발·학습 결과 검증 - 파인튜닝 로그(학습률·loss curve)
- 성능지표(F1, ROUGE, NDCG)
- 재현성 검증• 학습로그(loss, val-loss)
• 성능지표(F1·ROUGE·NDCG)
• 모델 버전
• MLflow 기록2 RAG 구축 결과 검증 - Retriever/Ranker 연결
- 벡터 검색 정확도·속도
- 근거 문서 인용 정확성• vector index
• embedding 파일
• retrieval 로그
• 검색 성능 보고서3 기능 구현 완성도 - 요약·유사 사례 추천·쟁점 분석 구현상태
- API 안정성·timeout·오류률• 요약/사례추천/쟁점 분석 API
• 테스트케이스
• latency/error 로그4 Hallucination 저감 구현 - 근거제시 기능 정상작동
- Fact-checking 또는 re-rank 루프 구현
- Conservative decoding 적용• 근거제시 결과물
• fact-checker 로그
• re-ranking 결과
• hallucination rate 평가데이터 1 데이터 구축 품질 - 정제된 문서·기록 정합성
- 누락·중복 여부
- 비식별화 검증• 정제된 문서 JSON
• 비식별화 로그
• 품질측정 결과2 라벨링 품질 검증 - 라벨 정확성·일관성
- Inter-annotator agreement(Kappa 값)• 라벨링 결과
• Kappa 지표
• 검수 로그3 임베딩/인덱스 구축 결과 - chunk 생성 규칙 준수
- embedding dimension·quality 검증
- FAISS/HNSW index 품질• chunk·metadata
• embedding vectors
• index 파일
• search latency4 데이터 보안 준수 - 암호화·접근제어 준수 여부
- 로그 기록·모니터링• 암호화 적용 결과물
• 접근통제 정책 및 구현 산출물
• 로그 기록 및 모니터링 산출물아키텍처(플랫폼/보안) 1 GPU/플랫폼 구축 - GPU 클러스터 배포상태
- 컨테이너/쿠버네티스 구성
- 스토리지·네트워크 성능• GPU 상태(nvidia-smi)
• K8s 배포상태
• serving latency 로그2 보안설정 구현 - 접근제어(AD/SSO)
- KMS 기반 암호화
- 로그/Audit 활성화• IAM/RBAC
• TLS 설정
• 암호화 적용 상태
• Audit log3 백업/DR 구축 - 모델·데이터 자동 백업
- 복구 테스트 수행 결과• 백업 스케줄러 로그
• 백업본 파일
• DR 복구 테스트4 LLMOps·모니터링 - 모델 배포 자동화(CI/CD)
- 성능 모니터링(드리프트·latency)
- 알림 시스템• CI/CD pipeline
• MLflow 기록
• 모니터링 대시보드
• 알림 설정참고한 문서는 다음과 같습니다.
NIA, 지능정보기술 감리 실무 가이드, 2023.2
감리의 다음 목적을 달성하기 위해:
➊ 요구사항과 설계·구현의 정합성 확보,
➋ 위험요인 사전 제거,
➌ AI 시스템 특유의 편향·환각·보안·데이터 위험 통제위 점검항목은,
개별 사업의 요구사항과 사업자의 산출물을 사전 검토하여,
점검의 범위와 세부 검토항목, 대상 산출물 등을 조정할 수 있습니다.
2025.12.07.
Horus Hawks
'IS & Audit' 카테고리의 다른 글
AI(LLM Based RAG) 시스템 구축 - KPI & 검증 가이드 (0) 2025.12.07 AI 플랫폼 및 모델 감리 - 핵심 점검 포인트 (0) 2025.12.07 지능정보기술 감리 실무 가이드 핵심 요약 (0) 2025.12.07