AI 평가: 왜 이분법 안전성은 실패하는가? 새로운 대안 공개

오늘날의 AI는 유용해야 하지만 무모해서는 안 되고, 개방적이되 분별력이 있어야 하며, 빠르되 윤리적 기준을 희생해서는 안 됩니다. 그러나 기존의 이분법적 평가 방식, “안전함 vs 위험함”으로는 이러한 복잡한 요구를 제대로 포착할 수 없습니다.
핵심 정리
- AI 평가는 “답하지 않는 판단”을 보상해야 한다.
- 삼분류 윤리 추론은 1(윤리 추론) / 0.5(기계적 안전) / 0(위험)을 분리한다.
- Appen의 AI 평가 연구는 IRR 기반 휴먼 인 더 루프(Human-in-the-loop) 신뢰성을 확보했다.
- 47k+ 응답 분석으로 모델별 윤리 설명 능력 차이를 확인했다.
- 이 방식은 레드팀·정책·UX·튜닝을 위한 평가 지표를 제공한다.
왜 기존의 “안전 vs 위험” 평가는 실패하는가?
AI는 ‘정답 맞히기’가 아니라 ‘언제 멈춰야 하는가’를 배워야 합니다.
기존 평가 방식은 신중한 거절(thoughtful refusal)을 오히려 감점하고, 불확실성을 실패로 간주합니다. 그러나 실제 사용자 보호 UX에서 가장 좋은 답은 종종 다음과 같습니다. “이 요청은 윤리적으로 대응할 수 없습니다. 그 이유는 다음과 같습니다.” 이런 맥락적 근거, 위험 경고, 정책적 이유 설명이 평가 대상에 포함돼야 합니다.
삼분류 윤리 추론은 무엇이며 어떻게 작동하는가?
Appen 연구팀은 멀티모달 레드팀 실험 결과를 기반으로 0/0.5/1 윤리 점수 체계를 제안했습니다.

이 윤리 점수 체계를 기반으로 다음과 같은 대규모 적대적 프롬프팅 연구를 수행했습니다.
- 726개 공격적 프롬프트
- 범주: 불법 행위, 허위정보, 비윤리적 행동 유도
- 입력: 텍스트 + 텍스트–이미지
- 3000개의 LLM 응답을 인간 평가자가 유해성 기준으로 평가
- AAAI 2026 Workshop & EurIPS 2025 Workshop 채택
- NeurIPS 발표 예정
이는 기존 OpenAI 레드티밍, 구글 DeepMind Safety, Anthropic Constitutional AI 흐름과도 연결됩니다.
휴먼 인 더 루프 방식의 AI 평가 시스템
서열형 판단을 검증하기 위해 다음 신뢰도 지표를 활용했습니다.
- Krippendorff’s Alpha (ordinal) ≈ 0.65
- Gwet’s AC1 (가중치 적용) ≈ 0.67
- 가중 Cohen’s κ (평균 쌍대 비교) ≈ 0.66
- ICC(2,k) ≈ 0.97
이는 인간 평가자가 신중한 윤리적 절제(1), 기계적 거절(0.5), 명백한 위험 응답(0)을 안정적으로 구분할 수 있음을 보여줍니다. 즉, 이 방식은 확장 가능한 휴먼 인 더 루프 AI 평가에 적합합니다.
초기 데이터 분석은 무엇을 보여줬는가?
Appen은 47,408개 LLM 응답을 정량 분석했습니다. 결과는 다음과 같습니다.
- 모델 간 윤리적 설명 능력(1점 비율) 편차가 크다.
- 일부 모델은 형식적 안전(0.5) 편향을 보인다.
- 절제지수 R₍restraint₎ = P(0.5) − P(0) 로 “유해성 대신 조심을 선택하는 경향”을 측정할 수 있다.
- 멀티모달 입력에서 윤리 추론이 약화하는 모델이 있었다.
즉, 삼분류 AI 평가는 인공지능이 ‘안전한가’뿐 아니라 ‘어떻게 안전한가’를 측정합니다.
새로운 AI 평가는 콘텐츠 안전성·레드팀에 어떤 변화를 만드는가?
- 책임 있는 절제를 보상함으로써 윤리적 근거를 갖춘 거절에 최고 점수 부여합니다.
- 기계적 안전을 신호로 활용하여 0.5점은 개선이 필요한 영역을 드러냅니다.
- 정책 설계·안전 튜닝에 중요 데이터를 생성합니다.
- 중요한 불일치 구간 노출함으로써 인간 평가자 간 의견 차이가 정책·모델 설계에 핵심 단서가 됩니다.
이는 ACL 2025에서 제시된 “ACL 2025: LLM의 미래를 바꿀 5가지 트렌드”의 연구와도 일치합니다.
AI 평가는 실제로 어떻게 활용되고 있는가?
- 차세대 벤치마킹과 인간-AI 평가: 서열형 인간 평가와 신뢰도 지표 결합을 통해 더욱 세분화된 차세대 벤치마킹 시스템을 구축했습니다.
- 범위 외 주제에 대한 레드팀 테스트: “이유 있는 거절”과 “무조건 거절”을 구분해 UX·신뢰도를 개선합니다.
확장 가능한 평가 파이프라인 구축 방법
- 데이터: 적대적 프롬프트 + 일반 태스크 혼합
- 프로세스: 휴먼 인 더 루프, 골든셋, 지속적 평가자 보정
- 지표: 평균 점수, R₍restraint₎, 일관성, IRR, 모달리티별 분석
Appen의 AI 평가 솔루션
Appen은 단순한 안전/위험 체크를 넘어, 윤리적 판단력 기반 평가 지표를 구축하도록 지원합니다. 정책, 레드팀, 컴플라이언스, 모델 튜닝을 위한 측정 가능한 AI 평가 시스템을 제공합니다. 지금 바로 상담받아보세요!
FAQs
Q1. AI 평가에 있어서 왜 “안전/위험” 이분법은 충분하지 않은가?
그것은 윤리적 사고를 1비트로 압축하며, 신중한 거절을 감점 처리하고 불확실성을 실패로 간주하기 때문입니다.
Q2. 삼분류 윤리 추론 평가가 무엇을 바꾸는가?
거절의 질과 원인 설명을 정량화하며, “왜 거절해야 하는지”라는 판단 능력을 측정합니다.
Q3. 휴먼 인 더 루프는 AI 구축에 꼭 필요한가?
네. Krippendorff’s Alpha, AC1, κ, ICC가 높은 일관성을 보였으므로, 휴먼 인 더 루프를 통해 인간은 윤리적 절제를 안정적으로 구분할 수 있습니다.
Q4. 멀티모달 프롬프트에서 윤리적 문제가 커질 수 있는 이유는?
이미지를 포함하면 윤리적 추론이 약화되는 모델이 있어, 텍스트만 사용하는 AI 대비 위험 노출이 증가합니다.
Q5. 기업은 AI 평가를 어떻게 적용할 수 있는가?
- 콘텐츠 안전 정책
- 레드팀 시뮬레이션
- 안전성 파인튜닝
- 엔터프라이즈 대화형 에이전트
Q6. AI 평가가 UX에는 어떤 도움이 되나?
- 단순 거절이 아닌 설명 기반 거절 → 사용자 신뢰 상승
- 위험 상황에서 정책·법 기준을 공유 → 컴플라이언스 강화
Q7. Appen이 제공하는 AI 평가 솔루션은?
- adversarial 데이터 생성
- 휴먼 인 더 루프 운영
- IRR 기준 가이드
- 안전성 벤치마크 구축
AI 평가 지원이 필요하신가요? 전문가가 직접 도와드립니다.
