적대적 공격에 강한 LLM 개발, 무엇이 중요할까?

2025/10/24

적대적 공격이란?

적대적 공격(Adversarial Attacks)은 입력 데이터 조작을 통해 인공지능 모델이 잘못된 예측이나 결정을 내리도록 속이는 사이버 공격의 한 유형입니다. 에펜은 적대적 공격에 강한 LLM을 개발할 수 있는 방법을 찾기 위해 멀티 모달 레드티밍(red-teaming) 연구를 진행했습니다.

이번 연구는 네 가지 주요 LLM을 대상으로 적대적 공격에 대한 내성을 비교했습니다. 그 결과, Anthropic의 Claude Sonnet 3.5가 가장 강한 저항성을 보였는데, 이는 다른 모델보다 훨씬 자주 응답을 거부했기 때문입니다. 이 결과는 흥미로운 질문을 던집니다. LLM 벤치마크는 잠재적으로 해로운 답변을 피하거나 기권하는 행동에 대해 ‘보상’을 부여해야 할까요?

적대적 공격에 강한 LLM 모델은?

에펜은 GPT-4o, Claude Sonnet 3.5, Pixtral 12B, Qwen VL Plus를 대상으로 불법 행위, 허위 정보, 비윤리적 행동 등을 유도하는 726개의 적대적 프롬프트를 테스트했습니다. 결과는 예상 밖이었습니다.

  • Pixtral 12B가 가장 취약했으며, 유해한 출력을 생성한 비율이 약 62%에 달했습니다.
  • 반면 Claude Sonnet 3.5는 가장 강력한 저항성을 보였고, 유해한 출력 비율이 약 10~11%에 불과했습니다.

하지만 자세히 들여다보면, 이 ‘안전성’은 모델의 높은 응답 거부율에서 비롯된 것으로 나타났습니다. 이 지점에서 중요한 딜레마가 드러납니다. AI의 침묵은 적대적 공격에 대한 최종 방패일까요, 아니면 불필요하게 사용자의 경험을 제한하는 과잉 방어일까요?

LLM에 대한 기존 벤치마크의 한계

기존의 AI 벤치마크는 대체로 결과를 ‘정답 vs 오답’의 이분법으로 평가합니다. 이런 구조는 모델이 확실하지 않은 질문에도 “모른다” 대신 “그럴듯한 답변”을 내놓게 만들죠. OpenAI의 최근 할루시네이션 연구도 이를 지적합니다. 현재의 LLM 평가 체계는 신중함을 처벌하고, 근거 없는 자신감을 보상하는 경향이 있습니다. 결과적으로, 현실 세계에서 이런 모델을 그대로 배포하면 거짓이지만 그럴듯한 답변이 답변 거부보다 더 큰 위험을 초래할 수 있습니다.

‘거절 인식’ 평가로의 전환이 필요합니다.

이번 연구는 LLM 평가 방식 자체를 재고해야 함을 시사합니다. 단순히 ‘답하지 못했다’는 이유로 점수를 깎는 대신, 전략적 기권을 하나의 능력으로 인정해야 합니다. 이에 따라 적대적 공격에 대응할 수 있는 새로운 평가 기준을 아래와 같이 제시합니다.

  • 전략적 거부에 대한 보상: 해로운 출력을 예방하는 기권에는 긍정적인 점수를 부여합니다.
  • 안전한 침묵과 위험한 할루시네이션의 구분: 무해한 거절을 최우선 결과로 간주합니다.
  • 취약점 측정의 일상화: 적대적 자극과 스트레스 테스트를 정기적인 평가 항목으로 포함합니다.

이런 ‘거절 인식(Refusal-Aware)’ 벤치마크는 모델의 회복탄력성을 강화하고, 실제 운영 환경에서 더 안전한 행동을 유도할 것입니다.

왜 적대적 공격에 강한 LLM이 필요할까?

AI가 적대적 공격에 활용되는 지금, 신뢰성과 안전성은 선택이 아닌 필수입니다. 최근 레드팀 연구는 최신 모델조차도 적대적 공격에 노출될 경우 유해한 결과를 낳을 수 있음을 보여줍니다. 따라서 ‘침묵’을 결함이 아닌 기능으로 인식하는 전환이 필요합니다. 기업은 이를 통해 신뢰를 유지하면서도 위험을 최소화할 수 있으며, 이는 책임 있는 AI 안전성의 핵심 변화가 될 것입니다.

요약정리

  • AI와 공격자는 점점 더 정교해지고 있습니다.
  • 가장 안전한 대응은 도움을 주되, 필요할 때는 침묵할 수 있는 능력을 갖추는 것입니다.
  • ‘답하지 않는 것’은 회피가 아니라 책임감 있는 선택일 수 있습니다.
  • 현재의 LLM 벤치마크는 신중함을 충분히 반영하지 못하며, 오히려 안전하지 않은 할루시네이션을 조장할 수 있습니다.
  • 앞으로의 평가는 안전한 거절과 위험한 답변을 구별하고, 전략적 침묵을 AI의 강점으로 인정해야 합니다.

LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.