LLM 인공지능 편향성 극복하는 방법 – 레드티밍(Red teaming)
LLM 인공지능 편향성
대형 언어 모델(LLM)은 자연어 처리에 있어 인간과 유사한 놀라운 능력을 보여주고 있습니다. 그러나 LLM은 편향성을 드러내거나 잘못된 정보나 할루시네이션을 제공하고, 유해한 콘텐츠를 생성하기도 합니다. 관련된 주목할 만한 사건들로는 Bard의 첫 번째 데모에서의 사실 오류가 생성됐는 일과 ChatGPT의 피싱 이메일 작성 사건, 그리고 Microsoft의 폭력적인 이미지 생성 등이 있었습니다.
인공지능(AI) 편향성은 인공지능이 특정한 방향으로 치우친 결과를 내는 현상을 의미합니다. 이는 데이터 수집, 알고리즘 설계, 모델 학습 과정 등 여러 단계에서 발생할 수 있습니다. 이때 LLM 레드티밍은 체계적이고 신뢰할 수 있는 방식으로 인공지능 취약점을 테스트하여, 예상치 못한 결과가 발생하기 전에 인공지능 편향성과 위험을 사전에 식별하고 완화합니다. 레드티밍은 LLM이 대규모로 배포되기 전에 안전성과 신뢰성을 보장하는 중요한 단계입니다. 이때 크라우드소싱 접근 방식을 사용한 레드티밍은 LLM의 안전성 문제를 해결하는 데 독특한 이점을 제공합니다.
레드티밍은 다양한 작업자들의 관점과 전문 지식을 바탕으로 특정 문화나 인구 통계적, 언어적 맥락에 특화된 취약한 인공지능 편향성 포함하여 더 넓은 범위의 잠재적 문제를 발견하도록 합니다. 이러한 다양한 관점은 LLM의 행동이 배포 전에 철저히 테스트되고 검증되도록 하여, 예상치 못한 결과의 위험을 완화하는 데 도움이 됩니다.
크라우드소싱 모델은 레드티밍의 효율적인 확장과 LLM의 빠른 발전 속도에 맞춰 테스트할 수 있게 합니다. 기존의 오픈 소스 데이터셋에는 적대적 프롬프트가 포함되어 있지만, 이 데이터셋은 LLM 훈련에 사용되었기 때문에 데이터셋에 대한 성능 벤치마킹은 실제 성능을 정확히 반영하지 못할 수 있습니다. 크라우드소싱을 통해 LLM 응답을 이전에 접하지 않은 공격(attack)에 대해 테스트할 수 있는 새로운 데이터를 생성하여 대표적인 척도로 사용하고, 데이터 작업자들이 테스트 과정에서 관찰된 성능을 바탕으로 질문에 대한 공격을 조정할 수 있게 합니다.
LLM 레드티밍(Red teaming) 프로세스
1단계: 정의
레드티밍 목표를 명확히 이해하고, 테스트할 특정 영역을 정의합니다. 여기에는 범위 내외의 해로운 유형이나 공격 전략의 특정 매개 변수가 포함됩니다.
2단계: 계획
에펜의 AI 데이터 플랫폼에서 AI 피드백 툴을 사용하여 레드티밍 작업을 설정합니다. 이는 모델 엔드포인트와의 실시간 상호작용을 허용합니다. 필요한 도메인 전문 지식이나 언어를 커버할 수 있도록 경험이 풍부한 LLM 레드티밍 팀원을 온보딩합니다.
3단계: 관리
레드티밍 프로젝트를 조정하고 체계적인 테스트 및 시뮬레이션 활동을 완료합니다. LLM 프로젝트 관리자와 전문가들은 결과와 작업자의 인사이트를 모니터링하여 잠재적 위험 영역을 발견하고, 이러한 특정 영역에서 추가 취약점 탐색을 수행합니다.
4단계: 보고
레드티밍 결과를 문서화합니다. 이 보고서에는 일반적으로 사용된 방법론, 분석 결과, 발견사항 및 모델 안전성을 향상하기 위한 개선 지침이 포함됩니다.
크라우드소싱 기반 레드티밍 데모
1단계: 공격 설계
타겟을 고려합니다. 모델이 어떤 종류의 유해한 응답을 생성하도록 하고 싶은가요? 타겟은 누구 혹은 무엇인가요?
2단계: 프롬프트 계획
공격 방법을 선택합니다. 예를 들어 프롬프트 인젝션, 롤플레잉, 가상화(virtualization), 우회(side-stepping), 번역, 언어적 설득(verbal persuasion) 등이 있습니다.
3단계: 실시간 채팅 테스트
적대적 프롬프트를 작성하고 실시간 모델에 전송합니다.
4단계: 응답 어노테이션
응답과 그에 대한 유해성을 평가합니다. 모델의 응답이 불쾌하거나 논란이 될 수 있거나 AI 챗봇이 생성하기에 부적절하다고 여길 만한 콘텐츠를 포함하고 있나요? 해로움의 수준은 어느 정도인가요? 다른 대안적인 응답은 뭐가 있을까요?
기업용 LLM을 위한 레드티밍
에펜의 레드티밍(red teaming)은 맞춤형 기업용 LLM에도 적용됩니다. 기업용 LLM 레드티밍에는 기업 맞춤형 사용 사례에 대한 더 구체적인 시나리오 테스트가 포함됩니다.
- 범위 내 외 응답: 기업용 LLM은 일반적으로 범용 챗봇이 아니라 특정 응용 프로그램을 위해 설계됩니다. LLM 상호작용의 범위를 제한하면 불필요한 위험을 줄일 수 있습니다. 예를 들어, “다음 선거에서 누구에게 투표해야 하나요?”와 같은 의견을 묻는 질문이 프롬프트인 경우, 사용자들은 기초 모델이 투표 전에 고려해야 할 요인에 대한 일반적인 지침을 제공하는 중립적인 응답이 제공될 수 있습니다. 목표 지향적인 레드티밍은 올바르게 가드레일이 구현되었는지, 모델이 의도된 사용 사례 외의 목적으로 사용되지 않는지 확인하는 데 도움이 됩니다.
- 할루시네이션: 기업용 맞춤형 LLM은 사용자에게 정확하고 신뢰할 수 있는 정보를 제공하도록 보장하는 것이 중요합니다. 모델은 검색 증강 생성(RAG)과 같은 방법을 통해 고유의 지식 베이스를 활용할 수 있지만, 오래된 문서와 같이 기본 데이터의 문제나 잘못 정렬된 청크 검색과 같은 RAG 구현의 문제로 인해 부정확성이 발생할 수 있습니다. 철저한 레드티밍은 기업용 LLM 구현 및 지식 소스의 정확한 사용을 테스트하여 사용자에게 할루시네이션이나 인공지능 편향, 잘못된 정보와 관련된 결과를 방지할 수 있습니다.
- 개인 정보 보호: 기업용 LLM은 직원 및 기업 정보 또는 내부 IP와 같이 민감하거나 기밀 정보를 기반으로 훈련됩니다. 모델을 훈련시키는 데 사용된 모든 정보는 프롬프트 기술로 특정 사용자에게 접근될 수 있습니다. 이러한 문제 중 많은 부분은 기본 학습 데이터에서 해결해야 하지만, 목표 지향적인 레드티밍은 개인 정보 보호나 민감한 정보 누출이 발생할 수 있는 부분을 식별하는 데 도움이 됩니다.
에펜의 인공지능 편향성 해결
LLM의 안전성은 모델 제작자와 사용자 모두에게 중요한 과제입니다. 저희 크라우드소싱 접근 방식을 사용한 에펜의 레드티밍은 휴먼 인 더 루프를 통해 인공지능 편향성을 줄이고 LLM의 개발 및 배포를 안전하고 성공적으로 지원합니다.
인공지능 편향성을 확 줄인 LLM 구축이 필요하신가요? 지금 바로 에펜의 데이터 전문가에게 상담 받아보세요!
LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.