인공지능 기반 콘텐츠 필터링

AI 기반 콘텐츠 필터링의 정의와 데이터 유형별 콘텐츠 필터링 방법 그리고 최신 인사이트까지

머신 러닝을 이용한 콘텐츠 필터링

인터넷에는 45억 명이 넘는 사용자가 있으며 매일 수십억 개의 이미지, 동영상, 메시지, 게시물을 포함한 다양한 콘텐츠 유형이 생성되고 있습니다. 콘텐츠 필터링은 인터넷 사용자가 소셜 미디어 플랫폼이나 온라인 쇼핑몰에서 안전하고 긍정적인 경험할 수 있도록 하는 콘텐츠 규제 방법을 의미합니다. 콘텐츠 필터링은 선정적, 모욕적이거나, 가짜 뉴스 혹은 사기성이 있는 것들, 사용자들에게 유해하거나, 비즈니스 친화적이지 않은 모든 데이터를 제거합니다.

기업은 전통적으로 콘텐츠 필터링을 사람에게 의존해왔지만, 인터넷 사용량과 콘텐츠가 증가함에 따라 사람에 의한 콘텐츠 필터링은 더 이상 비용 효율적이거나 효과적이지 않습니다. 이에 따라 기업에서는 자동으로 콘텐츠를 필터링하는 알고리즘을 만들기 위해 머신러닝(ML) 전략에 투자하고 있습니다.

인공지능(AI)으로 구동되는 콘텐츠 필터링을 통해 일관된 방식으로 콘텐츠 필터링을 더 빠르게 확장하고 최적화할 수 있습니다. 아직 콘텐츠 필터링은 정확한 실측 정보 모니터링과 미묘한 콘텐츠 문제 처리를 위해 콘텐츠 모니터링 담당자(휴먼 인 더 루프)를 필요로 하지만 콘텐츠 모니터링 담당자가 검토해야 하는 콘텐츠의 양을 줄일 수 있다는 큰 장점이 있습니다. 또한 콘텐츠 모니터링 담당자가 정신 건강에 좋지 않은 유해한 콘텐츠를 직접 접하는 것을 방지할 수 있습니다. 따라서 콘텐츠 필터링을 기계에 맡김으로써 회사, 직원과 사용자 모두에게 이점을 제공할 수 있죠.

 

콘텐츠 필터링 적용 사례

회사는 비디오 게임에서 챗봇 및 채팅방에 이르기까지 다양한 디지털 미디어에서 ML 기반 콘텐츠 필터링 기능을 사용합니다. 그중 가장 일반적인 적용 분야인 소셜 미디어와 온라인 쇼핑몰에 대한 활용 방법을 알아보겠습니다.

소셜 미디어(SNS)

페이스북에서는 20억 명이 넘는 사용자가 하루 평균 1억 시간 분량의 동영상을 시청하고 3억 5천만 개 이상의 사진을 업로드합니다. 이 많은 양의 콘텐츠를 모두 수동으로 검토하려면 셀 수 없는 인력이 필요함은 물론 엄청난 비용과 시간이 소요될 것입니다. AI는 혐오 표현, 선정적이거나 유해한 콘텐츠, 가짜 뉴스 및 스팸에 대해 텍스트, 사용자 이름, 이미지 및 동영상을 자동으로 확인하여 콘텐츠를 필터링합니다. 또한 콘텐츠 필터링 알고리즘은 회사의 이용 약관을 준수하지 않는 콘텐츠나 사용자를 삭제할 수 있습니다.

온라인 쇼핑몰

콘텐츠 필터링은 소셜 미디어에만 국한되지 않습니다. 온라인 소매업체는 콘텐츠 필터링 도구를 사용하여 고품질의 비즈니스 친화적인 콘텐츠만 소비자에게 노출합니다. 예를 들어 호텔 예약 웹사이트는 AI를 활용하여 모든 호텔 객실 이미지를 스캔하고 사이트 규칙을 위반하는 이미지를 제거할 수 있습니다(예: 사진에 사람이 보이지 않아야 함). 쇼핑몰은 또한 ML 기술을 활용하여 비즈니스에 필요한 맞춤화 서비스를 제공할 수 있습니다.

 

콘텐츠 필터링하는 방법

  1. 사전 조정: AI는 게시하기 전에 사용자 콘텐츠를 조정합니다. 이를 통해 유해하지 않은 것으로 분류된 콘텐츠만 사용자에게 표시됩니다. 유해하거나 비즈니스 친화적이지 않을 가능성이 크다고 판단되는 콘텐츠는 제거됩니다. 단, AI 모델의 예측 신뢰도가 낮은 경우, 사람이 검토할 수 있도록 콘텐츠에 플래그를 지정합니다.
  2. 사후 조정: 사용자가 유해 콘텐츠를 신고하면 인공지능 또는 사람이 이를 검토합니다. AI가 검토를 완료하면 1단계에서 설명한 것과 같은 워크플로우를 통해 유해한 것으로 판단되는 모든 콘텐츠를 자동으로 삭제합니다.

인공지능은 미디어 유형에 따라 다양한 머신러닝 기술을 사용하여 콘텐츠를 예측합니다.

 

텍스트 콘텐츠 필터링

  • 자연어 처리(NLP):컴퓨터는 인간의 언어를 이해하기 위해 NLP에 의존합니다. 이들은 키워드 필터링과 같은 기술을 통해 바람직하지 않은 언어를 식별하여 제거할 수 있습니다.
  • 감성 분석:감성 분석은 컴퓨터가 풍자나 분노와 같은 어조를 식별하는 데 도움이 됩니다.
  • 지식 기반:컴퓨터는 알려진 정보의 데이터베이스에 의존하여 어떤 기사가 가짜 뉴스인지 예측하거나 일반적인 사기를 식별할 수 있습니다.

 

이미지 및 동영상 콘텐츠 필터링

  • 객체 감지:이미지 분석은 플랫폼 표준을 충족하지 않는 이미지 및 동영상에서 누드와 같은 대상 객체를 식별할 수 있습니다.
  • 장면 이해:컴퓨터는 장면에서 일어나는 일의 맥락을 이해하는 법을 학습함으로써 더 정확한 의사 결정을 내릴 수 있습니다.

 

다양한 데이터 유형의 콘텐츠 필터링

데이터 유형과 관계없이 사용자 평판 기술을 사용하여 콘텐츠를 식별할 수 있습니다. 컴퓨터는 스팸 또는 선정적인 콘텐츠를 게시한 이력이 있는 사용자를 “신뢰할 수 없음”으로 분류하고 향후 게시할 콘텐츠에 대해 더 많은 조사를 적용합니다. 평판 기술은 가짜 뉴스를 방지하기도 합니다. 컴퓨터는 신뢰할 수 없는 뉴스 출처의 콘텐츠를 거짓으로 분류할 수 있습니다.

콘텐츠 필터링은 지속해서 새로운 학습 데이터를 생성합니다. 컴퓨터가 콘텐츠를 검토자에게 전달하면 사람은 콘텐츠의 유해 여부에 따라 라벨링 한 다음 라벨링 된 데이터를 알고리즘에 다시 제공하여 향후 정확도를 향상합니다.

 

콘텐츠 필터링의 문제점과 해결 방법

콘텐츠 필터링의 문제점과 해결 방법

콘텐츠 필터링은 AI 모델에 많은 과제를 안겨줍니다. 엄청난 양의 콘텐츠 정확성을 유지하면서도 빠른 모델을 만들어야 합니다. 정확한 모델 개발에서 가장 중요한 것은 바로 데이터입니다. 하지만 대부분의 데이터는 수집하는 회사에서 자산으로 보유하고 있으므로 디지털 플랫폼에 대한 공개 콘텐츠 데이터셋의 양이 제한되어 있습니다.

언어의 문제도 있습니다. 콘텐츠 필터링 인공지능은 인터넷에서 사용되는 수십 가지 언어와 해당 언어를 사용하는 문화의 사회적 맥락을 정확하게 인식해야 합니다. 또한 언어는 시간이 지남에 따라 변화하기 때문에 정기적으로 새 데이터를 통해 모델을 업데이트하는 것이 중요합니다.

단어의 정의에 대한 불일치도 있습니다. 악플은 무엇을 의미할까요? 노출이 많은 그림은 예술로 보아야 할까요? 아니면 선정적이라고 할 수 있을까요? 콘텐츠 필터링 프로세스에서 사용자의 신뢰를 유지하기 위해서는 플랫폼 내에서 이러한 정의를 일관되게 유지하는 것이 중요합니다. 이를 위해서는 최신 사기 또는 가짜 뉴스와 같은 문제를 제거할 수 있도록 모델을 지속해서 재교육해야 합니다.

마지막으로, 콘텐츠 필터링의 편향성을 인지해야 합니다. 언어나 사용자 특성이 관련된 경우 차별의 가능성이 생길 수 있습니다. 이를 방지하기 위해 학습 데이터를 다양화하고 맥락을 이해하도록 모델을 교육하는 것은 편향성 감소를 위해 매우 중요합니다.

이러한 모든 문제로 인해 효과적인 콘텐츠 필터링 플랫폼을 만드는 것은 다소 어려워 보일 수 있습니다. 그러나 성공할 수 있습니다. 많은 기업에서 타사 공급업체의 도움으로 충분한 학습 데이터와 라벨링을 위해 다양한 언어를 구사하는 글로벌 크라우드를 제공받고 있습니다. 또한 타사 파트너는 확장 가능하고 효율적인 모델을 제공하기 위해 ML 지원 콘텐츠 조정 도구에 필요한 전문 지식을 제공합니다.

 

콘텐츠 필터링 인사이트

에펜은 고품질 고객 경험을 제공하고 성공적인 콘텐츠 필터링이 가능한 최첨단 모델을 구축을 위한 전문가팀을 보유하고 있습니다. 여러 콘텐츠 필터링 관련 프로젝트를 감독하는 프로그램 관리자인 저스틴 아담은 머신 러닝으로 고객의 성공적인 콘텐츠 필터링을 구현을 돕는 주요 전문가 중 한 명입니다. 저스틴이 전하는 성공적인 콘텐츠 필터링 프로젝트에 대한 세 가지 인사이트를 만나보겠습니다.

  • 실제 환경의 지시에 따른 업데이트 정책: 모든 콘텐츠 필터링 결정은 정의된 정책을 따라야 합니다. 여기서 주의할 점은 민감한 주제에 대한 격차, 회색 지대 또는 극단적인 사례가 나타날 때 이 격차를 좁히기 위해 필터링 정책을 신속하게 발전시켜야 한다는 것입니다. 시장별 콘텐츠 동향을 모니터링하고, 정책 격차를 식별하고, 권장 사항을 제공하고, 정책 변경을 배포하여 전달되는 데이터가 가장 포괄적인 최신 정책 지침에 따라 조정된 모더레이터의 결정을 기반으로 하도록 합니다.
  • 인구통계학적 편향 관리:콘텐츠 필터링은 해당 모더레이터가 타겟이 되는 시장의 대중을 대표할 때 가장 효과적이고 신뢰할 수 있습니다. 필요한 인구 통계를 정의하고 다양성의 모든 측면을 처리하여 모델에 제공되는 데이터가 인구통계학적 편향의 영향을 받지 않도록 하는 것이 중요합니다.
  • 품질 관리 전략 전문가 리소스 개발:콘텐츠 필터링 결정은 오늘날의 정치적 환경에서 영향을 받기 쉽습니다. 이때 오류를 효과적으로 식별하고 수정하며, 방지하기 위해서는 포괄적 전략이 필요합니다. 에펜은 훈련된 정책 주제 전문가로 구성된 전체 팀 개발, 품질 관리 검토 계층 설정, 맞춤형 품질 분석 및 보고를 포함하여 고객의 특정 요구에 따라 적절한 전략을 권장하고 구현하는 데 도움을 드릴 수 있습니다.

 

에펜의 콘텐츠 필터링 지원 서비스

에펜은 25년 이상의 AI 모델 구축 지원 경력을 바탕으로 콘텐츠 필터링에 대한 포괄적인 데이터 분류 파이프라인을 제공합니다. 에펜의 독점적인 품질 관리 기술은 전문 지식과 플랫폼 기능에 따라 높은 정확도와 정밀도를 제공하여 빠른 배송과 확장성을 달성하는 데 도움을 드립니다.

지금 바로 에펜의 전문성과 콘텐츠 필터링 지원 방법에 대해 직접 상담을 받아보세요.

데이터 라벨링 서비스 문의하기

Language