합성 데이터란? 정의, 활용 사례, 생성 방법

2023/09/12

합성 데이터의 정의

인공지능(AI) 모델을 개발할 때 충분한 데이터를 확보하는 것은 쉽지 않은 일입니다. 대규모 데이터를 찾더라도 실제로 활용할 수 있는 데이터가 거의 없거나, 초기 단계에서 데이터 수집 자체가 어렵고 비용이 많이 드는 경우가 많기 때문입니다. 이러한 불완전한 데이터는 AI 모델의 성능에 부정적인 영향을 미칠 수 있으며, 대기업조차도 이 과정에서 많은 실수를 범하곤 합니다. 예를 들어, 2018년 한 연구에서는 안면 인식 소프트웨어가 인종에 따라 인식률에 차이를 보이는지를 분석했습니다. 그 결과, 백인 남성을 제외한 다른 인종의 얼굴을 인식하는 데 있어 오류율이 백인 남성보다 최대 34% 높게 나타났습니다. 이는 학습 데이터 모집단의 다양한 하위 집합이 충분히 반영되지 않았기 때문입니다.

그렇다면 기업은 이러한 문제를 어떻게 해결할 수 있을까요? 해답은 합성 데이터입니다. 합성 데이터란 실제 사건에서 수집된 것이 아니라, 컴퓨터 프로그램을 통해 인위적으로 생성된 데이터를 의미합니다. 이를 활용하면 다양한 시나리오와 예외 사례를 포함한 데이터를 확보할 수 있으며, 데이터 수집 비용을 절감하고 개인 정보를 보호하는 동시에 AI 학습 데이터를 보강할 수 있습니다. 특히 최근에는 컴퓨팅 성능의 발전과 클라우드 기반 데이터 저장 옵션의 증가로 인해 합성 데이터에 대한 접근성이 더욱 높아졌습니다. 합성 데이터는 더 포괄적이고 공정한 AI 솔루션 개발을 가능하게 하며, 이를 통해 다양한 사용자에게 보다 신뢰할 수 있는 기술을 제공하는 데 기여합니다.

합성 데이터의 장점

1. AI 모델의 견고성 향상

합성 데이터를 활용하면 실제 데이터를 수집하지 않고도 다양한 데이터를 확보할 수 있습니다. 같은 인물이라도 헤어스타일, 수염, 액세서리, 머리 각도 등의 변화뿐만 아니라, 피부색, 인종적 특징, 얼굴 구조, 주근깨 등의 다양한 변형을 반영할 수 있습니다. 이를 통해 모델을 보다 폭넓은 데이터로 학습시킬 수 있으며, 결과적으로 AI 모델의 견고성이 향상됩니다.

2. 빠른 데이터 획득 속도

합성 데이터는 단시간에 대량으로 생성할 수 있어, 실제 데이터를 확보하기 어려운 경우에도 유용하게 활용됩니다. 예를 들어, 자율주행차의 학습을 위한 도로 상황 데이터를 수집하려면 상당한 시간과 비용이 소요됩니다. 그러나 합성 데이터를 활용하면 현실과 유사한 다양한 도로 환경을 빠르게 생성할 수 있습니다. 또한, 데이터 과학자는 자동 라벨링 알고리즘을 적용하여 데이터 어노테이션 작업에 드는 시간을 절약할 수 있습니다.

3. 데이터 범주 확장

머신러닝 알고리즘은 균형 잡힌 데이터셋을 선호합니다. 예를 들어, 한 기업이 얼굴 인식 모델을 개선하기 위해 어두운 피부색을 가진 인물의 합성 데이터를 생성했다고 가정해 보겠습니다. 이를 통해 해당 기업은 모델의 정확도를 높일 뿐만 아니라, 결과적으로 더 공정하고 윤리적인 AI 모델을 구축할 수 있었습니다. 이처럼 합성 데이터는 데이터의 가용성이 낮거나 존재하지 않는 극단적인 사례까지 포함하여, 다양한 사용 사례를 포괄하는 데 도움을 줍니다.

4. 데이터 보호

기업은 업종과 데이터 유형에 따라 민감한 데이터를 다룰 때 보안 문제에 직면할 수 있습니다. 특히 의료 분야에서는 환자의 건강 정보(PHI)가 포함된 데이터가 높은 수준의 보안을 요구합니다. 이때 합성 데이터는 실제 개인의 정보를 포함하지 않으므로 개인정보 보호 문제를 효과적으로 완화할 수 있습니다. 따라서 특정 개인정보 보호 기준을 충족해야 하는 경우, 합성 데이터는 강력한 대안이 될 수 있습니다.

합성 데이터의 활용 사례

1. 자동차

자율주행차를 개발하는 기업들은 차량 성능을 테스트하기 위해 시뮬레이션을 적극 활용합니다. 이는 특정 기상 조건이나 도로 상황에서 실제 데이터를 확보하기가 어렵거나 위험할 수 있기 때문입니다. 또한, 실제 차량을 이용한 테스트만으로는 모든 운전 상황을 충분히 반영하기 어렵습니다. 이때 합성 데이터는 현실 데이터를 수집하는 것보다 더 빠르고 안전한 대안이 될 수 있습니다.

2. 의료

의료 산업은 데이터 보안이 중요한 분야로, 합성 데이터를 활용하기에 가장 적합한 환경 중 하나입니다. 합성 데이터를 통해 다양한 환자 유형을 반영한 데이터를 확보할 수 있으며, 이를 활용하면 AI 모델이 환자의 상태를 더욱 신속하고 정확하게 진단할 수 있습니다. 예를 들어, 구글의 흑색종 감지 모델은 어두운 피부색을 가진 환자의 합성 데이터를 추가하여, AI가 모든 피부 유형에 대해 정확하게 작동할 수 있도록 성능을 개선했습니다.

3. 보안

합성 데이터는 기업의 보안 강화에도 기여할 수 있습니다. 예를 들어, 얼굴 인식 기술을 테스트할 때, 인공적으로 생성된 이미지나 영상을 의미하는 "딥페이크"를 활용할 수 있습니다. 기업은 이를 이용해 자체 보안 시스템과 얼굴 인식 플랫폼의 성능을 평가하고 보완할 수 있습니다. 또한, 영상 제작자들은 합성 데이터를 활용하여 보다 빠르고 비용 효율적으로 AI 모델을 훈련할 수 있습니다.

4. 데이터 이동성(data portability)

데이터를 다른 사용자와 안전하게 공유하는 방법이 필요할 때, 합성 데이터가 효과적인 해결책이 될 수 있습니다. 합성 데이터는 데이터셋을 공유하기 전에 개인 식별 정보(PII)를 제거하여 보안을 강화합니다. 이를 개인정보 보호 합성 데이터라고 하며, 의료 데이터, 과학 연구 데이터, 사회학적 데이터 등 민감한 정보를 포함할 가능성이 있는 데이터셋을 안전하게 공유하는 데 유용하게 활용됩니다.

합성 데이터 생성 방법

머신러닝 기술을 활용하면 프로그래밍 방식으로 합성 데이터를 생성할 수 있습니다. 일반적으로 합성 데이터를 만들 때는 기존 샘플 데이터셋을 참고하며, 이때 합성 데이터는 원본 데이터의 통계적 속성을 유지해야 합니다. 생성된 데이터는 이진형, 숫자형, 범주형 등 다양한 형태를 가질 수 있으며, 무작위로 생성되면서도 필요한 사용 사례를 충분히 포괄할 만큼 견고해야 합니다.

1. 확률 분포에서 데이터 생성하기

만약 실제 데이터가 없지만 데이터셋의 분포 형태를 알고 있다면, 해당 분포를 기반으로 합성 데이터를 생성할 수 있습니다. 예를 들어, 정규 분포, 지수 분포 등 다양한 확률 분포에서 무작위 샘플을 추출하여 가상의 데이터를 만들 수 있습니다.

2. 실제 데이터를 특정 분포에 맞추기

실제 데이터가 존재하는 경우, 몬테카를로(Monte Carlo) 방법 등을 활용하여 해당 데이터에 가장 적합한 분포를 찾은 뒤, 이를 기반으로 합성 데이터를 생성할 수 있습니다. 이렇게 하면 원본 데이터와 유사한 특성을 유지하는 합성 데이터를 만들 수 있습니다.

3. 딥러닝 기법 활용하기

딥러닝 모델을 사용하면 더욱 정교한 합성 데이터를 생성할 수 있습니다. 대표적인 모델로는 다음과 같은 기법이 있습니다.

  • 변분 오토인코더(Variational Autoencoder, VAE): 비지도 학습 모델로, 입력 데이터를 압축(인코딩)한 후 다시 복원(디코딩)하는 방식으로 합성 데이터를 생성합니다.
  • 생성적 적대 신경망(Generative Adversarial Network, GAN): 두 개의 신경망(생성기와 판별기)이 서로 경쟁하면서 점점 더 실제와 유사한 데이터를 생성하는 방식입니다. 생성기는 샘플 데이터셋을 기반으로 새로운 데이터를 만들어내고, 판별기는 이 데이터가 실제 데이터와 얼마나 유사한지를 평가하며 반복적으로 모델을 파인튜닝합니다.

실제 데이터의 양과 합성 데이터의 활용 목적에 따라 위의 방법들을 조합하여 사용하는 것이 가장 효과적입니다.

합성 데이터의 한계

지난 10년 동안 합성 데이터의 활용이 급격히 증가했습니다. 합성 데이터는 기업이 시간과 비용을 절감하는 데 큰 도움을 주지만, 여전히 해결해야 할 몇 가지 과제가 남아 있습니다.

1. 이상치(outlier)가 부족합니다.

실제 데이터에서는 예기치 않은 이상치가 자연스럽게 발생하며, 이는 일부 모델의 정확도에 중요한 역할을 합니다. 그러나 합성 데이터는 이러한 이상치를 충분히 반영하지 못할 수 있습니다.

2. 데이터 품질이 입력 데이터에 크게 좌우될 수 있습니다.

합성 데이터는 원본 데이터의 패턴을 학습해 생성되므로, 입력 데이터에 존재하는 편향이 그대로 전파될 가능성이 큽니다. 따라서 고품질 데이터를 바탕으로 합성 데이터를 생성하는 것이 필수적입니다.

3. 출력 데이터의 추가적인 검증이 필요합니다.

합성 데이터가 실제 데이터와 일관성을 유지하는지 확인하기 위해, 사람이 어노테이션한 실제 데이터와 비교하며 불일치 여부를 점검해야 합니다.

이러한 한계에도 불구하고, 합성 데이터는 여전히 AI 기술 발전에 중요한 기회를 제공합니다. 실제 데이터에 접근하기 어려운 상황에서도 혁신적인 AI 솔루션을 개발할 수 있으며, 무엇보다 다양한 최종 사용자를 포용하는 제품을 만드는 데 기여할 수 있습니다.

합성 데이터의 효과적 활용 방법

합성 데이터는 실제 데이터 수집 및 가공을 완전히 대체하는 것이 아니라, 데이터 증강(data augmentation)을 위한 도구라는 점을 기억해야 합니다. 대부분의 경우 합성 데이터만으로도 모델을 효과적으로 학습시킬 수 있지만, 예상치 못한 변수가 발생할 가능성도 있습니다. 예를 들어, 얼굴 인식 시스템을 개발할 때 조명의 각도, 드문 얼굴 특징, 성형 수술과 같은 요소는 합성 데이터가 충분히 반영하지 못할 수도 있습니다. 합성 데이터를 효과적으로 활용하려면 아래와 같은 사항을 유념해야 합니다.

1. 모델의 요구 사항을 명확히 정의하세요.

합성 데이터를 생성하기 전에, 모델이 어떤 데이터를 필요로 하는지 파악하는 것이 중요합니다. 단순히 기존 데이터와 유사한 데이터를 추가하는 것은 의미가 없으며, 오히려 데이터의 다양성과 변형을 증대하는 것이 핵심입니다. 예를 들어, 얼굴 인식 모델을 위한 합성 데이터라면, 다양한 얼굴 특징과 변화를 포함해야 합니다. 또한, 극단적인 사례까지 고려하여 데이터 생성의 우선순위를 정하는 것이 바람직합니다. 한 가지 방법으로, 실제 학습·검증·테스트 데이터에서 발생하는 거짓 양성(False Positive) 및 거짓 음성(False Negative) 결과를 분석하고, 이를 줄일 수 있는 방향으로 합성 데이터를 보강하는 전략을 세울 수 있습니다.

2. 합성 데이터의 한계를 이해하세요.

합성 데이터는 모델의 성능을 향상시킬 수 있지만, 완벽한 솔루션은 아닙니다. 합성 데이터는 실제 데이터를 반영하여 생성되므로, 현실 세계의 모든 복잡한 변수를 자동으로 학습하거나 예측할 수는 없습니다. 예를 들어, "ThisPersonDoesNotExist.com"과 같은 사이트에서 생성된 얼굴 이미지는 주로 프로필 사진 형태로 만들어지므로, 흐린 날씨나 어두운 실내 환경에서의 인식 성능을 보장하지 못합니다. 따라서 합성 데이터를 사용할 때는 그 출처와 한계를 충분히 고려해야 합니다.

3. 다양한 합성 데이터 생성 도구를 활용하세요.

합성 데이터는 일반적으로 현실 세계의 일부 데이터를 복제하거나, Unity·3D 모델링 소프트웨어를 활용해 생성됩니다. 하지만 최근에는 GAN(Generative Adversarial Network)과 VAE(Variational Autoencoder) 같은 딥러닝 기반 기술이 발전하면서, 더욱 정교한 합성 데이터가 가능해졌습니다. 예를 들어, 기존 얼굴 이미지에 주근깨를 추가하거나, 광원 각도를 조정하는 등의 방식으로 더 사실적인 변형 데이터를 만들 수도 있습니다. 또한, 중첩된 데이터를 보다 현실적으로 표현하는 기술도 발전하고 있습니다. 다양한 도구를 활용해 필요에 맞는 합성 데이터를 생성하는 것이 중요합니다.

4. 데이터 버전을 체계적으로 관리하세요.

합성 데이터 생성 기술은 지속적으로 발전하고 있으며, 시간이 지날수록 더 정밀한 데이터를 만들 수 있습니다. 따라서 과거에 생성한 합성 데이터보다 더 높은 품질의 새로운 데이터가 필요할 수 있습니다. 예를 들어, 최신 합성 데이터는 피부 질감을 더욱 사실적으로 표현하거나, 최신 GPU를 활용해 광선 추적(ray tracing)을 적용한 더욱 정교한 결과를 제공할 수 있습니다. 이를 위해 데이터의 버전을 관리하고, 어떤 데이터를 새롭게 추가하거나 업데이트했는지 기록하는 것이 중요합니다. 이를 통해 모델의 개선 효과를 체계적으로 추적할 수 있습니다.

결론적으로, 합성 데이터는 AI 모델의 성능을 강화하는 강력한 도구이지만, 적절한 활용과 지속적인 관리가 필요합니다. 모델의 요구 사항을 정확히 파악하고, 합성 데이터의 한계를 이해하며, 다양한 생성 기법과 도구를 적절히 조합하는 것이 핵심입니다. 이렇게 하면 합성 데이터를 활용해 보다 신뢰할 수 있는 AI 솔루션을 구축할 수 있습니다.

에펜의 합성 데이터 솔루션

AI 데이터 수집가공 28년 이상의 경험을 보유한 에펜의 데이터 전문가는 맞춤형 AI 솔루션을 구축하고 모델이 빠르게 시장에 출시될 수 있도록 지원합니다. 에펜의 합성 데이터 솔루션이 궁금하시다면 지금 바로 문의주세요.

학습 데이터가 필요하신가요? 데이터 전문가에게 문의하세요.