머신러닝에 대한 모든 것 – 정의, 투자 이유, 활용 방법
정의
머신러닝은 기계에 가이드를 제공하여 자체적으로 논리를 개발하고, 탐색하려는 데이터셋에 대한 접근을 제공하여 기계를 학습하는 과정입니다. 머신러닝의 결과는 인공지능(AI)의 생성입니다.
“인공지능 기술에는 ‘인공’이라는 단어가 붙어 있지만, 이것은 사실 인간에 의해 만들어진 것으로, 인간처럼 행동하도록 의도된 것이며, 인간에 영향을 줍니다. 그러므로 우리는 이 기술이 긍정적인 역할을 하길 원한다면 인간의 지도에 따라 개발되어야 합니다.” 뉴욕 타임즈, ‘인간 중심 AI’에 관한 Fei-Fei Li의 발언
작동 방법
컴퓨터는 알고리즘이라고 알려진 규칙을 따릅니다. 처음 학습을 시작할 때 컴퓨터는 탐색할 초기 데이터셋을 제공받으며 이 데이터를 학습 데이터라고 합니다.
컴퓨터는 알고리즘과 학습 데이터를 기반으로 패턴을 인식하고 결정을 내립니다. 사용되는 기계 학습 유형에 따라 목표를 설정하고 올바른 결정을 내리거나 최종 목표에 대해 긍정적인 단계를 취할 때 보상을 받는 경우도 있습니다. 이를 학습하면서 새로운 입력을 출력으로 변환하기 위해 일련의 단계를 거쳐 새로운 데이터셋과 라벨링 지정된 데이터, 결정 또는 행동으로 구성될 수 있는 출력으로 변환하는 일련의 단계를 수행합니다.
이 과정의 목표는 기계가 인간의 개입 없이 작동할 수 있을 만큼 충분히 학습하는 것입니다. 이런 방식으로 인공지능이 개발되며 머신러닝은 인공지능이 만들어지는 주요 방법 중 하나입니다.
인공지능의 다른 예로는 로봇공학, 음성 인식, 자연어 생성 등이 있으며, 이 모두는 머신러닝 요소를 포함합니다. 머신러닝을 구현하는 이유와 해결 방법은 다양하며 다양한 머신러닝 알고리즘과 훈련 데이터의 유형 및 소스가 있습니다.
빠른 성장하는 이유
최근 몇 년 동안 머신러닝에 대한 큰 관심에 기여한 세 가지 요인이 있었습니다.
- 모든 유형의 데이터 증가
- 스토리지 비용 절감
- 컴퓨팅 성능의 대폭적인 개선
다른 증거와 함께 이 발전은 머신러닝의 활용을 가속화하고, 새롭고 혁신적인 인공지능 적용을 모색하는 데 중요한 역할을 했습니다. 이 세 가지 발전 외에도 다양한 기여 요인이 있었지만, 머신러닝과 인공지능의 혁신적인 활용을 위한 길을 열어나가는 데 이것들이 중요한 역할을 했다는 것은 분명합니다.
투자해야하는 이유
공공 및 민간 부문의 조직들이 머신러닝에 투자하는 이유는 다양합니다.
- 속도: 머신러닝은 빠른 답변과 정교한 계산을 수행할 수 있어 작업을 효율적으로 수행하는 데 도움이 됩니다.
- 힘: 막대한 양의 데이터를 처리하고 더 복잡한 분석을 수행할 수 있어 이전에는 어려웠던 일들을 가능하게 합니다.
- 지능: 이전에 이해할 수 없었던 데이터를 분석하여 새로운 인사이트를 얻을 수 있습니다.
- 능률: 더 적은 노력으로 더 많은 분석을 수행할 수 있습니다.
머신러닝은 어떤 산업이던지 사용 사례를 찾기 쉬우며, 투자의 이유를 수익과 경제적 효과로 정당화할 수 있습니다.
머신러닝은 수동 데이터 입력을 줄이거나 없애주고, 스팸 탐지, 사기 방지, 제품 추천 등에서 효과를 입증했습니다. 또한, 장비 및 인프라의 유지보수 시기를 예측하거나 고객에 대한 많은 정보를 제공하여 고객 만족도를 향상하는 데 사용됩니다.
만약 아직 머신러닝에 투자하지 않았다면, 왜 그런 결정을 내렸는지 스스로에게 물어보세요. 머신러닝이 제공하는 혜택과 가능성을 고려해 볼 때, 지금이라도 투자하는 방법을 고려해 보는 것이 좋습니다.
용도
사용 사례 5가지 분야에서 머신러닝을 적용하는 방법을 살펴보겠습니다.
소매 및 전자상거래
전환율을 높이고, 고객 경험을 개선하고, 개인화를 제공하는 데 인공지능과 머신러닝이 사용됩니다.
- 검색 관련성: 온라인 고객들은 직원에게 어디서 제품을 찾을 수 있는지 물어볼 시간적 여유가 없습니다. 따라서 이러한 질문은 검색 엔진이 대신 답하게 됩니다. 이 엔진은 검색어를 이해하고 사용자 의도를 평가하여 검색 알고리즘을 교육함으로써 결과의 관련성을 높여 구매로 이어지는 전환율을 증가시킵니다.
- 개인화: 사용자의 과거 행동을 기반으로 추천 사항이나 검색 결과를 제공하면 사용자 참여도와 유지율을 증가시킬 수 있습니다. 이는 고객 경험을 개선하고 사용자들이 원하는 정보에 빠르게 접근할 수 있도록 돕습니다.
- 고객 서비스: 챗봇은 가상 쇼핑 도우미의 역할을 하며, 제품 판매뿐만 아니라 사이트의 다양한 제품에 대한 정보를 고객에게 제공할 수 있어야 합니다. 직원과 마찬가지로 챗봇도 제품 및 사이트 내용에 대해 충분히 교육받아 고객에게 도움을 줄 수 있어야 합니다.
테크
검색 엔진 및 테크 기업은 머신러닝을 사용하여 AI를 명시적으로 프로그래밍하여 혁신적인 제품을 제공하고 사용자 경험을 개선합니다.
- 검색 관련성: 검색 엔진의 알고리즘은 머신러닝을 활용하여 사용자의 더 강력한 참여를 유도합니다. 검색 쿼리를 해석하고 사용자 의도를 파악하여 검색 결과의 관련성을 높임으로써 사용자 만족도를 향상합니다.
- 개인화: 사용자의 데이터 활동과 선호도를 분석하면 검색 엔진과 소셜 미디어 플랫폼이 콘텐츠 피드와 추천을 개인화하여 온라인 고객 경험을 개선하는 데 도움이 됩니다.
- 자연어 처리(NLP): 언어 패턴을 분석하여 소셜 미디어나 기타 자연스러운 패턴을 이해하고, 이를 통해 고객 감정을 추적하고 참여 전략을 개발하는 데 사용될 수 있습니다.
- 금융 서비스: 금융 업계는 머신러닝과 인공지능을 사용하여 고객 확보, 유지, 그리고 전반적인 경험을 개선하고 있습니다. 특히 자금 세탁 방지, 고객 파악, 그리고 사기 탐지 프로그램에는 머신러닝과 인공지능을 활용하여 잠재적인 위협을 찾아내고 불법 활동을 방지하고자 합니다.
- 위기관리: 머신러닝 알고리즘을 활용하여 금융 기관은 투자 전략을 수립하고 금융 자문가가 고객과 더 강한 관계를 형성하며 수익을 창출하는데 활용하고 있습니다.
- 고객 서비스: 향상된 고객 경험은 오늘날 주문형 고객 서비스에 있어 매우 중요합니다. 챗봇은 실시간 피드백과 간소화된 경험을 제공하여 고객 만족도를 높이는 데 기여합니다.
자동차
자율 주행 자동차용 학습 데이터로 머신러닝을 가속화하고 보다 정확한 현장 테스트를 통해 음성 인식 시스템, 차량 내 내비게이션 및 사용자 경험을 개선합니다.
- 자율주행차: 자율주행차는 매우 복잡한 기술을 사용하지만, 신경망은 머신러닝을 통해 운영됩니다. 자동차가 전진하는 동안, 운전자가 앞 유리창 밖을 바라보는 것과 마찬가지로 많은 시각적 데이터를 처리합니다. 차량은 나무나 보행자 같은 물체를 식별하고, 대규모의 이미지 데이터에 의미를 부여한 후, 이 정보를 다시 자동차의 인공지능 시스템에 제공하여 학습되어야 합니다.
- 음성 인식: 기존의 대시보드나 모바일 장치는 운전자가 도로 상황에 집중하는 데 방해가 될 수 있으나 음성 인터페이스는 이러한 문제를 해결합니다. 연결된 자동차는 대규모 음성 데이터를 수집하고 음성 인터페이스를 학습하여 전 세계 사용자들에게 최상의 사용자 경험을 제공하기 위한 작업을 진행합니다.
- 행동 예측: 향상된 음성 인식 및 카메라 기술은 운전자의 감정을 추적하는 데 도움이 됩니다. 이는 휴먼 머신 인터페이스(HMI)의 중요한 발전입니다. 자동차는 화자의 감정과 발언을 식별할 수 있어 사용자의 불편을 감지하고 상황에 맞게 대응할 수 있게 됩니다.
정부
안전한 데이터 서비스를 통해 비상 대응, 방어 계획, 법 집행을 개선할 수 있습니다.
- 방어: 정부 기관은 소셜 미디어 모니터링, 컴퓨터 비전, 그리고 데이터 분석을 통해 테러리스트 감시나 국가 안보 위협과 관련된 정보를 추출하는 데 도움을 받고 있습니다.
- 국가 비상사태 대응: 자연재해나 공격과 같은 긴급 상황은 갑작스럽게 발생할 수 있으며, 생명이 위험에 처하면 신속하고 효율적인 대응이 필수적입니다. 번역, 음성 인식, 그리고 텍스트 데이터 수집을 통해 전 세계의 응급 구조 인력은 기계를 활용하여 위급한 상황에서 효과적으로 피해자들과 소통할 수 있습니다.
- 법 집행: 보안 전사를 통해 다양한 목표를 달성이 가능해집니다. Body Worn Video의 파일 캡처, 공식 기록 보존, 그리고 기록 보관 솔루션 등을 통해 법 집행에 도움이 되는 기능을 활용하고 있습니다.
헬스케어
의료 분야에서도 인공지능(AI)과 머신러닝을 활용하여 환자 치료 과정을 변화시키고 있습니다.
- 예측 분석: 추세를 평가하고 발병을 예측하며 환자의 요구를 예측합니다.
- 챗봇: 더 빠르고 더 나은 고객 서비스를 제공합니다.
- 언더라이팅: 머신러닝을 통해 다양한 데이터 포인트를 기반으로 더욱 강력한 보험 모델을 구축할 수 있습니다.
“인간과 동물 학습의 대부분은 비지도 학습입니다. 지능이 3단 케이크라면 비지도 학습은 케이크 위의 케이크가 될 것이고 지도 학습은 케이크 위의 케이크가 될 것이며 강화 학습은 케이크 위의 체리가 될 것입니다. 우리는 아이싱과 체리 만드는 법은 알지만 케이크 만드는 법은 모릅니다. 진정한 AI에 도달하려면 먼저 비지도 학습 문제를 해결해야 합니다.” Yan Lecun, Director of AI Research, Facebook
종류
지도 학습
지도 학습 알고리즘은 학습 데이터나 예제에 기초하여 예측 모델을 생성합니다. 이러한 데이터셋은 올바른 출력 변수와 그에 상응하는 입력 변수가 포함됩니다. 그 후, 알고리즘은 이 데이터를 분석하고, 입력을 올바른 출력에 정확하게 매핑하는 함수를 학습하게 됩니다. 한 번 학습된 모델은 새로운 데이터에 대한 결과를 예측하는 데 사용될 수 있습니다.
지도 학습에는 두 가지 주요 유형이 있습니다.
- 분류: 가장 이해하기 쉬운 유형으로, 데이터가 어떤 클래스에 속하는지 판단하는 것입니다. 예시로는 이미지가 말인지 아닌지를 판단하는 모델을 들 수 있습니다. 충분한 말과 말이 아닌 동물의 사진을 제공하여 기계가 말을 구별하는 특징을 학습한 후, 기계는 새로운 사진이 말인지 아닌지를 스스로 판단할 수 있습니다.
- 회귀: 데이터를 분류하는 대신, 초기 학습 데이터에서 얻은 응답을 기반으로 미래의 응답이나 출력을 예측하는 방식입니다. 예를 들어, 입력이 3과 5일 때 출력이 8인 경우, 기계는 이러한 패턴을 학습하여 4와 6의 입력일 때 10을 예측할 수 있습니다. 회귀 분석은 이러한 숫자적인 관계를 파악하는 데 사용됩니다.
지도 학습은 특정 작업을 수행하는 데 중점을 두며, “XYZ 값을 찾아내세요”와 같은 목표를 중심으로 작동합니다.
준지도 학습
준지도 학습은 하이브리드 모델로, 레이블이 지정된 데이터와 레이블이 없는 데이터를 조합하여 학습하는 방식입니다. 이 방법은 레이블을 부여하는 것이 많은 비용이 들거나 데이터 크기가 너무 커서 레이블을 지정하는 작업이 어려운 경우 유용합니다. 이는 라벨링 작업 중에 발생할 수 있는 인간의 편향을 피하기 위해서도 사용됩니다.
셜록 홈즈의 말처럼, “데이터를 얻기 전에 이론을 세우는 것은 큰 실수입니다. 무의식적으로, 이론을 사실에 맞추는 대신 이론에 맞게 사실을 왜곡하기 시작합니다.”
준지도 학습은 일부 데이터가 레이블이 지정된 경우에 모델이 이점을 취하고 더 빠르게 작동할 수 있으며, 레이블이 지정되지 않은 데이터에 대해 작업을 수행함으로써 미처 발견하지 못한 정보와 인사이트를 얻을 수 있습니다. 이는 많은 경우 상호 이익을 가져다주는 접근 방식으로, 자주 사용되는 방법 중 하나입니다.
강화 학습
강화 학습은 가장 추상적인 접근 방식 중 하나로, 기계를 중심으로 시행착오를 통해 학습합니다. 종종 “학습 에이전트”라고 불리는 이 기계는 주어진 보상에 따라 환경 속에서 최상의 성능을 위해 행동을 선택합니다. 이러한 시행착오적인 활동을 탐색이라고 합니다. 어떤 행동이 어떤 보상을 가져오는지를 이해하고 이를 활용하는 것을 이용(exploitation)이라고 합니다.
환경을 탐색하고 활용하는 과정을 통해 강화 학습 알고리즘을 기반으로 하는 학습 에이전트는 결국 거의 인간 수준에 근접한 수준의 인공 지능을 시연할 수 있는 충분한 지식을 얻게 됩니다.
로봇은 강화 학습의 좋은 예시 중 하나입니다. 공장에서 사용되는 로봇들은 강화 학습을 통해 환경에 적응하고 오류를 최소화하며 인간과 유사한 작업을 지속적으로 개선하는 능력을 갖추고 있습니다. 이를 통해 공장 내 작업 및 행동을 완수하는 데 중요한 역할을 하고 있습니다.
머신러닝에 필요한 데이터
데이터종류
“머신러닝은 학습에 사용하는 데이터만큼 정도까지만 우수할 수 있습니다.” Daniel Tunkelang, 머신러닝 프로젝트 리더, Endeca, 구글, 링크드인
Tunkelang은 머신러닝, 모든 사람이 알아야 할 10가지 사실이라는 기사에서 “정교한 알고리즘 없이도 머신러닝을 할 수 있지만 좋은 데이터 없이는 불가능합니다.”라고 이야기했습니다.
그렇다면 머신러닝에는 어떤 종류의 데이터가 필요할까요?
구조화된 데이터
구조화된 데이터는 논리적으로 구성되어 있어 컴퓨터가 쉽게 읽고 이해할 수 있습니다. 예를 들면, ERP나 CRM 시스템에서 생성된 기계적인 트랜잭션 데이터나 센서에서 나온 타임스탬프 데이터일 수 있습니다. 또한, 사람이 입력한 데이터를 스프레드시트에 저장하는 것도 구조화된 데이터의 한 예입니다. 이러한 종류의 데이터는 주로 지도 학습에 활용되며, 대용량이라도 빠르게 처리할 수 있는 특징을 가지고 있습니다.
구조화되지 않은 데이터
세계적인 산업 리더들에 따르면, 전 세계 데이터의 80% 이상이 구조화되지 않았으며 데이터의 양은 기하급수적으로 증가하고 있습니다. 구조화되지 않은 데이터는 어디에서나 발견될 수 있습니다. 이는 인간이 생성한 비정형 데이터로, MS Word나 기타 텍스트 파일, 프레젠테이션, 동영상, 이미지, 오디오, 소셜 미디어 게시물 등을 포함합니다. 또한, 기계가 생성하는 비정형 데이터로는 감시 영상, 위성 이미지, 과학 데이터 등이 있습니다. 감독 및 강화 학습은 인사이트를 얻고 비정형 데이터를 다루는 데 효과적으로 활용할 수 있는 강력한 도구로 평가되고 있습니다.
데이터의 양
“AI 기술을 사용하려면 잠재적인 변화 조건에 맞게 모델을 재교육해야 하므로 학습 데이터를 자주 새로 고쳐야 합니다. 3분의 1의 경우에는 모델을 최소한 한 달에 한 번씩 새로 고쳐야 하며 거의 4분의 1의 경우 매일 새로 고쳐야 합니다.” McKinsey Global Institute, AI 프론티어
머신러닝에 사용되는 데이터의 양이 클수록 머신러닝 정확도가 높아집니다.
이에는 여러 가지 이유가 있습니다. 한 가지 이유는 대부분의 머신러닝 모델의 경우 엄청난 양의 변형이 있는 데이터셋을 컴퓨터가 이해하도록 하려고 하기 때문입니다.
예를 들어 음성 인식 애플리케이션과 성별, 연령, 방언 등의 차이로 인해 발생하는 음성의 변화를 생각해 보세요. 일부 전문가들은 모델이 적당한 정확도 수준의 출력을 제공하려면 최소 10,000시간의 음성 데이터가 필요하다고 말합니다. 다른 사람들은 필요한 총 데이터 양이 모델의 복잡성이나 문제에 따라 다르지만 대부분의 모델에서 최소 요구 사항은 100,000개의 인스턴스라고 말합니다.
데이터 품질
데이터 품질은 그 양보다 더 중요할 수 있습니다.
“더 많은 데이터가 영리한 알고리즘을 능가하지만, 더 나은 데이터가 더 많은 데이터를 능가합니다.” Peter Norvig, 컴퓨터 과학자, Google
무엇이 데이터를 나쁘게 만들까요? 나쁜 데이터는 문제와 관련이 없거나, 어노테이션이 부정확하게 달렸거나, 오해의 소지가 있거나, 불완전할 수 있습니다. 이러한 경우에는 데이터 정리가 필요합니다.
모델이 데이터 분류 작업을 수행하는 경우 먼저 학습 데이터에 적절한 레이블을 지정해야 할 수 있습니다. 때로는 형식이 문제가 될 수 있습니다. 예를 들어, 이미지 데이터로 작업하는 경우 모델이 동일한 길이의 벡터를 분석할 수 있도록 해당 이미지의 크기를 조정해야 할 수 있습니다.
사용하는 모든 데이터에는 약간의 정리가 필요합니다. 전문가들은 해야 할 작업이 데이터의 추출, 변환, 로딩(ETL)으로 끝나지 않는다고 이야기합니다. 그 이후에도 데이터 과학에 적합하게 만드는 데 필요한 정리 작업은 일반적으로 머신러닝 프로젝트 전체 작업의 평균 80%를 차지합니다.
머신러닝에 대해 알아야 할 모든 것
머신러닝 사용 사례가 계속 확장됨에 따라 모델을 개선하고 고객을 위해 더 나은 제품을 만들 수 있는 모든 방법을 최신 상태로 유지하고 싶으시다면 아래 글을 추가로 읽어보세요.
용어 정리
- 인공지능(AI): 인간의 지능적 작업과 활동을 수행하는 기계의 능력으로, 독립적으로 작동할 수 있습니다.
- 챗봇: 일명 가상 비서로, 인간과의 대화를 시뮬레이션하는 소프트웨어입니다. 일반적으로 웹사이트나 모바일 앱에서 제공됩니다.
- 데이터 분류: 데이터를 특정 범주에 할당하는 과정으로, 특성에 따라 날짜, 소스, 유형 등으로 분류합니다.
- 데이터 라벨링: 지도 학습 모델에 사용될 목표를 가진 데이터에 라벨을 부여하는 과정입니다.
- 머신러닝: 기계가 데이터를 분석하고 스스로 학습하는 과정으로, 기계에 지침을 제공합니다.
- 강화 학습: 기계가 환경을 탐색하고 가장 효율적인 방법을 시행착오를 통해 학습하는 과정입니다.
- 구조화된 데이터: 컴퓨터가 쉽게 이해하고 분석할 수 있는 데이터로, 관계형 데이터베이스나 엔터프라이즈 시스템에서 발견됩니다.
- 지도 학습: 기계에 레이블이 지정된 데이터와 입력된 데이터를 제공하여, 모델이 출력을 예측하고 학습하는 과정입니다.
- 학습 데이터: 머신 러닝 프로젝트에서 사용되는 데이터로, 모델을 학습시키는 과정에서 사용됩니다.
- 구조화되지 않은 데이터: 쉽게 해석하거나 분석할 수 없는 데이터로, 문자, 녹음된 음성, 동영상, 소셜 미디어 게시물 등이 이에 해당합니다.
- 비지도 학습: 레이블이 지정되지 않은 데이터로 상관관계나 패턴을 찾고 이를 통찰력으로 전달하는 과정입니다.
에펜의 머신러닝 솔루션
에펜은 최고의 인간 및 기계 지능을 활용하여 어노테이션 된 고품질 학습 데이터를 제공합니다. 에펜의 데이터 어노테이션 플랫폼은 세계에서 가장 혁신적인 머신러닝 및 비즈니스 솔루션을 지원합니다. 또한 머신러닝 모델을 활용하여 라벨링을 자동화하고 작업자가 더 빠르고 정확하게 작업할 수 있도록 하는 스마트 라벨링 기능을 갖추고 있습니다.
머신러닝이나 인공지능 구축을 준비하고 계시다면 지금 바로 저희 에펜의 데이터 전문가에게 문의하세요!
머신러닝 프로젝트 지원이 필요하신가요? ML 전문가가 답변해 드립니다.