AI 에이전트란? GUI 에이전트와 GUI 추적기

2025/03/23

GUI AI 에이전트는 멀티모달 인식과 대규모 언어 모델(LLM)을 기반으로 작동하는 AI 시스템으로, 클릭, 타이핑, 스와이프 등 자연어 명령을 통해 컴퓨터나 모바일 기기에서 작업을 자동화합니다. 이러한 AI 에이전트가 정확하고 원활하게 동작하려면 방대한 양의 고품질 학습 데이터가 필수적입니다.

최근 AI 에이전트 기술이 급격히 발전하면서, Manus와 같은 혁신적인 솔루션이 주목받고 있습니다. OpenAI를 비롯한 주요 기술 기업들은 Operator, UI-TARS, AutoGLM과 같은 GUI AI 에이전트 솔루션을 선보이며, 보다 지능적인 사용자 인터페이스 자동화를 실현하고 있습니다.

이러한 에이전트가 다양한 환경에서 정확하게 작동하려면, 사용자 인터페이스 상호작용 데이터를 정밀하게 수집하고 분석하는 과정이 필수적입니다. 데이터의 정확성, 다양성, 시나리오 적용 범위는 AI 에이전트의 지능과 일반화 성능을 결정짓는 핵심 요소입니다.

GUI Tracker: AI 개발자를 위한 맞춤형 데이터 솔루션

에펜은 GUI AI 에이전트 개발을 지원하기 위해 GUI Tracker라는 혁신적인 도구를 개발했습니다. 이 도구는 클릭과 스와이프 같은 기본적인 동작부터 복잡한 명령 실행까지 포괄적으로 분석하여, PC나 모바일 플랫폼에서의 사용자 상호작용 데이터를 정확하게 포착합니다. 이를 통해 GUI AI 에이전트의 학습과 최적화에 필요한 데이터를 효과적으로 지원합니다.

에펜의 GUI Tracker가 제공하는 세 가지 핵심 기능을 자세히 살펴보겠습니다.

1. 시나리오 기반 어노테이션 시스템(Scenario-based Annotation System)

: 온라인 쇼핑 주문이나 여행 일정 계획과 같은 사용자 지정 작업 및 레이블 지원

에펜의 GUI Tracker는 단순한 동작 인식에서 벗어나, "미시 수준의 행동 분석"을 "거시적 작업 의도"까지 확장하는 의미적 업그레이드를 제공합니다. 사용자는 특정 궤적 수집 지침을 설정할 수 있습니다. 예를 들어 "GitHub에서 가장 많은 별점을 받은 Deepseek 프로젝트 찾기”와 같은 작업을 정의하고, 이를 세부 단계로 분할할 수 있습니다.

  • 거시적 작업: GitHub에서 인기 프로젝트 검색
  • 미시적 작업: GitHub 접속 ​​→ 검색 창 열기 → "Deepseek" 입력 → "검색" 버튼 클릭

또한, GUI Tracker는 거시 작업과 미시 작업 간의 매핑 관계를 설정하고, 각 작업의 궤적을 상세히 기록할 수 있도록 지원합니다. 이 기능을 통해 AI 에이전트는 보다 구조화된 시나리오 기반 데이터를 학습하여, 복잡한 작업을 수행하는 논리적 흐름을 이해하고 실행 정확도와 지능을 향상시킬 수 있습니다.

2. 다단계 의미적 상호작용(Multi-level Semantic Interaction)

: 화면 캡처 · 터치 궤적 · 시스템 이벤트 로그 지원

에펜의 GUI Tracker는 "시각적-행동적-시스템"의 3차원 데이터 캡처 기술을 활용하여 다양한 사용자 상호작용을 정밀하게 수집합니다. 그 예시로, 아래와 같이 다양한 상호작용 방법에 대한 데이터 수집을 포괄적으로 지원합니다.

  • 마우스 입력: 클릭(좌/우), 더블 클릭, 드래그, 스와이프
  • 키보드 입력: 단일 키 입력, 단축키 조합
  • 모바일 조작: 스와이프, 탭 등 터치 기반 인터랙션

이러한 데이터를 사용자 행동과 인터페이스 속성 간의 관계를 심층적으로 분석하여, "작업 → 제어 → 응답"의 의미적 맵을 구성합니다. 예를 들어, AI 에이전트가 버튼을 식별하고 버튼의 기능을 이해한 후, 적절한 작업을 실행하는 지능적인 의사 결정 루프를 수행할 수 있도록 합니다.

GUI Tracker는 단순한 인터랙션 기록을 넘어, AI 에이전트 학습을 위한 고정밀 데이터셋을 제공합니다. 이를 통해 개발자는 더 스마트하고 효율적인 GUI 에이전트 애플리케이션을 구축할 수 있습니다.

3. 다중 플랫폼 어노테이션 기능

: PC 및 모바일에서 명령어 수집 지원

에펜의 GUI Tracker는 PC, 스마트폰, 태블릿 등 다양한 플랫폼에서 데이터 수집 작업을 원활하게 지원합니다. PC에서는 마우스 움직임과 키보드 입력을, 모바일 기기에서는 터치, 탭, 스와이프 등의 동작을 정확하게 캡쳐하고 어노테이션을 추가하여 크로스 플랫폼 상호 작용 데이터의 일관성과 무결성을 보장합니다.

이 기능을 통해 개발자는 다양한 기기에서 원활하게 작동하는 GUI AI 에이전트를 구축할 수 있으며, 다양한 사용 시나리오에서 사용자 요구를 효과적으로 반영할 수 있습니다. 또한, AI 에이전트 일반화 기능과 실용성을 더욱 향상합니다.

에펜 GUI Tracker의 활용 사례

산업용 GUI AI 에이전트 학습

기존 RPA가 고정된 스크립트에 의존하는 것과 달리, GUI AI 에이전트는 음성 명령과 시각적 데이터를 결합하여 보다 유연한 작업 처리가 가능합니다. 이를 통해 공급망 관리, 장비 모니터링 등 복잡하고 긴 프로세스를 효율적으로 수행하며, 산업 자동화를 한층 더 지능적으로 발전시킵니다.

학술 연구 지원

학계에서 활용할 수 있는 다양한 고품질 GUI 상호 작용 데이터 세트를 제공하여 인간-컴퓨터 상호 작용, 인지 과학, AI 교육 연구를 지원합니다. 또한, 사용자 작업 경로를 정량적으로 분석하여 연구의 과학적 혁신과 이론적 발전을 돕습니다.

일상 업무 및 생활 지원

GUI AI 에이전트는 사무 환경에서 복사, 내보내기, 보고서 생성 등의 작업을 효율적으로 수행하여 반복적인 기계적 작업에 소요되는 시간을 절약합니다. 또한, 플랫폼 간 데이터 수집 및 통합을 지원하며, 전자상거래 쇼핑 및 주문 배치와 같은 일상적인 작업도 원활하게 처리하여 삶의 편리함과 효율성을 높입니다.

에펜의 MatrixGo 플랫폼에 탑재된 GUI Tracker는 사용자 동작 이벤트를 자동으로 캡쳐하고 기록하여 수동 개입 없이 대규모 모델 프로젝트의 데이터 수집 효율성과 정확성을 크게 향상시킵니다. 에펜은 AI 기술을 활용해 데이터 수집과 가공의 전체 과정을 강화하고, 데이터 생산성을 높이며, AI 애플리케이션 개발에 필요한 충분한 데이터를 제공하여 다양한 시나리오에서 AI 애플리케이션의 대규모 배포를 지원합니다.

에펜의 데이터 어노테이션 플랫폼은 광범위한 어노테이션 시나리오를 지원하는 다양한 라벨링 툴과 통합되어 있습니다. 지금 바로 AI 에이전트 전문가에게 AI 솔루션 상담받고 무료 어노테이션 툴 사용 기회를 경험해 보세요!

LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.