이 과정 소개
인공지능의 다음 진화는 텍스트를 넘어섭니다. Multimodal 에이전트는 이제 이미지를 분석하고, 복잡한 문서를 읽으며, 외부 도구를 사용하여 행동을 취할 수 있습니다. 이 기초 텍스트 강의에서는 시각적 데이터와 텍스트 데이터를 동시에 처리하는 AI 에이전트를 설계하고 구축하는 방법을 배웁니다. Agentic AI와 vision-language 모델의 핵심 개념부터 시작하여 문서 추출, 스크린샷 분석, 동적 tool calling을 위한 실전 구현 전략으로 나아갑니다.
학습 내용:
- Multimodal AI 및 agentic 워크플로우의 기초 용어 이해.
- 이미지, 스크린샷, 복잡한 문서에서 구조화된 데이터 처리 및 추출.
- 에이전트가 외부 시스템과 상호작용할 수 있도록 현대적인 tool calling 패턴 구현.
- vision-language 작업을 위해 특별히 설계된 prompt engineering 기법 적용.
- Multimodal 데이터를 처리하기 위한 기본적인 Retrieval-Augmented Generation (RAG) 개념 탐구.
- 다단계 추론을 원활하게 관리하는 견고한 에이전트 아키텍처 설계.
이 강의는 Multimodal 시스템의 필수 정의와 기본 아키텍처를 정립하는 것으로 시작합니다. 그 후, 단계별 텍스트 튜토리얼과 코드 스니펫을 읽으며 자신만의 문서 및 비전 처리 에이전트를 구축하게 됩니다. 이 강의는 AI 에이전트를 처음 접하는 초보자와 개발자를 위해 설계되었으며, 머신러닝에 대한 사전 경험은 필요하지 않습니다. 지금 바로 차세대 지능형, 행동 지향적 AI 에이전트 구축을 시작해 보세요.
받게 되는 것
-
📜
수료증
LinkedIn 프로필에 추가 -
🎧
오디오 버전 포함
화면 없이 어디서나 학습 -
♾️
평생 이용
언제든 다시 보세요, 만료 없음 -
📱
휴대폰 또는 컴퓨터
어디서든 모든 기기에서 -
💸
14일 환불
이유 묻지 않음 -
⚡
짧고 핵심적
1시간 15분의 실용 학습
리뷰
아직 리뷰가 없습니다 — 첫 경험을 공유해 보세요.
다른 학습자도 수강
자주 묻는 질문
이 과정을 듣는 데 무엇이 필요한가요? +
인터넷이 되는 휴대폰이나 컴퓨터만 있으면 됩니다. 설치나 특별한 장비는 필요 없습니다.
결제는 어떻게 하나요? +
Stripe를 통한 카드로. 카드 정보는 저장하지 않으며 Stripe가 안전하게 처리합니다.
환불받을 수 있나요? +
네 — 14일 이내 전액 환불, 이유를 묻지 않습니다.
얼마나 오래 이용할 수 있나요? +
평생. 구매하면 과정은 당신의 것이며 언제든 다시 볼 수 있습니다.
수료증을 받을 수 있나요? +
네. 수료 시 LinkedIn 프로필에 추가할 수 있는 수료증을 받습니다.
이런 분야 학습자에게
테크
디자인
금융
마케팅
의료
교육
호스피탈리티
제조업