Konuşmayı metne çevirip multimodal LLM'e bağladığım ilk uygulamayı kurmak şaşırtıcı derecede kolaydı, başlangıç için harika.
Construcción de aplicaciones de AI multimodales: Speech-to-Text y LLMs
Una guía para principiantes para que los desarrolladores integren reconocimiento de voz, análisis de imágenes y LLMs multimodales en aplicaciones modernas utilizando APIs estándar y patrones de AI actuales.
Sobre este curso
Las aplicaciones modernas están yendo más allá del simple texto. Al integrar capacidades de procesamiento de voz, imagen y video, los desarrolladores pueden crear experiencias de usuario altamente interactivas e inteligentes. Este curso proporciona una comprensión fundamental de los Large Language Models (LLMs) multimodales y las tecnologías de speech-to-text. Aprenderás a escribir código que interactúa con modelos de AI para transcribir audio, analizar datos visuales y generar respuestas inteligentes, transformando aplicaciones estándar en potentes herramientas impulsadas por AI.
Lo que aprenderás:
- Comprender los conceptos básicos de la AI multimodal y cómo los modelos procesan diferentes tipos de datos;
- Escribir código para integrar APIs de speech-to-text para una transcripción de audio precisa;
- Procesar y analizar imágenes y fotogramas de video utilizando capacidades modernas de LLM;
- Aplicar técnicas fundamentales de prompt engineering adaptadas para entradas multimodales;
- Implementar patrones básicos de Retrieval-Augmented Generation (RAG) para medios enriquecidos;
- Construir scripts basados en texto que orquesten flujos de trabajo de AI complejos de manera fluida.
El plan de estudios comienza con terminología esencial de AI y conceptos fundamentales antes de pasar a la integración práctica de APIs y el manejo de datos. Progresarás a través de lecciones escritas estructuradas y fragmentos de código que aumentarán tu confianza en el manejo programático de varios tipos de medios. Este curso está diseñado para desarrolladores principiantes e ingenieros fullstack que buscan ingresar al espacio de la AI sin necesidad de experiencia previa en machine learning. Comienza a leer hoy mismo para desbloquear el potencial de la AI multimodal en tu próximo proyecto de desarrollo.
Lo que obtendrás
-
📜
Certificado de finalización
Añádelo a tu perfil de LinkedIn -
♾️
Acceso de por vida
Vuelve cuando quieras, sin caducidad -
📱
Teléfono o computadora
Funciona en cualquier dispositivo -
💸
Reembolso de 14 días
Sin preguntas -
⚡
Breve y enfocado
1 h 53 min de contenido práctico
Reseñas (1)
Otros también tomaron
🔥 Muy solicitado
IA generativa para el desarrollo de aplicaciones móviles
Certificado
Práctica
AR$ 22.000
→
🎓 Con certificado
Herramientas prácticas de IA para educadores
Certificado
Práctica
AR$ 22.000
→
⚡ Ideal para empezar
Fundamentos de IA generativa: conceptos básicos y alertas
Certificado
Práctica
AR$ 22.000
→
🎓 Con certificado
Desarrollo de aplicaciones LLM personalizadas con RAG y agentes
Certificado
Práctica
AR$ 22.000
→
Preguntas frecuentes
¿Qué necesito para tomar este curso? +
Solo un teléfono o computadora con internet. Sin instalaciones ni hardware especial.
¿Cómo pago? +
Con tarjeta a través de Stripe. No almacenamos datos de tarjeta — Stripe los gestiona de forma segura.
¿Puedo obtener un reembolso? +
Sí — reembolso completo en 14 días, sin preguntas.
¿Por cuánto tiempo tendré acceso? +
Para siempre. Una vez comprado, el curso es tuyo para revisarlo cuando quieras.
¿Obtendré un certificado? +
Sí. Al finalizar recibirás un certificado que puedes añadir a tu perfil de LinkedIn.
Diseñado para profesionales en
Tecnología
Diseño
Finanzas
Marketing
Salud
Educación
Hostelería
Manufactura