Como siguiente paso en el recorrido de IA de Amazon, la firma de tecnología ha creado y presentado en reInvent 2024 Amazon Nova, una nueva generación de modelos de base (FM). Con la capacidad de procesar texto, imágenes y videos como indicaciones, los clientes pueden usar aplicaciones de IA generativa impulsadas por Amazon Nova para comprender videos, gráficos y documentos, o generar videos y otro contenido multimedia.
“En Amazon, tenemos cerca de 1000 aplicaciones Gen AI en funcionamiento y hemos tenido una visión general de lo que los desarrolladores de aplicaciones aún están afrontando”, afirmó Rohit Prasad, vicepresidente sénior de Inteligencia Artificial General de Amazon. “Nuestros nuevos modelos Amazon Nova están pensados para ayudar a los desarrolladores internos y externos a afrontar estos desafíos, y proporcionar una inteligencia y una generación de contenido convincentes, al mismo tiempo que ofrecen un progreso significativo en latencia, rentabilidad, personalización, fundamentación de la información y capacidades de agente”.
Amazon Nova: Principales avances de los modelos de IA
Los nuevos modelos de Amazon Nova disponibles en Amazon Bedrock incluyen:
- Amazon Nova Micro, un modelo de solo texto que ofrece respuestas de menor latencia a un costo muy bajo.
- Amazon Nova Lite, un modelo multimodal de muy bajo costo que es increíblemente rápido para procesar entradas de imágenes, videos y textos.
- Amazon Nova Pro, un modelo multimodal de gran capacidad con la mejor combinación de precisión, velocidad y costo para una amplia gama de tareas.
- Amazon Nova Premier, el modelo multimodal más capaz de Amazon para tareas de razonamiento complejas y para usarse como el mejor profesor para desarrollar modelos personalizados (disponible en el primer trimestre de 2025).
- Amazon Nova Canvas, un modelo de generación de imágenes de última generación.
- Amazon Nova Reel, un modelo de generación de vídeo de última generación.
Como hemos visto todos los modelos de Amazon Nova son increíblemente capaces, rápidos, rentables y se han diseñado para que resulten fáciles de usar con los sistemas y los datos de un cliente.
De hecho admiten una amplia gama de tareas en 200 idiomas y múltiples modalidades. Amazon Nova Micro, Amazon Nova Lite y Amazon Nova Pro son al menos un 75 por ciento más económicos que los modelos con mejor rendimiento en sus respectivas clases de inteligencia en Amazon Bedrock. También son los modelos más rápidos en sus respectivas clases de inteligencia en Amazon Bedrock.
Los modelos están integrados con Amazon Bedrock, un servicio totalmente administrado que permite utilizar modelos de gestión de alto rendimiento de las principales empresas de inteligencia artificial y de Amazon a través de una única API. Con Amazon Bedrock, los clientes pueden experimentar y evaluar fácilmente los modelos de Amazon Nova, así como otros modelos de gestión de alto rendimiento, para determinar el mejor modelo para una aplicación.
Los modelos también admiten un ajuste personalizado, que permite a los clientes indicarles ejemplos de sus propios datos que han sido etiquetados para aumentar la precisión. El modelo de Amazon Nova aprende lo que más le importa al cliente a partir de sus propios datos (incluidos texto, imágenes y videos) y, luego, Amazon Bedrock entrena un modelo personalizado que proporcionará respuestas personalizadas.
Además de respaldar el ajuste fino, los modelos también admiten la destilación, que permite la transferencia de conocimiento específico desde un “modelo docente” más grande y altamente capaz a un modelo más pequeño y más eficiente que es altamente preciso, pero también más rápido y más económico de ejecutar.
Los modelos de Amazon Nova están integrados con las bases de conocimiento de Amazon Bedrock y se destacan en Retrieval Augmented Generation (RAG), lo que permite a los clientes garantizar la mejor precisión al basar las respuestas en los propios datos de la organización.
Los modelos de Amazon Nova se han optimizado para que sean fáciles de usar y efectivos en aplicaciones de agentes que requieren interactuar con los sistemas y datos propietarios de una organización a través de múltiples API para ejecutar tareas de varios pasos.
Generación de contenido creativo
Con la calidad de salida, la plataforma API intuitiva y las oportunidades de personalización avanzadas, los modelos de generación de creatividades de Amazon Nova, Amazon Nova Canvas y Amazon Nova Reel, están ayudando a Amazon Ads a eliminar las barreras para los vendedores y anunciantes, lo que lleva a nuevos niveles de creatividad e innovación, como el uso de publicidad en video por primera vez, la creación de campañas de display y video para más productos en su catálogo y la experimentación con nuevas estrategias como la creatividad a nivel de palabras clave.
En promedio, hemos visto que las marcas que usan estas herramientas anuncian cinco veces más productos y el doble de imágenes por producto anunciado, lo que cambia los presupuestos hacia lo que genera los mejores resultados.
Comprensión del video
Para poner a prueba las capacidades de comprensión de video de Amazon Nova Pro, le pedimos al modelo que revisara y describiera un breve videoclip mudo de un partido de fútbol. Los resultados incluyen detalles sobre el escenario del juego, los uniformes del equipo, descripciones de las acciones que realizan los jugadores y cómo culmina la jugada.
Generando materiales creativos
La comprensión visual también puede ayudar a los clientes a generar material creativo adicional. Por ejemplo, Amazon Nova Pro puede sugerir varios subtítulos para redes sociales para el mismo video del partido de fútbol.
Mirando hacia el futuro con Amazon Nova
En 2025, la firma tecnológica presentará dos modelos de Amazon Nova adicionales, incluido un modelo de conversión de voz a voz y un modelo nativo multimodal a multimodal (o “cualquiera a cualquier”).
El modelo de conversión de voz a voz comprenderá la entrada de voz transmitida en lenguaje natural, interpretará señales verbales y no verbales (como el tono y la cadencia) y ofrecerá interacciones naturales similares a las humanas, mientras que nuestro modelo “cualquiera a cualquier” será capaz de procesar texto, imágenes, audio y video, tanto como entrada como salida. Simplificará el desarrollo de aplicaciones en las que se puede usar el mismo modelo para realizar una amplia variedad de tareas, como traducir contenido de una modalidad a otra, editar contenido y potenciar agentes de IA que puedan comprender y generar todas las modalidades.