Google tiene inteligencia artificial (IA) que genera “videos realistas”. Su nombre es 3 y funciona en una plataforma gemela, tecnología AI con la que Google desarrolla diferentes herramientas.
En este sentido, muchos se preguntan qué es y cómo funciona.
Esta es una plataforma que puede crear videos de alta calidad, con audio y primeros gráficos, de la descripción.
Incluso en su sitio web, la compañía se comunica con él mostrando innumerables ejemplos en los que se observan el aviso (orden) y el resultado.
Veo que 3 representa un salto significativo en la capacidad de generar contenido de video de alta calidad a partir de indicaciones de texto simples (video-video).
¿Qué veo 3?
Veo 3 diseñados para crear videos realistas y coherentes que difieren en varias características clave:
*Calidad visual superior: genera videos en resolución de hasta 1080p, con un gran cuidado de detalles, iluminación y texturas, lo que le permite producir cine tom.
*Movimiento avanzado: se destaca por su capacidad para lidiar con movimientos complejos de cámaras y objetos dentro del video, manteniendo la coherencia visual con el tiempo. Puede simular enfoques, panorámicos o monitorear de manera fluida.
*Comprensión de las consultas: interpreta las descripciones del texto de una manera sofisticada, registrando el tono, la atmósfera y los detalles específicos requeridos por el usuario. Esto permite una mayor lealtad entre la idea y el resultado final.
*Duración variable: aunque una duración específica puede depender de la aplicación, veo que 3 le permite generar recortes de video que se extienden fuera de lo que era posible con los modelos anteriores, aunque su enfoque principal es la creación de segmentos de alta calidad.
*Versatilidad creativa: puede producir una amplia gama de estilos de video, desde animaciones hasta tomas reales, abrir puertas, puertas y fábricas de contenido, cineastas y diseñadores hasta prototipos de ideas o generar material original.
¿Cómo funciona?
Veo que 3 se basan en la arquitectura de modelos generativos, probablemente utilizando una combinación de transformadores y redes de transfusión, que han demostrado ser muy efectivas en la síntesis de imágenes y videos.
El modelo aprende de enormes conjuntos de videos para darse cuenta de cómo se mueven los objetos, la interacción y cómo se comportan la luz y el color en diferentes escenarios.
Al recibir una consulta de texto, use este conocimiento para construir un video sobre la mesa, proporcionando coherencia temporal.
Así es como veo 3
La forma más fácil de usar 3 es a través del editor de una inteligencia artificial mejorada llamada Flow que le permite crear videos a partir de la descripción (consultas), modificar segmentos, proporcionando imágenes para que, entre otras cosas, como parte del video.
Esta herramienta requiere una suscripción a Google AI Pro o Ultra, y por ahora solo está disponible en algunos países.
Informática