Veo 3, la IA de Google que genera “videos realistas”

junio 26, 2025

Google tiene inteligencia artificial (IA) que genera “videos realistas”. Su nombre es 3 y funciona en una plataforma gemela, tecnología AI con la que Google desarrolla diferentes herramientas.

En este sentido, muchos se preguntan qué es y cómo funciona.

Esta es una plataforma que puede crear videos de alta calidad, con audio y primeros gráficos, de la descripción.

Incluso en su sitio web, la compañía se comunica con él mostrando innumerables ejemplos en los que se observan el aviso (orden) y el resultado.

Veo que 3 representa un salto significativo en la capacidad de generar contenido de video de alta calidad a partir de indicaciones de texto simples (video-video).

¿Qué veo 3?

Veo 3 diseñados para crear videos realistas y coherentes que difieren en varias características clave:

*Calidad visual superior: genera videos en resolución de hasta 1080p, con un gran cuidado de detalles, iluminación y texturas, lo que le permite producir cine tom.

*Movimiento avanzado: se destaca por su capacidad para lidiar con movimientos complejos de cámaras y objetos dentro del video, manteniendo la coherencia visual con el tiempo. Puede simular enfoques, panorámicos o monitorear de manera fluida.

*Comprensión de las consultas: interpreta las descripciones del texto de una manera sofisticada, registrando el tono, la atmósfera y los detalles específicos requeridos por el usuario. Esto permite una mayor lealtad entre la idea y el resultado final.

*Duración variable: aunque una duración específica puede depender de la aplicación, veo que 3 le permite generar recortes de video que se extienden fuera de lo que era posible con los modelos anteriores, aunque su enfoque principal es la creación de segmentos de alta calidad.

*Versatilidad creativa: puede producir una amplia gama de estilos de video, desde animaciones hasta tomas reales, abrir puertas, puertas y fábricas de contenido, cineastas y diseñadores hasta prototipos de ideas o generar material original.

¿Cómo funciona?

Veo que 3 se basan en la arquitectura de modelos generativos, probablemente utilizando una combinación de transformadores y redes de transfusión, que han demostrado ser muy efectivas en la síntesis de imágenes y videos.

El modelo aprende de enormes conjuntos de videos para darse cuenta de cómo se mueven los objetos, la interacción y cómo se comportan la luz y el color en diferentes escenarios.

Al recibir una consulta de texto, use este conocimiento para construir un video sobre la mesa, proporcionando coherencia temporal.

Así es como veo 3

La forma más fácil de usar 3 es a través del editor de una inteligencia artificial mejorada llamada Flow que le permite crear videos a partir de la descripción (consultas), modificar segmentos, proporcionando imágenes para que, entre otras cosas, como parte del video.

Esta herramienta requiere una suscripción a Google AI Pro o Ultra, y por ahora solo está disponible en algunos países.

Informática

Fuente