Sora, el modelo IA que puede crear vídeos a partir de texto

Ordenadores

Ángel Aller - Última actualización: 4 de junio de 2024

No te pierdas el lanzamiento de Sora, un modelo IA de OpenAI que va a revolucionar el mundo audiovisual.

Ángel Aller

— Amante del hardware.

Experto en ordenadores y gaming

Qué es Sora, el generador de vídeo IA de OpenAI

Sora es un modelo IA que puede crear escenas realísticas en vídeo a través de instrucciones de texto. Así lo define la misma OpenAI en su web oficial, donde podemos ver varias demos de todas sus capacidades; de hecho, la compañía aclara que los vídeos son generados sin modificaciones.

Entonces, Sora es un modelo IA que puede generar un vídeo de 1 minuto de duración y una calidad visual de 1080p. Eso sí, la descripción debe ser muy clara, aunque asusta la cantidad de detalle que se consigue, ¡ojo a los escritores porqué pueden sacar mucho provecho a su imaginación!

La variedad de escenas en vídeo que puede crear es brutal:

Muchos personajes.
Elementos en movimiento.
Detalles de background y de las personas al máximo nivel.

Es más, se pueden recrear cosas que ya existen (o existieron), como han mostrado a la vieja California durante la fiebre del oro. Para ello, destacan que el modelo Sora conoce bien el idioma, interpreta las indicaciones y genera justo lo que buscamos.

Todo no es color de rosa, y nos advierten de que hay cosas en las que deben seguir trabajando:

La causa y efecto todavía no las comprende.
Rastros de una acción sin consecuencia.
Confusiones de izquierda o derecha.
Trayectorias de cámaras.

Debemos entender que no solo hay que describir bien lo que queremos, sino que la cámara o el FOV que se genera también debe ser acorde, ¡eso es muy difícil!

Sora no solo es capaz de crear un vídeo, sino que afirman que puede ampliarlos y hacerlos más largos. Al fin y al cabo, hacen uso de Deep Learning de forma similar que ChatGPT.

Cómo logra Sora crear un vídeo

No han ahondado mucho en el proceso, pero sí en ciertos detalles que pueden ser interesantes. Tal y como ocurre en videojuegos o en tecnologías como FSR 3 o DLSS, usan un denoiser o eliminador de ruido para ofrecer una imagen nítida.

También usan una arquitectura con transformador para reescalar frames a la resolución final de 1080p. Los vídeos e imágenes son representados como colecciones de unidades de datos muy pequeñas que denominan “parches”, y cada “parche” equivale a un token. Gracias a la inteligencia artificial, pueden entrenar los transformadores abarcando muchos datos visuales: resolución, duración y relación de aspecto.

Destacan el uso de la técnica de recaptioning de DALL-E 3: generar subítulos descriptivos para datos de entrenamiento visual. Os recuerdo que DALL-E es el modelo IA para la creación de imágenes a través de prompts.

Por otro lado, es interesante que digan que no solo puede crear un vídeo desde texto, sino también desde una imagen fija. En dicho caso, puede animarla, como si crease una especie de Gif.

OpenAI es la empresa de IA generativa con más relevancia

El ChatGPT fue una revolución, GPT-4 también y no pasó desapercibido el modelo DALL-E 3. No recuerdo que nadie publicase un modelo con el que crear vídeos o escenas a través de un prompt o una instrucción de texto.

Después de los modelos que ha lanzado esta empresa, Microsoft con Copilot y Bing AI, así como Google con Bard y Gemini, van detrás en esta carrera.

Problemas de seguridad y confusión con la realidad

Es tan realista que se puede confundir con información errónea a los humanos sobre una realidad, así que están trabajando en herramientas para poder detectar si el vídeo ha sido creado por Sora.

Vivimos en una era donde se puede manipular a masas de personas con un simple Tweet, aunque ahora existan las notas de comunidad. Por tanto, OpenAI ya ha previsto varios supuestos de hecho:

Incito al odio y prejuicios.
Detectar contenido engañoso con metadatos C2PA.
Mismos métodos de seguridad para DALL-E que para Sora.
Clasificador de texto para verificar qué piden generar a Sora.
Clasificadores de imágenes para revisar frames y garantizar que el vídeo cumple las políticas de OpenAI.

Sin embargo, avisan de que no pueden predecir todos los usos, ni de las formas que pueden abusar de Sora. Así que, opinan que es muy crítico crear y lanzar sistemas de IA conforme pasa el tiempo.

Acceso a usar Sora: quién lo tiene y cómo conseguirlo

Solo miembros del “equipo rojo” pueden acceder a Sora, así como diseñadores, artistas y cineastas para ofrecer feedback a OpenAI.

El “equipo rojo” o “red team” es un grupo de una empresa que tiene por fin mejorar un producto en lo que a ciberseguridad refiere creando escenarios de ataques o de vulneración. Es vital para supervisar la seguridad de una empresa, simulando ataques.

En el foro de OpenAI se habla de que están pensando en crear una lista de espera al estilo “beta”. No podemos deciros una fecha de lanzamiento, sino que Sora solo ha sido presentada en forma de “teaser”.

Todo ello indica que hay trabajo por hacer, pero que se están haciendo avances muy prometedores.

¡Os iremos informando!

Echa un vistazo a estos posts relacionados:

post