Un equipo de investigadores de Nvidia y diversas universidades, como Stanford y Berkeley, llevó a cabo un experimento en el que le mostraron capítulos de la famosa serie animada Tom y Jerry a una inteligencia artificial.
El objetivo fue observar si la IA sería capaz de generar nuevas escenas basadas en la animación original. Para ello, los investigadores utilizaron “prompts”, es decir, indicaciones detalladas y descriptivas, para guiar el proceso de creación de las escenas.
La inteligencia artificial logró generar secuencias de hasta un minuto con tres segundos en las que los personajes de Tom y Jerry realizaban diversas actividades, como las clásicas persecuciones, Jerry comiendo queso o Tom intentando entrar al agujero en el que se esconde su rival.

Los investigadores utilizaron descripciones minuciosas para instruir a la inteligencia artificial, detallando elementos clave como el entorno y las acciones de los personajes. Un ejemplo de los prompts utilizados es el siguiente:
“La cocina está ordenada, con paredes pintadas de amarillo suave y un suelo de baldosas a cuadros blancos y azul pálido. En el centro se encuentra una mesa rectangular de madera teñida de marrón. Jerry, el ratón marrón, está sentado erguido sobre la mesa, sosteniendo un pequeño bloque de queso amarillo con ambas patas. La cámara permanece fija, captando la amplia sonrisa de Jerry mientras se lleva el queso a la boca y da un gran mordisco con alegría”.
Estos detalles permitieron que la IA generara escenas que no solo replicaban la estética de la serie, también captaban el dinamismo de los personajes.

Este avance abre nuevas posibilidades en el campo de la inteligencia artificial aplicada a la creación de contenido visual, ya que muestra cómo los modelos de IA pueden aprender de los detalles de animaciones y generar escenas complejas a partir de instrucciones textuales muy específicas.
“La eficiencia de nuestra implementación también se puede mejorar. Solo hemos experimentado con vídeos de un minuto debido a limitaciones de recursos, pero el enfoque se puede extender a vídeos más largos e historias más complejas”, indican los investigadores.
Aunque los resultados obtenidos parecen prometedores, los investigadores señalaron que existen tres áreas clave que deben mejorarse para generar videos de mayor calidad con inteligencia artificial. “Los videos de un minuto generados demuestran un claro potencial como prueba de concepto, pero aún presentan artefactos notables”, indicaron. Las áreas que requieren mejoras son las siguientes:
- Consistencia temporal: Los cuadros muestran una transformación abrupta entre segmentos de tres segundos dentro de la misma escena.
- Naturalidad del movimiento: En algunas ocasiones, el queso flota en el aire en lugar de caer de manera natural al suelo.
- Estética: La iluminación de la cocina se vuelve drásticamente más brillante cuando Tom se da la vuelta.

La inteligencia artificial es capaz de generar escenas de Tom y Jerry gracias a una técnica avanzada llamada Entrenamiento en Tiempo de Prueba (TTT). Este enfoque permite que las redes neuronales sean más expresivas, mejorando la generación de contenido visual.
Al agregar capas TTT a un Transformer preentrenado, la IA puede crear videos de un minuto a partir de guiones gráficos de texto. En un experimento, se utilizó un conjunto de datos basado en los dibujos animados de Tom y Jerry.
Comparado con otros métodos como Mamba 2 o Gated DeltaNet, las capas TTT produjeron videos mucho más coherentes y capaces de contar historias complejas. Esto se comprobó mediante una evaluación humana, donde los videos generados por TTT superaron a otros métodos por una ventaja de 34 puntos Elo en una prueba con 100 videos.
Elo es un sistema de puntuación utilizado para medir el nivel relativo de habilidad entre competidores, originado en ajedrez. En este contexto, se aplica para evaluar la calidad de los videos generados por inteligencia artificial.