Inteligencia artificial para ayudarnos en la realización de guiones para videos: experimentos y aprendizajes
En Chequeado estamos constantemente buscando formas innovadoras de mejorar nuestro trabajo periodístico y de fact checking. Y una parte central de nuestro trabajo es que llegue a la audiencia en los formatos que suele consumir. Por eso, esta vez, exploramos el potencial de la Inteligencia Artificial (IA) Generativa para ayudarnos a escribir guiones para realizar videos de redes sociales sobre verificaciones en el marco de nuestro Laboratorio de IA impulsado por el fondo ENGAGE otorgado por IFCN.
Para esto, evaluamos cuatro modelos para que tomen el texto de una verificación realizada por nuestra redacción y la transformen en un guión de video. Esta tarea, que demanda mucho tiempo de lectura, análisis y reacomodamiento de la información, encaja con una de las fortalezas más grandes de estos modelos de IA: la posibilidad de entender una transformación de texto ya realizada y replicarla con un texto nuevo. En otras palabras, de replicar un trabajo realizado por un humano pero con una nueva materia prima.
Una de las ventajas es que el insumo primario es información confiable, ya que se trata de una verificación realizada por Chequeado. Entregar este insumo a los modelos evaluados permite restringir su ámbito de acción y reducir la variabilidad en las respuestas. En alguna medida, la intención es evitar una duplicación de trabajo y liberar a los periodistas para que usen su tiempo en otras tareas esencialmente creativas.
Resulta destacable que ya fue probada en casos reales y demostró ser útil, según testimonios recogidos en el equipo de Chequeado. El modelo que se detalla a continuación permitió reducir los tiempos de escritura de guiones, cumpliento el objetivo de liberar tiempo para los periodistas.
Evaluados los cuatro modelos sobre la misma tarea, nuestro análisis determinó que Claude Sonnet 3.5 fue el modelo con el resultado más consistente. Fue seguido de cerca por GPT-4. Llama 3 generó contenido correcto pero con problemas de formato, mientras que Gemini 1.5 mostró dificultades significativas para cumplir con la tarea.
Metodología
Para evaluar esta tarea se probaron tres prompts distintos en cada uno de los modelos evaluados. Cada prompt hizo uso de distintas estrategias para obtener el resultado final:
- Orden directa (sin diálogo) explicitando la consigna, la estructura narrativa del guión, proveyendo ejemplos textuales de frases que podría incluir el guión.
- Transformación de texto en base a un par [verificación; guión] anterior realizado por el equipo de Chequeado. La respuesta debe estar en formato de tabla de dos columnas que incluya imagen y texto de guión en cada una.
- Orden directa (sin diálogo) explicitando contexto, consigna específica, parámetros a cumplir. La respuesta debe estar en formato de tabla de dos columnas que incluya imagen y texto de guión en cada una.
Con las respuestas de estos tres tipos de prompt se evaluó cuál de ellos arrojó resultados más estables y de mejor calidad general más allá del modelo utilizado. Los parámetros tenidos en cuenta para definir la calidad general del guión fueron cualitativos:
- que incluya un inicio con gancho que capture la atención de la audiencia y que a la vez especifique qué desinformación circuló y que diga que se trata de una información falsa.
- que se especifique la viralidad de la desinformación.
- que incluya los argumentos que explican por qué es un caso de desinformación.
- que incluya un cierre con call to action llamando a compartir el video, visitar Chequeado.com o invitando a nuestro canal de whatsapp.
- que respete la información original.
- que respete el estilo de Chequeado.
Si bien los tres promts generaron respuestas útiles y que podrían servir, el segundo prompt fue evaluado como el mejor de los tres dado que mantuvo una mayor estabilidad, principalmente al momento de pedir un nuevo guión. Esto permite tener un chat permanente en el cual solo se copia y pega un nuevo texto de insumo para obtener como resultado un guión que casi no necesita edición, a pesar de que pasen varias semanas entre mensajes. Además, los guiones de este prompt fueron los que mejor se ajustaron a los criterios anteriormente citados, más allá de las diferencias entre modelos. Por último, el tercer prompt arrojó mejores resultados que el primero.
2°Prompt:
###Contexto####
Sos un periodista de datos y fact checking especializado en UX writing y en viralizar contenidos en plataformas de videos de un minuto en formato vertical como instagram y tik tok.
#Tarea#
Transformar textos en guiones de videos siguiendo una primera combinación de par (texto_de_nota, guion_de_video)
##Texto_de_nota##
[Insertar texto de verificación1]
##guión##
[Insertar texto de guion1]
##Texto_de_nota2##
[Insertar texto de verificación2]
El formato del guión debe ser a dos columnas, una para el texto a ser narrado y otra para su contrapartida de imagen.
A continuación se incluye un análisis específico de los resultados recibidos para el segundo prompt para cada modelo.
Comparación entre modelos
Probamos este enfoque con cuatro modelos de IA diferentes: GPT-4, Claude Sonnet 3.5, Llama 3 y Gemini 1.5. Estos fueron los resultados y observaciones realizados sobre el desempeño de cada uno, ordenados de mejor a peor. En cada captura, se utilizó la misma verificación como insumo.
Sonnet 3.5 (Claude): Fue el mejor, por un pequeño margen. Generó guiones acordes a los criterios antes planteados, superando a GPT en el correlato entre texto narrado e imágenes a mostrar. Además tuvo un mejor criterio para seleccionar qué información del texto original debía quedar en el guión final sin que éste sea excesivamente extenso. Fue fiel al estilo de Chequeado. Podría mejorar el formato de sus tablas.
ChatGPT-4o (Open AI): generó guiones muy buenos y en correcto formato, casi al nivel del mejor modelo. Sin embargo, no fue tan hábil sobre qué información incluir o no. Tampoco fue óptimo al sugerir qué tipo de imágenes debería acompañar en cada parte del guión.
Llama 3 (Meta AI): generó guiones correctos, pero no pudo acertar en el formato. De hecho, su formato de respuesta fue dificultoso para la lectura del ojo humano. Si bien quiso entregar una tabla de dos columnas, en concreto escribió texto simple incluyendo “-” donde debería separarse la columna.
Gemini 1.5: Tuvo dificultades para contestar correctamente la consigna. Muchas veces se negó a contestar (“No puedo ayudarte porque soy un modelo de lenguaje que no tiene capacidad para entender lo que me estás pidiendo y responder.”) u optó por no opinar de temas de política. Por esto resulta poco útil. Sin embargo, en los casos que sí respondió, no pudo hacerlo en formato de tabla de dos columnas, lo cual empeora la experiencia del periodista encargado de grabar el video. Además, no supo incluir toda la información requerida y generó guiones excesivamente breves.
Recomendaciones
- Si bien todos los prompts fueron correctos, la operación de pedir una transformación en base a un ejemplo previamente realizado por miembros del equipo fue muy útil. Esta misma estrategia podría aplicarse en varias tareas. De hecho, estos videos (I, II), que no son verificaciones, sirven de ejemplo.
- Verificar con precisión que el insumo que se entrega al modelo (el texto de la verificación) no tenga elementos extras o partes del texto no hayan sido incluidos en el primer ejemplo.
- Siempre es necesario revisar el resultado final, editarlo y verificar que no haya errores.
- Siempre existe la posibilidad, aun en los mejores modelos, de que se cometan errores. Además, al momento de grabar el video siempre se aconseja una revisión crítica del contenido.
No dejes de suscribirte a ChequIAdo, nuestro newsletter que te acerca info, videos, tips, avances de nuestro Laboratorio de IA y noticias que nos ayudan a seguir más de cerca el veloz avance de la inteligencia artificial.
Comentarios
Valoramos mucho la opinión de nuestra comunidad de lectores y siempre estamos a favor del debate y del intercambio. Por eso es importante para nosotros generar un espacio de respeto y cuidado, por lo que por favor tené en cuenta que no publicaremos comentarios con insultos, agresiones o mensajes de odio, desinformaciones que pudieran resultar peligrosas para otros, información personal, o promoción o venta de productos.
Muchas gracias