Escribir hilos de X utilizando la inteligencia artificial: aprendizajes del nuevo experimento de nuestro Laboratorio de IA

Una de las tareas que habitualmente realizamos en Chequeado es transformar los contenidos que publicamos en nuestro sitio y adaptarlos a varios formatos para las diferentes plataformas.

Uno de esos trabajos es, a partir de un artículo de la web, armar hilos para la red social X (antes Twitter). A raíz de esta necesidad, decidimos hacer un nuevo experimento en el Laboratorio de Inteligencia Artificial de Chequeado, impulsado por el fondo ENGAGE otorgado por IFCN, y comprobar si el uso de la inteligencia artificial nos podría ayudar a completar esta tarea en menos tiempo, si los resultados que generamos a partir de los prompts fueron fidedignos y si nos servirían para efectivamente publicarlos con supervisión previa de nuestros editores.

Para esto, utilizamos tres versiones de los modelos de lenguaje de gran tamaño (LLMs) para determinar cuál podría ser de mayor utilidad. Los LLMs que decidimos implementar para esta tarea fueron Claude Sonnet 3.5 de Anthropic, GPT-4o de OpenAI y Llama 3 de Meta.

Es necesario aclarar que para este trabajo no se pudo utilizar Gemini 1.5 de Google porque frente a la petición, el servicio respondió que su entrenamiento no permitía cumplir la tarea requerida, tanto en inglés como en castellano, lo que ya es un primer dato que nos sirve -y ojalá a ustedes también- para la evaluación del modelo y su evolución futura.

De acuerdo a la evaluación realizada, Claude Sonnet 3.5 y ChatGPT lograron los resultados más útiles a la hora de generar hilos que luego fueron publicados en la cuenta X de Chequeado.

Además de tomar como objetivo observar cuán útil nos resultaban los LLMs para optimizar tiempo y resolver la tarea, este ejercicio también tuvo la finalidad de medir el impacto de una información publicada en formato breve (título de nota, bajada y link) versus la publicación de un hilo de la misma temática.

Metodología

A cada una de las IAs les dimos como input el artículo de Chequeado que decidimos tomar como base para hacer las pruebas. Es importante aclarar que no todas las notas eran elegibles para esta tarea. Debían ser contenidos que pudieran ser resumidos de manera significativa en una cantidad limitada de tuits para integrar el hilo de X.
Luego de ingresar la nota, proporcionamos este prompt:

Quiero armar un hilo de posteos para la red social X que respete los ítems y el estilo de esta nota

Comparación entre modelos

GPT-4: el modelo entendió la consigna y generó entre 10 y 12 posteos para X por cada artículo dado. En todos los casos interpretó que al ser un hilo era conveniente agregar emojis y un hashtag. Los textos fueron fidedignos aunque, en algunos casos, ChatGPT tomó textuales citados en las notas como una afirmación correcta, sin citar quién era el autor de la frase.
Sonnet 3.5 (Claude): Ia IA de Anthropic cumplió la tarea con precisión pero, a diferencia de ChatGPT, utilizó menos emojis, respetó con fidelidad cuando los textos tenían una cita textual y usó con propiedad las comillas, citando al autor correspondiente. Los hilos de Claude fueron resumidos en una mayor cantidad de posteos que los generados con otras IAs. Como en otras tareas que solicitamos, Claude trató de agrupar contenido en bullets que logran una comprensión del texto más sencilla.
Llama 3 (Meta AI): Meta realizó la tarea, pero hubo que especificar en el prompt que el resultado debería ser en español. Por otra parte, no respetó el formato periodístico original para que pudiera ser publicado. En muchos casos generó afirmaciones que podrían denotar apoyo, admiración o posiciones editoriales que no se encontraban en el texto de origen.
Gemini 1.5: el modelo se negó a realizar la tarea y respondió con el siguiente mensaje: “Ahora mismo no puedo ayudarte con eso. Me han entrenado para ofrecer la mayor precisión posible, pero a veces cometo errores. Mientras trabajo para perfeccionar mi forma de debatir sobre elecciones y política, puedes probar con la Búsqueda de Google”.

Conclusiones

En general, los textos pueden no adaptarse a las necesidades de forma exacta, pero ahorran tiempo en la formulación de la estructura para armar hilos.
Tanto ChatGPT como Claude sugirieron emojis que en todos los casos ayudaron al armado de los posteos y lograron una lectura más amena.
En algunas oportunidades estas herramientas malinterpretaron e incluso inventaron conclusiones que no se desprendían del texto original.
En ningún caso los textos generados pudieron ser publicados sin la revisión de un editor.
En todos los casos que publicamos hilos generados a partir de una IA, la cuenta de Chequeado en X aclaró que se usó esta metodología y que un editor lo corrigió y lo aprobó.
En un análisis inicial se registra una notable diferencia de alcance en favor de los hilos frente a los posteos en los que simplemente se publicó un link al artículo correspondiente.

Algunos hilos publicados por @chequeado mediante este ejercicio:

Hilo sobre ola de frío en la Argentina.
Teorías conspirativas sobre el intento de asesinato a Donald Trump.
¿Qué son los puts que el Banco Central comenzó a cancelar?

Esperamos que este experimento y lo que aprendimos al hacerlo les resulte tan útil como a nosotros, y siempre nos sirve que nos acerquen comentarios o sugerencias para hacer mejor nuestro trabajo. ¡Pueden hacerlo aquí en los comentarios!

Para cerrar (por ahora), va info de contexto por si te perdiste los experimentos anteriores:

Primer experimento del Laboratorio de IA de Chequeado: simplificar conceptos complejos con Inteligencia Artificial

Cómo los chequeadores podemos aprovechar el impulso de la Inteligencia Artificial Generativa

¡Hasta la próxima!

Bonus track. Si te interesa recibir novedades sobre IA en tu correo electrónico, no dejes de suscribirte a ChequIAdo, nuestro newsletter especializado que selecciona las novedades más relevantes del sector.

Comentarios

Valoramos mucho la opinión de nuestra comunidad de lectores y siempre estamos a favor del debate y del intercambio. Por eso es importante para nosotros generar un espacio de respeto y cuidado, por lo que por favor tené en cuenta que no publicaremos comentarios con insultos, agresiones o mensajes de odio, desinformaciones que pudieran resultar peligrosas para otros, información personal, o promoción o venta de productos.

Muchas gracias

Metodología

Comparación entre modelos

Conclusiones

Comentarios

Cancelar respuesta