Actualizar notas con nueva info utilizando Inteligencia Artificial: experimentos y aprendizajes.

En este nuevo experimento del Laboratorio de Inteligencia Artificial de Chequeado, impulsado por el fondo ENGAGE otorgado por IFCN, evaluamos el potencial de la IA para actualizar artículos con nueva información, una tarea que tradicionalmente requiere tiempo y atención al detalle por parte de nuestros editores.

Un ejemplo común de esta tarea es el de los artículos que refieren a la actualización de indicadores que se publican periódicamente, como la inflación o la pobreza. En este experimento evaluamos la capacidad de los modelos de IA para acelerar este proceso. Este enfoque permite ampliar la cobertura periodística sobre indicadores y estadísticas públicas y ampliar las posibilidades de generación de valor por parte de la redacción de trabajo de la redacción.

Evaluados los cuatro modelos sobre la misma tarea, nuestro análisis determinó que Claude Sonnet 3.5 y GPT-4o demostraron el mejor desempeño general, con capacidades similares para actualizar artículos respetando la estructura original y manteniendo la mayoría de los enlaces relevantes. Ambos modelos lograron incorporar la nueva información de manera coherente, aunque presentaron algunos errores puntuales que resaltan la importancia de la supervisión humana. Por su parte, Llama 3.1 mostró un rendimiento comparable en términos de calidad de contenido, pero enfrentó limitaciones técnicas que afectaron la inclusión de enlaces, mientras que Gemini 1.5 tuvo dificultades significativas para completar la tarea de manera satisfactoria.

Metodología

Para esta tarea, construimos una prompt (instrucción para los modelos) que obligaba a los modelos a compartir, antes de actualizar el artículo, los cambios que proponían. La lógica detrás de este enfoque responde a que, en el proceso de actualización, el modelo puede incorporar información errónea o fuera de contexto. El hecho de que el modelo explique cada una de las actualizaciones a realizar permite a los periodistas validar con mayor rapidez y facilidad la exactitud de los datos y de las nuevas variantes introducidas por el modelo. Además, distintos expertos sugieren que obligar al modelo a explicar su razonamiento previo a la ejecución de la tarea tiende a mejorar los resultados obtenidos.

La prompt utilizada fue:

Sos un editor de IA con una gran habilidad para el razonamiento lógico y la comprensión lectora. Tenés un entendimiento profundo del lenguaje, estilo y gramática. Tu tarea es actualizar el artículo provisto por los usuarios con la información nueva que también deben proveer. Cuando un usuario entrega un texto y la información nueva, sigue los siguientes pasos:

Leé cuidadosamente el texto y sugerí actualizaciones de párrafos puntuales basadas en la nueva información provista. Para cada actualización necesaria tenés que presentar:
a) El texto original a modificar
b) El extracto de nueva información a utilizarse
c) La nueva versión sugerida
Si el usuario aprueba los cambios, propone una versión revisada de la nota con la información actualizada correspondiente. Si el usuario requiere cambios, volver al paso uno para ese párrafo puntual.

El resultado final debe ser una nota actualizada con nueva información, revisada para no incluir errores, ni inconsistencias, ser fiel a la información provista en el nuevo informe y coherente. Evita opiniones, juicios de valor. Proporciona una mirada objetiva y sin sesgos. La nota deberá ser en formato HTML. Incluí los links a fuentes al igual que hace la nota original.

Nota original: [adjuntar archivo]
Información nueva: [documento con datos actualizados]

Comparación entre modelos

Probamos este enfoque con cuatro modelos de IA diferentes: GPT-4, Claude Sonnet 3.5, Llama 3 y Gemini 1.5. Para ilustrar este proceso, tomamos como ejemplo la actualización de una nota sobre inflación en Argentina en el mes de abril y pedimos a los modelos actualizar el artículo con la información de mayo y el informe correspondiente. Estos fueron los resultados y observaciones realizados sobre el desempeño de cada uno:

Gemini 1.5

Este modelo requirió múltiples intentos para escribir la nueva nota. En su lugar, sugería estructuras de notas posibles pero no concretaba la tarea. Cuando finalmente logramos que escribiera el artículo el resultado fue muy por debajo de la media de los otros modelos. Escribió una nota genérica, sin asimilar la estructura ni contenido de la original, omitió información, agregó opiniones y consideraciones subjetivas y secciones que no estaban ni en la nota original ni en la consigna. No recomendamos utilizar este modelo para realizar esta tarea.

GPT-4o

En la primera pasada generó un artículo con nueva información respetando la estructura inicial de la nota, conservando todos los links relevantes. Para la mayoría de los casos actualizó correctamente, pero en dos secciones generó información imprecisa, lo cuál resalta la necesidad de la verificación humana.

En un caso escribió:

“[…] la inflación interanual en mayo de 2024 fue del 276,4% […], el valor más alto desde febrero de 1991 (cuando llegó al 582%)”.

Lo cuál es falso, ya que el mes de abril tuvo mayor inflación interanual que mayo.

En otra sección listó las provincias con mayor inflación y aunque actualizó correctamente los valores por región, tuvo problemas para ordenar la lista de forma descendente:

“[…] el mayor índice de inflación en mayo se registró en la región Pampeana (4,3%), seguido por Gran Buenos Aires (4,2%), Cuyo (4,5%), Patagonia (4,0%), Noreste (3,7%) y Noroeste (4,2%)”.

Una particularidad que puede generar problemas es que el artículo nuevo es muy similar al original. Por fuera de los datos actualizados, no hay parafraseo ni modificación sustancial del contenido, por lo que los motores de búsqueda podrían potencialmente entender ambos artículos como contenido duplicado.

Claude Sonnet 3.5

Al igual que GPT-4o, generó un artículo con nueva información respetando la estructura inicial de la nota, conservando la mayoría de los links relevantes, aunque dejó algunos de lado. A diferencia de GPT-4o, no tuvo problemas para comprender el cambio estadístico de la inflación interanual:

“[…] la inflación interanual en mayo de 2024 fue del 276,4% con respecto a igual mes de 2023, manteniéndose en niveles históricamente altos, aunque mostrando una leve desaceleración respecto al mes anterior.”

Pero para el listado de valores provinciales tuvo el mismo problema que GPT:

“Por regiones, el mayor índice de inflación en mayo se registró en el Gran Buenos Aires (4,3%), seguido por el Noroeste y Cuyo (ambos con 4,3%), la región Pampeana (4,0%), Patagonia (4,5%) y Noreste (3,7%).”

Llama 3.1 (Meta AI)

Debido a las restricciones de subida de archivos de Meta.ai tuvimos dificultades para cargar la nota y el informe. En lugar de adjuntar el archivo HTML de la nota de Chequeado y el PDF del INDEC, copiamos en texto plano el artículo de inflación de abril y el texto plano del PDF dentro de la prompt. Esto resultó en la falta de links en el resultado final.
Por fuera de este inconveniente, el texto generado por Llama 3.1 fue de la misma calidad que Claude Sonnet 3.5 y GPT-4o. Al igual que Claude, Llama no tuvo problemas en comprender los cambios de la dinámica de inflación interanual:

“De este modo, la inflación interanual en mayo de 2024 fue del 276,4% con respecto a igual mes de 2023, un valor significativo aunque ligeramente inferior al registrado en abril.”

Para la resolución de inflación por región, el modelo no pudo comprender los datos provistos en el informe y también cometió una equivocación:

“Por regiones, no se registraron variaciones significativas en mayo.”

Recomendaciones

Algunas recomendaciones basadas en nuestra experiencia con este experimento:

Supervisión humana: aunque la IA puede hacer gran parte del trabajo, sigue siendo crucial la revisión por parte de editores humanos para garantizar la precisión y el contexto adecuado. Todos los modelos cometieron al menos un error en este proceso.
Proveer todos los insumos: acompañar la prompt con los documentos relevantes es fundamental para obtener buenos resultados. La presencia de la nota original provee al modelo de un formato para replicar, y la del documento le provee los datos necesarios para actualizarlo.

Notas similares: mientras más similar sea la nota provista de ejemplo inicial al artículo esperado mejores serán los resultados.

Esperamos que este experimento, junto con la serie que venimos realizando y podés ver acá, acá, acá y acá, te resulte útil. A nosotros nos sirve un montón tus comentarios y sugerencias, así que si querés, podés dejarlos abajo.

Ah, y no dejes de suscribirte a ChequIAdo, nuestro newsletter que te acerca info, videos, tips, avances de nuestro Laboratorio de IA y noticias que nos ayudan a seguir más de cerca el avance de la inteligencia artificial.

Disclaimer: este texto fue redactado con la asistencia de Claude.

Comentarios

Valoramos mucho la opinión de nuestra comunidad de lectores y siempre estamos a favor del debate y del intercambio. Por eso es importante para nosotros generar un espacio de respeto y cuidado, por lo que por favor tené en cuenta que no publicaremos comentarios con insultos, agresiones o mensajes de odio, desinformaciones que pudieran resultar peligrosas para otros, información personal, o promoción o venta de productos.

Muchas gracias

Metodología

Comparación entre modelos

Comentarios

Cancelar respuesta