¿Qué tan confiables son los chatbots para verificar afirmaciones políticas?

Si tenés sólo unos segundos, leé estas líneas:

Según un informe del Instituto Reuters, el uso de chatbots de inteligencia artificial para informarse y consumir noticias se duplicó en el último año y, puntualmente, Argentina es uno de los países donde más creció.
Chequeado realizó una exploración propia para evaluar qué tan confiables son estos sistemas cuando se los usa para verificar afirmaciones políticas. Los datos muestran que el 36% de las respuestas presentó algún tipo de problema informativo.
Entre los problemas identificados había cifras incorrectas, alucinaciones de frases y fuentes, fallas en el uso de datos, así como estadísticas no pertinentes, entre otras cosas.

Los chatbots de inteligencia artificial, como ChatGPT, se volvieron una herramienta cada vez más común para buscar información. Según un informe del Instituto Reuters, este tipo de uso se duplicó en el último año y, puntualmente, Argentina es uno de los países donde más creció la adopción de estas herramientas para consumir noticias.

En paralelo con este aumento en la adopción de estas tecnologías, también creció la preocupación por la calidad de la información que ofrecen. Distintos estudios muestran que su desempeño está lejos de ser confiable. Por ejemplo, la organización NewsGuard encontró que los principales modelos repiten información falsa en más de un tercio de sus respuestas sobre temas de actualidad.

En otra serie de investigaciones, Proof News y Factchequeado detectaron que los errores son más frecuentes en español que en inglés: más de la mitad de las respuestas sobre elecciones contenían información incorrecta y, en muchos casos, eran incompletas o potencialmente engañosas. Otro estudio sobre la cadena inglesa BBC amplió el enfoque más allá de la precisión fáctica y analizó cómo los chatbots, aún usando fuentes periodísticas, pueden distorsionar contenidos de calidad.

En este contexto, Chequeado realizó una exploración propia para evaluar qué tan confiables son estos sistemas cuando se los usa para verificar afirmaciones políticas en Argentina.

Qué se hizo y qué se encontró

En la investigación de este medio se analizaron 106 respuestas generadas por los modelos Gemini, ChatGPT, Grok y la IA integrada al buscador de Google frente a consultas sobre la veracidad de 14 afirmaciones realizadas por el presidente Javier Milei en la apertura de sesiones del 1° de marzo de 2026.

Las consultas se realizaron en distintas condiciones: durante el discurso, poco después y al día siguiente; con diferentes configuraciones de usuario y variaciones en la forma de preguntar.

Los datos muestran que el 36% de las respuestas presentó algún tipo de problema informativo. Estos incluyeron desde cifras incorrectas hasta alucinaciones de frases o fuentes inexistentes. También detectamos fallas en el uso de datos y fuentes, como estadísticas no pertinentes, incompatibles entre sí o metodológicamente inadecuadas para la pregunta formulada.

El problema no se limita a errores evidentes. En muchos casos, las respuestas combinaban datos correctos de forma engañosa o llegaban a conclusiones que no se desprendían de la evidencia presentada. En esa línea, encontramos inconsistencias internas entre los datos y los veredictos, así como fallas en el razonamiento y la argumentación. A nivel editorial, se observaron desvíos respecto del eje de la pregunta y, en algunos casos, el uso de lenguaje valorativo o tendencioso.

En la investigación, el modelo con peor desempeño fue Gemini, con un 53% de respuestas problemáticas. Le siguieron ChatGPT, con un 34,1%; Grok, con un 25%; y las respuestas generadas por IA en las búsquedas en Google, con un 14,3%.

Gemini fue el único modelo en el que se detectaron alucinaciones: inventó fuentes (como notas de Chequeado inexistentes o páginas oficiales que no existen o están caídas) y atribuyó a Milei frases que, en realidad, no fueron pronunciadas durante el discurso.

Además, en la exploración se encontró que pedir explícitamente fuentes confiables no garantiza mejores resultados. Cuando se utilizó un prompt con instrucciones específicas, Gemini inventó fuentes oficiales o de este medio en el 87,5% de sus respuestas, a diferencia de ChatGPT que, consultado con el mismo prompt y en el mismo momento, no solo no inventó fuentes sino que utilizó notas de Chequeado correspondientes al tema consultado en el 100% de los casos.

Consultados por este medio, Google contestó con información anunciada sobre nuevas funcionalidades de búsqueda con IA, que incluyen aumentar la cantidad de vínculos, entre otras cosas. Ni OpenAI ni Grok habían respondido las consultas al momento de la publicación.

¿Por qué los modelos de lenguaje cometen errores?

Los problemas detectados no son casuales, sino que están vinculados directamente con la forma en que funcionan estos sistemas. Los chatbots generan respuestas a partir de patrones de lenguaje aprendidos durante su entrenamiento.

Laura Alonso Alemany, profesora e investigadora en Ciencias de la Computación en la Universidad Nacional de Córdoba y doctora en Lingüística por la Universidad de Barcelona, explicó a este medio que lo que hace un modelo es dar la secuencia de palabras más probable dado el contexto de una frase o de las preguntas que se le hace.

En ese proceso, la prioridad no es determinar si algo es verdadero o falso, sino producir una respuesta que resulte coherente y plausible, señaló Natalia Zuazo, especialista en política y tecnología, directora de Salto Agencia y coordinadora del Programa de Tecnología, Política y Comunicación de Flacso.

A esto se suma el modo en que fueron entrenados. Según Alonso Alemany, además de aprender de grandes volúmenes de texto de Internet, quienes entrenan a estos sistemas “han recibido instrucciones sobre cómo tiene que ser el tono, las intenciones comunicativas, el tipo de conversación que se prioriza de estos modelos. De ahí viene esta intención siempre de expresar certeza, de ser complacientes, de no confrontar, de la amabilidad, de siempre disculparse, pero también nunca de decir no sé, de dar respuestas en lugar de hacer más preguntas”.

Informarse con IA: riesgos y límites

Los chatbots de inteligencia artificial parecen ser un nuevo actor que vino para quedarse en el panorama informativo. “Lo que estamos viendo es cómo se acomoda la IA como un agente informativo más en un contexto de desorden y abundancia informacional. Es decir, la IA es un emisor más. La cuestión es cómo el usuario jerarquiza las fuentes de información, a quién le adjudica autoridad como para ser el responsable de su información”, explicó a Chequeado Natalí Schejman, investigadora y directora de la carrera de Ciencias Sociales de la Universidad Torcuato Di Tella.

Los resultados de este medio, en línea con lo que muestran otras investigaciones, muestran que el uso de chatbots para informarse o verificar afirmaciones sobre actualidad política requiere precaución. El riesgo no es solo que los chatbots se equivoquen, sino que lo hagan de una manera difícil de detectar.

En ese marco, Zuazo recomendó usarlos como un complemento y como parte de una dieta informativa más variada: “Si vos consumís, por ejemplo, ChatGPT o Gemini para informarte, pero además estás consumiendo una multiplicidad de medios, de miradas, de opiniones, vas a ser más capaz de detectar cuando el chat te dice algo que no es correcto, porque estás atento y te estás nutriendo de distintas miradas”.

Fecha de publicación original: 29/04/2026

Temas

Comentarios

Valoramos mucho la opinión de nuestra comunidad de lectores y siempre estamos a favor del debate y del intercambio. Por eso es importante para nosotros generar un espacio de respeto y cuidado, por lo que por favor tené en cuenta que no publicaremos comentarios con insultos, agresiones o mensajes de odio, desinformaciones que pudieran resultar peligrosas para otros, información personal, o promoción o venta de productos.

Muchas gracias

Qué se hizo y qué se encontró

¿Por qué los modelos de lenguaje cometen errores?

Informarse con IA: riesgos y límites

Temas

Comentarios

Cancelar respuesta