La automatización del chequeo de datos, de la ciencia ficción a la realidad

7856293086_018138dfed_k

Un líder político abre su boca y quiénes lo escuchan saben al instante cuánto de lo que dijo es chequeable (y cuánto ya fue chequeado). ¿Ciencia ficción? Por ahora sí, pero trabajamos para que sea realidad.

El estado de la tecnología y la madurez de las organizaciones de chequeo de datos hacen que hoy sea posible dar los primeros pasos hacia esa meta. Chequeado, dónde soy director de Innovación Editorial, empezó a trabajar en automatización del chequeo hace más de un año.

Nuestros esfuerzos iniciales fueron reforzados por una beca de Poynter que ganamos en julio pasado y nos permitió trabajar con nuestros colegas británicos de Full Fact bajo el mismo techo por una semana en enero.

¿Por qué es importante la automatización para nosotros? Creemos que llegó el tiempo para crear herramientas reales que puedan ayudar a las organizaciones de chequeo de datos a lidiar con la enorme y creciente cantidad de información engañosa que es creada y compartida todos los días.

Las mentiras existen desde hace mucho tiempo. Pero ambos ejércitos, cámaras de eco y redes de sitios hiperpartidarios eran, sobre todo, el foco de la academia cuando nació el movimiento de chequeo de datos. Hoy, éstas son partes clave de nuestro campo y necesitamos seguir mejorando para estar a la altura del desafío.

Solo estamos tocando la superficie de las frases que podemos manejar como organizaciones tradicionales de chequeo de datos. La automatización puede comenzar toda una nueva era para nuestras organizaciones en términos de cantidad y tipo de frase que podemos chequear.

Trabajar de manera colaborativa será clave para llegar a esa meta. Esto comienza al darse cuenta de que para que estas tecnologías sean implementadas de manera amplia deben estar disponibles en varios lenguajes.

Mucha de la tecnología usada en procesos de automatización relacionados con el discurso existe solo en inglés. Esto no es raro. Pero en el caso de chequeo automatizado de datos las barreras del lenguaje son aún más problemáticas. Para dar un único ejemplo “1.000” es mil el español, pero uno en inglés.

Tecnología totalmente atenta al lenguaje se vuelve crítica y los errores son potencialmente costosos cuando todo verbo, número y sustantivo cuenta como sucede con el chequeo de datos.

Por eso no es sólo importante imaginarse las dificultades de trabajar en diferentes lenguajes, sino arremangarse y ponerse a trabajar con colegas extranjeros.

Mientras estuve en el Reino Unido tuve largas reuniones con el equipo de Full Fact trabajando en automatización, liderado por el director Will Moy y la product manager Mevan Babakar. Mientras estuve en Londres también tuvimos un hackatón con Full Fact, Africa Check y un equipo de expertos open source en búsqueda.

Sin profundizar demasiado en siglas y tecnologías que pueden parecer crípticas, mi visita se enfocó centralmente en estándares y contenido estructurado.

Acordar estándares comunes fue una recomendación clave del reporte de Full Fact sobre automatización del chequeo que publicaron el año pasado.

“Distribuyendo nuestros recuerdos en diferentes partes del problema, esperamos poder construir herramientas para chequeadores, hechas por chequeadores”, me dijo Babakar.

Eso: ¿qué tecnologías claves se pueden usar de manera coordinada para evitar duplicar esfuerzos? ¿Cómo podemos involucrar a la comunidad que sigue a cada organización? ¿Podemos generar una herramienta en nuestro sistema de publicación que haga más entendible.por.algoritmos los textos que escribimos? Esto es lo que se llama “contenido estructurado” (hacer texto y contenido multimedia más fácilmente “legible” y “buscable” por máquinas.

Por ejemplo: en este artículo, una arquitectura simple de contenido estructurado tomaría en cuenta el título, fecha, firma, entidades (nombres, compañías, países, etc), imágenes, metadatos, links y más. Las “cajas” estructuradas, o módulos, pueden ser llenados por humanos y/o algoritmos, pero en ambos casos ayudan mucho con automatización.

Con chequeos mejor estructurados – cómo el que impulsa la nueva etiqueta de chequeo de datos en Google News – we vuelve mucho más importante. La automatización será más simple si todos los chequeadores de datos tienen los mismos campos que llenar (por ejemplo: oración, fuente, fecha, etc.) así podemos construir productos en conjunto arriba de esa infraestructura.

Al mismo tiempo, en Londres decidimos que ambas organizaciones trabajarían con el mismo motor de búsqueda open source (Solr) que seguiremos mejorando para que funcione bien em ambos idiomas. Solr nos ayudará con tareas como detectar que “la inflación subió un 25%” es lo mismo que “los precios subieron un 25%”. Luego de eso debería ayudarnos a encontrar la base de datos correcta y chequeos previos sobre el mismo tema así podemos llegar rápido a una calificación potencial.

Estos son solo algunos de los pilares que necesitamos poner en su lugar para construir la torre de la automatización.

La automatización presenta otros desafíos:

• Reconocimiento del habla. Las soluciones de chequeo automatizadas necesitan determinar cuál es la mejor manera de obtener información de TV o radio.
• Disponibilidad y formatos en los que el gobierno abre sus datos. En este punto la brecha entre países puede ser enorme.
• Limitación de los CMS. Cada medio u organización tiene sus propios desafíos y muchos de ellos no tienen un desarrollador in house.
Si lo logramos, los líderes políticos no serán los únicos que sean fácilmente chequeables. También será mucho más simple automatizar la escucha activa, y chequearla, de lo que están diciendo los funcionarios o personas en el poder en todos los niveles.

Así quienes luchamos contra el virus de las declaraciones falsas y las fake news finalmente tendremos una vacuna que nos ayude.

Traducido al español desde la versión original en inglés en Poynter.

Foto de Maitre Yoda (Creative Commons)

Dejá un comentario (si contiene agresiones no se publicará)

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *