Cómo puede ayudarte la IA para trabajar con bases de datos

En Chequeado buscamos constantemente formas innovadoras de potenciarnuestro trabajo periodístico y de fact checking porque queremos sumar a cada vez más personas en la lucha contra la desinformación. Y como parte del camino que iniciamos en 2016, cuando incorporamos la Inteligencia Artificial (IA) a nuestras tareas, ahora decidimos experimentar con IA en la administración y uso de bases de datos, ya que observamos que ofrece herramientas poderosas para diversas tareas.

Por eso, esta vez, exploramos el potencial de la Inteligencia Artificial (IA) Generativa para ayudarnos en diferentes aspectos del manejo de datos, desde la recopilación hasta el análisis, en el marco de nuestro Laboratorio de IA impulsado por el fondo ENGAGE otorgado por IFCN.

A continuación te contamos lo que descubrimos sobre el tema, estructurado en tres ejes:

las tareas en las que la inteligencia artificial generativa específica puede ayudarnos,
las limitaciones que encontramos y
un detalle sobre cómo respondió cada modelo de IA al que le pedimos ayuda.

En términos generales, los modelos de GenIA funcionan positivamente en entornos definidos: nos referimos en los casos en los que especificamos operaciones concretas a ser realizadas sobre una información ya definida. Además, las tareas que resuelve de manera eficiente son aquellas para las que ya existen herramientas aceptables. Esto no quiere decir que sean poco útiles: ya no hace falta aprender a usar dichas herramientas, sino saber redactar un pedido lo suficientemente específico. Se trata de una democratización no menor.

Hemos identificado que existen al menos ocho tareas relacionadas a bases de datos en las que modelos de GenIA son útiles:

scraping de datos
transformaciones de formato
normalización de datos
limpieza de datos
obtención de datos simples, históricos, bien conocidos (como coordenadas de ciudades o resultados electorales)
análisis inicial de los datos
asistente de programación en R o python
asistente de Google Sheets

Scraping de datos

La IA ha simplificado enormemente el proceso de scraping de datos, transformando una tarea que solía ser laboriosa y propensa a errores en un proceso eficiente y preciso. Modelos avanzados de procesamiento de lenguaje natural (NLP) pueden analizar la estructura de páginas web complejas, identificando patrones y extrayendo información relevante de manera sistemática. Por ejemplo, un modelo de IA puede navegar por un sitio de comercio electrónico, reconocer productos, precios, descripciones y reseñas, y extraer estos datos en un formato estructurado. También puede obtener las coordenadas necesarias para replicar una capa geográfica que esté en una web pública.

Transformaciones de formato

Convertir datos de formatos como PDF o imágenes a CSV o tablas solía ser un proceso tedioso que requería horas de trabajo manual y estaba sujeto a errores de transcripción. Ahora, la IA, utilizando técnicas avanzadas de reconocimiento óptico de caracteres (OCR) y procesamiento de imágenes, puede reconocer patrones en estos documentos y extraer la información estructurada automáticamente. Si bien no funciona perfectamente y requiere edición, los modelos de GenIA ayudan a acelerar la tarea. Por ejemplo, un modelo de IA puede analizar un informe financiero en PDF, identificar tablas, gráficos y texto relevante, y convertirlo en un archivo CSV organizado. Esto no solo ahorra un tiempo considerable, sino que también mejora significativamente la precisión de los datos extraídos. Diariamente, el equipo de Redacción se enfrenta a PDF’s que contienen tablas y la transformación a tablas es una tarea tediosa y propensa al error. La IA puede incluso manejar documentos escaneados de baja calidad o escritos a mano, ampliando enormemente la gama de fuentes de datos que podemos procesar eficientemente.

Normalizaciones de datos

La IA demuestra una aceptable capacidad para detectar y corregir inconsistencias en los datos, un proceso crucial para garantizar la calidad y utilidad de las bases de datos. Utilizando algoritmos de aprendizaje automático, puede identificar y corregir automáticamente variaciones en la ortografía (por ejemplo, “Nueva York”, “New York”, “NY”), estandarizar formatos de fecha y hora (convirtiendo todas las fechas a un formato común como AAAA-MM-DD), y unificar unidades de medida (convirtiendo todas las medidas de longitud a metros, por ejemplo). Además, la IA puede aprender patrones específicos de la industria o del conjunto de datos, aplicando reglas de normalización personalizadas. Por ejemplo, en la base de visitas a la Residencia Presidencial de Olivos fue muy útil llenando una columna en base a información de otra columna. Este proceso es muy útil en las bases de datos construidas manualmente en su origen.

Limpieza de datos

Los modelos de IA han sido de ayuda en el proceso de limpieza de datos, una tarea tradicionalmente tediosa pero crítica. Estos modelos pueden identificar y manejar valores atípicos, datos faltantes y errores de entrada. Esto no solo mejora significativamente la integridad de nuestros conjuntos de datos, sino que también reduce drásticamente el tiempo dedicado a la limpieza manual, permitiendo a los periodistas centrarse en tareas de mayor valor.

Obtención de datos simples y bien conocidos

Para información como coordenadas de ciudades, resultados electorales históricos, o datos demográficos básicos, la IA actúa como una base de conocimientos rápida, precisa y fácilmente accesible. Modelos entrenados con vastas cantidades de información pueden proporcionar estos datos de manera instantánea, eliminando la necesidad de búsquedas manuales en múltiples fuentes. Estos datos siempre deben ser corroborados. Por ejemplo, al trabajar en un proyecto de análisis geográfico, la IA puede proporcionar automáticamente las coordenadas exactas, la población, y otros datos relevantes de miles de ciudades en cuestión de segundos. Esta capacidad ahorra horas de investigación, reduce significativamente los errores de entrada de datos, y permite a los periodistas acceder rápidamente a información de referencia confiable para enriquecer sus conjuntos de datos principales.

Análisis de los datos

La IA ha transformado la fase de análisis exploratorio de datos, proporcionando insights valiosos en cuestión de minutos. Utilizando técnicas de aprendizaje automático y visualización avanzada, puede realizar un análisis inicial profundo y multidimensional de grandes conjuntos de datos. Por ejemplo, al cargar un nuevo conjunto de datos, un modelo de IA puede generar automáticamente estadísticas descriptivas detalladas, identificar correlaciones complejas entre variables, detectar patrones temporales o estacionales, y crear una variedad de visualizaciones interactivas que resaltan las características más relevantes de los datos. Puede incluso sugerir hipótesis para una investigación más profunda basándose en anomalías o relaciones interesantes que detecte. Este análisis inicial proporciona a los periodistas una comprensión rápida de sus datos, guiando la dirección de análisis más detallados y ayudando a identificar áreas que requieren una investigación adicional.

Asistente de programación en R o Python

La tarea que estos modelos cumplen con mayor eficiencia, por mucho, es programar. Los modelos de GenIA aceleran significativamente el desarrollo y mejoran la calidad del código de programación en lenguajes como R y Python. En general, utilizamos estos códigos cuando necesitamos automatizar un análisis recurrente o trabajar con datasets de gran tamaño, que no pueden ser manejados en planillas de cálculo.

Los modelos de IA pueden sugerir completaciones de código contextuales, explicar funciones complejas con ejemplos prácticos, y ayudar a depurar errores ofreciendo soluciones probables. Por ejemplo, al trabajar en un análisis de series temporales en R, el asistente de IA puede sugerir las bibliotecas más adecuadas, proporcionar ejemplos de código y explicar la interpretación de los resultados. Esto no solo acelera el desarrollo, sino que también facilita el aprendizaje de nuevas técnicas de análisis de datos, permitiendo a los programadores explorar métodos avanzados con mayor confianza. Además, facilita la democratización de estas herramientas al reducir la curva de aprendizaje.

Asistente de Google Sheets

En Google Sheets, la IA ha transformado la forma en que interactuamos con los datos, haciendo que el análisis avanzado sea accesible incluso para usuarios menos técnicos. Los asistentes de IA pueden ayudar a crear fórmulas complejas, sugiriendo funciones apropiadas basadas en el contexto de los datos y el tipo de análisis deseado. Esto democratiza el análisis de datos, permitiendo a usuarios de todos los niveles de experiencia realizar análisis sofisticados y crear informes con facilidad.

Críticas y limitaciones

A pesar de sus numerosas ventajas, el uso de IA en el manejo de bases de datos no está exento de desafíos y limitaciones significativas que requieren atención y mitigación cuidadosa:

Necesidad de verificación rigurosa: Es crucial mantener un enfoque crítico y verificar minuciosamente la información proporcionada por la IA. Los modelos pueden cometer errores sutiles o proporcionar datos desactualizados, especialmente en campos que evolucionan rápidamente. Es esencial implementar procesos de validación cruzada y mantener la supervisión humana en etapas críticas del análisis.
Limitaciones y sesgos de los modelos: Algunos modelos de IA pueden negarse a realizar ciertas tareas debido a limitaciones éticas programadas o proporcionar respuestas en formatos no deseados, lo que puede requerir ajustes significativos en los flujos de trabajo o el uso de prompts más específicos y cuidadosamente diseñados. Además, los modelos pueden perpetuar o amplificar sesgos presentes en sus datos de entrenamiento, lo que podría llevar a análisis distorsionados. Por ejemplo, al pedir funciones para Google Sheets, suele tener la configuración regional del norte global, a pesar de estar “dialogando” en español (confunde el separador de argumentos, confunde el separador decimal, obvia problema de caracteres con tildes o “ñ”). Es fundamental ser consciente de estos sesgos potenciales y trabajar activamente para mitigarlos.
Restricciones de longitud en las respuestas: Modelos como Claude a veces imponen límites en la longitud de sus respuestas, lo que puede resultar en información incompleta o truncada. Esto es particularmente problemático cuando pedimos la escritura de una base de datos a partir de un documento en formato texto o imagen. Además, la respuesta no suele ser en el más amigable de los formatos. Los usuarios deben estar preparados para dividir consultas complejas en partes más manejables o buscar alternativas para obtener información completa, lo que puede aumentar el tiempo y la complejidad del proceso de análisis.
Errores específicos en tareas especializadas: Algunos modelos pueden tener dificultades con tareas específicas, como la creación de fórmulas complejas en Google Sheets, incluso el propio Gemini. Estos errores pueden no ser inmediatamente evidentes y podrían propagarse a través del análisis, llevando a conclusiones erróneas. Es importante conocer las fortalezas y debilidades específicas de cada modelo de IA utilizado y, cuando sea posible, validar los resultados utilizando múltiples enfoques o herramientas.
Desafíos de privacidad y seguridad: El uso de IA en el manejo de datos sensibles plantea preocupaciones importantes sobre privacidad y seguridad. Por ejemplo, no utilizamos estos modelos para bases de datos que no son públicas o abiertas (cómo cuando trabajamos con documentos de investigaciones periodísticas de largo aliento).

En conclusión, mientras que la IA ofrece herramientas poderosas que han transformado el trabajo con bases de datos, es imperativo utilizarla de manera crítica y ética. La integración efectiva de la IA requiere un equilibrio cuidadoso entre aprovechar sus capacidades y mitigar sus limitaciones, complementándola siempre con la experiencia, el juicio ético y la supervisión humana para obtener resultados confiables y responsables.

Comparación entre modelos

Claude ha demostrado ser eficaz en la comprensión de contextos complejos y la generación de análisis detallados, características útiles para investigaciones periodísticas profundas. Sin embargo, sus limitaciones en el manejo de ciertos formatos de datos y la longitud restringida de sus respuestas pueden complicar el trabajo con conjuntos de datos extensos.

OpenAI, por otro lado, ofrece la ventaja de poder descargar archivos directamente y generalmente proporciona respuestas sin recortes. Esto puede ser particularmente útil para periodistas que necesitan procesar grandes volúmenes de información o generar reportes detallados sobre conjuntos de datos complejos.

Meta y Gemini han sido los modelos menos útiles (también los menos testeados), porque suelen dar respuestas equivocadas o en formatos incómodos.

Gemini presenta una característica potencialmente valiosa para los periodistas de datos: la integración con otras aplicaciones de Google. La capacidad de transformar un diálogo directamente en una hoja de cálculo de Google Sheets (sin tener que descargar e importar o copiar y pegar) podría agilizar el proceso de organización y análisis de datos, aunque esta función aún no se ha explotado completamente. Para esto, las respuestas de Gemini tienen que ponerse al día con las entregadas por Claude o OpenIA.

Este posteo fue redactado con asistencia de GenIA. No dejes de suscribirte a ChequIAdo, nuestro newsletter que te acerca info, videos, tips, avances de nuestro Laboratorio de IA y noticias que nos ayudan a seguir más de cerca el veloz avance de la inteligencia artificial.

Comentarios

Claudia Lucrecia Gordillo25 de octubre de 2024 a las 9:54 pmMuy útil. Los admiro por su trabajo!

Valoramos mucho la opinión de nuestra comunidad de lectores y siempre estamos a favor del debate y del intercambio. Por eso es importante para nosotros generar un espacio de respeto y cuidado, por lo que por favor tené en cuenta que no publicaremos comentarios con insultos, agresiones o mensajes de odio, desinformaciones que pudieran resultar peligrosas para otros, información personal, o promoción o venta de productos.

Muchas gracias