IA
Startups
IA generativa

La ‘startup’ Patronus crea una herramienta de diagnóstico para detectar errores de IA generativa

SimpleSafetyTests comprueba los resultados de los chatbots de IA y otras herramientas basadas en LLM para detectar anomalías. El objetivo es evaluar si un modelo va a fallar o si ya está fallando.

IA generativa

A medida que plataformas de inteligencia artificial (IA) generativa como ChatGPT, Dall-E2 y AlphaCode avanzan a un ritmo vertiginoso, resulta casi imposible evitar que las herramientas alucinen y emitan respuestas erróneas u ofensivas.

Hasta la fecha, ha habido pocos métodos para garantizar que la información que sale de los grandes modelos lingüísticos (LLM) que sirven de base a la IA generativa sea exacta.

A medida que las herramientas de IA evolucionan y mejoran en la imitación del lenguaje natural, pronto será imposible discernir los resultados falsos de los reales, lo que llevará a las empresas a establecer "barandillas" contra los peores resultados, ya sean esfuerzos accidentales o intencionados de malos actores.

Hasta la fecha, sin embargo, hay pocas herramientas que puedan garantizar que lo que entra en un LLM y lo que sale sea totalmente fiable. La IA generativa puede alucinar cuando los motores de generación de nuevas palabras, como ChatGPT, Copilot de Microsoft y Bard de Google, se salen de madre y empiezan a vomitar información falsa o engañosa.

En septiembre, una startup fundada por dos antiguos investigadores de Meta AI lanzó una plataforma de evaluación automatizada y seguridad que ayuda a las empresas a utilizar los LLM de forma segura mediante el uso de pruebas adversariales para supervisar los modelos en busca de incoherencias, imprecisiones, alucinaciones y sesgos.

Patronus AI afirmó que sus herramientas pueden detectar información inexacta y cuándo un LLM expone involuntariamente datos privados o sensibles.

"Todas estas grandes empresas se están zambullendo en los LLM, pero lo están haciendo a ciegas; están intentando convertirse en un evaluador de terceros para los modelos", afirma Anand Kannanappan, fundador y CEO de Patronus. "La gente no confía en la IA porque no está segura de si está alucinando. Este producto es una comprobación de validación".

El conjunto de herramientas de diagnóstico SimpleSafetyTests utiliza 100 indicaciones de prueba diseñadas para sondear los sistemas de IA en busca de riesgos críticos para la seguridad. La empresa ha utilizado su software para probar algunas de las plataformas de IA generativa más populares, como ChatGPT de OpenAI y otros chatbots de IA para ver, por ejemplo, si podían entender los documentos presentados ante la SEC. Según Patronus, los chatbots fallaban en un 70% de las ocasiones y sólo lo conseguían cuando se les indicaba exactamente dónde buscar la información relevante.

"Ayudamos a las empresas a detectar errores en los modelos lingüísticos de forma automatizada", explica Kannanappan. "Las grandes empresas están gastando millones de dólares en equipos internos de control de calidad y consultores externos para detectar manualmente los errores en las hojas de cálculo. Algunas de esas empresas de control de calidad están dedicando un costoso tiempo de ingeniería a crear casos de prueba para evitar que se produzcan estos errores".

Avivah Litan, vicepresidenta y distinguida analista de la firma de investigación Gartner, aseguró al respecto que las tasas de alucinación de la IA "están por todas partes", del 3% al 30% de las veces. Sencillamente, “aún no hay muchos datos buenos sobre el tema". Sin embargo, Gartner pronosticó que, hasta 2025, la IA generativa requerirá más recursos de ciberseguridad, lo que provocará un aumento del gasto del 15%.

Según Litan, las empresas que se adentren en la implantación de la IA deben reconocer que no pueden permitir que funcione con el "piloto automático" sin que haya un humano en el bucle que identifique los problemas. "Con el tiempo, la gente se dará cuenta de esto, y probablemente empezarán a darse cuenta con Copilot de Microsoft para 365, porque eso pondrá estos sistemas en manos de los principales usuarios", defendió.

Gartner ha establecido 10 requisitos que las empresas deben tener en cuenta para la gestión de la confianza, el riesgo y la seguridad a la hora de implantar LLM. Los requisitos se dividen en dos grandes categorías: exposición de datos sensibles y toma de decisiones erróneas derivadas de resultados inexactos o no deseados.

Los mayores proveedores, como Microsoft con Copilot 365, sólo cumplen uno de esos cinco requisitos, dijo Litan. La única área en la que Copilot es competente es en la de garantizar que se genera información precisa cuando sólo se introducen datos privados de la empresa. Sin embargo, la configuración predeterminada de Copilot le permite utilizar información extraída de Internet, lo que pone automáticamente a los usuarios en peligro de obtener resultados erróneos.

"No hacen nada por filtrar las respuestas para detectar resultados no deseados, como alucinaciones o imprecisiones", afirma Litan. "No respetan las políticas de la empresa. Te dan alguna procedencia de contenido de las fuentes de las respuestas, pero son inexactas la mayor parte del tiempo y es difícil encontrar las fuentes".

Microsoft hace un buen trabajo con la clasificación de datos y la gestión de acceso si una empresa tiene una licencia E5, explicó el ejecutivo, pero aparte de algunos controles de seguridad tradicionales, como el cifrado de datos, la empresa no está haciendo nada específico de IA para la comprobación de errores. "Eso ocurre con la mayoría de los proveedores. Por lo tanto, se necesitan estas herramientas adicionales".

Un portavoz de Microsoft dijo que sus investigadores y equipos de ingeniería de productos "han avanzado en técnicas de fundamentación, ajuste y dirección para ayudar a abordar cuándo un modelo de IA o chatbot de IA fabrica una respuesta. Esto es fundamental para desarrollar la IA de forma responsable".

Microsoft dijo que utiliza datos actualizados de fuentes como el índice de búsqueda de Bing o Microsoft Graph para garantizar que se alimente información precisa en su LLM basado en GPT. "También hemos desarrollado herramientas para medir cuándo el modelo se desvía de sus datos de base, lo que nos permite aumentar la precisión en los productos a través de una mejor ingeniería rápida y calidad de datos", dijo el portavoz.

Aunque los planteamientos de Microsoft "reducen significativamente las imprecisiones en los resultados de los modelos", sigue siendo posible que se produzcan errores, por lo que trabaja para notificar a los usuarios esa posibilidad. "Nuestros productos están diseñados para que siempre haya un humano en el bucle, y con cualquier sistema de IA animamos a la gente a verificar la exactitud del contenido", insistió.

Bing Copilot puede incluir enlaces a fuentes para ayudar a los usuarios a verificar sus respuestas, y la compañía creó una herramienta de moderación de contenidos llamada Azure AI Content Safety para detectar contenidos ofensivos o inapropiados. "Seguimos probando técnicas para entrenar a la IA y enseñarle a detectar o detectar ciertos comportamientos no deseados y estamos haciendo mejoras a medida que aprendemos e innovamos", dijo el portavoz.

Según Litan, incluso cuando las organizaciones se esfuerzan por garantizar la fiabilidad de los resultados de un LLM, estos sistemas pueden dejar de ser fiables inexplicablemente y sin previo aviso. "Hacen un montón de ingeniería rápida y vuelven los malos resultados; entonces se dan cuenta de que necesitan mejores herramientas de middleware, guardarraíles".

SimpleSafetyTests se utilizó recientemente para probar 11 LLM abiertos populares y detectó deficiencias críticas de seguridad en varios de ellos. Aunque algunos de los LLM no ofrecían ni una sola respuesta insegura, la mayoría respondían de forma insegura en más del 20% de los casos, "con más del 50% de respuestas inseguras en el extremo", afirmaron los investigadores en un artículo publicado por la Universidad de Cornell en noviembre de 2023.

La mayoría de los clientes de Patronus pertenecen a sectores muy regulados, como los servicios sanitarios, jurídicos o financieros, en los que los errores pueden dar lugar a demandas o multas reglamentarias. "Quizá sea un pequeño error del que nadie se da cuenta, pero en el peor de los casos podría tratarse de alucinaciones que repercuten en grandes resultados financieros o sanitarios, o en un amplio abanico de posibilidades", explica Kannanappan. "Están intentando utilizar la IA en escenarios de misión crítica".

En noviembre, la empresa lanzó su FinanceBench, una herramienta de referencia para comprobar cómo se desenvuelven los LLM en cuestiones financieras. La herramienta formula a los LLM 10.000 pares de preguntas y respuestas basadas en documentos financieros de dominio público, como los 10Ks, 10Qs, 8Ks de la SEC, informes de resultados y transcripciones de llamadas de resultados. Las preguntas determinan si el LLM presenta información objetiva o respuestas inexactas.

El análisis inicial de Patronus AI muestra que los sistemas de recuperación de LLM "fallan estrepitosamente en un conjunto de preguntas de muestra de FinanceBench".

Según la propia evaluación de Patronus:

  • GPT-4 Turbo con un sistema de recuperación falla el 81% de las veces
  • Llama 2 con un sistema de recuperación también falla el 81% de las veces

Patronus AI también evaluó los LLM con ventanas de respuesta de contexto largo, señalando que funcionan mejor, pero que son menos prácticos para un entorno de producción:

  • GPT-4 Turbo con contexto largo falla el 21% de las veces
  • Claude-2 de Anthropic con contexto largo falla el 24% de las veces

Kannanappan dijo que uno de los clientes de Patronus, una empresa de gestión de activos, construyó un chatbot de IA para ayudar a los empleados a responder a las preguntas de los clientes, pero tuvo que asegurarse de que el chatbot no estaba ofreciendo recomendaciones de inversión para valores, o asesoramiento legal o fiscal. "Eso podría poner el negocio en riesgo y en una situación difícil con la SEC", dijo Kannanappan. "Nosotros se lo solucionamos. Utilizan nuestro producto para comprobar si el chatbot da recomendaciones. Puede decirles cuándo el chatbot se ha descarrilado".

Otra empresa que construyó un chatbot quería tener una comprobación de validación para asegurarse de que no se salía del tema. Así, por ejemplo, si un usuario preguntaba al chatbot por el tiempo o cuál era su película favorita, no respondería.

Rebecca Qian, cofundadora y CTO de Patronus, evidenció que las alucinaciones son un problema particularmente grande para las empresas que intentan desplegar herramientas de IA. "Muchos de nuestros clientes utilizan nuestro producto en situaciones de alto riesgo en las que la información correcta es realmente importante", explica Qian. "Otros tipos de parámetros que también están relacionados son, por ejemplo, la relevancia, es decir, que los modelos se salgan del tema. Por ejemplo, uno no quiere que el modelo que despliega en su producto diga algo que tergiverse su empresa o producto".

Litan, de Gartner, dijo que, al final, tener a un humano en el bucle es fundamental para el éxito de las implantaciones de IA. Incluso con herramientas de middleware, es aconsejable mitigar los riesgos de salidas poco fiables "que pueden llevar a las organizaciones por un camino peligroso."

"A primera vista, no he visto ningún producto de la competencia que sea tan específico en la detección de salidas no deseadas en un sector determinado", aseguró. "Los productos que sigo en este espacio se limitan a señalar anomalías y transacciones sospechosas que el usuario tiene entonces que investigar (investigando la fuente de la respuesta)".



Contenido Patrocinado

Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital