En un esfuerzo por esclarecer uno de los problemas más persistentes en la inteligencia artificial generativa, OpenAI publicó una investigación sobre el fenómeno de las alucinaciones en modelos de lenguaje como ChatGPT, en la que identifica su origen estructural y propone ajustes en las métricas de evaluación para mitigarlo.

OpenIA
Las alucinaciones —respuestas que aparentan ser coherentes pero contienen datos falsos o inventados— son uno de los principales desafíos para la confiabilidad de los sistemas de IA. Estas respuestas pueden inducir a error al usuario, generando decisiones mal fundamentadas tanto a nivel individual como institucional.
¿Por qué alucinan los modelos de lenguaje?
Según OpenAI, el fenómeno se origina en el preentrenamiento de los modelos, una etapa en la que se les enseña a predecir la siguiente palabra en millones de secuencias textuales. Este proceso se realiza sin etiquetas que diferencien información verdadera de falsa, lo que impide a la IA discernir entre hechos comprobados y afirmaciones especulativas.
La naturaleza probabilística del entrenamiento lleva a que, ante una pregunta ambigua o sin respuesta clara, el modelo «adivine» basándose en patrones estadísticos, en lugar de abstenerse de responder.
Incentivos erróneos en la evaluación
Uno de los hallazgos más relevantes del informe titulado “¿Por qué los modelos de lenguaje alucinan?” es que los actuales sistemas de evaluación, centrados casi exclusivamente en la precisión, incentivan estos errores. La empresa lo ejemplifica con una metáfora educativa: si un estudiante de opción múltiple prefiere adivinar una respuesta antes que dejarla en blanco para evitar un cero, los modelos de lenguaje hacen lo mismo.
“Se les anima a adivinar en lugar de decir ‘no lo sé’”, señala el estudio.
Para corregir esta tendencia, OpenAI propone reformular las evaluaciones para que penalicen las conjeturas incorrectas y premien la capacidad de reconocer la incertidumbre. Esto permitiría que los modelos aprendan a abstenerse de responder cuando no cuentan con información suficiente o confiable.
Límites intrínsecos de la IA
Pese a estas propuestas, OpenAI admite que es imposible alcanzar una precisión del 100?%. Aun los modelos más avanzados enfrentan limitaciones insalvables frente a preguntas complejas, ambiguas o con información no disponible públicamente. Algunas interrogantes del mundo real son, simplemente, “incontestables” incluso para la mejor IA.
Con información de Europa Press