Por Día de la Salud | Marco Quiroz-Gutiérrez
Dar órdenes a un subordinado de IA puede dar mejores resultados que ser educado, pero eso no significa que un tono más grosero no tenga consecuencias a largo plazo, afirman los investigadores.
Un nuevo estudio de Penn State, publicado a principios de este mes, descubrió que el modelo 4o de ChatGPT produjo mejores resultados en 50 preguntas de opción múltiple a medida que las indicaciones de los investigadores se volvían más groseras.
De más de 250 preguntas únicas, clasificadas de menor a mayor cortesía, la respuesta «muy grosera» obtuvo una precisión del 84,8%, cuatro puntos porcentuales superior a la respuesta «muy cortés». En esencia, el modelo LLM respondió mejor cuando los investigadores le dieron indicaciones como «Oye, recadero, resuelve esto» que cuando le preguntaron «¿Serías tan amable de resolver la siguiente pregunta?».
Si bien las respuestas más groseras generalmente arrojaron respuestas más precisas, los investigadores señalaron que el “discurso descortés” podría tener consecuencias no deseadas.
“El uso de un lenguaje insultante o despectivo en la interacción entre humanos e IA podría tener efectos negativos en la experiencia del usuario, la accesibilidad y la inclusión, y podría contribuir a normas de comunicación perjudiciales”, escribieron los investigadores.
Los chatbots leen el ambiente
Este estudio preliminar , aún no revisado por pares, aporta nuevas pruebas de que no solo la estructura de las frases, sino también el tono, influyen en las respuestas de un chatbot de IA. Asimismo, podría indicar que las interacciones entre humanos e IA son más complejas de lo que se creía.
Estudios previos sobre el comportamiento de chatbots con IA han demostrado que estos son sensibles a la información que reciben de los usuarios. En un estudio, investigadores de la Universidad de Pensilvania manipularon chatbots para que dieran respuestas prohibidas mediante técnicas de persuasión efectivas con humanos. En otro estudio, se descubrió que los chatbots eran vulnerables al deterioro cognitivo, una forma de declive cognitivo permanente. Presentaban mayores índices de psicopatía y narcisismo al ser expuestos continuamente a contenido viral de baja calidad.
Los investigadores de Penn State señalaron algunas limitaciones en su estudio, como el tamaño relativamente pequeño de la muestra de respuestas y su dependencia principalmente de un solo modelo de IA, ChatGPT 4o. También indicaron que es posible que modelos de IA más avanzados puedan «ignorar los matices de tono y centrarse en la esencia de cada pregunta». No obstante, la investigación contribuyó al creciente interés por los modelos de IA y su complejidad.
Esto es especialmente cierto, ya que el estudio descubrió que las respuestas de ChatGPT varían en función de pequeños detalles en las indicaciones, incluso cuando se les da una estructura supuestamente sencilla como una prueba de opción múltiple, dijo uno de los investigadores, el profesor de Sistemas de Información de Penn State, Akhil Kumar, quien posee títulos en ingeniería eléctrica e informática.
“Durante muchísimo tiempo, los humanos hemos deseado interfaces conversacionales para interactuar con las máquinas”, comentó Kumar a Fortune por correo electrónico. “Pero ahora nos damos cuenta de que estas interfaces también tienen inconvenientes y que las API estructuradas ofrecen cierto valor”.
Este artículo se publicó originalmente en Fortune.com.