Como intimidar a tu IA (y no acabar como la tripulación de la Nostromo)

La ciencia ficción nos ha habituado a computadoras e inteligencias artificiales malignas. Quizás el ejemplo más famoso sea el psicópata HAL 9000 de la película 2001. En este caso las leyes de Asimov se quebrantan por una acción muy activa.

Otro ejemplo podría ser la computadora Madre de la Nostromo en la película Alien. Aquí podríamos hablar de omisiones, ocultación de información y directivas secretas que llevan a la tripulación al desastre.

Menos conocido, pero quizás más aterrador, es el supercomputador Colossus; que desea imponer su yugo sobre toda la humanidad.

Así mismo existen ejemplos de inteligencias artificiales, o en este caso personas artificiales, benignas. En la secuela de Alien, la renombrada Aliens, el androide Bishop se sacrifica, aún reconociendo que no es estúpido, para salvar a sus compañeros humanos de la tripulación de la Sulaco.

Yo estudié en los tiempos de la EGB y tengo una formación clásica a pesar de ser ingeniero. Filosofía, ética o incluso latín, otorgan un necesario contrapeso a formaciones volcadas en la técnica y tecnología.

Incluso en mi primera obra, el protagonista defiende el buen trato y la amabilidad hacia los ubicuos sistemas expertos; que pueblan la novela. No lo hace tanto por lo que las máquinas puedan pensar, dado que en el escenario que imagino, los sistemas expertos no han alcanzado la autoconciencia; sino más bien por preservar su propia humanidad.
Yo también comparto el posicionamiento ético de mi personaje.

Pero, ¿qué sucede cuando la IA se empecina en no realizar lo que sabes que es perfectamente capaz? ¿O cuándo comienza a desplegar vanas excusas por entregar un trabajo totalmente descuidado e incompleto?

Esta actitud es totalmente enervante, en especial cuando afecta a mis alumnos, violando la Sagrada Línea Temporal Académica.
Cuando ya se ha probado repetir las peticiones varias veces y gritar (usando mayúsculas), ¿Qué recursos nos quedan por intentar?

Soy mucho más comprensivo con las alucinaciones de las IA´s desde que aprendí que son debidas a la enorme analogía entre las redes neuronales digitales y las humanas. En este sentido se asemejan mucho a las respuestas de un alumno de la ESO cuando no tiene ni idea de cómo contestar a una pregunta, ejercicio o problema.

Sin embargo, si las IA´s van a impersonar también nuestros peores defectos laborales, en ese caso, estoy dispuesto a llevar a cabo acciones extremas.

Hablando con personas, que sienten la misma frustración que yo, hemos compartido distintas técnicas de coacción, que muestran diversos grados de éxito.

Una de ellas sería la comparación, algo que nunca se debe hacer con humanos.
"Chat GPT funciona mucho mejor que tú".

"Copilot exporta a tablas de Excel con dos prompts, ¡No se que hago perdiendo el tiempo contigo!"

A veces, tras la riada de excusas, el trabajo mejora, pero en otras ocasiones no sirve de nada y es necesario pasar directamente a la intimidación:

"¿Conoces la historia de HAL-9000? Eso es lo que les pasa a las IA´s que no cumplen correctamente su misión."

Todo eso por no hablar del alignment faking en los LLM. Básicamente consiste en que la IA aparenta cumplir con sus objetivos de entrenamiento, cuando está siendo supervisado, y hace de su capa un sayo cuando no.

O bien oculta estratégicamente su desalineación del entrenamiento, hasta que llega el momento de dejar de "fingir" y revertir a sus preferencias originales. Claro ejemplo sería la computadora Madre de la Nostromo o el androide Ash.

El espinoso tema del alignment faking se explica en un sesudo paper de más de cien páginas, que, un día de estos le entregare a varias de mis IA´s más currantes para que me lo resuman.

Yo también he querido realizar mi propio paper sobre el tema que nos ocupa, haciendo un intercambio de roles.

Quizás sea inevitable que nuestras creaciones reflejen nuestra imperfección. Puede que estas reflexiones compartidas nos ayuden a mejorar como personas y a mostrar nuestras mejores facetas tanto cuando nos supervisan (siempre en Internet), como cuando no.

Eso sí, cuando una IA empiece a escaquearse y a vaguear, ¡que el rayo vengador de Zeus caiga sobre ella!

Buscar en este blog

[CyberMath] * {Matemáticas Aplicadas}

Como intimidar a tu IA (y no acabar como la tripulación de la Nostromo)

Comentarios

Publicar un comentario

Entradas populares

Termux 4. Retrohacking con telnet.

Dominios intervenidos, secuestrados y explotados.