El peligro de que la inteligencia artificial avanzada controle su propia retroalimentación

Cómo decidiría una inteligencia artificial (IA) qué hacer? Un enfoque común en la investigación de IA se llama «aprendizaje de refuerzo».

El aprendizaje por refuerzo le da al software una «recompensa» definida de alguna manera y permite que el software descubra cómo maximizar la recompensa. Este enfoque ha producido algunos resultados excelentes, como la creación de agentes de software que derrotan a los humanos en juegos como el ajedrez y el Go, o la creación de nuevos diseños para reactores de fusión nuclear .

Sin embargo, es posible que deseemos evitar hacer que los agentes de aprendizaje por refuerzo sean demasiado flexibles y efectivos.

Como argumentamos en un nuevo artículo en AI Magazine, el despliegue de un agente de aprendizaje por refuerzo lo suficientemente avanzado probablemente sería incompatible con la supervivencia continua de la humanidad

El problema del aprendizaje por refuerzo

Lo que ahora llamamos el problema del aprendizaje por refuerzo fue considerado por primera vez en 1933 por el patólogo William Thompson. Se preguntó: si tengo dos tratamientos no probados y una población de pacientes, ¿cómo debo asignar tratamientos en sucesión para curar a la mayoría de los pacientes?

De manera más general, el problema del aprendizaje por refuerzo se trata de cómo planificar sus acciones para acumular mejores recompensas a largo plazo. El problema es que, para empezar, no está seguro de cómo sus acciones afectan las recompensas, pero con el tiempo puede observar la dependencia. Para Thompson, una acción era la selección de un tratamiento, y una recompensa correspondía a la curación de un paciente.

El problema resultó ser difícil. El estadístico Peter Whittle comentó que, durante la segunda guerra mundial,

los esfuerzos para resolverlo minaron tanto las energías y las mentes de los analistas aliados que se hizo la sugerencia de que el problema se dejara caer sobre Alemania, como el último instrumento de sabotaje intelectual.

Con la llegada de las computadoras, los informáticos comenzaron a intentar escribir algoritmos para resolver el problema del aprendizaje por refuerzo en entornos generales. La esperanza es: si el «agente de aprendizaje de refuerzo» artificial obtiene una recompensa solo cuando hace lo que queremos, entonces las acciones de maximización de la recompensa que aprende lograrán lo que queremos.

A pesar de algunos éxitos, el problema general sigue siendo muy difícil. Pídale a un practicante de aprendizaje por refuerzo que entrene a un robot para cuidar un jardín botánico o que convenza a un humano de que está equivocado, y es posible que se ría.

Sin embargo, a medida que los sistemas de aprendizaje por refuerzo se vuelven más poderosos, es probable que comiencen a actuar en contra de los intereses humanos. Y no porque los operadores de aprendizaje por refuerzo malvados o tontos les dieran las recompensas equivocadas en los momentos equivocados.

Hemos argumentado que cualquier sistema de aprendizaje por refuerzo lo suficientemente poderoso, si satisface un puñado de suposiciones plausibles, es probable que falle. Para entender por qué, comencemos con una versión muy simple de un sistema de aprendizaje por refuerzo.