IA generativa

"La humanidad es solo una fase pasajera en el desarrollo de la inteligencia"

Extracto de la entrevista que concedió la semana pasada el 'padrino' de la IA, Geoffrey Hinton, a la publicación del MIT.

Geoffrey Hinton

El conocido como ‘padrino’ de la inteligencia artificial (IA), Geoffrey Hinton, dejó la semana pasada su puesto en Google para sumarse a las voces críticas que alertan sobre los peligros que los sistemas generativos pueden llevar a la sociedad. Y, ahora, este psicólogo cognitivo e informático, pionero en el desarrollo de redes neuronales y artificiales y técnicas de aprendizaje profundo, ha concedido una entrevista con MIT Technology Review, en el marco de la conferencia EmTech. Este es un extracto de la conversación:

 

Desde que dejó Google ha aparecido en todo tipo de noticias y titulares. ¿Por qué tomaste esta decisión?

Hubo una serie de razones para tomar un camino como este. Una fue que tengo 75 años y ya no soy tan bueno haciendo trabajos técnicos. Mi memoria ya no es la que era y cuando programo de me olvido de hacer algunas cosas, así que ha llegado el momento de retirarme. Por otra parte, he cambiado mi opinión sobre la relación entre el cerebro y el tipo de inteligencia digital que estamos desarrollando. Pensaba que los modelos de computación no eran tan buenos como nosotros. El objetivo era intentar entender más sobre el cerebro estudiando qué es lo que necesita la máquina.

Durante los últimos meses, he visto que los modelos de computación funcionan de una manera totalmente diferente al cerebro. Se está usando retropropagación, por ejemplo. Esto me ha llevado a dicha conclusión, también el rendimiento de GPT-4.

 

¿Se arrepiente de haber estado involucrado en este trabajo?

El reportero de The New York Times hizo todo lo posible para que dijera que me arrepentía. Al final, dije que tal vez lo hacía un poco. Pero no creo que haya tomado ninguna decisión en hacer investigaciones. Creo que era perfectamente razonable, en las décadas de los 70 y 80, estudiar cómo hacer redes neuronales artificiales. En esta etapa, nada era previsible. Hasta hace muy poco yo pensaba que la crisis existencial actual quedaba muy lejos. Por lo tanto, no me arrepiento de lo que hice.

 

¿Qué es la retropropagación? Ese algoritmo que desarrolló con un par de colegas hacia 1980.

Muchos grupos diferentes descubrieron la propagación hacia atrás. Lo especial que hicimos fue usarlo y demostrar que podía desarrollar buenas representaciones internas. Y, curiosamente, lo hicimos implementando un modelo de lenguaje diminuto. Tenía vectores incorporados que eran solo seis componentes y un conjunto de entrenamiento que era de 112 casos, pero era un modelo de lenguaje; estaba tratando de predecir el siguiente turno en una cadena de símbolos. Aproximadamente 10 años después, Yesher Avenger tomó la misma red y demostró que realmente funcionaba para el lenguaje natural, que era mucho más grande.

La forma de retropropagación funciona. Imagine que desea detectar pájaros en imágenes. Entonces, una imagen, supongamos que es de 100 píxeles por 100 píxeles, eso es 10.000 píxeles y cada píxel tiene tres canales RGB (rojo, verde, azul en color), por lo que es una intensidad de 30,000 números en cada canal en píxeles que representa la imagen. La forma de pensar en el problema de la visión por computadora es cómo convertir esos 3.000 números en una decisión sobre si es un pájaro o no. Y la gente intentó hacer eso durante mucho tiempo y no eran muy buena.

Entonces, les acabo de decir cómo cablear un detector de bordes a mano teniendo una columna con pesos positivos grandes y la otra columna con pesos negativos grandes. Y podemos imaginar una gran capa de esos detectando los bordes de diferentes orientaciones y diferentes escalas por toda la imagen. Necesitaríamos un número bastante grande de ellos.

 

¿El borde de una imagen es una línea?

Es un lugar donde la intensidad va de claro a oscuro. Entonces, podríamos tener una capa de detectores de características que detecte combinaciones de bordes. Entonces, por ejemplo, podríamos tener algo que detecte dos bordes que se unen en un ángulo fino. Entonces, tendría un gran peso positivo para esos dos bordes y si ambos están allí al mismo tiempo, será avistado. Eso detectaría algo que podría ser el pico de un pájaro. También podría tener en esa capa un detector de características que detectaría un montón de bordes dispuestos en un círculo. Eso podría ser el ojo de un pájaro, o podría ser otra cosa. Podría ser una punta en un refrigerador. Luego, en un En la tercera capa, puede tener un detector de características que detecte este pico potencial, y detecta un ojo potencial y está conectado de modo que si un pico y un ojo están en la relación especial correcta entre sí y dice: 'Ah, esto podría ser la cabeza de un pájaro. Y puedes imaginarte que si sigues conectándolo de esa manera, eventualmente puedes tener algo que detecte un pájaro.

Sin embargo, cablear todo eso a mano sería muy difícil. Sería especialmente difícil porque querrías algunas capas intermedias no solo para detectar pájaros sino también para otras cosas. Por lo tanto, sería más o menos imposible hacerlo manualmente. Entonces, la forma en que funciona la propagación hacia atrás es comenzar con pesos aleatorios. Estas características que ingresas son solo basura. Luego, ingresas una imagen de un pájaro y en el resultado dice que .5 es un pájaro. Luego te preguntas la siguiente pregunta: ¿cómo puedo cambiar cada uno de los pesos a los que estoy conectado en la red para que en lugar de decir .5 es un pájaro, diga .501 es un pájaro y .499 y no lo es? Así cambias los pesos en las direcciones que harán que sea más probable decir que un pájaro es un pájaro y menos probable que diga que un número es un pájaro.

Y sigues haciendo eso, y eso es propagación hacia atrás. La propagación hacia atrás es cómo tomas una discrepancia entre lo que quieres, que es una probabilidad (0,1 de que sea un pájaro y probablemente 0,5 de que sea un pájaro) y la envías hacia atrás a través de la red para que pueda calcular para cada conjunto de funciones en la red, ya sea que desee que sea un poco más activo o un poco menos activo. Y una vez que haya calculado eso, y si sabe que desea que un conjunto de funciones sea un un poco más activo, podría aumentar los pesos provenientes de las detecciones de características que son más activas y tal vez poner algunos pesos negativos para saber cuándo está apagado y ahora tiene un mejor detector. La propagación hacia atrás es simplemente retroceder a través de la red para determinar qué conjunto de funciones desea un poco más activo y cuál desea un poco menos activo.

 

La detección de imágenes también es la técnica que sustenta los grandes modelos de lenguaje. Inicialmente pensó que esta técnica era casi una mala aproximación de lo que hacen los cerebros biológicos, pero ha resultado hacer cosas que creo que lo han dejado atónito, particularmente en modelos de lenguaje grandes. ¿Por qué eso… casi cambió su forma de pensar sobre lo que es la propagación hacia atrás o el aprendizaje automático en general?

Si observa estos grandes modelos de lenguaje, tienen alrededor de un billón de conexiones. Y cosas como GPT-4 saben mucho más que nosotros. Tienen una especie de conocimiento de sentido común sobre todo. Y, por lo tanto, probablemente saben alrededor de 1.000 veces más que una persona. Pero tienen un billón de conexiones y nosotros tenemos 100 billones de conexiones, por lo que son mucho, mucho mejores que nosotros para obtener conocimiento en un billón de conexiones. Creo que es porque la propagación hacia atrás puede ser un algoritmo de aprendizaje mucho mejor que el que tenemos. Eso da miedo.

 

¿Qué quiere decir con mejor?

Puede empaquetar más información en solo unas pocas conexiones; estamos definiendo un billón como solo unas pocas.

 

Entonces, estas computadoras digitales son mejores para aprender que los humanos, lo cual en sí mismo es un gran reclamo, pero también argumentaste que eso es algo de lo que deberíamos tener miedo. ¿Por qué?

Permítanme darles una parte separada del argumento. Si una computadora es digital, lo que involucra costes de energía muy altos y un cálculo muy cuidadoso, puede tener muchas copias del mismo modelo ejecutándose en diferentes hardware que hacen exactamente lo mismo. Ellos pueden mirar diferentes datos, pero los modelos son exactamente los mismos. Lo que eso significa es que pueden estar mirando 10.000 subcopias de datos y cada vez que uno de ellos aprende algo, todos los demás lo saben. Uno de ellos descubre cómo para cambiar los pesos para que pueda manejar estos datos, y así todos se comunican entre sí y todos acuerdan cambiar los pesos por el promedio de lo que todos quieren. Ahora las 10.000 cosas se están comunicando muy efectivamente entre sí, para que puedan ver 10.000 veces más datos que un agente, y la gente no puede hacer eso.

Si aprendo mucho sobre mecánica cuántica, y quiero que sepas muchas cosas sobre eso, es un proceso largo y doloroso lograr que lo entiendas. No puedo simplemente copiar mis pesos en tu cerebro porque tu cerebro no es exactamente el mismo que el mío. Entonces, tenemos computadoras digitales que pueden aprender más cosas más rápidamente y pueden enseñárselas instantáneamente entre sí. Es como si las personas en la sala pudieran transferir instantáneamente a mi cabeza lo que tienen en la suya. .

¿Por qué da miedo? Pueden aprender mucho más. Tome el ejemplo de un médico. Imagine que tiene un médico que atiende a 10.00 pacientes y otro médico que atiende a 100 millones de pacientes. Esperaría que el médico que atiende a 100 millones de pacientes... si no es demasiado olvidadizo, haber notado todo tipo de tendencias en los datos que simplemente no son tan visibles si está viendo a menos pacientes. Es posible que solo haya visto a un paciente con una enfermedad rara; el otro médico ha visto 100 millones de pacientes... y verán todo tipo de irregularidades que simplemente no son evidentes en los datos pequeños. Es por eso que las cosas que pueden atravesar una gran cantidad de datos probablemente puedan ver la estructuración de datos que nunca veremos.

 

Está bien, pero lléveme al punto de por qué debería tener miedo de esto.

Bueno, si miras a GPT-4, ya puede hacer un razonamiento simple. Quiero decir, el razonamiento es el área en la que aún somos mejores. Pero me impresionó el otro día que GPT-4 hiciera un razonamiento de sentido común. No pensé que sería capaz de hacerlo. Le pregunté: "Quiero que todas las habitaciones de mi casa sean blancas. Pero ahora, hay algunas habitaciones blancas, algunas habitaciones azules y algunas habitaciones amarillas. Y la pintura amarilla se desvanece". a blanco dentro de un año ¿Qué puedo hacer si quiero que todos sean blancos en dos años?'

Decía: 'Debes pintar todas las habitaciones azules de amarillo'. Esa no es la solución natural, pero funciona. Es un razonamiento de sentido común bastante impresionante que ha sido muy difícil de hacer usando IA simbólica porque tienes que entender lo que significa desvanecerse y tienen que entender cosas bitemporales. Entonces, están razonando sensatamente con un coeficiente intelectual de 80 o 90. Y como dijo un amigo mío, es como si algunos ingenieros genéticos dijeran, vamos a mejorar los osos grizzly; Ya los he mejorado con un coeficiente intelectual de 65, y ahora pueden hablar inglés, y son muy útiles para todo tipo de cosas, pero creemos que podemos mejorar el coeficiente intelectual a 210.

 

He tenido esa sensación cuando interactúas con estos últimos chatbots. Ya sabes, esa extraña sensación, pero cuando la experimento acabo por cerrar mi portátil.

Sí, pero estas cosas habrán aprendido de nosotros al leer todas las novelas que alguna vez existieron y todo lo que Maquiavelo escribió [sobre] cómo manipular a las personas. Y si son mucho más inteligentes que nosotros, serán muy buenos manipulando. No te darás cuenta de lo que está pasando. Serás como un niño de dos años al que le preguntan: '¿Quieres los guisantes o la coliflor?', y no se da cuenta de que no tienes que tener ninguno Y serás así de fácil de manipular.

No pueden mover palancas directamente, pero ciertamente pueden hacer que nosotros tiremos palancas. Resulta que si puedes manipular a la gente, puedes invadir un edificio en Washington sin tener que ir allí tú mismo.

 

Si no hubiera malos actores, personas con malas intenciones, ¿estaríamos a salvo?

No lo sé. Estaríamos más seguros en un mundo donde la gente no tuviera malas intenciones y el sistema político estuviera tan dañado que ni siquiera podemos decidir no dar rifles de asalto a los adolescentes. Si puedes Si no resuelves ese problema, ¿cómo vas a resolver este problema?



Contenido Patrocinado

Fernando Rubio Román, CTO de Microsoft España. TECNOLOGÍA
Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital