Quan animals i humans repeteixen accions, ho fan seguint dues estratègies principals. D’una banda, repeteixen les accions que els han portat a una recompensa, el que correspondria a l’aprenentatge basant en el valor. I, de l’altra, tendeixen a repetir accions que han fet anteriorment, encara que no estiguin associades a cap recompensa. En el primer cas, l’aprenentatge es basa en l’error de predicció de recompensa, que és la diferència entre la recompensa esperada i l’obtinguda. En el segon cas, es parla d’error de predicció de l’acció, que es genera quan hi ha una discrepància entre l’acció realitzada i la que s’esperava que es fes. Des del punt de vista computacional, recordar accions passades és una estratègia més senzilla i eficient per generar comportaments automatitzats. Cadascun d’aquests mecanismes d’aprenentatge està controlat per la dopamina, però esta associat a un tipus de senyal diferent.
L’objectiu principal d’aquest estudi va ser determinar si l’activitat dopaminèrgica relacionada amb el moviment, i no amb la recompensa, pot codificar aquest error de predicció de l’acció i actuar com un senyal d’aprenentatge. Això reforçaria associacions repetides entre un estímul i una acció, donant lloc a la formació d’un hàbit. Per provar-ho, es va utilitzar una tasca d’audició amb ratolins, en què havien de discriminar sons i respondre-hi amb una acció concreta. L’equip va mesurar i modificar l’activitat dopaminèrgica durant la tasca i va generar models computacionals per entendre millor els mecanismes subjacents.
“En aquest treball demostrem que hi ha dos tipus d’errors de predicció dopaminèrgics que funcionen de manera complementària per afavorir l’aprenentatge: l’error de predicció de recompensa i l’error de predicció de l’acció”, explica Hernando Martínez Vergara, antic investigador del Sainsbury Wellcome Center de Londres, on va iniciar aquest projecte com un dels primers autors, i actual investigador Ramon i Cajal de l’IDIBAPS.
Els resultats mostren que l’activitat dopaminèrgica en la cua de l’estriat està relacionada amb el moviment i codifica per l’error de predicció de l’acció. Aquest tipus de senyal actua com un mecanisme d’aprenentatge sense necessitat de recompensa, reforçant associacions repetides que acaben consolidant-se com a hàbits.
Article de referència
Action prediction error: a value-free dopaminergic teaching signal that drives stable learning. Francesca Greenstreet et al. Nature. 2025.