Desgranando la complejidad: algunas nociones básicas sobre el condicionamiento operante

El condicionamiento operante es el mecanismo de aprendizaje a través del cual se adquieren nuevas respuestas, se eliminan otras ya existentes y/o se aprende a emitirlas en otros contextos en función de las consecuencias que dichas respuestas producen en el ambiente.

En este sentido, distinguimos entre procedimientos de reforzamiento y de castigo dependiendo de si las consecuencias que le siguen a la emisión de las respuestas aumentan o disminuyen, respectivamente, la probabilidad de aparición futura de dichas respuestas en situaciones parecidas.

Si tras la emisión de la respuesta la consecuencia es la aparición de estímulos, habrá una contingencia positiva entrela propia respuesta y las consecuencias. Es decir, será más probable que ese estímulo aparezca si se ha emitido la respuesta que si no lo ha hecho. Si, en este caso, el resultado es un aumento en la probabilidad futura de la respuesta, diremos que ha sido reforzada positivamente. Si el resultado, por el contrario, es una disminución, la respuesta habrá sido castigada positivamente.

Si tras la emisión de la respuesta la consecuencia es la desaparición o retirada de estímulos, habrá una contingencia negativa entre ambos eventos (respuesta y consecuente).Es decir, será menos probable que aparezca ese estímulo si se ha emitido la respuesta que si no ha sido así. Si el resultado es un aumento en la probabilidad futura de la respuesta, habrá sido reforzada negativamente. Si es una disminución, habrá sido castigada negativamente.

Como puede apreciarse, los términos “positivo” y “negativo”, ya sean aplicados al reforzamiento o al castigo, no tienen nada que ver con lo “bueno” o “malo” que sea para el organismo el resultado del proceso o los propios estímulos consecuentes. Tiene que ver exclusivamente con la relación de contingencia que mantiene la respuesta con las consecuencias (matemáticamente hablando).

Sin embargo, en algunas ocasiones la respuesta no guarda ningún tipo de relación de contingencia con ninguna consecuencia concreta. A este tipo de situación se le conoce como extinción. En la extinción el resultado final es, al igual que en el castigo, una disminución de la probabilidad de emisión de la respuesta, aunque los motivos por los que se llega hasta dicho resultado son, como ya se ha señalado, distintos.

Por supuesto, la definición técnica y el estudio científico sistemático de estos procedimientos ha sido posible gracias al aislamiento de los fenómenos básicos en el laboratorio. En contextos aplicados, así como en entornos no controlados (fuera del laboratorio), lo habitual no es que estos fenómenos se produzcan de manera aislada, sino que lo hagan de forma conjunta e incluso interactuando entre ellos.

Teniendo en cuenta este matiz, podemos decir que el número de elementos que intervienen en una relación de contingencia operante es, como mínimo, tres: el estímulo antecedente, la propia respuesta y el estímulo consecuente. Y una situación de discriminación simple es toda aquella que se ajusta, precisamente, a esta descripción. Por tanto, constituye el caso más sencillo de control operante por el estímulo.

Un esquema simplificado de una discriminación simple, en el que se aprecia la contingencia de tres términos (Skinner, 1938) sería el siguiente: Ed-R-Er.

Llamamos Estímulo Discriminativo (Ed) a todo aquel en cuya presencia una respuesta (R) es reforzada, ya sea positiva o negativamente (Er+ o Er-). Llamamos Estímulo Delta (EΔ) a todo aquel en cuya presencia una respuesta (R) o bien es castigada (ya sea positiva o negativamente) o bien no produce consecuencias (extinción).

Así, en una discriminación simple la respuesta final podrá predecirse atendiendo únicamente al estímulo de control presente en el momento de la realización de la misma: la respuesta tendrá lugar con una alta probabilidad en presencia del Ed, mientras que esta probabilidad será muy baja en caso de que el estímulo presente sea el EΔ.

Desarrollando el esquema anterior, encontramos que:

Ed – R – Er

Ed – No R – No Er

EΔ – R – No Er

EΔ – No R – Er (o bien, EΔ – No R – Er, si la situación en presencia del Delta es de extinción).

Un ejemplo de entrenamiento en discriminación simple en el laboratorio podría ser el siguiente: si una paloma responde (picoteando; R) en presencia de una luz verde (Ed), entonces accederá a comida (Er). Si el animal responde (picoteando; R) en presencia de una luz roja (EΔ), entonces no ocurrirá nada (extinción). A medida que avance el procedimiento, la probabilidad de emisión de la respuesta de picoteo será muy alta cuando aparezca la luz verde y será muy baja cuando aparezca la luz roja. De esta manera, en función del estímulo de control presente, podremos predecir con un elevado grado de precisión el comportamiento del animal.

Un ejemplo de discriminación simple en una situación en un contexto cotidiano lo encontramos a continuación: si un niño dice “papá” (R) en presencia de su padre (Ed), la respuesta será reforzada (por ejemplo, con atención y elogios; Er). Si el niño dice “papá” (R) en presencia de su abuelo (EΔ), entonces la respuesta será castigada (por ejemplo, a través de una corrección verbal) o sometida a extinción (ignorada). Al final, el niño aprenderá a llamar “papá” a su padre pero no a su abuelo.

Por si alguien se lo pregunta: sí, en un entorno “natural” es muy gracioso que un niño pequeño llame papá a todo lo que se mueva y, muy probablemente, la respuesta quedará reforzada a través de atención y elogios con independencia de la persona a la que se lo esté llamando. Pero tarde o temprano habrá que aplicar cierta extinción, ya sea consciente o inconscientemente, para que los estímulos adecuados lleguen a ejercer el control correspondiente.

El hecho de que un niño llame papá (o mamá) a cualquier persona obedece a un mecanismo de control de la conducta por el estímulo específico: la generalización (Guttman y Kalish, 1956). Dicho mecanismo, de carácter innato en tanto que ha sido seleccionado por la evolución, consiste en la capacidad de responder de la misma forma ante estímulos que son diferentes del original pero que comparten algún rasgo en común con él (Pavlov, 1927). Por el contrario, en términos generales, diremos que un individuo está discriminando cuando responde de manera diferente ante estímulos diferentes (Skinner, 1933). Por tanto, como fenómeno, la generalización constituye el extremo contrario del continuo que forma junto con la discriminación. Así, cuanto más se generaliza, menos se discrimina y cuanto más se discrimina, menos se generaliza. Entonces, ¿cuál de los dos resulta más adaptativo? Pues depende: lo efectivas que pueden resultar estas formas de comportarse (generalizar frente a discriminar) vendrá determinado en gran medida por el contexto en el que se produzcan, es decir, por las exigencias del ambiente en un momento dado (González, Quinn, y Fanselow, 2003).

Pero volvamos a las discriminaciones. Ya se ha definido el caso de la discriminación simple, así que, ¿qué es eso de la discriminación condicional? Pues ni más ni menos que una situación de condicionamiento operante cuya particularidad radica en que la función de los estímulos de control (Ed y EΔ) depende de la presencia previa de otro evento adicional: el estímulo condicional (EC). Por lo tanto, en una discriminación condicional (Skinner, 1950) el número de elementos que intervienen en la relación de contingencia es cuatro: el Estímulo Condicional, el estímulo antecedente, la propia respuesta y el estímulo consecuente.

Simplificando:

EC1-R-Ed1-Er

EC1-R-Ed2-No Er

EC2-R-Ed1-No Er

EC2-R-Ed2-Er

¿Por qué he escrito Ed1 y Ed2 en lugar de Ed y EΔ? Porque su función no es fija: se convertirán en Ed o en EΔ dependiendo del estímulo condicional que esté presente.

Retomando el ejemplo de laboratorio de antes: podemos cambiar las circunstancias de tal manera que se refuerce la respuesta de picoteo (R) de la paloma en presencia de la luz verde (Ed1) y se someta a extinción en presencia de la roja (Ed2) pero solo si previamente aparece un cuadrado (EC1). Si previamente aparece un triángulo (EC2), entonces la respuesta de picoteo (R) se someterá a extinción en presencia de la luz verde (Ed1) y a reforzamiento en presencia de la roja (Ed2). Como se puede apreciar, la función de las luces como Ed y EΔ no es inamovible, sino que depende del estímulo condicional que esté presente (EC1 o EC2). Cada uno de estos convierte a una de las luces en Ed y en EΔ a la otra. Concretamente, EC1 convierte a Ed1 en Ed y a Ed2 en EΔ. Por su parte, EC2 convierte a Ed1 en EΔ y a Ed2 en Ed.

Aunque sé que molan los ejemplos con humanos, ahora me apetece poner uno en el que se resuma todo lo que he contado con perretes. Concretamente, con el entrenamiento para la detección olfativa de sustancias estupefacientes. También mola, ¿no? Vamos allá:

Podemos reforzar la respuesta de “marcado” (R) de un perro en presencia de olor a cocaína (Ed) y no reforzarla en presencia de olor a hachís o de cualquier otro (EΔ). Eso sería una discriminación simple.

Si ahora queremos que el animal aprenda a reconocer la droga concreta que nosotros le pidamos, podemos utilizar un procedimiento de discriminación condicional como el siguiente:

Cuando digamos “busca cocaína” (EC1), entonces reforzaremos las respuestas en presencia del olor a cocaína (Ed1) e ignoraremos las respuestas ante olor a hachís (Ed2). Pero si decimos “busca hachís” (EC2), entonces reforzaremos las respuestas ante el hachís (Ed2) e ignoraremos las que se produzcan ante cocaína (Ed1). En conclusión, los estímulos condicionales (EC1 y EC2) son los que determinan la función que desempeñan Ed1 y Ed2: EC1 convierte a Ed1 en Discriminativo y a Ed2 en Delta, mientras que EC2 convierte a Ed1 en Delta y a Ed2 en Discriminativo.

En este caso (discriminación condicional), por tanto, no podemos predecir la respuesta del sujeto basándonos únicamente en el estímulo de control presente, ya que el tipo de control que este ejerza dependerá del estímulo condicional que previamente haya aparecido.

Es importante que no confundamos los estímulos condicionales con los estímulos condicionados (también denominados “EC”). Estos últimos, los condicionados, son aquellos estímulos inicialmente neutros que, al emparejarse con un estímulo incondicionado (EI), terminan adquiriendo la capacidad de elicitar la misma respuesta que dicho EI elicitaba por sí mismo. El mecanismo de aprendizaje a través del cual se produce este fenómeno es el condicionamiento clásico. Y es importante señalar que el condicionamiento clásico da lugar a respuestas reflejas (no operantes). Pero habrá que esperar a otro momento para hablar de este tipo de condicionamiento, que bastante tenemos por hoy.

Sí, efectivamente, los estímulos condicionados se llaman así (en castellano) por una mala traducción del ruso (concretamente, por un error al traducir textos de IvanPavlov). Realmente el término correcto debería ser “estímulos condicionales”. A este respecto, es relativamente frecuente escuchar cómo mucha gente familiarizada con el tema pone el grito en el cielo, diciendo que los llamamos de la manera incorrecta. Y tienen razón. Pero, gracias a ese error, podemos llamar estímulos condicionales a los que intervienen en las discriminaciones condicionales (operantes). Haters, que sois unos haters.

Y por si alguien aún no se ha mareado y se está haciendo la pregunta, la respuesta es sí: el número de elementos que intervienen en los procedimientos de discriminación operante puede (y de hecho, es frecuente que así sea) aumentar aún más. Una discriminación condicional de segundo orden sería aquella en la que se añade otro estímulo más a la cadena: el estímulo condicional de segundo orden (Fujita, 1983), también conocido como “selector”, “informativo” o “estímulo contextual”. Este estímulo (agárrense que vienen curvas) determina la manera en que los estímulos condicionales modifican la función de los discriminativos. De este modo, nos encontramos con que existen relaciones de contingencia operantes de cinco términos. O de seis, en caso de las discriminaciones condicionales de tercer orden (y así sucesivamente).

Para desarrollar este último apunte, ejemplificaremos cómo a partir de dos estímulos de control muy sencillos, la conducta de un individuo puede volverse más compleja a medida que dicho control queda condicionado a las relaciones entre otros eventos (llegando a las discriminaciones condicionales de segundo orden):

Pongamos por caso que le damos a elegir a un niño entre una cartulina con un número siete (en adelante, “7”) y otra con un número cinco (“5”).

Estableceremos como condición arbitraria que si el niño elige el 7, reforzaremos su respuesta a través de elogios y, si elige el 5, aplicaremos extinción.

Así, estaríamos ante una discriminación simple en la que la función del 7 es de Ed y la del 5 es de EΔ:

7 – R – Er

5 – R – No Er

En este momento pasaremos a una discriminación condicional. ¿Cómo? Antes de mostrar las cartulinas con los números, sacaremos otra en la que ponga o bien  “6+1” (EC1) o bien “6-1” (EC2). Obviamente, “6+1” convierte en Ed a “7” y en EΔ a “5”, mientras que “6-1” hace lo contrario, es decir, convierte en Ed a “5” y en EΔ a “7”. De esta forma, el niño responderá eligiendo “7” o “5” en función de si previamente le hemos mostrado EC1 o EC2, respectivamente:

6+1 – 7 – R – Er

6+1 – 5 – R – No Er

6-1 – 7 – R – No Er

6-1 – 5 – R – Er

Pero supongamos que, a partir de ahí, introducimos otra cartulina más (previa a la aparición de los estímulos condicionales). Esta nueva cartulina podrá contener el mensaje “señale la opción correcta” o “señale la opción incorrecta” (que serán, respectivamente, los estímulos condicionales de segundo orden 1 y 2). Y entonces la cadena será la siguiente:

“Señale la opción correcta” – “6+1” – “7” – R – Er

“Señale la opción correcta” – “6+1” – “5” – R – No Er

“Señale la opción correcta” – “6-1” – “7”– R – No Er

“Señale la opción correcta” – “6-1” – “5” – R – Er

“Señale la opción incorrecta” – “6+1” – “7” – R – No Er

“Señale la opción incorrecta” – “6+1” – “5” – R – Er

“Señale la opción incorrecta” – “6-1” – “7” – R – Er

“Señale la opción incorrecta” – “6-1” – “5” – R – No Er

Y así es como podemos estudiar la conducta manteniéndonos en un nivel de análisis estrictamente psicológico.

A modo de reflexión final

Aislar fenómenos psicológicos básicos en el laboratorio no implica reducir la realidad en un sentido ingenuo. Con ello tampoco se pretende, por tanto, representar fielmente todas y cada una de las situaciones que se puedan dar en situaciones fuera del laboratorio. No es ese el objetivo. Por el contrario, lo que se trata de conseguir es aumentar el conocimiento de lo que sucede con respecto al comportamiento partiendo del siguiente axioma: la complejidad observada en entornos no controlados debe ser abordada a través de la identificación y comprensión de los elementos más simples que la componen.

Por supuesto, es importante señalar que si estos elementos se presentan de manera simultánea pueden dar lugar a efectos de sumación y/o de interacción entre ellos. Y aquí radica la importancia de su aislamiento a nivel empírico. De hecho, dichos efectos son, precisamente, los que tratan de ser suprimidos al máximo en experimentos de laboratorio a través del control de las variables relevantes implicadas, las cuales, a su vez, también deben haber sido claramente identificadas. ¿Cómo? Pues, de nuevo, aislándolas.

¿Puede entenderse el efecto conjunto (sumación) que producen A y B si no hemos aislado el que producen A y B de manera independiente? ¿Puede entenderse la interacción entre A y B si no hemos desgranado previamente, y por separado, el funcionamiento de A y de B? Probablemente no. O, al menos, no de la mejor manera posible.

Todo esto, no obstante, no es tan sencillo de entender como a simple vista pudiera parecer. De este modo, se siguen perpetuando algunos mitos con respecto a la relación entre la investigación básica de laboratorio y el análisis de los fenómenos allí estudiados cuando parece razonable que pudieran estar produciéndose en un contexto cotidiano. Por eso considero que puede llegar a resultar peligroso explicar los fenómenos básicos a través de ejemplos aplicados sin asegurarnos previamente de que los conceptos en sí mismos han sido comprendidos.

Y digo “peligroso” en el sentido de que puede proporcionar una falsa sensación de haber entendido algo cuando, en realidad, o bien se ha entendido solo parcialmente, o bien no se ha entendido en absoluto. La ciencia de la conducta describe con una gran elegancia y sencillez aspectos de la naturaleza que pueden resultar ciertamente complejos, lo cual es, desde un punto de vista científico, brillante. Pero desde el punto de vista de la divulgación, esa elegancia puede convertirse en un arma de doble filo.

En palabras de Marr (2013, p.12):

“Los principios del análisis de la conducta operan en todos los niveles de complejidad conductual y biológica, desde los picotazos de pichones en una llave hasta las prácticas culturales humanas, una asombrosa invarianza que confiere una bella unidad al campo.

En un sentido más amplio, creo que la cualidad más seductiva de las ciencias es su casi elusiva belleza. Sin duda ésta es la razón por la que hice de la ciencia mi carrera. Como analistas de la conducta, básicos o aplicados, la mayor parte de nosotros hemos sido atraídos al área, al menos implícitamente, debido a que tenemos un sentido de su unidad y elegante sencillez. Mediante éstas nos esforzamos por obtener explicaciones plausibles del fenómeno más complejo que conocemos: la conducta”.

Si se afirma que los experimentos en psicología básica son reduccionistas, francamente, no se ha comprendido su mensaje. Y en mi humilde opinión, los esfuerzos en este sentido deben ir más dirigidos a comunicar el conocimiento en sí mismo y en pequeños pasos, que a intentar saltar varios de una sola zancada. Claro está que esta segunda opción tiende a proporcionar un reforzador más inmediato y de mayor magnitud.

Pero son precisamente esosescalones el lugar donde residen los matices, llenos de color, que terminan siendo obviados y, al mismo tiempo, convertidos tristemente en el negro lápiz con el que caricaturizar a la filosofía conductista.

Autor: Eduardo Polín Alía

Twitter: @EduPolin

Bibliografía

Fujita, K. (1983). Acquisition and transfer of higher-order conditional discrimination performance in the Japanese monkey. Japanese Psychological Research, 25, 1-8.

González, F., Quinn, J. J., y Fanselow, M. S. (2003). Differential effects of adding and removing components of a context on the generalization of conditional freezing. Journal of Experimental Psychology: Animal Behavior Processes, 29, 78-83.

Guttman, N., y Kalish, H. I. (1956). Discriminability and stimulus generalization. Journal of Experimental Psychology, 51, 79-88.

Marr, M. J. (2013). Do mi sol y Sol mi do: La simetría en el análisis de la conducta. Conductual, 1, 4-13.

Pavlov, I. P. (1927). Conditioned reflexes. London: Oxford University Press.

Skinner, B. F. (1933). The rate of establishment of a discrimination. The Journal of General Psychology, 9, 302-350.

Skinner, B.F. (1938). The behavior of organisms. New York: Appleton-Century-Crofts.

Skinner, B. F. (1950). Are theories of learning necessary? PsychologicalReview, 57, 193- 216.

SOBRE EL AUTOR

Eduardo Polín Alía es Doctor en Psicología por la UNED. Está especializado en el análisis experimental y aplicado de la conducta bajo los presupuestos filosóficos del conductismo radical en psicología del aprendizaje. Su tesis doctoral, titulada “Efecto de la variedad estimular en el aprendizaje a través de contingencias operantes”, puede consultarse en este enlace.

El Dr. Polín es socio titular y miembro activo de la Sociedad para el Avance del Estudio Científico del Comportamiento (SAVECC), que prepara ya su séptimo congreso en Málaga.

Actualmente es profesor adjunto del grado en Psicología de la Universidad Europea de Madrid, así como profesor-tutor del grado en Psicología de la UNED.

Además, dada su formación en adiestramiento canino, es frecuente que distintas empresas especializadas en dicha disciplina cuenten con él para impartir clases de psicología del aprendizaje en los cursos que organizan en sus centros. El próximo curso en el que estará como profesor tendrá lugar en Bocalán, entidad de referencia nacional e internacional de entrenamiento de animales basado en ABA.

*Imagen de cabecera: Bauer h2, de Wolfgang Vullhorst.

Anuncios

Te invitamos a dejar un comentario:

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s