A más de 9000 kilómetros de distancia, en el Estado de California, Estados Unidos, Ricardo Baeza- Yates, director de programas de postgrado en Ciencia de Datos de la Universidad de Northeastern University en Silicon Valley, nos comentó sobre cuáles son los principales sesgos que enfrentamos hoy en día, cuál es el rol que cumplen los algoritmos y qué tan infoxicados estamos:

1- La inteligencia artificial y los algoritmos están tomando relevancia en muchos aspectos de la vida y usted ha mencionado en muchos textos y entrevistas que los algoritmos no son neutros, ¿podría explicarnos esta idea?

Primero, hay muchos tipos de algoritmos. Generalmente cuando hablo de la parte que no es neutra es cuando hablo de algoritmos que usan aprendizaje automático, que es una técnica dentro de la inteligencia artificial que básicamente “aprende” de datos a tomar decisiones. Por ejemplo, decide si una persona tiene que recibir un préstamo en un banco o hacer recomendaciones o predicciones futuras y entonces depende mucho de los datos de entrenamiento. Esto ocurre porque muchos datos tienen sesgos humanos y eso implica que la decisión podría estar sesgada. Ese es el más normal de los sesgos, el que viene de los datos y por supuesto siempre lo podemos corregir teniendo mejores datos.

Hay sesgos mucho más sutiles que vienen de los algoritmos, es decir que los algoritmos toman decisiones que afectan los datos que van a existir en el futuro, sobre todo en la interacción con las personas. Por ejemplo, si tú tienes un sistema que está recomendando productos y siempre te recomienda los mismos productos, uno tendrá más datos de esos productos y tendré menos datos de los productos que NO muestro. Entonces el algoritmo mismo está generando los datos del futuro y eso forma un círculo vicioso donde los sesgos que pueda haber inicialmente en los datos se amplifican y ahí no podemos culpar solamente a los datos, sino que también a los algoritmos.

2- Si asumimos que los algoritmos tienen un sesgo, ¿cuáles serían estos? ¿podemos establecer una tipología? ¿resulta complejo identificarlos?

Podemos identificar varios sesgos dentro de lo que ya hemos hablado. Primero el sesgo de los datos, que es el origen de la mayoría de los problemas. Luego tenemos los sesgos que agregan los algoritmos mismos, ya sea mostrando algunos datos o por errores mismos de la programación.

Luego tenemos el sesgo que ocurre a través de la interacción de la persona con el algoritmo, es decir a través de una pantalla la persona puede hacer clic en distintos elementos y dependiendo de dónde está “eso” en la pantalla, los clics van a ser distintos. Por ejemplo, la gente hace más clic en los primeros lugares de una búsqueda porque están en los primeros lugares y no por ser los mejores. Las personas del mundo occidental primero vemos lo que está en la esquina superior izquierda de la pantalla, lo que estamos acostumbrados. Mucho de esto depende de la cultura.

Estos sesgos de interacción son compartidos porque dependen en parte de cómo el algoritmo está distribuyendo la información en la pantalla, pero también es parte del problema la persona que la usa y ahí tenemos sesgos cognitivos, es decir que no pueden esperar a hacer un clic o mover el ratón. Hay personas que no hacen nunca scroll, quizás no saben que hay que hacer scroll y no lo hacen, entonces es una combinación de los sesgos del algoritmo, en el sentido de dónde se interactúa con la persona y los sesgos cognitivos de la persona.

En el tema de la desinformación hay uno muy importante que es el sesgo de confirmación, que es que si yo veo algo que está acorde a mis creencias yo lo creo más de lo que debiera y hago un clic ahí, ya que me interesa leer una noticia que está de acuerdo con lo que yo pienso. Es por esto que los sesgos de confirmación tienen implicancias muy importantes en cómo se viraliza la desinformación porque están aprovechándose de los sesgos cognitivos de las personas.

Estos son los cuatro sesgos principales, pero otro que mencionaría es el sesgo de segundo orden, que es el que ocurre cuando tenemos este ciclo: que el algoritmo sigue aprendiendo con técnicas de aprendizaje por refuerzo. Esto es lo mismo que hace una persona cuando aprende: cuando ve algo cambia lo que piensa hasta que va entendiendo mejor el mundo. Estos ciclos, basados principalmente en clics, yo los uso nuevamente para seguir aprendiendo, entonces me puedo auto engañar, porque esos clics están siendo generados por decisiones que tomó el algoritmo también, entonces tenemos una retroalimentación que puede ser tanto positiva como negativa como ya mencionamos anteriormente.

3- ¿Es posible pensar en el desarrollo de un algoritmo libre de sesgos o reducir estos sesgos en una medida muy alta?

Si no podemos identificar un sesgo, es imposible eliminarlo y esto es complicado. Otros sesgos son más fáciles, por ejemplo, uno puede analizar datos para ver si hay sesgo de género.

Uno de los problemas que hay con el sesgo es que uno no sabe cuál es la proporción correcta, por ejemplo, en un trabajo específico cuál es la proporción correcta entre mujeres y hombres. En muchos casos no se sabe. Incluso puede ser cultural, en unos países es un dato, en otros otro y puede que la respuesta no sea la misma y decir 50 y 50 es lo más fácil pero no necesariamente es cierto. Yo creo que, si me das a elegir entre un enfermero y una enfermera, yo escogería una persona que sea más empática y generalmente las mujeres son más empáticas que los hombres. Hay diferencias de géneros en las profesiones.

Para esos casos que son más conocidos, como género o raza, es más fácil identificarlos en los datos, pero hay otros sesgos que son mucho más sutiles, por ejemplo los buscadores eliminan los clic extras que hay en el lugar 1 solamente porque están en el lugar 1 y son muchos… puede ser que el número de clics sea el doble de lo normal solo por estar en el primer lugar y la gente tiene fe en el algoritmo y dice “si está en el primer lugar es porque es un poco mejor que el segundo”, pero la verdad que es una aproximación, no una verdad… es una predicción y siempre tenemos que recordar que las predicciones pueden estar erradas.

Ahora, si puedo medir el sesgo e identificarlo, puedo intentar mitigarlo. Es muy difícil sacarlo, ya que para sacar el sesgo tendríamos que responder la pregunta que dije antes de cuál es la proporción correcta, y en algunos casos no lo sé. Lo importante, por lo menos, es saber que existe el sesgo para tener conciencia de ello y por último saber en qué dirección debemos ir, por ejemplo, aumentar la participación de mujeres o no discriminar a grupos minoritarios… y podemos encontrar la respuesta en el camino.

Lo importante es estar consciente, si soy consciente uno podría poner una advertencia: “cuando usted esté usando este algoritmo puede tener estos problemas, entonces tenga cuidado”. Tiene que haber alguien responsable de la decisión. Muchas veces nos dicen “es culpa del sistema” y uno no le puede reclamar a nadie… eso no es cierto, el sistema depende de alguien, fue hecho por alguien, está siendo usado por alguien; entonces alguien tiene que hacerse responsable.

Yo creo que podemos reducirlos en muchos casos, pero en muchos otros, tal vez ni siquiera sepamos que existe el sesgo, sesgos mucho más complicados de entender y que tienen que ver con interacciones mucho más complejas entre, por ejemplo, las personas, los computadores y los datos.

4- Desde esa perspectiva y pensando en la infoxicación, ¿Qué rol tienen los algoritmos en el consumo informativo de las personas?

Tienen un rol muy importante porque todos los algoritmos de recomendación que se usan para noticias, qué cosas ves en Twitter, Facebook, Instagram; todos los sitios de Internet, incluso los sitios web de los grandes portales de noticias… todo eso está decidido por algoritmos. Hay decisiones que son genéricas, como por ejemplo qué le vamos a mostrar a una persona que no conocemos y que llega al sitio o qué cosas le mostramos a personas que ya conocemos y como podemos personalizar su experiencia.

Ahí hay dos tipos distintos de problemas. La personalización es uno. El algoritmo piensa que te conoce muy bien, te encasilla (burbuja o cámara del eco) en qué es lo que te gusta a ti. Por ejemplo, si vives en Quilpué, solo te muestra cosas de ahí y no por ejemplo de Santiago o del resto de Chile… eso es un problema. Para salir de esa burbuja, hay que usar recomendaciones de personas parecidas a ti, distintas a ti o si no nunca te mostrarán algo nuevo que, si tú conocieras, te gustaría. En todo caso esto también depende del sesgo cognitivo, por ejemplo “me atrevo a probar algo nuevo o no” … Esto es importante, ya que si no tenemos cosas nuevas nos quedamos encerrados en una especie de mundo mucho más pequeño que el que realmente deberías ver.

Si salimos de ese mundo, de esa burbuja, igual tenemos el problema que en este mundo genérico, donde tenemos recomendaciones, existen otros sesgos relacionados a lo más popular… “vamos a mostrar lo más vendido”. Puede que eso no te guste, y entonces vemos muchas cosas populares que realmente no nos gustaría ver.

También tenemos sesgos geográficos. Chile es un país muy centralizado, si usamos la cantidad de noticias que llegan como una medida de popularidad, la mayoría serán de Santiago. Uno tiene que mitigar el sesgo mostrando más noticias, por ejemplo, del lugar en donde está la persona. Esa es una forma de mitigar el sesgo geográfico, que también está relacionado con el sesgo poblacional…donde vive más gente, habrá más noticias.

Cualquier sutil cambio de un algoritmo a cómo se ve una noticia, esto puede favorecer o desfavorecer, por ejemplo, una opinión o una posición o incluso una política pública.

Hay que recordar que las personas que están en esos medios sociales no son tampoco una muestra real de la población chilena, entonces la pregunta es cómo uno toma datos de medios sociales y los transforma en una opinión representativa de Chile. Hay que tener en cuenta que el 20% de los chilenos no tiene Internet, que personas mayores no utilizan tanto Internet, que personas con menos educación no utilizarán los hashtags porque no los conocen o tal vez se referirán a un determinado tema con palabras más simples que como lo plantearía un político.

Ahí hay que usar técnicas especiales para tomar los datos, segmentarlos y luego sopesar cada grupo por la opinión que debe tener. Por ejemplo, si hay un 1% de datos de mayores de 60 años, pero en realizad la población de esa edad es el 10%, hay que darle 10 veces más peso a esa opinión y con eso logramos reconstruir la opinión real.

Lamentablemente, la mayor parte de las personas no hace el trabajo de analizar los sesgos y mitigarlos.

5- En ese escenario, ¿Cómo empoderamos y educamos a la población sobre qué contenidos consumir, ¿Cuáles no?, ¿Dónde y cómo realizar sus búsquedas de información? ¿Es necesaria una alfabetización en algoritmos?

Esa es la pregunta del millón. Comenzaré con una frase que escuché del historiador israelí Yuval Noah Harari, en un evento en la Universidad de Stanford el año pasado: “Las personas más fáciles de manipular son las personas que creen que no pueden ser manipuladas”. Y creo eso completamente, es decir, el que está convencido de lo que piensa es porque en verdad ya le lavaron el cerebro.

La primera recomendación es ser más crítico con uno mismo, incluso cuando uno está convencido de algo. Estar consciente de las limitaciones que uno tiene.

Algo que tiene que ocurrir en el futuro es que los algoritmos mismo sean conscientes de sus sesgos y que le digan a la persona lo que puede estar pasando. Ayudarnos a reconocer lo falso para que tengamos cuidado, defendernos de estas manipulaciones y por último ser conscientes de las propias, donde nos muestres por ejemplo todas las frases sexistas que dijiste en el día, todos los chistes racistas que dijiste… que te dé un informe de lo poco político que fuiste con algunas personas y que tal vez no te diste cuenta.

El problema de los sesgos es que la gente no es consciente de ellos y cuando uno se hace consciente de ellos es cuando las cosas empiezan a cambiar.

Yo, como trabajo en este tema, me he hecho más consciente de algunas cosas en las que antes no era consciente.

Además, cuando hablamos de sesgos pensamos que es algo negativo pero el sesgo en sí no es algo negativo, sino que es una desviación sistemática con respecto a cierto valor referencial. En definitiva, tenemos muchas de estas cosas ya codificadas en el cerebro y es bueno ser más consciente de ellas. Con la conciencia de ser consciente de esto se resuelve el 90% de los problemas, tenemos y debemos ser conscientes.

Otra cosa importante es ver todos los puntos de vista, buscar en más de un buscador, leer las opiniones a favor y en contra, no quedarse en el fundamentalismo, pues eso nos lleva a la polarización. Más en un país que ya está polarizado.

¡Escucha lo más destacado de la entrevista!

Share This