En el número 2 de “The Data Scientist Magazine” y como parte de la serie de artículos dedicados a ética y privacidad, entrevistamos a uno de los principales expertos en éstas áreas dentro del ámbito de la inteligencia artificial. En la actualidad, Ricardo Baeza-Yates es Director of Research, Institute for Experiential AI @Northeastern University. A continuación podrás leer un extracto de dicha entrevista.
TDSM: Ricardo, nos gustaría conocer tu trayectoria profesional y qué nos hablaras de qué te motivó a dedicar tus esfuerzos a esta rama tan interesante de la ciencia.
RBY: Termine mi doctorado en informática hace más de 30 años en la Universidad de Waterloo, Canadá, una de los dos mejores de ese país y dentro de las 25 mejores del mundo en esta área. Luego volví a Chile donde fui el catedrático más joven de la Universidad de Chile, la mayor universidad del país. Hoy el departamento de ciencias de la computación donde fui dos veces director es el mejor de Latinoamérica compartiendo el lugar 79 en el QS ranking con la Universidad de Sao Paulo.
En 2004 migré a Barcelona como profesor de investigación ICREA, un programa del gobierno catalán para atraer a investigadores destacados, en la Universitat Pompeu Fabra (UPF) donde todavía soy catedrático. Estando allí me ofrecieron dirigir y crear Yahoo! Labs Barcelona en el 2006 como vicepresidente de investigación. Luego fundé Yahoo Labs Latinoamérica en Santiago de Chile y dirigí los comienzos de los laboratorios en Haifa, Israel, y Londres, Reino Unido. Durante ese tiempo adquirí también la nacionalidad española. El 2014 migré al Silicon Valley, a la casa matriz de Yahoo! Cuando Yahoo! Labs terminó por su venta a Verizon en el 2016, fui contratado como director tecnológico (CTO) de una empresa de tecnología de búsqueda semántica hasta el año pasado.
Paralelamente comencé a trabajar a tiempo parcial en Northeastern University, en su campus de San José, y este año, cuando fue creado el Instituto de IA Experiencial dirigido por Usama Fayyad (que fue el que creo Yahoo! Research en 2005), pasé a apoyar esta iniciativa como director de investigación.
Siempre me interesaron el efecto de sesgos en los buscadores, publicando mi primer artículo de investigación en este tema en 2008. A ese siguieron varios otros, incluyendo guiar dos tesis de doctorado en la UPF. En 2016 me di cuenta que los sesgos era el tema central y comencé a dar charlas sobre el tema que culminaron en mi artículo de Sesgos en la Web en Communications of ACM en el 2018.
De allí fue natural agregar la ética a los sesgos, un tema del que comencé a hablar este año, el que ha tenido muy buena recepción. Por esta razón en 2020 me incorporé a muchos comités involucrados con políticas tecnológicas en toda América y en España (Consejo Asesor de IA) y tuve la suerte de que mi querido amigo Ramón López de Mantaras, uno de los pioneros de la IA en España, me presentara virtualmente a Lorena Jaume-Palasi, de la cual he aprendido mucho de ética vía vídeo conferencia, que ejemplifica la nueva forma de amistad de los tiempos de Covid.
TDSM: Durante el webinar organizado por Spain-AI que presentaste en febrero de este año mencionas que eres miembro del comité de políticas tecnológicas de la ACM US, ¿cuál es concretamente la función de este comité y su relación si es que existe con la IA?
RBY: La Association for Computing Machinery (ACM), es la asociación profesional más grande del mundo con más de 100 mil miembros. Aunque nació en EE.UU., ahora más de la mitad de sus socios están en otros países. Como parte de sus tareas profesionales, tiene comités de políticas tecnológicas en el mundo y en EE.UU. En este último pertenezco al subcomité de IA y algoritmos, cuya función es difundir ideas para el uso justo de la IA y cualquier tipo de algoritmos.

TDSM: De hecho, en junio de 2020 la ACM solicitó la suspensión del uso de tecnologías de reconocimiento facial por los problemas de sesgos que presenta. Y en relación con esto me llamó mucho la atención una frase en la que decías: “El desarrollo de las tecnologías de reconocimiento facial no ha cumplido con el rigor ético de contar con el consentimiento de las personas”. ¿Cómo hemos llegado a esta situación?
RBY: Las primeras bases de datos de caras usadas al comienzo de este siglo fueron creadas en forma tradicional, donde las personas que fotografiaban daban su consentimiento para que su cara fuera usada para los fines que fueron creadas. Sin embargo, a partir de 2007, la mayor parte de las caras vienen de la Web donde se recolectaron sin tener consentimiento formal de las personas, pues para usar aprendizaje profundo se necesitaban colecciones mucho más grandes. Es decir, estas caras fueron usadas sin consentimiento y por ende sin ética. Además, tenían sesgos raciales que hacían que la calidad de reconocer personas de tez más oscura fuera mucho peor, un tema que se explica muy bien en el documental Prejuicio Cifrado (CODED BIAS) disponible en Netflix. Recomiendo verlo, es mucho mejor que El Dilema Social.
TDSM: Cuando hablamos de inteligencia artificial también tenemos que hablar inevitablemente de algoritmos. Dices en algún momento en una de tus presentaciones que “no tenemos mejores algoritmos, tenemos más datos. Sería mejor tener mejores algoritmos y menos datos”. ¿Podrías explicarnos eso?
RBY: El aprendizaje profundo en cierto sentido es fuerza bruta. Para mejorar los resultados, muchas veces sólo se usan más datos, sin mejorar necesariamente la arquitectura de la red neuronal. Pero a veces usar más datos sólo refuerza los sesgos existentes y también pueden agregar más ruido, otro factor interesante. Por otro lado, estoy seguro que el 99% de las empresas del mundo nunca tendrán datos masivos (big data). Es por esto que lo que realmente necesitamos, si no queremos aumentar la brecha tecnológica entre grandes empresas y el resto, son mejores algoritmos de aprendizaje con pocos datos (small data). Aunque ya hay grupos explorando como aprender con pocos ejemplos (como lo hacemos cuando niños), necesitamos hacer más investigación en este tema que puede tener un impacto mucho mayor en la sociedad.
Este es sólo un extracto de la entrevista publicada en el número 2 de “The Data scientist Magazine”. Puedes descargar el número completo desde la sección “Revista“.