lunes, 24 de enero de 2022

Matemáticas, Internet y democracia: el algoritmo PageRank de Google

 

Corría el año 1995 e Internet no era ni la sombra de lo que es ahora. El navegador estrella de la época era Netscape y entre los buscadores más populares figuraban WebCrawler, Excite o Lycos, a los que acababan de sumarse Altavista y Yahoo. Fue entonces cuando Larry Page conoció a Sergey Brin durante una visita al campus de Stanford. Page decidió quedarse allí a hacer el doctorado y dedicar su tesis a las propiedades matemáticas de la world wide web, en concreto, a los enlaces que vinculaban todas las páginas de aquella gigantesca biblioteca virtual, que él entendía como un gran gráfico. Aquel empeño lo llevó a inspirarse en el sistema de citas de los artículos académicos para desarrollar un buscador, BackRub, un proyecto al que pronto se unió Brin. El trabajo de ambos cristalizó en 1998 en la publicación de uno de los artículos más importantes de la historia reciente, al menos desde el punto de vista económico: «The PageRank Citation Ranking: Bringing Order to the Web».

 

El algoritmo PageRank de Page y Brin cambió la forma de buscar en Internet y también animó a sus creadores a cambiarle el nombre a su motor de búsqueda BackRub —que no es otra cosa que un masaje de espalda—, por otro mucho más simbólico y atractivo: Google. Esta denominación que rinde homenaje al número gúgol, 10100, da una idea de la ingente cantidad de información que circula por la web… aunque hay quien dice que su forma final no se debe más que a un error tipográfico al registrar su dominio.

 

El primer doodle de la historia, el del 30 de agosto de 1998, fue en realidad un aviso de Page y Brin a los usuarios de que no iban a estar en la oficina porque se habían ido al festival Burning Man. Fuente

Pero, ¿qué tenía de especial el algoritmo PageRank? Hasta entonces, los buscadores se basaban en encontrar palabras clave en las páginas web y en mostrar primero las que más veces contenían esas palabras. La brillante idea de Page fue considerar Internet como un universo de páginas vinculadas en el que el número y el origen de vínculos es lo que determina la importancia de cada una. Si una página recibe muchos enlaces de páginas importantes quiere decir que es muy útil y, por lo tanto, debe aparecer primero en la búsqueda. De hecho, ese principio sigue figurando en la filosofía de la empresa:

Extracto del decálogo «Diez cosas que sabemos que son ciertas» de Google. Fuente
 

¿Y cómo se traduce este concepto a términos matemáticos? Como explican Eduardo Saénz de Cabezón en este genial vídeo o Juanjo Bravo en esta entrada, Internet se puede representar como un grafo en el que cada página es un nodo y los enlaces son las aristas. Cuando una página tiene un enlace hacia otra, le «cede» parte de su importancia. Así, si partimos de una importancia igual a 1, una página A que incluya enlaces a B y a C, les otorgará ½ a cada una. La relevancia final de una página será igual a la suma de todas las cesiones que reciba. Y para obtener el resultado, podemos expresar estos datos en forma de sistema de ecuaciones lineales.

 

Red de reparto de importancia entre cuatro páginas web y el sistema de ecuaciones lineales derivado de él

De ese modo, gracias al algoritmo PageRank, Google acabó convirtiéndose en sinónimo de Internet, con una idea sencilla y genial que nació con un fin muy loable: Page y Brin decían en aquel artículo de 1998 que este sistema era prácticamente inmune a la manipulación por intereses comerciales, ya que para alterar los resultados y colocar una página poco útil en los primeros puestos, habría que comprar enlaces, algo que no iba a suceder. Pero sucedió, y la venta de enlaces se convirtió en un negocio muy lucrativo para el posicionamiento de páginas web. Además, la complejidad de Internet se multiplicó, Google fue añadiendo cada vez más capas a sus algoritmos de búsqueda y en 2013 dejó de publicar actualizaciones de PageRank. En 2016, incluso lo retiró de su barra de herramientas públicas y ahora solo lo usa con carácter interno, junto con otras técnicas como el análisis de los términos de búsqueda o la personalización de las búsquedas.

 

Estas técnicas de inteligencia artificial no están exentas de polémica. Por ejemplo, por los sesgos de género o raciales que muchas veces reproducen y amplifican. O porque la personalización de las búsquedas puede acabar creando una burbuja en la que el usuario solo ve aquello que coincide con sus intereses, algo que genera fenómenos como el espejismo de la mayoría y que se puede usar para polarizar, desinformar o, incluso, intentar manipular elecciones políticas, como sucedió con el escándalo de Cambridge Analytica. Así que, ya sabéis, tanto si buscáis una idea milmillonaria para crear una de las empresas más poderosas del mundo, como si lo que queréis es hacer un mundo mejor, más justo, sin sesgos ni discriminaciones o simplemente aspiráis a tomar decisiones libremente, sin que nadie os manipule, estudiad matemáticas.


No hay comentarios:

Publicar un comentario

Del neuroderecho y otras neurohierbas

  «Acompañar un texto con la imagen de un cerebro aumenta significativamente su credibilidad». Eso aseguran Cardenas y Corredor (2017) en u...