8 mar. 2013

Funcionamiento del algoritmo de Google

La compañía Google ha explicado a los usuarios cómo funciona el algoritmo de su buscador de Internet. A través de una web interactiva, el equipo de Mountain View explica los distintos pasos que lleva a cabo Google desde que el usuario introduce palabras clave en la barra de búsqueda hasta que el buscador ofrece las páginas de resultados.


Para el director ejecutivo de Google, Larry Page, "el perfecto motor de búsqueda entendería exactamente qué es lo que quieres decir y darte exactamente lo que buscas". Por ello, desde Google se ofrecen cada vez mayores mejoras en la búsqueda semántica, pretendiendo mostrar lo que exactamente el usuario está buscando de entre todo el contenido que existe en Internet.

Para explicar el proceso que el buscador lleva a cabo desde que el usuario escribe su búsqueda hasta que obtiene los resultados, Google ha distinguido varias fases en su proceso interno de rastreo: el 'crawling' (que traducido literalmente significa "gateo", de "gatear") y la indexación, los algoritmos, y la lucha contra el 'spam'.

Durante la primera fase, el proceso de búsqueda de Google comienza a realizar un rastreo de las más de 30 billones de páginas existentes en Internet, cifra que se encuentra en continuo crecimiento. En este proceso, Google busca, en ínfimas fracciones de segundo, los enlaces página a página. Mientras, los propietarios de éstas son los que deciden si el buscador puede 'gatear' en su web estableciéndolo así en su código.

Tras el "gateo", Google clasifica las páginas según su contenido y otros factores manteniendo una monitorización de todas las páginas que se encuentran 'indexadas', las cuales constituyen cerca de más de 100 millones de GB de contenido.

Además de la información obtenida mediante el "gateo" a través de las páginas webs, Google también recoge información acerca del mundo 'real' como la recogida por elsistema de StreetView o el contenido de millones de textos procedentes de gran cantidad de libros almacenados en librerías de todo el mundo.

Para la segunda fase del proceso de búsqueda, Google pone en marcha sus programas y fórmulas para ofrecer el mejor resultado posible en el momento en el que el usuario escribe sus caracteres de búsqueda. A través de algoritmos, la compañía de Mountain View intenta "entender mejor" lo que el usuario pretende buscar. Estos algoritmos realizan distintas tareas entre las que se encuentran: deletrear la búsqueda, autocompletarla, buscar sinónimos, buscar y entender las preguntas realizadas.

Basándose en estas pistas dadas por los algoritmos, el buscador extrae los documentos relevantes de aquellos indexados ordenando los resultados usando hasta 200 factores. Estos algoritmos se encuentran en continuo cambio a través del equipo del Laboratorio de Búsqueda que pretende mejorar los sistemas de búsqueda mediante la aplicación de nuevos algoritmos evaluados por los ingenieros de la compañía.

Tras la búsqueda realizada por el algoritmo, se pueden encontrar diversos resultados: gráficos de conocimiento, vistas previas, noticias, respuestas a consultas online, vídeos, imágenes... En las páginas de resultados también se encuentran herramientas como las búsquedas por voz, las búsquedas avanzadas o las mejoras diseñadas para los dispositivos móviles.

Durante la tercera fase, Google lucha contra el contenido que no interesa. "Luchamos contra el spam 24/7 para mantener sus resultados relevantes", se lee en el gráfico.

Pese a que la mayor parte del spam se elimina automáticamente, el equipo de Google también examina otros documentos susceptible de formar parte de este fenómeno a mano. Así, en el momento en el que detectan una página decualquier tipo de spammer es eliminada de forma manual . En el momento en el que se toma la acción, se notifica la decisión a los propietarios del 'site' para darles la oportunidad de arreglar el fallo detectado y notificarlo al equipo de Mountain View.

Desde que en diciembre de 2011 se amplió el concepto de spam a todas sus categorías, se experimentó un aumento en la detección de este tipo de páginas llegando a detectarse en junio de 2012 hasta 655.274 webs fraudulentas. Los últimos datos publicados, corresponden al pasado mes de septiembre donde se notificaron fallos a 398.473 webs.


Fuente:

No hay comentarios:

Hemeroteca

Etiquetas