lunes, 15 de abril de 2013

Motores de búsqueda




Siempre que queremos encontrar en la gran red de internet, a no ser que tengamos la dirección web, utilizaremos los buscadores disponibles para ello. Los tres más usados son Google, Yahoo y Bing. ¿Cómo funcionan estos buscadores?


En primer lugar, los buscadores se crean su propia copia de Internet a través de unos programas que van visitando las webs y copiándolas en los discos de estos buscadores. Al ser un proceso largo, a veces aparecen páginas que ya se han eliminado pero que seguían guardadas en el caché (área de almacenamiento). Pero estos programas no copian Internet cada día, sino que van actualizando los datos que han cambiado y copian webs nuevas. Los buscadores toman los datos de Internet y los transforman en una estructura de datos que contiene la información, unos sistemas de indexación (el índice de las palabras que aparecen en la página, los nombres de las páginas en las que aparecen), compresión (se eliminan las imágenes y el formato del texto para hacer una búsqueda más rápida) y organización de estos datos. Google, por ejemplo, utiliza BigTable.

También existe la “búsqueda inteligente” (Smart representation), que elabora un índice ordenando los datos en forma de árbol, comenzando la búsqueda desde arriba o nudo de raíz. Para localizar términos que comiencen por letras del alfabeto anteriores a la letra del nudo, el buscador parte de la ramificación izquierda; y si las letras son posteriores en el alfabeto, de la ramificación derecha. De tal forma, que a su vez se van abriendo más ramas, hasta encontrar el término en cuestión o concluir que no se encuentra allí. Como consecuencia de esto se ofrecen numerosos enlaces URL, pero con la misma relevancia. Para reducir los resultados se utiliza un método conocido como “peso según frecuencia”, es decir, asignar un peso a cada palabra según su relevancia en el documento. Así, palabras que aparecen muchas veces tienen una menor relevancia que otras que aparecen en menor cantidad y tienen más transcendencia semántica.

Pero Google utiliza el análisis de enlaces que estudia la naturaleza de cada página, es decir, si es importante porque otras páginas remiten a ella o si es ella la que remite a otras páginas. Esto es denominado con el nombre de PageRank.


¿Qué es el “PageRank”?


Es el valor numérico que representa la importancia de una página web en Internet. Esta importancia se consigue a través de votos, es decir, cuando una página web coloca un enlace a otra, es un voto para esta última. Google utiliza esto para determinar la importancia de los sitios web, puesto que cuantos más votos tenga, más importante se considerará. Esto es un dato muy importante, puesto que determina la posición que ocupará la página web dentro de los resultados de búsqueda. Además, los votos emitidos por otras páginas “importantes”, valen más y ayudan a que otras webs sean conocidas.

Pero no solo estos enlaces son lo único que utiliza Google para posicionar la web, aunque es verdad que tienen gran importancia. Eso sí, Google también tiene sus filtros, ya que hay páginas –denominadas “link farms”- que se dedican única y exclusivamente a poner links. Por otro lado, una página que enlace links que estén penalizados, afectará negativamente a su PageRank.

El PageRank de la barra de Google va de 0 a 10. Diez es el máximo y son muy pocas las páginas que cuentan con esta puntuación (el 0,1% de las webs); mientras que 1 (el 79% de las webs) es la calificación menor que puede recibir un sitio, y 0 significa que esa página está penalizada o aún no ha recibido ninguna puntuación.


¿Qué tienen en común y en qué se diferencian los tres buscadores más utilizados?

La tecnología de búsquedas de Yahoo lleva en funcionamiento desde el año 2009, más o menos por la misma época en la que Bing fue creado por Microsoft, mientras que Google cambia continuamente el funcionamiento y parámetros de su algoritmo de búsqueda para adaptarse a las nuevas necesidades de los cibernautas.

Ninguno de estos buscadores se dedica tan solo a la indización de las páginas, sino que además incluyen otras funciones como el uso de imágenes, videos, noticias…Además, poseen la opción de búsqueda avanzada a través de filtros, como el uso de fechas de publicación, palabras exactas, búsquedas limitadas a un país o abierta a varios. Igualmente, los tres buscadores incluyen el autocompletado que ayuda al usuario en su búsqueda intentando adivinar lo que éste va a poner.

Por otro parte, se diferencian en que los tres agregan resultados de Twitter, pero sin embargo, los resultados de Facebook solo los integra Bing; Google filtra los resultados de los blogs, y Yahoo carece de la función de divisas.

¿Qué pensáis del PageRank?¿Creéis que debería haber un método mejor que solo la cantidad de veces que se menciona un enlace? ¿Qué buscador es el que más utilizáis y por qué?

Un saludo de una googleadora que casi nunca utiliza otro motor de búsqueda.

Camila Paron

12 comentarios:

  1. Ya podrán existir cientos, miles de buscadores, que ninguno le llegará a Google a la suela de los zapatos. A pesar de que, por ejemplo, no filtra los resultados de la red social más famosa (Facebook), tiene la extraordinaria particularidad de, como bien ha explicado Camila, cambiar su funcionamiento para adaptarse a las necesidades de los usuarios, y además filtra los resultados de los blogs. Para mí, esto es mucho más importante que cualquier otra función. Alguna que otra vez he utilizado Yahoo y me he jurado a mí mismo no volver a hacerlo. Estancado e incómodo, no lo recomiendo para nada. Y nunca he usado Bing, pero me consta por diversas opiniones que es una auténtica bazofia.

    Así que lo dicho, espero sorpresas, pero no creo que nadie encuentre mejor buscador que Google. Eso sí, yo apenas sé de la existencia de los tres más importantes, así que a lo mejor hay alguno perdido por ahí que merece la pena. ¡Un cordial saludo a todos!

    ResponderEliminar
  2. A decir verdad, creo que el PageRank de Google es un buen sistema para indizar las páginas en un buscador, claro que en ocasiones puede dar lugar a la propagación de información inexacta o directamente falsa entre la mayoría de las personas que no tienen por qué sospechar de ello. Es cierto que en cuanto alguien que verdaderamente conozca el tema se percate de que se ha cometido el error esa información irá poco a poco cayendo en desgracia, pero eso es algo que puede pasar tarde o directamente no pasar. A riesgo de parecer cansino, me reafirmo en lo que dije en clase sobre que un modelo combinado, en el que los expertos revisen las entradas que, por número de visitas o enlaces, se encuentren en un determinado ranking de búsquedas me parece acertado. Quizá todos los que consigan un Pagerank de 5, o quizá 7... lo que haga la criba más fácil y posible. Es cierto, en clase se habló acerca de que poner un grupo de expertos podría generar una censura de contenidos o que descarten algunos contenidos humorísticos que quizá se pretendan buscar en algún momento, pero con ello estamos dando por sentado que a esos expertos se les daría carta blanca para hacer lo que quisiesen sólo por ser expertos. Quizá lo más positivo sería aplicar una especie de manual de acuerdo al cual seleccionen los contenidos, una serie de requisitos por los cuales se justifique el bajarle el PageRank a una página. Se verificaría la misma de acuerdo a la opinión meramente técnica de los expertos, darían un motivo de acuerdo a ese manual por el que la página merezca ser bajada en el ranking y el cambio se efectuaría. Y por supuesto esto no se aplicaría a las páginas con una clara intención humorística, que mantendrían su PageRank intacto(sería simplemente absurdo censurar a la Frikipedia por poner contenidos inexactos).

    Perdonadme, pero es que el día del debate no pude contraargumentar por el ritmo de la clase, de modo que me desquito aquí.

    Óscar Arenas Núñez.

    ResponderEliminar
  3. Buenas,

    El PageRank de Google es un buen sistema, no es perfecto, pero Google es el mejor buscador que existe en la red por algo y es por la rapidez y la exactitud a la hora de buscar información.

    Es cierto, que puede suceder que una información inexacta ocupe los primeros lugares durante un determinado momento, pero con el tiempo irá bajando de lugar. Lo mismo puede suceder con los rumores que se originan en las redes sociales o en la calle, el propio tiempo los pone en su sitio. Es imposible poner a un grupo de expertos a revisar la red para evitar que nos llegue información falsa.

    En cualquier caso, el buscador Google es la mejor opción que tenemos disponible ahora mismo. Además, te permite enlazar con otros servicios como noticias, imágenes, vídeos o documentos.

    La herramienta en sí no es mala, depende del uso que se le dé.

    Un saludo

    ResponderEliminar
  4. La verdad es que cuesta mucho imaginarse cómo era Internet antes de la difusión de los buscadores. Google, con todas las connotaciones negativas que le supone ser tan magna empresa, nos brinda una herramienta totalmente imprescindible para sacar partido a una conexión a Internet.

    Por lo demás, ¡me encanta tu artículo, Camila!

    ResponderEliminar
  5. Me subo al carro de Google: es el mejor con diferencia. Además la competencia es prácticamente desconocida o debería (coincido plenamente con Pablo en que Yahoo y Bing son espantosos).

    Por otra parte no creo que el PageRank sea un método que necesite combinarse con el criterio de un grupo de expertos. Sí que es cierto que se corre el peligro de propagar una información falsa, pero creo que debemos recordar que en Internet prima la libertad de expresión sobre la profesionalidad, es decir, no está ahí para ayudarnos a hacer trabajos (para eso existen fuentes más fiables impresas, aunque la información sea menos accesible y no sea tan actualizada, el que se mete en Internet ya sabe a lo que se arriesga). Además, delegar el manos de profesionales la clasificación de una web, de la que dependerá su posicionamiento entre los resultados, sería conceder demasiada credibilidad a un criterio "experto" y darle demasiado poder sobre lo que se lee y lo que no. Google o cualquier otro buscador estaría en su derecho si lo hiciese, pero se lo desaconsejaría, por la sencilla razón de que Internet es más un reflejo social que un recurso académico o profesional.

    Sí podría ser interesante un modelo híbrido similar al que ha propuesto Óscar, con el que se pudiera hallar una cierta armonía entre el criterio popular y la fiabilidad. A mi se me ocurre, por ejemplo, el empleo de un criterio profesional que certifique de alguna manera la veracidad de una web mediante algún tipo de distintivo en las páginas (para que no sea un trabajo tan arduo, quizá sólo de las mejor puntuadas), pero sin interferir en su posicionamiento dentro del PageRanking. Ya sé que suena un poco a disparate, pero tenía que intentarlo.

    ¡¡Gracias por el artículo Camila!! ¡¡Un saludo!!

    ResponderEliminar
  6. Felicidades a mi compañera Camila por explicar de manera muy sencilla algo tan complejo como es el funcionamiento de los buscadores en internet. Soy un freak de los ordenadores, y me da un poco de vergüenza no conocer bien las diferencias entre Google y los demás buscadores, siempre he utilizado Google.

    En cuanto a la pregunta que planteas del page rank, no se me ocurre una manera mejor, ya que hay que simplificar la búsqueda a través de datos, los datos no son capaces de diferenciar entre un aporte bueno o malo, de este modo cuantas más veces sea consultado mayor page rank, es decir que dejamos que la gente sea la que diferencie entre las mejores y las peores (entendiendo que entre más gente cuanto mayor sea la calidad del contenido).

    Repito, gran entrada, un saludo.

    ResponderEliminar
  7. Un artículo muy directo, claro y didáctico sobre un tema que inicialmente puede no ser especialmente interesante. No obstante, no se hace pesado en ningún momento, y tampoco he sentido como si se lo estuvieras explicando a un niño.

    Y ya puestos, con el tema del Page Rank, creo que es la forma más directa y sencilla de sintetizar la cantidad absolutamente ingente de páginas web en Internet. No se me ocurre nada mejor, la verdad.

    ResponderEliminar
  8. A mí me gustaría "resucitar" el tema del debate del otro día en clase: ¿no sería quizá mejor que un "comité de expertos" valorara las... digamos... 20 entradas más valoradas por el PageRank? No sé, quizá es que no me fío mucho de la capacidad del género humano para superar su estupidez, pero como comentaba Javier por ahí arriba, puede suceder que una información errónea esté en esos primeros puestos y ese error tarde mucho en subsanarse por sí solo. ¿Qué opináis?

    Antes de despedirme, felicitar a Camila por lo didáctica que es la entrada.

    Un saludo,
    Joseca HC.

    ResponderEliminar
    Respuestas
    1. Este comentario ha sido eliminado por el autor.

      Eliminar
    2. Yo creo que la existencia de expertos que valoren las entradas más valoradas del PageRank debería darse dependiendo de la importancia y relevancia social del tema del que se hable. Es decir , creo que se puede dar opción a ambas soluciones. La participación de expertos para temas importantes y la libertad actual para temas más banales.
      Creo que de esta manera se podría conseguir una mayor seriedad con respeto a este tema, y a la vez respetar el actual sistema, eso si dependiendo del asunto a tratar por la pagina web, como ya he dicho... Y nada más, solo felicitar a Camila por la entrada :)

      Eliminar
  9. Chiquillos, en primer lugar, quería sacaros de un error que estáis cometiendo varios... Google SÍ que muestra los resultados de Facebook en sus búsquedas. Y podéis hacer la prueba en un momento (pausa publicitaria): abrid el buscador y teclead "La Pluma Rota" (el blog que comparto con Joseca). El primer resultado que aparece es el propio blog, pero el segundo y el tercero son la página del blog en Facebook. Luego sí que muestra esos resultados...

    Por otra parte, la idea de un modelo conjunto que proponen panmios y Joseca no está nada mal... Como dije en su día, el hecho de que quien valore sea la comunidad siempre permite que lleguen a lo más alto del buscador páginas que de verdad merecen la pena, pero que de otra forma jamás serían descubiertas, porque un comité de expertos nunca podrá descubrir todo lo que se oculta en Internet. Con lo cual, el hecho de que ese comité valore más tarde los resultados más importantes del PageRank, es un modelo magnífico. Ahora bien, no olvidemos una cosa muy sencilla, que a veces damos por supuesta: los expertos no son infalibles. Y no sería la primera vez que me encuentro con información totalmente equivocada en la página web o el Twitter del periodista o el científico de turno, que se supone está perfectamente informado sobre ese tema, porque es su campo de trabajo. A veces quienes más se supone que saben sobre algo son también quienes más posibilidades tienen de equivocarse, mientras que es más difícil que le suceda al conjunto masivo de usuarios de Internet (y lo dice alguien que advierte todos los días contra la tiranía de las masas).

    Y como seáis tan pelotas con mi entrada como lo estáis siendo con todas, os expulso del blog.

    Jorge Lázaro

    ResponderEliminar
  10. Me vais a sacar los colores...menos Jorge, tú eres malo.
    No sé que más comentar aparte de todo lo que ya habéis dicho.
    Estoy de acuerdo con Joseca sobre lo de los expertos, aunque también sería un arduo trabajo para ellos, puesto que si tienen que valorar las páginas que aparecen en primer lugar en el PageRank, puede llegar a ser un trabajo de por vida, ya que para cada frase o palabra que pongamos en un buscador, saldrán distintas páginas en el primer puesto. Me parece bien la idea, aunque no me termina de convencer. Me gusta más que sean juzgadas por la masa...no todo el mundo puede ser ignorante y equivocarse. Seguramente, entre el público que lea las páginas haya más expertos dentro del tema que el propio "experto" que lo examine.

    ResponderEliminar