Portada

Publicado hace 17 años por --11973-- a amadomartin.blogspot.com

¿Cómo crear un buscador como Google ?

amadomartin.blogspot.com

Google no utiliza una base de datos, utiliza índices directamente creados por ellos, con su propio sistema de compresión, y su propio sistema de ficheros. Todo está desarrollado desde muy bajo nivel, ya que el objetivo desde el principio era un motor de búsqueda a gran escala (su primer hito eran 100 millones de páginas). Por eso, como verás en el documento, las estructuras de datos están apuradas hasta el bit.

comentarios destacados

#1: No estaría mal algún tutorial en castellano sobre como montar algún buscador, está nutch (que por cierto en una ocasion escribí aqui algo sobre eso: Alternativa libre a Google (porque "Al perro flaco, todo se le vuelve pulgas")

Publicado hace 18 años por --1341--
a lucene.apache.org

Alternativa libre a Google (porque "Al perro flaco, todo se le vuelve pulgas")

lucene.apache.org

Con las noticias de censuras de Google y sin conocer alternativas libres, encontré hoy algo bueno, s [...]

No sé si hay alguna otra alternativa a nutch también libre..

--1341--

hace 17 años

#2: Relacionada Chubby: los secretos de Google al descubierto

Publicado hace 17 años por --1011--
a labs.google.com

Chubby: los secretos de Google al descubierto

labs.google.com

"Chubby es usado para la sincronización de actividades en los sistemas distribuidos de Google. Se utiliza como principal servicio de nombres de Google; es un mecanismo intercambio de datos para sistemas como MapReduce; los sistemas de almacenaje GFS y Bigtable usan Chubby para elegir un primario entre réplicas redundantes; y es un depósito estándar para archivos que requieren alta disponibilidad, como listas de control de acceso". Documento de Google Labs que se presentará en un próximo simposio sobre sistemas operativos. En inglés.

--1011--

hace 17 años

Comentarios

Ordenados

Desactivado

hace 17 años

editado

No estaría mal algún tutorial en castellano sobre como montar algún buscador, está nutch (que por cierto en una ocasion escribí aqui algo sobre eso: Alternativa libre a Google (porque "Al perro flaco, todo se le vuelve pulgas")

Publicado hace 18 años por --1341-- a lucene.apache.org

Alternativa libre a Google (porque "Al perro flaco...

lucene.apache.org

No sé si hay alguna otra alternativa a nutch también libre..

V 10

K 95

Desactivado

hace 17 años

editado

Relacionada Chubby: los secretos de Google al descubierto

Publicado hace 17 años por --1011-- a labs.google.com

Chubby: los secretos de Google al descubierto

labs.google.com

V 10

K 87

alesis69

hace 17 años

editado

"índices directamente creados por ellos, con su propio sistema de compresión, y su propio sistema de ficheros"

No deja de ser una base de datos, creada por ellos, distribuida, lo que quieras, pero una base de datos.

V 8

K 58

mimismo

hace 17 años

editado

muy off topic: ¿esos botones que me acaban de aparecer bajo el comentario son como los puntos de "moderación" de digg ?

V 7

K -20

capitrueno

hace 17 años

editado

#4, eso mismo andaba pensando yo

V 7

K -28

Desactivado

hace 17 años

editado

#4 #5 Joer es verdad... ¿Qué son esos botones?

V 5

K -18

naco46

hace 17 años

editado

Realmente se quedo corto.
Habla como si google fuera un solo servidor, cuando realmente es una granja de servidores corriendo en paralelo.

V 0

K 5

Bsword

hace 17 años

editado

Verdaderamente muy interesante, aunque como dice #7, google no es solo una pagina que vemos, creo recordar que tenian 450.000 Servidores,

V 1

K 11

Desactivado

hace 17 años

editado

La cifra de 450 mil servidores quita el hipo, a la vez que despierta la curiosidad a cerca de como se define un servidor si, pongamos por caso, se entiende por tal cada procesador similar al que mueve uno cualquiera de nuestros computerter de casa aunque con mas potencia y mejor acceso a memoria.

Con todo y suponiendo que el concepto de servidor confirme aproximadamente tan fantastica cifra, me da la impresion de que serian muchos mas de los existentes en España o bien cerca de la cifra de los existentes en la Comunidad Europea entera.

V 0

K 6

#10

Desactivado

hace 17 años

editado

Nutch es una buena opción, pero también hay otras opciones muy interesantes con mayor o menor grado de desarrollo, por ejemplo:
Terrier: http://ir.dcs.gla.ac.uk/terrier/
Lemur: http://www.lemurproject.org/
MG: http://www.math.utah.edu/pub/mg/

No todas estas herramientas implementan un sistema de ficheros tipo Map Reduce (que es lo que usa Nutch) pero son una buena base para implementarse un buen buscador sin dedicarle demasiado tiempo.

Para los que les interese ver como funciona Map Reduce http://en.wikipedia.org/wiki/MapReduce tienen una implementación Open Source que es la que usa Nutch llamada Hadoop
http://lucene.apache.org/hadoop/about.html

Y para terminar un video sobre el sistema de ficheros de Google que aunque es un poc antiguo es muy interesante http://www.researchchannel.org/prog/displayevent.asp?rid=2459

V 3

K 31

¿Cómo crear un buscador como Google ?

Etiquetas

comentarios destacados

Alternativa libre a Google (porque "Al perro flaco, todo se le vuelve pulgas")

Con las noticias de censuras de Google y sin conocer alternativas libres, encontré hoy algo bueno, s [...]

Chubby: los secretos de Google al descubierto

Comentarios

Alternativa libre a Google (porque "Al perro flaco...

Chubby: los secretos de Google al descubierto