Publicado hace 17 años por --11973-- a amadomartin.blogspot.com

Google no utiliza una base de datos, utiliza índices directamente creados por ellos, con su propio sistema de compresión, y su propio sistema de ficheros. Todo está desarrollado desde muy bajo nivel, ya que el objetivo desde el principio era un motor de búsqueda a gran escala (su primer hito eran 100 millones de páginas). Por eso, como verás en el documento, las estructuras de datos están apuradas hasta el bit.

Comentarios

a

"índices directamente creados por ellos, con su propio sistema de compresión, y su propio sistema de ficheros"

No deja de ser una base de datos, creada por ellos, distribuida, lo que quieras, pero una base de datos.

D

Nutch es una buena opción, pero también hay otras opciones muy interesantes con mayor o menor grado de desarrollo, por ejemplo:
Terrier: http://ir.dcs.gla.ac.uk/terrier/
Lemur: http://www.lemurproject.org/
MG: http://www.math.utah.edu/pub/mg/

No todas estas herramientas implementan un sistema de ficheros tipo Map Reduce (que es lo que usa Nutch) pero son una buena base para implementarse un buen buscador sin dedicarle demasiado tiempo.

Para los que les interese ver como funciona Map Reduce http://en.wikipedia.org/wiki/MapReduce tienen una implementación Open Source que es la que usa Nutch llamada Hadoop
http://lucene.apache.org/hadoop/about.html

Y para terminar un video sobre el sistema de ficheros de Google que aunque es un poc antiguo es muy interesante http://www.researchchannel.org/prog/displayevent.asp?rid=2459

B

Verdaderamente muy interesante, aunque como dice #7, google no es solo una pagina que vemos, creo recordar que tenian 450.000 Servidores,

D

La cifra de 450 mil servidores quita el hipo, a la vez que despierta la curiosidad a cerca de como se define un servidor si, pongamos por caso, se entiende por tal cada procesador similar al que mueve uno cualquiera de nuestros computerter de casa aunque con mas potencia y mejor acceso a memoria.

Con todo y suponiendo que el concepto de servidor confirme aproximadamente tan fantastica cifra, me da la impresion de que serian muchos mas de los existentes en España o bien cerca de la cifra de los existentes en la Comunidad Europea entera.

naco46

Realmente se quedo corto.
Habla como si google fuera un solo servidor, cuando realmente es una granja de servidores corriendo en paralelo.

D

#4 #5 Joer es verdad... ¿Qué son esos botones?

mimismo

muy off topic: ¿esos botones que me acaban de aparecer bajo el comentario son como los puntos de "moderación" de digg ?

capitrueno

#4, eso mismo andaba pensando yo