Google no utiliza una base de datos, utiliza índices directamente creados por ellos, con su propio sistema de compresión, y su propio sistema de ficheros. Todo está desarrollado desde muy bajo nivel, ya que el objetivo desde el principio era un motor de búsqueda a gran escala (su primer hito eran 100 millones de páginas). Por eso, como verás en el documento, las estructuras de datos están apuradas hasta el bit.
"Chubby es usado para la sincronización de actividades en los sistemas distribuidos de Google. Se utiliza como principal servicio de nombres de Google; es un mecanismo intercambio de datos para sistemas como MapReduce; los sistemas de almacenaje GFS y Bigtable usan Chubby para elegir un primario entre réplicas redundantes; y es un depósito estándar para archivos que requieren alta disponibilidad, como listas de control de acceso". Documento de Google Labs que se presentará en un próximo simposio sobre sistemas operativos. En inglés.
La cifra de 450 mil servidores quita el hipo, a la vez que despierta la curiosidad a cerca de como se define un servidor si, pongamos por caso, se entiende por tal cada procesador similar al que mueve uno cualquiera de nuestros computerter de casa aunque con mas potencia y mejor acceso a memoria.
Con todo y suponiendo que el concepto de servidor confirme aproximadamente tan fantastica cifra, me da la impresion de que serian muchos mas de los existentes en España o bien cerca de la cifra de los existentes en la Comunidad Europea entera.
No todas estas herramientas implementan un sistema de ficheros tipo Map Reduce (que es lo que usa Nutch) pero son una buena base para implementarse un buen buscador sin dedicarle demasiado tiempo.
Comentarios
No estaría mal algún tutorial en castellano sobre como montar algún buscador, está nutch (que por cierto en una ocasion escribí aqui algo sobre eso: Alternativa libre a Google (porque "Al perro flaco, todo se le vuelve pulgas")
Alternativa libre a Google (porque "Al perro flaco...
lucene.apache.orgNo sé si hay alguna otra alternativa a nutch también libre..
Relacionada Chubby: los secretos de Google al descubierto
Chubby: los secretos de Google al descubierto
labs.google.com"índices directamente creados por ellos, con su propio sistema de compresión, y su propio sistema de ficheros"
No deja de ser una base de datos, creada por ellos, distribuida, lo que quieras, pero una base de datos.
muy off topic: ¿esos botones que me acaban de aparecer bajo el comentario son como los puntos de "moderación" de digg ?
#4, eso mismo andaba pensando yo
#4 #5 Joer es verdad... ¿Qué son esos botones?
Realmente se quedo corto.
Habla como si google fuera un solo servidor, cuando realmente es una granja de servidores corriendo en paralelo.
Verdaderamente muy interesante, aunque como dice #7, google no es solo una pagina que vemos, creo recordar que tenian 450.000 Servidores,
La cifra de 450 mil servidores quita el hipo, a la vez que despierta la curiosidad a cerca de como se define un servidor si, pongamos por caso, se entiende por tal cada procesador similar al que mueve uno cualquiera de nuestros computerter de casa aunque con mas potencia y mejor acceso a memoria.
Con todo y suponiendo que el concepto de servidor confirme aproximadamente tan fantastica cifra, me da la impresion de que serian muchos mas de los existentes en España o bien cerca de la cifra de los existentes en la Comunidad Europea entera.
Nutch es una buena opción, pero también hay otras opciones muy interesantes con mayor o menor grado de desarrollo, por ejemplo:
Terrier: http://ir.dcs.gla.ac.uk/terrier/
Lemur: http://www.lemurproject.org/
MG: http://www.math.utah.edu/pub/mg/
No todas estas herramientas implementan un sistema de ficheros tipo Map Reduce (que es lo que usa Nutch) pero son una buena base para implementarse un buen buscador sin dedicarle demasiado tiempo.
Para los que les interese ver como funciona Map Reduce http://en.wikipedia.org/wiki/MapReduce tienen una implementación Open Source que es la que usa Nutch llamada Hadoop
http://lucene.apache.org/hadoop/about.html
Y para terminar un video sobre el sistema de ficheros de Google que aunque es un poc antiguo es muy interesante http://www.researchchannel.org/prog/displayevent.asp?rid=2459