Hace 16 años | Por siberiano a hackszine.com
Publicado hace 16 años por siberiano a hackszine.com

Si los buscadores vienen a ser el sistema operativo de Internet, la falta de un buscador libre equivaldría a la ausencia de un Linux como alternativa a sistemas operativos propietarios como Windows. Estando como estamos en manos de multinacionales a la hora de buscar en la web, quizás es hora de plantearnos la consecución de un sistema alternativo. ¿Para cuándo un buscador libre que sea una alternativa real a Google? En este artículo se resume la situación actual y se proponen los pasos a seguir para lograrlo. Traducción: http://fon.gs/busc

Comentarios

siberiano

#1 Mencionado está en el artículo.

brainsqueezer

Un buscador esta formado por el software que utiliza pero tambien por la empresa que pone centros de computacion y almacenamiento y que además lo da a conocer. Lo primero ya existe, lo segundo no se me ocurre como.

siberiano

#1/#4 Para ser correctos, debería haber titulado la noticia algo parecido a: "¿Para cuándo un buscador libre que sea una alternativa real a Google?" Pero quizás habría sido algo kilométrico... (De hecho el artículo se titula "Where's the open source distributed search?" ).

PD: Si alguien propone un título más acertado, estaré encantado de editarlo.

siberiano

Edito la entradilla incorporando lo que comento en #5, confiando mejorarla

bewog

¿nutch?

k

#10 ¿y como andaría de latencia?, me explico. Puede existir un índice general que lo contenga un servidor donde se anota quien tiene qué y quien está conectado para cuando tu pidas algo el servidor te lleve directamente a quién lo tiene.

O puede no existir ninguno y preguntar a toda la red "¿quien tiene esto?".

A lo primero, el índice sería bastante grande y los recursos que consumiría también por lo que a ver quien lo paga.
A lo segundo, preguntar a toda la red ¿no tendría un poco de retardo?. No es lo mismo ir a tiro fijo que ir "a ciegas".

Quizás me equivoque pero así lo veo.

d

No hay que olvidar que Google tiene una infraestructura de unos 8000 computadoras en 3 centros de EEUU, o por lo menos hace unos años era así. Posiblemente, ahora serán más para indexar cada vez más páginas (andaban por los 3.000 millones de documentos).Esa infraestructura es muy difícil llevarla a cabo por un proyecto libre, ya que las donaciones no alcanzan a tanta pasta.

Quizás algún sistema basado en redes P2P, como he visto que han apuntado por ahí (#8). Algo tipo SETI, aprovechando los tiempos ociosos de las CPUs. En definitiva, un sistema basado en búsquedas distribuidas. Pero, inevitablemente luego necesitas una infraestructura gigante para procesar datos, alamacenarlos y servirlos. Es una obra titánica, con unos costes elevadísimos.

Creo que por el momento Google es el buscador que se necesita. Lo único, es que se mantenga siempre en una posición neutral respecto de sus búsquedas y datos proporcionados a gobiernos. Si algún día pierde esa frescura (independencia), le pasará lo mismo que a Microsoft y será su declive. No hay que olvidar que maneja cientos de miles de datos muy variopintos, y muy apetitosos para gobiernos, empresas, etc. Datos que con herramientas cada vez más sofisticadas, pueden reportar una información valiosísima para negocios, etc.

De todas formas, y volviendo al tema inicial, desde luego a mi me gustaría contar con un buscador libre (porque todo lo libre es más independiente), pero la obra es colosal, aunque torres más altas han caido.

sorrillo

#16 No necesitas que nada este centralizado ("infraestructura gigante para procesar datos"), ni siquiera los que contengan los indices de las busquedas.

Usando resolucion DNS dinamica un equipo podria encargarse de distribuir las busquedas hacia distintos servidores de indices y en funcion de la zona geografica. Tu equipo estaria consultando al indice mas cercano, que podria ser incluso dentro de tu propio ISP.

Todo podria ser redundante, por lo que la caida de ciertos ordenadore o miles de ellos no seria para nada grave, otros tomarian el relevo.

Las velocidades actuales (+20 Mbps son normales en la mayoria de paises civilizados) hace que el trafico necesario de replicacion sea menospreciable.

Lo importante es que todo se base en un muy buen diseño de las bases de datos, de la resolucion de conflictos de replicacion y de toda la estructura en si.

#18 La redundancia que comento anteriormente solucina todos los problemas.
Las soluciones libres son siempre mejores que las propietarias (a nivel conceptual). Linux vs Windows, Wikipedia vs Enciclopedia, Meneame vs La Razon, etc.9

Es un campo a definir y explotar, pero se requieren cerebros dedicados a ello y mucha motivacion (yo no me considero un candidato, por ejemplo).

Saludos.

sorrillo

#7 Con computación distribuida, usando una red p2p para el escaneo de la red y usando los recursos del usuario para crear una base de datos común.

Usando ese concepto sobra potencia de cálculo y sobra velocidad de acceso a la red.

Debería ser una bbdd distribuida (la de google lo es) y replicada de forma que aunque muchos usuarios no estuvieran online el buscador siguiera funcionando correctamente.

No es, para nada, trivial pero el camino parece que es ese.

k

#20 un equipo podria encargarse de distribuir las busquedas hacia distintos servidores

Con equipo supongo que dices un buen ordenador, un servidor, vamos, que no te refieres a un equipo de personas.
Para que algo haga de guía y redirija el tráfico debe de ser siempre el mismo y estar siempre localizable porque de otra forma habría que preguntar por ahí por él, no es plan, entonces mis preguntas son ¿ese servidor aguantará todo el tráfico que p ej tiene google?, ¿quien lo pagará?. Bueno, podría haber donaciones.

Y mientras redirige para que hagamos la pregunta a la zona correspondiente un segundo se va, y mientras en esa zona se encuentra la respuesta concreta otro segundo se va y la gente quiere rapidez.

La gente quiere rapidez y comodidad y la privacidad, la libertad le traen sin cuidado. Si google ofrece mayor velocidad usarán google y google ofrecerá más velocidad pues no es un p2p. En la mula los resultados tardan unos segundos (o más) en aparecer, segundos que son despreciables al lado de lo que se tarda en bajar una película pero en un motor de búsqueda si tienes que esperar dos segundos por cada resultado apaga y vamonos. Un p2p siempre tendrá más retardo que algo como Google.

Además la gente pasa de instalarse cosas para usar un buscador. Para que ese índice se cree en tu ordenador y así puedas contribuir (y pueda funcionar) algo habrá que instalar. Claro que no tiene por que ser obligatorio instalar nada, simplemente buscar y que los buenos samaritanos carguen con el peso. Buenos samaritanos serán el 30% (a lo mucho)¿aguantarán con el 60% del tráfico?.
En la mula, aunque algunos poco, el 100% está compartiendo y ya veis lo bien que tira. Si bien es cierto que el tráfico es mayor, la diferencia de entre el 30% y el 100% puede compensarlo para equiparar a ambos, buscador y mula, vamos, que muy bien no iría con tanto tráfico para tan pocos.

Que diga el 30% no es algo trivial pues doy por sentado que la gente pasa de todo y tomo como ejemplo al firefox, programa libre considerado de éxito. Sin embargo, con todo ese éxito ¿cual es su cuota de mercado?. Pues eso, la gente pasa de todo y prefiere el IE por pereza a cambiar o instalar otro navegador. Otro ejemplo es linux, si los ordenadores vinieran de fábrica con linux ¿cual sería el SO mayoritario?. Otra vez pereza.

Otro punto por el que podría no tener mucho éxito es que no va a competir contra google sino contra google, yahoo, microsoft y compañía. Linux (otra vez de ejemplo) "combate" solo contra Microsoft (en realidad no es ese su objetivo) y sin embargo ¿quien gana por goleada?.

¿Quien tendría más recursos en esa guerra?.

Por eso la gente va a pasar de todo y va a ir a lo cómodo: google, yahoo, microsoft... donde se hacen las búsquedas en menos de un segundo y nadie necesita instalar nada aunque tengan que decir hasta su talla de calzoncillo.

#19 ese día la gente dirá "bueno, me voy a la competencia" y la competencia no lo hará de pago sino que aprovechará la ocasión para tener mayor cuota y mayores beneficios. Por eso ese día no llegará.

quidam

Ya que el artículo va de libertad, por que no sustituir Linux por GNU/Linux y propietario por privativo?

j

#16: Iba a rebatirte el primer párrafo, pero veo que te contestas en el segundo.

Si no existe aún yo creo que es más porque hasta ahora ha habido otras necesidades más importantes en las que invertir esfuerzos y google ha hecho hasta ahora razonablemente bién su trabajo (recordemos que es un servicio, no un software que distribuya y por lo tanto es éticamente correcto, como mínimo en ese punto).

Pero cuando aparezca un sistema de búsqueda colaborativo y empiece a funcionar bién, google tiene los dias contados. Y si no tiempo al tiempo...

tuseeketh

#3 Hasta que un día te digan "ahora tienes que pagar una cuota para que siga yendo igual de bien".

bimixo

Un buscador nececesita una infraestructura carísima: datacenters, etc, para poder procesar las busquedas rápidamente.

D

#23 En Estados Unidos ya le pidieron a google,msn,y yahoo datos sobre las búsquedas,si mal no recuerdo google se negó a ofrecer dicha información...(hay una noticia al respecto por ahí)

sorrillo

#25 Para argumentar mis comentarios hay que ir ya a muy bajo nivel y a discusiones muy técnicas. Te pongo un ejemplo de a lo que me refiero:

Para que algo haga de guía y redirija el tráfico debe de ser siempre el mismo y estar siempre localizable porque

Evidentemente alguien tiene que liderar el proyecto, el buscador requiere un registro dns (mibuscador.com). Ese registro DNS puede estar definido con 20 resoluciones distintas en 20 servidores "raíz" del buscador. Todos ellos solo tendrían que dirigir la consulta al ordenador mas próximo al usuario (por IP) y/o por laténcia.

Te aseguro que ese trabajo lo puede hacer un Pentium a 1 Ghz con una conexión a Internet de 1 Mbps (es un simple servidor DNS). Si el proyecto es realmente exitoso ampliar esa batería de 20 equipos es trivial.

Te aseguro que 20 voluntarios para un proyecto de esta magnitud te salen antes de pedirlos.

Y como eso el resto.

La parte crítica no son las comunicaciones ni quien devuelve la página web, sino el diseño de la bbdd. Tiene que ser una bbdd distribuida muy bien diseñada para que sea inmediato para un servidor de indices dirigir al usuario a quien tiene los resultados correctos de la búsqueda.

Google no utiliza grandes mega servidores o supercomputadores, utiliza baterías de nodos y nodos repartidos por todo el mundo. Es parecido a una red p2p. No existe un gran servidor que tenga toda la base de datos, esta distribuida en distintos servidores pequeños cada uno con distintas partes de la respuesta, varios para imagines, otros para la portada, etc.

La búsqueda p2p no sería tan distinta a google ni sus respuestas serian necesariamente lentas ni malas.

El trabajo es realmente brutal, pero los problemas no son técnicos sino de diseño.

k

#29 Pero google no pone el bittorrent a funcionar en sus ordenadores ni se pone a ripear una película que consume todos los recursos y sus conexiones son un poco mejores que las de la mayoría, así también tiene ordenadores con su SO específico adaptado a sus necesidades y los encargados de eses ordenadores son técnicos, no gente normal. ¿cuantos de los voluntarios van a dejar un ordenador exclusivamente para el buscador libre? pues entre que unos lo tienen apagado, otros que ripean una peli, otros que ven porno y ocupan la conexión, otros que ponen la mula o el bittorrent... por muy redundante que sea la BDD parece que casi no quedan ordenadores 100% aprovechables.

Puede funcionar, con "pocas" visitas pero ¿realmente aguantará lo que aguanta Google?, si no aguanta lo que aguanta google difícilmente podra competir con él y si no compite pasará a ser un proyecto más: Firefox vs IE, Linux vs Windows, Openoffice vs MOffice... por mucho aprecio que le tenga al Firefox, el IE le gana por goleada.

D

un buscador que permita a los usuarios valorar el contenido de los enlaces, como un meneame de las busquedas.

Y los costes me imagino que con la publicidad se pagan casi solos.

Neofito

no le veo ningun sentido a un "buscador p2p", pero bueno..... si esta apagado mi ordenador, mi parte de la bbdd no tendrian acceso lo0s demas, me ocuparia espacio a mi y recursos de mi ordenador, y encima si formateo, lo que ha hecho mi ordenador se va a tomar vientos. Un buscador libre... no se, me parece perder el tiempo, como KDE para windows y macs, si destinase ese recurso a lo que se esta haciendo ahora que por ejemplo la wikipedia no va precisamente sobrada de recursos, ganariamos todos

como he visto en los demas comentarios, me votareis negativos por decir subliminalmente que con googlo (por ejemplo) nos vasta, porque #3 y #16 han hecho spam o insultado pa ganarse esos negativos?.......¬¬

y

El problema principal es que un buscador depende de una infraestructura de ordenadores muy grande con mucha potencia de calculo etc etc Al final cualquiera podría montar su propio buscador,pero no todo el mundo podría mantener el coste de la infraestructura...

D

Google tiene decenas de miles de servidores, no son servidores "normales" sino piezas diseñadas exprofeso para su especializada tarea.Tienen sistema operativo propio tb optimizado para cada cosa
Vienen a ser como tener un parque de miles de routers funcionando.

Creo que antes que hablar de software redes p2p etc habria que empezar por diseñar HARDWARE que lo soporte,que sea libre y que cada uno se comprometa a tenerlo conectado permanentemente a su red.

Algo tipo "fonera" por ejm

D

#8 De dónde sacas esa información de que deberán dar datos de las búsquedas de cada persona? Quiero decir estás hablando hipotéticamente o hay algún proyecto en ciernes?

ibaed

Aunque técnicamente sea posible estaría la cuestión de la privacidad.
¿quién impediría que cualquier empresa utilizase la información de las búsquedas para cualquier fin?

Neofito

#25 efectivamente, no puedes aguantar con el 30% (o menos...) todas las busquedas, y aparte #20 20mbps en paises civilizados....pero es que esto es espIña lol 20 mbs no los tiene nadie, y encima de ancho cutre (sobre todo de subida y con la cantidad de datos que tienes que mandar..) si tengo el torrent abierto, vas a ver que risa te da....

no lo veo viable, porque ademas alguien tendria que pagar una pagina web que mostrase las busquedas, porque en teoria mi ordenador en ese supuesto buscador p2p, solo serviria los datos, no se va a poner a hacer de servidor web

c

un buscador de código libre no creo que fuese muy productivo. Acabaría corrupto, pues sus resultados, conociendo su algoritmo de indexación sería más susceptible de ser manipulado y pudiese ser que acabase dando resultados que no queremos.

Vamos eso creo yo, si ya pasa esto sin conocer del todo como funcionan (póngase cualquier nombre de software en google y vea como aparecen por encima de su pagina oficial paginas como softonic y similares)

Neofito

#29 no se si aguantan 20 pentium a 1ghz todo el trafico de google (me refiero a las peticiones dns), ten encuenta que es un trafico bestial, yo todos los dias uso varias veces google, y como yo practicamente todos los internautas

f

Para mi el problema es el hardware. Para hacer algo similar a Google se necesitan varios miles de ordenadores conectados a varios miles de sistemas de almacenamiento de alta capacidad.

ajripa

En cuanto a los sistemas operativos, libre suele ser sinónimo de mejor... Pero no tiene que pasar lo mismo con los buscadores. Hoy por hoy creo que google nunca me ha fallado...

p

creo que esto es muy buena alternativa...BUSQU 2.0 http://busqu.webcindario.com