Publicado hace 8 años por --193513-- a elperiodicodemexico.com

Inversionistas de Silicon Valley han destinado US$2,000 millones a compañías basadas en el software de recopilación de datos Hadoop. No obstante, un programa de analítica de datos más reciente quiere desplazar a Hadoop. El software,

Comentarios

ikipol

¿El que ha escrito esto tiene alguna idea?

D

#2 sí, con lo poco que sé del tema, lo que dice desde el punto de vista tecnológico es correcto (luego lo de incluir nombres de empresas o cifras ya es otra historia). La pena el lenguaje, no es una traducción limpia del ingles. Y una de las bases de Spark es que corre sobre los sistemas de bigdata ya consagrados, hadoop entre ellos. No sé hasta qué punto en el título se puede decir que quiere sustituirlo, aunque luego en el cuerpo del artículo lo justifica.
Me arrepiento del negativo que le he puesto

difuso

Hadoop no es un software de analítica. Spark no pretende sustituir a Hadoop, está construido sobre él.

D

#1 esta claro q hadoop no es un software de analitica, sino es un ecosistema de hwrramintas para procesamiento y almacenamiento de datos. De hecho Hadoop fue creado por yahoo utilizando MapReduce de Google para procesamiento, Hdfs para almacenamiento distribuido y Yarn. Si analizas la herraminta de Spark, esta no esta construido sobre Hadoop, ya q Spark quiere quitar MapReduce, como algoritmo de procesamiento. Databrick lo explica en su pagina web.

Realmente, no es q Spark vaya a sustituir a Hadoop, ya q se ha creado todo un ecosistema en Hadoop donde Spark se integra, sino q la tendencia actual es el procesamiento de streams de datos y hay muchos benchmark q demuestran q Spark es muy eficaz para este cometido, ya q evita el proceso de almacenamiento en Hdfs q utiliza MapReduce entre las diferentes etapas de MapReduce, creando todo el procesamiento en memoria.