Hace 8 años | Por Pedro-Xitrus a blog.stratio.com
Publicado hace 8 años por Pedro-Xitrus a blog.stratio.com

Una forma bastante simple de agregar datos en tiempo real sin tener conocimientos de Big Data (o en este caso Spark Streaming) es usando software como Stratio Sparta, que te permite procesar enormes cantidades de datos en streaming a través de su interfaz web. En este caso vemos cómo hacer la agregación de los datos, persistirlos en MongoDB, servir con WebSockets con Node.js y consumirlo desde el navegador mostrando los datos con Chart.js. Un ejemplo de principio a fin de cómo procesar Big Data.

Comentarios

D

#9 NoSQL es para guardado y acceso de datos muy rápido. Hay duplicidad de datos, no existen las Foreign Key... cambias velocidad por integridad. Va bien para tener una capa de caché, por ejemplo.

D

#3 No es lo mismo almacenar datos masivos (MongoDB permite sharding) que un buen análisis de los mismos. Para realizar un buen análisis de datos, jamás utilizaría una base de datos NoSQL, la integridad referencial de la información me parece clave a la hora de analizar datos (Big Data).

KimDeal

#4 perfecto, gracias. Yo es que trabajo con bbdd relacionales y justo ahora me estoy metiendo en el mundillo del BI, tengo curiosidad por las NoSQL pero mi desconocimiento es total. Ni siquiera sabía que no tenían integridad referencial.

D

Uso vendehumos del palabro Big Data, además de Spam.
Sí, mucho análisis de datos masivos vas a hacer tú usando MongoDB lol

KimDeal

#1 no conozco MongoDb, por qué no vale para datos masivos?

Pedro-Xitrus

#1 Imagino que no has leído el enlace y tampoco conoces MongoDB.
En primer lugar, MongoDB se usa para almacenar los datos previamente procesados con Apache Spark (con el módulo de Streaming, a través de Stratio Sparta).
Pero en cualquiera de los casos, MongoDB te permite hacer operaciones realmente eficientes de agregación y de MapReduce en un clúster.

D

#5 No me he leído el enlace, pero he trabajado con MongoDB probablemente más que tú. Y sí, conozco sus características, sus pros y sus contras. MongoDB es un juguete.

Pedro-Xitrus

#6 Entonces tu comentario es totalmente inadecuado, ¿no? En la noticia, como ya te he comentado, se procesan los datos con Apache Spark, y se almacenan en MongoDB.

D

cOJONUDO. Lo del bigdata supongo que será al nivel de empresas del IBEX porque a la tienda de la esquina se la sopla mucho procesar big data, primero tendría que tener simplemente data que procesar y lo mas dificil ,que sea big

Pedro-Xitrus

#2 Bueno, no te creas. En el supuesto de "la tienda de la esquina" no es necesario, claro, al igual que tampoco tiene porqué ser necesario el uso de un PC. Pero realmente empresas medianas pueden tener necesidades de este tipo.
Lo único que es necesario, es tener mucha cantidad de datos, y una empresa de transporte o una tienda que vende productos (en cierta cantidad) pueden tener la necesidad de analizar las ventas, los tiempos que se tardan en entregar los pedidos, el número de personal implicado en ciertos procesos...
Es más normal de lo que parece, y las empresas que no usan ciertas soluciones de Big Data, con el tiempo, se encuentran que tienen que hacer operaciones durante días para sacar un informe. E incluso realizar tareas manuales.
Y en cambio en el IBEX, no todas las empresas tienen porqué tener esa necesidad. Un claro ejemplo de las que si: los bancos. Un ejemplo de las que no (necesariamente): constructoras o empresas del sector secundario.
¡Muy bueno tú comentario!
Un saludo.