Ensayo Hadoop y Spark

MATERIA: BIG DATA PROFESOR: RICARDO EMMANUEL REYES ACOSTA ALUMNA: KAREN JAZMÍN JIMÉNEZ RODRÍGUEZ CARRERA: INGENIERÍA EN

Views 80 Downloads 5 File size 604KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Hadoop

83 1 645KB Read more

hadoop

384 74 322KB Read more

Spark

Chevrolet Spark 1 Chevrolet Spark 2 Chevrolet Spark 3 Chevrolet Spark 4 Chevrolet Spark 5 Chevrolet Spark

229 1 6MB Read more

Tutorial Hadoop

134 57 1MB Read more

Manual Hadoop

29 1 4MB Read more

apache hadoop

96 10 5MB Read more

Py Spark

Learning Apache Spark with Python Wenqiang Feng September 03, 2019 CONTENTS 1 . . . . . 3 3 4 4 4 5 2 Why Spark

40 0 6MB Read more

6 - Spark

121 1 3MB Read more

Nuevo Spark

73 4 2MB Read more

Hadoop With Python

Hadoop with Python Zachary Radtka & Donald Miner Hadoop with Python Zachary Radtka & Donald Miner Hadoop with Pyth

46 0 2MB Read more

Author / Uploaded
Karen Jazmín Jiménez Rodríguez

Citation preview

MATERIA: BIG DATA PROFESOR: RICARDO EMMANUEL REYES ACOSTA ALUMNA: KAREN JAZMÍN JIMÉNEZ RODRÍGUEZ

CARRERA: INGENIERÍA EN TIC’S

INTRODUCCIÓN A continuación se detallara información relacionados con los sistemas de código abierto Hadoop y Spark.

Hadoop

Definiciones: 

Es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos.



Hadoop es una estructura de software de código abierto para almacenar datos y ejecutar aplicaciones en clústeres de hardware comercial. Proporciona almacenamiento masivo para cualquier tipo de datos, enorme poder de procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente ilimitados.

Características     

Escalabilidad Velocidad Efectividad en costes Flexibilidad Tolerancia a fallas

Descripción de su funcionamiento Hadoop realiza el procesamiento distribuido de grandes conjuntos de datos en el clúster de servidores de productos básicos y trabaja en varias máquinas simultáneamente. Para procesar cualquier dato, el cliente envía los datos y el programa a Hadoop. HDFS almacena los datos mientras Mapreduce procesa los datos.

Ventajas y desventajas     

Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que permite distribuir el fichero en nodos. Es capaz de ejecutar procesos en paralelo en todo momento. Dispone de módulos de control para la monitorización de los datos. Presenta una opción que permite realizar consultas. También potencia la aparición de distintos add- ons, que facilitan el trabajo, manipulación y seguimiento de toda la información que en él se almacena.

Spark

Definiciones 





Apache Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos. Apache Spark combina un sistema de computación distribuida a través de clusters de ordenadores con una manera sencilla y elegante de escribir programas. Fue creado en la Universidad de Berkeley en California y es considerado el primer software de código abierto que hace la programación distribuida realmente accesible a los científicos de datos. Apache Spark es un sistema de computación que se basa en Hadoop Map Reduce y que, principalmente, permite dividir o paralelizar el trabajo, ya que normalmente se instala en un clúster de máquina. La idea es que tengamos n máquinas, por ejemplo, diez máquinas, y cada una de esas instancias va a tener instalada una versión de Apache Spark.

Características    

Velocidad: 100 veces más rápido que Hadoop para ejecuciones en la memoria y 10 veces más rápido cuando se ejecuta en el disco. Esto se debe a que reduce el número de operaciones de lectura y escritura de disco. Almacena los datos de procesamiento intermedio en la memoria. Soporta múltiples lenguajes de programación: Java, Scala, o Python. Compatibilidad: Compatible con Map/Reduce, consultas SQL, flujo de datos, máquina de aprendizaje y algoritmos de grafos.

Descripción de su funcionamiento Brinda un modelo de desarrollo de programas que permite ejecutar código de forma distribuida de tal manera que cada máquina se ocupe de realizar una parte de la tarea y entre todos realicen la tarea global.

Ventajas y desventajas  

Herramienta complementaria. Permite aumentar la velocidad de procesamiento de los datos.

Conclusiones Apache Spark es una herramienta útil y eficiente para tareas de procesamiento masivo de datos. Es una herramienta la cual se encuentra en constante desarrollo, y actualización. Asi como contar con una documentación muy completo. Por esto y mas la considero mejor que Hadoop

Fuentes de información 5 ventajas de la arquitectura de Hadoop https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/402826/5-ventajas-de-la-arquitectura-deHadoophttps://www.sas.com/es_pe/insights/big-data/hadoop.html

¿Qué es Hadoop? https://momentotic.com/2013/05/16/que-es-hadoop/

¿Cómo se relacionan Big Data y Hadoop? https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/328879/c-mo-se-relacionan-big-data-yhadoop

Cuando usar Hadoop y cuando No | CEINE – Centro de Investigación en Inteligencia de Negocios http://www.ceine.cl/cuando-usar-hadoop-y-cuando-no/

Cuando usar Hadoop y cuando No | CEINE – Centro de Investigación en Inteligencia de Negocios http://www.ceine.cl/cuando-usar-hadoop-y-cuando-no/

Spark vs Hadoop, ¿quién saldrá vencedor? https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/spark-vs-hadoop-quien-saldra-vencedor

Qué es Apache Spark https://openwebinars.net/blog/que-es-apache-spark/

Apache Spark - Diego Calvo http://www.diegocalvo.es/spark/