Que Es Hadoop

QUE ES HADOOP? Hadoop es una plataforma que nos permite desarrollar aplicaciones que tengan que tratar con grandes canti

Views 84 Downloads 1 File size 214KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

QUE ES HADOOP? Hadoop es una plataforma que nos permite desarrollar aplicaciones que tengan que tratar con grandes cantidades de datos, hasta Petabytes. así , Si no tienes muchos datos de entrada, buscate otro framework. Analiza tantos datos que no te caben en una sola máquina. Si los datos te caben en una sola máquina te estás equivocando de Framework. Permite manejar escalabilidad de los datos, reduce los costos de hardware, es flexible en cuanto al tipo de datos y tolerante a fallos por sus archivos replicado Por que Hadoop? Apache Hadoop al ser un proyecto de software libre es adaptable a cualquier necesidad. Hadoop presenta una escalabilidad prácticamente horizontal, por lo que basta duplicar el número de nodos para duplicar la capacidad de cálculo y almacenamiento. Hadoop no necesita un hardware especial y se adapta como un guante a las plataformas de Cloud Computing (Amazon Web Services) además está preparado para correr en máquinas "baratas” Hadoop puede ser adaptado para importar/exportar los datos desde bases de datos relacionales y NoSQL, índices y cualquier otra estructura de datos. Si sabemos que el hardware se va a estropear durante la ejecución, tranquilo Hadoop esta preparado para soportarlo. Los puntos fuertes de hadoop: Fácil a utilizar: facilidad de uso de la libreria MapReduce para la resolución de problemas básicos. Escalabilidad: conectar un nodo (cluster), Arrancar los módulos y ya esta en funcionamiento. Robusto: Si un nodo de calculo cae, sus tareas son automáticamente repartidas a otros nodos, los bloques de datos también son replicados. Creado especialmente para grandes volúmenes de datos. Facebook para el análisis de logs, Google para el análisis de peticiones de búsquedas, etc..

COMPONENTES HADOOP? Hadoop se asienta en un sistema de ficheros distribuido (HDFS) capaz de almacenar terabytes y petabytes de información. Esta información es consumida y procesada mediante trabajos implementados en MapReduce, que son capaces de aprovechar la potencia de cálculo de un cluster de máquinas la arquitectura que forma un cluster de Hadoop. HDFS Sistema de almacenamiento distribuido Reparticion de bloques: Archivos divididos en blocks grandes, se distribuyen a través del clúster Verifica fallos en el cluster: Los blocks son replicados (copiados) para manejo de fallo de hardware Motor de replicacion: HDFS reparte la carga de trabajo según la utilizacion de discos y rede, Fácil ubicación de los datos, el paso de un servidor a otro es transparente para el cliente MapReduce Es un framework java para la creation de programmas de calculo distribuido. Tareas de usuario son reducidas en Mapeos y reducciones “Map”: el nodo padre descompone un problema en varios subproblemas y los distribuye hacia los nodos hijo, un nodo hijo a su vez puede convertirse en padre y descomponer su tarea. “Reduce”: Los nodos padre reuperan les resultados de los nodos hijo afin de agregr los resultados.

Que ES Hive? La principal incomodidad que tiene Hadoop es que para hacer una simple consulta de datos hay que escribir un programa completo en Java, y esto, no es rápido Ahí donde entra en juego Hive Hive es una infraestructura de data warehousing encima de Hadoop, que permite la consulta de datos Y esto que significa? pues básicamente se trata de crear unos metadatos encima de los directorios de HDFS describiendo el formato de los ficheros, asi pues se crea una estructura tabular virtual encima de Hadoop. Hive también tiene un intérprete de comandas sql, por lo tanto se podría escribir una consulta sql de toda la vida en la command line, luego hive coge el sql, lo convierte automáticamente en jobs Map/Reduce y estos son ejecutados de forma transparente en el clúster como jobs normales. Hive permite la creación de un datawarehouse sobre tecnología Hadoop, mediante el almacenamiento de grandes cantidades de datos y su análisis a través de una interfaz SQL. Hive es compatible con diversas herramientas de generación de informes e inteligencia de negocio, como MicroStrategy o Pentaho. Los costes de mantener un datawarehouse en la nube con Hive son muy bajos comparados con los datawarehouses tradicionales. Hive es una herramienta que me permite consultar, almacenar y procesar datos mediante un lenguaje de consultas parecido al L denominado ive L con sus siglas L u uso esta orientado a reali ar ata are ousing para informacion de empresas.