Data-Science Digital House

D I G I T A L H O U S E . C O M DATA SCIENCE PROGRAMA DE ESTUDIO Certificación Oficial por el Ministerio de Educación

Views 103 Downloads 0 File size 324KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

D I G I T A L H O U S E . C O M

DATA SCIENCE PROGRAMA DE ESTUDIO

Certificación Oficial por el Ministerio de Educación del Gobierno de la Ciudad de Buenos

D A T A

S C I E N C E

I NF O SOBR E E L P R O GR AMA A Q U I E N E S TÁ D IRIGID O El curso está orientado a estudiantes y profesionales de diversas disciplinas que deseen aprender ciencia de datos para sumar nuevas habilidades, crear nuevos proyectos y mejorar su comunicación con los Ingenieros de Big Data o Especialistas en Machine Learning.

RE Q U IS ITO S Conocimientos previos en razonamiento lógico formal. Conocimientos de estadística y programación ayudan (no son excluyentes). Nivel de lecto-comprensión de inglés medio. Aprobación de la evaluación online y la entrevista de admisión.

DUR ACI Ó N

M O DA LIDA D

5 meses

SEDES

Presencial

E S P E C I A L I S TA S

+10

Belgrano, Centro

C A R GA H O R ARIA

digitalhouse.com

196 hs

E TAPAS D EL P R OGR AMA AN TE S

PR EWO R K Contenidos para hacer una nivelación.

C HALLE NG E Se pone a prueba lo aprendido. E NT REVISTA Se conoce al alumno y se verifica su nivel. MACH IN E LEARN IN G Aprendizaje supervisado y no supervisado. Selección y Validación de Modelos. Ingeniería de Features.

DUR ANTE

ETL Extracción de datos de distintas fuentes. SQL y Bases de Datos Relacionales. Limpieza, imputación y preprocesamiento de datasets. Preparación y representación de los datos para el modelado.

VISUALIZACIÓN DE DATOS Visualización para el análisis exploratorio. Visualización interactiva y web para la comunicación de resultados.

D E S PU É S T EC N OLOGÍAS Python COMUNIDAD Scipy Contacto con la Numpy comunidad y Pandas actualización continua. Scikit-Learn Matplotlib FORMACIÓN Seaborn Jr Data Scientist. Plotly Bokeh PostgreSQL P ORTFOLIO JSON Trabajo real con modelos Scrapy analíticos y visualización de Beautyful Soup datos. JOB FAIR Acceso a entrevistas laborales. Coacheo personalizado para mejorar tu perfil laboral, y encuentros con empresas de primer nivel. digitalhouse.com

PROGRAMA DE ESTUDIO D A T A

S C I E N C E

P R O G R A M A

D E

E S T U D I O

CONVERTITE EN UN CIENTÍFICO DE DATOS, ESTUDIÁ CON LOS EXPERTOS Y ADQUIRÍ LAS HERRAMIENTAS NECESARIAS PARA LLEVAR TU CARRERA AL PRÓXIMO NIVEL. APRENDE A EXPLOTAR LOS DATOS, COMPRENDE LAS TÉCNICAS Y APLICÁ LOS ALGORITMOS MÁS USADAS EN LA INDUSTRIA.

digitalhouse.com

P R O G R A M A

D E

E S T U D I O

DATA S C IE NCE La necesidad de contar con analistas de datos calificados crece rápidamente en todos los sectores empresariales e industriales, así como en aquellos ámbitos donde se desarrollan nuevos paradigmas educativos, sociales y científicos. El programa de Data Science de DH ofrece conocimientos sólidos en el proceso de extracción, procesamiento y análisis de grandes cantidades de datos, con el objetivo de dar soporte a la toma de decisiones estratégicas en todo tipo de organizaciones. El curso está estructurado en base al ciclo de vida completo de los datos, desde su recolección y preparación, hasta su análisis y visualización efectiva. Vas a aprender las habilidades y conocimientos fundamentales para desempeñarte en tu primer trabajo como analista de datos. Y vas a descubrir los posibles caminos para continuar tu aprendizaje en aquellos temas de especialización que más te interesan

01 Módulo 1

Fund a m e ntos : N u m py, D o ck e r, G i t, Pa nd a s, Pro b a b i l i d a d

digitalhouse.com

P R O G R A M A

D E

E S T U D I O

* Python y Numpy: Demostrar conceptos de programación usando Python y Numpy como herramientas para navegar fuentes de datos y colecciones. * Estadística Descriptiva: Repasar y aplicar los fundamentos de estadística descriptiva. * Arquitectura de Docker. Comandos básicos.datos usando funciones booleanas, indexación, series, joins y otras funcionalidades). Introducción a Git. * Pandas y Tablas Pivot: Introducción a Pandas (librería para leer, limpiar, parsear y graficar). * Repaso de Probabilidad.

Módulo 2

E x p l orator y D ata An a l ys i s (E DA), S ci P y, G e oPa nd a s, Vi sua l i z a ci ó n , PC A, T- SN E, SQ L * Geopandas para representar datos con geo referenciados. * Limpieza de datos: Conceptos de “tidy data”, estructuras de datos adecuadas, introducción al problema de missing data, nociones de Regular Expressions, * Estadística Inferencial: Nociones de probabilidad, distribuciones muestrales, intervalos de confianza, pruebas de hipótesis. Uso de librería SciPy. * Introducción a Gráficos y Visualización: ecosistema de librerías de visualización en Python. Matplotlib, Seaborn, Plotly, Bokeh. * Dimensionality Reduction: Introducción a PCA. Presentación de Multiple Correspondance Analysis. Manifold Learning: Técnicas para la reducción de dimensionalidad no lineales: Multidimensional Scaling (MDS), Locally Linear Embeddings e IsoMaps. Diferencias con PCA. Métricas de distancia utilizadas. * SQL y Bases de Datos: Introducirse a diferentes tipos de bases de datos, revisar expresiones SQL y realizar prácticas obteniendo datos de una base remota.

P R O G R A M A

D E

E S T U D I O

02 Módulo 3

I ntrod ucc i ón a M a ch i n e Le a r n i n g y Sk l e a r n . A P I s. We b S cra p p i n g, Fl a s k * Machine Learning: Introducción a conceptos nodales: sesgo, varianza, overfitting, underfitting. Identificación de diferentes tipos de algoritmos de Machine Learning (supervisados y no supervisados). Formas de estimación del error de generalización (train-test split. cross-validation). digitalhouse.com Presentación general de las técnicas más utilizadas. * Regresión Lineal Simple y Múltiple: interpretación, estimación de coeficientes beta, supuestos, medidas de ajuste. Introducción de no linealidades en el modelo. * Statsmodels y Sklearn: Introducción al uso de ambas librerías para la estimación de modelos estadísticos y algoritmos de Machine Learning en Python. API, clases y objetos en Scikit-Learn. * Regularización y Optimización: Nociones generales de regularización. Regresión LASSO y Ridge. Feature scaling. * Web Scraping: Nociones de HTML (tags, árboles). Uso de librerías urllib2 y BeatifulSoup para scrapear sitios web.Introducción a selenium. * Flask puesta en producción de modelos.

Módulo 4

Clasifi c a c i ón. G r i d S e a rch y Pi p e l i n e s. Tex t M i n i n g. S e r i e s d e Ti e m p o * Introducción a los Problemas de Clasificación: Problema de los K-Nearest Neighbours. * Algoritmos usados para problemas de clasificación: Regresión Logística. Naïve Bayes, Support Vector Machines. Evaluación de algoritmos de clasificación: métricas de error, Accuracy, limitaciones de accuracy. Precision, recall, F1-Score, Curva ROC, Area Under the Curve (AUC).

digitalhouse.com

P R O G R A M A

D E

E S T U D I O

* Tunning de hiperparámetros: definición de hiperparámetro. Métodos de búsqueda: búsqueda exhaustiva (grid search), búsqueda aleatorizada (random search), búsqueda por algoritmos genéticos. Curse of dimensionality. * Pipelines y Custom Transformers en Scikit-Learn: Pipelines: automatización y encapsulado de etapas del workflow. Custom Transformers: noción de objeto y clase en Python. * Feature Selection: Motivación de Feature Selection. Filter Methods, Wrapper Methods, Embedding Methods. * Embeddings * Topic modelling * Sentiment analysis. * Series de Tiempo: preprocesado de series. Enfoque clásico (tendencia, ciclo y residuo). Estacionariedad. Modelos básicos: media constante, tendencia determinística, media móvil, suavizamiento exponencial simple. Modelos AR, MA, ARMA, ARIMA y ARIMAX. * Paquetes tsfresh, prophet y statsmodels.

03 Módulo 5

Tóp i cos e n M a ch i n e Le a r n i n g * Clustering: Algoritmo K-Means, clustering jerárquico, métricas para evaluación de algoritmos de clustering.DBSCAN. * Sistemas de recomendación. * Feature Hashing * Stochastic Gradient Descent * Procesamiento distribuido con Spark. * Grafos. Detección de comunidades e influencers. digitalhouse.com

P R O G R A M A

D E

E S T U D I O

Módulo 6

Ár b ol e s y E n s a m bl e Le a r n i n g * Árboles de Decisión: Construcción de árboles a través del algoritmo CART. Evitando el overfitting y underfitting en Árboles. * Modelos de Ensamble: Noción de Ensamble Learning. Diferencias y ventajas. Presentación del meta-algoritmo Bagging y de dos aplicaciones para árboles de decisión: Random Forest y ExtraTrees. Presentación del meta-algoritmo de Boosting y de AdaBoost y Gradient Boosting. Ventajas y desventajas de diferentes implementaciones de boosting. Entrando a la caja negra: feature importance y partial dependency plots en modelos de ensamble.

Módulo 7

Proye c to fi n a l * Trabajo Integrador: Deberán entregar un notebook iPython con código, visualizaciones y notas técnicas para los colegas del curso. A su vez, deberán realizar una exposición de las conclusiones, con terminología no técnica, para una audiencia no experta.

digitalhouse.com

P R OCE SO D E AD M ISIÓN PAGO DE MATRÍCULA Para completar la solicitud de inscripción.

MATERIAL DE NIVELACIÓN Material online.

DESAFÍO ONLINE Con ejercicios de evaluación.

ENTRE VISTA DE ADMISIÓN Para asegurar la vacante.

La disponibilidad de vacantes es limitada y requiere de un proceso de admisión previo al ingreso del programa. digitalhouse.com

QU IÉ NE S S OM OS Digital House es una organización educativa que transforma la vida de las personas, desarrollando competencias digitales para que generen impacto en la sociedad. Con este objetivo ofrece capacitaciones bajo una metodología innovadora basada en la práctica. Su propuesta académica world class se compone de numerosos programas en los cuales se capacita al público en general en las habilidades digitales más demandadas del momento. En simultáneo, dicta una serie de Programas Ejecutivos para directivos, gerentes, profesionales y emprendedores, y brinda cursos in-company diseñados a la medida de las necesidades de las empresas. También cuenta con una Licenciatura en Negocios Digitales que imparte junto a la Universidad de San Andrés, y una unidad llamada DHSchool a través de la cual los colegios pueden enseñar asignaturas vinculadas a lo digital a los alumnos desde 5to grado del nivel primario hasta el último del secundario. La institución educativa, que cuenta con dos campus en la Ciudad Autónoma de Buenos Aires, y uno en São Paulo, Brasil, y numerosas sedes en el interior de Argentina.

CO NTACTO 0810 220 3444 [email protected]

digitalhouse.com

DOND E E STAM OS SEDE BELGRANO Av. Monroe 860, CABA [email protected] SEDE CENTRO Lima 1111, CABA [email protected] SEDE CÓRDOBA Av. Jose Baigorrí 653 [email protected] SEDE LA PLATA Diagonal 74 1681 [email protected] SEDE NORDELTA Av. De Los Lagos 7010 [email protected] SEDE ROSARIO Córdoba 2035 [email protected] SEDE MENDOZA Av. Emilio Civit 444 [email protected] Teléfono de Contacto

SEDE TUCUMÁN [email protected]

0810 220 3444

digitalhouse.com