Digital House Coding School

      Data Science

      Digital House Coding School
      Em São Paulo

      Preço para verificar
      Ou prefere ligar para o centro agora?
      01148... Ver mais

      Informação importante

      Tipologia Curso intensivo
      Local São paulo
      Início Datas a escolher
      • Curso intensivo
      • São paulo
      • Início:
        Datas a escolher
      Descrição

      Neste curso presencial e intensivo, você aprenderá tudo que é preciso para realizar projetos de Data Science do início ao fim. Ao concluir o curso, estará apto para atuar como cientista de dados.
      Você desenvolverá as habilidades necessárias para atuar em projetos de coleta, análise e estruturação de dados. Em cinco meses, dominará os conceitos teóricos e as metodologias mais utilizadas no mundo todo.
      Para coleta, limpeza, análise e visualização de dados, você utilizará o Python e bibliotecas SciPy, entre outras fontes. Além disso, aplicará técnicas de estatística inferencial e algoritmos de Machine Learning usando NumPy, Pandas e Scikit-learn.

      Instalações (1)
      Instalações e datas
      Início Localização
      Datas a escolher
      São Paulo
      Av Dr Cardoso de Melo, 90 – Vila Olímpia, São Paulo, 04506003, São Paulo, Brasil
      Ver mapa
      Início Datas a escolher
      Localização
      São Paulo
      Av Dr Cardoso de Melo, 90 – Vila Olímpia, São Paulo, 04506003, São Paulo, Brasil
      Ver mapa

      A ter em conta

      · Público alvo

      Economistas, administradores de empresas, cientistas sociais, físicos, químicos, médicos, entre outros que desejam aprender Data Science (Ciência de Dados) para conquistar novas habilidades, criar novos projetos e melhorar sua comunicação com engenheiros de Big Data ou especialistas em Machine Learning. PROFISSIONAIS DE MARKETING que queiram incorporar ferramentas de análise de dados para inovar nas suas estratégias de segmentação, personalização da oferta e predições de todos os tipos sobre os clientes. ENGENHEIROS DE SISTEMAS E ANALISTAS DE SISTEMAS que queiram se especializar, incorporar os conhecimentos de estatística e Machine Learning, e adquirir habilidades práticas com as ferramentas específicas para fazer análises e organização de dados. EMPREENDEDORES que queiram criar seu próprio negócio com base em dados e/ou técnicas de inteligência artificial. PROGRAMADORES que precisam se atualizar e conhecer as principais técnicas da ciência de dados. CIENTISTAS de qualquer área em busca de ferramentas mais sofisticadas para realizar suas análises de dados.

      · Titulação

      Certificado

      · O que acontece depois de uma solicitação de mais informações?

      Entraremos em contato via telefone

      Perguntas & Respostas

      Levante suas perguntas e outros usuários poderão responder-te

      O que se aprende nesse curso?

      NumPy
      Stats
      SQL
      Visualização
      Python
      Bancos de Dados
      Data Analysis (EDA)
      Pandas e Tabelas Pivot
      Limpeza de dados
      Machine Learning

      Programa

      01. INTRODUÇÃO A DATA SCIENCE

      MÓDULO 1:
      Fundamentos: Numpy, Stats, SQL e Visualização
      *Python e Numpy: Demonstrar conceitos de programação usando as ferramentas Python e Numpy para navegar fontes de dados e coleções.*Estatística Descritiva: Rever e aplicar os fundamentos de estatística descritiva.*SQL e Bancos de Dados: Conhecer diferentes tipos de bancos de dados, rever expressões SQL e realizar atividades práticas obtendo dados de um banco remoto.*Introdução a Gráficos e Visualização: Realizar atividades práticas usando notebooks iPython e plot.ly para visualizar dados.

      DESAFIO 1
      Com um dataset de pontuações SAT dos EUA, os participantes realizarão uma análise exploratória utilizando Numpy e Matplotlib, aplicando técnicas básicas de estatística descritiva.

      MÓDULO 2:
      Exploratory Data Analysis (EDA), Pandas e SciPy
      *Pandas e Tabelas Pivot: Introdução a Pandas (biblioteca para ler, limpar, realizar o parsing e representar por gráficos dados usando funções booleanas, indexação, séries, joins e outras funcionalidades).*Limpeza de dados: Conceitos de “tidy data”, estruturas de dados adequadas, introdução ao problema de dados omissos, noções de Expressões Regulares.*Estatística Inferencial: Noções de probabilidade, distribuições amostrais, intervalos de confiança, testes de hipótese. Uso de biblioteca SciPy.

      DESAFIO 2
      Usando um dataset CRU de hits da “Billboard”, os participantes utilizarão Pandas para limpar os dados. Depois apresentarão formalmente um problema e realizarão uma análise exploratória para um editor de música.

      02. INTRODUÇÃO A MACHINE LEARNING, REGRESSÃO, AVALIAÇÃO DE MODELOS, WEB SCRAPING

      MÓDULO 3
      :Introdução a machine learning. Regressão Linear, StatsModels e Scikit-Learn
      *Machine Learning: Introdução a conceitos nodais: desvio, variância, overfitting, underfitting. Identificação de diferentes tipos de algoritmos de Machine Learning (supervisionados e não supervisionados). Formas de estimar o erro de generalização (trainteste split. crossvalidation). Apresentação geral das técnicas mais utilizadas. *Regressão Linear Simples e Múltipla: Interpretação, estimativa de coeficientes beta, suposições, medidas de ajuste. Introdução de não linearidades no modelo. *Statsmodels e Sklearn: Introdução ao uso das duas bibliotecas para estimar modelos estatísticos e algoritmos de Machine Learning na Python. API, tipos e objetos na ScikitLearn. *Regularização e Otimização: Noções gerais de regularização. Regressão LASSO e Ridge. Feature scaling.

      DESAFIO 3
      Apartir do acesso a determinados dados de vendas, os participantes poderão escolher entre realizar uma investigação de marketing ou uma auditoria tributária, usando Pandas, Statsmodels e Sklearn para transformar os dados, fazer uma regressão linear e visualizar os resultados.

      MÓDULO 4:
      Problemas de Classificação, Tunning de Hiperparâmetros e Web Scraping
      *Introdução aos Problemas de Classificação: Problema dos KNearest Neighbours. *Algoritmos usados para problemas de classificação: Regressão Logística. Naïve Bayes, Support Vector Machines. Avaliação de algoritmos de classificação: métricas de erro, acurácia, limitações de acurácia. Precisão, recall, F1Score, Curva ROC, área sob a curva (AUC). *Ajuste de hiperparâmetros: Definição de hiperparâmetro. Métodos de busca: busca exaustiva (grid search), busca aleatorizada (random search), busca por algoritmos genéticos. Dimensionalidade. *Web Scraping: Noções de HTML (Palavraschave, árvores). Uso de bibliotecas urllib2 e BeautifulSoup para scrapear sites.

      DESAFIO 4
      Colocando-se na posição de fornecedores do governo, os participantes vão fazer scraping de um site e utilizar Pandas, Statsmodels e NLTK para analisar dados, fazer regressão logística e avaliar coeficientes de correlação.

      03. APIS E MACHINE LEARNING AVANÇADO: ANÁLISE DE SÉRIES DE TEMPO, MÉTODOS DE ENSAMBLE

      MÓDULO 5:
      Séries de tempo, Classificação e Pipelines
      *Séries de Tempo: Préprocessamento de séries. Enfoque clássico (tendência, ciclo e resíduo). Sazonalidade. Modelos básicos: média constante, tendência determinística, média móvel, suavização exponencial simples. Modelos avançados: processos AR, MA, ARMA, ARIMA e ARIMAX. *Pipelines e Custom Transformers em ScikitLearn: Pipelines: automatização e encapsulamento de etapas do workflow. Custom Transformers: noção de objeto e tipo em Python. *Seleção de variáveis: Motivação de seleção de variáveis. Filter Methods, Wrapper Methods, Embedding Methods.

      TRABALHO INTEGRADOR - ETAPA 1:
      Os alunos deverão fazer uma apresentação relâmpago para a turma, expor a definição do problema e a seleção do dataset(s) adequado(s) para abordá-lo.

      MÓDULO 6:
      APIS, Árvores e Ensamble Learning
      *JSON e APIs: Estrutura de Dados JSON. Paralelismo com dicts na Python. Uso de uma API. *Árvores de Decisão: Construção de árvores por meio do algoritmo CART. Evitando o overfitting e underfitting em árvores. *Modelos de Ensamble: Noção de Ensamble Learning. Diferenças e vantagens. Apresentação do meta-algoritmo Bagging e de duas aplicações para árvores de decisão: Random Forest e ExtraTrees. Apresentação do meta-algoritmo de Boosting e de AdaBoost e Gradient Boosting. Entrando na caixa preta: feature importance e partial dependence plot em modelos de ensamble.

      TRABALHO INTEGRADOR - ETAPA 2
      Os alunos deverão apresentar um relatório de resultados preliminares (de caráctertécnico) e fazer uma apresentação não técnica na qual exponham: a) a definição doproblema; b) uma análise exploratória do dataset selecionado; e c) uma exploração preliminar de técnicas de modelagem.

      04. ALGORITMOS NO SUPERVISADOS

      MÓDULO 7:
      Clustering e Redução de Dimensionalidade
      Clustering: Algoritmo K-Means, clustering hierárquico, métricas para avaliação de algoritmos de clustering.
      Redução de Dimensionalidade: Introdução ao PCA. Apresentação de Análise de CorrespondênciaMúltipla. Manifold Learning: Técnicas para redução de dimensionalidade não lineares: Escala Multidimensional (MDS), Locally Linear Embeddings e IsoMaps. Diferenças em relação aoPCA. Métricas de distância utilizadas.

      TRABALHO INTEGRADOR - ETAPA 3:
      Apresentação do Trabalho Integrador.Os alunos deverão entregar um notebook iPython com código, visualizações e notas técnicas para os colegas do curso. Também deverão expor as conclusões, com terminologia não técnica, para um público leigo.

      Compare para escolher melhor:
      Ver mais