Descrição

Tipologia

Curso intensivo
Local

São paulo

Início

Datas a escolher

Neste curso presencial e intensivo, você aprenderá tudo que é preciso para realizar projetos de Data Science do início ao fim. Ao concluir o curso, estará apto para atuar como cientista de dados.
Você desenvolverá as habilidades necessárias para atuar em projetos de coleta, análise e estruturação de dados. Em cinco meses, dominará os conceitos teóricos e as metodologias mais utilizadas no mundo todo.
Para coleta, limpeza, análise e visualização de dados, você utilizará o Python e bibliotecas SciPy, entre outras fontes. Além disso, aplicará técnicas de estatística inferencial e algoritmos de Machine Learning usando NumPy, Pandas e Scikit-learn.

Instalações

São Paulo

Ver mapa

Av Dr Cardoso de Melo, 90 – Vila Olímpia, São Paulo, 04506003

Início

Datas a escolherInscrições abertas

A ter em conta

Público alvo

Economistas, administradores de empresas, cientistas sociais, físicos, químicos, médicos, entre outros que desejam aprender Data Science (Ciência de Dados) para conquistar novas habilidades, criar novos projetos e melhorar sua comunicação com engenheiros de Big Data ou especialistas em Machine Learning.

PROFISSIONAIS DE MARKETING
que queiram incorporar ferramentas de análise de dados para inovar nas suas estratégias de segmentação, personalização da oferta e predições de todos os tipos sobre os clientes.

ENGENHEIROS DE SISTEMAS E ANALISTAS DE SISTEMAS
que queiram se especializar, incorporar os conhecimentos de estatística e Machine Learning, e adquirir habilidades práticas com as ferramentas específicas para fazer análises e organização de dados.

EMPREENDEDORES
que queiram criar seu próprio negócio com base em dados e/ou técnicas de inteligência artificial.

PROGRAMADORES
que precisam se atualizar e conhecer as principais técnicas da ciência de dados.

CIENTISTAS
de qualquer área em busca de ferramentas mais sofisticadas para realizar suas análises de dados.

Titulação

Certificado

O que acontece depois de uma solicitação de mais informações?

Entraremos em contato via telefone

Perguntas & Respostas

Adicione sua pergunta

Nossos conselheiros e outros usuários poderão responder a você

Quem você quer que lhe responda?

Todos
Alunos
Centro

Digite seus dados para receber uma resposta

Publicaremos apenas seu nome e pergunta

Opiniões

Matérias

NumPy
Stats
SQL
Visualização
Python
Bancos de Dados
Data Analysis (EDA)
Pandas e Tabelas Pivot
Limpeza de dados
Machine Learning

Programa

01. INTRODUÇÃO A DATA SCIENCE

MÓDULO 1:
Fundamentos: Numpy, Stats, SQL e Visualização
*Python e Numpy: Demonstrar conceitos de programação usando as ferramentas Python e Numpy para navegar fontes de dados e coleções.*Estatística Descritiva: Rever e aplicar os fundamentos de estatística descritiva.*SQL e Bancos de Dados: Conhecer diferentes tipos de bancos de dados, rever expressões SQL e realizar atividades práticas obtendo dados de um banco remoto.*Introdução a Gráficos e Visualização: Realizar atividades práticas usando notebooks iPython e plot.ly para visualizar dados.

DESAFIO 1
Com um dataset de pontuações SAT dos EUA, os participantes realizarão uma análise exploratória utilizando Numpy e Matplotlib, aplicando técnicas básicas de estatística descritiva.

MÓDULO 2:
Exploratory Data Analysis (EDA), Pandas e SciPy
*Pandas e Tabelas Pivot: Introdução a Pandas (biblioteca para ler, limpar, realizar o parsing e representar por gráficos dados usando funções booleanas, indexação, séries, joins e outras funcionalidades).*Limpeza de dados: Conceitos de “tidy data”, estruturas de dados adequadas, introdução ao problema de dados omissos, noções de Expressões Regulares.*Estatística Inferencial: Noções de probabilidade, distribuições amostrais, intervalos de confiança, testes de hipótese. Uso de biblioteca SciPy.

DESAFIO 2
Usando um dataset CRU de hits da “Billboard”, os participantes utilizarão Pandas para limpar os dados. Depois apresentarão formalmente um problema e realizarão uma análise exploratória para um editor de música.

02. INTRODUÇÃO A MACHINE LEARNING, REGRESSÃO, AVALIAÇÃO DE MODELOS, WEB SCRAPING

MÓDULO 3
:Introdução a machine learning. Regressão Linear, StatsModels e Scikit-Learn
*Machine Learning: Introdução a conceitos nodais: desvio, variância, overfitting, underfitting. Identificação de diferentes tipos de algoritmos de Machine Learning (supervisionados e não supervisionados). Formas de estimar o erro de generalização (trainteste split. crossvalidation). Apresentação geral das técnicas mais utilizadas. *Regressão Linear Simples e Múltipla: Interpretação, estimativa de coeficientes beta, suposições, medidas de ajuste. Introdução de não linearidades no modelo. *Statsmodels e Sklearn: Introdução ao uso das duas bibliotecas para estimar modelos estatísticos e algoritmos de Machine Learning na Python. API, tipos e objetos na ScikitLearn. *Regularização e Otimização: Noções gerais de regularização. Regressão LASSO e Ridge. Feature scaling.

DESAFIO 3
Apartir do acesso a determinados dados de vendas, os participantes poderão escolher entre realizar uma investigação de marketing ou uma auditoria tributária, usando Pandas, Statsmodels e Sklearn para transformar os dados, fazer uma regressão linear e visualizar os resultados.

MÓDULO 4:
Problemas de Classificação, Tunning de Hiperparâmetros e Web Scraping
*Introdução aos Problemas de Classificação: Problema dos KNearest Neighbours. *Algoritmos usados para problemas de classificação: Regressão Logística. Naïve Bayes, Support Vector Machines. Avaliação de algoritmos de classificação: métricas de erro, acurácia, limitações de acurácia. Precisão, recall, F1Score, Curva ROC, área sob a curva (AUC). *Ajuste de hiperparâmetros: Definição de hiperparâmetro. Métodos de busca: busca exaustiva (grid search), busca aleatorizada (random search), busca por algoritmos genéticos. Dimensionalidade. *Web Scraping: Noções de HTML (Palavraschave, árvores). Uso de bibliotecas urllib2 e BeautifulSoup para scrapear sites.

DESAFIO 4
Colocando-se na posição de fornecedores do governo, os participantes vão fazer scraping de um site e utilizar Pandas, Statsmodels e NLTK para analisar dados, fazer regressão logística e avaliar coeficientes de correlação.

03. APIS E MACHINE LEARNING AVANÇADO: ANÁLISE DE SÉRIES DE TEMPO, MÉTODOS DE ENSAMBLE

MÓDULO 5:
Séries de tempo, Classificação e Pipelines
*Séries de Tempo: Préprocessamento de séries. Enfoque clássico (tendência, ciclo e resíduo). Sazonalidade. Modelos básicos: média constante, tendência determinística, média móvel, suavização exponencial simples. Modelos avançados: processos AR, MA, ARMA, ARIMA e ARIMAX. *Pipelines e Custom Transformers em ScikitLearn: Pipelines: automatização e encapsulamento de etapas do workflow. Custom Transformers: noção de objeto e tipo em Python. *Seleção de variáveis: Motivação de seleção de variáveis. Filter Methods, Wrapper Methods, Embedding Methods.

TRABALHO INTEGRADOR - ETAPA 1:
Os alunos deverão fazer uma apresentação relâmpago para a turma, expor a definição do problema e a seleção do dataset(s) adequado(s) para abordá-lo.

MÓDULO 6:
APIS, Árvores e Ensamble Learning
*JSON e APIs: Estrutura de Dados JSON. Paralelismo com dicts na Python. Uso de uma API. *Árvores de Decisão: Construção de árvores por meio do algoritmo CART. Evitando o overfitting e underfitting em árvores. *Modelos de Ensamble: Noção de Ensamble Learning. Diferenças e vantagens. Apresentação do meta-algoritmo Bagging e de duas aplicações para árvores de decisão: Random Forest e ExtraTrees. Apresentação do meta-algoritmo de Boosting e de AdaBoost e Gradient Boosting. Entrando na caixa preta: feature importance e partial dependence plot em modelos de ensamble.

TRABALHO INTEGRADOR - ETAPA 2
Os alunos deverão apresentar um relatório de resultados preliminares (de caráctertécnico) e fazer uma apresentação não técnica na qual exponham: a) a definição doproblema; b) uma análise exploratória do dataset selecionado; e c) uma exploração preliminar de técnicas de modelagem.

04. ALGORITMOS NO SUPERVISADOS

MÓDULO 7:
Clustering e Redução de Dimensionalidade
Clustering: Algoritmo K-Means, clustering hierárquico, métricas para avaliação de algoritmos de clustering.
Redução de Dimensionalidade: Introdução ao PCA. Apresentação de Análise de CorrespondênciaMúltipla. Manifold Learning: Técnicas para redução de dimensionalidade não lineares: Escala Multidimensional (MDS), Locally Linear Embeddings e IsoMaps. Diferenças em relação aoPCA. Métricas de distância utilizadas.

TRABALHO INTEGRADOR - ETAPA 3:
Apresentação do Trabalho Integrador.Os alunos deverão entregar um notebook iPython com código, visualizações e notas técnicas para os colegas do curso. Também deverão expor as conclusões, com terminologia não técnica, para um público leigo.

Outros usuários mostraram interesse por...

Contato

Data Science

Perguntas & Respostas

Opiniões

Matérias

Programa

Adicione cursos semelhantes
e compare-os para fazer uma melhor escolha.

Data Science

Perguntas & Respostas

Opiniões

Matérias

Programa

Adicione cursos semelhantese compare-os para fazer uma melhor escolha.

Adicione cursos semelhantes
e compare-os para fazer uma melhor escolha.