Sobre o curso

Amplie os conhecimentos sobre análise de dados com a apresentação da linguagem R, ferramenta muito poderosa que possibilita explorar e gerar gráficos.

O curso também complementa o conhecimento de Python para análise de dados apresentando os principais conceitos e aplicações de estatística para análise de dados com Python, desde o básico até series temporais e regressão. Por fim apresenta os fundamentos de Machine Learning que possibilitam melhorar e simplificar o trabalho com dados em grandes volumes. 

Estará apto a:

O aluno estará apto a utilizar a linguagem R para realizar análises de dados, também saberá os principais conceitos e aplicações de estatística com Python para análise de dados e por fim conhecerá os principais fundamentos de Machine Learning e suas aplicações na análise dos dados.

Salário

A média salarial para um Data Scientist no Brasil é de R$ 9.415/mês à R$ 14.114/mês.

Conteúdo programático

  • Análise de Dados com Python

    Revisão de Fundamentos de Python

    • Criação de variáveis;
    • Tipos de variáveis;
    • Listas;
    • Tuplas;
    • If-else;
    • Laços.

     

    Introdução ao shell IPython e Jupyter Notebook

    • Principais funcionalidades de ambas as ferramentas.

     

    Biblioteca NumPy para cálculos numéricos

    • Conceito de array;
    • Índices;
    • Fatiamento de matrizes;
    • Operações entre arrays.

     

    Biblioteca Pandas para análise de dados

    • Criação e manipulação de dataframe;
    • Concatenação e fusão de dataframes;
    • Métodos de seleção loc e iloc.

     

    Biblioteca Matplotlib e Seaborn para criar visualizações e gráficos.

    • A importância de se criar bons gráficos e como utilizá-los para dar força às suas análises.

     

    SciPy

    • Ferramenta de computação científica de alta performance.

     

    Apresentar a distribuição Anaconda direcionada para análise de dados.

    • Aprenda a agregar todas as ferramentas para análise de dados;
    • Bibliotecas e recursos necessários para trabalhar com Data Science e Machine Learning;
    • Python, Jupyter Notebook, NumPy, Pandas e Scikit-Learn.

     

    Armazenamento de dados

    • Formas de realizar carga e armazenamento de dados em vários formatos de arquivos.

     

    Tratamento de Dados

    • Tratamento e manipulação de dados: princípios de data minings.

     

    Operação de dados

    • Fundamentos para realizar agregação e operações em grupos de dados.

     

    Introdução sobre séries temporais

    • Introdução sobre séries temporais, conversões, indexação, seleção e geração de subconjuntos.

     

    Introdução à estatística básica

    • Medidas centrais;
    • Quartis;
    • Decis e como utilizá-las na análise.

     

    Bibliotecas de modelagem de dados

    • Principais modelagens do Scikit-Learning.
  • ETL com Python

    Introdução ao ETL

    • Aprenda o que é Extract, Transform and Load (ETL).

     

    Introdução a linguagem Python

    • Programação orientada a objetos;
    • Pacotes Pandas, Numpy, Scipy, Scikit-learn e Seaborn;
    • Trabalhe com Machine Learning.

     

    Extração de dados na prática

    • Comunicação com outros sistemas ou bancos de dados para capturar os dados que serão inseridos no destino onde serão convertidos para um único formato;

     

    Importância da transformação do dado

    • Correção, padronização e tratamento dos desvios e inconsistências, transformando os dados de acordo com as regras do negócio;
    • Operações de Qualidade de Dados.

     

    Processo preparação de dados na prática

    • Os dados são trabalhados para serem transformados em informação.

     

    Como transferir dados de diversas fontes para diversos destinos

    • Assim que são finalizados os tratamentos necessários nos dados, a carga no destino (um banco de dados ou arquivo CSV) é iniciada;
    • O processo de Load é a etapa final.

     

    Geração de relatórios com ferramentas gráficas do Python

    • Realize funções de análise e gere relatórios.
  • Visualização de Dados (Dataviz)

    Introdução

    • Introdução a Visualização
    • Quarteto de Anscombe
    • Exemplos bons e ruins de visualizações
    • Motivos para aplicar a visualização
    • Principais bibliotecas de visualização em Python

     

    Tipos de visualização

    Tipos de Visualização (comparativo entre diferentes tipos de dados e a visualização adequada)

     

    Visualização com gráficos

    • Gráfico de Pontos
    • Gráfico de Barras
    • Gráfico de Dispersão
    • Gráficos de séries temporais
    • Mapa de calor
    • Gráficos de redes
    • Gráficos de sunburst
    • Gráficos estatísticos (Boxplot, Pizza)

     

    Visualização avançada

    • Nuvem de palavras
    • Gráficos de Mapas
    • Gráficos interativos com Plotly 
    • Gráficos interativos com Bokeh
  • SQL para Análise de Dados

    Instalação e configuração do banco de dados

    • Instalação e Configuração do SGBD (Sistema de gerenciamento de banco de dados)

     

    Introdução ao banco relacional

    • SQL (Structured Query Language ou Linguagem de Consulta Estruturada)
      • Diferenciar entre DDL (LInguagem de Definição de Dados) e DML (Linguagem de Manipulação de Dados)
    • Tipos de dados
    • Conceitos de tabela e relacionamento
    • Exercícios de fixação

     

    DDL (Data Definition Language) - Linguagem de Definição de Dados

    • Base de dados
    • Criação de tabelas
      • Chave primaria
      • indice
    • Relacionamentos
      • Chave estrangeira
    • Alteração de tabelas
    • Exclusão de tabelas
    • Exercícios de fixação

     

    DML (Data Manipulation Language) - Linguagem de Manipulação de Dados

    • Inclusão de dados
    • Atualização de dados
    • Exclusão de dados

     

    DQL (Data Query Language) - Linguagem de Consulta de dados

    • Consultas simples
    • Consultas elaboradas
      • Join
      • Inner join
  • Linguagem R

    Introdução

    • Apresentação do problema de análise de dados.
    • Ambientação ao R e ao RStudio.

     

    Manipulação de dados

    • O pacote dplyr;
    • Filtrando linhas;
    • Ordenando linhas;
    • Selecionando colunas;
    • Criando e modificando colunas;
    • Agregando a base;
    • Juntando bases de dados (joins);
    • Visualização de dados.

     

    Gráficos

    • O pacote ggplot2;
    • Gráficos de dispersão;
    • Gráficos de barras;
    • Boxplots e istogramas;
    • Gráfico de séries;
    • Customizando os gráficos.

     

    Relatórios com R Markdown

    • O que é uma linguagem de marcação?;
    • Criação de relatórios com R Markdown;
    • Criação de dashboards estáticos com o pacote flexdashboard.
  • Estatística com Python

    Introdução a estatística

    • Diferenciação entre população e amostra
    • Tipos de dados
    • Estatística descritiva
      • Medidas de Posição : Média,Moda e Mediana
      • Percentis e Quartis
      • Medidas de Dispersão : Variância, Desvio Padrão, Coeficiente de Variação
      • Apresentação tabular das informações
      • Apresentação gráfica das informações
        • Gráficos de Barra e Pizza
        • Histograma
        • Boxplot
      • Identificação de outliers

     

    Probabilidade

    • Propriedades
        • Eventos independentes, exclusivos
        • Probabilidade condicional
    • Variáveis Aleatórias
    • Principais distribuições:
        • Binomial
        • Poisson
        • Normal

     

    Distribuição e confiança

    • Estimação Pontual e Intervalar
    • Distribuição amostral da média
    • Distribuição amostral da proporção
    • Teorema Central do Limite
    • Intervalos de Confiança
      • Intervalos de Confiança da média
      • Intervalos de Confiança da proporção

     

    Testes

    • Teste de Hipótese
    • Teste de hipótese sobre a média de uma população com variância conhecida
    • Teste de uma Proporção
    • Valor P
    • Erro Tipo I e II
    • Inferência para mais de uma população

     

    Correlação e Regressão

    • Correlação e Regressão
    • Teste de Correlação
    •  Regressão linear simples
    • Regressão linear múltipla
    • Seleção de variáveis
    • Análise de resíduos e validação do modelo 

     

    Séries temporais

    • Séries temporais
      • Componentes de uma série temporal
      • Modelos aditivos e multiplicativos
      • Métodos de Suavização
        • Média Móvel
        • Modelos de Suavização Exponencial
        • Outros Modelos
  • Machine Learning com Python

    Introdução ao Machine Learning

    • Definição
    • Tipos de aprendizagem

     

    Regressão

    • Definição
    • Algoritmos
    • Regressão Linear
    • Lasso
    • Ridge

     

    Classificação

    • Definição
    • Algoritmos
    • Regressão Logística
    • KNN
    • Árvore de Classificação

     

    Agrupamento

    • Definição
    • Algoritmos
    • Kmeans
    • Hierárquico

     

    Recomendação

    • Definição
    • Algoritmos

     

    Metodologia de teste

    • Preparação de bases de dados
    • Como avaliar os modelos
    • Treino/teste
    • Validação Cruzada k-fold
    • Ajuste de Parâmetros (GridSearch)

     

    Introdução a Deep Learning

    • Definição
    • Redes Feedforward
    • Redes Recorrentes
    • Redes Convolucional

     

    Projeto do Curso

Pré-requisitos

Conhecimentos de lógica de programação.

Certificação Impacta

Um dos títulos mais respeitados do país, atesta a qualidade e os conhecimentos de profissionais especializados nas mais variadas áreas de TI, Gestão e Design. Ao concluir o curso, você tem 90 dias a contar da data de término do curso para agendar seu exame.
Saiba mais sobre a certificação Impacta

Próximas turmas

Data e horário
Preços e descontos
Nenhuma turma no momento

O que os alunos dizem sobre a Impacta

Ver mais depoimentos