ETL: saiba como é necessário para o Cientista de Dados!
O ETL - Extract, Transform and Learn - é a ponte entre os dados de origem, até o modelo de dados que vai ser estudado, precisando ser bem planejada.(...)
Autor: Redação Impacta
Por Marino Catarino,
Big Data se refere ao grande volume de dados encontrados nas mais diversas áreas de negócio, precisando ser processados e armazenados para obter o valor da informação. O profissional com capacidade técnica para extrair, preparar, armazenar e analisar esses dados é o Cientista de Dados (Data Scientist).
Boa parte do trabalho de um cientista de dados consiste em analisar as informações disponíveis com o objetivo de solucionar determinados problemas complexos, além de trabalhar com diversas linguagens de programação, incluindo SAS, R e Python.
Por esse motivo, é de extrema importância o emprego correto da Extração, Transformação e Carga dos dados (Extract Transform and Load – ETL), pois não tem como realizar uma análise dos dados se eles forem incoerentes e incompatíveis com o problema que deseja estudar.
A definição de ETL pode ser interpretada como a ponte entre o dado de origem até o modelo de dados a ser estudado. Se essa etapa não ocorrer de forma bem planejada, se torna impraticável realizar boas análises de dados e tomadas de decisão coerentes.
Quais são as etapas do ETL?
- Extração
O processo de ETL se inicia obtendo os dados necessários para atender a um determinado problema, sendo que os dados podem estar localizados em uma ou mais fontes externas de dados ou, até mesmo, em diferentes formatos de dados.
Como exemplo das fontes de dados, temos os bancos de dados relacionais, bancos de dados NoSQL, Planilhas Excel, arquivos de texto, entre outros.
Essa é uma das etapas mais importantes já que é ela que vai definir se é possível ou não extrair todas as informações relevantes para serem estudados. Além disso, os dados precisam ser extraídos diversas vezes e de forma periódica para que o arquivo esteja sempre atualizado.
- Transformação
Assim que a etapa de extração é concluída inicia a fase da transformação, preparação e adaptação dos dados extraídos. É nessa etapa que um conjunto de regras são inferidas nos dados com o objetivo de transformá-los no formato adequado para poderem ser carregados no banco de dados de destino.
A transformação não consiste apenas no mapeamento de colunas e tabelas para o destino correto, mas também são feitas as modificações necessárias conforme as restrições de integridade propostas.
Algumas das tarefas de transformação são:
- padronizar nomes;
- combinar e eliminar dados duplicadas;
- normalizar cálculos;
- correções dos dados;
- remover colunas ou linhas desnecessárias;
- corrigir erros de digitação.
- Carga
A etapa de carregamento dos dados se inicia após a finalização da transformação dos dados. É nesse momento que os dados transformados são inseridos no novo modelo de dados existente no banco de destino, o arquivo único de dados.
É importante que a frequência com que os dados serão extraídos e armazenados esteja bem definida, permitindo assim dimensionar corretamente o repositório, garantindo o desempenho adequado para realizar sua função.
Com os dados armazenados no banco de destino, pode-se dar início a leitura e análise conforme a necessidade dos cientistas de dados que poderão manipular e gerar relatórios precisos.
Portanto sem uma ETL bem definida e executada, é complicado exercer a ciência de dados, já que não é possível analisar informações que estejam incompletas e sem relação com o problema proposto. Por melhor que seja o profissional de ciência de dados, ele só poderá exercer sua profissão se tiver o conjunto de dados adequado para isso.
Curtiu o post? Deixe seu comentário nos contando se já conhecia o ETL ou caso tenha ficado alguma dúvida sobre o conteúdo!
Deixe o seu comentário!