Coletando o dado

Coletando o dado

A primeira etapa é inserir dados na Dadosfera. Isto pode ser feito de duas formas:

  1. Criação de uma pipeline de coleta, na qual há uma fonte de dados para realizar a extração dos dados, para carregamento recorrente na Dadosfera, por meio da definição de um agendamento.
  2. Importação manual de arquivos CSV, para dados que estão no seu dispositivo e são arquivos estáticos (não haverá mudança ou novos registros).

Para este guia, utilizaremos o dataset IBM HR Analytics Employee Attrition & Performance, conjunto de dados fictício criado por cientistas de dados da IBM a respeito dos fatores que levam o desgaste do funcionário, que está disponível livremente para análise, sob a licença Open Data Commons

a) Baixar arquivo

Baixe diretamente o arquivo neste link.

📘

Não são aceitos arquivos zip. Por isso, ao baixar o dataset acima, lembre-se de extrair o arquivo CSV que se localiza dentro do arquivo zip.


b) Importar para a Dadosfera

  • Novo arquivo

  • Nesta tela, arraste o arquivo para dentro da sessão marcada na página, ou busque diretamente do seu computador, no diretório onde o dataset baixado foi salvo:

  • Na etapa seguinte é possível editar o nome do arquivo importado. A descrição é um campo obrigatório, dessa forma, será possível compreender o contexto do arquivo posteriormente da melhor forma possível.
  • Já nas configurações do arquivo, defina o tipo de codificação - o padrão brasileiro é o UTF-8, o separador dos caracteres do CSV e se ele possui cabeçalho.

c) Acompanhar importação

  • Verifique o Status da extração do arquivo do seu dispositivo:
  • Acompanhe a importação, ou seja, o carregamento do arquivo para a Dadosfera:
  • Assim que a importação for concluída, será possível acessar uma prévia dos dados e acessar o dataset completo no catálogo, clicando neste card abaixo: