Pipelines

📘

O que é uma pipeline?

Data pipeline é o processo em que os dados de uma origem são direcionados para um destino com ou sem processamento e transformação prévia. Na Dadosfera, utilizamos o paradigma EL(T).

Uma Pipeline na Dadosfera tem suas métricas de monitoramento e propriedades específicas, como nome, descrição, status e histórico de execução.

A coleta de dados recorrente em batch (lotes) é feita por meio da criação de uma pipeline, determina a partir da seleção de uma fonte, para a evolução dos dados coletados dentro da Plataforma nas etapas seguintes.

Etapas

O carregamento dos dados na Plataforma consiste basicamente em:

  • Cadastrar ou escolher uma fonte de dados cadastrada;
  • Definir as informações gerais da pipeline;
  • Inserir as configurações da pipeline (que variam de acordo com o tipo de fonte);
  • Definir as entidades, colunas e modo de sincronização (que varia de acordo com o tipo de fonte);
  • Criar micro-transformação (opcional);
  • Escolher a frequência da coleta.

Dados suportados

ClassificaçãoTipo de dados
Numéricosnumber, decimal numeric, int, integer, bigint, smallint, byteint, float, float4, float8, double, double precision, real
String e bináriosvarchar, char, character, string, text, binary, verbinary
Lógicosboolean
Data e horadate, datetime, time, timestamp, timestamp_ltz, timestamp_ntz, timestamp_tz,
Semiestruturadosvariant, object, array
Geoespaciaisgeography

Dados não suportados

ClassificaçãoTipo de dados
LOB (Large Object)blob, clob
Outrosenum, user-defined data type

Para saber mais sobre os tipos de dados suportados, acesse o tópico "Data types" na documentação do Snowflake.