Pipelines

ūüďė

O que é uma pipeline?

Data pipeline é o processo em que os dados de uma origem são direcionados para um destino com ou sem processamento e transformação prévia. Na Dadosfera, utilizamos o paradigma EL(T).

Uma Pipeline na Dadosfera tem suas métricas de monitoramento e propriedades específicas, como nome, descrição, status e histórico de execução.

A coleta de dados recorrente em batch (lotes) é feita por meio da criação de uma pipeline, determina a partir da seleção de uma fonte, para a evolução dos dados coletados dentro da Plataforma nas etapas seguintes.

Tela de Gerenciamento de Pipelines

Tela de Gerenciamento de Pipelines

Etapas

O carregamento dos dados na Plataforma consiste basicamente em:

  • Cadastrar ou escolher uma fonte de dados cadastrada;
  • Definir as informa√ß√Ķes gerais da pipeline;
  • Inserir as configura√ß√Ķes da pipeline (que variam de acordo com o tipo de fonte);
  • Definir as entidades, colunas e modo de sincroniza√ß√£o (que varia de acordo com o tipo de fonte);
  • Criar micro-transforma√ß√£o (opcional);
  • Escolher a frequ√™ncia da coleta.

Dados suportados

ClassificaçãoTipo de dados
Numéricosnumber, decimal numeric, int, integer, bigint, smallint, byteint, float, float4, float8, double, double precision, real
String e bin√°riosvarchar, char, character, string, text, binary, verbinary
Lógicosboolean
Data e horadate, datetime, time, timestamp, timestamp_ltz, timestamp_ntz, timestamp_tz,
Semiestruturadosvariant, object, array
Geoespaciaisgeography

Dados n√£o suportados

ClassificaçãoTipo de dados
LOB (Large Object)blob, clob
Outrosenum, user-defined data type

Para saber mais sobre os tipos de dados suportados, acesse o tópico "Data types" na documentação do Snowflake.