Linhagem na Coleta | Módulo de Linhagem | Documentação Dadosfera

Entenda como cada DAG de coleta publica a linhagem dos seus jobs e datasets.

Linhagem na Coleta (módulo de coleta)

Esta documentação descreve, de forma simples e prática, como a linhagem nasce em cada DAG de coleta da Dadosfera. A principal referência é a configuração de execução da tarefa principal e os parâmetros de linhagem passados para cada job.

Visão de uma linhagem de coleta já publicada

O que acontece em cada DAG de coleta

Cada DAG de coleta é montada a partir de um template. Nesse template, a DAG já nasce preparada para emitir linhagem enquanto executa a coleta real dos dados. Na prática, isso significa que o próprio job da coleta informa:

  • qual é o pipeline em execução;
  • qual é o job específico daquela DAG;
  • qual origem está sendo lida;
  • qual saída está sendo produzida;
  • qual execução concreta gerou aquele evento de linhagem.

Assim, a plataforma consegue mostrar a cadeia completa do dado sem exigir que o usuário entenda a implementação interna da coleta.

Como o template prepara a linhagem

No template de DAG, a linhagem é configurada diretamente na chamada do job que executa o processamento. Os pontos mais importantes são:

  • a DAG recebe um identificador próprio;
  • a execução cria um identificador de run para rastrear a instância atual;
  • o job publica um nome de aplicação e um nome de job que identificam o fluxo;
  • a origem da linhagem é apontada por um endpoint de envio de eventos;
  • os dados de contexto do pipeline entram como tags para facilitar a leitura posterior.

Em vez de tratar a linhagem como algo manual, o template já injeta essas informações no momento em que a DAG é gerada.

Configurações da DAG de coleta que habilitam a emissão de linhagem

Como os dados chegam na linhagem

O caminho é direto:

  1. a DAG de coleta é criada a partir do template;
  2. a task principal da DAG executa o conector ou o job da fonte;
  3. durante a execução, a instrumentação publica os dados de entrada e saída;
  4. a linhagem registra o pipeline, o job, as dependências e os datasets envolvidos;
  5. a plataforma usa esse registro para mostrar de onde o dado veio e para onde ele foi.

Isso vale para qualquer DAG de coleta gerada pelo template, independentemente do conector usado.

O que fica visível na prática

Depois que a DAG executa, a linhagem normalmente permite enxergar:

  • qual pipeline executou a coleta;
  • qual job produziu ou consumiu determinado dataset;
  • quais entradas alimentaram a execução;
  • quais saídas foram geradas;
  • como uma execução se conecta à próxima etapa do fluxo.

Exemplo de leitura

Se uma DAG lê uma tabela de origem e escreve um arquivo ou outra tabela de destino, a linhagem deve mostrar essa relação de forma simples:

  • a origem aparece como entrada;
  • o job de coleta aparece como o responsável pela transformação;
  • o destino aparece como saída;
  • a execução atual fica vinculada ao pipeline que disparou a coleta.

Limitações e observações

  • A linhagem depende de a DAG estar instrumentada corretamente no template.
  • Se um job não publicar os metadados esperados, o rastreamento fica incompleto.
  • Quando a mesma origem é usada em DAGs diferentes, cada execução continua vinculada ao seu próprio pipeline e job.

Próxima página

Veja também a documentação da linhagem em transformação.