Linhagem na Coleta | Módulo de Linhagem | Documentação Dadosfera

Entenda como cada DAG de coleta publica a linhagem dos seus jobs e datasets.

Linhagem na Coleta (módulo de coleta)

Esta documentação descreve, de forma simples e prática, como a linhagem nasce em cada DAG de coleta da Dadosfera. A principal referência é a configuração de execução da tarefa principal e os parâmetros de linhagem passados para cada job.

O que acontece em cada DAG de coleta

Cada DAG de coleta é montada a partir de um template. Nesse template, a DAG já nasce preparada para emitir linhagem enquanto executa a coleta real dos dados. Na prática, isso significa que o próprio job da coleta informa:

qual é o pipeline em execução;
qual é o job específico daquela DAG;
qual origem está sendo lida;
qual saída está sendo produzida;
qual execução concreta gerou aquele evento de linhagem.

Assim, a plataforma consegue mostrar a cadeia completa do dado sem exigir que o usuário entenda a implementação interna da coleta.

Como o template prepara a linhagem

No template de DAG, a linhagem é configurada diretamente na chamada do job que executa o processamento. Os pontos mais importantes são:

a DAG recebe um identificador próprio;
a execução cria um identificador de run para rastrear a instância atual;
o job publica um nome de aplicação e um nome de job que identificam o fluxo;
a origem da linhagem é apontada por um endpoint de envio de eventos;
os dados de contexto do pipeline entram como tags para facilitar a leitura posterior.

Em vez de tratar a linhagem como algo manual, o template já injeta essas informações no momento em que a DAG é gerada.

Como os dados chegam na linhagem

O caminho é direto:

a DAG de coleta é criada a partir do template;
a task principal da DAG executa o conector ou o job da fonte;
durante a execução, a instrumentação publica os dados de entrada e saída;
a linhagem registra o pipeline, o job, as dependências e os datasets envolvidos;
a plataforma usa esse registro para mostrar de onde o dado veio e para onde ele foi.

Isso vale para qualquer DAG de coleta gerada pelo template, independentemente do conector usado.

O que fica visível na prática

Depois que a DAG executa, a linhagem normalmente permite enxergar:

qual pipeline executou a coleta;
qual job produziu ou consumiu determinado dataset;
quais entradas alimentaram a execução;
quais saídas foram geradas;
como uma execução se conecta à próxima etapa do fluxo.

Exemplo de leitura

Se uma DAG lê uma tabela de origem e escreve um arquivo ou outra tabela de destino, a linhagem deve mostrar essa relação de forma simples:

a origem aparece como entrada;
o job de coleta aparece como o responsável pela transformação;
o destino aparece como saída;
a execução atual fica vinculada ao pipeline que disparou a coleta.

Limitações e observações

A linhagem depende de a DAG estar instrumentada corretamente no template.
Se um job não publicar os metadados esperados, o rastreamento fica incompleto.
Quando a mesma origem é usada em DAGs diferentes, cada execução continua vinculada ao seu próprio pipeline e job.

Próxima página

Veja também a documentação da linhagem em transformação.

Updated about 2 months ago

Did this page help you?