Linhagem na Coleta | Módulo de Linhagem | Documentação Dadosfera
Entenda como cada DAG de coleta publica a linhagem dos seus jobs e datasets.
Linhagem na Coleta (módulo de coleta)
Esta documentação descreve, de forma simples e prática, como a linhagem nasce em cada DAG de coleta da Dadosfera. A principal referência é a configuração de execução da tarefa principal e os parâmetros de linhagem passados para cada job.
O que acontece em cada DAG de coleta
Cada DAG de coleta é montada a partir de um template. Nesse template, a DAG já nasce preparada para emitir linhagem enquanto executa a coleta real dos dados. Na prática, isso significa que o próprio job da coleta informa:
- qual é o pipeline em execução;
- qual é o job específico daquela DAG;
- qual origem está sendo lida;
- qual saída está sendo produzida;
- qual execução concreta gerou aquele evento de linhagem.
Assim, a plataforma consegue mostrar a cadeia completa do dado sem exigir que o usuário entenda a implementação interna da coleta.
Como o template prepara a linhagem
No template de DAG, a linhagem é configurada diretamente na chamada do job que executa o processamento. Os pontos mais importantes são:
- a DAG recebe um identificador próprio;
- a execução cria um identificador de run para rastrear a instância atual;
- o job publica um nome de aplicação e um nome de job que identificam o fluxo;
- a origem da linhagem é apontada por um endpoint de envio de eventos;
- os dados de contexto do pipeline entram como tags para facilitar a leitura posterior.
Em vez de tratar a linhagem como algo manual, o template já injeta essas informações no momento em que a DAG é gerada.
Como os dados chegam na linhagem
O caminho é direto:
- a DAG de coleta é criada a partir do template;
- a task principal da DAG executa o conector ou o job da fonte;
- durante a execução, a instrumentação publica os dados de entrada e saída;
- a linhagem registra o pipeline, o job, as dependências e os datasets envolvidos;
- a plataforma usa esse registro para mostrar de onde o dado veio e para onde ele foi.
Isso vale para qualquer DAG de coleta gerada pelo template, independentemente do conector usado.
O que fica visível na prática
Depois que a DAG executa, a linhagem normalmente permite enxergar:
- qual pipeline executou a coleta;
- qual job produziu ou consumiu determinado dataset;
- quais entradas alimentaram a execução;
- quais saídas foram geradas;
- como uma execução se conecta à próxima etapa do fluxo.
Exemplo de leitura
Se uma DAG lê uma tabela de origem e escreve um arquivo ou outra tabela de destino, a linhagem deve mostrar essa relação de forma simples:
- a origem aparece como entrada;
- o job de coleta aparece como o responsável pela transformação;
- o destino aparece como saída;
- a execução atual fica vinculada ao pipeline que disparou a coleta.
Limitações e observações
- A linhagem depende de a DAG estar instrumentada corretamente no template.
- Se um job não publicar os metadados esperados, o rastreamento fica incompleto.
- Quando a mesma origem é usada em DAGs diferentes, cada execução continua vinculada ao seu próprio pipeline e job.
Próxima página
Veja também a documentação da linhagem em transformação.
Updated 3 days ago
