Agendamento

Sobre

Configure a frequência desejada para que sua pipeline rode. É possível escolher dentre as opções apresentadas ou inserir uma frequência customizada através de uma expressão cron.

É possível aprofundar-se nas possibilidades e limitações do agendamento através da documentação oficial do Airflow.

📘

  • O fuso horário padrão utilizado na frequência é o UTC.

  • Todos os métodos de frequência definem quando as extrações serão iniciadas. Eles não controlam por quanto tempo o trabalho de replicação será executado ou quando os dados estarão efetivamente no destino.

 

Como configurar o agendamento

Na última etapa da criação da pipeline, possível escolher dentre as opções intuitivas disponíveis ou utilizar a opção 'Customizado', na qual é inserido uma expressão cron manualmente.

 

Única extração

Opte por realizar uma única extração inicial dos dados, não configurando o agendamento. A carga fria é realizada para coletar os dados estáticos, ao não definir o agendamento. Após a criação, a coleta será realizada uma única vez. No entanto, é possível ainda o sync manual para rodar a coleta novamente.

Agendamento customizado

É possível especificar horários de início granulares para sua extração dos dados. Utilizando a expressão cron você pode especificar os horários, dias da semana e até os dias do mês exatos em que a extração de dados deverá começar. A Dadosfera usa o padrão Quartz para agendamento cron.

 

Sintaxe

Uma expressão cron é composta por seis campos que descrevem, separados por espaços. Os campos na expressão devem estar na seguinte ordem e uma expressão deve ter todos os seis campos para ser considerada válida:

[minutos] [horas] [dia do mês] [mês] [dia da semana]

 

Caracteres permitidos

CampoValores permitidosCaracteres especiais permitidos na Dadosfera
Minutos0-59n/a
Horas0-23-
Dia do mês1-31, - * /
Mês1-12, - * /
Dia da semana0 - 6, - * /

📘

  • Hoje a Dadosfera atualiza os dados, no mínimo, Hourly.

  • Caso seu pelo contratado for o Basic, o mínimo de frequência é Daily. Caso deseje realizar sua coleta em uma frequência maior, entre em contato através do time de vendas.

Caractere especialDescrição e exemplos
- ASTERISCOSeleciona todos os valores dentro de um campo.

Exemplos:
_no campo Mês significa "todo mês"
_no campo Dia da semana significa "todos os dias da semana"
,
VÍRGULA
Especifica uma lista de dois ou mais valores.

Exemplos:
1,2,5 no campo Mês significa “os meses de janeiro, fevereiro e maio”
2, 6 no campo Dia da semana significa “os dias segunda e sexta-feira”
- HÍFENEspecifica um intervalo de valores.

Exemplos:
5-8 no campo Hora significa "as horas 5, 6, 7 e 8"
2-4 no campo Dia da semana significa "os dias segunda, terça e quarta-feira"
/
BARRA
Especifica incrementos. Formatado como: /<value_to_increment>

Exemplos:
0/15 no campo Minuto significa "os minutos 0, 15, 30 e 45"
3/6 no campo Hora significa “a cada 6 horas começando na terceira hora”
1/5n o campo Dia do mês significa "a cada 5 dias começando no primeiro dia do mês"

 

Exemplos

Executar à meia-noite UTC todos os dias

MinutosHorasDia do mêsMêsDia da semana
00---

Executar às seis horas UTC todos os dias

MinutosHorasDia do mêsMêsDia da semana
06---

Executar toda segunda-feira às seis horas UTC

MinutosHorasDia do mêsMêsDia da semana
06--1

Executar às seis horas UTC no dia 1 de cada mês

MinutosHorasDia do mêsMêsDia da semana
061--

Executar às vinte e duas horas UTC, de segunda-feira a sexta-feira

MinutosHorasDia do mêsMêsDia da semana
022--1-5

Executar meia noite e às doze horas UTC, no dia 1 do mês, a cada 2 meses

MinutosHorasDia do mêsMêsDia da semana
00,121*/2-

 

Referências

  1. Tradutor de Expressões Cron - Um tradutor gratuito de expressões cron.

  2. Ferramenta para aprender, construir e testar Regular Expressions - Ferramenta para aprender, construir e testar Regular Expressions.

 

Pronto! Agora basta aguardar a coleta ser feita no horário e dia agendado.

Caso queira executar a pipeline imediatamente, é possível executá-la manualmente. Vá em "Pipelines", "Lista" e "Sincronizar Pipeline".

Após alguns minutos, seu catálogo estará atualizado na aba de exploração como um Data Asset.