Agendamento

Sobre

Configure a frequência desejada para que sua pipeline rode. É possível escolher dentre as opções apresentadas ou inserir uma frequência customizada através de uma expressão cron.

É possível aprofundar-se nas possibilidades e limitações do agendamento através da documentação oficial do Airflow.

📘

  • O fuso horário padrão utilizado na frequência é o UTC.* Todos os métodos de frequência definem quando as extrações serão iniciadas. Eles não controlam por quanto tempo o trabalho de replicação será executado ou quando os dados estarão efetivamente no destino.

Como configurar o agendamento

Na última etapa da criação da pipeline, possível escolher dentre as opções intuitivas disponíveis ou utilizar a opção 'Customizado', na qual é inserido uma expressão cron manualmente.

Única extração

Opte por realizar uma única extração inicial dos dados, não configurando o agendamento. A carga fria é realizada para coletar os dados estáticos, ao não definir o agendamento. Após a criação, a coleta será realizada uma única vez. No entanto, é possível ainda o sync manual para rodar a coleta novamente.

Agendamento customizado

É possível especificar horários de início granulares para sua extração dos dados. Utilizando a expressão cron você pode especificar os horários, dias da semana e até os dias do mês exatos em que a extração de dados deverá começar. A Dadosfera usa o padrão Quartz para agendamento cron.

Sintaxe

Uma expressão cron é composta por seis campos que descrevem, separados por espaços. Os campos na expressão devem estar na seguinte ordem e uma expressão deve ter todos os seis campos para ser considerada válida:

[minutos] [horas] [dia do mês] [mês] [dia da semana]

Caracteres permitidos

CampoValores permitidosCaracteres especiais permitidos na Dadosfera
Minutos0-59n/a
Horas0-23-
Dia do mês1-31, - * /
Mês1-12, - * /
Dia da semana0 - 6, - * /
📘

  • Hoje a Dadosfera atualiza os dados, no mínimo, Hourly. * Caso seu pelo contratado for o Basic, o mínimo de frequência é Daily. Caso deseje realizar sua coleta em uma frequência maior, entre em contato através do time de vendas.

Caractere especial

Descrição e exemplos

  • ASTERISCO

Seleciona todos os valores dentro de um campo.
Exemplos:

  • no campo Mês significa "todo mês"
  • no campo Dia da semana significa "todos os dias da semana"

, VÍRGULA

Especifica uma lista de dois ou mais valores.
Exemplos:
1,2,5 no campo Mês significa “os meses de janeiro, fevereiro e maio”
2, 6 no campo Dia da semana significa “os dias segunda e sexta-feira”

  • HÍFEN

Especifica um intervalo de valores.
Exemplos:
5-8 no campo Hora significa "as horas 5, 6, 7 e 8"
2-4 no campo Dia da semana significa "os dias segunda, terça e quarta-feira"

/ BARRA

Especifica incrementos. Formatado como: <value>/\<value_to_increment>
Exemplos:
0/15 no campo Minuto significa "os minutos 0, 15, 30 e 45"
3/6 no campo Hora significa “a cada 6 horas começando na terceira hora”
1/5 no campo Dia do mês significa "a cada 5 dias começando no primeiro dia do mês"

Exemplos

Executar à meia-noite UTC todos os dias

MinutosHorasDia do mêsMêsDia da semana
00---

Executar às seis horas UTC todos os dias

MinutosHorasDia do mêsMêsDia da semana
06---

Executar toda segunda-feira às seis horas UTC

MinutosHorasDia do mêsMêsDia da semana
06--1

Executar às seis horas UTC no dia 1 de cada mês

MinutosHorasDia do mêsMêsDia da semana
061--

Executar às vinte e duas horas UTC, de segunda-feira a sexta-feira

MinutosHorasDia do mêsMêsDia da semana
022--1-5

Executar meia noite e às doze horas UTC, no dia 1 do mês, a cada 2 meses

MinutosHorasDia do mêsMêsDia da semana
00,121*/2-

Referências

  1. Tradutor de Expressões Cron - Um tradutor gratuito de expressões cron.

  2. Ferramenta para aprender, construir e testar Regular Expressions - Ferramenta para aprender, construir e testar Regular Expressions.

Pronto! Agora basta aguardar a coleta ser feita no horário e dia agendado.

Caso queira executar a pipeline imediatamente, é possível executá-la manualmente. Vá em "Pipelines", "Lista" e "Sincronizar Pipeline".

Após alguns minutos, seu catálogo estará atualizado na aba de exploração como um Data Asset.