O problema do monitoramento em agências#

São 9h14 da manhã. Uma agência digital toca 60 sites de clientes — uma mistura de lojas Shopify, sites WordPress de marketing e um ou dois dashboards SaaS. O account manager de plantão abre o Slack e vê três alertas vermelhos de incidente que dispararam durante a noite.

Quais clientes caíram? Qual ainda está fora? Algum deles era do "Tier 1" SLA onde a agência prometeu 99,9% de uptime mensal? Alguém já avisou os clientes, ou eles estão prestes a mandar e-mail perguntando por que o checkout está quebrado?

Essa é a realidade diária de tocar monitoramento em escala de agência. A parte técnica — pingar URLs e checar status codes — é a metade fácil. A parte difícil é a camada de operações em cima: organizar centenas de domínios, controlar quem do seu time vê o quê, rotear o alerta certo para o humano certo, comunicar com clientes sem queimar a equipe e transformar tudo isso em algo lucrativo em vez de buraco negro de suporte.

Este guia é o playbook. Cobre os cinco pilares que separam agências que tocam monitoramento como tarefa que come margem das agências que tocam como serviço produtizado e enxuto: organização de domínios, acesso de time, notificações multi-canal, comunicação com cliente e cobrança.

O que torna monitoramento de agência diferente#

A maioria das ferramentas de monitoramento de uptime é desenhada para um único time tocando um único produto. Agências não são isso. Monitoramento de agência tem suas próprias restrições:

Escala multi-tenant. Você não está monitorando 5 endpoints — está monitorando de 50 a 500+ entre vários clientes, cada um com seus subdomínios, sites de marketing e APIs.
SLAs diferentes por tier de cliente. Um cliente em retainer pagando R$ 80.000 por mês recebe uma resposta diferente de um site avulso que você mantém por R$ 1.000 por mês. Seu monitoramento precisa refletir isso.
Limites de acesso por time. Um dev júnior deveria ver os três sites que está mexendo nesta semana — não o portfólio inteiro de clientes da agência. Engenheiros sêniores e account managers precisam de visão mais ampla.
Visibilidade voltada ao cliente. Alguns clientes querem uma status page para mostrar aos próprios clientes deles. Outros só querem ser avisados quando algo está errado. Alguns poucos querem silêncio absoluto e só relatórios trimestrais.
Complexidade de cobrança. Alguns clientes te pagam um item separado de monitoramento. Outros têm isso embutido no retainer. De qualquer jeito, você precisa saber o custo por cliente para precificar certo.
Roteamento de notificação. Quem é paginado quando o cliente X cai? O PM? O dev original que construiu o site? O próprio cliente? A resposta normalmente é "depende do cliente e da hora do dia."

Se sua ferramenta de monitoramento não modela esses seis pontos, você vai parafusar tudo com planilhas, canais de Slack e docs do Notion — e é aí que a operação da agência sangra margem em silêncio.

Pilar 1: organização de domínios em escala#

A primeira coisa que quebra em 50+ domínios é o próprio dashboard. Uma lista plana de "todos os meus monitores" para de ser útil por volta dos 20 domínios. Aos 50 você não consegue nem rolar a tela sem perder contexto.

A solução é organização estruturada, e o cavalo de batalha são as tags (às vezes chamadas de pastas ou grupos dependendo da ferramenta).

Uma estratégia de tagueamento que escala em agências costuma combinar alguns eixos:

Por cliente. client:acme-corp, client:helio-shopify, client:beta-bank. Esse é o eixo primário — é como faturas, relatórios e comunicação de incidente são agrupados.
Por tier de SLA. tier-1, tier-2, tier-3. Tier 1 pode significar checks de 60 segundos, alertas de WhatsApp para o fundador e atendimento 24/7. Tier 3 pode significar checks de 5 minutos e digest diário por e-mail.
Por stack. stack:wordpress, stack:shopify, stack:next-js, stack:custom-saas. Quando uma CDN ou dependência compartilhada quebra, você quer filtrar instantaneamente para "me mostre todo site WordPress que eu hospedo" sem clicar em 60 cards.
Por região. region:eu, region:us, region:apac. Útil quando uma indisponibilidade regional bate e você precisa triar quais clientes foram afetados.

A Nova Uptime suporta tags como conceito de primeira classe em todo monitor, e você pode filtrar o dashboard por qualquer combinação delas. Combinada com operações em massa, a tag destrava workflows que são impossíveis sem ela: selecione todos os domínios tier-1 e suba o intervalo de check para 59 segundos numa ação só; selecione todos os domínios client:acme-corp e pause o monitoramento durante um final de semana de migração planejada.

Dois recursos subestimados completam isso: rename inline (para o dashboard mostrar "Acme — Checkout API" em vez de https://api-prod-3.acme.internal) e busca em centenas de domínios com matching de substring. Juntos, eles transformam um dashboard de 200 domínios de uma parede de URLs em algo que humanos conseguem escanear de fato.

Para um olhar mais profundo de como agências usam a Nova Uptime ponta a ponta, veja o caso de uso de agência na página de use cases.

Pilar 2: controle de acesso do time#

Quando sua agência cresce além de algumas pessoas, "todo mundo é admin em todo monitor" para de ser aceitável. Um dev júnior não deveria ter o poder de excluir o monitor de um cliente crítico por acidente. Um freelancer trabalhando em um projeto não deveria ver sua lista completa de clientes. Um account manager deveria ver incidentes e relatórios mas não conseguir mudar intervalos de check.

Uma ferramenta de monitoramento feita para agências precisa de controle de acesso baseado em papel com pelo menos três camadas:

Owner / Admin — controle total do workspace, incluindo cobrança.
Membro com acesso total — pode adicionar, editar e resolver incidentes em qualquer monitor.
Membro com acesso por domínio — só vê e age nos domínios específicos que recebeu acesso.

A camada de acesso por domínio é a que torna a vida de agência sã. Você contrata um dev Shopify freelancer para um engajamento de três meses; concede acesso aos quatro monitores que importam para o projeto dele, e nada mais. Quando o engajamento termina, você revoga o acesso em um clique — sem senhas compartilhadas, sem credenciais órfãs.

A Nova Uptime suporta convidar membros do time por e-mail, incluindo contas fantasma para pessoas que ainda não têm login na Nova Uptime (eles ganham conta real no primeiro acesso, com o acesso já configurado). Também suporta acesso somente leitura para stakeholders — útil para um diretor de conta que precisa de visibilidade mas não deveria mexer em configurações.

Acima de tudo, toda ação do time é gravada em um activity log: quem adicionou um domínio, quem pausou monitoramento, quem reconheceu um incidente, quem mudou o canal de alerta. Quando um cliente pergunta "por que meu site não foi monitorado terça passada?" você responde com um audit trail timestampado em vez de chute.

Pilar 3: notificações multi-canal#

Alertas só por e-mail estavam de bom tamanho quando você tinha dois clientes. Aos 50, sua caixa vira o cemitério dos alertas — coisas importantes enterradas embaixo de newsletters, todo alerta misturando com o seguinte, o dev de plantão silenciando notificações porque recebeu 12 durante o jantar.

Monitoramento padrão agência precisa de notificações multi-canal, roteadas por domínio e severidade:

E-mail ainda é o baseline. Use para todo mundo — o time, o account manager, opcionalmente o cliente. É onde mora o audit trail.
WhatsApp é o canal certo para incidentes críticos que precisam de olhos humanos imediatamente. Fundador, CTO, engenheiro de plantão — todos checam WhatsApp mais rápido do que e-mail. A Nova Uptime suporta alertas no WhatsApp em todo plano (1 número no Free, 3 no Pro, 5 no Agency).
Webhooks são o superpoder das agências. Mande alertas direto para o Slack, Microsoft Teams, PagerDuty ou Opsgenie que o cliente já usa. O cliente nunca precisa entrar na sua ferramenta de monitoramento — os alertas aparecem no canal onde ele já vive.

O detalhe crucial é o roteamento por domínio. Cliente A quer alertas no canal #engenharia do Slack dele. Cliente B não quer nada em horário comercial e depois das 18h escala para o número de plantão. Cliente C quer um digest por e-mail duas vezes por dia, sem barulho em tempo real. Uma config achatada de "manda tudo para todo canal" não modela isso — você precisa de seleção de canal por domínio.

Dois recursos relacionados fecham o quadro: pausa de notificação (desliga alertas direito durante manutenção planejada, sem incidentes falsos para limpar depois) e roteamento por severidade (um aviso de resposta lenta vai só por e-mail; uma indisponibilidade total dispara WhatsApp + webhook). Bem feito, você ouve sinal alto quando importa e silêncio quando não importa — que é a única forma de plantão de agência sobreviver no longo prazo.

Pilar 4: comunicação com o cliente#

A maior alavanca para monitoramento de agência não é interna — é externa. A forma como seus dados de monitoramento voltam para os clientes define a experiência que eles têm durante incidentes e a confiança que depositam em você entre incidentes.

Widgets de status embedáveis são o recurso mais simples e de maior alavancagem aqui. Coloque um pequeno iframe no site do cliente (ou em um subdomínio de status) mostrando uptime ao vivo das URLs que você monitora para ele. Os clientes dele param de mandar e-mail perguntando "o site está fora?" porque podem se autosservir. O time interno dele para de te chamar no Slack "tem algo errado?" porque vê os checks verdes. A Nova Uptime suporta widgets embedáveis em todo domínio — baseados em token, com origem verificada e configuráveis por domínio.

Links públicos para compartilhar são a alternativa mais leve — uma URL para você colar num e-mail de cliente quando um incidente está em andamento. Ele clica, vê o status ao vivo, e você trocou um vai-e-vem de 30 minutos por um link de 15 segundos.

Relatórios automáticos semanais transformam a pergunta chata-mas-importante "tudo ficou no ar?" em um e-mail recorrente que cai na caixa do cliente sem você fazer nada. Para clientes Tier 1, esta é a prova mais concreta de valor que a agência entrega no mês inteiro.

Screenshots de falha importam mais do que se imagina. Quando um site cai, um screenshot da página de erro real (ou do timeout, ou do conteúdo errado sendo servido) é dramaticamente mais útil do que um status code. Clientes entendem imagens. Clientes discutem com status codes.

O anti-padrão a evitar: fazer o cliente instalar seu agente de monitoramento no servidor dele. Não faça. Fique no monitoramento externo baseado em URL — é mais rápido de onboardar, não quebra a stack dele e funciona igual seja o site na hospedagem compartilhada barata dele ou na sua infra premium.

Pilar 5: cobrança e lucratividade#

Monitoramento deve render dinheiro para a agência, não dar prejuízo. A conta é simples, mas você precisa fazer.

Os tiers de preço da Nova Uptime são desenhados para exatamente essa pergunta:

Free — 5 domínios. Útil para prospecção e testes em clientes pequenos.
Pro — US$ 99/ano, 100 domínios. O tier certo para agências tocando 20–80 sites de cliente.
Agency — US$ 699/ano, 1.000 domínios. O tier certo quando você passa de 100 domínios de cliente ou quer alertas no WhatsApp em 5 números, acesso máximo à API e a maior frequência de check.

Add-ons de domínio (+10 / +50 / +100) deixam você crescer sem forçar upgrade de tier — útil quando está com 105 domínios e não quer pular direto para Agency.

A pergunta de cobrança que toda agência precisa responder é: embuto monitoramento no retainer ou cobro separado? Embutir é mais simples operacionalmente e parece generoso para o cliente. Cobrar separado como linha (US$ 25–100/site/mês é a faixa típica) é mais lucrativo, te dá motivo para falar de uptime trimestralmente e deixa clientes se autoselecionarem em um tier de serviço. A maioria das agências de mid-market termina fazendo um híbrido: monitoramento embutido em retainers Tier 1, cobrado separado para projetos avulsos.

Seja qual for a escolha, os relatórios semanais (mencionados antes) também servem como artefatos de cobrança. São prova do SLA que você está entregando — e a evidência mais fácil de anexar numa conversa de renovação. Para um detalhamento de custo mais profundo, veja o guia de comparação de custo de monitoramento de uptime.

Exemplo real de workflow de agência#

Um dia na vida de um líder de operações de agência tocando monitoramento na Nova Uptime:

9h00. Abre o dashboard. Filtra pela tag tier-1. Três incidentes da madrugada — dois auto-resolvidos, um ainda investigando. Clica no incidente aberto, vê o screenshot de falha, manda mensagem para o PM do cliente com uma linha de update e o link público de compartilhamento.
9h15. Dispara os relatórios automáticos semanais para todos os clientes tier-1. Cada cliente recebe um e-mail limpo mostrando o uptime da semana, contagem de incidentes e status do SLA. Pronto numa ação só.
11h00. Kickoff de onboarding de cliente novo. A agência acabou de assinar um varejista Shopify com 12 domínios (loja principal + 8 subdomínios de país + 3 páginas de marketing). Bulk import dos 12 via CSV de uma vez (a Nova Uptime suporta bulk import de até 100 por vez). Tagueia como client:retailer-x e tier-2. Convida o CTO do cliente como membro do time com acesso somente leitura só nesses 12 monitores.
14h00. Slack apita: um webhook dispara do monitor client:beta-bank api-checkout mostrando tempos de resposta lentos. Ninguém está fora — ainda — mas o aviso dá ao engenheiro de plantão 20 minutos para investigar antes que clientes percebam. Banco sob carga, autoscaler entra, problema resolvido.
16h30. Cliente Tier 3 manda e-mail: "vamos subir um tema novo amanhã de manhã, dá para pausar os alertas para o time não acordar com falsos positivos?" Pausa o monitoramento nos três domínios dele, agendado para auto-retomar às 11h do dia seguinte.
17h30. Fim do dia. O activity log tem 47 entradas — toda ação do time, todo alerta, toda mudança de domínio — limpas e timestampadas. Se algum cliente perguntar amanhã o que aconteceu hoje, a resposta está a um filtro de distância.

Essa é uma terça-feira real de agência. Nada disso exige heroísmo; exige a ferramenta certa configurada do jeito certo.

Checklist de configuração para agências#

Se você está começando do zero (ou migrando de uma ferramenta que está batendo no limite), esta é a ordem das operações:

Cadastre-se no plano certo. Pro para menos de 100 domínios, Agency para mais de 100 ou se precisar de 5 números de WhatsApp. Veja preços.
Adicione domínios de cliente em massa. O CSV import lida com até 100 por vez. Não adicione um a um.
Tagueie domínios por cliente e tier de SLA. Use uma convenção de nomeação consistente (client:slug, tier-N, stack:nome). Documente no wiki do time.
Convide membros do time com acesso apropriado. Owners + admins para o sênior, acesso por domínio para devs juniores e contractors, somente leitura para account managers.
Configure alertas no WhatsApp para a rotação de plantão sênior. Não coloque em todo mundo — isso anula o objetivo.
Configure integrações de webhook para o Slack/Teams/PagerDuty existente de cada cliente. Esta é a integração de maior impacto isolado.
Embede widgets de status na status page ou dashboard de cada cliente. Bônus: inclua um link para sua agência no widget.
Agende relatórios semanais para todos os clientes Tier 1 e Tier 2. Automatize, não componha.
Documente seu processo de resposta a incidente. Quem reconhece? Quem comunica? Quem resolve? Quem escreve o post-mortem? Escreva uma vez, siga para sempre.

Para uma estratégia de monitoramento mais ampla além de uptime, combine isto com o guia de uptime para SaaS e a visão geral de monitoramento multi-região. E não esqueça que uptime é só metade da história para agências atendendo clientes que rodam e-mail — rode o verificador grátis de email health em todo cliente novo no onboarding para pegar más configurações de SPF, DKIM e DMARC antes que custem entregabilidade ao cliente.

Conclusão#

Monitoramento de agência é um problema de operações disfarçado de problema técnico. Os pings são fáceis; as pessoas, os clientes e a cobrança são onde isso vive ou morre. Acerte os cinco pilares — organização, acesso, notificações, comunicação com cliente e cobrança — e o monitoramento deixa de ser ralo de margem e vira uma das partes mais defensáveis do seu serviço.

Teste o trial de 30 minutos da Nova Uptime sem cadastro, ou pule direto para um plano Pro ou Agency e faça bulk import dos seus domínios de cliente hoje. Todo recurso deste guia vem nos planos padrão — sem add-ons, sem surpresas. Dê uma olhada na lista completa de recursos para ver o que está incluído.

Monitoramento de Uptime para Agências: Gerenciando 50+ Domínios de Clientes Sem Enlouquecer

O problema do monitoramento em agências#

O que torna monitoramento de agência diferente#

Pilar 1: organização de domínios em escala#

Pilar 2: controle de acesso do time#

Pilar 3: notificações multi-canal#

Pilar 4: comunicação com o cliente#

Pilar 5: cobrança e lucratividade#

Exemplo real de workflow de agência#

Checklist de configuração para agências#

Conclusão#

Leitura relacionada#

Monitor Your Website Before It Goes Down

Artigos relacionados

Monitoramento de Uptime para Agências Digitais: Gerenciando Múltiplos Sites de Clientes em Escala

Uptime Monitoring para Aplicações SaaS: O Guia Completo para a Saúde da Infraestrutura

Monitoramento de Domínio com Alertas SSL: o Guia Completo de 2026