Como funciona o rastreador do Google

woman wearing grey shirt
dmendes40 Avatar

A coisa mais básica em SEO que deve ser feita é projetar pelo menos a página do site para que ela possa ser rastreada pelo bot do Google.

Porque não importa quão bom seja o seu conteúdo, se o Google não conseguir rastreá-lo e indexá-lo, ele não aparecerá nos resultados de pesquisa

O que é um rastreador?

Geralmente, o robô rastreador (Googlebot) usado pelos mecanismos de pesquisa, como o Google, é chamado de rastreador e rastreia páginas da Web na Internet. Ele extrai a lista de links a serem rastreados dos links detectados na página e no arquivo de mapa do site e procura novas páginas. Após o rastreamento, ele é indexado para fornecer resultados de pesquisa aos pesquisadores.

O que é um índice?

A indexação refere-se ao registro de páginas rastreadas em um banco de dados e sua disponibilização para exibir aquelas que são adequadas à relevância das palavras-chave do usuário da pesquisa. Além disso, o Google pode armazenar temporariamente informações como a página adquirida como um cache.

O que é cache?

Cache significa que a página recuperada pelo Google é armazenada no servidor. Mesmo se houver uma página que não pode ser exibida temporariamente devido a uma falha do servidor, clicar no link do cache exibirá a página armazenada em cache recentemente para o usuário da pesquisa.

O que é o Googlebot?

Google bot é um termo geral para rastreadores da web usados ​​pelo Google para coletar informações em sites na Internet.
De acordo com o anúncio do Google em maio de 2019, agora ele poderá renderizar páginas da Web com base no Chrome mais recente, suportando as plataformas da Web mais recentes.

O novo Googlebot permanente

O Google está rastreando sites em todo o mundo tentando coletar informações.
O GoogleBot rastreia sites seguindo links entre sites e por notificações de webmasters, mas não rastreia de forma confiável todo o conteúdo dos sites.

Na maioria dos casos, você não precisa se preocupar com isso, mas o GoogleBot alocará recursos (normalmente chamados de orçamento de rastreamento) para rastrear cada site com base no estado e na necessidade do site.

O que é orçamento de rastreamento?

O orçamento de rastreamento é definido pelo Google como “o número de URLs que precisam ser rastreados (demanda de rastreamento) e que podem ser rastreados pelo Googlebot (taxa de rastreamento)”.
Observe que o crawl budget em si não é um fator de classificação. Não parece ter nenhum efeito no ranking só porque foi muito atribuído. Além disso, novos sites, grandes ou pequenos, recebem um determinado orçamento de rastreamento inicial.

Quem deve gerenciar o orçamento de rastreamento

Quando se trata de gerenciar seu orçamento de rastreamento, essa é uma medida avançada. O gerenciamento de rastreamento é necessário principalmente nos seguintes casos (em outros casos, não há necessidade de se preocupar tanto com isso).

  • Para sites grandes (1 milhão de páginas ou mais) com atualizações moderadas de conteúdo (uma vez por semana)
  • Sites de tamanho médio (mais de 10.000 páginas) com conteúdo que muda rapidamente (diariamente)

Velocidade de rastreamento (taxa de rastreamento)

Rastrear muito rápido pode sobrecarregar seu servidor e desacelerar outros visitantes do seu site.
Portanto, o GoogleBot parece limitar a taxa máxima de rastreamento para não prejudicar a conveniência de outros usuários do site. A taxa de rastreamento é explicada como:

“Para simplificar, a taxa de rastreamento é o número de conexões simultâneas que o Googlebot usará ao rastrear seu site e quanto tempo você precisa esperar entre as buscas.”

A taxa de rastreamento pode ser definida em uma página especial no Search Console.

Observe que a quantidade de texto no conteúdo da página não parece afetar a taxa de rastreamento, frequência ou decisões de indexação. Parece que o conteúdo popular será mais fácil de rastrear por meio de links, etc., e terá um impacto positivo no índice.

A duração do conteúdo não influencia a frequência com que rastreamos e se o indexamos. Também não contribui para a taxa de rastreamento de um padrão de URL.Comentários de GaryHorário de atendimento do Google SEO em inglês a partir de novembro de 2022

Prioridade de rastreamento

É interessante ler o comentário de John Muller sobre como sites grandes tendem a ser rastreados rapidamente.
A prioridade de rastreamento será baseada na importância do valor fornecido pela página e na exclusividade que ela agrega, e não no tamanho, disse ele.

Demanda de rastreamento

Parece que o rastreamento é determinado por URLs populares (provavelmente backlinks) e atualizações de URL. URLs populares são rastreados com mais frequência e rastreados regularmente para evitar que o índice do Google se torne obsoleto.

Qual é o orçamento de rastreamento do Googlebot?

Gary Illyes parece inferir do site como um todo quais áreas precisam ser rastreadas com mais frequência. Por exemplo, se você tiver um subdiretório dedicado a blogs e encontrar sinais de que o blog é popular e importante, o Google poderá rastreá-lo com mais frequência.

Não é apenas a frequência de atualização da página que importa, a qualidade também é importante. Por exemplo, se você tiver um subdiretório popular, as pessoas falarão sobre ele e adicionarão links. Isso pode ser um sinal de popularidade.

A propósito, Jouhn Muller comentou que a presença ou ausência de registro no Search Console não afeta a frequência de rastreamento .

Tamanho máximo por página ao rastrear

Costumava dizer 10 MB por página, agora são centenas de MB.

Hangout do horário de expediente da central do webmaster do Google em inglês

Rastrear mais páginas com resposta mais rápida do servidor

Melhorar a velocidade de exibição da página, incluindo a resposta do servidor, não apenas melhora a conveniência do usuário, mas também melhora a velocidade de processamento do Googlebot.
De acordo com John Mueller, quanto mais rápida a resposta, mais rápida a velocidade de rastreamento e mais páginas você rastreará.

MacBook Pro near white open book

Controle de orçamento de rastreamento

Economize orçamento de rastreamento com noindex

Não é uma boa maneira de controlar o orçamento de rastreamento, mas parece liberar indiretamente o orçamento de rastreamento para uso a longo prazo em páginas que não precisam ser indexadas.

Qualquer URL rastreado afeta o orçamento de rastreamento, e o Google precisa rastrear a página para encontrar a  noindex regra.

No entanto,  noindex existe para ajudá-lo a manter as coisas fora do índice. Se você deseja garantir que essas páginas não acabem no índice do Google, continue usando  noindex e não se preocupe com o orçamento de rastreamento. Também é importante observar que, se você remover URLs do índice do Google com  noindex ou de outra forma, o Googlebot pode se concentrar em outros URLs em seu site, o que significa que  noindex pode liberar indiretamente algum orçamento de rastreamento para seu site a longo prazo.Guia do proprietário de sites grandes para gerenciar seu orçamento de rastreamento

Orçamento de Rastreamento de Resíduos Soft 404s

De acordo com Gary Illyes, do Google , 404s e 410s não parecem desperdiçar orçamento de rastreamento. Parece simplesmente obter apenas o código de status. Soft 404s, por outro lado, nem sequer são indexados, o que desperdiça seu orçamento de rastreamento.

Imagens em CDNs recebem orçamentos de rastreamento diferentes

Para sites que veiculam imagens em um CDN externo, o domínio do CDN recebe um orçamento de rastreamento diferente do domínio do seu site. No entanto, se o CDN for o mesmo servidor do domínio do site e não houver grandes alterações, será um orçamento de rastreamento único.

Orçamento de rastreamento alocado para seu site

Além das páginas e imagens do site, os itens a seguir também estão sujeitos ao orçamento de rastreamento.

  • URLs alternativos como AMP e hreflang
  • Conteúdo incorporado, como chamadas CSS, JavaScript e AJAX (XHR)
  • Cadeias de redirecionamento longas também prejudicam o rastreamento

Para que o GoogleBot rastreie seu site da maneira mais eficiente possível, você também pode criar um sitemap XML e registrá-lo no Google ou revisar a estrutura hierárquica do seu site.

Mapa do site XML

Os cabeçalhos Cache-Control não têm efeito no rastreamento ou indexação

Cache-Control aplica-se a navegadores. Não aplicado pelo rastreamento ou índice do Google.

Os cabeçalhos de controle de cache não se aplicam ao rastreamento e indexação do Google, eles são para navegadores. No máximo, eles podem ser usados ​​na renderização de conteúdo incorporado.Declaração de John Mueller

Reconhecimento de conteúdo in-page pelo bot do Google

Quando o bot do Google recupera informações em uma página, ele renderiza (renderiza) a página no navegador Chrome. Ele foi projetado para que até mesmo páginas verticais longas possam ser reconhecidas adequadamente.

Tamanho da janela de visualização do bot do Google

Parece que você está usando uma viewport de 9000px de altura para poder renderizar com CSS, imagens etc.

Seja reconhecido pelo bot do Google com o Intersection Observer

No entanto, se você não fizer nada, o bot do Google irá adquirir informações na página sem rolar ou clicar, portanto, se parte do conteúdo for exibida com carregamento lento, ele pode não ser capaz de reconhecer essa parte. Ao configurar um Intersection Observer, o Googlebot pode usá-lo para encontrar seu conteúdo.

Para obter mais informações sobre o Observador de interseção, consulte a página a seguir.

Observador de Interseção

Tamanho máximo do arquivo HTML reconhecido pelo Googlebot

O tamanho máximo do arquivo HTML que o Googlebot pode ler é de 15 MB . Se exceder esse tamanho, parece parar de rastejar.
Esta restrição não inclui arquivos JavaScript ou CSS, arquivos de vídeo, arquivos de imagem, etc. que são referenciados apenas por arquivos HTML.

O que fazer se o Google não conseguir acessar o servidor

As etapas abaixo descrevem o que o Google faz quando um servidor fica inativo ou inacessível por um longo período de tempo. Se o servidor ficar inativo por um curto período de tempo, isso não parece ter um grande impacto nas classificações de pesquisa.

  1. Se o site estiver inacessível devido a problemas de rede ou DNS, vamos tratá-lo como um erro de servidor HTTP 5xx.
  2. A URL também permanecerá indexada e aparecerá nas SERPs como antes do erro. Ou seja, não haverá grandes mudanças no curto prazo, mas trata-se apenas de uma medida temporária.
  3. Se você estiver vendo erros consistentes por mais de um ou dois dias, comece a excluir esses URLs do seu índice. Leva alguns dias para que uma página seja removida do índice da Pesquisa Google devido a uma interrupção do servidor.
  4. Não há mudança de classificação direta no momento da ocorrência. O Google não considerará o site como de baixa qualidade ou semelhante, mas se for desindexado, não aparecerá nas SERPs de qualquer maneira. Como resultado, você pode achar que seu site está sendo tratado com má reputação.
  5. Após o backup do site, os URLs que o Google removeria do índice serão adicionados novamente assim que forem rastreados com sucesso novamente.
  6. Se o Google detectar que pode ser carregado com sucesso, ele acelera o processo de rastreamento do Googlebot.

Dois sinais de que o Google decidiu parar de rastrear

O Google usa vários sinais, como ferramentas de rejeição de links , robots.txt e nofollow para determinar se deve parar de rastrear um site .
Existem dois outros sinais importantes para o Google.

Tempo de conexão

O Google verifica o tempo de conexão com o servidor.
Quanto maior o tempo de conexão, mais o Google irá desacelerar ou parar de rastrear seu site.
O Google usa o tempo de conexão como um de seus fatores de rastreamento porque não deseja sobrecarregar seu servidor da web.

Código de status HTTP

O Google pode interromper ou desacelerar o rastreamento se o código de status do servidor estiver no intervalo 5xx.
Um código de status no intervalo 5xx significa que houve um problema com a resposta do servidor.
Se o Google encontrar esses códigos, ele interromperá o rastreamento para não causar mais problemas ao seu servidor.

Em ambos os casos, o GoogleBot rastreará novamente depois disso, mas não continuará se detectar esses sinais.

Google sobre como eles sabem quando desacelerar ou parar de rastrear seu site

John Mueller fez uma declaração semelhante sobre a lentidão dos rastreadores quando os códigos de status estão na faixa 5xx.

A página a seguir resume como o Google toma decisões com base no código de status, portanto, dê uma olhada se estiver interessado.

Se você quiser verificar o código de status de todas as páginas do site que você gerencia, verificar os itens necessários para melhorar a velocidade ou verificar outras áreas problemáticas de SEO, use a “Inspeção de SEO do site” do SE Ranking.As funções são convenientes.https://www.youtube.com/embed/VkRizDlx9MM?enablejsapi=1

Inspeção de SEO do site

Nessa função, a ferramenta realmente patrulha as páginas do site, detecta problemas e os reporta.

Você pode criar uma conta de avaliação que pode usar muitas funções gratuitamente por 2 semanas, incluindo a função de inspeção de SEO do site e verificar a classificação do site, problemas e status de backlink. Se você estiver interessado, experimente.

Criar conta de teste

Informações de cache e como excluí-las

cache

A imagem abaixo é um link em cache exibido nos resultados de pesquisa do Google. Clique em Cache para ver as informações da página e a data em que o Google armazenou esta página mais recentemente.

A data do cache significa a data indexada ou reindexada mais recentemente, não a data em que o Google a rastreou. Quanto ao índice, parece que às vezes ele decide reutilizar páginas antigas. Presumivelmente, isso ocorre porque as páginas antigas que não são atualizadas nem sempre precisam ser reindexadas.

Você pode solicitar a exclusão do cache na página seguinte.

Tagged in :

dmendes40 Avatar

Leave a Reply

Your email address will not be published. Required fields are marked *

FOTAWP

Check out our new font generator and level up your social bios. Need more? Head over to Glyphy for all the fancy fonts and cool symbols you could ever imagine.