O mapeamento de um site com sitemap XML é uma maneira de você mostrar aos crawlers o que está disponível para eles indexarem. Na maneira geral um sitemap, é um arquivo xml contendo todos as URL's do seu site. Esse mapa permite aos webmaster incluirem informações adicionais como, data da última atualização, com que frequência essa página é atualizada e quanto ela é importante em relação as demais páginas
O mapa do site XML, serve para garantir que os crawlers possam encontrar certas páginas do seu site, como uma página dinâmica. O arquivo com o mapa do site pode ser listado no robots.txt, e você também pode envia-lo manualmente pelas ferramentas para WebMaster dos mecanismos de busca.
Um mapa do site não garante que o crawlers indexe todos as páginas, apenas auxilia o crawlers a encontrar suas páginas. Mas ainda sim nenhuma dessas coisas, quer dizer que seu site será indexado pelo mecanismo de busca.
Antes de enviar o seu sitemap para os buscadores, ou coloca-lo no arquivo robots.txt, você precisa criá-lo. Existe uma série de ferramenta que ajudam a montar esse sitemap automaticamente. Uma delas está listada num artigo da SEO Dicas - Ferramentas para SEO.
Criando seu próprio sitemap.xml
Você também pode escrever seu próprio mapa do site, ele só precisa ter tags XML e ser codificado com UTF-8. Outra coisa que para escrever seu sitemap XML, alguns caracteres das URL tem que ser inseridos com caractes de escape .
Caractere | Código de Escape | |
& | & | |
' | ' | |
" | " | |
> | > | |
< | < |
Esses caracteres são usados para substituir os caracteres das URL
Tags XML usadas no Sitemap
Tag | Quando é Usada | Descrição | ||
<urlset> | Obrigatório | Tag para encapsular o arquivo e referência o padrão do protocolo atual | ||
<url> | Obrigatório | Esta tag sempre vez antes de cada tag de URL | ||
<loc> | Obrigatório | Essa é a URL da página, os endereços devem começar com http:// e terminar com '/' caso o servidor requera isso, e cada URL deve ter no máximo 2048 caracteres. | ||
<lastmod> | Opcional | A data da última modificação do arquivo, a data deve ser no formato W3C, ou seja, AAAA-MM-DD. | ||
<changefreq> | Opcional | Essa tag informa com que frequência a página será modificado, essa informação acho a dizer com que período os crawlers deverão visitar sua página, mas lógico que isso não quer dizer que irão visitar.Abaixo relação de parâmetros possíveis:
Always deve ser usados em páginas que são modifica cada vez que são acessadas, já o never para URL que estão arquivadas | ||
<priority> | Opcional | Indica a prioridade das páginas entre si, o valores variam de 0.0 a 1.0, ou seja, a página que tiver prioridade maior, possivelmente o mecanismo de busca a indexará primeiro, porque essa tag é apenas uma sugestão. |
Abaixo um exemplo de um sitemap
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.example.com/catalog?item=12&desc= vacation_hawaii</loc> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=73&desc= vacation_new_zealand</loc> <lastmod>2004-12-23</lastmod> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=74&desc= vacation_newfoundland</loc> <lastmod>2004-12-23T18:00:15+00:00</lastmod> <priority>0.3</priority> </url> <url> <loc>http://www.example.com/catalog?item=83&desc= vacation_usa</loc> <lastmod>2004-11-23</lastmod> </url> </urlset> |
Mas o arquivo de mapa do site XML tem uma limitação, além das URLs não poderem ter mais do que 2048 caracteres, um sitemap não pode conter mais do que 50000 links e não pode ultrapassar os 10MB.
Mas a maneira de burlamos isso usando um índice de sitemap, mas isso fica para o próximo artigo, explicarei como agrupar sitemap e adicioná-lo no robots.txt.
Compartilhe esse Artigo | ||||||||||||||||||||||||||
| ||||||||||||||||||||||||||
Mais: |