Etikettarkiv: robots exclusion

Säg nej till Google

För några dagar sedan publicerade vi en artikel om Sitemap – ett protokoll som hjälper sökmotorer förstå logiken bakom din webbplats för att på så sätt kunna indexera den lättare. Motsatsen till Sitemap är protokollet robots.txt – eller Robots Exclusion Standard som det egentligen heter.

Med robots.txt berättar du vad sökmotorer INTE skall indexera. Det kan exempelvis vara material som ligger på din webbplats men som du anser vara irrelevant för sökmotorer, eller duplikat av texter som finns lagrade på andra ställen på din webbplats.

Protokollet bygger på en mycket enkel textfil med namnet robots.txt. Den placerar du i webbplatsens rotkatalog, dvs www.din-domän.se/robots.txt. Nedan följer ett exempel hur en robots.txt-fil kan se ut:

User-agent: *
Disallow: /sopkorg/
Disallow: /cgi-bin/knasskript/

Detta exempel påverkar alla sökmotorer (robotar / webbspindlar) genom asterisk-tecknet (*) och säger att de kan indexera allt utom katalogerna /sopkorg/ och /cgi-bin/knasskript/.

För att säga åt en specfik webbspindel (i detta fall Googles) att inte indexera något på webbplatsen gör du som följer:

User-agent: Googlebot
Disallow: /

För att tillåta att en specifik webbspindel (även i detta fall Googles) indexerar din sida, men inga andra, gör du som följer:

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Ett alternativ till filen robots.txt är att använda en speciell meta-tagg direkt i dina .html-dokument. Precis som alla meta-taggar placerar du den mellan taggarna <head> och </head> i din kod. Denna kan se ut som följer:

<meta name="robots" content="noindex, nofollow">

Namnet (name) på meta-taggen är ”robots” och content-attributet kan ha följande värden: ”index”, ”noindex”, ”follow” och ”nofollow” för att markera huruvida sidan skall indexeras eller ej samt för att markera huruvida länkar i dokumentet skall följas eller ej.

För båda dessa metoder är det viktigt att poängtera att sökmotorer (och andra webbspindlar för den delen) kan välja att ignorera instruktionerna i dessa. Dessutom är instuktionerna publikt läsbara vilket innebär att alla kan ta reda på vilka kataloger eller filer du inte vill ska indexeras, detta kan alltså potentiellt användas ”emot dig” av illvilliga spindlar. Sådant som kan klassas som konfientiellt bör alltså inte explicit anges i en fil av typen robots.txt – det bör å andra sidan inte finnas tillgängligt på en oskyddas webbplats alls.

Mer information, vanliga frågor och exempel på hur du kan använda robots.txt hittar du på sidan www.robotstxt.org.

Dela detta inlägg: