För några dagar sedan publicerade vi en artikel om Sitemap – ett protokoll som hjälper sökmotorer förstå logiken bakom din webbplats för att på så sätt kunna indexera den lättare. Motsatsen till Sitemap är protokollet robots.txt – eller Robots Exclusion Standard som det egentligen heter.
Med robots.txt berättar du vad sökmotorer INTE skall indexera. Det kan exempelvis vara material som ligger på din webbplats men som du anser vara irrelevant för sökmotorer, eller duplikat av texter som finns lagrade på andra ställen på din webbplats.
Protokollet bygger på en mycket enkel textfil med namnet robots.txt. Den placerar du i webbplatsens rotkatalog, dvs www.din-domän.se/robots.txt. Nedan följer ett exempel hur en robots.txt-fil kan se ut:
User-agent: * Disallow: /sopkorg/ Disallow: /cgi-bin/knasskript/
Detta exempel påverkar alla sökmotorer (robotar / webbspindlar) genom asterisk-tecknet (*) och säger att de kan indexera allt utom katalogerna /sopkorg/ och /cgi-bin/knasskript/.
För att säga åt en specfik webbspindel (i detta fall Googles) att inte indexera något på webbplatsen gör du som följer:
User-agent: Googlebot Disallow: /
För att tillåta att en specifik webbspindel (även i detta fall Googles) indexerar din sida, men inga andra, gör du som följer:
User-agent: Googlebot Disallow: User-agent: * Disallow: /
Ett alternativ till filen robots.txt är att använda en speciell meta-tagg direkt i dina .html-dokument. Precis som alla meta-taggar placerar du den mellan taggarna <head> och </head> i din kod. Denna kan se ut som följer:
<meta name="robots" content="noindex, nofollow">
Namnet (name) på meta-taggen är ”robots” och content-attributet kan ha följande värden: ”index”, ”noindex”, ”follow” och ”nofollow” för att markera huruvida sidan skall indexeras eller ej samt för att markera huruvida länkar i dokumentet skall följas eller ej.
För båda dessa metoder är det viktigt att poängtera att sökmotorer (och andra webbspindlar för den delen) kan välja att ignorera instruktionerna i dessa. Dessutom är instuktionerna publikt läsbara vilket innebär att alla kan ta reda på vilka kataloger eller filer du inte vill ska indexeras, detta kan alltså potentiellt användas ”emot dig” av illvilliga spindlar. Sådant som kan klassas som konfientiellt bör alltså inte explicit anges i en fil av typen robots.txt – det bör å andra sidan inte finnas tillgängligt på en oskyddas webbplats alls.
Mer information, vanliga frågor och exempel på hur du kan använda robots.txt hittar du på sidan www.robotstxt.org.
Liten fakta miss bara…
För att blockera Google robots.txt ska man ange ”Googlebot” som User Agent.
Inte bara Google….
//David
Tack David, du har helt rätt. I stridens hetta blev det bara ”Google” när jag kontrollerade mina exempel mot exemplena på robotstxt.org. Inlägget är nu uppdaterat och korrigerat. Mer information om Googles olika spindlar finns i Googles hjälpcenter.
Att ”säga nej” till google är som att ta bort sin webbsida från internet helt och hållet.
Att hålla undan känsliga, eller onödiga sidor / kataloger är ju bra dock.
Du bör iallafall ha en robots.txt på din webbsida, även om den bara inehåller
User-agent: *
Disallow:
Tack och hej.
Helt riktigt, Backlund. Det finns ingen som helst anledning till att säga ”nej” till Google. Den rubriken användes mest som ögonbrynshöjare.