En väldigt viktig fil att ha koll på när man håller med sökmotoroptimering är en textfil som heter robots.txt. Detta är en fil som ligger i roten på din domän vilket innebär att om den finns tillgänglig så når du den alltid på www.dindomän.se/robots.txt.

För denna domän hittar du som sagt filen här: omnidig.se/robots.txt

Användningsområden för denna textfil är bland annat:

  • Förhindra sökspindlar att komma åt delar av din webbplats som inte är publika och inte bör finnas i deras index.
  • Blockera sökmotorerna från att komma åt exempelvis vissa script (som inte påverkar vad som syns på sidan!)
  • Undvika indexering av eventuellt duplicerat innehåll på webbplatsen, som exempelvis printversioner av sidor eller olika URLer som filtrerar en produktlistning.
  • För att tala som för alla sökmotorer vart din XML Sitemap finns.

Placering av robots.txt

Precis som jag nämnde i inledningen så måste filen robots.txt ligger i roten på domänen. Ligger den någon annanstans så kommer sökmotorerna inte att ta hänsyn till vad som står i denna fil. Det är även viktigt att filnamnet är skrivet enbart med små bokstäver vilket gör att exempelvis Robots.txt inte fungerar.

När du talar om för sökmotorernas spindlar, på engelska ofta kallade bots vilket kommer från just ordet ”robots”, att de inte får besöka en viss del av webbplatsen så kommer de i vissa fall dock fortfarande ta med sidan i sitt index, men de har ”ingen koll” på vad som står på sidan. Ett exempel på en del som är blockerad från att synas i sökmotorerna är sökresultaten på Apples hemsida, vilken framgår av deras robots.txt.

Vill man sedan titta på vad Google har indexerat under deras /search/ ser vi följande:

apple.com blockerar search i robots.txt

I praktiken innebär det att sidorna som är blockerade inte kommer att sökas igenom för eventuella länkar eller få möjlighet att ranka på termer i det organiska sökresultatet.

Hur fungerar robots.txt?

Eftersom detta bara är en textfil som man har sparat på sin webbserver och inte innehåller speciellt mycket konstig kod (i alla fall inte i standardutförande) så kan man snabbt tyda ut vissa saker.

Så här ser exempelvis en helt vanlig robots.txt ut.

Tillåt allt

De två raderna ovan innebär att besökstypen (bland annat Googlebot, Bingbot, etc) kallad User-Agent inte har några restriktioner då vi tillåter alla typer vilket symboliseras av stjärnan (*).

Raden under talar om att vi inte blockerar någonting alls. Det finns nämligen ingenting efter Disallow.

Om du saknar en robots.txt på din webbplats så kommer sökmotorer och övriga botar/spindlar att utgå från att ovan två rader gäller, dvs att de är välkomna överallt.

Blockera allt

Som du ser ovan så har vi bara lagt till ett enda tecken, vilket är en slash (/) efter Disallow. Detta innebär tillskillnad från det första exemplet att vi blockerar alla våra sidor för sökmotorerna. Om du ser denna inställning i din webbplats robots.txt och det är inte en testsida så bör du omgående se till att ändra det.

Det finns egentligen bara ett tillfälle då inställningen ovan är OK och det är om det är just en testmiljö som man inte vill ha indexerad. I övrigt vill man generellt sett inte blockera resten av internet att kunna komma åt ditt innehåll via sökmotorerna.

Blockera en katalog

Är det istället så att man har en hel katalog man vill blockera så är det syntaxen ovan man använder. Säg att man har en katalog på servern där alla ens sidor avsedda att skrivas ut på skrivare hanteras ifrån, då vill man inte att dessa sidor utan stilregler (css) eller bilder ska indexeras och synas. Man vill istället att den ’riktiga’ sidan ska synas i sökresultatet. Inställningen ovan skulle förhindra att allt innehåller som låg under www.dindomän.se/superhemligt/ besöktes av sökmotorerna.

Blockera en specifik fil

Vill man instället bara blockera en specifik fil så man kan ange filnamnet enligt ovan.

Observera!

Du bör inte skriva ut exempelvis URLen du använder för att logga in och uppdatera din sida här. Detta är en helt vanlig textfil som alla kan läsa och om du har lagt in att sökmotorerna inte ska besöka och indexera enligt nedan så kan du räkna med att det finns personer där ute (och illasinnade botar) som kommer börja ge sig på att försöka logga in där.

Då är det mycket bättre att blockera innehållet på sidnivå istället. Vi kommer att prata mer om rel=”nofollow” framöver.

Kombinera fler regler i robots.txt

Självklart går det att kombinera flera olika villkor i robots.txt om man exempelvis vill blockera två hela kataloger, men tillåta besök till en enskild fil i en av katalogerna så kan man göra enligt nedan.

I exemplet ovan blockerar vi besök från sökmotorerna till katalogerna /varukorg/ och /mitt-konto/ men vi tillåter den att komma åt /mitt-konto/aterstall-losenord.html

Blockera bilder i sökresultatet för en sökmotor

Du kan även definiera det så pass att alla sökmotorer är välkomna överallt, men att exempelvis Microsofts sökmotor Bing inte får indexera din katalog med bilder.

Vi har nu tittat lite på de absolut vanligaste sätten att använda sig av robots.txt på sin webbplats, och för den som vill läsa mer så rekommenderar jag vidare läsning på bland annat Googles egna informationssida eller en annan vinkling på robots.txt hos Moz.

Frågor eller funderingar? Skriv en rad i kommentarsfältet nedan.


Denna bloggpost är den andra i en serie om hundra för initiativet #blogg100 där jag med många andra kommer att skriva ett blogginlägg om dagen med start den 1:a mars 2016. Mitt fokus kommer att ligga i att skriva om sökmotoroptimering och webbanalys. Följ gärna med på resan, jag lovar att du kommer att snappa upp ett och annat som antingen förbättrar din synlighet online eller ger dig en bättre inblick i hur dina besökare använder din webbplats.