Så här konfigurerar du korrekt Robots.txt för din webbplats

Så här konfigurerar du korrekt Robots.txt för din webbplats / Programmering

Om du kör en webbplats 10 sätt att skapa en liten och enkel webbplats utan överkill 10 sätt att skapa en liten och enkel hemsida utan överkill WordPress kan vara en överkill. Eftersom dessa andra utmärkta tjänster visar sig, är WordPress inte det enda och slutar hela webbsidan skapas. Om du vill ha enklare lösningar finns det en mängd att välja på. Läs mer, du har nog hört talas om en robots.txt-fil (eller “robotuteslutningsstandard”). Oavsett om du har eller inte är det dags att lära dig om det, eftersom den här enkla textfilen är en viktig del av din webbplats. Det kan tyckas obetydligt, men du kan bli förvånad över hur viktigt det är.

Låt oss ta en titt på vad en robots.txt-fil är, vad den gör och hur du konfigurerar den korrekt för din webbplats.

Vad är en robots.txt-fil?

För att förstå hur en robots.txt-fil fungerar, behöver du veta lite om sökmotorer Hur fungerar sökmotorer? Hur fungerar sökmotorer? För många människor är Google internet. Det är förmodligen den viktigaste uppfinningen sedan Internet i sig. Och medan sökmotorer har förändrats mycket sedan är de underliggande principerna fortfarande desamma. Läs mer . Den korta versionen är att de skickar ut “sökrobotar,” vilka är program som skura internet för information. De lagrar sedan en del av den informationen så att de kan rikta folk till det senare.

Dessa sökrobotar, även känd som “bots” eller “spindlar,” hitta sidor från miljarder webbplatser. Sökmotorer ger dem anvisningar om var de ska gå, men enskilda webbplatser kan också kommunicera med bots och berätta vilka sidor de ska titta på.

För det mesta gör de faktiskt det motsatta och berättar för vilka sidor de borde inte titta på. Saker som administrativa sidor, backendportaler, kategori- och taggsidor och andra saker som webbplatsägare inte vill visa på sökmotorer. Dessa sidor är fortfarande synliga för användarna, och de är tillgängliga för alla som har tillstånd (vilket ofta är alla).

Men genom att säga att spindlarna inte indexerar några sidor, gör robots.txt-filen alla en tjänst. Om du sökte efter “Använda” På en sökmotor, vill du att våra administrativa sidor dyker upp högt i rankingen? Nej. Det skulle inte göra någon bra, så vi berätta för sökmotorerna att de inte ska visas. Det kan också användas för att hålla sökmotorer från att kolla in sidor som inte kan hjälpa dem att klassificera din webbplats i sökresultat.

Kortfattat berättar robots.txt webbomsökare vad man ska göra.

Kan sökrobotar ignorera robots.txt?

Crawlers ignorerar någonsin robots.txt-filer? Ja. Faktum är att många sökrobotar do ignorera det. Generellt sett är dessa sökrobotar inte från välrenommerade sökmotorer. De är från spammare, email skördare och andra typer av automatiserade bots som strömmar över internet. Det är viktigt att hålla detta i åtanke - med hjälp av roboten uteslutning standard för att berätta bots att hålla ut är inte en effektiv säkerhetsåtgärd. Faktum är att vissa robotar kan Start med sidorna du berättar att de inte ska gå till.

Sökmotorer kommer emellertid att göra som din robots.txt-fil säger så länge den är formaterad korrekt.

Hur man skriver en robots.txt-fil

Det finns några olika delar som går in i en standard för standardiserad robotutsläpp. Jag slår dem ned individuellt här.

User Agent Declaration

Innan du säger en bot vilka sidor det inte borde titta på, måste du ange vilken bot du pratar med. För det mesta använder du en enkel deklaration som betyder “alla bots.” Det ser så här ut:

Användaragent: *

Asterisken står inför “alla bots.” Du kan dock ange sidor för vissa bots. För att göra det måste du veta namnet på den bot du lägger ut riktlinjer för. Det kan se ut så här:

Användaragent: Googlebot [lista med sidor som inte ska genomsökas] Användaragent: Googlebot-Image / 1.0 [lista med sidor som inte ska genomsökas] Användaragent: Bingbot [lista med sidor som inte ska genomsökas]

Och så vidare. Om du upptäcker en bot som du inte vill krypa på din webbplats alls kan du ange det också.

För att hitta namnen på användaragenter, kolla in useragentstring.com.

Tillåtande av sidor

Det här är huvuddelen av din robotuteslutningsfil. Med en enkel deklaration berättar du en bot eller en grupp bots att inte krypa igenom vissa sidor. Syntaxen är lätt. Så här förhindrar du tillgång till allt i “administration” katalog på din webbplats:

Tillåt: / admin /

Den linjen skulle hålla bots från crawling yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html och allt annat som faller under administratorkatalogen.

För att inte tillåta en enda sida, ange bara den i disallow-raden:

Tillåt: /public/exception.html

Nu den “undantag” sidan kommer inte att dras, men allt annat i “offentlig” mappen kommer.

För att inkludera flera kataloger eller sidor, bara lista dem på följande rader:

Disallow: / private / Disallow: / admin / Disallow: / cgi-bin / Disallow: / temp /

De fyra raderna gäller för vilken användaragent du angav längst upp i avsnittet.

Om du vill behålla bots från att titta på någon sida på din webbplats, använd följande:

Tillåta: /

Ställ in olika standarder för robotar

Som vi såg ovan kan du ange vissa sidor för olika bots. Kombinera de föregående två elementen, här är det som ser ut som:

Användaragent: googlebot Disallow: / admin / Disallow: / privat / Användaragent: bingbot Tillåt: / admin / Tillåt: / privat / Tillåt: / hemlig /

De “administration” och “privat” sektioner kommer att vara osynliga på Google och Bing, men Google kommer att se “hemlighet” katalog, medan Bing inte kommer att göra det.

Du kan ange allmänna regler för alla bots genom att använda användaragenten för asterisk och sedan ge specifika instruktioner till bots i följande sektioner.

Få alltid att falla på plats

Med kunskapen ovan kan du skriva en komplett robots.txt-fil. Bara skjuta upp din favorit textredigerare (vi är fans av Sublime 11 Sublime Text Tips för produktivitet och en snabbare arbetsflöde 11 Sublime Text Tips för produktivitet och en snabbare arbetsflödes Sublime Text är en mångsidig textredigerare och en guldstandard för många programmerare. tips fokuserar på effektiv kodning, men allmänna användare kommer att uppskatta tangentbordsgenvägarna. Läs mer här) och börja låta bots vet att de inte är välkomna i vissa delar av din webbplats.

Om du vill se ett exempel på en robots.txt-fil, gå bara till en webbplats och lägg till “/robots.txt” till slutet. Här är en del av filen Giant Cykles robots.txt:

Som du kan se finns det några sidor som de inte vill visa på sökmotorer. De har också inkluderat några saker vi inte har pratat om ännu. Låt oss ta en titt på vad mer du kan göra i din robotuteslutningsfil.

Hitta din webbplatskarta

Om din robots.txt-fil berättar bots där inte att gå, din webbplatskarta gör motsatsen Hur man skapar en XML-webbplatskarta i 4 enkla steg Så här skapar du en XML-webbplatskarta i 4 enkla steg Det finns två typer av webbplatskartor - HTML-sida eller en XML-fil. En HTML-sidkarta är en enda sida som visar besökare på alla sidor på en webbplats och har vanligtvis länkar till de ... Läs mer och hjälper dem att hitta vad de letar efter. Och medan sökmotorer förmodligen redan vet var din webbplatskarta är, gör det inte ont för att låta dem veta igen.

Deklarationen för en plats för sitemap är enkel:

Sitemap: [URL för sitemap]

Det är allt.

I vår egen robots.txt-fil ser det ut så här:

Sitemap: //www.makeuseof.com/sitemap_index.xml

Det är allt som finns där.

Ställ in en fördröjningsfördröjning

Direktivet om krypningsfördröjning berättar för vissa sökmotorer hur ofta de kan indexera en sida på din webbplats. Det mäts i sekunder, men vissa sökmotorer tolkar det något annorlunda. Vissa ser en krypningsfördröjning om 5 som att de säger att de ska vänta fem sekunder efter varje genomsökning för att initiera nästa. Andra tolkar det som en instruktion att bara krypa en sida var femte sekund.

Varför skulle du berätta för en sökrobot att inte krypa så mycket som möjligt? För att behålla bandbredd 4 sätt Windows 10 sparar din internetbandbredd 4 sätt Windows 10 slösar bort din internetbandbredd Har Windows 10 slösat bort din internetbandbredd? Så här kontrollerar du och vad du kan göra för att stoppa det. Läs mer . Om din server kämpar för att följa med trafiken kanske du vill initiera en krypfördröjning. I allmänhet behöver de flesta inte oroa sig för detta. Stora webbplatser med hög trafik kan dock vilja experimentera lite.

Så här ställer du in en sökningsfördröjning på åtta sekunder:

Genomsökningsfördröjning: 8

Det är allt. Inte alla sökmotorer följer ditt direktiv. Men det gör inte ont för att fråga. Som om du inte tillåter sidor kan du ställa in olika sökningar för sökningar för specifika sökmotorer.

Överför din robots.txt-fil

När du har alla instruktionerna i filen, kan du ladda upp den till din webbplats. Kontrollera att det är en vanlig textfil och har namnet robots.txt. Ladda sedan upp den till din webbplats så att den finns på yoursite.com/robots.txt.

Om du använder ett innehållshanteringssystem 10 Mest populära innehållshanteringssystem Online 10 mest populära innehållshanteringssystem Online Dagen för handkodade HTML-sidor, och mastering av CSS, är långt borta. Installera ett content management system (CMS) och inom några minuter kan du få en webbplats att dela med världen. Läs mer som WordPress, det finns förmodligen ett specifikt sätt som du behöver gå om detta. Eftersom det skiljer sig åt i varje innehållshanteringssystem, behöver du konsultera dokumentationen för ditt system.

Vissa system kan ha online-gränssnitt för att ladda upp din fil också. För dessa, bara kopiera och klistra in filen du skapade i de föregående stegen.

Kom ihåg att uppdatera din fil

Det sista tipset jag ger är att ibland titta över din robotuteslutningsfil. Din webbplats ändras, och du kan behöva göra några justeringar. Om du märker en märklig förändring i din sökmotor trafik, är det en bra idé att kolla in filen också. Det är också möjligt att standardnotationen kan förändras i framtiden. Liksom allt annat på din webbplats, är det värt att kolla på det varje gång i taget.

Vilka sidor utesluter du sökrobotar från din webbplats? Har du märkt någon skillnad i sökmotorns trafik? Dela dina råd och kommentarer nedan!

.