robots.txt

Fisierul Robots.txt – Ghid de optimizare si sfaturi utile

Atunci cand vorbim despre lumea SEO tehnic, exista o serie de elemente esentiale care joaca un rol crucial. Unul dintre acestea este fisierul robots.txt, care, desi poate parea neimportant la prima vedere, detine o mare putere asupra modului in care site-ul rau este indexat de motoarele de cautare. In acest articol, vom examina in detaliu rolul fisierului robots.txt, cum poate fi utilizat si diferitele directive pe care le puteti folosi.

Ce este fisierul robots.txt?

Fisierul robots.txt este un document text simplu, situat in directorul radacina al site-ului tau, care ofera instructiuni catre robotii motoarelor de cautare (cunoscuti si sub numele de “spideri” sau “crawlere”) despre ce pagini sau sectiuni ale site-ului pot sa viziteze.

Rolul fisierului robots.txt in SEO

Acesta joaca un rol crucial in procesul de optimizare SEO. Prin controlul paginilor pe care robotii motoarelor de cautare le pot accesa, puteti avea un impact mare asupra indexarii site-ului dvs. de catre motoarele de cautare.

Optimizarea bugetului de crawlare

Fisierul robots.txt iti permite sa optimizezi bugetul de crawlare al site-ului. Bugetul de crawlare se refera la numarul de pagini pe care un motor de cautare le va vizita si indexa pe site-ul tau intr-un anumit interval de timp. Daca ai pagini pe site care nu sunt relevante pentru motoarele de cautare (de exemplu, pagini de administrare, pagini de sortare sau combinatii de filtre), poti utiliza robots.txt pentru a le exclude din procesul de crawlare, astfel incat motoarele de cautare sa poata concentra bugetul de crawlare pe paginile cu adevarat relevante

Blocarea paginilor duplicate si private

De asemenea, poti folosi robots.txt pentru a bloca paginile duplicate sau private de pe site-ul tau de la a fi citite de roboti. Acest lucru poate fi util pentru a impiedica aparitia acestor pagini in SERP si pentru a proteja informatii private.

Controlul resurselor

Uneori, este posibil sa doresti sa excluzi anumite resurse, cum ar fi PDF-urile, videoclipurile si imaginile, din motorul de cautare. Fie pentru a le mentine private, fie pentru a permite motoarelor de cautare sa se concentreze pe continutul mai valoros. Robots.txt iti permite sa faci acest lucru, prin blocarea accesului la aceste resurse.

Cum functioneaza fisierul robots.txt?

Atunci cand un motor de cautare iti viziteaza site-ul, acesta cauta fisierul robots.txt in directorul radacina al site-ului. Daca gaseste unul, motorul de cautare va citi fisierul inainte de a accesa alte pagini de pe site.

In robots.txt, poti specifica care roboti pot accesa anumite parti ale site-ului si care nu. Poti face acest lucru folosind directivele User-agent si Disallow.

Exemplu:

User-agent: Googlebot

Disallow: /private/

In exemplul de mai sus, am specificat ca Googlebot (robotul motorului de cautare Google) nu ar trebui sa acceseze directorul /private/ al site-ului nostru.

Cum sa gasesti fisierul robots.txt

Puteti vedea fisierul robots.txt al oricarui site introducand URL-ul complet al paginii de pornire si adaugand /robots.txt la sfarsit. De exemplu, fisierul robots.txt al site-ului tau se afla la adresa numesite.ro/robots.txt.


Este important de mentionat ca robots.txt trebuie sa fie intotdeauna in directorul radacina al domeniului. Daca un robot viziteaza www.numesite.ro/robots.txt si nu gaseste un fisier robots.txt acolo, va presupune ca site-ul nu are unul si va continua sa indexeze toate paginile de pe site. In cazul in care fisierul robots.txt nu returneaz ao eroare 404 insa nu este accesibil robotii vor decide sa nu indexeze nici o pagina din site.

Sintaxa fisierului robots.txt

Sintaxa robots.txt este relativ simpla. Acesta consta intr-o serie de directive, fiecare dintre acestea fiind aplicata unui anumit robot al motorului de cautare. In continuare, vom examina cateva dintre aceste directive.

Directiva User-agent

Directiva User-agent este utilizata pentru a specifica robotul caruia ii sunt aplicate directivele urmatoare. De exemplu, daca doresti sa blochezi Googlebot de la accesarea unei anumite pagini, directiva ta ar incepe cu:

User-agent: Googlebot

Directiva Disallow

Directiva Disallow este utilizata pentru a spune unui robot ca nu ar trebui sa viziteze o anumita pagina sau un anumit director. De exemplu, daca doresti sa blochezi Googlebot de la indexarea directorului /private/, ai putea scrie:

User-agent: Googlebot

Disallow: /private/

Directiva Allow

Directiva Allow este utilizata pentru a spune unui robot ca poate scana o anumita pagina sau un anumit director din site, chiar daca acesta se afla intr-un director care a fost blocat intr-o directiva anterioara. De exemplu, daca doresti sa permiti Googlebot sa indexeze pagina /private/public-page.html, ai putea scrie:

User-agent: Googlebot

Disallow: /private/

Allow: /private/public-page.html

Directiva Sitemap

Directiva Sitemap este utilizata pentru a specifica locatia sitemap-ului XML al site-ului. Aceasta este o modalitate buna de a te asigura ca motoarele de cautare gasesc toate paginile importante de pe site-ul tau.

User-agent: Googlebot

Disallow: /private/

Allow: /private/public-page.html

Sitemap: numesite.ro/sitemap.xml

Directiva Crawl-delay

Directiva Crawl-delay este utilizată pentru a specifica cât timp ar trebui să aștepte un robot între solicitările de crawl. Aceasta poate fi utilă dacă ai un site cu mii de pagini și nu doresti ca serverul sa fie suprasolicitat.

Crawl-delay: 2

Poti utiliza directiva Crawl-delay pentru a prioritiza anumite pagini de pe site. De exemplu, daca ai o pagina de produs importanta pe care doresti sa te asiguri ca este bine indexata de motoarele de cautare, poti seta o valoare Crawl-delay mai mica pentru acea pagina.

User-agent: *
Crawl-delay: 5

Allow: /pagina-produs-important.html
Crawl-delay: 1

Cum sa verifici daca ai un fisier robots.txt

Daca nu esti sigur daca ai un fisier robots.txt, poti verifica simplu prin introducerea domeniului tau intr-un browser si adaugarea /robots.txt la sfarsit. De exemplu, daca URL-ul tau este www.numesite.ro, ai introduce www.numesite.ro/robots.txt in browser.
Daca vezi un fisier text care contine directive precum User-agent si Disallow, atunci ai un fisier robots.txt. Daca nu vezi nimic sau vezi o eroare 404, atunci probabil nu ai un fisier robots.txt.

Cum sa creezi un fisier robots.txt

Crearea unui fisier robots.txt este destul de simpla. Tot ce ai nevoie este un editor de text simplu, cum ar fi Notepad sau Notepad++. Incepi prin a crea un nou fisier text si redenumeste-l robots.txt.
Apoi, poti incepe sa adaugi directivele dorite. De exemplu, daca doritesti sa blochezi toate motoarele de cautare de la indexarea directorului /private/, ati putea scrie:

User-agent: *

Disallow: /private/

Dupa ce ai terminat de adaugat directivele, salveaza fisierul si incarca-l in directorul radacina al site-ului. Acesta ar trebui sa fie accesibil acum la www.numesite.ro/robots.txt.

Practici de baza pentru robots.txt

Exista cateva practici de baza pe care ar trebui sa le urmezi atunci cand lucrezi cu un fisier robots.txt.

Nu bloca paginile importante

Asigura-te ca nu blochezi nicio pagina care ar trebui sa fie indexata de motoarele de cautare. Daca blochezi accidental o pagina importanta cu robots.txt, aceasta nu va fi indexata, ceea ce poate avea un impact negativ asupra performantei organice a site-ului.

Nu folositi robots.txt pentru a ascunde informatii sensibile

Fisierul robots.txt este public, ceea ce inseamna ca oricine poate vedea ce pagini excluzi de la indexare. Nu ar trebui sa folosesti robots.txt pentru a incerca sa ascunzi informatii sensibile, deoarece oricine le poate gasi pur si simplu verificand fisierul robots.txt.

Foloseste directiva Allow cu grija

Desi directiva Allow poate fi utila in anumite cazuri, este important de retinut ca nu toate motoarele de cautare o suporta. Daca doresti sa permiti indexarea unei anumite pagini care se afla intr-un director disallowed, este posibil sa fie necesar sa reconfigurezi structura site-ului pentru a face acest lucru posibil.

Fisierul robots.txt este un instrument puternic care iti permite sa controlezi modul in care site-ul tau este inteles de motoarele de cautare. Prin intelegerea modului in care functioneaza si prin utilizarea lui in mod eficient, poti imbunatati semnificativ performanta SEO a site-ului. In acelasi timp, este important sa ai grija sa nu blochezi accidental pagini importante sau sa incercci sa folosestirobots.txt pentru a ascunde informatii sensibile. Cu o utilizare corecta si atenta, robots.txt poate fi un aliat valoros in eforturile tale de optimizare SEO.