Robots.txt Забранете: как да създавате, функции и препоръки

Първи по курсове по SEO-промоция, начинаещи се срещат с много разбираеми и не много термини. Във всичко това не е толкова лесно да се разбере, особено ако един от елементите първоначално е слабо обяснен или пропуснат. Помислете за стойността в файла robots.txt на Disallow, за който ви е необходим този документ, как да го създадете и да работите с него.

съдържание

С прости думи
стандарт
Карта на сайта
използването на
За какво?
насоки
Визитна картичка
забрана
разрешително
огледала
навигатор
Допълнителни команди
универсален
грешки
данни

С прости думи

За да не се "храни" читателят със сложни обяснения, които обикновено се появяват на специализирани сайтове, е по-добре да обяснявате всичко "на пръстите си". Търсене на робот идва на вашия сайт и индексира страници. След това виждате отчети, които показват проблеми, грешки и др. роботите txt не позволяват

Но на уебсайтовете има и такава информация, която не е задължителна за статистиката. Например страницата "За компанията" или "Контакти". Всичко това не е необходимо за индексирането и в някои случаи нежелателно, тъй като може да изкриви статистическите данни. За да се гарантира, че това не се случи, е по-добре да затворите тези страници от робота. Това е командата в файла за забрана на файл robots.txt.

стандарт

Този документ е винаги на сайтовете. Неговото създаване се управлява от разработчици и програмисти. Понякога собствениците на ресурси могат да направят това, особено ако са малки. В този случай работата с него не отнема много време.

Robots.txt се нарича стандарт за изключване на робота. То се представя с документ, в който се предписват основните ограничения. Документът се поставя в корена на ресурса. В този случай, така че да може да се намери в пътя "/robots.txt". Ако ресурсът има няколко поддомейна, то този файл се поставя в корена на всеки от тях. Стандартът е непрекъснато свързан с други - Sitemaps.

Карта на сайта

За да разберете пълната картина на това, което е заложено, няколко думи за Sitemap. Това е файл, написан на XML. Той съхранява всички данни за ресурсите за държавата-членка. Според документа можете да научите за уеб страници, индексирани от роботи. да се забрани директивата на роботите txt

Файлът дава на PS бърз достъп до всяка страница, показва последните промени, честотата и важността на тях. За тези критерии роботът най-правилно сканира сайта. Но е важно да се разбере, че наличието на такъв файл не дава увереност, че всички страници ще бъдат индексирани. Той е по-скоро улика в процеса.

използването на

Правилният файл robots.txt се използва доброволно. Самият стандарт се появи през 1994 г. Той бе приет от консорциума на W3C. От този момент тя се използва в почти всички търсачки. Това е необходимо за "дозираната" корекция на сканирането на ресурсите от търсещия робот. Файлът съдържа набор от инструкции, които използват MS.

Благодарение на набор от инструменти е лесно да инсталирате файлове, страници, директории, които не могат да бъдат индексирани. Robots.txt също сочи към такива файлове, които трябва да бъдат проверени веднага.

За какво?

Въпреки факта, че файлът наистина може да се използва доброволно, почти всички сайтове го създават. Това е необходимо, за да се рационализира работата на робота. В противен случай тя ще провери всички страници в произволна последователност и освен това може да пропусне някои страници, това създава значително натоварване на ресурса.

Също така файлът се използва за скриване от очите на търсачката:

Страници с лични данни на посетителите.
Страници, на които има формуляри за изпращане на данни и др.
Mirror сайт.
Страници с резултати от търсенето.

Потребителският агент на робота txt забранява

Ако сте посочили Забрана в robots.txt за определена страница, има шанс тя все пак да се покаже в SERP. Тази опция може да възникне, ако връзката към такава страница е поставена на един от външните ресурси или във вашия сайт.

насоки

Говорейки за забраната на търсачката, често използвайте понятието "директива". Този термин е известен на всички програмисти. Често се замества от синонима за "индикация" и се използва заедно с "команди". Понякога тя може да бъде представена от набор от конструктивни програмни езици.

Директивата Disallow в robots.txt е един от най-честите, но не единственият. Освен нея, има още няколко, които са отговорни за определени посоки. Например има потребителски агент, който показва роботите за търсачки. Разрешава се командата "Забрани". Показва разрешение за сканиране на някои страници. След това нека разгледаме по-подробно основните команди.

Визитна картичка

Естествено, потребителският агент robots.txt Disallow не е единствената директива, а една от най-често срещаните. Това са тези, които съставят повечето от файловете за малки ресурси. Визитната картичка за която и да е система все още е командата "Потребителски агент". Това правило е предназначено да насочва роботите към инструкции, които ще бъдат написани по-късно в документа.

Сега има 300 търсещи робота. Ако искате всеки от тях да следва конкретна индикация, не трябва да ги пренаписвате всички малко вероятно. Ще бъде достатъчно да посочите "User-agent: *". "Звездичката" в този случай ще покаже на системите, че са изчислени следните правила за всички търсачки.

Ако създадете насоки за Google, тогава ще трябва да укажете името на робота. В този случай използвайте Googlebot. Ако документът показва само името, а след това останалата част от търсачките няма да възприемат файла robots.txt: .. Disallow, Позволете и т.н. Те ще приемем, че документът е празен, а за тях няма никакви инструкции. забрана на индексирането на роботи

Пълен списък с имената на бот може да се намери в интернет. Това е много дълго, затова, ако имате нужда от указания за конкретни услуги на Google или Yandex, ще трябва да посочите конкретни имена.

забрана

За следващия екип сме казали много пъти. Disallow просто посочва каква информация не трябва да се чете от робота. Ако искате да покажете на търсачките цялото си съдържание, просто напишете "Disallow:". Така че роботите ще сканират всички страници от вашия ресурс.

Пълна забрана на индексирането в robots.txt "Disallow: /". Ако пишете така, тогава роботите изобщо няма да сканират ресурса. Обикновено това се прави в началните етапи, подготовката за стартиране на проекта, експериментите и т.н. Ако сайтът вече е готов да се покаже, променяйте тази стойност, така че потребителите да могат да го опознаят.

Като цяло екипът е универсален. Той може да блокира определени елементи. Например, папка с команда "Disallow: / papka /" може да забрани връзката, файла или документите с конкретно разрешение за сканиране.

разрешително

За да позволите на робота да преглежда конкретни страници, файлове или директории, използвайте Директивата за разрешаване. Понякога е необходим екип, за да може роботът да посещава файлове от определена секция. Например, ако това е онлайн магазин, можете да посочите директория. Останалите страници няма да бъдат сканирани. Но не забравяйте, че първо трябва да предотвратите преглеждането на цялото съдържание от сайта и след като зададете командата Разрешаване с отворени страници. което означава, че не позволявам на роботите txt

огледала

Друга приемна директива. Не всички уеб администратори го използват. Това е необходимо в случай, че вашият ресурс е огледален. Тогава това правило е задължително, защото показва, че роботът "Yandex" на кой от огледалата е основният и какво трябва да се сканира.

Системата не се губи сама и лесно намира необходимия ресурс в съответствие с инструкциите, описани в robots.txt. В самия файл сайтът се регистрира без да се указва "http: //", но само ако работи по HTTP. Ако използва протокола HTTPS, този префикс е посочен. Например "Host: site.com", ако HTTP или "Host: https://site.com" в случай на HTTPS.

навигатор

Вече говорихме за Sitemap, но като отделен файл. Когато разглеждаме правилата за писане на robots.txt с примери, виждаме използването на такава команда. Файлът е означен с "Sitemap: https://site.com/sitemap.xml". Това се прави, за да се гарантира, че роботът е проверил всички страници, които са изброени в картата на сайта на. Всеки път, когато се връщате, роботът ще преглежда новите актуализации, извършените промени и по-бързото изпращане на данни до търсачката.

Допълнителни команди

Това са основните директиви, които сочат важни и необходими команди. Има по-малко полезни и не винаги приложими указания. Например, закъснението при обхождане указва периода, който ще бъде използван между заредените страници. Това е необходимо за слабите сървъри, за да не ги "сложи" чрез нахлуване на роботи. Секунди се използват за задаване на параметъра.

Чистият парам помага да се избегне дублиране на съдържание, който се намира на различни динамични адреси. Те възникват, ако има функция за сортиране. Такава команда ще изглежда така: "Clean-param: ref / catalog / get_product.com".

универсален

Ако не знаете как да създадете правилния файл robots.txt, това не е страшно. В допълнение към инструкциите има универсални опции за този файл. Те могат да бъдат поставени на почти всеки сайт. Изключение може да се превърне в основен ресурс. Но в този случай професионалистите трябва да знаят за файла и специалните хора трябва да се занимават с него. как да създадете правилния txt на роботите

Универсалният набор от директиви ви позволява да отворите съдържанието на сайта за индексиране. Има регистрация на хост и е посочена карта на сайта. Той позволява на роботите винаги да посещават страници, които са необходими за сканиране.

Уловът е, че данните могат да варират в зависимост от системата, на която се намира вашият ресурс. Следователно правилата трябва да бъдат избрани, като се гледа на типа сайт и CMS. Ако не сте сигурни, че създаденият от вас файл е правилен, можете да проверите в инструмента за уеб администратори на Google и в "Yandex".

грешки

Ако разбирате какво означава Disallow в robots.txt, това не гарантира, че няма да грешите при създаването на документа. Съществуват редица общи проблеми, които неопитните потребители изпитват.

Стойностите на директивата често са объркани. Това може да се дължи на неразбиране и невежество на инструкциите. Може би потребителят просто пренебрегва и несъзнателно смесва. Например, те могат да използват стойността "/" за User-agent, а името на робота за Disallow.

Изброяването е друга често срещана грешка. Някои потребители смятат, че изброяването на забранени страници, файлове или папки трябва да бъде посочено в ред в ред. Всъщност, за всяка забранена или разрешена връзка, файл и папка, трябва да напишете командата отново и с нов ред.

Грешките могат да бъдат причинени от грешното име на самия файл. Не забравяйте, че се нарича "robots.txt". Използвайте малката кутийка за името, без варианти от типа "Robots.txt" или "ROBOTS.txt". robots txt правила с примери

Полето Потребител-агент винаги трябва да се попълва. Не оставяйте тази директива без командата. Отново да се върнете към хоста, не забравяйте, че ако сайтът използва протокола HTTP, не е необходимо да се посочва в командата. Само ако е разширена версия на неговия HTTPS. Не можете да оставите директивата Disallow без стойност. Ако нямате нужда от него, просто не го посочвайте.

данни

В обобщение, заслужава да се отбележи, че robots.txt е стандарт, който изисква точност. Ако никога не сте го срещнали, тогава в първите етапи на творението ще имате много въпроси. По-добре е да дадете тази работа на уеб администраторите, тъй като работят с документа през цялото време. Освен това може да има някои промени в възприемането на директивите от търсачките. Ако имате малък сайт - малък онлайн магазин или блог - тогава ще бъде достатъчно да изучите този въпрос и да вземете един от универсалните примери.

Споделяне в социалните мрежи:

сроден