Robot.txt چیست

اینکه موتورهای جستجو مرتب سایت شما رو بررسی کرده و محتوای شما رو ایندکس می کنن عالیه، اما زمانی هست که بخشی از محتوای آنلاین ایندکس شده مورد توجه شما نبوده. مثلا اگه دو نسخه از یه صفحه داشته باشین (یه نسخه واسه مشاهده در مرورگر و دیگری واسه چاپ)، بهتره که نسخه مخصوص چاپ رو خط بزنین، در غیراینصورت ممکنه مشمول جریمه محتوای تکراری شید. هم اینکه اگه داده های حساسی دارین که نمی خواهید ایندکس شده و جهان اونا رو ببینن (با اینکه بهترین روش اون هستش که این داده ها رو به صورت آفلاین نگهداری کنین). هم اینکه اگه می خواهید پهنای باند رو با حذف تصاویر و کدهای جاوا اسکریپت ذخیره کنین، در تموم موارد فوق باید به اسپایدارهای موتورهای جستجو بگید که این موارد رو بررسی نکنن.

بهترین روش واسه این کار به کار گیری فایل robots.txt است. robots.txt فایل متنی (و نه html) است که در سایت خود قرار می بدید و به ربات های جستجو می گویید که نمی خواهید کدوم صفحات دیده شن. قرار دادن این فایل مانند قرار دادن تابلوی «لطفاً وارد نشید» روی در قفل می باشه.

محل قرار گرفتن robots.txt خیلی با اهمیته. باید در دایرکتوری اصلی باشه چون در غیراین صورت عاملین کاربر (موتورهای جستجو) قادر به پیدا کردن اون نیستن. اگه در دایرکتوری اصلی این فایل پیدا نشه، اسپایدرها هر فایلی که در این راه پیدا کنن ایندکس می کنن.

ساختار فایل robots.txt

ساختار این فایل بسیار ساده (و غیرمنعطف) است. دستور نوشتن این فایل به صورت زیره:

:User-agent

:Disallow

«User-agent» کرالرهای موتورهای جستجو هستن و «disallow» فایل ها و دایرکتوریایی که قراره از ایندکس شدن حذف شن، فهرست می کنه. هم اینکه می تونید چندین خط نظر با قرار دادن علامت # در اول خط بذارین:

.All user agents are disallowed to see the /temp directory#

*:User-agent

/Disallow:/temp

دام های فایل robots.txt

اشتباهات عادی شامل تایپ اشتباه و دستورات مخالف می شه. مشکل جدی تر مربوط به خطاهای منطقیه. مثلا:

*:User-agent

/Disallow: /temp

User-agent: Googlebot

/Disallow: /images

/Disallow: /temp

/Disallow: /cgi-bin

مثال فوق به تموم عاملین اجازه دسترسی به همه چیز به جز دایرکتوری /temp/ رو می دهد.

ابزارهایی واسه تولید و معتبرسازی فایل robots.txt

دستور نوشتن ساده این فایل رو به خاطر بیارین، همیشه می تونید اون رو بخونین و از درست بودن اون مطمئن شین اما ابزاری مانند http://tool.motoricerca.info/robots-checker.phtml می تونه این کار رو ساده تر سازه.

Robot.txt چیه
  •  

    Robot.txt چیه

۵

 

خلاصه

Robot.txt چیه ؟؟؟ robots.txt فایل متنیه که در سایت خود قرار می بدید و به ربات های جستجو می گویید که نمی خواهید کدوم صفحات دیده شن