Robots.txt یک فایل متنی است که شما در دایرکتوری ریشهٔ دامنه خود مانند example.com/robots.txt قرار میدهید. این شامل دستورالعملهایی برای رباتها، مانند خزندههای وب از موتورهای جستجو مانند Google است که به آنها میگوید به چه صفحات یا دایرکتوریهایی میتوانند یا نمیتوانند از سایت شما دسترسی داشته باشند. در این مقاله، به بررسی دقیق فایل Robots.txt و کاربرد آن میپردازیم. همچنین به تاثیر این فایل در سئو اشاره میکنیم.
فهرست مطالب
Robots.txt چیست؟
Robots.txt یک فایل متنی است که مدیران وب برای آموزش به رباتهای وب (معمولاً رباتهای موتورهای جستجو) ایجاد میکنند که چگونه صفحات را در وبسایت خود بخزند. این بخشی از پروتکل حذف رباتها (REP)، گروهی از استانداردهای وب است که نحوهٔ خزیدن رباتها در وب، دسترسی و فهرستبندی محتوا و ارائهٔ آن محتوا به کاربران را تنظیم میکند.
چرا robots.txt برای سئو مهم است؟
فایل robots.txt از نظر SEO نقش اساسی دارد. این فایل به موتورهای جستجو میگوید که چگونه میتوانند وبسایت شما را به بهترین نحو بررسی کنند. با استفاده از فایل robots.txt میتوانید از دسترسی موتورهای جستجو به بخشهای خاصی از وبسایت خود جلوگیری کنید، از محتوای تکراری جلوگیری کنید و به موتورهای جستجو نکات مفیدی در مورد اینکه چگونه میتوانند وبسایت شما را به طور مؤثرتر جستجو کنند، ارائه دهید.
robots.txt به شما کمک میکند بودجهٔ خزیدن را مدیریت کنید، که تعداد صفحاتی است که گوگل میتواند در یک بازهٔ زمانی مشخص در سایت شما بخزد. با استفاده از robots.txt، میتوانید:
– از ایندکس شدن محتوای تکراری یا بیکیفیت و تاثیرگذاری بر رتبهٔ شما جلوگیری کنید.
– با مسدود کردن رباتها از دسترسی به فایلهای نامربوط یا حساس، پهنای باند و منابع سرور را ذخیره کنید.
– کنترل کنید که میخواهید گوگل روی کدام صفحات یا بخشهایی از سایت شما تمرکز کند و اولویتبندی کند.
با این حال، robots.txt راهی بیخطر برای پنهان کردن صفحات شما از گوگل یا سایر کاربران نیست. اگر صفحات دیگر با متن توصیفی به صفحات مسدود شدهٔ شما پیوند داده شوند، ممکن است Google همچنان آنها را بدون بازدید از آنها فهرست کند. همچنین، برخی از رباتهای مخرب ممکن است فایل robots.txt شما را نادیده بگیرند.
بنابراین، اگر میخواهید صفحات خود را به طور کامل از گوگل یا سایر کاربران مسدود کنید، باید از روشهای دیگری مانند محافظت با رمز عبور، متا تگهای noindex یا کدهای وضعیت HTTP استفاده کنید.
چگونه یک فایل robots.txt ایجاد و ویرایش کنیم؟
برای ایجاد یک فایل robots.txt، باید از یک ویرایشگر متن ساده مانند Notepad یا TextEdit استفاده کنید و آن را به عنوان robots.txt ذخیره کنید. سپس، باید آن را با استفاده از یک سرویس گیرندهٔ FTP، مانند FileZilla، در دایرکتوری ریشهٔ دامنه خود آپلود کنید.
برای ویرایش فایل robots.txt، میتوانید از همان روش بالا استفاده کنید یا از افزونه یا ابزاری استفاده کنید که به شما امکان میدهد آن را از داشبورد CMS خود ویرایش کنید، مانند Yoast SEO برای وردپرس.
چگونه فایل robots.txt خود را تست و تایید کنیم؟
قبل از اینکه فایل robots.txt خود را آپلود یا بهروز کنید، باید آن را آزمایش و اعتبارسنجی کنید تا مطمئن شوید که طبق برنامه کار میکند و هیچ صفحهٔ مهمی را از خزیدن مسدود نمیکند.
میتوانید از ابزارهای مختلفی برای آزمایش و اعتبارسنجی فایل robots.txt خود استفاده کنید، مانند:
– آزمایشکننده robots.txt در Google Search Console، که به شما امکان میدهد بررسی کنید که آیا فایل robots.txt شما آدرسهایی را که میخواهید Google آنها را بخزد، مسدود میکند یا خیر، و همچنین هرگونه خطا یا هشداری را به شما نشان میدهد.
– آزمایشکننده robots.txt Bing Webmaster Tools، که به شما امکان میدهد بررسی کنید که آیا فایل robots.txt شما آدرسهایی را که میخواهید Bing آنها را بخزد، مسدود میکند یا خیر، و همچنین هرگونه خطا یا هشداری را به شما نشان میدهد.
– Moz’s robots.txt generator که به شما امکان میدهد یک فایل robots.txt را از ابتدا ایجاد کنید یا یک فایل موجود را ویرایش کنید و همچنین به شما نشان میدهد که چگونه رباتهای مختلف، فایل شما را تفسیر میکنند.
– Screaming Frog’s SEO Spider که به شما امکان میدهد سایت خود را بررسی کنید و ببینید کدام صفحات توسط فایل robots.txt شما مسدود یا مجاز است و همچنین هرگونه خطا یا اخطار در فایل را به شما نشان میدهد.
انواع دستورالعملهای Robots.txt چیست؟
علاوه بر دستورالعملهای user-agent، غیر مجاز و مجاز، انواع دیگری از دستورالعملها وجود دارد که میتوانید در فایل robots.txt خود استفاده کنید، مانند:
– Sitemap: این دستورالعمل به موتورهای جستجو میگوید که نقشهٔ سایت XML شما را کجا پیدا کنند. اگر بیش از یک نقشهٔ سایت XML دارید، میتوانید از چندین دستورالعمل نقشهٔ سایت استفاده کنید.
– Crawl-Delay: این دستورالعمل به موتورهای جستجو میگوید که چه مدت بین هر درخواست به وبسایت شما صبر کنند. این میتواند به شما کمک کند بار روی سرور خود را کاهش دهید و از تحت فشار قرار گرفتن درخواستهای بیش از حد جلوگیری کنید. با این حال، همه موتورهای جستجو از این دستورالعمل پشتیبانی نمیکنند. گوگل از آن پیروی نمیکند و در عوض از الگوریتم خود برای تعیین نرخ بهینهٔ خزیدن برای سایت شما استفاده میکند.
– Noindex: این دستورالعمل به موتورهای جستجو میگوید که مسیر یا الگوی URL مشخص شده را ایندکس نکنند. این شبیه به استفاده از یک متا تگ noindex در خود صفحه است، اما اگر بخواهید آن را همزمان روی چندین صفحه اعمال کنید، میتواند راحتتر باشد. با این حال، این دستورالعمل بخشی از استاندارد رسمی robots.txt نیست و تنها توسط برخی از موتورهای جستجو مانند گوگل و بینگ پشتیبانی میشود.
– Host: این دستورالعمل به موتورهای جستجو میگوید که کدام نسخه از دامنهٔ خود (www یا غیر www) را ترجیح میدهید. این میتواند به شما کمک کند از مشکلات محتوای تکراری جلوگیری کنید و سیگنالهای رتبهبندی خود را تثبیت کنید. با این حال، این دستورالعمل فقط توسط برخی از موتورهای جستجو مانند Yandex پشتیبانی میشود.
– Referer: این دستورالعمل به موتورهای جستجو میگوید که آیا هنگام درخواست URL از وبسایت شما، سرصفحه ارجاع را ارسال کنند یا خیر. سرصفحه ارجاع بخشی از اطلاعات است که به وب سایت مقصد میگوید درخواست از کجا آمده است. شما میتوانید از این دستورالعمل برای جلوگیری از افشای اطلاعات حساس توسط موتورهای جستجو یا رعایت مقررات حفظ حریم خصوصی استفاده کنید. با این حال، این دستورالعمل فقط توسط برخی از موتورهای جستجو مانند Yandex پشتیبانی میشود.
نحوهٔ استفاده از Robots.txt برای سئو
باید مراقب باشید که از robots.txt برای مسدود کردن صفحاتی که میخواهید در نتایج جستجو رتبهبندی شوند، مانند صفحات محتوای اصلی، صفحات فرود، پستهای وبلاگ و غیره استفاده نکنید. مسدود کردن این صفحات باعث میشود موتورهای جستجو نتوانند آنها را ایندکس کنند، و همچنین ممکن است بر رتبهٔ سایر صفحاتی که به آنها پیوند دارند تأثیر بگذارد.
همچنین به خاطر داشته باشید که robots.txt یک ابزار امنیتی نیست. هر کسی میتواند فایل robots.txt شما و نشانیهای اینترنتی را که مسدود میکنید ببیند. اگر میخواهید از اطلاعات حساس یا محرمانه در برابر دسترسی غیرمجاز محافظت کنید، باید از روشهای دیگری مانند محافظت با رمز عبور، رمزگذاری یا متا تگهای noindex استفاده کنید.
جمعبندی
Robots.txt ابزار قدرتمندی است که میتواند با کنترل نحوهٔ خزیدن و فهرستبندی وبسایت شما توسط موتورهای جستجو، در بهینهسازی سئو به شما کمک کند. با استفاده از دستورات و کاربرد مناسب، میتوانید از دسترسی موتورهای جستجو به صفحات حساس یا با کیفیت پایین جلوگیری کنید، در بودجهٔ خزیدن خود صرفهجویی کنید و اطلاعات اضافی را در اختیار موتورهای جستجو قرار دهید.
با این حال، باید مراقب باشید که از robots.txt برای مسدود کردن صفحاتی که میخواهید در نتایج جستجو رتبهبندی شوند یا برای اهداف امنیتی ، استفاده نکنید. همچنین باید فایل robots.txt خود را به طور مرتب آزمایش کنید و از ابزارهای ارائه شده توسط موتورهای جستجو برای بررسی اعتبار و اثربخشی آن استفاده کنید.
با پیروی از این راهنما، میتوانید فایل robots.txt عالی برای سئو ایجاد کنید و عملکرد وبسایت خود را در نتایج جستجو افزایش دهید.