Index و Crawl چیستند؟

توسط محمد فیض آبادی فراهانی آخرین بروز رسانی ( چهارشنبه ، ۵ مرداد ، ۱۴۰۱ )

همه ما تا حدودی از نحوه عملکرد موتورهای جستجو آگاهیم. اما در اینجا ما می‎خواهیم مقداری عمیق‌تر به این موضوع نگاه کنیم. بیایید با روند عملکردی خزنده‌های گوگل شروع کنیم.

اصلا خزنده‌های موتورها جستجو چی هستند؟

خزیدن فرایندی است که توسط خزنده‌های وب موتور جستجوگر (ربات‌ها یا اسپایدرها) برای بازدید و دانلود یک صفحه و استخراج لینک‌های آن به منظور کشف صفحات اضافه شده، استفاده می‌شود.

صفحاتی که به موتورهای جستجو شناسانده شده‌اند، به طور مرتب توسط خزنده‌ها بازدید می‌شوند تا تخمین بزنند که آیا تغییری از زمان آخرین خزیدن ایجاد شده یا خیر.

اگر یک موتور جستجو پس از خزیدن یک صفحه، تغییرات را در آن صفحه پیدا کند، در پاسخ به این تغییرات شناسایی شده، ایندکس آن را به روز می‌کند.

خزنده‌ها چگونه کار می‌کنند؟

موتورهای جستجو از خزنده‌های وب مخصوص به خود برای کشف و دسترسی به صفحات وب استفاده می‌کنند. هر خزنده موتور جستجوگر، از طریق دانلود فایل robots.txt آن سایت، که فایلی حاوی قوانین مربوط به صفحاتی است که موتورهای جستجو باید یا نباید در وب سایت جستجو کنند، یک وب سایت را می‌خزند.

فایل robots.txt همچنین ممکن است اطلاعاتی در مورد نقشه‌های سایت (Sitemaps) داشته باشد. نقشه سایت شامل لیست‌هایی از URLهایی است که صاحبان سایت می‌خواهد که خزنده موتور جستجوگر آنها را بخزند.

خزنده موتور جستجوگر از تعدادی الگوریتم و قواعد استفاده می‌کند تا تعیین کند که چه میزان یک صفحه مجددا خزیده (re-crawled) می‌شود و چند صفحه در یک سایت باید ایندکس شود. به عنوان مثال، یک صفحه که به صورت منظم تغییر می‌کند، ممکن است بیشتر از صفحه‌ای که به ندرت اصلاح می شود، کرول یا خزیده شود.

چگونه می‌توان موتورهای جستجو را شناسایی کرد؟

شناسایی ربات‌های خزنده موتورهای جستجو از طریق user agent strings که آنها را در هنگام درخواست صفحات وب به سرور وب منتقل می‌کند، امکان پذیر است. در اینجا چند نمونه از user agent strings استفاده شده توسط موتورهای جستجو وجود دارد:

Googlebot User Agent

Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)

Bingbot User Agent

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Baidu User Agent

Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

Yandex User Agent

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

هر کس می‌تواند یک user agent مشابه با موتورهای جستجوگر استفاده کند. با این حال، آدرس IP که درخواست را ایجاد کرد نیز می‌تواند مورد استفاده قرار گیرد تا تأیید کند که از موتور جستجو آمده است – یک فرایند به نام DNS lookup معکوس است.

کرول کردن تصاویر یا سایر فایل‌های غیرمتنی

موتورهای جستجو به طور معمول تلاش می‌کنند تا هر URL را که با آن روبرو هستند، کرول و ایندکس شوند. با این حال، اگر URL یک نوع فایل غیر متنی است مانند یک فایل عکس، ویدئو یا فایل صوتی، موتورهای جستجو به طور معمول نمی‌توانند محتوای فایل را به غیر از نام فایل و متادیتای مرتبط با آن را بخوانند.

اگر چه یک موتور جستجو تنها قادر به استخراج مقدار محدودی از اطلاعات در مورد انواع فایل‌های غیر متنی است، اما می‌تواند آنها را ایندکس کند و موجب رتبه بندی در نتایج جستجو شود. گوگل می‌تواند محتوای بسیاری از انواع صفحات و فایل‌ها را ایندکس کند. رایج‌ترین انواع فایل‌هایی که ایندکس می‌شود عبارتند از:

(Adobe Flash (.swf
(Adobe Portable Document Format (.pdf
(Adobe PostScript (.ps
(Autodesk Design Web Format (.dwf
(Google Earth (.kml, .kmz
(GPS eXchange Format (.gpx
(Hancom Hanword (.hwp
(HTML (.htm, .html, other file extensions
(Microsoft Excel (.xls, .xlsx
(Microsoft PowerPoint (.ppt, .pptx
(Microsoft Word (.doc, .docx
(OpenOffice presentation (.odp
(OpenOffice spreadsheet (.ods
(OpenOffice text (.odt
(Rich Text Format (.rtf
(Scalable Vector Graphics (.svg
(TeX/LaTeX (.tex
Text (.txt, .text, other file extensions), including source code in common programming languages:
(Basic source code (.bas
(C/C++ source code (.c, .cc, .cpp, .cxx, .h, .hpp
(C# source code (.cs
(Java source code (.java
(Perl source code (.pl
(Python source code (.py
(Wireless Markup Language (.wml, .wap
(XML (.xml

خزیدن و استخراج لینک از صفحات

خزنده‌ها صفحات جدید را با خزیدن مجدد در صفحاتی که آنها را می‌شناخته، سپس استخراج لینک‌ها برای پیدا کردن صفحات جدید، کشف می‌کند. این URL های جدید در صف خزیدن قرار می‌گیرند تا بتوان آنها را بعدا دانلود کرد.

از طریق فرایند دنبال کردن لینک‌ها، موتورهای جستجو قادرند که هر صفحه منتشر شده در اینترنت را که به حداقل یک صفحه در اینترنت مرتبط یا لینک شده است، کشف کنند.

SITEMAPS

راه دیگری که موتورهای جستجو می‌توانند صفحات جدید را کشف کنند این است که خزنده‌ها نقشه‌های سایت را کرول کنند. نقشه‌های سایت شامل مجموعه‌ای از آدرس‌ها است که توسط یک وب سایت ایجاد می‌شود تا به موتورهای جستجو، لیستی از صفحاتی رت که می‌بایست کرول شوند، ارائه دهد.

این نقشه‌ها از طرفی می‌تواند به موتورهای جستجو کمک کند تا محتوای پنهانی عمیق در وب سایت را پیدا کند و از طرف دیگر به مدیران وب در توانایی بهتر کنترل و درک بخش‌هایی از سایت که ایندکس شده کمک کند و همچنین تکرار ایندکس‌ها را درک کنند.

PAGE SUBMISSIONS

یک روش دستی برای کشف صفحه است. این روش زمانی مورد استفاده قرار می‌گیرد که محتوای جدیدی منتشر شده یا یک تغییراتی ایجاد شود و شما می‌خواهید زمان را برای اینکه موتوهای جستجو آن تغییرات را ببینند کوتاه کنند یا به حداقل برسانید.

گوگل می‌گوید که برای حجم‌های خیلی بالا از URL شما باید از نقشه‌های XML استفاده کنید، اما گاهی روش ارائه دستی هنگام ارسال تعدادی از صفحات مناسب است. همچنین مهم است که توجه داشته باشید که گوگل سرچ کنسول این تعداد را محدود کرده است.

علاوه بر این، گوگل می‌گوید زمان پاسخگویی برای ایندکس کردن نقشه‌های سایت و ایندکس دستی یکسان است.

Crawl‌ و Index چیست؟

یکی از نکاتی که برای سئو بهتر سایت باید به آن توجه کرد، میزان دسترسی موتورهای جستجو به صفحات هدف است. این دسترسی با خزیدن یا Crawl ربات‌های موتورها به سایت صورت می‌گیرد. پس از آن، صفحه‌ای که ربات‌ها به آن خزیده‌اند باید در فهرست قرار گرفته یا Index‌ شود. به این دلیل از واژه هدف استفاده شد که برخی از قسمت‌های سایت ممکن است توسط ادمین از طریق فایل ربات از دسترس خارج شوند.

در ابتدای امر باید بگوییم که ما هنوز نمی‌دانیم که گوگل چطور سایت ما را Crawl می‌کند؛ بنابراین بسیاری از سئوکارها هنوز تفاوت بین Crawl و Index را نمی‌دانند. بزرگ‌ترین مشکل این است که زمانی که مشکلات ایندکس شدن را بررسی می‌کنیم تنها ابزارهای ما Google Search Console است.

به این خاطر که سایت از کدهای HTML و CSS تشکیل شده است، حدس زدن درمورد چرا محتوا توسط گوگل ایندکس نمی‌شود، سخت‌تر خواهد بود.

حتی اگر قسمت‌هایی از سایت خود را پیدا کرده‌اید که می‌دانید مشکل ایندکس نشدن از آنهاست، بسیار مشکل است که تا ته آن بروید و قطعه کد اشکال دار را پیدا کنید که باعث ایندکس نشدن است.

هر موتور جستجو بودجه خزیدن خاصی را به هر دامنه اختصاص می‌دهد که بر اساس میزان رتبه صفحه تعیین می‌شود؛ بنابراین آنها باید اولویت‌بندی کرده و تا حد امکان به خزیدن در محتواهای باارزش بپردازند.

با استفاده از دستوراتی مثل Nofollow یا فایل ربات در مورد برخی از صفحات کم‌اهمیت، می‌توانید بودجه خزیدن یا Crawl‌ سایتتان را بهینه کرده و به عبارتی در مصرف آن صرفه‌جویی کنید! استفاده از متا تگ‌ها برای کنترل این بودجه هم می‌تواند کمک‌کننده باشد.

پس از اینکه عملیات خزیدن موتورهای جستجو به صفحات وب‌سایتتان را با موفقیت پشت سر گذاشتید، زمان آن است تا بر نحوه فهرست بندی یا Index کردن آنها توسط موتورها نظارت داشته باشید. لزوما هر صفحه‌ای که خزیدن به‌ آن صورت می‌گیرد، Index‌ نمی‌شود و باید گوگل آن را باارزش تشخیص دهد.

پس از ایندکس شدن صفحه، گوگل تصمیم می‌گیرد که چطور باید در نتایج جستجو دیده شود. این موتور بر اساس عوامل مختلف، تصمیم می‌گیرد که در هر جستجو، چه کلمات کلیدی و رتبه‌ای به صفحه شما تعلق می‌گیرد.

جالب است بدانید اگر لینکی برای ایندکس کردن توسط ربات گوگل خزیده می‌شود تا پنج سایت دیگر که این لینک از آنها نشات گرفته هم خزیده می‌شوند که اعتبار آن لینک‌ها هم در رتبه‌بندی صفحه شما تاثیر دارد. به همین دلیل لینک گرفتن از سایت‌های باکیفیت و معتبر با استفاده از کلمه کلیدی مورد نظرتان می‌تواند در ایندکس بهتر صفحات به شما کمک کند.

چگونگی Crawl & Index توسط موتورهای جستجو

بهینه سازی وب سایت بدون درک نحوه کارکرد موتورهای جستجو، مشابه انتشار یک کتاب بدون یادگیری نحوه نوشتن است. بنابراین ما باید درک کنیم که چگونه موتورهای جستجو کار می‌کنند تا کاملا درک کنیم که چگونه برای آنها بهینه سازی انجام شود.

در حالی که ما روی جستجوی ارگانیک تمرکز می‌کنیم، ابتدا باید به طور خلاصه در مورد یک حقیقت انتقادی درباره موتورهای جستجو صحبت کنیم.

اساسا، گوگل و بینگ (و سایر موتورهای جستجو) موتورهای تبلیغاتی هستند که کابران را به سمت خود می‌کشند تا به ارگانیک تبدیل کنند. بنابراین ارگانیک پایان ماجراست.

موتورهای جستجو امروز چگونه کار می کنند؟

Crawling and indexing
Algorithms
Machine learning
User intent

Indexing

ایندکس جایی است که همه چیز شروع می‌شود. اگر بخواهیم به صورت آماتور به این موضوع بپردازیم، باید بگوییم که ایندکس کردن اساسا به افزودن یک محتوای وب سایت به گوگل اشاره دارد. زمانی که شما یک پیج تازه می‌سازید راه‌های مختلفی برای ایندکس کردن آن برای گوگل وجود دارد.

یک راه آسان این است که در واقع هیچ کاری نکنید. گوگل خزنده‌ها را در پی لینک‌ها می‌فرستد، در نهایت آن را کشف کرده و آن را به فهرست خود اضافه می‌کند.

اما آیا راهی وجود دارد که آن را سریع‌تر به گوگل معرفی کنیم؟

این امر زمانی مهم است که محتوای جدیدی داشته باشید یا تغییرات مهمی در صفحه‌ای ایجاد کرده‌اید که گوگل نیاز به دانستن آن را داشته باشد.

یکی از دلایلی که از روش‌های سریع‌تر استفاده می‌کنیم این است که یک صفحه مهم را بهینه سازی کرده یا دیسکریپشن برای یا توضیحات را برای بهبود تجربه کاربر تنظیم کرده‌ایم و می‌خواهیم به طور خاص زمانی که کاربر آن را سرچ کرد، در SERPs نمایش داده شود. در این موارد چند روش وجود دارد که می‌توانید استفاده کنید:

XML Sitemaps

همیشه XML Sitemaps وجود دارد.

اساسا Sitemaps یک نقشه سایت است که از طریق Search Consoleبه گوگل ارائه می‌شود.

یک Sitemap ، لیستی از تمام صفحات در سایت شما و همچنین جزئیات بیشتر در مورد آن مانند زمانی که آن را آخرین بار تغییر داده‌اید، است.

URL Inspection

در Search Console، می توانید «URL Inspection » را پیدا کنید. URL مورد نظر خود را وارد کنید و سپس اینتر را بزنید. پس از آن روی گزینه “Request Indexing” کلیک کنید. به طور کلی در عرض چند ثانیه تا چند دقیقه شما می‌توانید محتوای جدید یا URL را در گوگل جستجو کنید و تغییر یا محتوای جدید را مشاهده کنید.

Crawl Budget

نمی‌توانیم از ایندکس بدون Crawl Budget صحبت کنیم. بودجه خزیدن یا Crawl Budget یک اصطلاح است برای توصیف مقدار منابعی که گوگل برای یک وب سایت در رابطه با کراول کردن، صرف می‌کند. بودجه اختصاص داده شده بر اساس ترکیبی از عوامل است که دو مورد اصلی عبارتند از:

سرور شما چقدر سریع است. به عنوان مثال گوگل چه میزان کراول می‌کند بدون خسارت به تجربه کاربری.
سایت شما چقدر مهم است

اگر سایت شما یک سایت خبری مهم باشد که محتوای آن به صورت دائمی به روز رسانی می‌شود که کاربران موتورهای جستجو تمایل زیادی داشته باشند از سایت شما آگاهی داشته باشند، مرتبا Crawl می‌شود.

آموزش لینک بیلدینگ موتور جستجو