מהם קבצי robots.txt?
קבצי robots.txt הינם קבצים המודבקים לכתובות האתר, ומונעות מהרובוטים של מנועי החיפוש לסרוק את התוכן בדף המסוים בו הוזנה כותרת זו, ולדרג את האתר או הדף בהתאם לכללים ברשימת החיפוש של מנועי החיפוש.
הבעיה בסריקה של גוגל היא שיש תכנים שאינם יכללו בתנאים של מנועי החיפוש, אך רלוונטיים לאתר זה או אחר, כמו תכנים שלכאורה הינם מועתקים, אך נכתבו בידי אותו מחבר שרצה לפרסמם בשני מקורות שונים, וכדומה. הרובוטים של מנועי החיפוש הינם מכשירים טכנולוגיים ואינם אנושיים, ולכן אינם מתחשבים בנסיבות אנושיות היכולות להיראות לעין רגילה של אדם.
חסרונות הזנת קבצי robots.txt
חסרונות הזנת קבצי robots.txt באתרים עשויים להביא בנוסף למניעת הסריקה של הרובוטים בדפים שבהם הוזנה הכותרת, להעלאת הרשימה ברשימות של מנועי החיפוש, ככותרת חסרת תוכן, וחסרה בפרטים בסיסיים. עלינו לשים לב מה אנו רושמים בקובץ ה- robots, שכן אנו עלולים למנוע סריקה של דפים חשובים מהאתר. אחת הטעויות הבולטות הן אתרים שבמהלך בנייתם הוזן להם קובץ robots שמונע סריקה של דפי האתר ולבסוף שכחו להוריד את ההוראה ובכך נמנעת אפשרות לסריקה תקינה של דפי האתר על ידי גוגל.
קודים להזנת קבצי robots.txt
ישנם קודים שונים להזנת robots.txt, שמציבים מספר הגדרות שונות למניעת הסריקה. ישנו קוד שמונע מהרובוטים לסרוק את הדף, אך מפנה אותם לשאר דפי האתר, ישנו קוד שמונע סריקה של כל הרובוטים מלבד הרובוט של גוגל (googlebot). ניתן אף לשלב בקוד המקור של הדף שורת פקודה שמונעת מכלל מנועי החיפוש לסרוק את הדף המדובר.
הקודים מורכבים משני חלקים, כשהראשון, User-Agent, מגדיר למי מופנות ההוראות שמגיעות מיד לאחריו. השני, Disallow, שמכוון לחלקים באתר שהקוד אמור למנוע גישה ממי שהוגדר בשדה הקודם, הלוא הוא User-Agent.
השימוש בקודים שמונעים כניסת רובוטים לדפי האתר
בדרך זו ניתן לקבוע את הקודים כך שמוגדרים בדיוק הרובוטים שיכולים לסרוק ולקרוא את דפים המסוימים ואלו שלא, וכן את השליטה בספריה אליה מופנה הקוד. הסימון כוכבית * מתייחס לאמירה הגורפת לכל מנועי החיפוש, שמנועים מלהיכנס ולסרוק את הדפים.
את הקודים ניתן לקבל בדרכים שונות, ולשלוט על הכניסה של הרובוטים של מנועי החיפוש לאתר, ולהמשך דירוג הרשימות ברשימות הכלליות. יש בכך יתרון עצום לשם קידום תוכן האתר, מה שנמצא בראש סדר העדיפויות כיום של אתרים רבים, שמספקים שירות או מציעים תמורה זו או אחרת.
