סמלט: כיצד לחסום את רובוטים של דרודר

קובץ Robots.txt הוא קובץ טקסט טיפוסי המכיל הוראות כיצד על סורקי אתרים או בוטים לסרוק אתר. היישום שלהם ניכר בבוטים של מנועי חיפוש הנפוצים במספר אתרי אינטרנט מותאמים. כחלק מפרוטוקול הרחקת הרובוטים (REP), קובץ robots.txt מהווה היבט חיוני באינדקס של תוכן אתר, ומאפשר לשרת לאמת בקשות משתמשים בהתאם.

ג'וליה ושנבה, מנהלת ההצלחה של לקוחות בכירה של Semalt , מסבירה שקישור הוא היבט של אופטימיזציה למנועי חיפוש (SEO), הכרוך ברכישת תנועה מדומיינים אחרים בגומחה שלך. לקישורי "עקוב" להעברת מיץ קישורים, חיוני לכלול קובץ robots.txt באתר האירוח שלך כדי לשמש כמדריך כיצד האינטראקציה בין השרת לאתר שלך. מארכיון זה ההוראות קיימות על ידי מתן אפשרות או אי-אפשרות להתנהג כיצד סוכני משתמש ספציפיים מתנהגים.

הפורמט הבסיסי של קובץ robots.txt

קובץ robots.txt מכיל שני קווים חיוניים:

סוכן משתמש: [שם משתמש-סוכן]

אל תאפשר: [מחרוזת URL אינה נסרקת]

קובץ robots.txt מלא צריך להכיל את שתי השורות הללו. עם זאת, חלקם יכולים להכיל מספר שורות של סוכני משתמש והוראות. פקודות אלה עשויות להכיל היבטים כמו מאפשרים, אי-אישורים או עיכובים של סריקה. בדרך כלל יש מעבר שורה המפריד בין כל מערך ההוראות. כל אחת מההוראות מאפשרות או אי-אישור מופרדות על ידי מעבר קו זה, במיוחד עבור robots.txt עם מספר שורות.

דוגמאות

לדוגמה, קובץ robots.txt עשוי להכיל קודים כמו:

משתמש-סוכן: darodar

בטל: / plugin

בטל: / API

בטל: / _ סעיפים

במקרה זה, זהו קובץ robots.txt חסום המגביל את סורק האינטרנט של Darodar לגשת לאתר שלך. בתחביר שלעיל הקוד חוסם היבטים באתר כגון תוספים, API וסעיף ההערות. מהידע הזה, ניתן להשיג יתרונות רבים מהפעלת קובץ הטקסט של רובוט בצורה יעילה. קובצי Robots.txt יוכלו לבצע פונקציות רבות. לדוגמה, הם יכולים להיות מוכנים:

1. אפשר לכל תוכן הסורקים באינטרנט לעמוד באתר. לדוגמה;

סוכן משתמש: *

בטל:

במקרה זה, לכל סורק אינטרנט שמבקש להגיע לאתר כלשהו ניתן לגשת לכל תוכן המשתמש.

2. חסום תוכן אינטרנט ספציפי מתיקיה ספציפית. לדוגמה;

סוכן משתמש: Googlebot

בטל: / דוגמה-תיקיית משנה /

תחביר זה המכיל את שם סוכן המשתמש Googlebot שייך לגוגל. זה מגביל את הבוט לגשת לדף אינטרנט כלשהו במחרוזת www.ourexample.com/example-subfolder/.

3. חסום סורק אינטרנט מסוים מדף אינטרנט ספציפי. לדוגמה;

משתמש-סוכן: Bingbot

בטל: /example-subfolder/blocked-page.html

סוכן המשתמש Bing bot שייך לסורקי האינטרנט של Bing. קובץ robots.txt מסוג זה מגביל את סורק האינטרנט של Bing לגשת לדף ספציפי באמצעות המחרוזת www.ourexample.com/example-subfolder/blocked-page.

מידע חשוב

  • לא כל משתמש משתמש בקובץ robts.txt שלך. משתמשים מסוימים עשויים להחליט להתעלם מכך. רוב הסורקים באינטרנט כוללים סוסים טרויאנים ותוכנות זדוניות.
  • כדי שקובץ Robots.txt יהיה גלוי, הוא אמור להיות זמין בספריית האתר ברמה העליונה.
  • התווים "robots.txt" הם תלויי רישיות. כתוצאה מכך, אסור לשנות אותם בשום דרך, כולל שימוש באותיות רישיות מהיבטים מסוימים.
  • "/Robots.txt" הנו נחלת הכלל. כל אחד יכול להיות מסוגל למצוא מידע זה על ידי הוספתו לתוכן של כל כתובת אתר. אסור להוסיף לאינדקס פרטים או דפים חיוניים שברצונך שיישארו פרטיים.