חסימת עמודים באתר האינטרנט על ידי קובץ robots.txt
אם ברשותך אתר אינטרנט גדול המכיל עשרות, מאות או אלפי עמודים, ישנם מקרים בהם תהיה מעוניין לחסום את מנועי החיפוש מלקטלג, לרשום ולאנדקס חלק מן העמודים.
הסיבה יכולה להיות בעקבות עמודי תוכן משוכפלים או עמודים ספציפיים אשר אינך רוצה שגולשי האתר יגיעו אליהם. שימוש נכון בקובץ robots.txt הינו הפתרון האידיאלי לחסימת ספריות שלמות או קבצים בודדים להשגת המטרה.
רקע על קובץ robots.txt
Robots.txt הוא אחד מבין הקבצים הפופולאריים באתר אשר על מת להפעילו יש למקמו תחת שרת האינטרנט המאחסן את האתר. להלן השימושים הנפוצים בקובץ robots.txt:
- הקובץ מגדיר לעכבישים של מנועי החיפוש אילו עמודים לא לקטלג.
- כאשר העכבישים מגלים קובץ זה ומתייחסים הם פשוט פוסחים על אותם חלקים אשר מוגדרים ומקטלגים רק את החלקים אשר אינם מוזכרים בקובץ.
השימוש בקובץ הוא דיי פשוט אך שימוש לא נכון באופן לא מקצועי יכול לגרום לענישה ונזק לקטלוג אתר האינטרנט על ידי מנועי החיפוש. מאמר זה מתייחס לשיטות וטכניקות לחסימת עמודים מורכבים באתר.
על מנת להשתמש ולהפעיל את קובץ robots.txt יש צורך בשרת אחסון ובגישת ftp. אנו יוצאים מנקודת הנחה שסיפקת את דרישות אלו:
- ברשותך אתר אינטרנט ויכולת שליטה מלאה הכוללת גישת ftp לתיקייה הראשית של קבצי האתר.
- אתר האינטרנט נרשם באפליקציית ניהול האתרים של גוגל – Google web mastering tool.
בוני אתרים, מנהלים וובמאסטרים מסוגלים לשלוט על החלקים אשר יקוטלגו וירשמו במנועי החיפוש אך הבעיה היא בכתיבה נכונה של קובץ robots.txt. כתיבת הקוד בקובץ robots.txt דורשת מיומנות והבנה תוך שימוש בכלים מתאימים. אנו מקווים שמאמר זה יבהיר את הנושא ויאפשר לאלו המעוניינים בעבודה עצמית לבצע את הפעולה.
הקוד הבסיסי של קובץ robots.txt הוא:
User-agent: * - סוג העכביש או מנוע החיפוש.
Disallow: /file or folder to be blocked - חסימה
Allow: /file or folder to be allowed – הרשאה.
על מנת שהקובץ יפעל כראוי יש להעלות קובץ זה לתיקייה הראשית של האתר ולוודא שאין כפילויות. השורה הראשונה בה מופיע User-agent: *, מתכוון ומגדיר את הפעולה לכל העכבישים של מנועי החיפוש ללא יוצא דופן. רצוי להשתמש בהרשאה לכל מנועי החיפוש והעכבישים ולחסום לאחר מכן את אלו אשר איננו מעוניינים בהם יותר מאשר לתת הרשאה לכל אחד בנפרד. כתיבה לא נכונה של חלק זה תגרום נזק עצום לתכני האתר.
במאמר זה הדוגמאות מתייחסות למנוע החיפוש Google אך כמובן שניתן לייחסו למנועי החיפוש האחרים כגון yahoo ומנועי חיפוש מובילים נוספים.
יתרונות השימוש בקובץ robots.txt
כפי שהוזכר במאמר הקודם, robots.txt הינו אחד הקבצים המשמעותיים ביותר בשרת האחסון בגלל הסיבות הבאות:
- משום שהוא מכיל הוראות מפורשות למנועי החיפוש ולעכבישים אילו תיקיות וקבצים אסור לקטלג ולאנדקס, רוחב הפס של אתרך חשוב וכדאי לנצלו לאיזורים ולעמודים ספציפיים ולא על כל חלקי האתר מבלי יוצא מן הכלל כגון: הגדלת חווית המשתמש על ידי עמודים בעלי זמן טעינה גבוה או עבור שימושי מולטימדיה כגון גלריית תמונות, סרטים ועוד.
- הוראות מפורשות למנועי החיפוש ולעכבישים יתרמו לקטלוג ורישום מהיר בצורה יעילה במיוחד עבור אתרים בעלי עמודים רבים וקצב עדכון גבוה. עבור אתרי מסחר אלקטרוני אשר מעדכנים באופן שוטף מוצרים ומפרטים עניין זה חשוב ביותר, קטלוג מהיר ורישום יעיל על ידי מנועי החיפוש יביא לתוצאות טובות יותר בדירוג האתר מה שיגרום לעליית כמות המבקרים באתר.
- באמצעות קובץ robots.txt ניתן להגן על חורים בעלי זכויות יוצרים כגון כתבות ותמונות. לדוגמא אם אתה צלם אשר מעדכן את אתרך באופן שוטף, שימוש נכון בקובץ robots.txt יכול למנוע ממנועי החיפוש לקטלג ולרשום את עמודי התמונות מה שיעזור לעניין זכויות היוצרים שכן אם לא תשתמש בקובץ זה, מנועי החיפוש והעכבישים יקטלגו וירשמו עמודים אלו כך שאם מישהו מחפש תמונות במנוע החיפוש google או yahoo לצורך העניין, הוא ימצא את התמונות המוגנות שלך, יוכל להתמש בהם לאתר האינטרנט שלו ואף למכור את התמונות ללא רשותך.
כלי בדיקת קובץ robots.txt של google
כלי ניהול האתרים של גוגל – Google web master tool מאפשר לחברות בניית אתרים, מנהלי אתרים וובמאסטרים כלי לבדיקת קובץ robots.txt עוד לפני העלתו לשרת האינטרנט. המטרה של כלי זה היא לבדוק האם באמת נחסמו התיקיות והקבצים הרצויים באתר והקוד נכתב כהלכה.
על מנת להשתמש בכלי בדיקת קובץ robots.txt יש תחילה לרשום את כתובת האתר בחלק הנקרא dashboard ולאחר מכן ללחוץ על כפתור הוספת אתר – add site. לאחר שהאתר יתווסף לרשימה יש ללחוץ על האתר מתוך dashboard ולאחר מכן כלים – tools, ולבסוף על בדוק קובץ - analyze robots.txt.
להלן מצורפת תמונה מבדיקת קובץ robots.txt מתוך כלי לבדיקת אתרים של גוגל – Google webmaster tool:

חשוב לציין כי Google משתמש באלגוריתם אשר מזהה דיוק בכתיבת הקוד כך שאתם חסמת לדוגמא את התיקייה /Folder, יכול להיות מצב כי התיקייה /folder עדיין תקוטלג ותרשם וזאת מפני שמנוע החיפוש Google הינו case sensitive ומזהה את השימוש ב- F גדולה לעומת f קטנה.
אם ברצונך לשכור חברת קידום אתרים מקצועית אשר תבצעה את העבודה כהלכה על ידי מוסמך קידום אתרים בכיר, אנדור מציעה לך שירות אישי, מקצועי ואמין אשר יבטיח כתיבת קוד כהלכה וימנע טעויות אשר ישפיעו על דירוג אתרך במנועי החיפוש.
- נכתב על ידי אנדור מרקום, קידום אתרים ושיווק באינטרנט.
- מאמרים מקצועיים נוספים בתחום האינטרנט, שיווק, מרקום ופרסום במנועי חיפוש.
|