אדר א' (8)

איך למנוע מגוגל לאנדקס אותך. סיפור לפני השינה

 

המאמר הבא הוא מאתר ה-codeProject, אתר המכיל אוסף קודי דוט נט בנושאים שונים.
אמנם המאמר הזה הוא סיפור לפני השינה, אבל גם בו יש קוד (אולי ישנם אנשים שקריאת קוד מסייעת להם להרדם 🙂 ).
לפני שאתחיל, אומר: אינני יודעת אם יש לסיפור הזה מוסר השכל בשבילנו (יש לו כמובן מוסר השכל, אחרת לא הייתי מביאה אותו…), אבל גם אם לא – זה בכל זאת יכול לתת רעיונות אם נתקלים בבעיית חוסר אינדוקס בגוגל.

אז מעשה שהיה, כך היה…
לגוגל ישנה מערכת נחמדה המאפשרת לבדוק מה הם מאנדקסים ואילו שגיאות הם מקבלים. מה שראו ב-CodeProject זה שישנם להם מעל מליון דפים המקבלים שגיאת “page not found”. ברור שאין להם מליון דפים, אבל יש להם דפים שניתן לגשת אליהם עם ערכי querystring שונים, כך שמליון הדפים כללו גישות לא מוצלחות לדפים הללו.
לאחר שדרוג שעבר האתר, הם ראו ירידה ניכרת בכמות הדפים המניבים את השגיאה הזו, אבל הם ראו שאחד הדפים שעדיין מדווח כבלתי נמצא הוא www.codeproject.com !
זה ממש המם אותם, והם חיפשו בכל מקום – בשרתים, בשרתי הפיתוח, מתחת לספה. בכל מקום שהם חיפשו, הם כן יכלו לראות את דף הבית. הדפים הישנים שלהם הפנו לדף הבית, גם דף הדיפולט באתר היה Index.aspx שהוא דף הבית שלהם. הם ניסו להגיע לדף הבית דרך פרוקסי, דרך HTTP clients גולמיים – הכל. ובכל מקום הם הצליחו לגשת לדף הבית.
עלתה במוחם המחשבה שהם נודו ע”י גוגל בגלל שיש להם כמה אתרים המראים את אותו תוכן (היום זה אסור), ועל כן הסירו את ההפניות האוטומטיות באתרים אלה (למרבה חוסר שביעות הרצון של רבים), אך ידעו שיתכן שיעברו שבועות עד שתהיה לזה השפעה על גוגל.
הם גם תהו אם ישנן בעיות רשת המונעות מגוגל להגיע אליהם, אבל מדי פעם הם ראו דפים חדשים מהאתר שלהם מופיעים בגוגל, דבר שהוכיח בברור כי גוגל מגיע אליהם.
הם כן ראו שדף אחד אונדקס באופן עקבי ומביך. זה היה דף השגיאה שלהם (נשמע מוכר?). הם חשבו שאולי מדובר בבעיית עומס, שבגללה גוגל לא מצליח להגיע לאתר שהם. אבל אז, למזלם, הם ראו דף נוסף שהצליח להתאנדקס. זה היה מאמר על templates, שהכיל <> בכותרת. זה היה הדף היחיד שהצילח להתאנדקס. כל השאר היה 404.
[במאמר מוסגר קצרצר הם מעלים את נושא הטפול בשגיאות של ASP.NET, ומסקנתם החותכת היא: אל תסמכו על הטיפול הזה, דרסו אותו בעזרת קוד משלכם.]
אז מה היתה הבעיה?
בסביבות אוקטובר 2007, אחד המפתחים באתר רצה לעבור ל-XHTML, והתחיל עם שינוי בתגיות ה-META. הוא שינה את :
<meta name=”Keywords” content=”Free source code, tutorials” >
ל-
</meta name=”Keywords” content=”Free source code, tutorials”>.
XHTML דורש בין השאר שלתגיות תהיה סגירה או ע”י תגית סגירה (<tag>…</tag>), או ע”י סגירה עצמית (</tag>). לעומת זאת, HTML4 מאפשר תגיות ללא סגירה. עם זאת, כמעט כל דפדפן מודרני יכול להתמודד עם מסמך HTML הסוגר תגית שאינה חייבת סגירה.
הם ב-CodeProject הגישו את הדפים שלהם ב-DOCTYPE של HTML4 Transitional, אבל סגרו את תגית המטה כמו XHTML.ל-IE לא היתה בעיה עם זה, גם לא לפיירפוקס, אופרה ואפילו BlackBerry. גם ליאהו לא היתה בעיה.
אבל לגוגל כן.
גוגל ראה שה-DOCTYPE הוא HTML 4.01. אח”כ הוא ראה תגיות מטה עם “/>”. הוא נבהל והתבלבל, והחליט שהדבר היחיד שאפשר לעשות במקרה כזה הוא להודיע שהדף לא נמצא.
דף השגיאה שלהם לא הכיל תגיות מטה ולכן הוא היה בסדר. המאמר על Templates הכיל <> בכתורת, וזה כנראה כל כך בלבל את ה-Googlebot שהוא שכח מתגיות המטה, ואינדקס את המאמר.
הם הורידו את ה-“/>” מתגיות המטה, ותוך 24 שעות אונדקסו מחדש.
סוף טוב, הכל טוב.
[אחרי זה הם מצאו עוד באג קטן עם תוים מסויימים ב-JavaScript, אבל כבר אין לי כח לכתוב על זה…]
הם מסיימים את המאמר ברשימת מסקנות מתבקשות, גם בתלונה – מוצקדת, לדעתי – על מנגנון דיווח השגיאות של גוגל. הדיווח על 404 ממש לא התאים למקרה הזה, וממש לא כיוון למקור הטעות. למה לא לכתוב – דף לא ולידי? תמיכת גוגל לא ענתה על השאלה עד עצם היום הזה…

4 תגובות על “איך למנוע מגוגל לאנדקס אותך. סיפור לפני השינה

  1. פוסט מעולה ורלוונטי!

    ממש חצוף הגוגל הזה! הוא בעצמו לא ולידי והוא מעניש בצורה כל כך עיוורת דפים לא ולידיים
    חייבים להסיק מסקנות לגבי המערכת שלנו. אולי ניישם את זה בדף החדש

    חוץ מזה פוסט כתוב נהדר ומאוד מעניין ודרך אגב מאז העיצוב החדש אני קורא את כל הפוסטים באתר עצמו

    1. כן, מסתבר שיש מוסר השכל

      אני מיד חשבתי על הכליקיט- מזל שאנחנו מגישים אותו כ-XHTML….
      ובדיוק עכשיו, כשאנחנו בצוות נהיינו יותר מודעים לחשיבות הולידציה, אנחנו מקבלים מוטיבציה נוספת להכניס את הנושא לרצף העבודה שלנו.
      לגבי חוצפה: נכון שהאתר שלהם לא ולידי, אבל כנראה במקומות אחרים. יש לי תחושה שמנוע האינדוקס רגיש במיוחד לתגיות meta. אני בטוחה שלא רק אתרים ולידיים מופיעים בתוצאות החיפוש בגוגל (אחרת הם עצמם לא היו מופיעים 🙂 )

      ואני שמחה שהעיצוב החדש משפיע לטובה 🙂

כתבו תגובה

כתובת הדוא"ל שלכם לא תוצג.