דילוג לתוכן
  • חוקי הפורום
  • פופולרי
  • לא נפתר
  • משתמשים
  • חיפוש גוגל בפורום
  • צור קשר
עיצובים
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • ברירת מחדל (ללא עיצוב (ברירת מחדל))
  • ללא עיצוב (ברירת מחדל)
כיווץ
מתמחים טופ
  1. דף הבית
  2. מחשבים וטכנולוגיה
  3. רשתות
  4. בעיה | קיבלתי חסימה על השרת שלי מ cloudflare מה עושים?

בעיה | קיבלתי חסימה על השרת שלי מ cloudflare מה עושים?

מתוזמן נעוץ נעול הועבר רשתות
22 פוסטים 8 כותבים 1.3k צפיות 7 עוקבים
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
תגובה
  • תגובה כנושא
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • צדיק תמיםצ צדיק תמים

    @אלישי הסטנדרט של זמן השפעת שינוי NS הוא "עד 48 שעות"
    יש ספקים שזה מהיר ממש ויש כאלה שמנסיון לוקח יום+

    ע"ה דכו"עע מנותק
    ע"ה דכו"עע מנותק
    ע"ה דכו"ע
    כתב נערך לאחרונה על ידי
    #21

    @צדיק-תמים כתב בבעיה | קיבלתי חסימה על השרת שלי מ cloudflare מה עושים?:

    @אלישי הסטנדרט של זמן השפעת שינוי NS הוא "עד 48 שעות"
    יש ספקים שזה מהיר ממש ויש כאלה שמנסיון לוקח יום+

    זה לא תלוי בהגדרה של הTTL?

    תגובה 1 תגובה אחרונה
    0
    • a.y.f.A מנותק
      a.y.f.A מנותק
      a.y.f.
      כתב נערך לאחרונה על ידי
      #22

      הם פרסמו פוסט מסכם והתנצלות:
      https://blog.cloudflare.com/18-november-2025-outage/?mkt_tok=NzEzLVhTQy05MTgAAAGeOJrBRRiFMEWuWAtNoirD2Yg-oAnTW7gDHlZL17DedlYLZFts_Fo9qoHe3D5OiG2ZNzYg3IXAQJrHtNX5V7mGb1QBWdnGM5qjL7pLpY7rj3pSP6VU4TLtuw/

      תרגום לעברית על ידי AI:
      תקלת Cloudflare ב-18 בנובמבר 2025
      2025-11-18

      • מת'יו פרינס

      12 דקות קריאה

      ב-18 בנובמבר 2025 בשעה 11:20 UTC (כל הזמנים בבלוג זה הם ב-UTC), רשת Cloudflare החלה לחוות כשלים משמעותיים בהעברת תעבורת רשת הליבה. זה הופיע למשתמשי אינטרנט שניסו לגשת לאתרי הלקוחות שלנו כדף שגיאה המציין כשל ברשת של Cloudflare.

      הבעיה לא נגרמה, באופן ישיר או עקיף, על ידי מתקפת סייבר או פעילות זדונית מכל סוג שהוא. במקום זאת, היא נבעה משינוי בהרשאות של אחת ממערכות מסדי הנתונים שלנו, שגרם למסד הנתונים להפיק רשומות כפולות לקובץ „תכונה” (feature file) המשמש את מערכת ניהול הבוטים שלנו. כתוצאה מכך, הקובץ הכפיל את גודלו. קובץ גדול מהצפוי זה הופץ אוטומטית לכל השרתים ברשת שלנו.

      התוכנה שמנתבת את התעבורה בשרתים קוראת את קובץ התכונה הזה כדי לשמור על מערכת ניהול הבוטים מעודכנת. בקוד הייתה מגבלת גודל קשיחה נמוכה מגודלו הכפול של הקובץ – וכאשר המגבלה נחצתה, התוכנה קרסה.

      בתחילה חשדנו בטעות שמדובר במתקפת DDoS ענקית. רק לאחר מכן זיהינו את שורש הבעיה, עצרנו את הפצת הקובץ הפגום והחלפנו אותו בגרסה תקינה קודמת. תעבורת הליבה חזרה כמעט לנורמה עד 14:30 UTC. בשעות שלאחר מכן טיפלנו בעומסים נקודתיים עד שב-17:06 UTC כל המערכות חזרו לפעילות מלאה ותקינה.

      אנו מצטערים מעומק הלב על ההשפעה שהייתה לנו על לקוחותינו ועל האינטרנט כולו. Cloudflare היא חלק קריטי מהתשתית הגלובלית – כל תקלה שלנו היא בלתי נסבלת. הכאב על כך שהרשת שלנו לא הצליחה לנתב תעבורה במשך זמן מה הוא עמוק אצל כל אחד ואחת מאיתנו. אנחנו יודעים שהפלנו אתכם היום.

      הפוסט הזה הוא דוח מפורט ומדויק של מה בדיוק קרה, אילו מערכות כשלו ואיך. הוא גם נקודת הפתיחה (אך לא הסיום) של שורת צעדים שננקוט כדי שתקלה כזו לא תחזור לעולם.

      התקלה

      הגרף הבא מציג את נפח שגיאות 5xx ברשת שלנו. בדרך כלל המספרים כמעט אפסיים – עד הרגע שבו התחילה התקלה.

      הסיבה להתנודות המוזרות הייתה שהקובץ הפגום נוצר מחדש כל 5 דקות על ידי שאילתה באשכול ClickHouse שהיה בתהליך שדרוג הרשאות הדרגתי. כלומר, חלק מהזמן הקובץ היה תקין וחלק מהזמן פגום – מה שהוביל להתאוששויות זמניות ולכשלים חוזרים והקשה מאוד על האבחון. בתחילה חשבנו שזו מתקפה מתוחכמת. בסופו של דבר כל הצמתים עודכנו והקובץ הפגום הפך לקבוע – והמערכת נשארה במצב כשל עד לפתרון.

      השירותים שנפגעו כללו:

      • CDN ואבטחה ליבה → שגיאות 5xx המוניות
      • Turnstile → לא נטען כלל
      • Workers KV → שגיאות 5xx מוגברות מאוד
      • Dashboard → רוב המשתמשים לא יכלו להתחבר
      • Email Security → ירידה זמנית בדיוק זיהוי ספאם (ללא נזק קריטי)
      • Access → כשלי אימות נרחבים (סשנים קיימים נשארו תקינים)

      איך זה קרה – הסבר טכני מפורט

      כל בקשה עוברת דרך פרוקסי הליבה שלנו (FL / FL2). אחד המודולים בו הוא מודול ניהול הבוטים, שמבוסס על מודל ML וקובץ תכונות שמתעדכן כל כמה דקות.

      שינוי תמים שנעשה ב-11:05 UTC בהרשאות ClickHouse (כדי להפוך גישה מרומזת למפורשת) גרם לשאילתה פשוטה להחזיר פי 2 שורות (כי עכשיו ראתה גם את הטבלאות הבסיסיות של השארדים). איש לא ציפה לכך כי השאילתה לא כללה סינון לפי שם מסד הנתונים.

      קובץ התכונות תפח מ-~60 ליותר מ-200 תכונות. במודול הבוטים יש מגבלת זיכרון קשיחה של 200 תכונות (להקצאה מראש לביצועים). כשהמגבלה נחצתה – קוד Rust ב-FL2 עשה panic לא מטופל → שגיאת 5xx.

      צעדי תיקון והקשחה עתידית

      כבר התחלנו ליישם:

      • טיפול בקבצי תצורה פנימיים כאילו היו קלט משתמש (validation קפדני)
      • מתגי הרג גלובליים נוספים
      • מניעת הצפה ממערכות דיבאג ו-core dumps
      • בדיקת כל מודולי הפרוקסי למצבי כשל דומים

      זו התקלה הגרועה ביותר שלנו מאז 2019 והראשונה מזה שנים שפגעה ברוב תעבורת הליבה. זה בלתי נסבל מבחינתנו, ואנחנו נשתמש בה כדי לבנות מערכות עמידות עוד יותר.

      בשם כל צוות Cloudflare – אנחנו מתנצלים מעומק הלב על הנזק והתסכול שגרמנו היום לאינטרנט כולו.

      ציר זמן מפורט (UTC)
      11:05 – שינוי הרשאות ClickHouse מופץ
      11:28 – תחילת ההשפעה על לקוחות
      11:35 – אירוע מוכרז פנימית
      13:05 – עקיפה זמנית ל-Workers KV ו-Access
      14:24 – עצירת הפצת הקובץ הפגום
      14:30 – פריסה גלובלית של קובץ תקין, רוב השירותים חוזרים
      17:06 – כל המערכות תקין, סיום האירוע

      תגובה 1 תגובה אחרונה
      3

      • התחברות

      • אין לך חשבון עדיין? הרשמה

      • התחברו או הירשמו כדי לחפש.
      • פוסט ראשון
        פוסט אחרון
      0
      • חוקי הפורום
      • פופולרי
      • לא נפתר
      • משתמשים
      • חיפוש גוגל בפורום
      • צור קשר