« לעמוד בלוג ראשי

כיצד מזהים במהירות ניתוקים בזמן אמת אמבתר?

זיהוי ניתוקים בזמן אמת בעזרת אמבתר

במערכת חיה בה שרידות גבוהה היא חיונית ועל המערכת להיות זמינה 24/7 חשוב שיתבצע ניטור שוטף של כל מה
שמתרחש בה: צריכת CPU, זמינות משאבים, תעבורת רשת, ניצול זיכרון, תהליכי מערכת, נפח דיסק וכו’.
קיימים בשוק כלים רבים לניטור מערכות ממוחשבות אך ברוב החברות מותקנים כלים בודדים שעל פי רוב אינם מנטרים את כל המתרחש במערכת.
בין כלי הניטור המוכרים אפשר למצוא בין היתר את הכלים הבאים: Fiddler, PRTG Network Monitor, WireShark לניטור תעבורת רשת, All CPU Monitor לניטור צריכת CPU, Paessler Disk Space Monitor לניטור ניצול נפחי דיסקים, RAM Monitor לניטור צריכת זיכרון RAM, NVidia System Monitor, Wise System Monitor לניטור תהליכי מערכת ועוד.
לעיתים קורה שמנטרים רק חלק מהישויות ומתעלמים מאחרות או שוכחים לבדוק נתונים מסוימים למרות שהם מנוטרים וכך עקב מידע חלקי ניתן להגיע למסקנות שגויות.
כדוגמה לכך, מוצג המקרה הבא, אשר התרחש במציאות:

תיאור התקלה: אחת החברות דיווחה על ניתוקים (מה שמכונה TIMEOUTS בשפה המקצועית)
קבלת התקלה ע”י החברה ופתיחת קריאה לתמיכה
• לחברה מותקנת מערכת AimBetter שם זוהתה הבעיה בזמן אמת.
• בשלב הבא נשלחה הודעה אודות התקלה למייל החברה.
• החברה פתחה קריאה טלפונית בבקשה לניתוח התקלה.

כמה זמן לקח מפתיחת התקלה על קבלת תוצאות סיבת התקלה?
clearblue 5 דקות.

תוצאה של ניתוח התקלה: בדיקה של שגיאות לאורך ציר הזמן, הצביעה על ניתוקים ב-12 בלילה.

timeout-dashbored-on-error-center-screen

לחיצה על הגרף הציגה, אילו מחשבים נותקו וזמן הניתוק- 30 שניות, במקרה הנ”ל

TIMEOUT-log

מסך שגיאות ה- SQL הצביע בדיוק על השאילתא שלקחה זמן רב – כביכול בעית SQL?

Long-Query-and-Block-history--log

אותרה השאילתא הבעייתית. זוהה ע”י המערכת לחץ על הדיסק שגורם לשאילתא להמשך זמן רב, האם הגורם לאיטיות הינה השאילתא או שיש בעיה אחרת?

בדיקה נוספת מתבצעת בכונן D של השרת, בזמן חצות שעון.
הגרף, מראה שהדיסקים חלשים בביצועים, כתוצאה מפעילות שמבוצעת בשעות הלילה.
המדד המוצג מראה אחוז לחץ בדיסק בדומה לCPU-

Disk-graph-and-compare-screen

אבל מי מחכה למי? האם הבעיה היא שהשאליתא או שאילתות אחרות או שיש פה משהו אחר?
פנייה למערכת הקבצים זיהתה את הבעיה בדיוק! כתיבה של קבצי PDF תוקעת את השרת.

Disk-brek-down

סיכום ניתוח התקלה:
הקבצים הועתקו ע”י מערכת ERP לכונן D – זאת הסיבה לניתוקים!
מניעה של הישנות התקלה:
ההעתקה בוצעה לכונן שונה.
הפי-אנד:
ב-12 בלילה, היה ניתן לישון בשקט….