כשמעוניינים בהקמת מערכת ניטור לארגון

בארגונים רבים קיימות מזה זמן רב מערכות ניטור שונות. חלק מהארגונים משתמשים במערכת ענקית אחת לנטר את הכל ובחלק מהמקרים ישנם פתרונות ניטור שונים, כמו פתרון ניטור מבוסס ענן ופתרון ניטור מקומי, ויש עוד ועוד אפשרויות. (שימו לב, בפוסט זה אני מדבר על פתרונות ניטור כאשר הציוד הוא מקומי ולא בענן)

בד"כ ארגונים מעוניינים בהחלפת מערכת ניטור בגלל אחת הנסיבות הבאות:

  • מחיר: יכול להיות שהמערכת הוטמעה בגלל מחיר נמוך (או אפסי) כשהתשתית ב-IT היתה די קטנה אולם עתה שצריך להוסיף כך וכך בדיקות, יש צורך לשלם כמה אלפי דולרים לרשיונות (ובמקרים רבים הרשיונות הם לתקופות ולא תשלום חד פעמי לתמיד). במקרים אחרים החברה אימצה שימוש במערכת ניטור מבוססת SAAS שצריך לשלם עליה כל חודש ועתה החליטו שעדיף להקים משהו פנימי שלא צריך לשלם הרבה.
  • אי גדילה – במקרים רבים החברה מעוניינת במערכת שלא רק יודעת לנטר דיסק/רשת/מעבד לשרתים אלא לתת הרבה יותר מידע פר ציוד ובהתאם לסוג הציוד (לדוגמא: IPMI מפורט לשרתים, גרף תעבורה עם התראות פר פורט ב-Switch וכו') והמערכת הנוכחית לא נותנת זאת.
  • החלטות הנהלה: החברה לא מעוניינת במערכת הנוכחית ורוצה משהו אחר וזו ההחלטה הסופית.

וכשרוצים להחליף מערכת, ישנן מאות ואלפי פתרונות והצעות שונות ואת אותן פתרונות ניתן לחלק לחלוקה הבאה:

  • פתרון SAAS – אתה נרשם לחברה המציעה את השרות, מתקין Agents בשרתים שלך ובד"כ בתוך יום יומיים המערכת שלך מנוטרת מבפנים החוצה (ה-Agents שולחים מידע החוצה), יש לך תמיכה, והתשלום הוא פר חבילות סנסורים ("חיישבנים"), SLA של תמיכה וכו'.
  • פתרון קנייני – אתה מתקין שרת כ-VM, מתקין Agents וגם כאן תוך יום יומיים המערכת פחות או יותר חיה, רצה ומציגה את הגרפים וההתראות שאתה צריך. גם כאן התשלום הוא פר חבילות סנסורים, סוג SLA וכו'. הפתרון הוא פתרון קוד סגור.
  • פתרון קוד פתוח – אתה מקים VM עם SQL כלשהו (MySQL) ואפליקציית הניטור, מתקין Agents ותוך יום יומיים של הגדרות וכו' – תקבל התראות. התשלום הוא אפסי למעט אם מישהו מבחוץ מקים לך את המערכת (ואז התשלום הוא על העבודת הקמה), או שאם אתה מעוניין – רוב החברות שמציעות פתרון קוד פתוח מציעות או פתרון משלים כקוד סגור עם תמיכה או פתרון תמיכה SLA למוצר הקוד פתוח.

לפתרונות שציינתי לעיל – יש יתרונות בכך שהם די קלים, אבל יש גם דברים שכדאי לקחת בחשבון:

  • פתרון SAAS. נשמע מעולה, השאלה האם אתה מעוניין לתת לגורם כלשהו לדעת כל דבר מה שעובר אצלך במערכת? (כמות מכונות, מצב מכונות, לאן נכנס ויוצא טראפיק וכו'). הבעיה השניה עם SAAS זה שאתה לא יודע מה הם נוהלי האבטחה (אם יש, מעבר להודעת ה-PR שמופיעה באתר), מה קורה אם פורצים אל תשתית ה-SAAS של אותה חברה שמציעה את השרות, או מה קורה אם שרות ה-SAAS נופל כי התכנון היה גרוע.
    חסרון נוסף: האנשים הנוכחיים שלך אולי יכירו איך לכתוב לזה סקריפטים כדי להוסיף תמיכה בדברים, אבל ברוב המקרים לא תמצא אנשים שכירים חדשים שמכירים את הפתרונות הללו.
  • פתרון קנייני – קצת פחות חמור מ-SAAS, אולם רוב החברות דווקא מעדיפות שלא לרכוש פתרון קנייני בקוד סגור. גם כאן, עקומת הלמידה תחזור בכל פעם שיש לך מישהו חדש מכיוון שרוב האנשים לא מכירים כתיבות סקריפטים וכו' לתוכנות קנייניות.
  • פתרון קוד פתוח הוא דבר מעולה בכך שיש לך את הקוד ואתה יכול לעשות עם הדברים כרצונך. בנוסף, בתוכנות כמו Zabbix, Cacti, Icinga וכו' תוכל למצוא פורומים וגם פרילאנסרים בארץ שנותנים שרות על כלים אלו.
    יחד עם זאת – חשוב לשים לב לאותיות הקטנות. תוכנות ניטור כמו OpenNMS זמינות כקוד פתוח, אולם הגירסה הפתוחה אינה יציבה ואין לה תמיכה מסחרית והגירסה המסחרים שבקוד פתוח כן זמינה עם תמיכה, אך המחיר הוא שנתי כפי שניתן לראות בלינק לעיל.

מתוך האפשרויות לעיל, אני ממליץ ללכת על פתרון מבוסס קוד פתוח. כאן, וכאן תוכלו למצוא מספר תוכנות בקוד פתוח. תוכנה כמו Cacti טובה לגרפים, אבל פחות טובה להתראות. תוכנה כמו Zabbix טובה לגרפים והתראות ויש לה תמיכה מעולה ב-Windows. תוכנה כמו Icinga (שהיא בעצם Fork של Nagios) היא תוכנה מעולה אך מורכבת מאוד ומתאימה לאלו שנטשו את Nagios אבל רוצים עדיין משהו מוכר. לאלו שמחפשים לעומת זאת מערכת ניטור אבל שנותנת הרבה הרבה יותר מידע מאחרים ולהשקיע המון במערכת (ובתמורה תקבל אפשרויות שאילתות מאוד עמוקות עם התממשקות לכל ממשק קיים כמעט) – אז Prometheus של חברת Sound Cloud יכולה להיות הכלי בשבילכם (אם כי אני לא רואה לזה חבילה מסחרית).

יהיה הפתרון אשר יהיה, אני ממליץ לחלק את העבודה ל-3 חלקים (זאת כמובן לאחר שבחרתם תוכנת ניטור):

  • החלק הראשון הוא לאסוף מידע – מה אנחנו רוצים לנטר? איזה שרתים? מה הם מריצים שחשוב לנו לנטר? ציודים שונים שרוצים לנטר? צריך לאסוף הכל לרשימה אחת כדי לוודא שתוכנת הניטור יודעת לתמוך בדברים ואם לא – האם ניתן למצוא לכך פתרון במסגרת אותה תוכנת ניטור. כמו כן התראות במייל, SMS וכו' דרך אותה תוכנת ניטור. שימו לב: בשלב זה אני לא ממליץ להכניס את הדברים הסופר-ספציפיים של אפליקציות שונות לרשימת העבודה.
  • החלק השני הוא הקמה והטמעה של הניטור בתשתית החברה. כאן החברה מחליטה אם ההקמה והטמעה יבוצעו על ידי העובדים שלה או ע"י גוף חיצוני. במידה ומדובר בגוף חיצוני, סביר להניח שהקמה כזו תתומחר דרך בנק שעות. כדאי למסור את הרשימה (כמותית, לא צריך כתובות IP וכו') ע"מ שהגוף החיצוני יעריך בשעות כמה זמן יקח, במה יש צורך, האם העבודה תבוצע מרחוק או מקומית, מחירים, מקדמות וכו' וכו'.
  • החלק השלישי קשור לרצון וידע שבחברה. כאן נכנסים הדברים שהחברה רוצה לנטר והם אינם חלקים רשמיים בניטור אלא יש צורך לכתוב סקריפטים שיתתמשקו עם ה-Agents של תוכנת הניטור על מנת לתת תוצאות. אפשר לדוגמא לקחת מישהו חיצוני שילמד את האנשים בחברה שיודעים לכתוב סקריפטים – איך לכתוב סקריפטים לתוכנת ניטור או שאפשר למסור את העבודה למישהו חיצוני. שימו לב – יש דברים שיכולים לקחת שעה שעתיים ויש דברים שיכולים "לשרוף" אפילו ימים! (תלוי כמה מפורט ו"עמוק" צריך להיכנס כדי להוציא נתונים שונים) ולכן אם מוציאים זאת החוצה, כדאי מראש לסכם הערכות זמנים לפי בנק שעות כולל בדיקת זמן אמן שאכן מתקבלות תוצאות כפי שמצופה.

נקודה אחרונה חשובה: יש לא מעט תוכנות ושרותים, ותמיד אפשר או להקים פנימית באופן עצמאי שלל תוכנות ניטור או לבקש ממישהו חיצוני. כמו כן, אם יש לכם דרישות מיוחדות, הייתי מציע לכם לקחת יעוץ חיצוני כדי לתאר את הסיטואציה על מנת שהיועץ יסייע לכם להחליט לאיזה כיוון ללכת.

בהצלחה

Comments

comments

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

This site uses Akismet to reduce spam. Learn how your comment data is processed.