ניהול דטא | מערכות חכמות
על מנת לוודא שהמידע שאנחנו פועלים עליו הוא באמת מידע נכון – מה הטעם בחיזוי ערך מניה אם אין אנו יודעים מהו מועד הערך? – יש לבצע ניתוח ראשוני של המידע והכנה שלו לצורך בדיקה כי לא חסרים ערכים כלשהם, אין ערכים שגויים, או תבנית זמן שאיננה מתאימה. בהתאם לסוג המידע והמקור שממנו מגיע, נשתמש באלגוריתמים ושיטות מתאימים – לסינון רעש המגיע מחיישן נפעיל אלגוריתם לעיבוד אות ולהורדת גודל תמונה נשתמש באלגוריתם מעולם עיבוד התמונה. בשלב זה ננסה להקטין את כמות המידע שאנחנו מנסים לעבוד איתו, ע”י מציאת סממנים (או features) ייחודיים.
כעת, כשיש בידינו גישה למידע מסודר, נקי ומופחת סדר ע”י שימוש ב-features, מגיע השלב המרכזי – כיצד לוקחים את כל הנתונים ומוצאים מתוכם מודל או התנהגות שמסבירה אותם, וגם מספקת חיזוי להתנהגות עתידית? משתמשים במתמטיקה, והמתמטיקה עובדת. בשנים האחרונות נושא לימוד המכונה (Machine Learning) והלמידה העמוקה (Deep Learning) הולך יד ביד עם מערכות אגירת מידע ו-Big Data. הרעיון המרכזי הוא להשתמש בשיטות סדורות שמאפשרות לבנות מודלים מתמטיים שמתארים את התנהגות המערכת, ורמת הדיוק של המודל לרוב תהיה טובה יותר ככל שיהיה יותר מידע. קיימות מספר גישות לביצוע לימוד מכונה – החל מסיווג כללי של למידה מונחית או בלתי-מונחית, וכלה בשיטות, כגון רגרסיה (ליניארית ולא ליניארית) עצי סיווג, Support Vector Machine, אלגוריתמים גנטיים, רשתות מסוג Bayesian Networks וכמובן רשתות נוירונים (Neural Networks). המשותף לכל השיטות הוא התהליך: ראשית מגדירים מודל ראשוני – סוג השיטה, מספר מקדמים חופשיים, גודל וכו’, לאחר מכן “מאמנים” את המודל בעזרת המידע, כלומר מנסים למצוא את המקדמים כך שתהיה התאמה מקסימלית בין המודל שאנו מאמנים לבין הנתונים בפועל. לבסוף – בודקים את אמינות המודל ע”י הכנסה של נתונים חדשים ובדיקת אופן החיזוי. סוג השיטה ומידת ההתאמה שלה תלוי מאד באופי הבעיה, ולכן בחלק גדול מהמקרים ייבדקו מספר מודלים עם אותו המידע, עד שיימצא המודל המתאים ביותר.
המטרה המרכזית בעיבוד המידע הייתה לבצע פעולה כלשהי, כלומר לספק תובנה כלשהי או לפעול לפי סט כללים שהוגדר מראש – לתת התרעה על חולה שצפוי לקבל התקף, לצפות כשל טכני במטוס, לבצע פעולת קניה/מכירה של מניה או להוסיף Tag לאדם שזיהינו בתמונה. ההטמעה יכולה להיות במערכת מאגר הנתונים, ביצירה של קבצים חדשים, התממשקות ליישומי web או כל פעולה אחרת.
מי שעושה את צעדיו הראשונים בעולם החדשני והמסקרן של DA, צריך להיות בעל ידע רחב ומגוון. ראשית, כדאי להכיר אופן פעולה וגישה למאגרי נתונים מסוגים שונים. אפשר תמיד להתחיל עם קובץ אקסל לצורך לימוד בסיסי, ולאט לאט לעבור למאגרי נתונים מבוססי SQL ולבסוף ל-Hadoop או spark.