גזירה מתמטית מפורטת של שיפועים לתאי LSTM.

בלוג

LSTM או זיכרון לטווח קצר הוא אבן בניין חשובה מאוד של ארכיטקטורות רשת עצביות מורכבות וחדישות. הרעיון המרכזי מאחורי מאמר זה הוא הסבר המתמטיקה שמאחוריו. כדי לקבל הבנה ראשונית של מהו LSTM, הייתי מציע את הבלוג הבא.

תמונה לפוסט

הבנת רשתות LSTM

פורסם ב -27 באוגוסט 2015 בני אדם אינם מתחילים את חשיבתם מאפס כל שנייה. כשאתה קורא את החיבור הזה, אתה…

colah.github.io

מבוא

תמונה לפוסט

איור 1: תא LSTM

האמור לעיל הוא תרשים לתא LSTM יחיד. אני יודע שזה נראה מפחיד, אבל נעבור על זה אחד אחד ועד סוף המאמר, אני מקווה שזה יהיה די ברור. הסבר בעצם תא LSTM יחיד כולל 4 רכיבים שונים. שכח את השער, שער הקלט, שער הפלט ומצב התא. תחילה נדון בשימוש בחלקים אלה בקצרה (להסבר מפורט עיין בבלוג שלמעלה) ולאחר מכן נצלול לחלק המתמטי בו. ** שכח את השער ** כפי שהשם מרמז, חלק זה אחראי להחליט איזה מידע יש לזרוק או לשמור מהצעד האחרון. זה נעשה על ידי שכבת הסיגמואיד הראשונה.

תמונה לפוסט

איור 2: שכח את השער המסומן בכחול

בהתבסס על h_t-1 (מצב מוסתר קודם) ו- x_t (קלט נוכחי בשלב t), זה קובע ערך בין 0 ל -1 עבור כל ערך במצב התא C_t-1.

תמונה לפוסט

איור 3: שכח את השער וממצב התא הקודם

עבור כל 1, כל המידע נשמר כפי שהוא, עבור כל ה- 0 כל המידע מושלך ועם ערכים אחרים הוא מחליט כמה מידע מהמצב הקודם יש להעביר למצב הבא. שער כניסה

איור 4: שער קלט מסומן בכחול

לכריסטופר אולה יש הסבר יפה למה שקורה בשער הכניסה. אם לצטט את הבלוג שלו:

השלב הבא הוא להחליט איזה מידע חדש אנו הולכים לאחסן במצב התא. יש לזה שני חלקים. ראשית, שכבת סיגמואיד הנקראת שכבת שער הכניסה מחליטה אילו ערכים נעדכן. לאחר מכן, שכבת טאנה יוצרת וקטור של ערכי מועמדים חדשים, C ~ t, שניתן להוסיף למדינה. בשלב הבא נשלב את שני אלה ליצירת עדכון למצב.

פאניקה של קרנל - לא מסתנכרן

כעת שני ערכים אלה כלומר i_t ו- c ~ t משתלבים כדי להחליט איזו קלט חדש יש להזין למצב התא. מצב התא

איור 5: מצב התא מסומן בכחול

מצב התא משמש כזיכרון של LSTM. כאן הם מבצעים הרבה יותר טוב מאשר RNN וניל כאשר הם מתמודדים עם רצפי קלט ארוכים יותר. בכל שלב זמן מצב התא הקודם (C_t-1) משתלב עם שער השכחה כדי להחליט איזה מידע יש להעביר קדימה אשר בתורו משתלב עם שער הקלט (i_t ו- c ~ t) ליצירת מצב התא החדש או הזיכרון החדש של התא.

תמונה לפוסט

איור 6: משוואת מצב תא חדש

שער פלט

איור 7: שער פלט מסומן בכחול

סוף סוף תא LSTM צריך לתת קצת פלט. מצב התא המתקבל מלמעלה מועבר דרך פונקציה היפרבולית הנקראת tanh, כך שערכי מצב התא מסוננים בין -1 ל -1. לפרטים לפונקציית הפעלה שונה, זֶה הוא בלוג נחמד. עכשיו אני מקווה שמבנה התא הבסיסי של תא LSTM ברור וניתן להמשיך לגזירת משוואות בהן נשתמש ביישום שלנו.

#lstm #הפצת גב #הסקה #למידה עמוקה #לימוד הדרגתי #למידה עמוקה

לכיוון dataascience.com

גזירה מתמטית מפורטת של שיפועים לתאי LSTM.

גזירה מתמטית מפורטת של שיפועים לתאי Lstm. LSTM או זיכרון לטווח קצר הוא אבן בניין חשובה מאוד של ארכיטקטורות רשת עצביות מורכבות וחדישות.