שיתוף אימון מודל לזיהוי הנושא ההלכתי
-
משתף איתכם מודל שאימנתי לזהות את הנושא ההלכתי של כל משפט שהוא מקבל.
כמודל בסיס השתמשתי בBERELהאימון היה פשוט מאוד: הוא עבר על כל סעיפי השולחן ערוך ולמד מהו הנושא. [כל הסעיפים תחת הכותרת "הלכות נטילת ידים" הם כמובן עוסקים בנטילת ידים]. האימון לקח כמה דקות והדיוק כרגע הוא כ70 אחוז.
ניתן לנסות אותו כאן.
מי שמעוניין לראות את הקוד (פייתון כמובן): כאן.
-
@sivan22 כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
מי שמעוניין לראות את הקוד (פייתון כמובן): כאן.
קישור לא תקין.
-
@נעזר1000 כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
@sivan22 כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
מי שמעוניין לראות את הקוד (פייתון כמובן): כאן.
קישור לא תקין.
תיקנתי.
-
@sivan22 עדכון: אימנתי מודל חדש שמזהה את הסימן המדויק (בשולחן ערוך אורח חיים) שבו נמצא הנושא המדובר.
קישור למודל
-
sivan22השיב לsivan22 ב 5 בדצמ׳ 2023, 4:22 נערך לאחרונה על ידי sivan22 12 במאי 2023, 4:26
@sivan22 עדכון נוסף: התקדמתי לשלב הבא של מודל שמזהה את הסימן וגם את הסעיף בו נמצא הנושא המדובר. (התוצאות כרגע פחות מדויקות אבל אני עובד לאמן אותו עוד.)
כעת זה כבר יכול להיות שימושי עבור חיפוש הלכתי לפי נושא ולא לפי מילה.
הנתונים בהם השתמשתי לאמן אותו הם הספרים הבאים: שולחן ערוך אורח חיים, מגן אברהם, ט''ז, משנה ברורה, ביאור הלכה, שערי תשובה, באר היטב, עטרת זקנים, אשל אברהם. סך הכל כ42k קטעים.
הדגמה:
שולחן ערוך אורח חיים רמט, ב:אסור לקבוע בערב שבת סעודה ומשתה שאינו רגיל בימי החול ואפילו היא סעודת אירוסין מפני כבוד השבת שיכנס לשבת כשהוא תאב לאכול וכל היום בכלל האיסור:הגה: וסעודה שזמנה ערב שבת כגון ברית מילה או פדיון הבן מותר כן נראה לי, וכן המנהג פשוט: ולאכול ולשתות בלי קביעת סעודה אפילו סעודה שרגיל בה בחול כל היום מותר להתחיל מן הדין אבל מצוה להמנע מלקבוע סעודה שנהג בה בחול מט' שעות ולמעלה:
וכמובן קישור למודל
-
@sivan22 כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
@sivan22 עדכון נוסף: התקדמתי לשלב הבא של מודל שמזהה את הסימן וגם את הסעיף בו נמצא הנושא המדובר. (התוצאות כרגע פחות מדויקות אבל אני עובד לאמן אותו עוד.)
כעת זה כבר יכול להיות שימושי עבור חיפוש הלכתי לפי נושא ולא לפי מילה.
הנתונים בהם השתמשתי לאמן אותו הם הספרים הבאים: שולחן ערוך אורח חיים, מגן אברהם, ט''ז, משנה ברורה, ביאור הלכה, שערי תשובה, באר היטב, עטרת זקנים, אשל אברהם. סך הכל כ42k קטעים.לא הבנתי, הוא מראה תוצאות מהמ''א מ''ב באה''ל וכו' או שזה רק עוזר לו להבין במה מדובר?
ניתן להפעיל את זה במחשב ללא אינטרנט? -
@אהרן כרגע הוא מוצא רק סימן וסעיף בשולחן ערוך (לא סעיף קטן במפרשים). השתמשתי במין טריק עם טכניקה של סיווג (קלאסיפיקציה בלע''ז), במקום חיפוש עם אינדקס וכדומה.
יש לי תוכניות בעתיד בעזרת ד' לעשות גם חיפוש מלא יותר, מבוסס על טכניקות של חיפוש לפי משמעות. יתכן גם שאשלב בין השיטות.
כמו כן אני עובד על ממשק שיהיה אפשר להוריד ולהשתמש אופליין. -
@sivan22 יפה מאוד !!
ניסיתי אותו מעט, אני בטוח שהמאגרים התורניים למיניהם בעתיד (הקרוב, אני מקוה...) יצטרכו להגיע לכיוון הזה, ואתה היית הראשון שזיהה...מעניין אותי הראש שלו, אולי תדע לפרט איך הוא עובד
כי נסיתי למשל "יעלה ויבוא ורצה בסעודה שלישית" (נידון ידוע)
התוצאה השלישית היא הנכונה (קפח י) צל"ש!אבל יש לו מה להשתפר...
כי התוצאה הראשונה (קכח ט) היית קשורה ליעלה ויבוא אבל לא לסעודה שלישית
אם כי היית קשורה לערב שבת
אז אולי הוא עשה קישור כזה סעודה שלישית=שבת, ונתן לזה ציון יותר גבוה
האם נכון שזה היה הכיוון שלו?ואולי יש לך הצעות איך לדבר איתו יותר מדויק?
בכל אופן נהניתי מאוד!
מחכה להמשך -
ערכתי את האנגלית המופיע באתר:
This model was pretrained from BEREL-2.0 to classify any sentence to the exact Siman (chapter) and Seif (paragraph) in the book "Shulchan Aruch" volume "Orach Chaim", and can be useful as a semantic search tool for Halachic topics.
-
@MAKRO כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
מעניין אותי הראש שלו, אולי תדע לפרט איך הוא עובד
זה קצת מורכב אבל אנסה לפשט ככל שאוכל: כל מילה (או יותר נכון חלק ממילה -טוקן) מיוצגת ע"י איזה מספר, וכשהמודל (-סוג של תכנית מחשב) מקבל משפט שמורכב מהרבה מילים (טוקנים) הוא מנסה לחשב מה החשיבות של כל מילה ביחס למילה אחרת, וכמה היא משפיעה על המשמעות שלה, ולכמת את זה באיזה מספר. כך בעצם הוא מצליח לתת איזה ייצוג מספרי להקשר בין המילים. לאור ההקשר שהוא חישב בין המילים הוא מנסה "לנחש" (באמצעות איזה חישוב מתמטי) לאיזה קטגוריה המשפט בכללותו מתאים. אם מתברר שהוא לא צדק, אז הוא משנה את הפרמטרים (-מספרים בתוך התוכנית שיכולים להשתנות) כך שבפעם הבאה יהיה סיכוי טוב יותר לניחוש נכון, וכך שוב ושוב עד שמתקבלת תוצאה נכונה. הרעיון הזה של חישוב ההקשר בין המילים נקרא attention (קשב - תשומת לב) והוא עומד בבסיס מודלי השפה שפרצו את תקרת הזכוכית כולל GPT4.
אבל יש לו מה להשתפר...
כתבתי שאני עדיין מאמן אותו עוד, ואני מקווה שהוא ישתפר.
בכל אופן נהניתי מאוד!
תודה על הפידבק, זה מחמם את הלב.
-
@sivan22 כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
כתבתי שאני עדיין מאמן אותו עוד, ואני מקווה שהוא ישתפר.
באיזה דרך אתה מאמן אותו?
-
@sivan22 כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
@aiib באמצעות קוד בפייתון וספריית transformers (נתתי קישור למעלה למחברת בkaggle).
לא ראיתי קישור לכך, אפשר בבקשה שוב?
הנתונים לאימון זה פשוט טבלה עם הטקסט והסימן והסעיף. ניתן לראות כאן.
אתה יצרת את הטבלה הזו? איך?
מה שאני מנסה לשאול האם אני ללא ידע בתכנות ואימול מודלים יכול לעשות את זה על ספר ספציפי שאחליט או שזה דורש ידע וניסיון?
-
@sivan22 כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
להכין טבלאות אתה צריך גם שם.
איך הכנת את זה? זה נשמע עבודה מטורפת, עשית את זה ידני?
-
-
@sivan22 כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
@sivan22 הנה ממשק נחמד ויותר שימושי, עם תוצאות מהשולחן ערוך ומשנה ברורה:
מי שרוצה לנסות מוזמן להכנס לקישור.
שלחתי לפתיחה בנטפרי
לחלופין ניתן להוריד מגיטהאב
נ.ב. גם בשימוש לא מקוון נדרש חיבור לאינטרנט בפעם הראשונה.
מה אני צריך להוריד שם למחשב שלי? ואיך מפעילים?
-
@sivan22 כתב בשיתוף | אימון מודל לזיהוי הנושא ההלכתי:
להכין טבלאות אתה צריך גם שם.
מטורף איזה עבודה שעשית שם בהכנת הטבלאות ובכלל מערכת יפיפייה
אשרינו שזכינו