בקשת מידע | מודל חיפוש סמנטי לעברית תורנית וארמית.
-
שלום רב.
אשמח לקבל מידע על מודל סמנטי לחיפוש תורני עברית פלוס ארמית.
בנתיים מצאתי את זה,
אני מחפש אם יש משהו טוב יותר.
אשמח לתגובות מידיעה בלבד!
ללא ai.
בתודה רבה מראש. -
שלום רב.
אשמח לקבל מידע על מודל סמנטי לחיפוש תורני עברית פלוס ארמית.
בנתיים מצאתי את זה,
אני מחפש אם יש משהו טוב יותר.
אשמח לתגובות מידיעה בלבד!
ללא ai.
בתודה רבה מראש.@המלאך כתב בבקשת מידע | מודל חיפוש סמנטי לעברית תורנית וארמית.:
בנתיים מצאתי את זה,
לא יודע עד כמה הוא יעבוד לך... כשאימנתי אותו זה היה נסיוני, לא הצלחתי להוציא ממנו משהו.
מה גם שלא אימנתי שם טוקונזייר והוא פשוט מפצל לפי קידומות נפוצות ככה שיש לו קטעים מוזרים לפעמים... -
@המלאך
אולי זה יעזור לך:
https://agentskills.co.il/he/skills/developer-tools/hebrew-ml-datasets-navigator
נראה שבתוכו יש מידע רב. -
@י.-פל. זה קישור טוב?
זה מביא לי לשגיאה באתר שלהם.
אני לא יןדע אם זה בעיה באינטרנט או בקישור.
@arieldaniely נכון.
המודל ש @sivan22 הציע הוא הכי טוב לכאורה.
רק שזה לא מובנה לחיפוש כי זה לא אמדקודינג..
אבל כנראה שאני אקח אותו.. -
@י.-פל. זה קישור טוב?
זה מביא לי לשגיאה באתר שלהם.
אני לא יןדע אם זה בעיה באינטרנט או בקישור.
@arieldaniely נכון.
המודל ש @sivan22 הציע הוא הכי טוב לכאורה.
רק שזה לא מובנה לחיפוש כי זה לא אמדקודינג..
אבל כנראה שאני אקח אותו..@המלאך נכון BEREL הוא מודל בסיס, אבל אפשר בקלות לכוונן אותו למשימות שיעזרו לחיפוש סמנטי, הייתי מתחיל עם משימה קלאסית של senntence similarity, אתה רק צריך דאטה סט של חיפושים ותוצאות או שאלות ותשובות, אני פעם יצרתי כזה דאטה סט על שולחן ערוך אורח חיים.
אבל בשביל המשימה שלך, הייתי יוצר דאטה סט משלי, לוקח קטעים אקראיים מספריית אוצריא ומבקש מLLM ליצור שאלה קצרה או שאילתת חיפוש לקטע, אפשר אפילו מודל זול יחסית כמו flash-lite-3.1 ועל הדאטה סט הזה לאמן.
אתה יכול להניח שכל זוג כזה הוא 1.0 מבחינת דמיון וכל זוג אחר (כשאתה מאמן אתה לוקח זוגות לא מתאימים) 0.3 או מספר נמוך אחר, וכך לאמן אותו.
זה יהיה מודל שיכול רק לעשות rerank כי הוא נותן ציון לכל המשפטים ולא ממש אמבדינג.
אתה יכול לעשות embeddings עם מודל קלאסי כמו e5 או bge ולקחת את ה2000 הטובים ולהריץ אותם אחד אחד על המודל הזה, הוא קטן יחסית. -
@המלאך נכון BEREL הוא מודל בסיס, אבל אפשר בקלות לכוונן אותו למשימות שיעזרו לחיפוש סמנטי, הייתי מתחיל עם משימה קלאסית של senntence similarity, אתה רק צריך דאטה סט של חיפושים ותוצאות או שאלות ותשובות, אני פעם יצרתי כזה דאטה סט על שולחן ערוך אורח חיים.
אבל בשביל המשימה שלך, הייתי יוצר דאטה סט משלי, לוקח קטעים אקראיים מספריית אוצריא ומבקש מLLM ליצור שאלה קצרה או שאילתת חיפוש לקטע, אפשר אפילו מודל זול יחסית כמו flash-lite-3.1 ועל הדאטה סט הזה לאמן.
אתה יכול להניח שכל זוג כזה הוא 1.0 מבחינת דמיון וכל זוג אחר (כשאתה מאמן אתה לוקח זוגות לא מתאימים) 0.3 או מספר נמוך אחר, וכך לאמן אותו.
זה יהיה מודל שיכול רק לעשות rerank כי הוא נותן ציון לכל המשפטים ולא ממש אמבדינג.
אתה יכול לעשות embeddings עם מודל קלאסי כמו e5 או bge ולקחת את ה2000 הטובים ולהריץ אותם אחד אחד על המודל הזה, הוא קטן יחסית.