בירור | מודל AI אופליין

anomimi1789

@א.מ.ד.
תודה על הרצון הטוב אבל אני צריך משהו שיכול לנצל כרטיס מסך כמו שיש לי(RTX 5070)
וגם כתיבת קוד...תודה בכל מקרה

המלאך

@anomimi1789 הוא התכוון להגיד שלא נכון לומר 'כמה שיותר פרמטרים'.
נראה לי [לא יודע כמה ראם רגיל יש לך..]
קוואן 13b כימות 4b או אפילו 5b ישרוד.
כימות 8b לא ישרוד יותר מ7b פרמטרים.
אהיה יותר ברור.
מודל: qwen.
גודל פרמטרים: 14b.
כימות [gguf]: 4b/5b.
ייעוד: קודר.
ת'אנת אין לי מושג אם יש בכימות הזה לגודל הזה.
אשאיר ל @א.מ.ד. את העבודה השחורה של לחפש האגינג פייס.

anomimi1789

@א.מ.ד.
רגע רגע...אמרת טרליון????

המלאך

@anomimi1789 בול.

כתב בבירור | מודל AI אופליין:

הוא התכוון להגיד שלא נכון לומר 'כמה שיותר פרמטרים'.

א.מ.ד.

@המלאך כתב בבירור | מודל AI אופליין:

@anomimi1789 הוא התכוון להגיד שלא נכון לומר 'כמה שיותר פרמטרים'.
נראה לי [לא יודע כמה ראם רגיל יש לך..]
קוואן 13b כימות 4b או אפילו 5b ישרוד.
כימות 8b לא ישרוד יותר מ7b פרמטרים.
אהיה יותר ברור.
מודל: qwen.
גודל פרמטרים: 14b.
כימות [gguf]: 4b/5b.
ייעוד: קודר.
ת'אנת אין לי מושג אם יש בכימות הזה לגודל הזה.
אשאיר ל @א.מ.ד. את העבודה השחורה של לחפש האגינג פייס.

אין צורך בכימות פחות אגרסיבי מ-4 ביט. 4 ביט חוסך 75% מהזיכרון הדרוש, תוך ירידה מינרית בביצועים וכמעט בלתי מורגשת לעין אנושית. זה נכון בין למודלי 4B ובין למודלי 400B.
אגב ככל שהמספר בכימות יותר גבוה (לדוגמא Q8) אז המודל יותר איכותי (שוב, מינורי), לא ההיפך. Q4 פחות איכותי מ-Q8.
לגבי המודל שהצעת - QWEN 14B, שזה QWEN 3, מדובר במודל מיושן. ישנם מודלים שקטנים ממנו בחצי וטובים יותר ממנו.
סדרת המודלים המומלצת כיום לקידוד היא QWEN 3.5, ולשימוש כללי GEMMA 4.
אז תבחר את גודל המודל לפי כמות ה-RAM שלך, כמפורט במדריך שקישרתי אליו למעלה.
הכימות המומלץ הוא Q4.

אגב @המלאך , הסימון של כימותים הוא Q4, לא 4B.

המלאך

@א.מ.ד. כתב בבירור | מודל AI אופליין:

אין צורך בכימות פחות אגרסיבי מ-4 ביט. 4 ביט חוסך 75% מהזיכרון הדרוש, תוך ירידה מינרית בביצועים וכמעט בלתי מורגשת לעין אנושית. זה נכון בין למודלי 4B ובין למודלי 400B.
אגב ככל שהמספר בכימות יותר גבוה (לדוגמא Q8) אז המודל יותר איכותי (שוב, מינורי), לא ההיפך. Q4 פחות איכותי מ-Q8.

לכן הצעתי כימות יותר גדול. 5 ולא 4. עניין של איכות.

@א.מ.ד. כתב בבירור | מודל AI אופליין:

אגב ככל שהמספר בכימות יותר גבוה (לדוגמא Q8) אז המודל יותר איכותי (שוב, מינורי), לא ההיפך. Q4 פחות איכותי מ-Q8.
לגבי המודל שהצעת - QWEN 14B, שזה QWEN 3, מדובר במודל מיושן. ישנם מודלים שקטנים ממנו בחצי וטובים יותר ממנו.
סדרת המודלים המומלצת כיום לקידוד היא QWEN 3.5,

הקודר שלו לדעתי די בייתרון.
לא מצאתי גדול יותר בשבילו. הוא ביקש כמה שיותר פרמטרים..

@א.מ.ד. כתב בבירור | מודל AI אופליין:

אגב @המלאך , הסימון של כימותים הוא Q4, לא 4B.

Whatever you say, sir.
Anyway, thank you for your attention to this matter.

א.מ.ד.

@המלאך כתב בבירור | מודל AI אופליין:

לכן הצעתי כימות יותר גדול. 5 ולא 4. עניין של איכות.

א. כתבתי שאין הבדל נראה לעין בין המודל המלא לבין Q4, אז בין Q4 ל-Q5 ודאי שאין כמעט הבדל באיכות.
ב. הבנתי ש"ישרוד" התכוונת מבחינת איכות. עכשיו אני מבין שאתה מתכוון מבחינת חומרה.

א.מ.ד.

@המלאך כתב בבירור | מודל AI אופליין:

הקודר שלו לדעתי די בייתרון.
לא מצאתי גדול יותר בשבילו. הוא ביקש כמה שיותר פרמטרים..

אין 14B קודר. חוץ מזה שה-3.5 9B (שאין לו גרסת קודר) טובה יותר מגרסאות הקודר של QWEN 3.

anomimi1789

@א.מ.ד.
לסיכום יש למישהו משהו? @א.מ.ד.

א.מ.ד.

@anomimi1789 כתב בבירור | מודל AI אופליין:

@א.מ.ד.
לסיכום יש למישהו משהו? @א.מ.ד.

כמה RAM יש לך? וכמה VRAM?

המלאך

@א.מ.ד. כתב בבירור | מודל AI אופליין:

אין 14B קודר. חוץ מזה שה-3.5 9B (שאין לו גרסת קודר) טובה יותר מגרסאות הקודר של QWEN 3.

בטוח?
אני די בטוח שראיתי.
אבל כמובן הגיוני שאני טועה..

anomimi1789

@א.מ.ד.
32 RAM (כרטיס מסך RTX 5070) 8VRAM

א.מ.ד.

@המלאך כתב בבירור | מודל AI אופליין:

בטוח?
אני די בטוח שראיתי.
אבל כמובן הגיוני שאני טועה..

אין. בדקתי שוב.

א.מ.ד.

@anomimi1789 כתב בבירור | מודל AI אופליין:

@א.מ.ד.
32 RAM (כרטיס מסך RTX 5070) 8VRAM

אז הכי מומלץ בשבילך לקידוד הוא QWEN 3.6 35B A3B, ולשימוש כללי GEMMA 4 26B A4B. כימות של Q4_K_M.
להריץ ב-LM STUDIO.

המלאך

@א.מ.ד. בל נשכח כמובן סביבת הרצה.

anomimi1789

@א.מ.ד.
זה לא יזלוג לRAM? אאכ אתה מדבר על גרסא דחוסה

anomimi1789

@המלאך
LM STUDIO אן כל משהו אחר

א.מ.ד.

@anomimi1789 כתב בבירור | מודל AI אופליין:

@א.מ.ד.
זה לא יזלוג לRAM? אאכ אתה מדבר על גרסא דחוסה

זה לא ייזלוג ל-RAM אלא יישב כל כולו בנינוחות ב-RAM. הפרמטרים הפעילים בלבד יוכנסו ל-VRAM בכל טוקן להרצה מהירה.

א.מ.ד.

@anomimi1789 כתב בבירור | מודל AI אופליין:

@המלאך
LM STUDIO אן כל משהו אחר

יש אבל אתה בטח לא מחפש הרפתקאות...

anomimi1789

@א.מ.ד.
הידד.. אנא שלח קישור
למה הכוונה הרפתקאות...יש גם את LUMA 3 איך זה