להורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!

NH.LOCAL

@שמואל-רבינוביץ אתה צריך קודם כל לחלץ את הקבצים לתיקיה. אתה צריך לשאול את @משה-מזרחי איך מתעסקים עם החילוץ של הקבצים

שמואל רבינוביץ

חילצתי הכול לצרף הכול לאותו תיקיה?

NH.LOCAL

@שמואל-רבינוביץ כן. עיין לעיל יש שם הוראות מעודכנות

משה מזרחי

@NH-LOCAL כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

אתה צריך לשאול את @משה-מזרחי איך מתעסקים עם החילוץ של הקבצים

היה נראה לי מיותר להסביר דבר כ''כ פשוט
ערכתי את ההודעה למעלה , הוספתי הסבר

אני יודע שזה לא בשבילך
לא בא אליך בטענות

שמואל רבינוביץ

סליחה על הבורות ...
בכל מקרה התחלתי מהתחלה שמתי את ה3 תיקיות ביחד עשיתי כחול על שלושתם ולחצתי חלץ לכאן יצא לי קובץ אחד בשם : dictalm2.0.Q4_K_M.gguf

הורדתי את ה3 קישורים האחרים
אכשיו אני פותח את הקובץ הזה :start-language-model-on-gpu

זה מה שנפתח לי לאחר הזהרה שלא כדאי להפעיל במחשב וכו'..

ושאני פותח את הקובץ השני : start-language-model

זה מה שנפתח לי

NH.LOCAL

@שמואל-רבינוביץ אתה צריך לחלץ את 3 הקבצים האחרים האלה לתוך אותה תיקיה ורק אחר כך להפעיל

דאנציג

@שמואל-רבינוביץ כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

ושאני פותח את הקובץ השני : start-language-model

זה מה שנפתח לי

אם כל הקבצים באותה תיקייה, אמור להפתח לך הצ'אט בדפדפן בכתובת הזו http://127.0.0.1:8080/.

דאנציג

@NH-LOCAL
מוזר שהמודל בעברית עובד אצלי מצויין, לעומת זאת המודל PHI3 לא עובד עם הקובץ BAT, להלן השגיאה:

llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'phi3'
llama_load_model_from_file: failed to load model
llama_init_from_gpt_params: error: failed to load model 'Phi-3-mini-4k-instruct-q4.gguf'
{"function":"load_model","level":"ERR","line":447,"model":"Phi-3-mini-4k-instruct-q4.gguf","msg":"unable to load model","tid":"9434528","timestamp":1714615234}

אגב, @sivan22 עם llamafile וההגדרות של @NH-LOCAL המודל בעברית עובד לי הרבה יותר מהר מאשר עם התוכנה LM STUDIO, שגם מנצלת יותר משאבים במחשב (גם GPU וגם CPU), ובכל זאת יותר איטי אצלי (ותחושה שלי גם פחות מדויק).

אלף שין

@דאנציג
זה מה שנפתח לי,
זה אומר שזה מתחיל לעבוד, או שיש תקלה [יתכן שזה בגלל חדר מחשבים לא עובד?]?
Active code page: 1255
note: if you have an AMD or NVIDIA GPU then you need to pass -ngl 9999 to enable GPU offloading
{"build":1500,"commit":"a30b324","function":"server_cli","level":"INFO","line":2859,"msg":"build info","tid":"9434528","timestamp":1714631815}
{"function":"server_cli","level":"INFO","line":2862,"msg":"system info","n_threads":4,"n_threads_batch":-1,"system_info":"AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | ","tid":"9434528","timestamp":1714631815,"total_threads":4}
llama_model_loader: loaded meta data with 23 key-value pairs and 291 tensors from dictalm2.0.Q4_K_M.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv 0: general.architecture str = llama
llama_model_loader: - kv 1: general.name str = models
llama_model_loader: - kv 2: llama.vocab_size u32 = 33152
llama_model_loader: - kv 3: llama.context_length u32 = 32768
llama_model_loader: - kv 4: llama.embedding_length u32 = 4096
llama_model_loader: - kv 5: llama.block_count u32 = 32
llama_model_loader: - kv 6: llama.feed_forward_length u32 = 14336
llama_model_loader: - kv 7: llama.rope.dimension_count u32 = 128
llama_model_loader: - kv 8: llama.attention.head_count u32 = 32
llama_model_loader: - kv 9: llama.attention.head_count_kv u32 = 8
llama_model_loader: - kv 10: llama.attention.layer_norm_rms_epsilon f32 = 0.000010
llama_model_loader: - kv 11: llama.rope.freq_base f32 = 10000.000000
llama_model_loader: - kv 12: general.file_type u32 = 15
llama_model_loader: - kv 13: tokenizer.ggml.model str = llama
llama_model_loader: - kv 14: tokenizer.ggml.tokens arr[str,33152] = ["<unk>", "<s>", "</s>", "<0x00>", "<...
llama_model_loader: - kv 15: tokenizer.ggml.scores arr[f32,33152] = [0.000000, 0.000000, 0.000000, 0.0000...
llama_model_loader: - kv 16: tokenizer.ggml.token_type arr[i32,33152] = [2, 3, 3, 6, 6, 6, 6, 6, 6, 6, 6, 6, ...
llama_model_loader: - kv 17: tokenizer.ggml.bos_token_id u32 = 1
llama_model_loader: - kv 18: tokenizer.ggml.eos_token_id u32 = 2
llama_model_loader: - kv 19: tokenizer.ggml.unknown_token_id u32 = 0
llama_model_loader: - kv 20: tokenizer.ggml.add_bos_token bool = true
llama_model_loader: - kv 21: tokenizer.ggml.add_eos_token bool = false
llama_model_loader: - kv 22: general.quantization_version u32 = 2
llama_model_loader: - type f32: 65 tensors
llama_model_loader: - type q4_K: 193 tensors
llama_model_loader: - type q6_K: 33 tensors
llm_load_vocab: mismatch in special tokens definition ( 323/33152 vs 259/33152 ).
llm_load_print_meta: format = GGUF V3 (latest)
llm_load_print_meta: arch = llama
llm_load_print_meta: vocab type = SPM
llm_load_print_meta: n_vocab = 33152
llm_load_print_meta: n_merges = 0
llm_load_print_meta: n_ctx_train = 32768
llm_load_print_meta: n_embd = 4096
llm_load_print_meta: n_head = 32
llm_load_print_meta: n_head_kv = 8
llm_load_print_meta: n_layer = 32
llm_load_print_meta: n_rot = 128
llm_load_print_meta: n_embd_head_k = 128
llm_load_print_meta: n_embd_head_v = 128
llm_load_print_meta: n_gqa = 4
llm_load_print_meta: n_embd_k_gqa = 1024
llm_load_print_meta: n_embd_v_gqa = 1024
llm_load_print_meta: f_norm_eps = 0.0e+00
llm_load_print_meta: f_norm_rms_eps = 1.0e-05
llm_load_print_meta: f_clamp_kqv = 0.0e+00
llm_load_print_meta: f_max_alibi_bias = 0.0e+00
llm_load_print_meta: f_logit_scale = 0.0e+00
llm_load_print_meta: n_ff = 14336
llm_load_print_meta: n_expert = 0
llm_load_print_meta: n_expert_used = 0
llm_load_print_meta: causal attn = 1
llm_load_print_meta: pooling type = 0
llm_load_print_meta: rope type = 0
llm_load_print_meta: rope scaling = linear
llm_load_print_meta: freq_base_train = 10000.0
llm_load_print_meta: freq_scale_train = 1
llm_load_print_meta: n_yarn_orig_ctx = 32768
llm_load_print_meta: rope_finetuned = unknown
llm_load_print_meta: ssm_d_conv = 0
llm_load_print_meta: ssm_d_inner = 0
llm_load_print_meta: ssm_d_state = 0
llm_load_print_meta: ssm_dt_rank = 0
llm_load_print_meta: model type = 7B
llm_load_print_meta: model ftype = Q4_K - Medium
llm_load_print_meta: model params = 7.25 B
llm_load_print_meta: model size = 4.07 GiB (4.83 BPW)
llm_load_print_meta: general.name = models
llm_load_print_meta: BOS token = 1 '<s>'
llm_load_print_meta: EOS token = 2 '</s>'
llm_load_print_meta: UNK token = 0 '<unk>'
llm_load_print_meta: LF token = 13 '<0x0A>'
llm_load_tensors: ggml ctx size = 0.15 MiB

משה מזרחי

@אלף-שין
לא חושב שאפשר להבין ככה
תסמן את כל מה שיצא לך - בכחול , ואז תלחץ על זה Screenshot_2024-05-02-09-40-35-78_40deb401b9ffe8e1df2f1cc5ba480b12.jpg

שמואל רבינוביץ

לא עזר שמתי את הארבעת הקבצים האלו באותה תקיה שום דבר אותה שגיאה

כשאני פותח את הקבצים שנקראים כך
dictalm2.0.Q4_K_M.gguf
וכך
llamafile-0.8
הוא שואל איך לפתוח את זה כשאני בוחר לפתוח אותו בדפדפן גוגל אז נפתח לי דפדפן ללא שם ומבצע לי הורדה של הקובץ
בקבצים האלו
start-language-model
start-language-model-on-gpu
הוא עושה לי את הבעיה של המסך השחור

צדיק וטוב לו 0

@משה-מזרחי כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

@אלף-שין
לא חושב שאפשר להבין ככה
תסמן את כל מה שיצא לך - בכחול , ואז תלחץ על זה

@אלף-שין כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

@דאנציג
זה מה שנפתח לי,
זה אומר שזה מתחיל לעבוד, או שיש תקלה [יתכן שזה בגלל חדר מחשבים לא עובד?]?

> Active code page: 1255
> note: if you have an AMD or NVIDIA GPU then you need to pass -ngl 9999 to enable GPU offloading
> {"build":1500,"commit":"a30b324","function":"server_cli","level":"INFO","line":2859,"msg":"build info","tid":"9434528","timestamp":1714631815}
> {"function":"server_cli","level":"INFO","line":2862,"msg":"system info","n_threads":4,"n_threads_batch":-1,"system_info":"AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | ","tid":"9434528","timestamp":1714631815,"total_threads":4}
> llama_model_loader: loaded meta data with 23 key-value pairs and 291 tensors from dictalm2.0.Q4_K_M.gguf (version GGUF V3 (latest))
> llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
> llama_model_loader: - kv   0:                       general.architecture str              = llama
> llama_model_loader: - kv   1:                               general.name str              = models
> llama_model_loader: - kv   2:                           llama.vocab_size u32              = 33152
> llama_model_loader: - kv   3:                       llama.context_length u32              = 32768
> llama_model_loader: - kv   4:                     llama.embedding_length u32              = 4096
> llama_model_loader: - kv   5:                          llama.block_count u32              = 32
> llama_model_loader: - kv   6:                  llama.feed_forward_length u32              = 14336
> llama_model_loader: - kv   7:                 llama.rope.dimension_count u32              = 128
> llama_model_loader: - kv   8:                 llama.attention.head_count u32              = 32
> llama_model_loader: - kv   9:              llama.attention.head_count_kv u32              = 8
> llama_model_loader: - kv  10:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
> llama_model_loader: - kv  11:                       llama.rope.freq_base f32              = 10000.000000
> llama_model_loader: - kv  12:                          general.file_type u32              = 15
> llama_model_loader: - kv  13:                       tokenizer.ggml.model str              = llama
> llama_model_loader: - kv  14:                      tokenizer.ggml.tokens arr[str,33152]   = ["<unk>", "<s>", "</s>", "<0x00>", "<...
> llama_model_loader: - kv  15:                      tokenizer.ggml.scores arr[f32,33152]   = [0.000000, 0.000000, 0.000000, 0.0000...
> llama_model_loader: - kv  16:                  tokenizer.ggml.token_type arr[i32,33152]   = [2, 3, 3, 6, 6, 6, 6, 6, 6, 6, 6, 6, ...
> llama_model_loader: - kv  17:                tokenizer.ggml.bos_token_id u32              = 1
> llama_model_loader: - kv  18:                tokenizer.ggml.eos_token_id u32              = 2
> llama_model_loader: - kv  19:            tokenizer.ggml.unknown_token_id u32              = 0
> llama_model_loader: - kv  20:               tokenizer.ggml.add_bos_token bool             = true
> llama_model_loader: - kv  21:               tokenizer.ggml.add_eos_token bool             = false
> llama_model_loader: - kv  22:               general.quantization_version u32              = 2
> llama_model_loader: - type  f32:   65 tensors
> llama_model_loader: - type q4_K:  193 tensors
> llama_model_loader: - type q6_K:   33 tensors
> llm_load_vocab: mismatch in special tokens definition ( 323/33152 vs 259/33152 ).
> llm_load_print_meta: format           = GGUF V3 (latest)
> llm_load_print_meta: arch             = llama
> llm_load_print_meta: vocab type       = SPM
> llm_load_print_meta: n_vocab          = 33152
> llm_load_print_meta: n_merges         = 0
> llm_load_print_meta: n_ctx_train      = 32768
> llm_load_print_meta: n_embd           = 4096
> llm_load_print_meta: n_head           = 32
> llm_load_print_meta: n_head_kv        = 8
> llm_load_print_meta: n_layer          = 32
> llm_load_print_meta: n_rot            = 128
> llm_load_print_meta: n_embd_head_k    = 128
> llm_load_print_meta: n_embd_head_v    = 128
> llm_load_print_meta: n_gqa            = 4
> llm_load_print_meta: n_embd_k_gqa     = 1024
> llm_load_print_meta: n_embd_v_gqa     = 1024
> llm_load_print_meta: f_norm_eps       = 0.0e+00
> llm_load_print_meta: f_norm_rms_eps   = 1.0e-05
> llm_load_print_meta: f_clamp_kqv      = 0.0e+00
> llm_load_print_meta: f_max_alibi_bias = 0.0e+00
> llm_load_print_meta: f_logit_scale    = 0.0e+00
> llm_load_print_meta: n_ff             = 14336
> llm_load_print_meta: n_expert         = 0
> llm_load_print_meta: n_expert_used    = 0
> llm_load_print_meta: causal attn      = 1
> llm_load_print_meta: pooling type     = 0
> llm_load_print_meta: rope type        = 0
> llm_load_print_meta: rope scaling     = linear
> llm_load_print_meta: freq_base_train  = 10000.0
> llm_load_print_meta: freq_scale_train = 1
> llm_load_print_meta: n_yarn_orig_ctx  = 32768
> llm_load_print_meta: rope_finetuned   = unknown
> llm_load_print_meta: ssm_d_conv       = 0
> llm_load_print_meta: ssm_d_inner      = 0
> llm_load_print_meta: ssm_d_state      = 0
> llm_load_print_meta: ssm_dt_rank      = 0
> llm_load_print_meta: model type       = 7B
> llm_load_print_meta: model ftype      = Q4_K - Medium
> llm_load_print_meta: model params     = 7.25 B
> llm_load_print_meta: model size       = 4.07 GiB (4.83 BPW)
> llm_load_print_meta: general.name     = models
> llm_load_print_meta: BOS token        = 1 '<s>'
> llm_load_print_meta: EOS token        = 2 '</s>'
> llm_load_print_meta: UNK token        = 0 '<unk>'
> llm_load_print_meta: LF token         = 13 '<0x0A>'
> llm_load_tensors: ggml ctx size =    0.15 MiB

tcrvodkxrvzurgho

@NH-LOCAL כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

אתה בהחלט צודק. ממש לאחרונה עלה מודל בעברית מלאה. אבל הוא כבד יותר מהמודל באנגלית ששמתי בפוסט הראשי

@NH-LOCAL יש לך אותו? כמה הוא כבד?

NH.LOCAL

@אלף-שין כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

@דאנציג
זה מה שנפתח לי,
זה אומר שזה מתחיל לעבוד, או שיש תקלה [יתכן שזה בגלל חדר מחשבים לא עובד?]?
Active code page: 1255
note: if you have an AMD or NVIDIA GPU then you need to pass -ngl 9999 to enable GPU offloading

זה אומר שהוא מתחיל לעבוד

@דאנציג כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

אגב, @sivan22 עם llamafile וההגדרות של @NH-LOCAL המודל בעברית עובד לי הרבה יותר מהר מאשר עם התוכנה LM STUDIO, שגם מנצלת יותר משאבים במחשב (גם GPU וגם CPU), ובכל זאת יותר איטי אצלי (ותחושה שלי גם פחות מדויק).

מעניין. אני מרגיש בדיוק הפוך - נראה שתוכנת LMSTUDIO מנצלת את המשאבים בצורה המיטבית וככה עושה את הכל מהיר יותר
(למעשה, אפשר לבדוק את זה - אמור להיות נתונים של מספר הטוקנים לשנייה)

tcrvodkxrvzurgho

אחרי כמה שניות נפתח לך חלון בכרום. לפחות לי זה היה ככה.

דאנציג

@שמואל-רבינוביץ כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

כשאני פותח את הקבצים שנקראים כך
dictalm2.0.Q4_K_M.gguf
וכך
llamafile-0.8
הוא שואל איך לפתוח את זה כשאני בוחר לפתוח אותו בדפדפן גוגל אז נפתח לי דפדפן ללא שם ומבצע לי הורדה של הקובץ

את הקבצים האלו לא צריך לפתוח!

בקבצים האלו
start-language-model
start-language-model-on-gpu
הוא עושה לי את הבעיה של המסך השחור

את אחד הקבצים האלו צריך להפעיל, ואם יש לך מסך שחור, אז כנראה שהמחשב שלך חלש מדאי ולא יכול להפעיל את זה.
מה המאפיינים של המחשב שלך?

דאנציג

@NH-LOCAL כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

מעניין. אני מרגיש בדיוק הפוך - נראה שתוכנת LMSTUDIO מנצלת את המשאבים בצורה המיטבית וככה עושה את הכל מהיר יותר
(למעשה, אפשר לבדוק את זה - אמור להיות נתונים של מספר הטוקנים לשנייה)

לכאורה זה בגלל שלא הגדרתי כלום בLM STUDIO, אלא ישר פתחתי.
מה צריך להגדיר והיכן?
(אני לא יודע אנגלית, אלא מצליח לקרוא, וכאשר מסבירים לי אני מבין קצת...)

NH.LOCAL

@דאנציג לפי מה שאני מבין - בעקרון יש הגדרה אוטומטית לפי המפרט של המחשב שלך

בחלון בצד ימין - יש מגוון של הגדרות. בין השאר יש שם הגדרה של מס' שכבות ב-GPU - אפשר לנסות לשחק עם זה - כרגע זה מוגדר אצלי על 14
(אם אין לך מעבד גרפי של NVIDIA או AMD אז זה לא רלוונטי)

בנוסף ניתן להגדיר את מספר הסיבובים בו זמנית של ה-CPU. בדרך כלל מומלץ להתאים את זה למספר הליבות. אם יש לך 4 ליבות - מומלץ להגדיר את המספר ל-4.
[את המספר של הליבות אפשר לראות במנהל המשימות בכרטיסית CPU]

בתמונה זו ההגדרה האחרונה ברשימה:

מקווה שאני מובן

דאנציג

@NH-LOCAL כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

מקווה שאני מובן

מובן מאוד, יישר כוח.
אני התכוונתי להוראות האלו, עכשיו מצאתי את ההגדרה הזו, ננסה עכשיו, אולי זה יביא תוצאות יותר טובות.

אגב, אני חושב שכדאי להכניס את ההוראות, או לפחות קישור להוראות בפוסט הראשון שלך.
יישר כוח.

NH.LOCAL

@דאנציג כרגע הפוסט הראשון מותאם למודל אחר לגמרי... בכל מקרה, בעיקרון המודל גם מוגדר אוטומטית עם ההתאמות הנדרשות עליהם אתה מדבר. ובכל מקרה, זה לא אמור לשנות את המהירות אלא רק את האיכות