להורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!

NH.LOCAL

@REFAEL-2 ההסבר בקצרה הוא פשוט:
בצד שמאל למעלה במסך של התוכנה, ה-Local models folder אמור להיות מוגדר ל- C:\Users\user.cache\lm-studio\models

שמואל רבינוביץ

וואו הסתבכתי לגמרי הורדתי את כל מה שצריך אני פותח אותו וזה מה שהוא עושה לי

REFAEL 2

@NH-LOCAL
זה עובד!!!!!!!!!!!!!!
@NH-LOCAL 🫂
נא לצרף כתובת למשלוח

NH.LOCAL

@REFAEL-2 תהנה. זה מודל ממש נהדר. מקווה שלא יהיה איטי מידי

REFAEL 2

ממש תודה וכל הכבוד על הסבלנות

NH.LOCAL

@שמואל-רבינוביץ כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

וואו הסתבכתי לגמרי הורדתי את כל מה שצריך אני פותח אותו וזה מה שהוא עושה לי

אני לא רואה בתמונה מידע רלוונטי. תעשה צילום מסך של תחילת הטקסט שמופיע בשורת הפקודה, או פשוט תעתיק את כל הטקסט לכאן

שמואל רבינוביץ

דבר ראשון זה מה שהורדתי

אחרי זה שאני פותח אותו זה מה שמופיע
||צילמתי גם את החלק העליון||

בתקיה השמאלית יש קובץ אחד שא"א לחלץ
וזה שמו

את התקייה השמאלית אני לא מצליח לחלץ הוא כותב לי את זה

NH.LOCAL

@שמואל-רבינוביץ אתה צריך קודם כל לחלץ את הקבצים לתיקיה. אתה צריך לשאול את @משה-מזרחי איך מתעסקים עם החילוץ של הקבצים

שמואל רבינוביץ

חילצתי הכול לצרף הכול לאותו תיקיה?

NH.LOCAL

@שמואל-רבינוביץ כן. עיין לעיל יש שם הוראות מעודכנות

משה מזרחי

@NH-LOCAL כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

אתה צריך לשאול את @משה-מזרחי איך מתעסקים עם החילוץ של הקבצים

היה נראה לי מיותר להסביר דבר כ''כ פשוט
ערכתי את ההודעה למעלה , הוספתי הסבר

אני יודע שזה לא בשבילך
לא בא אליך בטענות

שמואל רבינוביץ

סליחה על הבורות ...
בכל מקרה התחלתי מהתחלה שמתי את ה3 תיקיות ביחד עשיתי כחול על שלושתם ולחצתי חלץ לכאן יצא לי קובץ אחד בשם : dictalm2.0.Q4_K_M.gguf

הורדתי את ה3 קישורים האחרים
אכשיו אני פותח את הקובץ הזה :start-language-model-on-gpu

זה מה שנפתח לי לאחר הזהרה שלא כדאי להפעיל במחשב וכו'..

ושאני פותח את הקובץ השני : start-language-model

זה מה שנפתח לי

NH.LOCAL

@שמואל-רבינוביץ אתה צריך לחלץ את 3 הקבצים האחרים האלה לתוך אותה תיקיה ורק אחר כך להפעיל

דאנציג

@שמואל-רבינוביץ כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

ושאני פותח את הקובץ השני : start-language-model

זה מה שנפתח לי

אם כל הקבצים באותה תיקייה, אמור להפתח לך הצ'אט בדפדפן בכתובת הזו http://127.0.0.1:8080/.

דאנציג

@NH-LOCAL
מוזר שהמודל בעברית עובד אצלי מצויין, לעומת זאת המודל PHI3 לא עובד עם הקובץ BAT, להלן השגיאה:

llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'phi3'
llama_load_model_from_file: failed to load model
llama_init_from_gpt_params: error: failed to load model 'Phi-3-mini-4k-instruct-q4.gguf'
{"function":"load_model","level":"ERR","line":447,"model":"Phi-3-mini-4k-instruct-q4.gguf","msg":"unable to load model","tid":"9434528","timestamp":1714615234}

אגב, @sivan22 עם llamafile וההגדרות של @NH-LOCAL המודל בעברית עובד לי הרבה יותר מהר מאשר עם התוכנה LM STUDIO, שגם מנצלת יותר משאבים במחשב (גם GPU וגם CPU), ובכל זאת יותר איטי אצלי (ותחושה שלי גם פחות מדויק).

אלף שין

@דאנציג
זה מה שנפתח לי,
זה אומר שזה מתחיל לעבוד, או שיש תקלה [יתכן שזה בגלל חדר מחשבים לא עובד?]?
Active code page: 1255
note: if you have an AMD or NVIDIA GPU then you need to pass -ngl 9999 to enable GPU offloading
{"build":1500,"commit":"a30b324","function":"server_cli","level":"INFO","line":2859,"msg":"build info","tid":"9434528","timestamp":1714631815}
{"function":"server_cli","level":"INFO","line":2862,"msg":"system info","n_threads":4,"n_threads_batch":-1,"system_info":"AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | ","tid":"9434528","timestamp":1714631815,"total_threads":4}
llama_model_loader: loaded meta data with 23 key-value pairs and 291 tensors from dictalm2.0.Q4_K_M.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv 0: general.architecture str = llama
llama_model_loader: - kv 1: general.name str = models
llama_model_loader: - kv 2: llama.vocab_size u32 = 33152
llama_model_loader: - kv 3: llama.context_length u32 = 32768
llama_model_loader: - kv 4: llama.embedding_length u32 = 4096
llama_model_loader: - kv 5: llama.block_count u32 = 32
llama_model_loader: - kv 6: llama.feed_forward_length u32 = 14336
llama_model_loader: - kv 7: llama.rope.dimension_count u32 = 128
llama_model_loader: - kv 8: llama.attention.head_count u32 = 32
llama_model_loader: - kv 9: llama.attention.head_count_kv u32 = 8
llama_model_loader: - kv 10: llama.attention.layer_norm_rms_epsilon f32 = 0.000010
llama_model_loader: - kv 11: llama.rope.freq_base f32 = 10000.000000
llama_model_loader: - kv 12: general.file_type u32 = 15
llama_model_loader: - kv 13: tokenizer.ggml.model str = llama
llama_model_loader: - kv 14: tokenizer.ggml.tokens arr[str,33152] = ["<unk>", "<s>", "</s>", "<0x00>", "<...
llama_model_loader: - kv 15: tokenizer.ggml.scores arr[f32,33152] = [0.000000, 0.000000, 0.000000, 0.0000...
llama_model_loader: - kv 16: tokenizer.ggml.token_type arr[i32,33152] = [2, 3, 3, 6, 6, 6, 6, 6, 6, 6, 6, 6, ...
llama_model_loader: - kv 17: tokenizer.ggml.bos_token_id u32 = 1
llama_model_loader: - kv 18: tokenizer.ggml.eos_token_id u32 = 2
llama_model_loader: - kv 19: tokenizer.ggml.unknown_token_id u32 = 0
llama_model_loader: - kv 20: tokenizer.ggml.add_bos_token bool = true
llama_model_loader: - kv 21: tokenizer.ggml.add_eos_token bool = false
llama_model_loader: - kv 22: general.quantization_version u32 = 2
llama_model_loader: - type f32: 65 tensors
llama_model_loader: - type q4_K: 193 tensors
llama_model_loader: - type q6_K: 33 tensors
llm_load_vocab: mismatch in special tokens definition ( 323/33152 vs 259/33152 ).
llm_load_print_meta: format = GGUF V3 (latest)
llm_load_print_meta: arch = llama
llm_load_print_meta: vocab type = SPM
llm_load_print_meta: n_vocab = 33152
llm_load_print_meta: n_merges = 0
llm_load_print_meta: n_ctx_train = 32768
llm_load_print_meta: n_embd = 4096
llm_load_print_meta: n_head = 32
llm_load_print_meta: n_head_kv = 8
llm_load_print_meta: n_layer = 32
llm_load_print_meta: n_rot = 128
llm_load_print_meta: n_embd_head_k = 128
llm_load_print_meta: n_embd_head_v = 128
llm_load_print_meta: n_gqa = 4
llm_load_print_meta: n_embd_k_gqa = 1024
llm_load_print_meta: n_embd_v_gqa = 1024
llm_load_print_meta: f_norm_eps = 0.0e+00
llm_load_print_meta: f_norm_rms_eps = 1.0e-05
llm_load_print_meta: f_clamp_kqv = 0.0e+00
llm_load_print_meta: f_max_alibi_bias = 0.0e+00
llm_load_print_meta: f_logit_scale = 0.0e+00
llm_load_print_meta: n_ff = 14336
llm_load_print_meta: n_expert = 0
llm_load_print_meta: n_expert_used = 0
llm_load_print_meta: causal attn = 1
llm_load_print_meta: pooling type = 0
llm_load_print_meta: rope type = 0
llm_load_print_meta: rope scaling = linear
llm_load_print_meta: freq_base_train = 10000.0
llm_load_print_meta: freq_scale_train = 1
llm_load_print_meta: n_yarn_orig_ctx = 32768
llm_load_print_meta: rope_finetuned = unknown
llm_load_print_meta: ssm_d_conv = 0
llm_load_print_meta: ssm_d_inner = 0
llm_load_print_meta: ssm_d_state = 0
llm_load_print_meta: ssm_dt_rank = 0
llm_load_print_meta: model type = 7B
llm_load_print_meta: model ftype = Q4_K - Medium
llm_load_print_meta: model params = 7.25 B
llm_load_print_meta: model size = 4.07 GiB (4.83 BPW)
llm_load_print_meta: general.name = models
llm_load_print_meta: BOS token = 1 '<s>'
llm_load_print_meta: EOS token = 2 '</s>'
llm_load_print_meta: UNK token = 0 '<unk>'
llm_load_print_meta: LF token = 13 '<0x0A>'
llm_load_tensors: ggml ctx size = 0.15 MiB

משה מזרחי

@אלף-שין
לא חושב שאפשר להבין ככה
תסמן את כל מה שיצא לך - בכחול , ואז תלחץ על זה Screenshot_2024-05-02-09-40-35-78_40deb401b9ffe8e1df2f1cc5ba480b12.jpg

שמואל רבינוביץ

לא עזר שמתי את הארבעת הקבצים האלו באותה תקיה שום דבר אותה שגיאה

כשאני פותח את הקבצים שנקראים כך
dictalm2.0.Q4_K_M.gguf
וכך
llamafile-0.8
הוא שואל איך לפתוח את זה כשאני בוחר לפתוח אותו בדפדפן גוגל אז נפתח לי דפדפן ללא שם ומבצע לי הורדה של הקובץ
בקבצים האלו
start-language-model
start-language-model-on-gpu
הוא עושה לי את הבעיה של המסך השחור

צדיק וטוב לו 0

@משה-מזרחי כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

@אלף-שין
לא חושב שאפשר להבין ככה
תסמן את כל מה שיצא לך - בכחול , ואז תלחץ על זה

@אלף-שין כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

@דאנציג
זה מה שנפתח לי,
זה אומר שזה מתחיל לעבוד, או שיש תקלה [יתכן שזה בגלל חדר מחשבים לא עובד?]?

> Active code page: 1255
> note: if you have an AMD or NVIDIA GPU then you need to pass -ngl 9999 to enable GPU offloading
> {"build":1500,"commit":"a30b324","function":"server_cli","level":"INFO","line":2859,"msg":"build info","tid":"9434528","timestamp":1714631815}
> {"function":"server_cli","level":"INFO","line":2862,"msg":"system info","n_threads":4,"n_threads_batch":-1,"system_info":"AVX = 1 | AVX_VNNI = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | ","tid":"9434528","timestamp":1714631815,"total_threads":4}
> llama_model_loader: loaded meta data with 23 key-value pairs and 291 tensors from dictalm2.0.Q4_K_M.gguf (version GGUF V3 (latest))
> llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
> llama_model_loader: - kv   0:                       general.architecture str              = llama
> llama_model_loader: - kv   1:                               general.name str              = models
> llama_model_loader: - kv   2:                           llama.vocab_size u32              = 33152
> llama_model_loader: - kv   3:                       llama.context_length u32              = 32768
> llama_model_loader: - kv   4:                     llama.embedding_length u32              = 4096
> llama_model_loader: - kv   5:                          llama.block_count u32              = 32
> llama_model_loader: - kv   6:                  llama.feed_forward_length u32              = 14336
> llama_model_loader: - kv   7:                 llama.rope.dimension_count u32              = 128
> llama_model_loader: - kv   8:                 llama.attention.head_count u32              = 32
> llama_model_loader: - kv   9:              llama.attention.head_count_kv u32              = 8
> llama_model_loader: - kv  10:     llama.attention.layer_norm_rms_epsilon f32              = 0.000010
> llama_model_loader: - kv  11:                       llama.rope.freq_base f32              = 10000.000000
> llama_model_loader: - kv  12:                          general.file_type u32              = 15
> llama_model_loader: - kv  13:                       tokenizer.ggml.model str              = llama
> llama_model_loader: - kv  14:                      tokenizer.ggml.tokens arr[str,33152]   = ["<unk>", "<s>", "</s>", "<0x00>", "<...
> llama_model_loader: - kv  15:                      tokenizer.ggml.scores arr[f32,33152]   = [0.000000, 0.000000, 0.000000, 0.0000...
> llama_model_loader: - kv  16:                  tokenizer.ggml.token_type arr[i32,33152]   = [2, 3, 3, 6, 6, 6, 6, 6, 6, 6, 6, 6, ...
> llama_model_loader: - kv  17:                tokenizer.ggml.bos_token_id u32              = 1
> llama_model_loader: - kv  18:                tokenizer.ggml.eos_token_id u32              = 2
> llama_model_loader: - kv  19:            tokenizer.ggml.unknown_token_id u32              = 0
> llama_model_loader: - kv  20:               tokenizer.ggml.add_bos_token bool             = true
> llama_model_loader: - kv  21:               tokenizer.ggml.add_eos_token bool             = false
> llama_model_loader: - kv  22:               general.quantization_version u32              = 2
> llama_model_loader: - type  f32:   65 tensors
> llama_model_loader: - type q4_K:  193 tensors
> llama_model_loader: - type q6_K:   33 tensors
> llm_load_vocab: mismatch in special tokens definition ( 323/33152 vs 259/33152 ).
> llm_load_print_meta: format           = GGUF V3 (latest)
> llm_load_print_meta: arch             = llama
> llm_load_print_meta: vocab type       = SPM
> llm_load_print_meta: n_vocab          = 33152
> llm_load_print_meta: n_merges         = 0
> llm_load_print_meta: n_ctx_train      = 32768
> llm_load_print_meta: n_embd           = 4096
> llm_load_print_meta: n_head           = 32
> llm_load_print_meta: n_head_kv        = 8
> llm_load_print_meta: n_layer          = 32
> llm_load_print_meta: n_rot            = 128
> llm_load_print_meta: n_embd_head_k    = 128
> llm_load_print_meta: n_embd_head_v    = 128
> llm_load_print_meta: n_gqa            = 4
> llm_load_print_meta: n_embd_k_gqa     = 1024
> llm_load_print_meta: n_embd_v_gqa     = 1024
> llm_load_print_meta: f_norm_eps       = 0.0e+00
> llm_load_print_meta: f_norm_rms_eps   = 1.0e-05
> llm_load_print_meta: f_clamp_kqv      = 0.0e+00
> llm_load_print_meta: f_max_alibi_bias = 0.0e+00
> llm_load_print_meta: f_logit_scale    = 0.0e+00
> llm_load_print_meta: n_ff             = 14336
> llm_load_print_meta: n_expert         = 0
> llm_load_print_meta: n_expert_used    = 0
> llm_load_print_meta: causal attn      = 1
> llm_load_print_meta: pooling type     = 0
> llm_load_print_meta: rope type        = 0
> llm_load_print_meta: rope scaling     = linear
> llm_load_print_meta: freq_base_train  = 10000.0
> llm_load_print_meta: freq_scale_train = 1
> llm_load_print_meta: n_yarn_orig_ctx  = 32768
> llm_load_print_meta: rope_finetuned   = unknown
> llm_load_print_meta: ssm_d_conv       = 0
> llm_load_print_meta: ssm_d_inner      = 0
> llm_load_print_meta: ssm_d_state      = 0
> llm_load_print_meta: ssm_dt_rank      = 0
> llm_load_print_meta: model type       = 7B
> llm_load_print_meta: model ftype      = Q4_K - Medium
> llm_load_print_meta: model params     = 7.25 B
> llm_load_print_meta: model size       = 4.07 GiB (4.83 BPW)
> llm_load_print_meta: general.name     = models
> llm_load_print_meta: BOS token        = 1 '<s>'
> llm_load_print_meta: EOS token        = 2 '</s>'
> llm_load_print_meta: UNK token        = 0 '<unk>'
> llm_load_print_meta: LF token         = 13 '<0x0A>'
> llm_load_tensors: ggml ctx size =    0.15 MiB

tcrvodkxrvzurgho

@NH-LOCAL כתב בלהורדה | כך תריצו מודל בינה מלאכותית על המחשב שלכם - בקלי קלות!:

אתה בהחלט צודק. ממש לאחרונה עלה מודל בעברית מלאה. אבל הוא כבד יותר מהמודל באנגלית ששמתי בפוסט הראשי

@NH-LOCAL יש לך אותו? כמה הוא כבד?