הצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד

המלאך

@הישבשר-המלומד לא הבנת את כונתי,
לאתר ההוא יש API? אלא אם אתה מתכוון לליצור מאפס, זה קצת מסובך.
לכן שאלתי, במה זה משתמש (האתר)?

@מענדיל-טרייסטער כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:

אני מדבר על משהו שיהיה זמין בעת גלישה בכל האתרים
ולא התכוונתי לאתר ספציפי

כמובן, התוסף ייטען מהאתר.

המלאך

אוקי.
אז האתר משתמש בבינה מלאכותית, מה שאומר שיש שני אופציות.
או שמישהו ישכור שרת (קשה לי להאמין שחינמי יספיק לזה), ושם יריץ מודל וינתב לשם.
או כמו התוכנה של @css-0 אבל עם שימוש של ONNX,
אם יבוצע המודל אופליין, אז יש כמה דרכים לייעל את התוסף/תוכנה מאוד.

מענדיל טרייסטער

@המלאך כתב בהצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד:

אז האתר משתמש בבינה מלאכותית

לא הבנתי,
איזה אתר?

המלאך

@מענדיל-טרייסטער זה:
https://vocalremover.org/

הישבשר המלומד

@המלאך אין לו API וגם הוא ממש לאט

מענדיל טרייסטער

@הישבשר-המלומד
יכול להיות
אבל לא מצאתי תוצאה יותר טובה בשום פלטפורמה אחרת

סליחה שהתערבתי...

הישבשר המלומד

@מענדיל-טרייסטער סבבה אבל אני עכשיו צופה ביוטיוב בקקליפ הוא יצטרך קודם להמיר את זה לMP3 ואז לשלוח את זה לשם ואז זה אמור לחזור גם אם נתעלם מהנושא של הזמן שזה לפחות 5 דקות מינימום וזה לא ראלי וזה בלי קשדר שזה נותן חינם רק פעם 1 ביום

mps

@הישבשר-המלומד לכן האפשרות היחידה זה מה שהצעתי למעלה.
https://mitmachim.top/post/1141651

הישבשר המלומד

@mps צודק. ניסתי לבנותא איזה תוסף אבל זה לא הלך טוב

מענדיל טרייסטער

@הישבשר-המלומד
אם זה מה ש @המלאך התכוון חושבני שזה באמת לא כ"כ מעשי, וכדבריך.
והלוואי שזה כן יהיה מעשי...
באמת תמהני שלמרות שעידן הAI נמצא בשיאו, לא ניתן לעשות שזה יפעיל את הקול בלבד בשעת מעשה

mps

ביקשתי מAI שייתן לי את התדרים שאפשר לחתוך בחי. בספולר.

חשוב להבין שחיתוך תדרים בלבד (ללא AI או ביטול פאזות) לא יבודד את השירה לחלוטין (תמיד יישארו כלי נגינה שמנגנים באותם תדרים), אבל הוא בהחלט יתמקד ב"לב" של הקול האנושי.
כדי להשיג את התוצאה הטובה ביותר בזמן אמת, אתה צריך להשתמש ב-Band-pass Filter (מסנן מעביר פס). אלו התדרים המרכזיים:

טווח התדרים הכללי של הקול האנושי
גבול תחתון (Low Cut / High Pass): בדרך כלל באזור ה-150Hz עד 200Hz.
מתחת לזה נמצאים הבאסים והתופים (Kick). חיתוך כאן ינקה את ה"בוץ" וישאיר את גוף הקול.
גבול עליון (High Cut / Low Pass): בדרך כלל באזור ה-4,000Hz (4kHz) עד 5,000Hz (5kHz).
מעל זה נמצאים מצילתיים (Hi-hats) וצלילים גבוהים מאוד של סינתיסייזרים. רוב המידע שמאפשר לנו להבין מילים נמצא מתחת ל-4kHz.
ה"סוויט ספוט" (Sweet Spot) לפי אזורים:
אם אתה בונה איקוולייזר (EQ) או פילטר, אלו האזורים שתרצה להדגיש:
300Hz - 1,000Hz: כאן נמצא ה"גוף" והחמימות של הקול.
1kHz - 3kHz: זהו הטווח הקריטי ביותר למובנות הדיבור (Intelligibility). האוזן האנושית הכי רגישה לתדרים האלה. זה מה שגורם לקול להישמע "קרוב".
3kHz - 5kHz: כאן נמצאת ה"נוכחות" (Presence) והבהירות של העיצורים (כמו ס', פ', ת').
הגדרות מומלצות לתוסף (Preset):
אם אתה רוצה ליצור אפקט של "רק שירה" (סטייל אפקט טלפון אבל איכותי יותר):
High Pass Filter: בתדר 200Hz עם שיפוע (Slope) של 12dB או 24dB לאוקטבה.
Low Pass Filter: בתדר 3,500Hz (3.5kHz).
Boost קטן: חיזוק של 2-3 דציבלים באזור ה-2kHz כדי להבליט את השירה מעל המוזיקה.
טיפ למקצוענים (Mid-Side Processing):
ברוב השירים המודרניים, השירה נמצאת במרכז (Mono) בעוד שחלק מהכלים נמצאים בצדדים (Stereo).
אם התוסף שלך יכול לעבד רק את ערוץ ה-Mid (המרכז) ולחתוך את ערוצי ה-Side, תוכל לבודד את השירה בצורה הרבה יותר אפקטיבית מאשר סתם חיתוך תדרים רגיל.
לסיכום:
הטווח הממוצע והיעיל ביותר הוא 200Hz עד 4,000Hz.
הערה: מכיוון שאתה לא משתמש ב-AI, קח בחשבון שגיטרות, פסנתר וסנר (Snare) ימשיכו להישמע בתוך הטווח הזה, כי הם חולקים את אותם התדרים עם הקול האנושי.

המלאך

@הישבשר-המלומד מי האתר?
הוא משתמש במודלים שיושבים על השרתים שלהם, הוא לא ייתן לנו להשתמש בהם ג"כ,
אנחנו נאלץ להשתמש במודלי בעצמינו.
להוריד ONNX כדוגמת זה: https://huggingface.co/chinedudave06/demucs-onnx או כל אחד אחר בסגנון.
ואז להבנה בזה: https://huggingface.co/matbee/sam-audio-small-onnx , או כל אחד אחר דומה לו.
ואחרון להשתמש בOmnizart דרך גוגל קלואב.
לדעתי אפשר את כולם דרך API, להאגינג פייס, אם כי אני לא יודע מהי המגבלה.

מענדיל טרייסטער

@mps אני חושב שגם באתר https://vocalremover.org/ הנחשב לאיכותי ביותר, ניתן לשמוע בעת השירה עצמה [כלומר כשהזמר שר ולא כשהוא נושם בין המילים] איזשהו שאריות של מוזיקה, לחדי שמיעה ממש, וזה משהו שאי אפשר להסיר כי זה סוג של חלק מהשירה שבלתי ניתן להפרדה.
ואם זה הרמה שלכך הוא התכוון - הרי שאנחנו נמצאים במקום מצויין.

mps

@המלאך שוב. זה לא יהיה תוך כדי שמיעה. כל סרטון שתרצה להפעיל "תשלח" לAI? ומה יקרה בינתיים? תשמע אותו רגיל? עד שתקבל תשובה כקובץ נפרד? איך הלוגיקה תעבוד?
ואם תקבל קובץ נפרד אז מה יש בתוסף?

המלאך

@mps אין כזה דבר שאותה שניה.
זה פשוט לא קיים.
ההבדל הוא שזה יהיה ככפתור על כל שיר, (כי זה תוסף) וזה יהיה מהר (כי זה ONNX) רק באמת נראה לי יש כלים פשוטים כמו מואייס AI.

מענדיל טרייסטער

אולי אפשר לעשות שברגע שמגיע תשובה משם, האודיו המקורי שרציתי להפעיל יופעל בווקאלי במקום עם שירה
ונחסוך גם את ההורדה

mps

@המלאך כחיתוך תדרים כן. אתה פשוט לא שומע את התדרים שמכילים מוזיקה.
יש את הטכנולוגיה הזו בנגן השמע של אורגני ימאהה.
זה פשוט סוג של EQ, שחותך את התדרים בספציפיים. זה לא נשמע ממש טוב, אבל זה עובד.

המלאך

@mps מה הפירוש? חותך צלילים מסויימים? זה הורס איכות ברמות אחרות!

mps

@המלאך נכון. אבל לדעתי לא תשיג טוב יותר בשביל השמעה בזמן אמת.

רפי סאם

@המלאך למה לא
אני בודק