הצעת ייעול | בניית תוסף להפיכת כל השמעה לווקאלי בלבד
-
@המלאך אין לו API וגם הוא ממש לאט
@הישבשר-המלומד מי האתר?
הוא משתמש במודלים שיושבים על השרתים שלהם, הוא לא ייתן לנו להשתמש בהם ג"כ,
אנחנו נאלץ להשתמש במודלי בעצמינו.
להוריד ONNX כדוגמת זה: https://huggingface.co/chinedudave06/demucs-onnx או כל אחד אחר בסגנון.
ואז להבנה בזה: https://huggingface.co/matbee/sam-audio-small-onnx , או כל אחד אחר דומה לו.
ואחרון להשתמש בOmnizart דרך גוגל קלואב.
לדעתי אפשר את כולם דרך API, להאגינג פייס, אם כי אני לא יודע מהי המגבלה. -
ביקשתי מAI שייתן לי את התדרים שאפשר לחתוך בחי. בספולר.
חשוב להבין שחיתוך תדרים בלבד (ללא AI או ביטול פאזות) לא יבודד את השירה לחלוטין (תמיד יישארו כלי נגינה שמנגנים באותם תדרים), אבל הוא בהחלט יתמקד ב"לב" של הקול האנושי.
כדי להשיג את התוצאה הטובה ביותר בזמן אמת, אתה צריך להשתמש ב-Band-pass Filter (מסנן מעביר פס). אלו התדרים המרכזיים:- טווח התדרים הכללי של הקול האנושי
גבול תחתון (Low Cut / High Pass): בדרך כלל באזור ה-150Hz עד 200Hz.
מתחת לזה נמצאים הבאסים והתופים (Kick). חיתוך כאן ינקה את ה"בוץ" וישאיר את גוף הקול.
גבול עליון (High Cut / Low Pass): בדרך כלל באזור ה-4,000Hz (4kHz) עד 5,000Hz (5kHz).
מעל זה נמצאים מצילתיים (Hi-hats) וצלילים גבוהים מאוד של סינתיסייזרים. רוב המידע שמאפשר לנו להבין מילים נמצא מתחת ל-4kHz. - ה"סוויט ספוט" (Sweet Spot) לפי אזורים:
אם אתה בונה איקוולייזר (EQ) או פילטר, אלו האזורים שתרצה להדגיש:
300Hz - 1,000Hz: כאן נמצא ה"גוף" והחמימות של הקול.
1kHz - 3kHz: זהו הטווח הקריטי ביותר למובנות הדיבור (Intelligibility). האוזן האנושית הכי רגישה לתדרים האלה. זה מה שגורם לקול להישמע "קרוב".
3kHz - 5kHz: כאן נמצאת ה"נוכחות" (Presence) והבהירות של העיצורים (כמו ס', פ', ת'). - הגדרות מומלצות לתוסף (Preset):
אם אתה רוצה ליצור אפקט של "רק שירה" (סטייל אפקט טלפון אבל איכותי יותר):
High Pass Filter: בתדר 200Hz עם שיפוע (Slope) של 12dB או 24dB לאוקטבה.
Low Pass Filter: בתדר 3,500Hz (3.5kHz).
Boost קטן: חיזוק של 2-3 דציבלים באזור ה-2kHz כדי להבליט את השירה מעל המוזיקה. - טיפ למקצוענים (Mid-Side Processing):
ברוב השירים המודרניים, השירה נמצאת במרכז (Mono) בעוד שחלק מהכלים נמצאים בצדדים (Stereo).
אם התוסף שלך יכול לעבד רק את ערוץ ה-Mid (המרכז) ולחתוך את ערוצי ה-Side, תוכל לבודד את השירה בצורה הרבה יותר אפקטיבית מאשר סתם חיתוך תדרים רגיל.
לסיכום:
הטווח הממוצע והיעיל ביותר הוא 200Hz עד 4,000Hz.
הערה: מכיוון שאתה לא משתמש ב-AI, קח בחשבון שגיטרות, פסנתר וסנר (Snare) ימשיכו להישמע בתוך הטווח הזה, כי הם חולקים את אותם התדרים עם הקול האנושי.
@mps אני חושב שגם באתר https://vocalremover.org/ הנחשב לאיכותי ביותר, ניתן לשמוע בעת השירה עצמה [כלומר כשהזמר שר ולא כשהוא נושם בין המילים] איזשהו שאריות של מוזיקה, לחדי שמיעה ממש, וזה משהו שאי אפשר להסיר כי זה סוג של חלק מהשירה שבלתי ניתן להפרדה.
ואם זה הרמה שלכך הוא התכוון - הרי שאנחנו נמצאים במקום מצויין. - טווח התדרים הכללי של הקול האנושי
-
@הישבשר-המלומד מי האתר?
הוא משתמש במודלים שיושבים על השרתים שלהם, הוא לא ייתן לנו להשתמש בהם ג"כ,
אנחנו נאלץ להשתמש במודלי בעצמינו.
להוריד ONNX כדוגמת זה: https://huggingface.co/chinedudave06/demucs-onnx או כל אחד אחר בסגנון.
ואז להבנה בזה: https://huggingface.co/matbee/sam-audio-small-onnx , או כל אחד אחר דומה לו.
ואחרון להשתמש בOmnizart דרך גוגל קלואב.
לדעתי אפשר את כולם דרך API, להאגינג פייס, אם כי אני לא יודע מהי המגבלה. -
@המלאך שוב. זה לא יהיה תוך כדי שמיעה. כל סרטון שתרצה להפעיל "תשלח" לAI? ומה יקרה בינתיים? תשמע אותו רגיל? עד שתקבל תשובה כקובץ נפרד? איך הלוגיקה תעבוד?
ואם תקבל קובץ נפרד אז מה יש בתוסף? -
אולי אפשר לעשות שברגע שמגיע תשובה משם, האודיו המקורי שרציתי להפעיל יופעל בווקאלי במקום עם שירה
ונחסוך גם את ההורדה -
@mps אין כזה דבר שאותה שניה.
זה פשוט לא קיים.
ההבדל הוא שזה יהיה ככפתור על כל שיר, (כי זה תוסף) וזה יהיה מהר (כי זה ONNX) רק באמת נראה לי יש כלים פשוטים כמו מואייס AI. -
@המלאך כחיתוך תדרים כן. אתה פשוט לא שומע את התדרים שמכילים מוזיקה.
יש את הטכנולוגיה הזו בנגן השמע של אורגני ימאהה.
זה פשוט סוג של EQ, שחותך את התדרים בספציפיים. זה לא נשמע ממש טוב, אבל זה עובד. -
@mps אין כזה דבר שאותה שניה.
זה פשוט לא קיים.
ההבדל הוא שזה יהיה ככפתור על כל שיר, (כי זה תוסף) וזה יהיה מהר (כי זה ONNX) רק באמת נראה לי יש כלים פשוטים כמו מואייס AI. -


וזה המקיסמום מהירות שאפשר..