أمازون تكشف عن أكبر نموذج لتحويل النص إلى كلام منطوق على الإطلاق

محمد صبري الإثنين, فبراير 19, 2024

This picture shows the logo of US online retail giant Amazon at the distribution center in Moenchengladbach, western Germany, on December 17, 2019. (Photo by INA FASSBENDER / AFP)

أعلن فريق من الباحثين في مجال الذكاء الاصطناعي في شركة أمازون عن تطوير ما وصفوه بأنه أكبر نموذج لتحويل النص إلى كلام منطوق على الإطلاق، ويعني ذلك وجود أكبر عدد من المعلمات واستخدام أكبر مجموعة بيانات تدريبية، حيث نشروا ورقة بحثية على خادم الطباعة المسبقة arXiv تصف كيفية تطوير النموذج وتدريبه.

وفقا لما ذكره موقع “techxplore”، اكتسبت نماذج الدردشة بالذكاء الاصطناعى LLMs مثل ChatGPT الاهتمام لقدرتها الشبيهة بالإنسان على الإجابة على الأسئلة بذكاء وإنشاء مستندات عالية المستوى، لكن الذكاء الاصطناعي لا يزال يشق طريقه إلى التطبيقات السائدة الأخرى أيضًا، وفي هذا الجهد الجديد، حاول الباحثون تحسين قدرة تطبيق تحويل النص إلى كلام من خلال زيادة عدد المعلمات والإضافة إلى قاعدة التدريب الخاصة به.

يحتوي النموذج الجديد، المسمى Big Adaptive Streamable TTS ذو القدرات الناشئة، (BASE TTS باختصار) على 980 مليون معلمة وتم تدريبه باستخدام 100000 ساعة من الكلام المسجل (الموجود على المواقع العامة)، معظمها باللغة الإنجليزية.

كما قدم الفريق أيضًا أمثلة لكلمات وعبارات منطوقة بلغات أخرى للسماح للنموذج بنطق العبارات المعروفة بشكل صحيح عندما يواجهها على سبيل المثال، “au Contraire”، أو “adios,amigo”.

اختبر فريق أمازون أيضًا النموذج على مجموعات بيانات أصغر، على أمل معرفة أين يطور ما أصبح معروفًا في مجال الذكاء الاصطناعي بالجودة الناشئة، حيث يتم تطبيق الذكاء الاصطناعي، سواء كان تطبيق LLM أو تطبيق تحويل النص إلى كلام، يبدو فجأة أنه وصل إلى مستوى أعلى من الذكاء.

ووجدوا أنه بالنسبة لتطبيقهم، كانت مجموعة البيانات متوسطة الحجم هي المكان الذي حدثت فيه القفزة إلى مستوى أعلى، عند 150 مليون معلمة.

وأشاروا أيضًا إلى أن هذه القفزة تضمنت مجموعة من السمات اللغوية، مثل القدرة على استخدام الأسماء المركبة، والتعبير عن المشاعر، واستخدام الكلمات الأجنبية، وتطبيق شبه اللغوي وعلامات الترقيم وطرح الأسئلة مع التركيز على الكلمة الصحيحة في النص.

قول الفريق أن BASE TTS لن يتم إصداره للعامة، فهم يخشون أن يتم استخدامه بشكل غير أخلاقي، وبدلاً من ذلك، يخططون لاستخدامه كتطبيق تعليمي.

ويتوقعون تطبيق ما تعلموه حتى الآن لتحسين جودة الصوت البشري لتطبيقات تحويل النص إلى كلام بشكل عام.

الوسوم

محمد صبري الإثنين, فبراير 19, 2024

أمازون تكشف عن أكبر نموذج لتحويل النص إلى كلام منطوق على الإطلاق

محمد صبري

أقرأ التالي

مطبخ نمبر 1 نيوز : عمل تشيز كيك بارد بدون فرن

أسباب تجاعيد العين.. علاجات طبية ووصفات طبيعية

صرف منحة قدرها 70 ألف جنيه لضحايا حادث “المطرية – بورسعيد”

السيسي:الأوضاع المضطربة بالمنطقة تفرض علينا الاستمرار في بناء قدرات القوى الشاملة

مطبخ نمبر 1 نيوز : عمل تشيز كيك بارد بدون فرن

أسباب تجاعيد العين.. علاجات طبية ووصفات طبيعية

صرف منحة قدرها 70 ألف جنيه لضحايا حادث “المطرية – بورسعيد”

السيسي:الأوضاع المضطربة بالمنطقة تفرض علينا الاستمرار في بناء قدرات القوى الشاملة

أقرأ التالي

مطبخ نمبر 1 نيوز : عمل تشيز كيك بارد بدون فرن

أسباب تجاعيد العين.. علاجات طبية ووصفات طبيعية

صرف منحة قدرها 70 ألف جنيه لضحايا حادث “المطرية – بورسعيد”

السيسي:الأوضاع المضطربة بالمنطقة تفرض علينا الاستمرار في بناء قدرات القوى الشاملة

الفنانة مى عمر.. أفوكاتو فى رمضان

​مصرع شخصين وإصابة أخر في حادث تصادم بالدقهلية

مقالات ذات صلة

مصرع شخصين وإصابة أخر في حادث تصادم بالدقهلية