• مقاله ها
  • مقاله ی قابلیت زیرنویس خودکار اندروید 10 چگونه کار می‌کند؟
جدیدترین نظرات ارسال شده

قابلیت زیرنویس خودکار اندروید 10 چگونه کار می‌کند؟

کیمیالاین | مشاهده مقاله قابلیت زیرنویس خودکار اندروید 10 چگونه کار می‌کند؟
قابلیت زیرنویس خودکار اندروید 10 چگونه کار می‌کند؟

در محتوای صوتی وجود زیرنویس برای ناشنوایان و کم شنوایان الزامی است، اما برای عموم مردم هم بدون بهره نیست. تماشای ویدیوهای بی‌صدا در قطار، جلسات، هنگامی که کودکان خوابیده‌اند و مواردی از این قبیل معمولا امر رایجی است همچنین مطالعات نشان‌ می‌دهند که وجود زیرنویس، مدت زمانی‌ را که کاربر صرف تماشای فیلم می‌کند، حدود ۴۰ درصد افزایش می‌دهد. در حال حاضر این قابلیت ( پشتیبانی از زیرنویس ) به صورت همگانی در میان برنامه ها و حتی در درون آنها وجود ندارد. به همین دلیل در حجم قابل توجهی از محتوای صوتی از جمله وبلاگ‌های پخش ویدیوهای زنده، پادکست‌ها، ویدیوهای محلی، پیام‌های صوتی و رسانه‌های اجتماعی، امکان دسترسی به زیرنویس وجود ندارد.

یکی از جدید ترین و جالب ترین ویژگی های Live Caption ، در سیستم عامل اندروید است که به کمک شاخه‌ای وسیع و پر کاربرد از هوش مصنوعی با نام یادگیریِ ماشین، جهت تولید زیرنویس برای انواع ویدیوهای تحت وب و محلی در گوشی‌های هوشمند مورد استفاده قرار می‌گیرد. تولید زیرنویس، به صورت لحظه ای با استفاده از اطلاعات داخلی ود گوشی، بدون استفاده از منابع آنلاین صورت میگیرد که نتیجه‌ی آن حفظ بیشتر حریم خصوصی و کاهش زمان ایجاد زیرنویس خواهد بود. گوگل در وبلاگ رسمیِ این شرکت پستی را منتشر کرده‌ که جزئیات ریزی از نحوه‌ی عملکرد این ویژگیِ عالی را نشان می‌دهد. عملکرد یاد شده با استفاده از مدل‌‌‌های ژرف یادگیری ماشین در سه مقطع مختلف در این فرایند ایجاد می‌شود.

در ابتدای امر مدلی به‌صورت RNN-T، یا همان هدایت دنباله‌ی شبکه عصبی بازگشتی برای تشخیص گفتار وجود دارد. RNN، به‌معنیِ شبکه‌ی عصبی بازگشتی یا مکرر، کلاسی از شبکه‌های عصبی مصنوعی است که در آن اتصالات بین، گره‌هایی از یک گراف جهت‌دار در امتداد یک دنباله‌ی زمانی هستند و این امر سبب می‌شود تا الگوریتم بتواند موقتا رفتار پویایی را به نمایش بگذارد. برخلاف شبکه‌های عصبی رو به جلو، شبکه‌های عصبی مکرر می‌توانند از وضعیت درونی خود برای پردازش دنباله‌ی ورودی‌ها استفاده کنند که این ویژگی آن‌ها را برای مواردی نظیر تشخیص صدا، یا تشخیص دست‌نوشته‌های غیربخش‌بندی شده‌ی متصل مناسب می‌کند.

برای انجام پیش‌بینی‌های نگارشی نیز گوگل از شبکه‌ی عصبی مکرر مبتنی بر متن استفاده می‌کند. سومین استفاده از مدل‌های یادگیری ماشین شامل یک CNN، یا همان شبکه‌ی عصبیِ پیچشی برای تحلیل رویدادهای صوتی نظیر آواز پرندگان، کف زدن افراد و موسیقی است. شبکه‌های عصبی پیچشی یا همگشتی رده‌ای از شبکه‌های عصبی مصنوعی ژرف هستند که معمولاً برای انجام تحلیل‌های تصویری یا گفتاری در یادگیری ماشین استفاده می‌شوند. گوگل چنین عنوان کرد که این مدل از یادگیریِ ماشین، برگرفته شده از تلاش‌ آن‌ها در جهت ارتقاء نرم‌افزار accessibility Live Transcribe است. نرم‌افزار یادشده در سیستم‌عامل اندروید به کاربران اجازه‌ی تبدیل گفتار به متن را می‌دهد. در نهایت Live Caption، در جهت ایجاد یک زیرنویس واحد، سیگنال دریافتی از سه مدل یادگیریِ ماشین شامل: RNN-T ،RNN و CNN را با یکدیگر ادغام می‌کند و زیرنویس به‌صورت بی‌وقفه و درنتیجه‌ی جریان صدا نمایش داده می‌شود.

گوگل می‌گوید اقدامات زیاذی برای کاهش توان مصرفی و همچنین بر طرف کردن نیاز‌های عملکردیِ Live Caption انجام شده است. برای اولین‌بار، موتور تشخیص خودکار صدا «ASR»، فقط در هنگام شناساییِ گفتار اجرا می‌شود و در پس‌زمینه غیرفعال خواهد بود. گوگل در وبلاگ خود مسئله را این‌گونه تشریح می‌کند:

به‌عنوان مثال زمانی‌که صوت دریافتی به‌عنوان موسیقی تشخیص داده ه‌شود و جریان صدا بدون هر گونه گفتار باشد، برچسب MUSIC در صفحه‌نمایش داده شده و موتور تشخیص خودکار صدا بارگذاری نمی‌شود. ASR تنها زمانی در حافظه بارگذاری می‌شود که گفتار مجددا در جریان صدا به وجود آید.

گوگل همچنین از تکنیک‌‌‌‌های هوش مصنوعی مانند هرس اتصال عصبی (neural connection pruning) که به وسیله‌ی کاهش اندازه‌ی مدل گفتار انجام می‌گیرد نیز استفاده کرده‌‌ و فرایند را به‌صورت کلی بهینه‌سازی کرده است. به همین دلیل توان مصرفی در حدود ۵۰ درصد کاهش می‌یابد که همین امر سبب اجرای مداوم Live Caption می‌شود. با وجود تمامیِ بهینه‌سازی‌ها در مصرف انرژی، این ویژگی در بیشتر حالات از جمله تشخیص جریان‌های کوتاه صدا و مکالمات تلفنی با پهنای باند کمِ دامنه‌ی صوتی و نیز در هنگام وجود سروصدا در پس‌زمینه‌ی محتوای صوتی، از عملکرد خوبی برخوردار است.

گوگل تشریح می‌کند که مدل نگارشیِ مبتنی بر متن، در جهت اجرای مداوم و به‌صورت داخلی روی گوشیِ هوشمند، به یک معماریِ معادل کوچک‌‌‌‌‌تر از فضای ابری مجهز شده و سپس به کمک قابلیت TensorFlow Lite، برای کار روی سخت‌افزار بهینه شده‌است. به دلیل شکل گیریِ زیرنویس، نتایج تشخیص گفتار چندین بار در هر ثانیه به‌روزرسانی می‌شوند و به منظور کاهش نیاز به منابع، پیش‌بینی‌های نگارشی بر دنباله‌ی متن، از تجزیه و تحلیل آخرین جمله‌‌ی شناسایی شده از گفتار صورت می‌گیرد.

Live Caption، هم اکنون در گوشی های هوشمند گوگل پیکسل 4 در دسترس قرار دارد و گوگل اعلام کرده است که این ویژگی به‌زودی برای پیکسل‌های سری 3 و سایر دستگاه‌ها نیز منتشر خواهد‌ شد. این شرکت در تلاش است تا Live Caption را در سایر زبان‌ها نیز کاربردی کند و ویژگی مذکور را برای پشتیبانی از محتوای دارای قابلیت multi-speaker، یا همان پخش‌کننده‌ی  چندگانه‌ی صدا ارتقا دهد.

 

 



ارسال دیدگاه

کامنت های ثبت شده برای مقاله قابلیت زیرنویس خودکار اندروید 10 چگونه کار می‌کند؟

    کیمیالاین | مشاهده مقاله قابلیت زیرنویس خودکار اندروید 10 چگونه کار می‌کند؟
    Scroll