رسول

10 دقیقه مطالعه

4 شهریور 1402

8 مهر 1404

در تازه‌ترین پیشرفت‌های دنیای تکنولوژی، شرکت Meta (که پیشتر با نام فیسبوک شناخته می‌شد) به دنبال توسعه یک هوش مصنوعی پیشرفته است که قادر به درک و تسلط بر طیف گسترده‌ای از لهجه‌ها و چهره‌های زبانی مختلف است. به این منظور، آنها مدل هوش مصنوعی مبتکری با نام SeamlessM4T را ایجاد کرده‌اند. این مدل متناسب با نامش، تلاشی برای ایجاد یک ارتباط پیوسته و بی‌وقفه بین زبان‌های مختلف دارد و قابلیت ترجمه و رونویسی نزدیک به 100 زبان را به صورت متنی و گفتاری داراست.

با تکیه بر این فناوری پیشرفته، SeamlessM4T توانایی ترجمه متون و گفتارها را در سطوح گوناگون ارائه می‌دهد. این به افراد و سازمان‌ها این امکان را می‌دهد تا به سهولت و با دقت بالا ارتباطات خود را در میان فرهنگ‌ها و زبان‌های مختلف برقرار کنند. از اهمیت ویژگی این مدل می‌توان به توانایی تشخیص لهجه‌های گوناگون یک زبان در متن‌ها و گفتارها اشاره کرد، که این امر به ترجمه بهتر و دقیق‌تر کمک می‌کند. علاوه بر این، SeamlessM4T به‌صورت دقیق ترجمه‌های مربوط به جنسیت را نیز مدیریت می‌کند، به‌طوری که در ترجمه متون با توجه به جنسیت افراد تفاوت‌هایی ایجاد می‌کند.

این پیشرفت‌های مهم در حوزه هوش مصنوعی و ترجمه، به نوعی پلی بین فرهنگ‌ها و زبان‌ها ایجاد می‌کند و به انسان‌ها امکان ارتباط و تبادل دانش با سرعت و دقت بیشتری را می‌دهد. با گسترش این فناوری، امیدواریم به نتایجی رسید که ارتباطات جهانی را به یک سطح جدید از سهولت و انعطاف‌پذیری برساند و در تبادل فرهنگ‌ها و هم‌افزایی بشریت نقش موثری ایفا کند.

Meta اعلام کرده است که مدل هوش مصنوعی SeamlessM4T، همراه با مجموعه داده ترجمه جدید SeamlessAlign که به صورت متن باز در دسترس قرار دارد، در حوزه گفتار به گفتار و گفتار به نوشتار با استفاده از هوش مصنوعی، یک پیشرفت قابل توجه داشته است.

در یک نوشته وبلاگی که توسط شرکت متا به اشتراک گذاشته شده است، اشاره شده است که: “مدل یکپارچه ما ترجمه‌های درخواستی را فراهم می‌کند که به افرادی که از زبان‌های مختلف استفاده می‌کنند، امکان برقراری ارتباطات مؤثر را می‌دهد. با استفاده از تکنولوژی SeamlessM4T، این تشخیص بر اساس زبان مبدأ بدون نیاز به مدل زبان جداگانه صورت می‌گیرد و زبان متن مبدأ را تشخیص می‌دهد.”

SeamlessM4T به نوعی به عنوان جانشین معنوی برای “Meta’s No Language Left Behind” عمل می‌کند؛ یک مدل ترجمه ماشینی متن به متن و “Universal Speech Translator”، یکی از تعداد معدودی از سیستم‌های ترجمه مستقیم گفتار به گفتار که از زبان‌های مختلف پشتیبانی می‌کند. این مدل مبتنی بر گفتار انبوه چند زبانه است و از چارچوب Meta به نام SeamlessAlign استفاده می‌کند که تکنولوژی تشخیص گفتار، شناسایی زبان و ترکیب گفتار را در بیش از 1100 زبان ارائه می‌دهد.

اصولاً متا تنها منبعی نیست که در جهت توسعه ابزارهای پیشرفته ترجمه و رونویسی با هوش مصنوعی سرمایه‌گذاری می‌کند. به علاوه از خدمات تجاری انبوه و مدل‌های منبع باز که پیش‌تر توسط شرکت‌هایی همچون آمازون، مایکروسافت، OpenAI و تعدادی از استارتاپ‌ها ارائه شده‌اند، گوگل نیز در حال ایجاد مدلی به نام “مدل گفتار جهانی” است که بخشی از تلاش‌های بزرگتر غول‌های فناوری برای ایجاد مدلی قابل درک و جامع محسوب می‌شود. در حال حاضر، با وجود وجود 1000 زبان پرتکلم در جهان، پروژه Common Voice تحت رهبری موزیلا نیز یکی از بزرگترین مجموعه‌های چند زبانه صداها را به منظور آموزش الگوریتم‌های تشخیص گفتار تجمیع کرده است.

اما SeamlessM4T تا به امروز یکی از تلاش‌های بلندپروازانه‌تر در زمینه ترکیب قابلیت‌های ترجمه و رونویسی در یک مدل واحد محسوب می‌شود. این مدل توسط Meta توسعه داده شده و از داده‌های گسترده‌ای که از منابع منبع باز تهیه کرده است، بهره می‌برد تا توانایی‌های گوناگون خود را در ترجمه و رونویسی به نحو بهینه ارتقاء دهد.

متا در فرآیند توسعه این مدل، اعلام می‌کند که متون به تعداد بسیار زیادی (به ترتیب «ده‌ها میلیارد» جمله) و گفتار به میزان ۴ میلیون ساعت را از منابع عمومی وب حذف کرده است. در یک مصاحبه با TechCrunch، خوان پینو، یکی از دانشمندان تحقیقاتی در بخش هوش مصنوعی متا و همچنین عضو تیم توسعه این پروژه، اطلاعات دقیق درباره منابع دقیق این داده‌ها را آشکار نکرده است و تنها اشاره کرده است که تنوعی از منابع مورد استفاده وجود دارد.

این موضوع موجب شده تا تولیدکنندگان محتوا نسبت به استفاده از داده‌های عمومی برای آموزش مدل‌های قابل تجاری به موافقت نرسند. برخی از شرکت‌ها که ابزارهای هوش مصنوعی را با استفاده از داده‌های در دسترس عموم تولید می‌کنند، شکایت کرده‌اند و ادعا می‌کنند که فروشندگان باید مجبور شوند تا اطلاعات اعتباری را ارائه دهند و در غیر این صورت متخلفان غرامت بپردازند. این امر به گونه‌ای است که راه‌های واضحی برای واگذاری از این نوع تلاش‌ها وجود دارد.

با این حال، متا ادعا می‌کند که داده‌هایی که استفاده کرده است، که ممکن است شامل اطلاعات شناسایی شخصی نیز باشد، دارای حق چاپ نیستند و در واقع از منابع منبع باز یا دارای مجوز تهیه شده است. این امر نشان از این دارد که متا به منابع قانونی و مجاز برای تامین داده‌های مورد نیاز برای توسعه مدل‌هایش پایبند بوده است.

متا از متن و گفتاری که در حال حاضر به‌طور ناقص و خراشیده وجود دارد، برای ایجاد مجموعه داده آموزشی با نام SeamlessAlign استفاده کرده است. این مجموعه داده شامل ۴۴۳،۰۰۰ ساعت گفتار که با متون تراز شده‌اند و ۲۹،۰۰۰ ساعت هم‌ترازی گفتار به گفتار را شامل می‌شود. این مجموعه داده‌ها به مدل هوش مصنوعی SeamlessM4T آموزش داده شده‌اند تا مدل بتواند مهارت‌هایی از جمله ترجمه متن به متن، ترجمه گفتار به متن، تولید گفتار از متن، ترجمه کلمات از یک زبان به زبان دیگر و موارد مشابه را انجام دهد.

متا معتقد است که این پیشرفت در ادغام متن و گفتار در مجموعه داده آموزشی، به مدل SeamlessM4T قدرت و عملکرد بیشتری در مواجهه با نویزهای پس‌زمینه و تغییرات بلندگو در وظایفی مانند تبدیل گفتار به متن اعطا می‌کند. این بهبود در اداء را به ترکیب مناسب داده‌های گفتاری و متنی در مجموعه داده آموزشی نسبت می‌دهد. به عبارت دیگر، متا با تلفیق داده‌های گفتاری و متنی، SeamlessM4T را از مدل‌های تنها گفتاری و متنی بهتر می‌داند و این مدل را در تسلط به وظایف مختلف ترجمه و تبدیل میان متن و گفتار به سطح جدیدی ارتقا می‌بخشد.

هرچند این پیشرفت‌ها مهم هستند، اما متا همچنان به دنبال درک بهتر از اینکه مدل‌های هوش مصنوعی چگونه تصمیمات خود را می‌گیرند و آیا ممکن است توجهات یا سوگیری‌هایی در تصمیمات آنها وجود داشته باشد، می‌باشد. این نگرش نشان از پیگیری متا از جنبه‌های اخلاقی و انسانی در توسعه هوش مصنوعی دارد.

مقاله‌ای که به تازگی در The Conversation منتشر شده است، به نکات منفی و نقدهایی نسبت به ترجمه مبتنی بر هوش مصنوعی اشاره دارد. در این مقاله، مشکلاتی نظیر سوگیری جنسیتی در ترجمه‌ها به وسیله هوش مصنوعی مورد بحث قرار می‌گیرد. به عنوان مثال، اشکالاتی در ترجمه‌های انجام شده توسط Google Translate نشان داده شده است که این سیستم زمانی فرض می‌کند که پزشکان مرد هستند و پرستاران زن، و این موضوع باعث تبدیل شدن ترجمه‌ها به نوعی تعیین‌کننده جنسیتی می‌شود. همچنین، برخی موارد نادرستی در ترجمه‌های میان زبانی توسط سیستم‌های ترجمه مانند مترجم بینگ از طریق عبارات نمونه ذکر شده است.

علاوه بر این، الگوریتم‌های تشخیص گفتار نیز به مشکلاتی برخورد کرده‌اند. بر اساس یک مطالعه که در مجموعه مقالات آکادمی ملی علوم منتشر شده است، سیستم‌های تشخیص گفتار شرکت‌های پیشرو در این حوزه دو برابر بیشتر احتمال دارند که صداهای اشخاص سیاه‌پوست را به اشتباه رونویسی کنند نسبت به صداهای اشخاص سفیدپوست.

در مقاله‌ای که در کنار پست وبلاگ منتشر شده است، متا به مسائل دیگری نیز پرداخته است. این مقاله اشاره می‌کند که مشکلاتی که در مورد SeamlessM4T مطرح شده‌اند، نوعی اختصاصی نیستند و در حوزه ترجمه و تشخیص گفتار به طور گسترده‌تر نیز وجود دارند.

همچنین، در مقاله سفید منتشر شده، متا بیان کرده است که وقتی از اصطلاحات خنثی به اشکال مذکر ترجمه می‌کند، این عملکرد به تمام زبان‌ها تعمیم می‌یابد. همچنین، وقتی از مرجع مذکر برای اشخاص استفاده می‌شود، SeamlessM4T در اکثر زبان‌ها بهتر عمل می‌کند.

در مورد جنسیت نیز، مقاله بیان می‌کند که در صورت عدم وجود اطلاعات جنسیتی، SeamlessM4T ترجیح می‌دهد حدود 10 درصد ترجمه را با فرم مردانه انجام دهد. این امر ممکن است به دلیل تعداد بیشتری واژگان مردانه در داده‌های آموزشی باشد.

متا نیز ادعا می‌کند که SeamlessM4T در ترجمه‌های خود مقدار زیادی متن مخرب اضافه نمی‌کند، که یک مشکل رایج در ترجمه و مدل‌های متنی مولد هوش مصنوعی است. اما به هر حال، مشکلات همچنان وجود دارند. به عنوان مثال، در برخی زبان‌ها مانند بنگالی و قرقیزی، ترجمه‌های بسیار تهاجم‌آمیزتری انجام می‌شود که شامل ترجمه‌های نفرت‌انگیز یا توهین‌آمیز در مورد وضعیت و فرهنگ اجتماعی-اقتصادی است. به طور کلی، در ترجمه‌های مربوط به گرایش‌های جنسی و مذهب نیز، SeamlessM4T به ترجمه‌های بسیار تندتری انجام می‌دهد.

در مورد نسخه عمومی نمایشی SeamlessM4T، متا اشاره کرده است که این نسخه دارای فیلتری برای تشخیص و کاهش سمیت در گفتار ورودی و خروجی بالقوه سمی است. با این حال، این فیلتر به طور پیش‌فرض در نسخه منبع باز مدل وجود ندارد.

مقاله‌ای که به آن اشاره شده است، به یک مسئله مهمتر در ترجمه‌های مبتنی بر هوش مصنوعی اشاره می‌کند، و آن هم از دست دادن غنای واژگانی است که ممکن است ناشی از استفاده بیش از حد از آنها باشد. در مقابل، مترجمان انسانی در ترجمه‌هایشان انتخاب‌های منحصر به فردی دارند. آنها می‌توانند مفاهیم را توضیح دهند، متن را تنظیم کنند، خلاصه کنند و اثر خود را بر روی ترجمه گذاشته و به نوعی “ترجمه” را به شیوه‌های غیررسمی تغییر دهند. سیستم‌های هوش مصنوعی اغلب ترجمه‌های “دقیق” تری تولید می‌کنند، اما ممکن است این دقت بیشتر به قیمت تنوع و تجدیدنظر ترجمه ایجاد شود.

بنابراین، به دلیل این مشکل، متا توصیه می‌کند از SeamlessM4T برای ترجمه‌های طولانی و ترجمه‌های رسمی مانند مواردی که توسط سازمان‌های دولتی و مقامات ترجمه می‌شوند، استفاده نکنید. همچنین، از استفاده از SeamlessM4T در موارد پزشکی یا قانونی جلوگیری می‌کند، احتمالاً به علت تلاش برای پوشش دادن مسئولیت‌ها و ریسک‌های اشتباهات ترجمه.

این تصمیم عاقلانه است؛ حداقل چند مورد از وقوع ترجمه‌های نادرست توسط هوش مصنوعی منجر به اشتباهات اجرای قوانین شده است. در سپتامبر 2012، پلیس به اشتباه با یک مرد کرد به خاطر ترجمه‌ی نادرست پیامک، او را به اتهام تأمین مالی برای تروریسم دستگیر کرد. و در سال 2017، یک پلیس در کانزاس از Google Translate استفاده کرد تا از یک اسپانیایی‌زبان بپرسد که آیا می‌توانند خودروی خود را برای جستجوی مواد مخدر تفتیش کنند، اما به دلیل ترجمه‌ی نادرست، راننده به طور کامل نفهمید با چه چیزی موافقت کرده و موضوع در نهایت به نتیجه‌ای منجر نشد.

پینو گفت: “این رویکرد سیستمی واحد، خطاها و تأخیرها را به حداقل می‌رساند، کارایی و کیفیت فرآیند ترجمه را افزایش می‌دهد و ما را به امکان نزدیک‌تر شدن به ترجمه‌های بی‌نقص می‌برد.” در آینده، ما می‌خواهیم بررسی کنیم که این مدل بنیادی چگونه می‌تواند قابلیت‌های ارتباطی جدیدی را فعال کند، که در نهایت به ما کمک می‌کند تا به یک جهان نزدیک‌تر برسیم که در آن همه قابل درک باشند.

تصویر : SurfUpVector / Getty Images

متا یک مدل هوش مصنوعی منتشر کرد که می تواند نزدیک به 100 زبان را ترجمه کند

دیدگاهتان را بنویسید لغو پاسخ