
در تازهترین پیشرفتهای دنیای تکنولوژی، شرکت Meta (که پیشتر با نام فیسبوک شناخته میشد) به دنبال توسعه یک هوش مصنوعی پیشرفته است که قادر به درک و تسلط بر طیف گستردهای از لهجهها و چهرههای زبانی مختلف است. به این منظور، آنها مدل هوش مصنوعی مبتکری با نام SeamlessM4T را ایجاد کردهاند. این مدل متناسب با نامش، تلاشی برای ایجاد یک ارتباط پیوسته و بیوقفه بین زبانهای مختلف دارد و قابلیت ترجمه و رونویسی نزدیک به 100 زبان را به صورت متنی و گفتاری داراست.
با تکیه بر این فناوری پیشرفته، SeamlessM4T توانایی ترجمه متون و گفتارها را در سطوح گوناگون ارائه میدهد. این به افراد و سازمانها این امکان را میدهد تا به سهولت و با دقت بالا ارتباطات خود را در میان فرهنگها و زبانهای مختلف برقرار کنند. از اهمیت ویژگی این مدل میتوان به توانایی تشخیص لهجههای گوناگون یک زبان در متنها و گفتارها اشاره کرد، که این امر به ترجمه بهتر و دقیقتر کمک میکند. علاوه بر این، SeamlessM4T بهصورت دقیق ترجمههای مربوط به جنسیت را نیز مدیریت میکند، بهطوری که در ترجمه متون با توجه به جنسیت افراد تفاوتهایی ایجاد میکند.
این پیشرفتهای مهم در حوزه هوش مصنوعی و ترجمه، به نوعی پلی بین فرهنگها و زبانها ایجاد میکند و به انسانها امکان ارتباط و تبادل دانش با سرعت و دقت بیشتری را میدهد. با گسترش این فناوری، امیدواریم به نتایجی رسید که ارتباطات جهانی را به یک سطح جدید از سهولت و انعطافپذیری برساند و در تبادل فرهنگها و همافزایی بشریت نقش موثری ایفا کند.
Meta اعلام کرده است که مدل هوش مصنوعی SeamlessM4T، همراه با مجموعه داده ترجمه جدید SeamlessAlign که به صورت متن باز در دسترس قرار دارد، در حوزه گفتار به گفتار و گفتار به نوشتار با استفاده از هوش مصنوعی، یک پیشرفت قابل توجه داشته است.
در یک نوشته وبلاگی که توسط شرکت متا به اشتراک گذاشته شده است، اشاره شده است که: “مدل یکپارچه ما ترجمههای درخواستی را فراهم میکند که به افرادی که از زبانهای مختلف استفاده میکنند، امکان برقراری ارتباطات مؤثر را میدهد. با استفاده از تکنولوژی SeamlessM4T، این تشخیص بر اساس زبان مبدأ بدون نیاز به مدل زبان جداگانه صورت میگیرد و زبان متن مبدأ را تشخیص میدهد.”
SeamlessM4T به نوعی به عنوان جانشین معنوی برای “Meta’s No Language Left Behind” عمل میکند؛ یک مدل ترجمه ماشینی متن به متن و “Universal Speech Translator”، یکی از تعداد معدودی از سیستمهای ترجمه مستقیم گفتار به گفتار که از زبانهای مختلف پشتیبانی میکند. این مدل مبتنی بر گفتار انبوه چند زبانه است و از چارچوب Meta به نام SeamlessAlign استفاده میکند که تکنولوژی تشخیص گفتار، شناسایی زبان و ترکیب گفتار را در بیش از 1100 زبان ارائه میدهد.
اصولاً متا تنها منبعی نیست که در جهت توسعه ابزارهای پیشرفته ترجمه و رونویسی با هوش مصنوعی سرمایهگذاری میکند. به علاوه از خدمات تجاری انبوه و مدلهای منبع باز که پیشتر توسط شرکتهایی همچون آمازون، مایکروسافت، OpenAI و تعدادی از استارتاپها ارائه شدهاند، گوگل نیز در حال ایجاد مدلی به نام “مدل گفتار جهانی” است که بخشی از تلاشهای بزرگتر غولهای فناوری برای ایجاد مدلی قابل درک و جامع محسوب میشود. در حال حاضر، با وجود وجود 1000 زبان پرتکلم در جهان، پروژه Common Voice تحت رهبری موزیلا نیز یکی از بزرگترین مجموعههای چند زبانه صداها را به منظور آموزش الگوریتمهای تشخیص گفتار تجمیع کرده است.
اما SeamlessM4T تا به امروز یکی از تلاشهای بلندپروازانهتر در زمینه ترکیب قابلیتهای ترجمه و رونویسی در یک مدل واحد محسوب میشود. این مدل توسط Meta توسعه داده شده و از دادههای گستردهای که از منابع منبع باز تهیه کرده است، بهره میبرد تا تواناییهای گوناگون خود را در ترجمه و رونویسی به نحو بهینه ارتقاء دهد.
متا در فرآیند توسعه این مدل، اعلام میکند که متون به تعداد بسیار زیادی (به ترتیب «دهها میلیارد» جمله) و گفتار به میزان ۴ میلیون ساعت را از منابع عمومی وب حذف کرده است. در یک مصاحبه با TechCrunch، خوان پینو، یکی از دانشمندان تحقیقاتی در بخش هوش مصنوعی متا و همچنین عضو تیم توسعه این پروژه، اطلاعات دقیق درباره منابع دقیق این دادهها را آشکار نکرده است و تنها اشاره کرده است که تنوعی از منابع مورد استفاده وجود دارد.
این موضوع موجب شده تا تولیدکنندگان محتوا نسبت به استفاده از دادههای عمومی برای آموزش مدلهای قابل تجاری به موافقت نرسند. برخی از شرکتها که ابزارهای هوش مصنوعی را با استفاده از دادههای در دسترس عموم تولید میکنند، شکایت کردهاند و ادعا میکنند که فروشندگان باید مجبور شوند تا اطلاعات اعتباری را ارائه دهند و در غیر این صورت متخلفان غرامت بپردازند. این امر به گونهای است که راههای واضحی برای واگذاری از این نوع تلاشها وجود دارد.
با این حال، متا ادعا میکند که دادههایی که استفاده کرده است، که ممکن است شامل اطلاعات شناسایی شخصی نیز باشد، دارای حق چاپ نیستند و در واقع از منابع منبع باز یا دارای مجوز تهیه شده است. این امر نشان از این دارد که متا به منابع قانونی و مجاز برای تامین دادههای مورد نیاز برای توسعه مدلهایش پایبند بوده است.
متا از متن و گفتاری که در حال حاضر بهطور ناقص و خراشیده وجود دارد، برای ایجاد مجموعه داده آموزشی با نام SeamlessAlign استفاده کرده است. این مجموعه داده شامل ۴۴۳،۰۰۰ ساعت گفتار که با متون تراز شدهاند و ۲۹،۰۰۰ ساعت همترازی گفتار به گفتار را شامل میشود. این مجموعه دادهها به مدل هوش مصنوعی SeamlessM4T آموزش داده شدهاند تا مدل بتواند مهارتهایی از جمله ترجمه متن به متن، ترجمه گفتار به متن، تولید گفتار از متن، ترجمه کلمات از یک زبان به زبان دیگر و موارد مشابه را انجام دهد.
متا معتقد است که این پیشرفت در ادغام متن و گفتار در مجموعه داده آموزشی، به مدل SeamlessM4T قدرت و عملکرد بیشتری در مواجهه با نویزهای پسزمینه و تغییرات بلندگو در وظایفی مانند تبدیل گفتار به متن اعطا میکند. این بهبود در اداء را به ترکیب مناسب دادههای گفتاری و متنی در مجموعه داده آموزشی نسبت میدهد. به عبارت دیگر، متا با تلفیق دادههای گفتاری و متنی، SeamlessM4T را از مدلهای تنها گفتاری و متنی بهتر میداند و این مدل را در تسلط به وظایف مختلف ترجمه و تبدیل میان متن و گفتار به سطح جدیدی ارتقا میبخشد.
هرچند این پیشرفتها مهم هستند، اما متا همچنان به دنبال درک بهتر از اینکه مدلهای هوش مصنوعی چگونه تصمیمات خود را میگیرند و آیا ممکن است توجهات یا سوگیریهایی در تصمیمات آنها وجود داشته باشد، میباشد. این نگرش نشان از پیگیری متا از جنبههای اخلاقی و انسانی در توسعه هوش مصنوعی دارد.
مقالهای که به تازگی در The Conversation منتشر شده است، به نکات منفی و نقدهایی نسبت به ترجمه مبتنی بر هوش مصنوعی اشاره دارد. در این مقاله، مشکلاتی نظیر سوگیری جنسیتی در ترجمهها به وسیله هوش مصنوعی مورد بحث قرار میگیرد. به عنوان مثال، اشکالاتی در ترجمههای انجام شده توسط Google Translate نشان داده شده است که این سیستم زمانی فرض میکند که پزشکان مرد هستند و پرستاران زن، و این موضوع باعث تبدیل شدن ترجمهها به نوعی تعیینکننده جنسیتی میشود. همچنین، برخی موارد نادرستی در ترجمههای میان زبانی توسط سیستمهای ترجمه مانند مترجم بینگ از طریق عبارات نمونه ذکر شده است.
علاوه بر این، الگوریتمهای تشخیص گفتار نیز به مشکلاتی برخورد کردهاند. بر اساس یک مطالعه که در مجموعه مقالات آکادمی ملی علوم منتشر شده است، سیستمهای تشخیص گفتار شرکتهای پیشرو در این حوزه دو برابر بیشتر احتمال دارند که صداهای اشخاص سیاهپوست را به اشتباه رونویسی کنند نسبت به صداهای اشخاص سفیدپوست.
در مقالهای که در کنار پست وبلاگ منتشر شده است، متا به مسائل دیگری نیز پرداخته است. این مقاله اشاره میکند که مشکلاتی که در مورد SeamlessM4T مطرح شدهاند، نوعی اختصاصی نیستند و در حوزه ترجمه و تشخیص گفتار به طور گستردهتر نیز وجود دارند.
همچنین، در مقاله سفید منتشر شده، متا بیان کرده است که وقتی از اصطلاحات خنثی به اشکال مذکر ترجمه میکند، این عملکرد به تمام زبانها تعمیم مییابد. همچنین، وقتی از مرجع مذکر برای اشخاص استفاده میشود، SeamlessM4T در اکثر زبانها بهتر عمل میکند.
در مورد جنسیت نیز، مقاله بیان میکند که در صورت عدم وجود اطلاعات جنسیتی، SeamlessM4T ترجیح میدهد حدود 10 درصد ترجمه را با فرم مردانه انجام دهد. این امر ممکن است به دلیل تعداد بیشتری واژگان مردانه در دادههای آموزشی باشد.
متا نیز ادعا میکند که SeamlessM4T در ترجمههای خود مقدار زیادی متن مخرب اضافه نمیکند، که یک مشکل رایج در ترجمه و مدلهای متنی مولد هوش مصنوعی است. اما به هر حال، مشکلات همچنان وجود دارند. به عنوان مثال، در برخی زبانها مانند بنگالی و قرقیزی، ترجمههای بسیار تهاجمآمیزتری انجام میشود که شامل ترجمههای نفرتانگیز یا توهینآمیز در مورد وضعیت و فرهنگ اجتماعی-اقتصادی است. به طور کلی، در ترجمههای مربوط به گرایشهای جنسی و مذهب نیز، SeamlessM4T به ترجمههای بسیار تندتری انجام میدهد.
در مورد نسخه عمومی نمایشی SeamlessM4T، متا اشاره کرده است که این نسخه دارای فیلتری برای تشخیص و کاهش سمیت در گفتار ورودی و خروجی بالقوه سمی است. با این حال، این فیلتر به طور پیشفرض در نسخه منبع باز مدل وجود ندارد.
مقالهای که به آن اشاره شده است، به یک مسئله مهمتر در ترجمههای مبتنی بر هوش مصنوعی اشاره میکند، و آن هم از دست دادن غنای واژگانی است که ممکن است ناشی از استفاده بیش از حد از آنها باشد. در مقابل، مترجمان انسانی در ترجمههایشان انتخابهای منحصر به فردی دارند. آنها میتوانند مفاهیم را توضیح دهند، متن را تنظیم کنند، خلاصه کنند و اثر خود را بر روی ترجمه گذاشته و به نوعی “ترجمه” را به شیوههای غیررسمی تغییر دهند. سیستمهای هوش مصنوعی اغلب ترجمههای “دقیق” تری تولید میکنند، اما ممکن است این دقت بیشتر به قیمت تنوع و تجدیدنظر ترجمه ایجاد شود.
بنابراین، به دلیل این مشکل، متا توصیه میکند از SeamlessM4T برای ترجمههای طولانی و ترجمههای رسمی مانند مواردی که توسط سازمانهای دولتی و مقامات ترجمه میشوند، استفاده نکنید. همچنین، از استفاده از SeamlessM4T در موارد پزشکی یا قانونی جلوگیری میکند، احتمالاً به علت تلاش برای پوشش دادن مسئولیتها و ریسکهای اشتباهات ترجمه.
این تصمیم عاقلانه است؛ حداقل چند مورد از وقوع ترجمههای نادرست توسط هوش مصنوعی منجر به اشتباهات اجرای قوانین شده است. در سپتامبر 2012، پلیس به اشتباه با یک مرد کرد به خاطر ترجمهی نادرست پیامک، او را به اتهام تأمین مالی برای تروریسم دستگیر کرد. و در سال 2017، یک پلیس در کانزاس از Google Translate استفاده کرد تا از یک اسپانیاییزبان بپرسد که آیا میتوانند خودروی خود را برای جستجوی مواد مخدر تفتیش کنند، اما به دلیل ترجمهی نادرست، راننده به طور کامل نفهمید با چه چیزی موافقت کرده و موضوع در نهایت به نتیجهای منجر نشد.
پینو گفت: “این رویکرد سیستمی واحد، خطاها و تأخیرها را به حداقل میرساند، کارایی و کیفیت فرآیند ترجمه را افزایش میدهد و ما را به امکان نزدیکتر شدن به ترجمههای بینقص میبرد.” در آینده، ما میخواهیم بررسی کنیم که این مدل بنیادی چگونه میتواند قابلیتهای ارتباطی جدیدی را فعال کند، که در نهایت به ما کمک میکند تا به یک جهان نزدیکتر برسیم که در آن همه قابل درک باشند.
تصویر : SurfUpVector / Getty Images