[ad_1]
با پیشرفت در پردازش زبان و پردازش زبان طبیعی، این امید وجود دارد که روزی بتوانید از دستیار مجازی خود در مورد بهترین مواد تشکیل دهنده سالاد بپرسید. در حال حاضر این امکان وجود دارد که از ابزار خانگی خود درخواست کنید موسیقی پخش کند یا آن را با فرمان صوتی باز کنید، عملکردی که قبلاً در بسیاری از دستگاه ها وجود دارد.
اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر یک از لهجههای دیگر زبان عربی صحبت میکنید که از منطقهای به منطقه دیگر بسیار متفاوت است و برخی از آنها برای یکدیگر نامفهوم هستند، این داستان متفاوت است. اگر زبان اول شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که از این زبان کنار گذاشته شدهاید.
این سازه های پیچیده احمد علی را مجذوب یافتن راه حل کرد. او مهندس ارشد گروه فنآوریهای زبان عربی در مؤسسه تحقیقات محاسباتی قطر (QCRI) – بخشی از دانشگاه حمد بن خلیفه قطر و بنیانگذار عربیاسپیچ، «جامعهای که به نفع زبانشناسی و زبان عربی وجود دارد» است. فن آوری های زبان”. “
علی سالها پیش در IBM مجذوب ایده صحبت کردن با ماشینها، گجتها و وسایل بود. «آیا میتوانیم دستگاهی بسازیم که گویشهای مختلف را بفهمد – یک پزشک اطفال مصری که دستور پخت را خودکار میکند، یک معلم سوری که به بچهها کمک میکند مهمترین بخشهای درسهایشان را یاد بگیرند، یا یک آشپز مراکشی که بهترین دستور پخت کوسکوس را توصیف میکند؟» او دراز میکشد. با این حال، الگوریتمهایی که این ماشینها را نیرو میدهند، نمیتوانند در میان 30 نوع عربی جستجو کنند، چه رسد به درک آنها. اکثر ابزارهای تشخیص گفتار این روزها فقط به زبان انگلیسی و تعداد انگشت شماری از زبان های دیگر کار می کنند.
همهگیری ویروس کرونا باعث افزایش اتکا به فناوریهای زبانی شده است، با روشهایی که فناوریهای پردازش زبان طبیعی به مردم کمک میکند تا دستورالعملهای اقامت در خانه و اقدامات فاصلهگذاری فیزیکی را رعایت کنند. با این حال، در حالی که ما از دستورات صوتی برای کمک به خرید تجارت الکترونیک و مدیریت خانواده خود استفاده میکنیم، در آینده برنامههای کاربردی بیشتری نیز در دسترس است.
میلیونها نفر در سراسر جهان از دورههای آنلاین باز گسترده (MOOC) برای دسترسی آزاد و مشارکت نامحدود استفاده میکنند. تشخیص گفتار یکی از عملکردهای اصلی MOOC است که به دانشآموزان امکان میدهد محتوای گفتاری دورهها را در حوزههای خاص جستجو کنند و ترجمهها را از طریق زیرنویس فعال کنند. فناوری گفتار، سخنرانیها را قادر میسازد تا برای نمایش کلمات گفتاری به عنوان متن در کلاسهای درس دانشگاه دیجیتالی شوند.
بر اساس مقاله اخیر در مجله Speech Technology، پیشبینی میشود که بازار تشخیص گفتار و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیونها مشتری و کسبوکار در سراسر جهان به رباتهای صوتی متکی هستند، نه فقط برای تعامل با دستگاهها یا ماشینهای خود، بلکه همچنین برای بهبود خدمات مشتری، ایجاد نوآوری در مراقبت های بهداشتی، و بهبود دسترسی و شمول برای افراد دارای ناتوانی های شنوایی، گفتاری یا حرکتی.
در یک نظرسنجی در سال 2019، Capgemini پیشبینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرفکننده به جای بازدید از مغازهها یا شعب بانک، دستیار صوتی را انتخاب میکنند. نسبتی که به درستی می تواند افزایش یابد، با توجه به زندگی و تجارت داخلی و از نظر فیزیکی دور که این بیماری همه گیر بیش از یک سال و نیم بر جهان تحمیل کرده است.
با این وجود، این دستگاه ها نمی توانند به بخش های بزرگی از جهان تحویل داده شوند. برای این 30 نوع زبان عربی و میلیون ها نفر، این یک فرصت بسیار از دست رفته است.
عربی برای ماشین آلات
رباتهای صوتی انگلیسی یا فرانسوی زبان بسیار عالی هستند. با این حال، آموزش زبان عربی به ماشین ها به دلایل متعددی دشوار است. این سه چالش به طور کلی شناخته شده است:
- فقدان علائم دیاکریتیک لهجه های عربی عمدتاً به صورت عامیانه صحبت می شوند. بیشتر متن های موجود به صورت واضح بیان نمی شوند، یعنی هیچ لهجه ای مانند حاد (´) یا حکاکی (`) وجود ندارد که مقادیر صوتی حروف را نشان می دهد. از این رو، تعیین اینکه حروف صدادار به کجا می روند دشوار است.
- کمبود منابع. فقدان تاریخ های برچسب گذاری شده برای گویش های مختلف عربی وجود دارد. به طور کلی، آنها فاقد قوانین املایی استانداردی هستند که نحوه نگارش یک زبان را دیکته می کند، از جمله هنجارها یا املا، خط فاصله، شکستن کلمات و تاکید. این منابع در آموزش مدلهای رایانهای حیاتی هستند، و این واقعیت که تعداد بسیار کمی از آنها وجود دارد، مانع توسعه تشخیص گفتار عربی شده است.
- پیچیدگی مورفولوژیکی عربی زبانان بسیاری از کدها را تغییر می دهند. به عنوان مثال، در مناطقی که فرانسوی ها مستعمره آنها هستند – شمال آفریقا، مراکش، الجزایر و تونس – گویش ها حاوی بسیاری از کلمات فرانسوی عاریه شده هستند. در نتیجه، تعداد زیادی واژه به اصطلاح خارج از واژگان وجود دارد که فناوریهای تشخیص گفتار نمیتوانند آنها را درک کنند، زیرا این کلمات عربی نیستند.
علی می گوید: «اما میدان با سرعت رعد و برق حرکت می کند. این تلاش مشترک بسیاری از محققان برای پیشبرد سریعتر آن است. آزمایشگاه فناوری زبان عربی علی پروژه ArabicSpeech را رهبری می کند تا ترجمه های عربی را با گویش های بومی هر منطقه همراه کند. به عنوان مثال، گویش های عربی را می توان به چهار گویش منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، از آنجایی که لهجه ها به هیچ محدودیتی پایبند نیستند، این می تواند به اندازه یک گویش در هر شهر درجه بندی شود. به عنوان مثال، یک زبان مادری مصری می تواند بین لهجه اسکندریه خود و همشهری خود از اسوان (1000 کیلومتر دورتر روی نقشه) تمایز قائل شود.
ساختن آینده ای با فناوری برای همه
در این مرحله، ماشینها تقریباً به اندازه رونویسکنندههای انسانی دقیق هستند، تا حد زیادی به لطف پیشرفتها در شبکههای عصبی عمیق، شاخهای از یادگیری ماشینی در هوش مصنوعی بر اساس الگوریتمهایی که از عملکرد بیولوژیکی و عملکردی مغز انسان الهام گرفتهاند. با این حال، تا همین اواخر، تشخیص گفتار کمی هک شده بود. این فناوری همیشه به ماژول های مختلف برای مدل سازی صوتی، ساخت واژگان تلفظ و مدل سازی زبان متکی بوده است. همه ماژول هایی که باید به طور جداگانه آموزش داده شوند. اخیراً، محققان مدلهایی را آموزش دادهاند که ویژگیهای صوتی را مستقیماً به رونویسیهای متنی تبدیل میکنند و به طور بالقوه همه بخشها را برای کار نهایی بهینه میکنند.
علیرغم این پیشرفتها، علی هنوز نمیتواند دستورات صوتی را به زبان عربی مادری خود به اکثر دستگاهها بدهد. او میگوید: «سال 2021 است و من هنوز نمیتوانم با بسیاری از دستگاهها به گویش خودم صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما تشخیص ماشینی زبان عربی با گویش های متعدد هنوز انجام نشده است.
ایجاد این امکان در مرکز کار علی قرار دارد که در اولین تبدیل کننده برای شناخت زبان عربی و لهجه های آن به اوج خود رسید. یکی که به عملکرد بی سابقه ای دست یافته است. فناوری موسوم به سیستم رونویسی پیشرفته QCRI در حال حاضر توسط شبکه های تلویزیونی الجزیره، DW و BBC برای رونویسی محتوا به صورت آنلاین استفاده می شود.
دلایل مختلفی وجود دارد که علی و تیمش در حال حاضر با موفقیت این موتورهای گفتار را توسعه می دهند. او قبل از هر چیز می گوید: «نیاز به تأمین منابع برای همه گویش ها وجود دارد. ما باید منابعی را بسازیم تا مدل را آموزش دهیم.” پیشرفت در پردازش محاسباتی به این معنی است که یادگیری ماشین فشرده محاسباتی اکنون در واحد پردازش گرافیکی انجام می شود که می تواند گرافیک های پیچیده را به سرعت پردازش و نمایش دهد. علی می گوید: “ما معماری عالی، ماژول ها و داده های خوبی داریم که واقعیت را نشان می دهد.”
محققان QCRI و Kanari AI اخیراً مدلهایی را توسعه دادهاند که میتوانند برابری انسانی را در پخش اخبار عربی به دست آورند. این سیستم اثرات زیرنویس کردن گزارش های روزانه الجزیره را نشان می دهد. در حالی که میزان خطای انسانی (HER) در انگلیسی حدود 5.6٪ است، این تحقیق نشان داد که به دلیل پیچیدگی صرفی زبان و فقدان قوانین املایی استاندارد در گویش عربی، HER عربی به طور قابل توجهی بالاتر است و می تواند به 10٪ برسد. به لطف پیشرفتهای اخیر در یادگیری عمیق و معماری انتها به انتها، موتور تشخیص گفتار عربی موفق میشود در پیامهای پخش شده از زبان مادری پیشی بگیرد.
در حالی که به نظر میرسد تشخیص گفتار در عربی استاندارد مدرن به خوبی کار میکند، محققان QCRI و Kanari AI مشغول آزمایش محدودیتهای پردازش لهجهای و گرفتن نتایج عالی هستند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، ما باید به گویش توجه کنیم تا دستیاران زبان ما را درک کنند.
این محتوا توسط موسسه تحقیقات محاسبات قطر در دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر، نوشته شده است. این توسط تحریریه مجله MIT Technology Review نوشته نشده است.
[ad_2]