الببليوغرافيا

المعالجة الآليّة للأصوات

   

تخضع المعالجة الآليّة للأصوات للمثلّث الإجرائي نفسه : الإدخال- التّحويل- الإخراج.

 

أ. إدخال الأصوات: تُدخال الأصوات مباشرة  من الميكروفون المدمج في الحاسوب أو الملحق به. وقد تُدخل الأصوات في الحاسوب لتخزَّن كما كانت تخزَّن الموسيقى والوسائط الشّبيهة أو ذات الصّلة. ولكن لإدخال الأصوات مباشرة أيضا تطبيقات بيداغوجيّة وطبيّة وأمنيّة وحتّى حربيّة، تضطلع بها برامج تعرّف الأصوات.

 

ب - برامج  تعرّف الأصوات: تُعرف هذه البرامج أيضا باسم «التّعرّف الآليّ إلى الكلام» (Automatic  Sound Recognition [ASR]) .وقد ظهرت ، بادئ الأمر،  ضمن البرامج السّريّة لسلاح الجوّ الأمريكيّ . فكان التعرّف الآليّ إلى صوت قائد الطّائرة  ، بفضل ذلك  - وهو يصدر الأوامر للأسلحة المجهّزة بإطلاق النّار أو بفتح سقف الطّائرة للقفز -  يمكّنه من «يد ثالثة» حين تكون يداه مشغولتين بالتحكّم في أجهزة أخرى. وكان عدد تلك الأصوات محدودا ومقصورا على صوت قائد الطّائرة. ثمّ أُخرِجت هذه التّقنية إلى العموم بعد شيوعها وطُوِّرت .فاستُعملت في ميادين أخرى مثل الأمن. فبعد أن أثبتت الأبحاث أنّ كلّ صوت بشري يتفرّد ببصمات خاصّة لا يوجد لها مثيل عند شخص آخر أصبح التّعرّف إلى الصّوت بمنزلة المفتاح الألكترونيّ ويوازي التّعرّف إلى بصمات الأصابع. ثمّ توسّع الاستعمال إلى الميادين الحياتيّة لذوي الاحتياجات الخاصّة من المشلولين ومعوقي الحركة كليّا .فأصبحت تقنيات التّعرّف إلى الأصوات  أشبه ما يكون بيد اصطناعيّة تمكّنهم من فتح الأبواب وتشغيل الآلات التّي أضحت تشتغل بوساطة هذه البرامج ، بعد أن اتّسعت إمكانات التّخزين وتطوّرت البرمجيّات تطوّرا ملحوظا. وللتعرّف إلى الكلام تطبيقات بيداغوجيّة أيضا تشمل الأمّيّين الذين لا يقرأون أرقام الهاتف المحمول وخياراته المكتوبة. فبعد أن أصبح الكلام يغنيهم عن الكتابة أو القراءة فتحت لهم تقنية التّعرّف أبواب استعمال هذه التّقنية التّي أصبحت من ضرورات الاتّصال.

وقد أُنجزت برامج عربيّة وفي العربيّة للتعرّف الآليّ إلى الكلام، منها برنامج صخر الذي قطع أشواطا في ترويض هذه التّقنية على الهواتف المحمولة ، خاصّة أنّه يستطيع التعرّف إلى العربيّة الكلاسيكيّة وكذلك إلى بعض لهجات الشّرق الأوسط (السّعوديّة والسّوريّة-البنانيّة والمصريّة) دون تدريب مسبق. وتحتوي هذه البرامج على مراشح تسمح لها بتنقية الأصوات من الشّوائب. لذلك بإمكان هذه البرامج التعرّف إلى الأصوات في بيئة تسودها الضّوضاء. ولكن، يبدو  ، حسب ما قرأناه من ردود فعل بعض المستخدمين ، أنّ هذه البرامج ما زالت  في حاجة إلى المزيد من التّحسين.

وقد طوّرت «غوغل» منذ سنة تقريبا برنامجا يمكّن المستعمل من التّحكّم في محرّك البحث بوساطة التّعرّف إلى الأصوات .وهو البرنامج المعروف ب«Voice Search» الذي أصبح يدعم العربيّة وثمانياً من لهجاتها هي لهجات مصر والأردن ولبنان والسّعوديّة والكويت وقطر والإمارات وفلسطين.

وطوّرت مخابر «سفنكس» (Sphinx)  أيضا مجموعة من الأدوات والبرامج التّي تسمح بالتّعرّف الآليّ إلى الكلام العربيّ (www.ccse.kfupm.edu.sa/~elshafei/AASR.htm).

وتجدر الملاحظة أنّ مثل هذه التّطبيقات لا تتوفّر إلاّ إذا سبقتها أعمال دقيقة في علم الأصوات العربيّة مدعومة بتقنيات متقدّمة جدّا في تحليل الأصوات. لهذا السّبب لم يعد الحديث عن برامج التّعرّف الآليّ إلى الأصوات كافيا بل أصبح الحديث عن أنظمة التعرّف الآليّ إلى الكلام العربيّ (Arabic Speech Recognition Systems) مثل برنامج  التّنّين للتّعرّف إلى اللّغة البشريّة (Dragon Naturally Speaking) وهو يدعم العربيّة.

 

ت- تحليل الأصوات وتحويلها :  تنقسم برامج تحليل الأصوات إلى صنفين حسب أهداف التّحليل واتّجاهاتها. فعلى حين يركّز الصّنف الأوّل الاهتمام على الجانب اللّسانيّ قصد التقدّم بعلم الأصوات اللّغويّ ومعرفة ألسنة البشر وإمكاناتها  ، يهدف الصّنف الثّاني إلى تحليل الأصوات بغية تصنيعها وتركيبها في منظومات التّفاعل الآليّ بين البشر والآلة أو في تقليد صوت شخص مّا بعد تحديد خصائصه النّطقيّة. وهي تطبيقات يمكن استغلالها في الأعمال الفنيّة كالأفلام المُدَبْلَجة التّي يمكن نطقها بنبرات أبطال النّسخة الأصليّة بعد أن توسم أصوات الأشخاص الذين قاموا بالدّبلجة بخصائص أصوات الأبطال الأصليّين   اعتمادا على ما يكشفه التّحليل  المجرى على عيّنات من نطقهم.

ولا شكّ  في أنّ برامج تحليل الأصوات ( مثل برنامج «Speech Lab») قد استفادت كثيرا من تقدّم العلوم الصّوتيّة. وقد اعتنت هذه البرامج باللّغة العربيّة    في إطار اشتغالها بالأنظمة المتعدّدة اللّغات.

وتُحوّل الأصوات أيضا من المسموع إلى المرئيّ أو ما يسمّى «TTS» أي من المنطوق إلى النّصّي (Speech-to-Text) .وتتجسّم هذه العمليّة في برنامجين على الأقلّ هما نقحرة الكلام (Speech Transcription) والإملاء الألكترونيّ (Digital Dictation) :  لا تُدخَل المعطيات النّصيّة من اللّوحة بل  من الميكروفون المدمج أو الملحق بالحاسوب أو  من أسطوانة مسجّلة مسبقا يحوّلها البرنامج إلى نصّ مكتوب أو يترجمها إلى أوامر تُوجّه  إلى الحاسوب. ومن مزايا الإملاء الألكترونيّ ربح الوقت، إذ إنّ الكلام أسرع من الكتابة .وقد يعوّض الإملاء كذلك رقن المحاضرات والخطب .فيقتصد المستعمل الجهد والمال. وقد يستخدم الإملاء الألكترونيّ في التّرجمة الآليّة الفوريّة كذلك .فلا ينقل الكلام كتابة في اللّغة المصدر .بل ينقل بعد ترجمته آليّا إلى اللّغة الهدف.

 

ث - إنتاج الأصوات :  يتنزّل إنتاج الأصوات في ما يعرف بصناعة الأصوات أو توليفها (Speech Synthesis) .وقد تطوّر هذا الفرع من العلوم مع تطوّر الأبحاث في الصّوتيات .وهو يهتمّ بإنتاج الأصوات التّي تحكي الأصوات البشريّة صناعيّا بتجسيد خصائصها. ويشمل هذا المجال القراءة الآليّة. وهي عكس الإملاء ، إذ إنّ المرئيّ هو الذي يتحوّل إلى مسموع لا العكس .

 

القراءة الآليّة :  يشير هذا المصطلح إلى القراءة الآليّة للنّصوص (Automatic Lecture) .وقد اشتهر في مجال العربيّة برنامج صخر للنّطق الآليّ الذي يقول عنه مطوّروه إنّه «يعتبر رائدًا في مجاله في تركيب صوت عربيّ بشريّ طبيعيّ» و إنّه تجاوز صعوبات النّصوص غير المشكولة وغير المرقّمة ،  كما طوّر برنامج الإبحار «غوغل كروم» (Google Chrome)  الذي ينتمي إلى المجموعة المعروفة بمحرّك البحث «غوغل» برنامجا مدمجا يسمح بقراءة صفحات الواب آليّا. وهو تطبيق يفتح لذوي الإعاقة البصريّة إمكانات الإبحار دون حاجة كبيرة إلى المساعدة.