رابط الحلقة: تصنيع الكلام
موضوع الحلقة هو تحويل الحاسوب النص إلى صوت يسمع، لقراءة كتاب مثلاً أو إعطاء صوت لمن لا صوت له، الآن التقنية تستخدم مثلاً في مقاطع يوتيوب حيث بعض صناع الفيديو لا يتقنون نطق الإنجليزية لذلك يجعلون ذكاء اصطناعي يقرأ نيابة عنهم، نوع من استخدام الذكاء الاصطناعي لا أعارضه، لأن صانع الفيديو أنفق وقته على الإعداد والبحث والإخراج ولم يصنع كل شيء بالذكاء الاصطناعي، لنرى مستوى هذه التقنية في الماضي.
يبدأ البرنامج بالمقدم ستيوارت شفيه يحاول تصوير المقدم الثاني فتقول الكاميرا بالإنجليزية “المكان مظلم، شغل فلاش”، الكاميرا من صنع شركة منولتا اليابانية، ثم يعرض لعبة سبيك آند سبيل التي تحوي لوحة مفاتيح وتستطيع نطق حروف وكلمات، شفيه يرى أن كاميرا متكلمة ليست ضرورية في حين أن مصبح تنبيه قد يكون كافياً، هيربرت ليكنر ذكر أنه يتجاهل التحذير الضوئي في سيارته لكن ينتبه للصوت عندما تتحدث السيارة له، في ذلك الوقت كانت هناك سيارات تتحدث للسائق، هذا اختراع جديد ووسيلة تسويقية في ذلك الوقت.
ينتقل البرنامج لفقرة توضح ما المعني بتصنيع الكلام، لكي يستطيع الحاسوب الحديث عليه تفكيك الكلمات إلى مقاطع صوتية ثم تجميعها لنطقها، الأجهزة المتحدثة تحوي إما رسائل جاهزة مبرمجة فيها أو مكتبة من الأصوات تجمعها لنطق أي كلمة، يعرض البرنامج مثال لاستخدام الصوت كواجهة استخدام، مشغل لمجهر إلكتروني (ميكروسكوب) يعمل في الظلام نظراً لحساسيته للإضاءة، ونظراً لأن المستخدم منشغل بالحاسوب والمجهر فليس هناك وسيلة عملية لإرسال الأوامر إلا مايكروفون للحديث مباشرة مع الجهاز، الأوامر برمجت مسبقاً استخدم مشغل الجهاز صوته لذلك.
الأجهزة التي تفهم الأوامر الصوتية بدأ تطويرها منذ نهاية الستينات واستخداماتها اليوم (الحلقة صورت في 1984) ما زال محدوداً ويحتاج لتحسين أنظمة فهم الصوت وإنتاجه.
يعود البرنامج للأستوديو مع ضيف وهو كارل بيرني، هيرب ليكنر سأله كيف تصنع الأجهزة الأصوات:
- كارل شرح بأن جهازهم يقرأ أي نص كتب بشفرة بنظام آسكي (ASCII) ثم يحوله لصوت، في البداية ينظر لكل كلمة ويقسمها لأصوات تشكل الكلمة ثم يجمع هذه الكلمات ويحاول أن يجعل نطقها طبيعياً.
- شفيه سأل الضيف عن الأصوات أو بالإنجليزية Phoneme وما هي؟
- كارل شرح بأنها الأصوات الأساسية لتشكيل الكلمات وفي الإنجليزية هناك ما بين 38 إلى 45 صوت ولغات أخرى تحوي تقريباً نفس عدد الأصوات، لدي فضول لمعرفة عدد الأصوات في اللغة العربية.
- المنتج الذي تعمل عليه شركة كارل يستطيع نطق أي نص، ويعتمد على الحواسيب التي تعمل بمعالجات 16 بت.
- إن كانت هناك كلمة فرنسية في النص الإنجليزي سينطقها الجهاز باللغة الإنجليزية وسيكون نطقها خطأ في الغالب.
- التعامل مع عدة لغات يتطلب تطوير قواعد لكل لغة والمنتج حالياً محدود بالإنجليزية فقط.
- المنتج ليس لديه مكتبة أصوات مسجلة مسبقاً بل يصنع الصوت بناء على ما يقرأه وبحسب القواعد التي وضعها المطورون.
- الحاسوب الذي يستخدمه كارل لعرض قدرات الجهاز هو حاسوب نقال من الشركة اليابانية إبسون.
- المنتج هو Speech Plus ولعلك سمعته من قبل حتى لو لم تعرف المنتج لأنه النظام الذي استخدمه ستيفن هوكينج لكي يتكلم.
- يمكن للجهاز الاتصال بمزود من خلال الهاتف وقراءة البريد صوتياً، هناك طرفيات صوتية وهذا مصطلح لأول مرة أسمعه اليوم.
- من خلال الطرفيات الصوتية يمكن الاتصال بأي قاعدة بيانات نصية ويمكن الاستماع للنص بدلاً من قراءته.
- الفكرة جديدة وليس لها سوق تجاري بعد لكن هناك فرصة.
- في النهاية طلب شفيه كتابة رسالة لكي يتأكد أن الجهاز فعلاً يمكنه قول أي شيء والجهاز فعل ذلك.
- الجهاز عبارة عن بطاقة صوتية يمكن إضافتها للحاسوب وبالتحديد آي بي أم.
ينتقل البرنامج لفقرة أخرى وضيف آخر وهو رون ستيفينز مدير ومؤسس شركة فوتان ويعرض منتج من شركة، هناك شاشة كبيرة فوق صندوقين، الأول جهاز فوتان وأسفله جهاز آي بي أم، علي أن أبدي إعجابي بقدرة جهاز آي بي أم على تحمل كل هذا الوزن!
- رون يستعرض البرنامج والجهاز ويتحكم بهما من خلال الصوت.
- رون يطلب بيانات، البرنامج يسأله أن يختار بين خيارين أو أكثر، أو يسأله إن كان يريد عرض مزيد من البيانات، ورون يجيب بكلمة.
- النظام سريع الاستجابة لجهاز صنع في الثمانيات والصوت المنتج واضح وسهل الفهم، حتى شفيه سأل إن كان هذا فعلاً صوت صنعه الجهاز.
- التقنية المستخدمة هي نفسها التي تستخدم في شركات الاتصالات لكن أبسط لتخفيض سعرها.
- فوتان يعتمد على رسائل وكلمات سجلت مسبقاً وبحسب متطلبات المستخدم يمكن زيادة عددها.
- سأل لينكر عن وضع تقنية التعرف الصوتي حيث يتحدث الشخص للحاسوب.
- ما عرضه رون بجهاز فوتان يعتمد على التعرف الصوتي المعتمد على متحدث واحد.
- هذا أسهل من التعرف الصوتي العام الموجه لكل الناس.
- التعرف الصوتي القادر على سماع وتحليل كلام الناس الطبيعي صعب وسيحتاج لوقت.
في مجلة بايت الشرق الأوسط هناك مقالات عن الموضوع وهي تغطي التقنية في التسعينات وتطوراتها في ذلك الوقت وكذلك تطبيقاتها العربية، لكن هذا موضوع آخر أحتاج لكتابته.
مقدمي وضيوف الحلقة:
- ستيوارت شفيه، منتج ومقدم البرنامج.
- هيربرت ليكنر (Herb Lechner) مدير في SRI، مقدم ثاني في هذه الحلقة.
- كارل بيرني (Carl Berney) من شركة Speech Plus
- رون ستيفينز (Ron Stevens)
شركات مؤسسات ذكرت في الحلقة:
- Micro Focus، رعاية للبرنامج.
أجهزة وبرامج ذكرت في الحلقة:
- كاميرا منيولتا (Minolta AF-Sv)
- لعبة سبيك آند سبيل (Speak & Spell)
- حاسوب إبسون نقال (Epson HX-20)
- جهاز فوتان في 5000 (VOTAN V5000)

واحد من أكثر المحتوى إثارة في الشبكات الاجتماعية هي لقطات شاشة أخذت من شبكات اجتماعية أخرى، شخص ما في فايسبوك كتب شيئاً عجيباً وتجد صورة لذلك في تويتر وإنستغرام وتيكتوك، هذا ما رأيته اليوم في ماستودون حيث رأيت لقطات شاشة