فقدت إيما ماتس الأمل في برنامج "سيري"، فأقلعت عن استخدامه. فمهما حاولت ماتس –التي تبلغ من العمر 69 عامًا، وتعيش في مدينة سيمينول بولاية فلوريدا- الحديث بوضوح أو بطء، لا تنجح تكنولوجيا التعرف على الأصوات الشهيرة التي تستخدمها شركة أبل على هواتف آي فون في مساعدتها على الإطلاق؛ إذ إنها تعاني خللَ النطق التشنجي، وهو اضطراب صوتي عصبي نادر، يتسبب في تقلصات لا إرادية في الأحبال الصوتية، مما يؤدي إلى خروج الصوت مرتعشًا وغير منتظم. كما أن نظام الصوت في سيارتها الذي يعمل بتقنية "بلوتوث" لا يفهمها أيضًا.

تُباع برامج الواجهات الصوتية مثل "سيري" الآن في الملايين من المنتجات التي تتراوح من الهواتف الذكية وسيارات فورد إلى أجهزة التليفزيون الذكية وجهاز "أمازون إيكو". وتَعِد هذه الأنظمة المستخدمين بأنها ستتيح لهم التحقق من الطقس، وغلق أبواب منازلهم، وإجراء مكالمات هاتفية في أثناء القيادة دون الحاجة لاستخدام اليدين، وتسجيل البرامج التليفزيونية، وشراء أحدث ألبومات المغنية "بيونسيه" فقط باستخدام أوامر صوتية بسيطة. فهذه البرامج تَعِد بالتحرُّر من استخدام الأزرار ولوحات المفاتيح، وتمنِّي المستخدمين بإمكانيات لا حدود لها.

ولكن هذه التكنولوجيا الجديدة المتألقة لن يتمكن من استخدامها أكثر من تسعة ملايين شخص في الولايات المتحدة يعانون إعاقات صوتية مثل إيما ماتس، أو مَن يعانون التأتأة أو لديهم إصابة بالشلل الدماغي، وغيره من الاضطرابات. يقول تود موزر -الرئيس التنفيذي لشركة "سينسوري" في وادي السيليكون، والتي تُنتِج رقائق للتعرف على الأصوات تُستخدم في مجموعة متنوعة من المنتجات الاستهلاكية مثل هواتف سامسونج جالاكسي وسماعات بلوتوث-: "تستهدف برامج التعرف على الكلام الغالبية العظمى من الناس، أي الفئة العادية منهم، وتعتبر مَن دونهم حالات استثنائية".

الأسوأ من ذلك أن مساعدة الأشخاص المشابهة حالاتهم لحالة إيما ماتس قد تكون أمرًا بعيد المنال في الوقت الراهن. فرغم أن برامج التعرف على الأصوات تتحسن دقتها بمرور الوقت، فإن الخبراء يؤكدون أنها لم تصل بعد إلى مستوى الجودة الذي يمكِّنها من فهم الأصوات أو أنماط الحديث غير الطبيعية. ويسعى الباحثون لتطوير برامج أفضل وأكثر شمولًا للتعرف على الأصوات، ولكن هذه التكنولوجيا أمامها عقبات كبيرة لتتغلب عليها.

وتشمل "الحالات الاستثنائية" التي يتحدث عنها موزر ما يقرب من 4% من سكان الولايات المتحدة الذين واجهوا صعوبة في استخدام أصواتهم مدةَ أسبوع أو أكثر خلال السنة الماضية بسبب مشكلة في الكلام أو اللغة أو الصوت، وذلك وفقًا للمعهد الوطني للصمم واضطرابات التواصل الأخرى. يُشكل عُسر التلفظ -وهو بطء أو ثقل في اللسان يمكن أن ينشأ عن الشلل الدماغي أو الحثل العضلي أو التصلب المتعدد أو السكتة الدماغية، والعديد من الحالات الطبية الأخرى- جزءًا من هذا الطيف من المشكلات. وتنتشر هذه النوعية من المشكلات في مختلِف أنحاء العالم؛ فالشلل الدماغي، على سبيل المثال، يؤثر على خطاب مايك هاميل من إنفركارجيل في نيوزيلندا، الذي وُلد بالمرض وعانى في الثلاثينيات من عمره صعوباتٍ في البلع والتحكم في الحلق، ونتيجةً لذلك، فإن كلامه في كثير من الأحيان متذبذب وغير منتظم.

كما أن الأشخاص الذين يعانون من التأتأة لديهم مشكلة في استخدام تكنولوجيا التعرف على الأصوات، مثل القوائم الآلية المستخدمة في الهواتف؛ لأن تلك البرامج لا تستطيع تمييز كلامهم المفكك، وذلك وفق جين فريزر، رئيسة مؤسسة التلعثم الأمريكية.

كما أن هناك مشكلات أخرى، مثل شلل أو خُرّاجات الأحبال الصوتية، والتي عادةً ما تكون مؤقتة وأقل حدة، ولكن مثل هذه الاضطرابات من شأنها أيضًا التقليل من دقة التعرف على الكلام. على سبيل المثال، في دراسة أجريت عام 2011 ونُشرت في دورية "بايوميديكال إنجيرينج أونلاين" Biomedical Engineering Online، استخدم الباحثون برنامجًا تقليديًّا للتعرف على الكلام لمقارنة دقته في حالة الأصوات العادية وأصوات بها ستة أنواع مختلفة من الاضطرابات. وقد بلغت دقة ذلك البرنامج في التعرف على حديث الأشخاص العاديين 100%، في حين تراوحت نسبة الدقة بين 56% و82.5% في حالة المرضى الذين يعانون أنواعًا مختلفة من الاضطرابات الصوتية.

وبالنسبة للأشخاص الذين يعانون اضطرابات شديدة في الكلام مثل عُسر التلفظ، يمكن أن تكون قدرة تلك التكنولوجيا على التعرف على الكلمات أقل بنسبة تتراوح بين 26.2% و81.8% مقارنة بالأشخاص العاديين، وذلك وفقًا لبحث أجراه فرانك رودزيتش، عالم الكمبيوتر في معهد تورونتو لإعادة التأهيل والأستاذ المساعد بجامعة تورونتو، والذي نُشِر في دورية "سبيتش كوميونيكيشن" Speech Communication. ويقول رودزيتش: "ثمة الكثير من الاختلافات بين الأشخاص المصابين بتلك الاضطرابات، لذا يصعب تحديد نموذج واحد يناسبهم جميعًا".

تلك الاختلافات الصوتية هي السبب في أن برامج مثل "سيري" والبرامج التي تعمل بتكنولوجيا "البلوتوث" تجد صعوبة في فهم الأشخاص الذين يعانون اضطرابات في الكلام والصوت. في عام 2012 تقريبًا بدأت الشركات تستخدم الشبكات العصبية لتشغيل منتجات التعرف على الأصوات. وتعتمد تلك الشبكات العصبية على التعلم من مجموعة متنوعة من عينات الكلام والأنماط التي يمكن التنبؤ بها. ولم تكن برامج المساعد الشخصي الذكية مثل "سيري" و"جوجل ناو" ناجحة ومنتشرة بهذه القوة في بداية ظهورها في عامي 2011 و2012، على التوالي، غير أنها تحسنت مع حصولها على المزيد من البيانات من عدد كبير من المتحدثين المختلفين، وذلك وفقًا لما يقوله موزر. وأصبح الآن بإمكان تلك البرامج الأداء بشكل أفضل وتنفيذ مهام أكثر. ويقول شون دوبرافاك -كبير الاقتصاديين ومدير أول البحوث في رابطة تكنولوجيا المستهلكين-: إن العديد من الشركات تتباهى بأن معدل خطأ التعرف على الكلمات يبلغ 8% أو أقل.

ويستخدم جهاز "أمازون إيكو" -والذي أصبح متاحًا على نطاق واسع في يونيو 2015- برنامجًا للتعرف على الأصوات يُدعى "أليكسا"، صُمّم لأداء وظائف محددة: مثل الحصول على الأخبار من محطات الراديو المحلية، والوصول إلى خدمات تشغيل الموسيقى عبر الإنترنت، وطلب السلع المختلفة على موقع أمازون. كما يتضمن الجهاز أيضًا إمكانيات للتحكم الصوتي في أجهزة التنبيه والتوقيت، وكذلك قوائم التسوق وقوائم المهام. وبمرور الوقت، أضافت أمازون إليه المزيد من الوظائف.

تتسبب إعاقات الكلام والإعاقات الصوتية بطبيعة الحال في خروج أصوات عشوائية ولا يمكن توقعها، ومن ثَم لا تجد برامج التعرف على الأصوات أنماطًا محددة للتدرب عليها. وقد رفضت شركتا أبل وأمازون التحدث عن هذه المشكلة مباشرة عندما طُلب منهما التعليق، ولكنهما قالتا عبر رسائل البريد الإلكتروني إنهما تعتزمان بصورة عامة تحسين هذه التكنولوجيا. وقد قالت شركة مايكروسوفت -التي طورت المساعد الشخصي "كورتانا" المزود ببرنامج للتعرف على الكلام- عبر متحدث باسمها: إن الشركة تسعى عند تصميم وتصنيع منتجاتها وخدماتها إلى أن تكون "مناسبة للجميع من البداية".

ولإيجاد حلول لتلك المشكلة درس الباحثون والشركات إمكانية استخدام أسلوب قراءة الشفاه، والذي استخدمه بعض الصُّم وضعاف السمع لسنوات. ويمكن أن توفر تكنولوجيا قراءة الشفاه بيانات إضافية لجعل برامج التعرف على الأصوات أكثر دقة، ولكن هذه الأنظمة لا تزال في مراحلها الأولى.

في جامعة إيست أنجليا في إنجلترا، يعمل عالم الكمبيوتر ريتشارد هارفي وزملاؤه على تطوير تكنولوجيا لقراءة الشفاه توضح الكلام بهجاء الحروف عندما تكون تكنولوجيا التعرف على الأصوات وحدها غير كافية لتحديد ما يقوله المتحدث. ويقول هارفي: "إن قراءة الشفاه وحدها لن تجعلك قادرًا على التعامل مع إعاقات الكلام بشكل أفضل، ولكنها ستساعدك لأنك ستحصل من خلالها على مزيد من المعلومات".

ويقول الباحثون إن بعض المنتجات والأنظمة قد تكون أكثر قابلية لتعلم الأصوات غير العادية. فبعض الأنظمة -مثل نظام خدمة العملاء عبر الهاتف التي تقدمها البنوك، أو نظام هاتف السيارة الذي يعمل دون استخدام اليدين- تستخدم عددًا محدودًا من المفردات، ومن ثم نظريًّا يؤكد هارفي أنه من الأسهل تطوير مجموعة من الخوارزميات التي تتعرف على طرق مختلفة لنطق مجموعة محددة من الكلمات. لكن لا تزال تلك الأنظمة تستخدم بعض الكلمات الفريدة مثل اسم المستخدم، ومن ثم ينبغي عليها تعلمها.

ويضيف دوبرافاك أن ثمة حلًّا آخر يتمثل في تزويد تلك الأجهزة بالقدرة على طرح أسئلة توضيحية على المستخدمين عندما يتعذر على أنظمتها للتعرف على الأصوات فهم المستخدمين على الفور.

ومن الممكن في نهاية المطاف أن تكون الشبكات العصبية المصممة بشكل أفضل جزءًا من الحل بالنسبة للأشخاص الذين يعانون إعاقات في الكلام– كل ما يتطلبه الأمر توفر بيانات كافية. فيقول موزر: "كلما توفر المزيد من البيانات، أصبحت هذه التكنولوجيا أفضل كثيرًا". وقد بدأ هذا يحدث بالفعل مع اللغات المختلفة والكلام الذي تطغى عليه لهجات خاصة، فوفقًا لشركة أبل، تمكن برنامج "سيري" حتى الآن من تعلم 39 لغة ولهجة مختلفة.

ولكن مع تغلغل هذه التكنولوجيا بشكلها الحالي في حياتنا اليومية، يُحذر باحثون مثل رودزيتش من أنه سيجري استبعاد الكثيرين ممن يعانون مشكلات كلامية وصوتية من استخدام المنازل "الذكية" التي تعمل أنظمة الأمان الخاصة بها ومفاتيح الإضاءة ومنظِّمات الحرارة فيها بالصوت، وقد لا يتمكنون كذلك من استخدام السيارات بدون سائق. فيقول رودزيتش: "ينبغي أن تتاح الفرصة لهؤلاء الأفراد للمشاركة في مجتمعنا العصري". وحتى الآن، فإن محاولات شركات التكنولوجيا لأن تكون منتجاتها مناسِبة لهم ليست أكثر من مجرد كلام.