النهار

أداة مبتكرة تعتمد على الذكاء الاصطناعي لتمكين المكفوفين من التفاعل مع محيطهم بفعالية
المصدر: النهار
برنامج WorldScribe، الذي طوره باحثون من جامعة ميشيغان، يستخدم الذكاء الاصطناعي لتحليل الصور وتوليد أوصاف صوتية ونصية فورية للمكفوفين وضعاف البصر، مما يساعدهم على إدراك محيطهم بشكل أسرع وأكثر فعالية. رغم بعض التحديات، يتوقع المستخدمون أن يحدث البرنامج ثورة في تسهيل حياتهم اليومية مع المزيد من التطوير.
أداة مبتكرة تعتمد على الذكاء الاصطناعي لتمكين المكفوفين من التفاعل مع محيطهم بفعالية
صورة تعبيرية
A+   A-
عالم مليء بالألوان والقوام قد يصبح قريباً أكثر سهولة للوصول إليه للأشخاص المكفوفين أو ضعاف البصر بفضل برنامج جديد يروي ما تسجله الكاميرا. الأداة، التي تحمل اسم WorldScribe، تم تطويرها من قبل باحثين في جامعة ميشيغان، وسيتم تقديمها في ندوة ACM  حول واجهة برمجيات المستخدم والتكنولوجيا التي تُعقد في بيتسبرغ هذا الأسبوع، من 13  إلى 16 تشرين الأول (أكتوبر) 2024.

يستخدم WorldScribe  نماذج الذكاء الاصطناعي التوليدي لتحليل صور الكاميرا وإنتاج نصوص وأوصاف صوتية في الوقت الفعلي، مما يسهم في مساعدة المستخدمين المكفوفين أو ضعاف البصر على إدراك محيطهم بشكل أسرع وأكثر فعالية. ومن الميزات البارزة للأداة أنها تستطيع تعديل مستوى التفاصيل بناءً على أوامر المستخدم أو مدة بقاء الشيء في إطار الكاميرا. كما يتكيف مستوى الصوت تلقائيًا مع البيئات الصاخبة مثل الغرف المزدحمة أو الشوارع الصاخبة والموسيقى العالية، مما يوفر مرونة أكبر للمستخدمين في مختلف الظروف.

وفي حديثه عن التجربة، يقول سام راو، الذي وُلد مكفوفاً وشارك في الدراسة التجريبية لـ WorldScribe : "بالنسبة لنا نحن المكفوفين، قد يُحدث هذا البرنامج ثورة حقيقية في كيفية تعاملنا مع العالم في الحياة اليومية". 
وأضاف راو: "ليس لدي أي تصور عن الرؤية، ولكن عندما جربت الأداة، شعرت بأنني حصلت على نافذة لرؤية العالم الحقيقي، واندهشت من الألوان والقوام التي لم أكن أتمكن من الوصول إليها بأي شكل آخر".
ومن خلال تجربته الشخصية مع الأداة، يوضح راو كيف أن المكفوفين عادةً ما يقومون بتجميع الصورة حولهم قطعةً بقطعة، وهو ما يتطلب الكثير من الجهد العقلي. لكن، بفضل WorldScribe، يمكن للمستخدمين الحصول على المعلومات بسرعة فورية، مما يساعدهم على التركيز على تفاصيل حياتهم اليومية دون الحاجة لبذل جهد كبير لفهم محيطهم. يعبر راو عن هذه الفائدة قائلاً: "هذه الأداة تتيح لنا أن نركز على أن نكون بشراً، بدلاً من أن ننشغل بمحاولة فهم ما يحدث حولنا".

أثناء الدراسة التجريبية، ارتدى راو سماعة رأس مزودة بهاتف ذكي وتجوّل في مختبر الأبحاث. استخدمت الكاميرا الموجودة في الهاتف لنقل الصور لاسلكياً إلى خادم الذي قام بتوليد أوصاف نصية وصوتية للأشياء في إطار الكاميرا في الوقت الفعلي، مثل جهاز كمبيوتر محمول على مكتب، أو كومة من الأوراق، أو تلفزيون، أو لوحات معلقة على الحائط. الأوصاف كانت تتغير باستمرار لتتناسب مع ما يظهر في الكاميرا، مع إعطاء الأولوية للأشياء الأقرب إلى راو.

ما يميز هذه الأداة هو قدرتها على تقديم أوصاف مرنة تختلف باختلاف المدة التي يبقى فيها الشيء في إطار الكاميرا. على سبيل المثال، نظرة سريعة على مكتب قد تنتج وصفاً بسيطاً، بينما نظرة أطول توفر معلومات أكثر تفصيلاً حول الملفات والأوراق الموجودة عليه. تعتمد الأداة في ذلك على ثلاثة نماذج مختلفة من الذكاء الاصطناعي. النموذج الأول، YOLO World، يولد أوصافاً بسيطة وسريعة للأشياء التي تظهر لفترة قصيرة. بينما يتولى GPT-4، النموذج المستخدم في "شات جي بي تي" ، معالجة الأوصاف التفصيلية للأشياء التي تبقى لفترة أطول في الإطار. أما النموذج الثالث، Moondream، فيوفر مستوىً متوسطاً من التفاصيل.

وتعليقاً على تطوير الأداة، يقول الباحث أنهونغ قوه، أستاذ مساعد في علوم الكمبيوتر والهندسة وأحد المؤلفين الرئيسيين للدراسة: "إن العديد من التقنيات المساعدة الحالية التي تعتمد على الذكاء الاصطناعي تركز على مهام محددة أو تتطلب نوعاً من التفاعل التدريجي، كأن تلتقط صورة ثم تحصل على نتيجة. ولكن توفير أوصاف غنية ومفصلة لتجربة مباشرة يمثل تحدياً كبيراً لأدوات الوصول الحالية".
وأضاف قوه: "لقد رأينا فرصة لاستخدام النماذج المتقدمة للذكاء الاصطناعي لابتكار أوصاف تلقائية وقابلة للتكيف في الوقت الفعلي". بفضل هذا النهج، يمكن للأداة أيضاً الاستجابة للمهام أو الأسئلة التي يقدمها المستخدم، مثل إعطاء الأولوية لوصف أشياء محددة طلب المستخدم العثور عليها.

على الرغم من هذه التطورات الواعدة، أشار بعض المشاركين في الدراسة إلى وجود بعض التحديات التي لا تزال تواجه الأداة، مثل صعوبة اكتشاف بعض الأشياء الصغيرة كزجاجة قطرة العين. من جانبه، يعترف راو بأن الأداة ما زالت غير جاهزة تماماً للاستخدام اليومي في حالتها الحالية، لكنه يؤكد أنه سيستخدمها يومياً إذا تم دمجها في نظارات ذكية أو جهاز يمكن ارتداؤه بسهولة.

بفضل الابتكارات المستمرة في مجال الذكاء الاصطناعي، يُظهر WorldScribe إمكانيات هائلة في تحسين حياة المكفوفين وضعاف البصر من خلال تمكينهم من فهم محيطهم بشكل أكثر شمولية وسهولة. ومع المزيد من التطوير، يمكن أن تصبح هذه الأداة جزءاً لا يتجزأ من حياتهم اليومية، مما يفتح آفاقاً جديدة للتفاعل مع العالم.

اقرأ في النهار Premium