في تطور يثير اهتمام مجتمع الرياضيات العالمي، يختبر علماء الرياضيات الرائدون قدرات الذكاء الاصطناعي المتقدمة في حل المشكلات الرياضية المعقدة. تأتي هذه المبادرة في ظل تزايد الاعتماد على نماذج الذكاء الاصطناعي، مما يطرح تساؤلات حول مستقبل الإبداع الرياضي وما إذا كانت الآلات قادرة على تجاوز القدرات البشرية في هذا المجال.
اختبار الذكاء الاصطناعي في الرياضيات: هل يهدد الإبداع البشري؟
في رسالة استغراب وشك، تساءل طالب في المرحلة الثانوية عن مستقبل شغفه بعلم الرياضيات في ظل التطور المتسارع للذكاء الاصطناعي. أعرب الطالب عن قلقه من أن الآلات، التي أصبحت قادرة على حل المشكلات بكفاءة متزايدة، قد تجعل البشر عاجزين عن المساهمة، ما يطرح سؤالاً جوهرياً حول ما إذا كانت الرياضيات ستفقد بريقها بهذه الطريقة.
استجابة لهذا القلق، أوضح عالم الرياضيات الحائز على “ميدالية فيلدز” و”جائزة بريكثرو”، البروفيسور مارتن هايرر، أن الرياضيات في الواقع مجال آمن تمامًا ضد هذا النوع من التقادم. وأشار هايرر، الذي يقسم وقته بين المعهد الفيدرالي السويسري للتكنولوجيا في لوزان وجامعة “إمبريال كوليدج” في لندن، إلى أن نماذج اللغات الكبيرة، وهي التقنية الأساسية في برامج الدردشة الآلية، وإن كانت بارعة في حل مسائل مصطنعة، إلا أنها لم تظهر قدرة مقنعة على توليد أفكار جديدة أو صياغة مفاهيم مبتكرة.
وقد تجسدت هذه الأفكار في ورقة بحثية جديدة بعنوان “البرهان الأول” (First Proof)، شارك في تأليفها هايرر بالتعاون مع نخبة من علماء الرياضيات، منهم محمد أبو زيد من جامعة ستانفورد، ولورين ويليامز من جامعة هارفارد، وتمارا كولدا، مديرة شركة “ماث ساي. إيه آي”. تهدف هذه الورقة إلى تقديم مقياس دقيق لكفاءة الذكاء الاصطناعي في مجال الرياضيات.
قياس كفاءة الذكاء الاصطناعي في حل المسائل الرياضية البحثية
تهدف هذه التجربة الرائدة إلى جمع أسئلة اختبار حقيقية، مستقاة من أبحاث غير منشورة لهؤلاء المؤلفين، بغرض توفير معيار موثوق لقياس الكفاءة الرياضية الحقيقية للذكاء الاصطناعي. يأمل الباحثون أن يساهم هذا العمل في تصحيح المفاهيم الخاطئة حول قدرات الذكاء الاصطناعي في “حل” مسائل الرياضيات، وتخفيف الضجة المحيطة به والتي قد تنفّر الطلاب والممولين على حد سواء.
يقول الباحثون في ورقتهم: “على الرغم من أن أنظمة الذكاء الاصطناعي التجارية قد وصلت بلا شك إلى مستوى يجعلها أدوات مفيدة لعلماء الرياضيات، فإنه لم يتضح بعد مدى قدرة هذه الأنظمة على حلّ مسائل رياضية بحثية بمفردها، دون تدخل خبير.”
تقييم مختلف من قبل شركات الذكاء الاصطناعي
غالباً ما تستخدم شركات الذكاء الاصطناعي ما يصفه بعض علماء الرياضيات بأنه مسائل “مصطنعة” أو “مقيدة” لتقييم أداء أنظمة الذكاء الاصطناعي وقياس كفاءتها عند العمل دون مساعدة بشرية. في بعض الأحيان، يتم استدعاء علماء رياضيات للمساهمة في هذه المسائل مقابل مبلغ مالي يصل إلى 5 آلاف دولار أمريكي لكل مسألة.
من الجدير بالذكر أن مؤلفي مشروع “فيرست بروف” ليس لديهم أي ارتباط بشركات الذكاء الاصطناعي. في أبريل الماضي، رفض البروفيسور محمد أبو زيد، الحائز على جائزة “آفاق جديدة في الرياضيات”، دعوة مماثلة، مؤكداً على ضرورة بذل جهد مستقل وعلني، ووصف “فيرست بروف” بأنها المحاولة الأولى في هذا الاتجاه.
وصرحت البروفيسورة لورين ويليامز، الحاصلة مؤخرًا على زمالة “غوغنهايم” و “ماك آرثر”، بأن الهدف هو الحصول على تقييم موضوعي لقدرات الذكاء الاصطناعي البحثية. هذا النهج يهدف إلى الابتعاد عن التقييمات الداخلية التي قد تكون متحيزة.
اختبارات متعمقة لنماذج الدردشة
في هذه التجربة، ساهم كل مؤلف، ممثلاً مجالاً رياضياً متنوعاً، بسؤال اختباري واحد مستخلص من بحث يعمل عليه ولم ينشره بعد، وحددوا الإجابات بدقة. تم تشفير هذه الحلول عبر الإنترنت ومن المقرر نشرها قريبًا. وبهذا، يمكن للباحثين رصد وتوثيق النتائج بدقة.
وقالت تمارا كولدا، إحدى عالمات الرياضيات القلائل اللواتي انتُخبن لعضوية الأكاديمية الوطنية للهندسة: “الهدف هنا هو فهم الحدود: إلى أي مدى يمكن للذكاء الاصطناعي أن يتجاوز بيانات التدريب والحلول الموجودة التي يجدها على الإنترنت؟”. هذا السؤال يضع إطارًا واضحًا للتحديات التي تواجه تقييم قدرات هذه الأنظمة.
أجرى الفريق اختبارات أولية على نماذج متقدمة مثل “ChatGPT-5.2 Pro” من “أوبن إيه آي” و”Gemini 3.0 Deep Think” من “غوغل”. ووفقًا للباحثين، عند إعطاء النموذج فرصة واحدة فقط للإجابة: “تواجه أفضل أنظمة الذكاء الاصطناعي المتاحة للجمهور صعوبة في حل كثير من مشكلاتنا”. هذه النتيجة تشير إلى وجود فجوة لا تزال قائمة بين ما يمكن للذكاء الاصطناعي الحالي تقديمه وما تتطلبه المسائل الرياضية البحثية.
“البرهان الأول” والخطوات المستقبلية
يقدم الباحثون في مقدمة البحث شرحًا لعنوانه، مستخدمين تشبيهًا عملية صنع رغيف الخبز. يقولون: “عند صنع الخبز، فإن البرهان الأول – أي عملية التخمير الأولي لمجموع العجينة – تعد خطوة حاسمة؛ حيث تُترك عجينة الخبز بأكملها لتتخمر ككتلة واحدة، قبل تقسيمها وتشكيلها إلى أرغفة”. هذا التشبيه يبرز أهمية التحضير المنهجي ووضع الأسس السليمة قبل الانتقال إلى مراحل متقدمة.
بعد نشر الفريق للمجموعة الأولى من مسائل الاختبار، يدعو المجتمع الرياضي لاستكشافها. ومن المتوقع، بعد بضعة أشهر من تبادل الآراء والأفكار، إجراء جولة ثانية أكثر تنظيمًا لتقييم الأداء باستخدام مجموعة جديدة من المسائل. هذه الخطوة تهدف إلى بناء نهج تعاوني لتطوير فهمنا لقدرات الذكاء الاصطناعي.
جاء نشر “البرهان الأول” في الوقت المناسب تمامًا لاحتفالات “يوم أويلر” في السابع من فبراير، الذي سمي تكريمًا لعالم الرياضيات السويسري ليونارد أويلر. يتوافق هذا التاريخ مع “عدد أويلر” (e)، وهو ثابت رياضي أساسي بنفس أهمية “باي” (π). يعتمد تدريب أنظمة الذكاء الاصطناعي الحالية، القائمة على الشبكات العصبية، على تقنية اكتشفها أويلر لحل المعادلات التفاضلية العادية، والمعروفة باسم “طريقة أويلر”، مما يربط بشكل وثيق بين تاريخ الرياضيات وتقنيات الذكاء الاصطناعي الحديثة.
