لماذا تخفق برمجيات حوسبة اللغة العربية في الوصول إلى مستويات دقة عالية؟ (2/4)
لا يكفي أن تمتلك بيانات هائلة الحجم حتى تنجح عملية تعليم الآلة، ولكن ينبغي أن تكون البيانات كذلك ذات جودة عالية، ومصممة بطريقة تقارب المشكلة على الوجه الصحيح.
تناولنا في المقال السابق السبب الأول الذي نعتقد أنه يكمن وراء انخفاض فعالية البرمجيات العربية في حوسبة اللغة، وهو ببساطة الانتقال مباشرة إلى وضع حلول للمشكلة قبل تعريفها وتوصيفها وتأطيرها بشكل علمي.
وسنركز في هذا المقال على السبب الثاني، وهو يتعلق تحديداً بحلول تعلّم الآلة. ومن المعروف أن تعلّم الآلة يعتمد جوهرياً على مكوّنين هما الخوارزميات والنماذج من جهة، وبيانات تدريب الآلة من جهة أخرى.
سوف ندع المكوّن الأول كونه يقع خارج اختصاصنا، ولأن هذه الخوارزميات والنماذج –في حدود معرفتنا- ذات طبيعة عالمية لا تخص لغة دون أخرى. وسوف نركز اهتمامنا على المكوّن الثاني وهو بيانات تدريب الآلة.
هناك ثلاثة أبعاد أساسية يجب توفرها في بيانات تدريب أي نموذج للتعلم الآليّ حتى تستطيع الآلة أن تتعلّم بنجاح، وتحاكي قدرة الإنسان على القيام بالمهامّ اللغوية. وهذه الأبعاد هي: حجم البيانات؛ وجودة البيانات؛ ومدى تمثيل البيانات لسمات المشكلة المراد معالجتها.
يعتقد الكثيرون مخطئين أن مجرد الحصول على بيانات هائلة الحجم كافٍ لكي تكتسب الآلة المقدرة البشرية على التعامل مع اللغة. ولكن هذا الاعتقاد يبطل عملياً عند أول اختبار. إن حجم البيانات مهم جداً دون ريب، ولكنه مجرد بُعد واحد فقط. وحتى داخل هذا البعد نفسه، فإن تدريب الآلة على بيانات كبيرة الحجم متشابهة النوع سيحصر تعلّمها في هذا النوع فقط.
ولنأخذ مثالاً عملياً على هذا من مهمة بسيطة جداً في حوسبة اللغة وهي تحديد أقسام الكلام (PoS). تعدّ هذه المهمة من المهام الأساسية البسيطة في تحليل النصوص، والتي تنبني عليها مهام أكثر تعقيداً.
في هذه المهمة يتم تدريب نموذج تعلم الآلة على مدوّنة موسومة بأقسام الكلام، حتى تتعرف الآلة على السياقات المختلفة لاستخدام الكلمات وما يستلزمه كل سياق من قسم معين من أقسام الكلام.
للأسف، عند اختبار غالبية ما هو متوفر في السوق من حلول لهذه المشكلة البسيطة، نجدها تفشل في معالجة نصوص تعليمية أو أدبية بسيطة، ولا تنجح في تحديد أقسام الكلام بدقة عالية. والسبب في ذلك لا يعود قطعاً إلى خطأ في الخوارزميات أو في نماذج التعلم الآلي، ولكنه ببساطة يرجع إلى أن معظم مدونات التدريب تحتوي نصوصاً من مجال واحد فقط هو مجال لغة الأخبار، بسبب سهولة الحصول عليها، ومجال الأخبار مجال مهم بالتأكيد لكنه لا يمثل سوى جزء بسيط من مجالات استخدام اللغة العديدة.