لماذا تخفق برمجيات حوسبة اللغة العربية في الوصول إلى مستويات دقة عالية؟ (4/4)
اختيار هيكلية الموارد اللغوية وتحديد الوسوم المناسبة لحلّ المشكلة عمليّة غير بسيطة، وهي تعتمد على فهم المشكلة وعلى الطريقة التي يتم بها مقاربتها.
كما ذكرنا في المقال الثاني من هذه السلسلة، هناك ثلاثة أبعاد أساسية يجب توفّرها في بيانات تدريب الآلة، وهي: حجم البيانات الكافي؛ وجودة البيانات؛ وتمثيل البيانات لسمات المشكلة المراد معالجتها.
وهذا البعد الأخير هو ما يمثّل التحدّي الأكبر عند بناء الموارد اللغوية. فحتى لو كانت البيانات كبيرة الحجم وعالية الجودة، فإنّ هذا لا يكفي لكي تتعلّم الآلة تعلماً ناجحاً.
إنّ معظم عمليات تعلّم الآلة تعتمد على توسيم بيانات المدوّنات بوسوم معيّنة. وهذه الوسوم تمثّل في الحقيقة أبعاد المشكلة المراد حلّها وفق وجهة نظر الشخص الذي اختارها. وعند اختيار وُسوم غير مناسبة أو قاصرة عن تمثيل أبعاد المشكلة، فإنّ الآلة ببساطة لن تتعلّم كيف تحلّ المشكلة، أو سيكون تعلّمها قاصراً.
إذا أخذنا مثالاً على ذلك مهمّة تحديد أقسام الكلام البسيطة التي تحدثنا عنها سابقاً، نجد أنّ اختيار مجموعة وسوم أقسام الكلام يمثل التحدي الأوّل قبل عملية التوسيم نفسها. فهل سنكتفي مثلاً بوسم الفعل (VERB) لجميع الأفعال، أم علينا أن نضع وسماً لكل نوع من أنواع الفعل (VERB_PAST، VERB_PRESENT، VERB_IMPARATIVE)؟ وإذا اخترنا الخيار الثاني فهل سنعتبر ما يُسمّى تقليدياً ضمائر الرفع المتصلة (فَعَلْتُ، فَعَلْنا، اِفْعَلـِي، إلخ) جزءاً من الفعل أو نعتبره قسماً منفصلاً؟ وماذا عن حروف المضارَعة وحالات الرفع والنصب والجزم للأفعال؟ في الحقيقة لا يمكن القفز عن هذه الأسئلة وعشرات مثلها قبل البدء بعملية توسيم الفعل، وإلّا فإنّ الناتج -مهما كانت جودته- سيظلّ قاصراً عن مساعدة الآلة على التعلّم الصحيح.
وفي أحيان أخرى، لا تكون البيانات موسومة، لكنّها تكون منظّمة بطريقة خاصّة، مثل المدوّنات المتوازية. وفي هذه الحالة أيضاً يلعب تحديد هيكيلة بناء المدوّنة وخصائصها دوراً حاسماً في قدرة الآلة لاحقاً على التعلّم.
لكن في الحقيقة، يرتبط تحديد هيكليّة البيانات وتعيين مجموعة الوسوم المناسبة مرتبطاً ارتباطاً جوهرياً بعمليّة تعريف المشكلة وتوصيفها وتأطيرها، وهو كما رأينا في المقال الأول السبب الرئيسي لإخفاق معظم عمليات حوسبة اللغة العربية في الوصول إلى دقة عالية.
ولتلخيص ما ورد في المقالات الأربعة، فإنّ ثمّة أربعة أسباب وراء إخفاق معظم عمليات حوسبة اللغة العربية في الوصول إلى دقة عالية، وهذه الأسباب الأربعة هي: الانتقال إلى وضع حلول للمشكلة مباشرةً قبل تعريفها وتوصيفها وتأطيرها؛ والاعتقاد أنّ حجم البيانات الكبير وحده كافٍ لنجاح عملية تعلّم الآلة؛ وانخفاض جودة البيانات؛ وعدم تنظيم البيانات وتوسيمها بما يمثّل المشكلة اللغوية المراد حلّها.