لماذا تخفق برمجيات حوسبة اللغة العربية في الوصول إلى مستويات دقة عالية؟ (3/4)

الناشر تم النشر بتاريخ: 2021-11-04

هناك حاجة كبيرة إلى موارد لغوية يبنيها لغويون متخصصون، ويتمّ مراجعتها بشكل سليم. كذلك هناك حاجة إلى تنسيق جهود بناء الموارد اللغوية بين الجهات المختلفة.

ذكرنا في المقال السابق أن هناك ثلاثة أبعاد أساسية يجب توفّرها في بيانات تدريب الآلة، وهي: حجم البيانات الكافي؛ وجودة البيانات؛ وأن تمثّل البيانات سمات المشكلة المراد معالجتها. وسوف نركز عنايتنا في هذا المقال والمقال التالي على البُعدين الأخيرين، اللذين غالباً ما يتم إغفالهما للأسف، والاكتفاء بالبعد الأول.

نظرياً لا أحد يجادل في أهمية أن تكون البيانات ذات جودة عالية، فبالتأكيد أن تستعمل بيانات جيدة أفضل من أن تستعمل بيانات رديئة! ولكن حين ننظر إلى موارد البيانات العربية في الواقع، نجد أن الغالبية العظمى منها موارد منخفضة الجودة بشكل مخيب للآمال، ومعيق لعمليات الحوسبة. فلماذا كان الحال هكذا؟

الأسباب عديدة نكتفي هنا بذكر بعضها. أهمّ سبب هو عدم قيام متخصصين لغويين ببناء هذه الموارد، وإسناد بنائها إلى غير المختصين غالباً يكون من أجل تقليل التكلفة. وكذلك عدم وجود آلية للمراجعة عند بناء الموارد، مما يصعب اكتشاف الأخطاء لاحقاً. وسبب آخر أن جزءاً غير قليل من الموارد يتم بناؤه آلياً ثم الادّعاء بأنه قد بني يدوياً.

مشكلة أخرى في الموارد اللغوية العربية هي عدم وجود معايير متفق عليها في بنائها، مما يجعل من المتعذر غالباً استخدام عدة موارد لغوية آتية من مصادر مختلفة. ففي الواقع العملي تبني كل جهة (باحث، مركز، جامعة) مواردها اللغوية على طريقتها، دون أدنى تنسيق مع الجهات الأخرى التي تعمل على موارد مشابهة. وهذا يجعل من الجهود تتوازى ولا تتراكم.