English اتصل بنا | بحث
الذخائر اللغوية العربية
تقنيات معالجة اللغة العربية
تقنيات معالجة الكلام المنطوق
تلخيص النصوص العربية
القراءة الآلية للنصوص العربية
الذخائر اللغوية العربية
أدوات خدمة النص القرآني
تجربة تقنيات آر دي آي
أوراق بحثية
خلال العقد الفائت، تزايد دور الذخائر اللغوية في تطوير تقنيات معالجة اللغات الحية من مجرد دور تكميلي إلى دور أساسي رائد.

لقد تبلورت اليوم القناعة أن الاستثمار المطلوب من أجل بناء الذخائر اللغوية الضرورية لتدريب المحركات البرمجية التي تشغل أية تقنية لغوية معينة قد يتخطى بهامش كبير الاستثمار المطلوب لتطوير هذه المحركات. وقد تَدَعّم بناءً على ذلك الاتجاه نحو تعظيم قابلية الذخائر اللغوية لإعادة الاستخدام والتوظيف، ولذلك فإنه قد تأسست درجة معتبرة من استقلالية الذخائر اللغوية كمكونات برمجية قائمة بذاتها، مما أدى بدوره إلى إنشاء سوق واسعة لمثل تلك الذخائر اللغوية.

وتمتلك آر دي آي تاريخـًا حافلاً في بناء الذخائر اللغوية العربية من كل الأنواع باستخدام ترسانة أدوات متقدمة تحقق الكفاءة والجودة معًا.

ويُعَدّ فصيح© أحد الأمثلة الواضحة على الأدوات المعمّقة لبناء الذخائر اللغوية واسعة النطاق التي صنعتها آر دي آي. وتستطيع هذه الأداة استيعاب مدونات ضخمة للنص العربي الخام ومن ثم إنتاج مدونات نصية مُهيكَلة ومعنوَنة بالمعلومات اللغوية الأساسية الآتية:

وفي حين أن فصيح© يستطيع أن يولد هذه العَنـْوَنات بشكل آلي تمامًا، فإنه يتيح أيضًا التوجيه والمراجعة اليدوية في بيئة رسومية تفاعلية متكاملة مع العديد من الأدوات مثل التلوين حسب الحالة ومثل المعاجم الصرفية المصاحبة. انظر إلى لقطة كاملة أثناء عمل فصيح© بالضغط هنا.

ولمزيد من التفاصيل حول فصيح©، يرجى الضغط هنا.

وقد تمرست آر دي آي في بناء ذخائر لغوية ضخمة الحجم للغة المكتوبة واللغة المنطوقة، ومجلدات صفحات النصوص المطبوعة بمختلف الأبناط والممسوحة ضوئيًّا بما يقابلها من نص رقمي. وقد أنتِجت هذه الذخائر اللغوية من أجل تدريب ما تنتجه آر دي آي من تقنيات معالجة اللغة العربية المكتوبة والكلام المنطوق وأنظمة التعرف الآلي على الكتابة العربية المطبوعة، وكذلك من أجل تقويم أداء كل هذه الأنظمة. وفوق ذلك، فإن آر دي آي توفر هذه الذخائر للمطورين الصناعيين والأكاديميين الذين يعملون في مثل هذه التقنيات من أجل تدريب واختبار تقنياتهم وتطبيقاتهم.

أمثلة من الذخائر اللغوية التي بنتها آر دي آي لصالح الغير:

  • شاركت آرْ دي آيْ من خلال مشروع ميدار في بناء مدونات نصية متحاذية ثنائية اللغة بأحجام ضخمة في حدود عدة عشرات من ملايين الكلمات من أجل بناء نظام أساسي مفتوح المصدر للترجمة الآلية الإحصائية يوفره المشروع للتدريب والبحث الأكاديمي والتطوير ما قبل الصناعي.

  • مدونة من ثلاثة أرباع مليون كلمة عربية متوازنة المصادر لصالح مشروع نملار بواسطة أداتها فصيح© حيث احتوت المدونة على كل أنواع العنونة المشار إليها عالِيَه؛ أي الصرفية والنحوية والصوتية والدلالية المعجمية. وقد تمت مراجعة عنونات هذه المدونة يدويـًّا بالكامل. ولمزيد من التفاصيل، يمكن مراجعة وثيقة المواصفات لهذه الذخائر اللغوية.

  • قواعد البيانات التفصيلية الكاملة لصوت رجالي وصوت نسائي لأنظمة تخليق الصوت خاصة الأنظمة التلاصقية لتخليق الكلام المنطوق من النص العربي المكتوب. وقد تم تحديث وطرح هذه الذخيرة اللغوية، التي جرى بناؤها وفقـًا لأحدث المعايير الفنية في هذا المجال والتي بُنِيَ على أساسها نظام تخليق الكلام المنطوق من النص العربي المكتوب؛ البليغ©، للاستخدام العام عبر المشروع اليورومتوسطي: نملار. لمزيد من التفاصيل، يمكن مراجعة الورقة البحثية عن الذخائر اللغوية لمشروع نملار في مؤتمر إلْ-رِيكْ 2006.

  • عنونة 40 ساعة من الكلام المنطوق عبر الإذاعة حيث تعاقبت أدوار الحديث بين 259 متحدثـًا. وقد جرى بناء هذه الذخيرة اللغوية وفقـًا لأحدث المعايير الفنية في هذا المجال، كما جرى طرحها للاستخدام العام عبر المشروع اليورومتوسطي؛ نملار. ولمزيد من التفاصيل، يمكن مراجعة الورقة البحثية عن الذخائر اللغوية لمشروع نملار في مؤتمر إلْ-رِيكْ 2006.

  • قواعد بيانات معنونة بالكامل لأنظمة التعرف الآلي على الكلام المنطوق مستخلصة مما يفوق 1,000 متحدث مصري من أربع مناطق مختلفة من ربوع مصر، وتغطي قاعدة البيانات تلك اللغة العربية المعيارية، والعامية المصرية، والإنجليزية بلكنة مصرية. وقد جرى بناء هذه الذخيرة اللغوية كجزء من مشروع أورْيانْتِيلْ.

  • القسم المصري من قاعدة بيانات الكلام المنطوق للنسخة العربية من برنامج شركة آيْ بِي إمْ للإملاء الآلي "فَيَا-فويِسْ"©.
تحميل | وظائف
www.rdi-eg.com
.RDI© - الشركة الهندسية لتطوير النظم الرقمية
.منذ 1993 جميع الحقوق محفوظة