Header-Words Based for Printed Arabic Document Images Retrieval System
Matheel E. Abdulmunim1, Haithem K. Abass*2
1 Department of Computer Science, University of Technology, Baghdad, Iraq.
2Software Engineering and InformationTechnology Department, Al Mansour University College, Baghdad, Iraq.
Abstract
Printed Arabic document image retrieval is a very important and needed system for many companies, governments and various users. In this paper, a printed Arabic document images retrieval system based on spotting the header words of official Arabic documents is proposed. The proposed system uses an efficient segmentation, preprocessing methods and an accurate proposed feature extraction method in order to prepare the document for classification process. Besides that, Support Vector Machine (SVM) is used for classification. The experiments show the system achieved best results of accuracy that is 96.8% by using polynomial kernel of SVM classifier.
Keywords: DIR, Segmentation, Header-words, Words spotting, SVM.
نظام لاسترجاع الوثائق العربية المطبوعة بالاعتماد على كلمات الرأس
مثيل عماد الدين عبد المنعم1، هيثم كريم عباس2*
قسم علوم الحاسوب، الجامعة التكنولوجية، بغداد، العراق.
قسم هندسة البرمجيات وتكنولوجيا المعلومات، كلية المنصور الجامعة، بغداد، العراق.
الخلاصة
أنظمة استرجاع الوثائق العربية المطوعة لها دور مهم وضروري في الشركات والحكومات ومختلف الاستخدامات. تم في هذا البحث اقتراح نظام الاسترجاع الوثائق العربية الرسمية المصورة بالاعتماد على اكتشاف كلمات الراس. النظام المقترح يستخدم طريقة كفؤة في تجزئة الوثاق والمعالجة الأولية لها وطريقة دقيقة في استخراج الملامح منها لغرض تهيئتها لعملية التصنيف باستخدام Support Vector Machine (SVM) اثبتت التجارب ان النظام المقترح حقق أفضل النتائج في الصحة التي كانت %96.8 باستخدامpolynomial kernel.