Photo Photo Photo Photo Photo Photo
Print
E-mail
Computer Scince: Header-Words Based for Printed Arabic Document Images Retrieval System

 

Header-Words Based for Printed Arabic Document Images Retrieval System

Matheel E. Abdulmunim1, Haithem K. Abass*2

1 Department of Computer Science, University of Technology, Baghdad, Iraq.

2Software Engineering and InformationTechnology Department, Al Mansour University College, Baghdad, Iraq.

Abstract

     Printed Arabic document image retrieval is a very important and needed system for many companies, governments and various users. In this paper, a printed Arabic document images retrieval system based on spotting the header words of official Arabic documents is proposed. The proposed system uses an efficient segmentation, preprocessing methods and an accurate proposed feature extraction method in order to prepare the document for classification process. Besides that, Support Vector Machine (SVM) is used for classification. The experiments show the system achieved best results of accuracy that is 96.8% by using polynomial kernel of SVM classifier.

Keywords: DIR, Segmentation, Header-words, Words spotting, SVM.

 نظام لاسترجاع الوثائق العربية المطبوعة بالاعتماد على كلمات الرأس

مثيل عماد الدين عبد المنعم1، هيثم كريم عباس2*

قسم علوم الحاسوب، الجامعة التكنولوجية، بغداد، العراق.

قسم هندسة البرمجيات وتكنولوجيا المعلومات، كلية المنصور الجامعة، بغداد، العراق.

الخلاصة

     أنظمة استرجاع الوثائق العربية المطوعة لها دور مهم وضروري في الشركات والحكومات ومختلف الاستخدامات. تم في هذا البحث اقتراح نظام الاسترجاع الوثائق العربية الرسمية المصورة بالاعتماد على اكتشاف كلمات الراس. النظام المقترح يستخدم طريقة كفؤة في تجزئة الوثاق والمعالجة الأولية لها وطريقة دقيقة في استخراج الملامح منها لغرض تهيئتها لعملية التصنيف باستخدام Support Vector Machine (SVM) اثبتت التجارب ان النظام المقترح حقق أفضل النتائج في الصحة التي كانت %96.8 باستخدامpolynomial kernel.


alt

 

S5 Box

Login



Register

*
*
*
*
*

Fields marked with an asterisk (*) are required.