Photo Photo Photo Photo Photo Photo

Print
E-mail
Computer Science: Finding the Similarity between Two Arabic Texts

 

Finding the Similarity between Two Arabic Texts

Suhad Malallah kadhem, Aseel Qassim Abd Alameer*

Department of Computer Sciences, University of Technology, Baghdad, Iraq

Abstract

     Calculating similarities between texts that have been written in one language or multiple languages ​​ still one of the most important challenges facing the natural language processing. This work offers many approaches that used for the texts similarity. The proposed system will find the similarity between two Arabic texts by using hybrid similarity measures techniques: Semantic similarity measure, Cosine similarity measure and N-gram ( using the Dice similarity measure). In our proposed system we will design Arabic SemanticNet that store the keywords for a specific field(computer science), by this network we can find semantic similarity between words according to specific equations. Cosine and N-gram similarity measures are used in order to find the similar characters sequences. The proposed system was executed by using Visual Basic 2012, and after testing it, it proved to be a worthy for finding the similarity between two Arabic texts (From the viewpoint of accuracy and search time).

Keywords: Arabic Text Similarity, Semantic Similarity, Keyword Extraction, N-Gram, Cosine Similarity Measure, Dice's Similarity Measure

 

ايجاد نسبة التشابة مابين نصين عربيين

سهاد مال الله كاظم ، اسيل قاسم عبد الامير*

قسم علوم الحاسوب ، جامعة التكنولوجيا ،, بغداد ، العراق.

الخلاصة

    

     ايجاد  نسبة  تشابه بين نصوص مكتوبة بلغة واحدة أو عدة  لغات تعتبر من أهم التحديات التي تواجه معالجة اللغة الطبيعية .هذا العمل يقدم عدة طرق لتشابه النصوص. وفي هذه البحث سوف نقوم بايجاد نسبة التشابه بين نصين عربيين من خلال دمج عدة طرق لقياس التشابه : مقياس التشابة المعنوي ومقياس تشابهة Cosine وتقنية  N-gram )باستخدام مقياس تشابهة .(Dice في نظامنا المقترح تم تصميم  SemanticNet لخزن الكلمات المفتاحية لمجال معين )علوم الحاسوب ( ومن خلال هذة الشبكة نستطيع ايجاد التشابة المعنوي بين الكلمات وفق معادلات معينة. استخدام مقياس التشابهة Cosine  وتقنية N-gram لغرض ايجاد سلسلة الحروف المتشابهة. ولقد تم تنفيذ النظام المقترح باستخدام اللغة البرمجية فيجول بيسك .2012 بعد ان اثبت اختبار النظام المقترح بانة قيم في ايجاد نسبة التشابة مابين نصين عربيين(من وجة نظر الدقة.



alt

 

 

S5 Box

Login



Register

*
*
*
*
*

Fields marked with an asterisk (*) are required.