Photo Photo Photo Photo Photo Photo

Print
E-mail
Computer Science: Modified Decision Tree Classification Algorithm for Large Data Sets

 

Modified Decision Tree Classification Algorithm for Large Data Sets

Ihsan A. Kareem *, Mehdi G. Duaimi

Department of Computer Science, College of Science, University of Baghdad, Baghdad, Iraq.

Abstract

    A decision tree is an important classification technique in data mining classification. Decision trees have proved to be valuable tools for the classification, description, and generalization of data. Work on building decision trees for data sets exists in multiple disciplines such as signal processing, pattern recognition, decision theory, statistics, machine learning and artificial neural networks. This research deals with the problem of finding the parameter settings of decision tree algorithm in order to build accurate, small trees, and to reduce execution time for a given domain.

    The proposed approach (mC4.5) is a supervised learning model based on C4.5 algorithm to construct a decision tree. The modification on C4.5 algorithm includes two phases: the first phase is discretization all continuous attributes instead of dealing with numerical values. The second phase is using the average gain measure instead of gain ratio measure, to choose the best attribute. It has been experimented on three data sets. All those data files are picked up from the popular (UCI) University of California at Irvine data repository. The results obtained from experiments show that (mC4.5) is better than C4.5 in decreasing the total number of nodes without affecting the accuracy; at the same time increasing the accuracy ratio.

Keywords: Attribute selection measure; C4.5 algorithm; Decision tree classification. 

خوارزمية تصنيف شجرة القرار المعدلة لمجموعات البيانات الكبيرة

احسان علي كريم *، مهدي كزار دعيمي

قسم علوم الحاسبات ، كلية العلوم ، جامعة بغداد ، بغداد ، العراق

الخلاصة :

     شجرة القرار هو أسلوب تصنيف هام في تصنيف واستخراج البيانات. وقد أثبتت أشجار القرار أن تكون أدوات قيمة للتصنيف والوصف، وتعميم البيانات. والعمل على بناء أشجار قرار لمجموعات البيانات موجود في تخصصات متعددة مثل معالجة الإشارات و التعرف على الأنماط ونظرية القرار والاحصاءات والتعلم الآلي والشبكات العصبية الاصطناعية. يتناول هذا البحث مشكلة العثور على إعدادات عامل متغير في خوارزمية شجرة القرارات من أجل بناء اشجار دقيقة، الصغيرة، والحد من وقت التنفيذ لمجال معين. 

     التقنية المقترحة هي نموذج التعلم تحت إلاشراف. النهج المقترح يستخدم خوارزمية (C4.5) لبناء شجرة القرار. التعديل على خوارزمية (C4.5) يشمل مرحلتين: المرحلة الأولى هي تفريد كل السمات المستمر بدلا من التعامل مع القيم العددية. المرحلة الثانية تتم باستخدام (average gain measure) بدلا من (gain ratio measure) والذي يستخدم في خوارزمية (C4.5) لاختيار أفضل سمة. وقد تمت تجربت ذلك على ثلاث مجموعات من البيانات. يتم اختيار كل تلك ملفات البيانات من (UCI) (University of California at Irvine) مستودع البيانات. النتائج المتحصل عليها من التجارب تبين أن (mC4.5) هي أفضل من (C4.5) في خفض العدد الإجمالي للعقد دون التأثير على الدقة؛ ويتم في الوقت نفسه زيادة نسبة الدقة.                             



alt


 

S5 Box

Login



Register

*
*
*
*
*

Fields marked with an asterisk (*) are required.