جزوه و اسلایدهای درس مفاهیم داده کاوی (Datamining) با فرمت ppt و pdf
سرفصلهای درس:
مقدمه و مفاهیم اولیه
داده چیست؟
استخراج الگوهای پرتکرار و قوانین انجمنی
طبقه بندی داده ها
خوشه بندی داده ها
مباحث کاربردی
کار با ابزار وکا (weka)
فصول جزوه و اسلایدهای درس مفاهیم داده کاوی (Datamining) :
فصل اول : مقدمه و مفاهیم اولیه در ۲۴ اسلاید
فصل دوم: داده را بشناسید! در ۵۹ اسلاید
فصل سوم: پیشپردازش دادهها در ۶۱ اسلاید
فصل ششم: الگوهای پرتکرار و قوانین انجمنی در ۵۵ اسلاید
فصل هشتم: دستهبندی در ۸۳ اسلاید
فصل دهم: خوشهبندی در ۸۱ اسلاید
بخشی از متن فایل
خصوصیات یا ویژگیها (attributes)
- نامهای دیگر: features, dimensions, variables
- تعریف: ویژگی دادهای است که خصوصیات یک شی دادهای را توصیف میکند.
- مثال: شناسه مشتری، نام، آدرس
- انواع ویژگیها :
- Nominal : اسمی
- Binary : دودویی
- Ordered : مرتب شده
- Numeric : عددی : کمی (Quantitative )
- Interval-scaled : مقیاس شده بر اساس فاصله
- Ratio-scaled : مقیاس شده بر اساس نسبت
انواع ویژگیها
- اسمی یا Nominal : categories , states or “name of things”
- متغیر در دستههای بدون ترتیب قرار گیرد وفقط حالتهای خاصی داشته باشد.
- مثال :
- رنگ مو : {سیاه، بور، قهوهای، خاکستری، قرمز، سفید}
- وضعیت تأهل: { متأهل، مجرد، طلاق گرفته}
- وضعیت اشتغال، کدپستی، رنگ چشم
- تنها اطلاعاتی کافی برای متمایز کردن دو شی را فراهم میکنند.
- (= , ≠)
- دودویی یا Binary : ویژگیهای Nominalی که تنها دو وضعیت دارند. {0 یا 1}
- دودویی متقارن (Symmetric binary) : هر دو اهمیت یکسان داشته باشند.
- مانند جنسیت
- دودویی نامتقارن (Asymmetric binary) : به یک نسبت اهمیت نداشته باشند.
- مانند : جواب آزمایش (positive or negative )،
- به موردی که از اهمیت بیشتری برخوردار است مقدار 1 میدهیم.
انواع ویژگیهای عددی (Numeric)
- دادههای ترتیبی ( Ordinal)
- در یک جهت معنادار ارزش دارند. ( رتبهبندی)
- مقدار بین دو مقدار متوالی شناخته شده نیست.
- مثال : اندازه = {کوچک، متوسط، بزرگ}
- نمرات
- رتبهبندی در ارتش
≤ , ≥
- نسبت (Ratio)
- نقطه صفر ذاتی دارند.
- میتوانیم از مقادیر به عنوان مقیاس بزرگتر از واحد اندازهگیری صحبت کنیم.
- هم نسبت و هم فاصله مهم است.
- مثال: درجه حرارت به کلوین ( مثلاً 10 درجه کلوین دو برابر 5 درجه کلوین است.)
- طول، تعداد، مقدار پول ( کمیت مالی)، سن، وزن، جریان الکتریکی
- (× و / )( عمل ضرب و تقسیم)
تقسیم ویژگیها از منظری دیگر
- ویژگیهای گسسته (Discrete Attributes )
- فقط یک مجموعه متناهی یا نامتناهی از مقادیر قابل شمارش دارد.
- به عنوان مثال: کدپستی، یا مجموعهای از کلمات در مجموعهای از اسناد
- نمایش به صورت عدد صحیح در برخی موارد
- ویژگیهای دودویی یک حالت خاص از ویژگیهای گسسته
- ویژگیهای پیوسته (Continuous Attributes )
- دارای اعداد حقیقی به عنوان مقادیر ویژگی هستند.
- برای مثال: درجه حرارت، قد، وزن
- در عمل فقط مقادیر حقیقی میتوانند اندازهگیری شوند و با تعداد ارقام متناهی نمایش داده شوند.
- معمولاً به صورت متغیرهای ممیزشناور نشان داده میشوند.