فایل پایان نامه بررسی الگوریتم های خوشه بندی جریان های داده متنی


فایل پایان نامه بررسی الگوریتم های خوشه بندی جریان های داده متنی

 

 

pn-khoshe-bandi-moton-[www.RDaneshjoo.ir]

بررسی الگوریتم های خوشه بندی جریان های داده متنی

بخشی از مطالب:

چکیده

در تاریخ در حال توسعه اینترنت، اطلاعات متنی نقش فوق العاده مهمی را بازی می کند. امروزه هنوز هم اطلاعات متنی اساسی ترین و فرم اصلی اطلاعات در اینترنت هستند. بنابراین تقاضای نظارت، مدیریت اطلاعات متنی و استفاده از آن به عنوان منابع با ارزش زیاد، به سرعت در حال افزایش یافتن است. امروزه تجزیه و تحلیل جریان متن دارای اهمیت فراوان است و کاربردهای مختلف از جمله فیلترینگ گروههای خبری، تشخیص و ردیابی موضوع، جریان آهسته متن، شبكه- هاي حسگر، سازماندهي اسناد و شناسایی کاربر دارد. خوشه بندی یکی از مهم ترین روش های تجزیه و تحلیل جریان متن است. مسئله خوشه بندي جريان متن نسبت به خوشه بندي جريانهاي عددي در آغاز راه است و به تازگي مورد توجه محققان بيشتري قرار گرفته است. در این پایان نامه به بررسی الگوریتم های ارائه شده برای خوشه بندی جریانهای داده متنی پرداخته و سیر پیشرفت این الگوریتم ها در راستای افزایش کارایی و بهبود کیفیت خوشه بندی متون بررسی شده است.

تعریف داده کاوی

در متون اکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درانها به کاوش در داده ها توجه می شود موجود است . برخی از این تعاریف عبارتند از

داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید ازپایگاه داده می-باشد.

  • ‍‍اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود.
  • داده کاوی یعنی جستجو در پایگاه داده ها برای یافتن الگوهایی میان داده ها
  • داده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگ
  • داده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها

داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه دادهای می باشد.

فهرست مطالب:

فصل اول. 1

1- 1 مقدمه. 2

1-2 تعریف داده کاوی.. 3

1-3 کاربردهای داده کاوی.. 4

1-4 مراحل داده کاوی.. 5

1- 5 تکنیکها و روشهای داده کاوی.. 6

1-6 مقدمه‌ای بر خوشه‌بندی.. 7

1-7 کلاستر چیست؟. 10

1-8 انواع کلاسترها 10

1-9 خوشه‌بندی در مقابل طبقه‌‌بندی.. 10

1-10 یادگیری با نظارت در مقابل یادگیری بدون‌نظارت.. 11

1-11 کاربردها 12

1-12 مسائل درگیر با روش‌های خوشه‌بندی موجود 13

1-13 خوشه‌بندی در مقابل چندی‌سازی برداری.. 13

1-14 ویژگی های الگوریتم های خوشه بندی.. 14

1-15 روش‌های خوشه‌بندی.. 14

1-15-1 خوشه‌بندی انحصاری و خوشه‌بندی با هم‌پوشی. 15

1-15-1-1 خوشه بندی فازی.. 15

1-15-2 خوشه‌بندی سلسله مراتبی و خوشه‌بندی مسطح. 16

1-15-3 روشهای خوشه‌بندی سلسله مراتبی. 17

1-15-3-1 خوشه‌بندی با روش Single-Link. 18

1-15-3-2 خوشه‌بندی با روش Complete-Link. 19

1-15-3-3 خوشه‌بندی با روش Average-Link. 20

1-15-3-4 خوشه‌بندی با روش Group Average Link. 21

1-15-3-5 خوشه‌بندی با روش Median Distance. 22

1-15-3-6 خوشه‌بندی با روش Ward. 23

1-15-3-7 الگوریتم خوشه‌بندی پایین به بالای عمومی. 23

1-15-4 روش خوشه‌بندی K-Means (C-Means یا C-Centeriod) 24

1-15-4-1 مشکلات روش خوشه‌بندی K-Means. 26

1-15-5 الگوریتم خوشه‌بندی LBG.. 26

1-15-6 خوشه‌بندی بر اساس چگالی. 28

1-16 خوشه بندی متن. 34

1-16-1 الگوریتم خوشه بندی Bi-Section-K Means. 35

1-16-2 خوشه بندی مستندات متنی به کمک انتولوژی.. 36

1-16-3 کامپایل کردن دانش پس زمینه درون متن. 37

1-16-4 استراتژی های استفاده از کلمه در مقابل مفهوم 38

1-17 خوشه بندی جریانهای داده 38

1-17-1 الگوریتم های خوشه بندی جریان داده 39

1-17-2  مقایسه الگوریتم های خوشه بندی جریان داده 42

1-18 جریان داده متنی. 43

فصل دوم 45

( بررسی الگوریتم های خوشه بندی جریان های داده متنی) 45

2-1 مقدمه. 46

2-1-1TF-ICF. 47

2-2-2 الگوریتم STREAMING OSKM.. 49

2-2-2-1 K-means کروی انلاین. 49

2-2-2-2 پیاده سازی کارامد oskm.. 50

2-2-2-3 خوشه بندی مقیاس پذیر. 51

2-2-2-4STREAMING OSKM.. 53

2-2-2-5 ارزیابی و مقایسه. 53

2-2-3 الگوریتم OCTS. 53

2-2-3-1 تعاریف اولیه. 54

2-2-3-3 الگوریتم خوشه بندی انلاین OCTS. 59

2-2-3-4 الگوریتم OCTS. 62

2-2-4 ویژگی های Bursty. 66

2-2-4-1 ارائه ویژگی bursty. 69

تعریف6  ویژگی bursty. 69

2-2-5 الگوریتم خوشه بندی جریان متن بر اساس انتخاب ویژگی انطباقی. 71

2- طراحی پردازش جریان. 73

1 معایب الگوریتم TSC-AFS. 76

2-3 معیارهای ارزیابی کیفیت خوشه بندی.. 76

فصل سوم : جمع بندی و پیشنهادات.. 78

 

فهرست منابع. 85

شکل1-2:a) در طبقه‌بندی با استفاده  یک سری اطلاعات اولیه داده‌ها به دسته‌های معلومی نسبت داده‌ می‌شوند.b) در خوشه‌بندی داده‌ها با توجه به الگوریتم انتخاب شده به خوشه‌هایی نسبت داده‌ می‌شوند 15

شکل 1-3  مجموعه داده پروانه ای.. 20

شکل 1-4 : شمایی از روشهای خوشه‌بندی بالا به پایین و روشهای پایین به بالا. 22

شکل1-5 : شباهت بین دو خوشه در روش.. 23

شکل 1-6: شباهت بین دو خوشه در روش Complete-Linkبرابر است با بیشترین فاصلة بین داده‌های دو خوشه. 24

شکل 1-7 : شباهت بین دو خوشه در روش Average-Linkبرابر است با میانگین فاصلة بین داده‌های دو خوشه  25

شکل1-8 :  شباهت بین دو خوشه در روش Group Average Linkبرابر است با فاصله بین میانگین نقاط دو خوشه  26

شکل (2-1) تفاوت بین خوشه بندی جریان های متنی و سنتی. 51

شکل 2-2 ایجاد مدلVSMایستا از داده خام 72

شکل 2-3 شمایی از ارائه ویژگی bursty. 73

شکل 2-4 الگوریتم TSC-AFS. 79

 

نکات مهم : پس از پرداخت وجه لینک دانلود به شما نمایش داده میشود و به ایمیل شما ارسال میگردد.

با 41% تخفیف

10000 تومان

6900 تومان

جهت خرید و دانلود پایان نامه بر روی پرداخت آنلاین کلیک نمایید

تعداد صفحاتنوع فایلقیمت
93WORD6900 تومان

برچسب ها: , , , , ,

مطالب مرتبط

ارسال نظر شما

• پر کردن تمامی موارد الزامیست

• ایمیل شما فقط برای مدیر سایت نمایش داده خواهد شد