ایران رایانه » برنامه نویسی و پایگاه های داده » پایگاه داده ها » مروری بر مفاهیم و الگوریتمهای داده کاوی5
banner1 banner2
قبلی Play Stop بعدی
هاست

مروری بر مفاهیم و الگوریتمهای داده کاوی5

ارزیابی كاربر: ONONONONON / 3
ضعیف عالی 
با همكاری الناز بهبودی

- کاربرد علم آمار و روشهای آماری در داده کاوی:

9-1- مقدمه و مقا یسه

آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد. این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه، این عامل نسبت به داده کاوی قدمت بیشتری دارد و جزء روشهای کلاسیک داده کاوی محسوب می شود، وجه اشتراک تکنیکهای آماری و داده کاوی بیشتر درتخمین و پیش بینی است. البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. در کل اگر تخمین و پیش بینی جزء وظایف داده کاوی در نظر گرفته شوند، تحلیل های آماری، داده کاوی را بیش از یک قرن اجرا کرده است. به عقیده بعضی داده کاوی ابتدا ازآمار و تحلیل های آماری شروع شد. می توان تحلیل های آماری از قبیل فاصله اطمینان، رگرسیون و... را مقدمه و پیش زمینه داده کاوی دانست که بتدریج در زمینه های دیگر و متد های دیگر رشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی داده کاوی محسوب می شوند. در جایی اینگونه بحث می شود که با تعریف دقیق، آمار یا تکنیکهای آماری جزء داده کاوی نیستند. این روشها خیلی قبل تر از داده کاوی استفاده می شدند. با این وجود، تکنیکهای آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.

در جایی پایه و اساس داده کاوی به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند. فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند، بعنوان یک قانون کلی فرضها و تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است. در مقابل روشهای یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کنند و همین مورد باعث تفاوتهایی بین این دو روش می شود. به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنند که این مساله بطور خاص در شبکه عصبی دیده می شود. بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند. داده کاوی جایگاه جدید تری دارد که به هوش مصنوعی، یادگیری ماشین، سیستمهای اطلاعات مدیریت (MIS) و متدلوژی پایگاه داده مربوط می شود. روشهای آماری بیشتر زمانی که تعداد داده ها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند. به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود. بکار بردن این روشها مجموعه داده های زیاد، احتمال خطا در این روشها را زیاد می کند. چون در داده ها احتمالnoise و خطا بیشتر می شود و نیز روشهای آماری معمولابه حذف noise میپردازند، بنابراین خطای محاسبات در این حالت زیاد می شود. در بعضی از روشهای آماری نیاز داریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرد، با بکار بردن روش آماری می توان به نتایج خوبی رسید. روشهای آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت به دیگر روشهای Data mining ارائه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.

9-2- کاربردهای روشهای آماری:

داده کاوی معمولا وظایف یا به عبارت بهتر استراتژیهای زیر را در داده ها بکار می برد:

· توضیح و تفسیر (description)

· تخمین ( estimation )

· پیش بینی ( prediction )

· کلاس بندی ( classification )

· خوشه سازی ( clustering )

· وابسته سازی وایجاد رابطه (association)


البته باید گفت که روشهای داده کاوی تنها به یک استراتژی خاص محدود نمی شوند و نتایج یک همپوشانی بین روشها را نشان می دهد. برای مثال درخت تصمیم ممکن است که درکلاس بندی تخمین وپیش بینی کاربرد داشته باشد. بنابراین این جدول را نباید به عنوان تعریف تقسیم بندی از وظایف در نظرگرفته شود‏‎ بلکه به عنوان یک خروجی از آنچه که ما به عنوان وظایف داده کاوی آشنایی پیدا کردیم در نظر گرفته می شود.[4]
- نتیجه گیری:

با توجه به روش‌ها و امکان داده کاوی، می‌توان از اطلاعات بانک‌های عامل و بانک مرکزی ، وزارت بازرگانی ، گمرکات کشور ،پایانه‌های حمل ‌و ‌نقل کالا، وزارت صنایع و معادن و دیگر سازمان‌های ذیربط استفاده نموده و موارد مشکوک را ممیزی کرد. پیش نیاز فوق وجود راه‌ها و اطلاعات زیاد و کافی در سازمان های مربوطه است. اگر سامانه‌هایی در سازمان‌های مربوطه وجود داشته‌ باشند که بتواند اطلاعات را بصورت "آن لاین" و فوری در اختیار بگذارند، باتوجه به اعلام بازرگانان در مبادی حمل و نقل، صدور و ورود کالا، می‌توان قبل از اقدام به صادر یا وارد کردن کالا، آن را ممیزی و کشف نموده و مانع از پول‌شویی و فساد اقتصادی گردید. کارهای آماری و اطلاعاتی از این نوع یک علم تقریبی است، اما با امکانات رایانه‌ایی و روش‌های داده‌کاوی، می‌توان کیفیت و دقت آنرا بیشتر کرد.[5]

با وجود آنکه داده کاوی علمی است که در برخورد اول کاملا نظری ظاهر میشود، کاربردی کاملا عملی در تجارت، صنعت و ... داشته و با عنایت به نتایج حاصل از آن، فراهم آوردن بستر مناسب جهت استفاده از آن در وجوه مختلف تجارت و صنعت ضروری می باشد. این علم ذاتا زاییده ی علم آمار است ولی در کاربرد بصورت مجموعی از علوم آمار، هوش مصنوعی و پایگاه داده ها ظاهر می شود.

http://www.microrayaneh.com

 

< قبلی بعدی >

0 نظر

هیچ نظری وجود ندارد. اولین نفر برای نظر دهی به این مقاله باشید!

ارسال یك نظر


هجی كردن هجی كردن

آخرین محصولات

ویدئو پروژکتور اپسون  Epson EB-445Wi ویدئو پروژکتور اپسون Epson EB-445Wi
1 ﷼
تدی Teddy تدی Teddy
1 ﷼
1 ﷼
پاندا Panda پاندا Panda
1 ﷼
1 ﷼
موش Mouse موش Mouse
1 ﷼
1 ﷼
ببر سیاه Black Panther ببر سیاه Black Panther
1 ﷼
1 ﷼
میمون Monkey میمون Monkey
1 ﷼
1 ﷼
شیر Lion شیر Lion
1 ﷼
1 ﷼
کرگدن Hippo کرگدن Hippo
1 ﷼
1 ﷼
فیل Elephant فیل Elephant
1 ﷼
1 ﷼

رأی گیری

آیا مطالب ایران رایانه برای شما مفید هستند؟

نتایج
Powered by Pars Mizban Services and Elxis