ینک پرداخت و دانلود پایین مطلب
فرمت فایل : pdfوقبل چاپ می باشد
تعداد صفحه :315
پیشگفتار
پیشرفت های بوجود آمده در جمع آوری داده هاو قابلیت های ذخیره سازی در طی دهه های اخیر باعث شده در بسیاری از علوم با حجم بزرگی از اطلاعات روبرو شویم داده کاوی کوششی برای بدست آوردن اطلاعات مفید از میان این داده است و رشد بی رویهی داده ها در سطح جهان اهمیت داده کاوی را دو چندان کرده است کتاب حاضر حاوی مفاهیم و تکنیک های اساسی داده کاوی است و در ده فصل تنظیم شده است که در انتهای هر فصل پس از بیان خلاصه به توضیح منابع و مراجع برای مطالعهی بیشتر نیز پرداخته شده است.
فصل اول به مقدمه ای در مورد مفاهیم داده کاوی می پردازد. در واقع این فصل توضیحی مفصل در مورد مطالب موجود در کتاب است تکنیک های آماده سازی داده ها موضوع فصل بعدی را تشکیل می دهد در فصل سوم توضیحی مختصر در مورد انبار داده ها و
OLAP
داریم.
دو فصل چهارم و پنجم به قوانین انجمنی و موضوعات پیشرفته پیرامون آن تخصیص داده شده است روش های طبقه بندی داده ها و همچنین چگونگی ارزیابی آنها در فصل های ششم و هفتم بررسی می شوندالگوریتم های مختلف خوشه بندی نیز در فصل های هشتم و نهم بحث می شوند.
همانطور که ملاحظه می فرمایید سه موضوع قوانین انجمنی، طبقه بندی و خوشه بندی مفاهیم محوری این کتاب محسوب میشوند و برای هر یک دو فصل تخصیص داده شده است .
در فصل پایانی به برخی از موضوعات مرتبط با داده کاوی به اختصار اشاره ای خواهیم داشت
در این فصل ابتدا برخی از کاربردهای عملی داده کاوی بیان شده است و سپس از چند محصول تجاری داده کاوی نام برده ایم
در انتهای فصل هم به گونه های دیگر داده کاوی مانند متن کاوی، وب کاوی و ... پرداخته ایم
اینکه بعضی بر این باورند که در حوزهی علم کامپیوتر نباید کتابی به فارسی تالیف و یا ترجمه شود و به همین دلیل دست روی دست گذاشته اند، منصفانه نیست. اما در این نکته که به دلایلی تالیف و بخصوص ترجمه ی کتاب در این حیطه با مشکالتی همراه است، با آنها هم نظر هستیم. دوستانی که چنین کردهاند با این مصائب نیز به خوبی آشنا هستند
تبدیل و ترجمه ی واژگان بیگانه به صورت مستقیم به زبان فارسی یا امکانپذیر نیست و یا خواننده را به وادی دیگری سوق میدهد و برای او در بسیاری از موارد ناآشنا است. به همین دلیل در نگارش کتاب حاضر تمام سعی و تلاش خود را به کار بردهایم، تا واژه ها به جای ترجمه ی مستقیم تفسیر شوند. در برخی از موارد نیز عین واژه در متن کتاب استفاده شده است، چرا که حقیر کلمات و واژگان مناسبی را برای آن نیافتم. از پیچیده نویسی و مبهم گویی پرهیز شده و بر ساده نویسی تاکید شده است. لذا در بسیاری از موارد چنانچه سختگیرانه قضاوت کنید، شاید بتوان ادعا نمود که دستور زبان فارسی به درستی رعایت نشده است، ولی در عوض امیدواریم خواننده با یک متن گیج کننده مواجه نشود.
اینکه این کتاب ارزنده است یاخیر، نه اینکه موضوع مهمی نباشد، اما در درجه ی اول با نوشتن آن خود را اقناع نمودهام. زیرا خواندن و نوشتن از بزرگ ترین شادی های من محسوب میشوند و با نوشتن بر این باورم که به نحوی در دیگران پخش میشوم. با وجود همه ی سعی و تلاش که در تمام مراحل آماده سازی این کتاب انجام گرفته است، یقین دارم که عاری از اشتباه نیست، چرا که تنها مکتوب بینقص همان معجزه ی جاوید قرآن کریم است. افسوس که نمیتوان بازگشت و از نو ساخت، اما دست کم به آنها که در آغاز راهند می توان یادگاری کوچکی داد، شاید به کارشان بیاید. در آخر ضمن سپاسگزاری از همهی کسانی که مرا یاری داده اند و با پذیرش مسئولیت هرگونه کاستی احتمالی، امیدوارم که این اندک مفید افتد.
فصل اول
تکنولوژی مدیریت پایگاه داده ها را های پیشرفته انواع مختلفی از داده می تواند در خود جای دهد در نتیجه تکنیک های
اماری مدیریت سنتی و برای آنالیز این داده ها کافی نیست و استخراج دانش از این مقدار حجیم یک چالش بزرگ تلقی میشود
داده کاوی کوششی برای بدست آوردن اطلاعات مفید از میان این داده هاست و رشد بی رویه ی داده ها در سطح جهان اهمیت داده کاوی را دو چندان کرده است.
در این فصل ابتدا به معرفی مفاهیم اصلی داده کاوی می پردازیم و پس از آن انواع داده ها که میتوان عملیات داده را کاوی بر روی آنها انجام داد، بیان میشوند. انتهای فصل به چالش های موجود در این حوزه می پردازد در واقع این فصل توضیحی مختصر در مورد فصل های آتی را در خود دارد
:استخراج دانش 1-1
پیشرفت بوجود آمده در جمع آوری داده ها و قابلیت های ذخیره سازی در طی دهه های اخیر باعث شده در بسیاری از علوم با حجم بزرگی از اطلاعات روبرو شویم
محققان در زمینه های مختلف مانند مهندسی، اقتصاد ،زیست شناسی و ستاره شناسی هر روز با مشاهدات بیشتر و بیشتری روبرو میشوند
در مقایسه با بسترهای دادهای قدیمی و کوچکتر، بسترهای دادهای امروزی چالش های جدیدی در تحلیل داده ها بوجود آورده اند
روش های آماری سنتی به دو دلیل امروزه کارائی خود را از دست داده اند علت اول افزایش تعداد مشاهدات است، و علت دوم که از اهمیت بالاتری برخوردار است، افزایش تعداد متغیرهای مربوط به یک مشاهده می باشد تعداد متغیرهایی که برای هر مشاهده باید اندازه گیری شود ابعاد داده ها نامیده می شود
واژه متغیر بیشتر در علم آمار استفاده میشود در حالی که در علوم کامپیوتر و یادگیری ماشین بیشتر از واژه های صفت خاصه
و یا ویژگی استفاده میگردد
مراحل موجود در فرایند استخراج دانش در شکل1-1 نشان داده شده است و شامل مراحل زیر است:
جمع آوری داده ها: در این مرحله پس پالایش داده ها، چندین منبع دادهای در یک انبار داده ی یکپارچه قرار میگیرند.
انتخاب و آماده سازی داده ها: در این قسمت داده های مرتبط انتخاب میگردد و به شکل مناسبی برای داده کاوی تبدیل میشوند
داده کاوی: فرایندی که با به خدمت گرفتن روش های هوشمند در میان داده ها به دنبال الگوهای خاصی میگردد
تفسیر و ارزشیابی الگوها: از میان انبوه ی از الگوها، با تعریف معیارهای متنوع الگوهای محدودی برای تفسیر و تحلیل انتخاب می شود
ارائه ی دانش: در این مرحله با کمک ابزار بصری سازی و تکنیک های مختلف دانش کشف شده به کاربر و یا تحلیل گر ارائه میشود
اغلب کمپانی های بزرگ دارای تعدادی شعبه هستند که هر یک از آنها حجم زیادی از دادهها را تولید میکنند
حتی برخی از سازمان ها با وجود تمرکز بر روی یک محل اصلی برای مستقر شدن، دارای بخش هایی هستند که هر یک از آنها می تواند دارای سیستم های عملیاتی مربوط به خود و در نتیجه ساختار دادهای خاص خود باشند. جهت تحلیل داده ها و در نهایت اتخاذ یک تصمیم مدیریتی لازم است اطاعات کلیه قسمت ها جمعی آوری شوند. تنظیم پرسوجوها بر اساس هر یک از این ساختارها کاری دشوار و ناکارآمد است. بعلاوه داده ها معمولًا توصیفی از وضعیت کنونی را در خود دارند. در حالیکه تحلیل گر اکثر اوقات نیاز به داده های قدیمی را نیز یک ضرورت می داند . در این وضعیت انبار داده ها یک راه حل مناسب تلقی میشود. اگرچه وجود انبار داده ها پیش نیاز داده کاوی نیست ولی در کاربردهایی نظیر سازمان ها و شرکت های بزرگ با وجود داشتن یک انبار داده ها عمل داده کاوی بسیار آسان تر شود. انتخاب مجموعه داده های اصلی برای تحلیل اولین ضرورت است. بسیاری از الگوریتم رهای جمع آوری داده ها فقط با پایگاه داده های همگن کار میکنند که این مسئله نیز در جمع آوری داده ها محدودیت محسوب میشود.
هر ساختار کلیدی در انبار داده ها به صورت تلویحی یا مستقیم شامل عنصری از جنس زمان است. بر اساس این توضیحات یک انبار داده ها میتواند به عنوان مخزن داده های یک سازمان در نظر گرفته شود، تا با کمک آن گیریاز تصمیمبتوان های راهبردی حمایت کند. وظیفه ی آن ذخیره ی یکپارچه ی داده های سازمان است و از آنجا که عمل بهنگام سازی انبار داده ها عملی زمانبر محسوب می شود اغلب داده های بهنگام نیستند
بنابراین داده هاآن اندکی قدیمی هستند که البته این مسئله برای سیستم های تصمیم ساز مشکل بزرگی تلقی نمی شود.توضیحات بیشتر در مورد انبار داده ها را در فصل سوم مطالعه فرمایید