جزوه روشنایی فنی
کاردانی برق دکتر کلهر گل محمدی محمدحسین فاتحی دکتر مهدی مظفری لقا کاردانی آقای کریم پور کارشناسی ارشد علیپیام نور حجرگشت محسن تقویفر کریم
“” : ً -“” ” /++ ، #، 
؛ : : –ً ()، () () ، ؛ ؛ : ؟
-معیوب است یا خیر. در مثال مهندسی نرم افزار دوم، جزوه روشنایی فنی سعی می کند یک قانون کلی برای اتصال هزینه نسخه های بعدی برنامه ها در مجموعه آموزش را پیدا کند، و با استفاده از این قانون، هزینه نسخه های بعدی را که در مجموعه آموزشی نیست، پیش بینی می کند.
فرآیندی که در طول پروژه تجزیه و تحلیل داده ها دنبال می شود شامل (1) جمع آوری داده های مناسب، (2) پاکسازی داده ها، (3) تبدیل داده ها، (4) تجزیه و تحلیل داده ها، و سپس (5) ساخت مجموعه آموزشی می شود.
1. جمع آوری داده ها. روشنایی فنی در مورد داده های جمع آوری شده، بستگی به هدف پروژه دارد و بسیار مهم است. سؤالاتی که باید به آن ها پاسخ داده شود شامل چه نوع داده ای است و چه مقدار داده باید جمع آوری شود.به عنوان مثال، برای جمع آوری داده های مهندسی نرم افزار، چه نوع مصنوعاتی مورد نیاز است؟ آیا به کد منبع، کد شیء و گزارش مربوط به اشکالات نیاز داریم؟ برای انجام تجزیه و تحلیل مناسب به چه حجم داده ای نیاز داریم؟
2. پاکسازی داده ها. پس از جمع آوری، داده ها باید پاکسازی شوند. این فرآیند، شامل حذف مشکلات موجود در داده است که در پردازش بیشتر، مشکل ایجاد می کند. به عنوان مثال، داده های مفقود شده باید پر شوند، و داده های خراب باید پیدا و تصحیح شوند.
دانلود رایگان خلاصه کتاب کامل جزوه روشنایی فنی پی دی اف pdf
3. 3. تبدیل داده ها. پس از پاکسازی، داده ها باید تبدیل شوند تا برای کارهای تجزیه و تحلیل پایین تر مناسب تر باشند. این فرایند را داده گزینی یا بحث اطلاعاتی می نامند. نمونه ای از این فعالیت ممکن است تغییر قالب نمایش داده ها، حذف علائم نگارشی در یک فایل داده متنی و انجام تجزیه و تحلیل قسمت های گفتار برای داده های متنی باشد.
4. تجزیه و تحلیل داده ها. پس از همه مراحل فوق، داده ها آماده تجزیه و تحلیل و پردازش توسط ابزارهای مختلف تجزیه و تحلیل داده ها خواهند بود. اما قبل از این امر، ما عموماً از ابزارهای تجسم برای کارهای مختلف استفاده می کنیم. به عنوان مثال، به کمک این ابزارها می توان در مورد ویژگی های مناسب برای پیش بینی ارزش سایر ویژگی تصمیم گرفت. تنها با این کار، می توانیم بهترین رویکرد تحلیلی را که برای اهداف پیش بینی کننده یا استنباطی استفاده می شود، تعیین کنیم.
5. ساخت مجموعه آموزشی. انتخاب یک مجموعه آموزشی مناسب، اهمیت زیادی دارد.در این بین، ممکن است تعاریف کلی از مجموعه های مختلف آموزشی در بین خود متفاوت باشد، اما امیدواریم که پاسخ های پایین دستی تولید شده همچنان صحیح باشند.توجه کنید که نباید از مجموعه باران بیش از حد استفاده کنید، یعنی این رویکرد، موارد موجود در مجموعه آموزشی را با دقت نزدیک به 100 درصد پیش بینی می کند؛ اما تا حد زیادی نتایج صحیح را برای موارد ناشناخته پیش بینی نمی کند. اگر جلوی این موضوع را نگیرید، این امر به راحتی اتفاق می افتد. تمام این موارد با آزمایش مدل آماری مشتق شده بر روی مجموعه ای از داده ها برای تعیین میزان خطای آن، تعیین می شود.
برای کارکرد فرآیند فوق، اشیاء باید با ساختار ریاضی نمایش داده شوند که به راحتی قابل دستکاری و جزوه روشنایی فنی باشند. روش متداول ارتباط ساختار ریاضی با یک شیء جداگانه، استفاده از بردارهای ویژگی است. منظور از یک ویژگی، یک مشخصه معین از یک شی است. بردار ویژگی یک بردار مقادیر برای ویژگی های متعدد یک طبقه شی است، به طوری که بردارهای ویژگی برای اشیاء در یک طبقه شیء، دارای ترتیب یکسانی هستند. به عنوان مثال، روشنایی فنی های هواشناسی یک روز، می تواند دارای ساختار زیر باشد: دمای پایین، دمای بالا، رطوبت کم، رطوبت زیاد، نوع ابر غالب، قدرت کلی باد. متغیرهای درجه حرارت پایین، درجه حرارت بالا، رطوبت کم و رطوبت زیاد، متغیرهای پیوسته هستند، در حالی که نوع ابر غالب، یک متغیر طبقه بندی نشده و قدرت کلی باد یک متغیر طبقه ای مرتب است (با فرض اینکه مقادیر احتمالی ضعیف، متوسط ، قوی هستند). در محیط مهندسی نرم افزار، بردار ویژگی مربوط به یک قطعه کد می تواند بردار جزوه روشنایی فنی مختلف معیارهای نرم افزاری باشد، مانند تعداد خطوط کد، متوسط زمان اجرای برنامه، انسجام و اتصال. انتخاب بردار ویژگی مناسب اغلب چالش برانگیز است و حوزه جدیدی از مطالعه، به نام مهندسی ویژگی، تکامل یافته است تا به این روند کمک کند. رویکردهای
یادگیری ماشین. روشنایی فنی ماشین بخشی جدایی ناپذیر از علم داده است. فرایندی که قبلاً در این بخش مورد بحث قرار گرفت، مجموعه داده هایی را ایجاد می کند که برای پیشبرد یادگیری استفاده می شود. یادگیری تحت نظارت شامل رویکردهایی است که در آن، کاربر در دسترس است و عمدتا با ارائه انواع خاصی از اطلاعات متا، مانند داده های برچسب گذاری شده برای مجموعه های آموزشی، با سیستم یادگیری تعامل دارد،. یادگیری بدون نظارت، کاربر را برای ارائه اطلاعات طبقه بندی شده در اختیار ندارد. این تکنیک ها صرفاً داده محور هستند و راه هایی برای برچسب گذاری داده ها از خود داده ها پیدا می کنند. در رویکردهای یادگیری تحت نظارت، دو نوع مشکل 
؛ <≤ فرزند سمت چپ را برای ادامه راه بر درخت انتخاب می کنیم، و در صورتی که این پاسخ نادرست باشد، کودک سمت راست را انتخاب می کنیم. با توجه به مجموعه ای از مقادیر متغیر ورودی و خروجی، درختی را انتخاب می کنیم که نوع سؤال بولی را برای مطرح کردن در هر گره داخلی انتخاب می کند. این کار معمولاً به طرز حریصانه ای انجام می شود و فقط در مورد تصمیمی در یک گره معین می پرسد که مجموع خطاهای مربع را به حداقل می رساند. برای تجسم، فرض کنید دو متغیر ورودی داریم، x1 و x2 ، که هر دو پیوسته هستند. فرض کنید مجموعه آموزشی به شکل (y ، x1 ، x2) باشد و t1 = (5.7 ، 2.3 ، 9.6) ، t2 = (3.5 ، 1.1 ، 10) ، t3 = (0.55 ، 3.6 ، 17.5) باشد. ابتدا باید تصمیم بگیریم که اولین تقسیم در x1 یا x2 باشد. سپس متغیر ورودی را انتخاب می کنیم که کمترین خطا را ایجاد کند. اکنون، هر گره درخت با زیر مجموعه ای از مجموعه آموزشی مرتبط است. به عنوان مثال، ریشه با کل مجموعه آموزشی مرتبط است. اگر سؤال در ریشه x1 <1 باشد، فرزند سمت چپ ریشه با مجموعه خالی و فرزند راست ریشه با کل مجموعه جزوه روشنایی فنی مرتبط است.اما اگر سؤال در ریشه x1 <1.8 باشد، فرزند سمت چپ ریشه با t2 و فرزند راست ریشه با آموزش های t1 و t3 مرتبط است. توجه داشته باشید که با تغییر 1.8 به 2.2، همان ارتباط را خواهیم داشت. با این حال، حتی در درختی مشابه، انتخاب نقطه تقسیم بر نتایج جفت ارزش ورودی که در مجموعه آموزش نیست، تأثیر می گذارد. بنابراین، خطای ایجاد شده توسط تقسیم x1 <1.8 چیست؟
تصویر 3-A2
اگر در این نقطه متوقف شویم، کاربرد درخت بدین صورت خواهد بود. روشنایی فنی یک جفت مقدار ورودی (c ، d)، اگر c <1.8 باشد، مقدار خروجی 3.5 را پیش بینی می کنیم، در حالی که اگر c ≥ 1.8 باشد، مقدار خروجی 3.125، و میانگین 5.7 و 0.55 را پیش بینی می کنیم. برای این جزوه کاربرد تکنولوژی پیشرفته در صنعت خودرو ، مجذور خطای تولید شده از فرزند چپ 0 است، در حالی که مجذور خطای تولید شده از فرزند راست (3.125 – 5.7) 2 + (3.125 – 0.55) 2 ≅ 13.26 است. اکنون می توانیم در این مرحله متوقف شویم، یا اصلاح بیشتری را در سمت راست انجام دهیم و صفحه را به سه قسمت تقسیم کنیم، که هر کدام با یک مجموعه آموزشی واحد مرتبط است. برای مشاهده درختان، مناطق مرتبط و خطاهای مربوط به دو شکاف مختلف، به شکل A2.3 مراجعه کنید. روش های کارآمد زیادی برای یافتن بهترین درخت وجود دارد که شامل زمان و چگونگی تقسیم منطقه و زمان توقف تقسیم منطقه ای است که شامل بیش از یک مجموعه آموزشی است. یونگ و همکارانش کاربرد درختان تصمیم گیری در تحقیقات مهندسی نرم افزار را برای مشکل پیش بینی به موقع عیوب نشان داده اند. این تکنیک، نقص ها را در جزئیات کوچک پیش بینی می کند. تغییرات کدی که به احتمال زیاد، نقص ایجاد می کنند، پیش بینی می شوند. در این مقاله، نشان داده شده است که روش درخت تصمیم گیری بهتر از بسیاری از تکنیک های یادگیری دیگر برای این مشکل عمل می کند. درختان تصمیم -()، /ً : ؛ () ()، ()
فهرست مطالب