نشریه تخصصی مهندسی صنایع، دوره 46، شماره 1، فروردین ماه 1391، از صفحه 91 تا 104
ارائه الگوریتم هوشمند مبتنی بر اعتماد جهت تعیین اعتبار مشتریان
یک سیستم مالی

منیره السادات میرطلایی*1، محمدعلی آزاده2، مرتضی صابري3 و بهزاد اشجري4
1دانش آموخته کارشناسی ارشد مهندسی صنایع- دانشگاه تفرش
دانشیار گروه مهندسی صنایع – پردیس دانشکده هاي فنی- دانشگاه تهران
مربی گروه مهندسی صنایع- دانشگاه تفرش
استادیار گروه مهندسی صنایع- دانشگاه تفرش
(تاریخ دریافت 18/7/90، تاریخ دریافت روایت اصلاح شده 11/8/90، تاریخ تصویب 19/1/91 )

چکیده
مدل هاي اعتبارسنجی با دریافت مجموعهاي از اطلاعات مشتري به عنوان ورودي، امتیازي را به عنوان خروجی به مشتري اختصاص می دهند که بانکها از این امتیاز می توانند در راستاي تخصیص اعتبار به مشتري بهره گیرند. اغلب مدلهاي ارائه شده در این زمینه، مشتریان را با عنوان دو گروه “خوشحساب” و “بدحساب” دستهبندي میکنند. از این رو، احتمال گرفتن تصمیمات ناعادلانه در حوزه واگذاري اعتبار به مشتریان افزایش مییابد. با توجه به اهمیت اعتماد در تجارت الکترونیک، هدف در این تحقیق آن است تا با بهرهگیري از شبکه عصبی مصنوعی و با تلفیق این دو مفهوم (اعتماد و اعتبارسنجی)، امکان لحاظ کردن سطح اعتماد متقاضیان در فرآیند اعطاي وام به آنها، براي مؤسسات مالی فراهم شود. در این پژوهش براي نخستین بار، به کاربرد مفهوم اعتماد در مدل هاي اعتبارسنجی پرداخته شده است که میتواند راهگشاي استفاده از روشی نوین در فرآیند واگذاري اعتبار آنلاین در سیستم بانکداري باشد و از طرف دیگر با تقسیمبندي مشتریان به گروه -هاي بیشتر، امکان اعمال سیاستهایی متناسب با هر گروه براي بانکها فراهم شود.

واژه هاي کلیدي: اعتبارسنجی، شبکه عصبی مصنوعی، اعتماد

مقدمه Email: [email protected] ، 82084162 :نویسنده مسئول: تلفن *

ارزیابی ریسک اعتباري، یکی از مسائل مهم و پرچالش در زمینه تحلیلهاي مالی به شمار میآید. زیرا از این طریق می توان از وارد آمدن خسارات کلان که پیامد تصمیمات نادرست واگذاري اعتبار(وام) به متقاضیان است، تا اندازه زیادي اجتناب کرد [1]. از طرف دیگر، در صورت گرفتن تصمیمات صحیح در این زمینه ،سود حاصل از وامهاي واگذار شده، بخشی از درآمد این مؤسسات را تشکیل خواهد داد. تحقیقات نشان داده اند که با وجود سرویسهاي مختلفی که به تازگی توسط بانک ها ارائه شدهاند، واگذاري وام به مشتریان حقیقی و حقوقی هنوز هم به عنوان یکی از مهم ترین منابع درآمد براي بانکها و مؤسسات مالی محسوب میشود. بنابراین موضوع اصلی براي هر وامدهنده، تفکیک مشتریان “خوشحساب” از “بد حساب”، قبل از اعطاي وام به آنها است. منظور از مشتریان “خوشحساب”، آن دسته از متقاضیان اعتبار است که اصل و سود مطالبات دریافتی را به موقع و به صورت کامل پرداخت کنند. در مقابل، مشتریان “بدحساب” به کسانی اطلاق میشود که بانک براي وصول مطالبات دریافت شده توسط آنها با مشکل روبهرو خواهند شد.
نظام امتیازدهی اعتباري، براي اولین بار در دهه 1950 تدوین شد. در واقع، ایده ایجاد تمایز بین گروههاي موجود در یک جامعه بر اساس مشخصههاي ذکر شده براي اعضاي آن، از مقاله فیشر1 (1936) نشأت میگیرد.
دانهام2 در سال 1938، اولین کسی بود که سیستمی را براي ارزیابی متقاضیان تسهیلات ارائه کرد. دوراند3 در سال 1941، به شناسایی عوامل مهم از دید وام دهندگان پرداخت. او اولین کسی بود که دیدگاه آماري را مد نظر قرار داد و از مدل تحلیل تمایزي که بر نتایج فیشر متمرکز بود استفاده کرد. بدین وسیله عملاً وي انگیزه توسعه چارچوب تئوریک که بدان وسیله بتوان اهمیت هر معیار مشخص را تعیین کرد به وجود آورد. بنابراین میتوان دوراند را پایهگذار سیستم اعتباردهی امروزيدانست. حجم زیاد تقاضاي اعتباري، منجر به استفاده ازمدلهاي اعتبارسنجی در مؤسسات مالی شد[2]. با رشد سریع صنعت اعتباردهی و مدیریت پرتفولیوي وام هاي بزرگ، از مدلهاي اعتبارسنجی به طور گستردهاي، در فرآیند ارزیابی پذیرش درخواستهاي وام استفاده شد.
به طور کلی، عمده مدلهاي اعتبارسنجی، در یکی از دو گروه زیر قرار میگیرند: روش هایی که از تکنیکهاي آماري براي طبقهبندي دادهها استفاده میکنند و گروه دیگر که از ابزار هوش مصنوعی در این زمینه بهره میبرند.
روش هاي آماري متعارفی که در زمینه ارزیابی اعتبار استفاده شده اند، عبارتند از: رگرسیون لجستیک (4LR) [3]،[4]، [5]، تحلیل تمایزي (DA٥)[3]،[4]،[5]، نزدیکترین همسایه6 [3]، آنالیز پروبیت7 (PA) [4] و درخت طبقه بندي و رگرسیون (CART٨)[6].
استفاده از تکنیکهاي آماري، مستلزم شناخت و تحلیل روابط بین متغیرها است که در مسائلی با ابعاد زیاد، مشکل آفرین خواهد بود[7]. از سوي دیگر، بهرهگیري از این روشها با محدودیتهایی همراه است که از آن جمله میتوان به فرض وجود روابط خطی میان متغیرها (که در تضاد با واقعیت است) در برخی روشهاي مرسوم اشاره کرد. از طرفی، روشهاي آماري غیرخطی مانند MARS9، نیازمند انتخاب یک مدل بر پایه روش آزمون و خطا هستند[8]. با این وجود، مقایسه بین تکنیکهاي مرسوم و پیشرفته آماري هنوز هم موضوع بسیاري از مطالعات است[5]،[9]،[10].
از شبکه عصبی مصنوعی10[11]،[4]،[5]، الگوریتم ژنتیک11[12]،[13]و ماشین بردار پشتیبانی12[3]،[12]، میتوان به عنوان تکنیکهاي هوش مصنوعی که به طور گستردهاي در مسائل ارزیابی اعتباري به کار رفته اند، اشاره کرد.
شبکه عصبی مصنوعی، در چند سال اخیر توجه بسیاري از دانشمندان و محققان را به خود جلب کرده و نتایج شگفتانگیزي در حل مسائل مختلف، در زمینه هاي متفاوت ارائه داده است. قدرت خارقالعاده شبکه عصبی در پیشبینی، ناشی از توانایی آن در شبیهسازي هوش انسان [14]، و قابلیت شگرف آن در تشخیص الگوها [10]،[15] است. تحقیقات گستردهاي که در زمینه کاربردهاي شبکه عصبی در عرصه تجارت انجام شده است، حکایت از نتایج موفقیت آمیز این ابزار در حل مسائل با روابط غیرخطی، در مقایسه با تکنیکهاي آماري داشته است. در واقع توانایی شبکه عصبی در بازشناسی روابط غیرخطی موجود میان متغیرها، منجر به محبوبیت بیشتر آن در مسائل تعیین و پیشبینی ریسک اعتباري در مقایسه با روشهاي پارامتریک (مانند تحلیل تمایزي خطی و آنالیز رگرسیون خطی) و ناپارامتریک (مانند نزدیکترین همسایه و درخت تصمیم) شده است [13].
شبکه عصبی در اواخر دهه 1950 معرفی شد، اما اولین کاربرد این تکنیک در زمینه اعتبارسنجی به اوایل 1990 برمیگردد.
به طور ویژه، مدل شبکه عصبی با الگوریتم یادگیري پس انتشار13، بخ دلیل توانایی بی نظیرش در طبقهبندي دادهها، از پرکاربردترین ابزار در تصمیمگیريهاي مالی به شمار می آید [17]. مدلهاي شبکه عصبی، بالاترین میانگین نرخ طبقهبندي صحیح را در مقایسه با روشهاي تحلیل تمایزي و رگرسیون لجستیک دارد؛ اگرچه در برخی موارد نتایج آنها بسیار به هم نزدیک هستند [4]. مقیاسهاي آماري مرتبط نشان می دهند که مدلهاي شبکه عصبی نسبت به درخت طبقه بندي و رگرسیون (CART) و رگرسیون لجستیک ،توصیف کنندههاي بهتري براي دادهها هستند[6]؛ در حالی که اغلب، تحلیل تمایزي، قابلیت بیشتري در زمینه طبقه بندي دادهها در مقایسه با پیشبینی آنها دارد، رگرسیون لجستیک توانایی پیشبینی بهتري دارد [18]. تحقیقات حتی تا سطح مقایسه نتایج شبکههاي پیش نگر14 و پس انتشار نیز گسترده شدند [19]. همانند شبکههاي عصبی و تکنیک-هاي پیشرفته آماري، از مدلهاي هیبریدي نیز در ساخت الگوریتم هاي اعتبارسنجی استفاده میشوند [5]،[20].
عمده مطالعات انجام شده در این زمینه، به دنبال ارائه راهحلی براي افزایش دقت مدل هاي موجود هستند. اکثر این روش ها، مشتریان را با دو عنوان “خوشحساب” (Good credit) و “بدحساب”(Bad credit) دسته بندي می کنند. نظر به این که با استفاده از مدلهاي موجود ،احتمال گرفتن تصمیمات نادرست و تا حدودي ناعادلانه در زمینه اعطاي اعتبار به متقاضیان افزایش مییابد، ارائه مدلی که از توانایی دستهبندي مشتریان (از نظر اعتباري) به گروههاي بیشتر برخوردار باشد، ضروري به نظر میرسد.
از طرف دیگر ،تعداد زیادي از مدلهاي پیشنهادشده، به وجود روابط غیرخطی میان متغیرهاي ورودي و متغیر خروجی در مسائل ارزیابی اعتبار، توجه چندانی نداشته اند ،و گاهی نیز در صورت وجود متغیرهاي زیاد در مسئله ،کارآیی مطلوبی ندارند.
در جدول (1)، خلاصهاي از مدلهاي موجود در حوزه اعتبارسنجی، به تفکیک استفاده از تکنیکهاي آماري و هوش مصنوعی ارائه شده است.
امروزه، اعتماد، یکی از عوامل اساسی در موفقیت تجارت الکترونیک به شمار می آید. این مفهوم توجه بسیاري از کاربران وب سایت ها را به خود جلب کرده است [23].در سالهاي اخیر، بخش قابل توجهی از مطالعات به ارائه مکانیزمی بر پایه اعتماد و شهرت15، براي تسهیل فرآیند شکلگیري معاملات پیچیده در عرصه تجارت الکترونیک اختصاص یافته است[23]. اعتماد، در واقع باور و اعتقاد عامل اعتمادکننده16 به توانایی و تمایل عامل مورد اعتماد17 در عملکرد مطابق با انتظاراتی است که قبلا توافق شده اند[24]. در [25]، قابلیت اعتماد به عنوان یک مقدار عددي تعریف شده است که نمایانگر شدت اعتماد عامل اعتمادکننده به عامل مورد اعتماد، در یک برهه زمانی و در زمینه اي معین است. منظور از عامل اعتمادکننده و عامل مورد اعتماد، فرد، افراد یا گروه هایی است که می تواند متشکل از خانواده ها، همسایه ها ،سازمان ها یا حتی جوامع باشد.
در این مطالعه ما از تعریف ارائه شده در [26] بهره می بریم:
” اعتماد، به عنوان باور و اعتقاد عامل اعتمادکننده، به تمایل و توانایی عامل مورد اعتماد، در ارائه خدمات توافق شده در زمینه و برهه زمانی خاصی است.”

جدول1: خلاصهاي از مطالعات انجام شده در زمینهي اعتبارسنجی
Statistical Approaches Artificial Intelligence Approaches




 Logistic Regression [3,4,]12,5
Discriminant Analysis[3,4,5,21]
K-Nearest Neighbours[3]
Probit Analysis[4]
Classification And Regression Tree[6] Artificial Neural Network [4,5,11,22]
Genetic Algorithm [12,13]
Support Vector Machine [3,12]
، در مقاله [26]، براي ارزیابی میزان قابلیت اعتماد معیاري 7 سطحی، هم به صورت عددي و هم غیرعددي، در نظر گرفته شده است. در اینجا ضمن توصیف هر سطح مفاهیم (تعاریف زبانی) آن نیز مورد بحث قرار خواهد گرفت . تعریف زبانی هر سطح، بیانگر مفهوم اطمینان یا .اعتماد عامل اعتمادکننده به عامل مورد اعتماد است
با ورود سیستمهاي ارزیابی و اعطاي اعتبار در عرصه تجارت آنلاین، خطر پدید آمدن خسارات ناشی از نبود تقارن اطلاعات بین بانک ها و متقاضیان، بیش از پیش احساس میشود. بنابراین، با توجه به اهمیت اعتماد در تجارت الکترونیک، هدف در این تحقیق آن است تا با بهره گیري از شبکه عصبی مصنوعی و با تلفیق این دو مفهوم (اعتماد و اعتبارسنجی)، امکان لحاظ کردن سطح اعتماد متقاضیان در فرآیند اعطاي وام به آنها، براي مؤسسات مالی فراهم شود.
در راستاي پیشینه کاربرد مفهوم اعتماد در مدلهاي ارزیابی اعتباري، با توجه به بررسیهاي به عمل آمده، می-توان اذعان داشت که تا کنون هیچ مدلی براي تلفیق این دو مفهوم ارائه نشده است؛ بنابراین این مطالعه میتواند شروع فصل جدیدي از تحقیقات در این زمینه باشد.

مدل اعتبارسنجی مبتنی بر مفهوم اعتماد
همانگونه که قبلاً اشاره کردیم، هدف اصلی از معرفی الگوریتم پیشنهادي، استفاده از مفهوم اعتماد در زمینه اعتبارسنجی و سهولت فرآیند سیاست گذاري اعطاي اعتبار به مشتریان است. ساختار اصلی این رویکرد هوشمند در ادامه توضیح داده می شود. شکل (1)، گام هاي الگوریتم پیشنهادي را نشان می دهد.

گام اول: تعیین ورودي ها و خروجی
انتخاب مجموعه مشاهدات به عنوان اولین گام متدولوژي پیشنهادي، انجام می شود. مشخصه ها یا متغیرهاي پیش بینی کننده به عنوان ورودي ها تعریفشده اند و خروجی، گروه( یا امتیازي) است که به هرمشاهده اختصاص می یابد.

شکل1: ساختار الگوریتم پیشنهادي براي رویکرد مبتنی بر اعتماد

شکل2: فلوچارت شرح مدل پیشنهادي

گام دوم: نرمالیزه کردن دادهها
از آن جایی که ممکن است مجموعه داده ها، شامل متغیر هایی با مقادیر بسیار بزرگ یا کوچک باشد ،براي برطرف کردن اثر احتمالی تسلط متغیرها با مقادیر بزرگ بر سایر متغیرها، ابتدا رکوردهاي هر متغیر را طبق رابطه زیر نرمالیزه میکنیم تا همه رکوردها در بازه [1 0] قرار گیرند:

Xnormalized=

Xmin(X) (1)
max(X)min(X)
گام سوم: کاربرد الگوریتم گزینش مشخصههاي کلیدي
کاهش تعداد ویژگی هاي (متغیرهاي پیش بینی کننده)، یک پارامتر تأثیرگذار در طراحی مدل داده کاوي به شمار میآید. اغلب تعدد ویژگی ها در مجموعه داده هایی با تعداد محدودي از مشاهدات ،عامل مطلوبی براي تولید مدل داده کاوي نیست؛ زیرا ممکن است که الگوریتم یادگیري ،در مواجهه با نویز، شروع به حفظ کردن کند و از مطلوبیت نهایی مدل بکاهد. در نتیجه کاهش تعداد ویژگی ها علاوه بر کاهش زمان محاسبات، منجر به افزایش قابلیت تعمیم پذیري مدل داده کاوي روي مجموعه داده آزمون نیز، می شود. در این مطالعه، کاهش ابعاد مسئله از طریق سه مرحله (شکل 2) انجام می پذیرد.

شکل3: ساختار پیشنهادي براي گزینش مشخصه هاي کلیدي

گام 3 -1:
کارآیی روي مجموعه آموزشی، تخمین خوبی براي کارآیی مدل روي یک مجموعه آزمون مستقل نیست. کارآیی روي مجموعه آموزشی اغلب خیلی خوشبینانه است. براي پیش بینی کارآیی یک مدل، لازم است که کارآیی آن، روي مجموعه داده دیگري که در ساخت مدل استفاده نشده است ، تعیین شود. به همین منظور ،مجموعه داده به دو گروه تقسیم می شود: گروه آموزش که شامل داده هایی است که فقط براي ساخت مدل به کار گرفته می شوند، و گروه آزمون (آزمایش) که به منظور سنجش کارآیی مدل است.
گام 3 -2:
در این بخش هدف، کاهش ابعاد مسئله از طریقانتخاب چند مشخصه کلیدي از مجموع متغیرهاي پیش بینی کننده است، به گونهاي که بهترین عملکرد در زمینه طبقه بندي دادهها حاصل شود. اغلب الگوریتمهاي گزینش مشخصههاي کلیدي به دو گروه تقسیم میشوند:
روشهاي فیلتر که با تکیه بر مشخصات کلی مجموعه داده و بدون استفاده از روش آموزشی، زیر مجموعه هایی از مجموعه داده را انتخاب و ارزیابی می کنند.
روشهايWrapper که از کارآیی الگوریتم یادگیري براي ارزیابی زیرمجموعه ویژگی کاندید استفاده می کنند.
در این روش، جستجو براي یافتن ویژگی هایی صورت می گیرد که در بهترین تناسب با الگوریتم آموزشی باشند.
این روش در مقایسه با روش بالا سرعت کمتري دارد.
از فیلترها، به علت سرعت و سادگی کاربردشان ،اغلب در مرحله پیش پردازش استفاده می شود. یکی از روش هاي فیلتر که در سطح وسیعی به کار گرفته شده است ،استفاده از یک مقیاس تک متغیره روي هر یک از ویژگی ها به طور مجزا است، با فرض بر اینکه هیچ اثر متقابلی بین مشخصهها وجود نداشته باشد. در اینجا آزمون فرض t را روي هر ویژگی به کار می بریم و مقادیر P-value حاصله از هر ویژگی را، به عنوان معیار موثر بودن آن ویژگی، در تفکیک کردن ریسک اعتباري به دو گروه خوب و بد، در نظر می گیریم.
براي اینکه بتوان یک تصور کلی از توانایی هر ویژگی در تفکیک کردن دو گروه به دست آورد، تابع توزیع تجمعی 18(CDF) بر اساس مقادیر P-value رسم می شود.
با بررسی منحنی CDF، آن دسته از ویژگی ها که قدرت تفکیک کنندگی بیشتري دارند، مشخص خواهند شد. در صورت تمایل، می توان همه ویژگی ها را با توجه به P-value آن ها (یا قدرمطلق مقادیر آزمون t)، مرتب کرده و تعدادي از آن ها را به عنوان مشخصه هاي اصلی انتخاب کرد. هر چند ،اغلب تصمیم گیري در مورد تعداد ویژگی هاي مورد نیاز کار سختی است، مگر در مواردي که فرد از دانش لازم در این زمینه بهره مند باشد، یا به دلیل وجود یک محدودیت خارجی، بیشترین تعداد ممکن ویژگی ها مشخص شده باشد.

گام 3 -3:
هم اکنون مجموعه داده براي پیاده سازي الگوریتم اصلی گزینش مشخصهها، یا به عبارتی روش گزینش ترتیبی رو به جلو19(FSFS) آماده است. مدل هاي انتخاب ویژگی ترتیبی، از پرکاربردترین تکنیک ها در این زمینه است. این مدل ها زیرمجموعهاي از ویژگی ها را، از طریق افزودن پیاپی (در جستجوي رو به جلو) یا حذف متوالی (در جستجوي رو به عقب) انتخاب می کنند تا مادامی که یکی از شرایط توقف الگوریتم به وقوع بپیوندد.
از آنجایی که یکی از اهداف متعارف در طبقه بندي داده ها، کمینه کردن مقدار MCE20 (خطاي طبقه بندي نادرست، یا به عبارتی نسبت تعداد مشاهداتی که در گروه نادرست واقع شده اند به تعداد کل مشاهدات ) است، بنابراین فرآیند انتخاب ویژگی، یک جستجوي ترتیبی را به گونه اي انجام می دهد که از مقادیر MCE حاصل از به کارگیري الگوریتم یادگیري QDA21 روي هر یک از زیرمجموعه هاي کاندید، به عنوان مقیاس عملکرد آن زیرمجموعه استفاده کند. از گروه آموزش، براي انتخاب مشخصه ها و ساخت مدل QDA، و از گروه آزمایش، براي ارزیابی عملکرد منتخب استفاده می شود. در طول فرآیند انتخاب مشخصه ،براي ارزیابی و مقایسه عملکرد هر یک از زیرمجموعه هاي کاندید، وارسی اعتبار 10 لایه اي22 روي مجموعه آموزش پیاده می شود.
زمانی که الگوریتم گزینش مشخصه به کمترین مقدار براي خطاي طبقه بندي نادرست برسد (یا به عبارتی اولین مینیمم محلی خود روي نمودار(CV MCE23، متوقف می شود. گاه ممکن است که الگوریتم دچار توقف زودهنگام شود. براي حل این مشکل، می توان محدودیتی را به الگوریتم گزینش مشخصه اضافه کرد تا شرط توقف آن را، پس از بررسی همه ویژگیهاي منتخب قرار دهد.

گام چهارم: تقسیم مجموعه داده
مطابق با الگوریتم پیشنهادي، بعد از انتخاب موثرترین ویژگی ها، مجموعه داده را به دو زیرمجموعه آموزش و آزمایش تقسیم می کنیم. از گروه آموزش، براي محاسبه شیب و به روز کردن وزنها و اریبی شبکه استفاده می شود. در جریان فرآیند آموزش، میزان خطا در گروه آزمایش سنجیده می شود. میزان خطاي ارزیابی اغلب همانند خطاي گروه آموزش، در طول مرحله اول آموزش شبکه کاهش می یابد. مادامی که شبکه شروع به حفظکردن داده ها می کند ،اغلب خطا روي گروه آزمایشافزایش می یابد. زمانی که خطاي آزمایش براي تعداد مشخصی از دوره ها افزایش می یابد، فرآیند آموزش متوقف شده و وزن ها و مقادیر اریبی شبکه به دوره اي با حداقل میزان خطا در آزمایش بازگردانده خواهد شد [27]. داده هایی که براي آزمون به کار گرفته می شوند نباید در فرایند آموزش شبکه استفاده شده باشند و همچنین باید توصیف خوبی از گروه هاي موجود در مجموعه اصلی داده ها را ارائه دهند. به عبارت دیگر، نسبت مشتریان خوشحساب به مشتریان بدحساب در گروه آموزش و آزمون، باید همانند همین نسبت در مجموعه اصلی داده ها باشد. از طرف دیگر ،باید بین اندازه گروه هاي آزمایش و آموزش توازن برقرار کرد.
براي سهولت کار، در ادامه، الگوریتمی براي تقسیم دادهها ارائه شده است.

شکل4: الگوریتمی براي تقسیم مجموعه دادهها

گام 4 -1:
با توجه به اندازه مجموعه داده موجود ،درصد متعارفی از مشاهدات باید براي ساخت مدل انتخاب شود. در جریان این مطالعه، این مقدار را PT می نامیم. درصد باقیمانده ،براي ارزیابی عملکرد الگوریتم پیشنهادي به کار گرفته می شود که PV نامیده شده است.
در اینجا، مجموعه داده موجود، به گروه آموزش که شامل 90% داده ها و گروه ارزیابی که مشتمل بر 10% داده ها است، تقسیم شده است.

گام 4 -2:
بعد از مرتب سازي داده هاي موجود، می توانیم نسبت مشتریان خوشحساب را بر کل مشاهدات ( )، پیدا کنیم. همین فرآیند، در مورد یافتن نسبت بدحساب ها در مقایسه با کل مجموعه داده () نیز، قابل اجرا است.
460248166590

تعداد مشتریان خوشحساب (2) تعداد کل مشتریان =تعداد مشتریان بدحساب
(3) تعداد کل مشتریان =گام 4 -3:
این مرحله، با محاسبه مقادیر چهار تساوي زیر، انجام خواهد گرفت:
تعداد خوشحساب ها براي مجموعه آموزش = (تعداد کل
مشتریان) * RG * PT(4)
تعداد بدحساب ها براي مجموعه آموزش =(تعداد کل
مشتریان) * RB * PT(5) تعداد خوشحساب ها براي مجموعه ارزیابی = (تعداد کل
مشتریان) * RG * PV(6) تعداد بد حسابها براي مجموعه ارزیابی =(تعداد کل مشتریان) * RB * PV(7)

گام 4 -4:
انتخاب مشتریان خوشحساب و بدحساب براي مجموعه هاي ارزیابی و آموزش، می تواند به طور تصادفی از مجموعه داده انجام پذیرد. به یاد داشته باشید که داده هاي ارزیابی باید مجزا از داده هایی باشند که براي آموزش مدل استفاده شدهاند.

گام پنجم: ساخت مناسبترین شبکه عصبی براي مجموعه دادهها
در ابتدا ساختار محتملی براي شبکه ارائه می شود. سپس مدل هاي مختلف با استفاده از گروه آموزش اجرا شده و در نهایت کارآیی آن ها با گروه آزمایش مورد ارزیابی قرار می گیرد. در میان شبکه هاي مختلف ،شبکه هاي عصبی پیش نگر یا چند لایهاي(MLP)24 از رایج ترین شبکه ها در تحقیقات مهندسی به شمار می آیند. شبکه هاي MLP اغلب از سه لایه نرونی تشکیل شده اند؛ لایه ورودي و خروجی که نمایانگر متغیرهاي ورودي و خروجی مدل اند و در میان آن ها یک یا چند لایه مخفی قرار می گیرد که توانایی شبکه ها را براي یادگیري روابط غیرخطی تأمین می کند. در واقع شبکه عصبی در طول فرایند آموزش، روابط بین مؤلفه هاي ورودي و خروجی مجموعه داده را فراگرفته و براي مشاهده هاي موجود در گروه آزمایش، با توجه به مقادیر مؤلفه هاي ورودي آن ها ، عددي را با عنوان امتیاز اعتباري(خروجی) آن مشاهده ارائه می دهد.
در این مرحله، مدل هاي مختلفی اجرا میشود که عملکرد آنها با یکدیگر مورد مقایسه قرار خواهند گرفت.
تابع انتقال، الگوریتم یادگیري و تعداد نرون ها، پارامترهایی هستند که در تعیین معماري شبکه مورد توجه قرار می گیرند. در این مطالعه از میان روش هاي یادگیري موجود، از 9 الگوریتم براي پیدا کردن مناسبترین ANN استفاده میشود. همچنین از توابع لگاریتم سیگموئید و تانژانت هایپربولیک سیگموئید به عنوان تابع انتقال یاد می شود. بنابراین تا کنون 18 شبکه مختلف براي اجرا کردن در دست داریم (9 روش آموزشی به همراه دو تابع انتقال). اما از عوامل دیگري که باید در معماري شبکه عصبی مدنظر گرفته شود، تعداد نرونها در لایه یا لایه-هاي مخفی است. الگوریتم پیشنهادي هر یک از 18 شبکه مذکور را، براي مقادیر مختلف نرونها (از 1 تا 100) در اولین لایه مخفی آنها، اجرا کرده و آموزش خواهد داد. در مجموع خروجی این بخش ،1800 شبکه متفاوت است.
براي ارزیابی عملکرد شبکهها، میزان دقت آنها را با استفاده از متوسط قدرمطلق درصد خطا 25(MAPE) مورد مقایسه قرار می دهیم. در زیر به فرمول MAPE اشاره شده است:
براي سهولت در مقایسه مقادیر مختلف MAPE، 1800شبکه در 18گروه طبقه بندي شدهاند. هر گروه متشکل از 100 شبکه مرتبط با یک الگوریتم یادگیري و تابع انتقال خاصی است که در تعداد نرون هاي موجود در لایه هاي پنهان خود تفاوت دارند. حداقل مقادیر MAPE براي این 18 گروه، محاسبه و با یکدیگر مقایسه میشوند.
در نهایت، شبکه مربوط به کمترین مقدار MAPE، به عنوان بهترین ANN، انتخاب خواهد شد.
گام ششم: نامگذاري نتایج بر مبناي سطوح مختلف اعتماد
نتایج نهایی شبکه عصبی منتخب، امتیاز مشتریان گروه آزمون خواهد بود که بیانگر موقعیت اعتباري آن ها است. از آنجایی که متغیر خروجی تعریف شده براي شبکه عصبی فقط شامل دو مقدار 1 (امتیاز مشتریان بدحساب گروه آموزش) و 2 (امتیاز مشتریان خوشحساب گروه آموزش) است، به طور منطقی امتیازات اختصاص داده شده به مشتریان گروه آزمون توسط ANN، در بازه 5,0 تا 5,2 قرار خواهد گرفت. از طرفی، مقادیر اعتماد که در[26]تعریف شده است، در بازه 1 – تا 5 قرار می گیرد.
بنابراین براي استفاده از نتایج مقاله[26] در این مطالعه ،نیازمند مطابق سازي مقیاس امتیازات اعتباري با مقادیر اعتماد هستیم. از این رو ،براي تعیین سطح اعتماد مشتریان، باید حدود جدیدي را جایگزین حدودي که قبلا براي سطوح مختلف اعتماد تعیین شده بود، بکنیم.
براي این منظور، ابتدا اختلاف بین ماکسیمم امتیاز (MaxC) و مینیمم امتیاز (MinC) محاسبه شده توسط شبکه را به دست میآوریم. این متغیر را S مینامیم. مقادیر MaxC و MinC، از طریق اجراي شبکه براي گروه هاي مختلف آزمون و مقایسه نتایج آنها حاصل می-شود. قدم بعدي، محاسبه تفاضل بین ماکسیمم (MaxT) و مینیمم (MinT) مقادیر اعتماد طبق مطالعه [26] است.
در ادامه از این متغیر با حرف T یاد میشود. با تقسیم مقدار S بر T، میزان اختلاف مورد نظر میان کران بالا و کران پایین بازههاي جدید براي اعتماد به دست میآید. براي محاسبه حدود سطح اول، این مقدار این اختلاف را به مقدار MinC میافزاییم. فرمول 9 به نحوه محاسبهي سطوح جدید اعتماد اشاره دارد:

MAPE=

n
x
x
x
n
t
original
original
ANN



1

n

x

x

x

n

t



قیمت: تومان


دیدگاهتان را بنویسید