است که این مهم از تلفیق ابزارهای دانشی با رویکردهای مربوط به مدیریت ارتباط با مشتریان حاصل خواهد شد.
3-2-1- چارچوب تحقیق
در شکل 3-1 چارچوب کلی این تحقیق نشان داده شده است.

شکل 3-1 چارچوب تحقیق
3-2-2- انتخاب متغیرها
شناسایی متغیرها از گام‌های اساسی در مسیر تحقیق است. با در نظر گرفتن اهداف تحقیق، مطالعه تحقیقات انجام‌شده در حوزه بخش‌بندی رفتاری مشتریان بانک و بررسی رویکردهای سازمانی بانک مهر اقتصاد، سه دسته متغیر زیر انتخاب شده است:
دادههای جمعیت آماری مشتریان: این متغیرها شامل جنسیت، سن، تحصیلات، وضعیت تأهل، شغل و تاریخ تولد، محل منطقه بانکی و … می‌باشد.
تراکنش‌های مالی مشتریان: تراکنش‌های مالی مشتری می‌تواند شاخص مناسبی برای بررسی الگوی رفتاری مشتری باشد و تحقیقات زیادی در این زمینه صورت گرفته است. در این میان متغیرهایی چون تراکنش اخیر مشتری133، متغیر پولی134، فراوانی135 (که به اصطلاح با سر نام RFM شناخته میشوند)، در مطالعات داده‌کاوی کاربرد گستردهای یافتهاند. این متغیرها در پایگاه اطلاعاتی بانک وجود دارند و از طریق پردازش دادههای تراکنشی مشتریان محاسبه می‌شوند که R، فاصله میان زمان آخرین تراکنش مشتری تا زمان مورد ارزیابی، F، تعداد خریدهای مشتریان در یک بازه زمانی خاص و M، میانگین مبالغ تراکنش‌های مشتری در یک بازه زمانی خاص میباشند.
دانش ضمنی خبرگان بانکی: بانک مهر اقتصاد برخی از مشتریان خود را به عنوان مشتریان کلیدی136 میشناسد. مشتریان کلیدی بانکی در هر استان بنا بر نظر خبرگان بانکی با ویژگی‌های خاصی تعریف میشوند. منشأ این ویژگیها دانش ضمنی خبرگان بانکی در هر استان میباشد. در استان مازندران، این متغیر بر اساس ویژگی مانده حساب137 مشتری تعیین میگردد. در این تحقیق این متغیر با نام K تعریف میگردد.
این متغیرها در جدول 3-1 نمایش داده شده است.

جدول 3-1 متغیرهای تحقیق
ردیف
متغیر
شرح
1
ID
شماره مشتری
2
Sex
جنسیت
3
Age
سن
4
Education
تحصیلات
5
Marital Status
وضعیت تأهل
6
Job
شغل
7
Location
محل منطقه بانکی
8
R
فاصله زمانی میان آخرین تراکنش مشتری تا زمان گزارش گیری
9
F
تعداد تراکنشهای مشتریان در بازه زمانی یک ساله تا زمان گزارش گیری
10
M
میانگین مبلغ تراکنشهای مشتری در بازه زمانی یک ساله تا زمان گزارش گیری
11
K
مشتری جزء مشتریان کلیدی بانک میباشد یا خیر

3-2-3- آماده‌سازی و پیش‌پردازش داده‌ها
در این تحقیق برای جمع آوری داده‌ها از دادههای موجود در پایگاه اطلاعاتی بانک مهر اقتصاد استفاده شده است.
به طور معمول ویژگی‌های نمونههای مورد مطالعه در یک تحقیق داده‌کاوی دارای بازه تغییرات یکسان نمی‌باشند. برای مثال اگر سن و متغیر پولی را به عنوان دو ویژگی یک مشتری در نظر بگیریم، این ویژگیها دارای بازه تغییرات متفاوتی هستند. همچنین مقادیر به دست آمده برای هر ویژگی نیز به واحد استفاده‌شده برای اندازه‌گیری آن ویژگی ارتباط مستقیم دارد برای مثال اگر برای اندازه‌گیری سن از واحد سال یا روز استفاده شود، مقادیر در بازه‌های مختلفی به دست خواهند آمد. در این صورت، ویژگی‌های با مقادیر بزرگ تأثیر بیشتری بر تابع هدف می‌گذارند که لزوماً به معنی مهم‌تر بودن آن‌ها در الگوریتم بخش‌بندی نیست و بنابراین اثری نامطلوب تلقی می‌گردد. برای رفع این مشکل از نرمال سازی به روش Min-Max استفاده شده است.
3-2-3-1- نرمال سازی داده‌ها
در این روش، با یک تبدیل خطی یا غیرخطی، داده‌ها را در بازهای که توسط کاربر انتخاب می‌شود قرار می‌گیرند. این بازه در کاربردهای داده‌کاوی معمولاً [-1,1] یا[0,1] میباشد. برای قرارگیری داده‌ها در بازه بین صفر و یک میتوان از فرمول 3-1 استفاده نمود [31].
(3-1)
X^*= (X-Min(X))/(Range(X))
در فرمول بالا X نشان‌دهنده مقدار متغیر است.
3-2-4- تعیین تعداد بهینه خوشه‌ها
  یکی از مهم‌ترین مسایل در خوشه‌بندی انتخاب تعداد خوشه‌های مناسب می‌باشد. تعداد خوشه‌ای مناسب می‌باشد که:
نمونه‌های موجود در یک خوشه تا حد امکان شبیه به یکدیگر باشند.
نمونه‌های متعلق به خوشه‌های متفاوت تا حد امکان با یکدیگر نامشابه باشند.
عبارات فوق را بدین صورت نیز بیان می‌کنند که خوشه‌ها باید بیشینه فشردگی داشته باشند و تا حد امکان جدایی آن‌ها نیز زیاد باشد. برای یک خوشه‌بندی مناسب هر دو معیار باهم باید ارضا شوند چرا که اگر تنها معیار فشردگی مورد استفاده قرار گیرد در آن صورت هر داده می‌تواند به صورت یک خوشه در نظر گرفته شود چرا که هیچ خوشه‌ای فشرده‌تر از خوشه‌ای با یک داده نیست و اگر تنها معیار جدایی در نظر گرفته شود در آن صورت بهترین خوشه‌بندی این است که کل داده‌ها را یک خوشه بگیریم با این توضیح که فاصله هر خوشه از خودش صفر است. بنابراین باید از ترکیب دو معیار فوق استفاده شود.
به منظور تعیین تعداد بهینه خوشه‌ها میتوان از روشهایی چون شاخص Davis-Bouldin، روش Two Step، تعیین تعداد بهینه خوشه‌ها به کمک روش‌های مبتنی بر گراف و یا نظرات خبرگان استفاده نمود.

مطلب مرتبط :   منبع مقاله درموردطبیعت انسان، روانشناسی، فیزیولوژی

3-2-5- خوشه‌بندی
خوشه‌بندی یا گروهبندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی باهم شباهت دارند. دادههایی که با این معیار به صورت خوشههایی تفکیک میگردند، با داده‌های موجود در خوشهای که در آن قرار میگیرند
، بیش‌ترین شباهت را دارند؛ و با داده‌های موجود در سایر خوشه‌ها متفاوتاند.
در خوشه‌بندی موضوعات زیر مورد توجه است:
چه تعداد از خوشه‌ها میتواند دانش نهفته در داده‌ها را کشف نماید؟ مسئله تعداد خوشه‌ها معمولاً به صورت جداگانه مورد بررسی قرار میگیرد.
معیارهای شباهت و تفاوت داده‌ها چیست؟ این معیارها خود به واسطه روش‌های مختلفی محاسبه میگردد، اما در بیشتر روش‌های خوشه‌بندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده میشود. فاصله فضایی میتواند با روش‌های مختلفی چون فاصله اقلیدسی138، فاصله مینکوفسکی139 و یا فاصله مانهاتان140 محاسبه شود.
بعد از تعیین تعداد خوشه‌ها و معیار شباهت یا فاصله داده‌ها، داده‌ها با استفاده از چه روشی در تعداد خوشههای معین جای گیرند [11].
خوشه‌بندی یک الگوریتم بدون ناظر141 در داده‌کاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمیشود و همه صفات ورودی ارزش یکسان دارند [2].
تفاوت این روش با طبقهبندی در این است که در طبقه‌بندی هر داده به یک طبقه (کلاس) از پیش مشخص‌شده تخصیص می‌یابد ولی در خوشه‌بندی هیچ اطلاعی از کلاسهای موجود درون داده‌ها وجود ندارد و به عبارتی خود خوشه‌ها نیز از داده‌ها استخراج می‌شوند.
با مطالعه و بررسی روش‌های داده‌کاوی موجود جهت خوشه‌بندی داده‌ها، الگوریتم‌های K-Means، WK- Means و A-H-Means برای اعمال بر روی مجموعه داده‌ها انتخاب شدهاند.
3-2-5-1- انواع خوشه‌بندی
امروزه الگوریتم‌های متنوعی در زمینه خوشه‌بندی معرفی شدهاند. این الگوریتمها به طور کلی به سه دسته تقسیم میشوند [1]:
1- خوشه‌بندی سلسله‌مراتبی142
در این نوع خوشه‌بندی خوشه‌ها به صورت متوالی به دو شیوه انباشتی143 و یا تقسیمکنندگی144 توسعه مییابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشههای مشابه باهم ادغام میگردند. در شیوه تقسیمکنندگی در ابتدا کل داده‌ها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشه‌ها ادامه مییابد.
2- خوشه‌بندی مبتنی بر مدل145
در این روش یک مدل احتمالی مشخص برای داده‌ها در نظر گرفته شده و سپس پارامترها برآورد میشوند. در این گروه از الگوریتمها یک مدل چگالی آمیخته مطرح میشود و فرض میشود که داده‌ها از مخلوط شدن تعدادی منبع داده به وجود آمدهاند. هر یک از این منابع یک خوشه بالقوه در نظر گرفته میشود.
3- خوشه‌بندی مبتنی بر بخش‌بندی146
نام دیگر این روش خوشه‌بندی بر مبنای تابع هدف است که در آن اساس کار فرمولبندی تابع هدف است. تابع هدف حاصل باید طبیعت مسئله را به خوبی نشان دهد تا بتوان از طریق کمینه سازی آن، ساختار معنیداری (خوشه‌ها) را در داده‌های مفروض آشکار ساخت. معروفترین و سادهترین الگوریتم خوشه‌بندی مبتنی بر بخش‌بندی، الگوریتم K-means است. این الگوریتم به خاطر سادگی اجرا، سادگی برنامه و کارایی آن استفاده فراوانی دارد [1]. عملکرد کلی این روش به این صورت است که هدف ایجاد K خوشه است، بدین ترتیب که عناصر درون هر خوشه نسبت به میانگین رکوردهای آن خوشه که مرکز نامیده میشود بیش‌ترین شباهت و با مراکز دیگر خوشه‌ها بیش‌ترین عدم شباهت را داشته باشند.
3-2-5-2- خوشه‌بندی به روش K-Means
این روش، یک روش خوشه‌بندی مبتنی بر بخش‌بندی است که در آن هر خوشه به یک مرکز وابسته است. هر نقطه بسته فاصله خود باهر یک از مراکز، به خوشهای که نزدیکترین فاصله را با مرکز آن دارد مرکز تخصیص مییابد. تعداد خوشه‌ها که همان تعداد مراکز است باید از قبل تعیین شده باشد. الگوریتم پایه این روش بسیار ساده است.
1- الگوریتم با انتخاب K مرکز آغاز میشود. این مراکز میتواند به طور حدسی یا تصادفی انتخاب گردد.
2- محاسبه مقدار تابع هدف به صورت زیر است:
(3-2)
KM(X,C)= ∑_(i=1)^n▒■(min⁡〖‖x_i-c_j ‖^2 〗@jϵ{1…k})
3- برای هر داده xi، عضویت m(cjǀxi) به ازای هر مرکز cj و وزن مربوط به آن (w(xi)) محاسبه میشود.
تابع عضویت به صورت زیر محاسبه میشود:
(3-3)
m_KM (c_i ǀx_i )= {█(1 ;if l=arg〖min〗_j ‖x_i-c_j ‖^2@0 ;otherwise )┤
تابع وزن عضویت به صورت زیر محاسبه میشود:
(3-4)
w_KM (x_i )= 1
4- برای هر دسته، مجدداً مرکز cj جدید به صورت زیر محاسبه میشود:
(3-5)
c_j= (∑_(i=1)^n▒〖m(c_j ǀx_i )w(x_i)x_i 〗)/(∑_(i=1)^n▒〖m(c_j ǀx_i )w(x_i)〗)
5- گام‌های 3 و 4 را تا همگرا شدن دستهها تکرار نمایید [31].
   

مطلب مرتبط :   B(m)، Z=1، خاکS-2

الگوریتم خوشه‌بندی به روش K-means [31]
Select K points as the inintial centroids.
repeat
From K clusters by assigning all points to the closest centoid.
Recompute the centroid of each cluster.
until the centroids don’t change

3-2-5-1-1- مزایای استفاده از الگوریتم خوشه‌بندی K-Means
در صورت زیاد بودن تعداد متغیرها، این الگوریتم نسبت به روش سلسله‌مراتبی دارای سرعت محاسبات بالاتر است (در صورتی که K کوچک باشد).
الگوریتم K-Means نسبت به روش سلسله‌مراتبی خوشه‌های کمتری تولید می‌نماید.
3-2-5-1-2- محدودیت‌های الگوریتم K-Means
K-Means زمانی که خوشه‌ها از لحاظ اندازه و چگالی متفاوت و اشکال غیر کروی داشته باشند محدودیتهایی خواهد داشت. همچنین این الگوریتم زمانی که داده‌ها حاوی مقادیر پرت باشند با مشکل مواجه خواهد شد.
علی‌رغم اینکه خاتمه پذیری الگوریتم بالا تضمین شده است ولی جواب نهایی آن واحد نبوده و همواره جوابی بهینه نیست. به طور کلی روش ساده بالا دارای مشکلات زیر است:
جواب
نهایی به انتخاب خوشه‌های اولیه وابستگی دارد.
روالی مشخص برای محاسبه اولیه مراکز خوشه‌ها وجود ندارد.
اگر در تکراری از الگوریتم تعداد داده‌های متعلق به خوشه‌ای صفر شد راهی برای تغییر و بهبود ادامه روش وجود ندارد.
در این روش فرض شده است که تعداد خوشه‌ها از ابتدا مشخص است. اما معمولاً در کاربردهای زیادی تعداد خوشه‌ها مشخص نیست [31].

3-2-5-2- خوشه‌بندی به روش WK-Means147
در خوشه‌بندی با الگوریتم K-Means ارزش همه داده‌ها یکسان در نظر گرفته میشود که این مسئله یکی از نقاط ضعف این الگوریتم شناخته میشود. در روش WK-Means سعی شده با وزن دهی متغیرها بر اساس اهمیت نسبی آنها این ضعف را تعدیل نماید.
در الگوریتم W-K-Means به داده‌ها بر اساس اهمیت وزن داده می‌شود یعنی اگر داده‌هایمان x1،x2،…،xn باشد به ترتیب وزن w1،w2،…،wn می‌گیرند.

Comments (0):

Write a comment: