Document Type : Research Paper
Authors
ECO
Abstract
Keywords
شرکتهای بیمه در سراسر جهان بهطور مداوم منابع هنگفتی را در قالب جبران خسارت ادعاهای تقلبی از دست میدهند که در صورت صرف این منابع در فعالیتهای تخصصی و سرمایهگذاری میتوانستند خدمات مناسبتری به مشتریان خود ارائه نمایند. عوامل فروش میتوانند دادهکاوی را با اقدامات مربوط به کشف تقلب، ترکیب و دقت عملکرد خود را افزایش دهند که به این طریق نیاز به نیروی انسانی نیز کاهش م
شرکتهای بیمه در سراسر جهان بهطور مداوم منابع هنگفتی را در قالب جبران خسارت ادعاهای تقلبی از دست میدهند که در صورت صرف این منابع در فعالیتهای تخصصی و سرمایهگذاری میتوانستند خدمات مناسبتری به مشتریان خود ارائه نمایند. عوامل فروش میتوانند دادهکاوی را با اقدامات مربوط به کشف تقلب، ترکیب و دقت عملکرد خود را افزایش دهند که به این طریق نیاز به نیروی انسانی نیز کاهش مییابد. نتیجه این اقدامات درنهایت میتواند به کمینه نمودن خسارات منجر شود.
افرادی که مرتکب تقلب میشوند، میکوشند تا منفعت بیشتری از بیمهنامه (فراتر از خسارت واردشده)، دریافت کنند. معمولاً در دو موقعیت ممکن است بیمهشده اقدام به تقلب نماید. نخست در شرایطی که یک شخص بهصورت عمدی تلاش میکند تا خسارتی را ایجاد و یا در گزارش میزان وقوع آن اغراق نماید. موقعیت دوم، زمانی است که بیمهشده با علم به وجود پوشش بیمه، احتیاط کمتر و یا حتی بیاحتیاطی میکند.
برایناساس، میتوان اهم هزینههای وارده ناشی ازاینگونه تقلبات را به شرح زیر طبقهبندی نمود:
دادهکاوی تکنیکهای مختلفی را برای استخراج اطلاعات از دادهها فر اهم میکند. لذا، شرکتهای بیمه برای کشف روندها و مدلها در میان انبوهی از دادهها از تکنیکهای دادهکاوی استفاده مینمایند(رابرت[1] 2010). استفاده از علم دادهکاوی در حوزه تقلب چه کمکی در کنترل این هزینهها میتواند داشته باشد؟ در صورت وجود و جمعآوری دادههای تقلبات چگونه میتوان از آن در کاهش این تخلفات در آتی استفاده نمود؟
در این مقاله پس از مقدمه در بخش ادبیات تحقیق به ساختار کلی تقلب در بازارهای مالی و تحقیقات پیشین در این زمینه پرداخته شده است. در بخش سوم مبانی نظری به کار گرفتهشده در این تحقیق براساس تکنیکهای مورداستفاده ارائه شده است. در بخش چهارم پس از معرفی متغیرهای مدل با استفاده از دادههای اخذشده از یکی از شرکتهای بزرگ بیمه به کمک نرمافزار SPSS Clementine خروجیهای سه روش آنالیز شدهاند و نهایتاً در بخش پنجم به ارائه نتیجهگیری و پیشنهادها براساس روشهای مورداستفاده در مدل پرداخته شده است.
در این مقاله تصویری از روشهای دستهبندی برای کاربرد کشف تقلب بیمهای با استفاده از تکنیکهای دادهکاوی ارائه میشود. این ساختار در شکل 1 انعکاس یافته است(نگای[2] و دیگران 2011).
تحقیقات متعددی در رشتۀ بیمه اتومبیل در کشورهای مختلف جهان انجام شده حذف و با توجه به تنوع حجم و نوع دادهها، روشهای مختلفی برای کشف تقلبات بیمه معرفی شده است. این روشها میتوانند در دو طیف با ناظر یا بی ناظر طبقهبندی شوند. در روشهای با ناظر، نمونههایی از موارد تقلبی و غیر تقلبی موجود است. بر این اساس مدلی طراحی میشود که قابلیت تشخیص و پیشبینی تقلبی بودن یا نبودن نمونههای جدید را دارا باشد. این روش برای بررسی تقلباتی کاربرد مییابد که از قبل وجود داشتهاند. روشهای بی ناظر به دنبال کشف نمونههایی هستند که کمترین شباهت با نمونه نرمال را نشان دهند.
ویسبرگ و دریگ[3] یک مدل رگرسیون خطی چندگانه را برای انتخاب شاخص های مختلف تقلب طراحی نمودند. بلادجی و دیون[4] نیز مطالعاتی را با استفاده از دادههای بیمه اتومبیل برای کانادا به انجام رساندند. آرتیس و دیگران[5] از مدلهای لوجیت چندگانه و مدلهای لوجیت چندگانه تودرتو برای کشف تقلب بیمه استفاده کردند. فوآ و همکاران[6] با ترکیب الگوریتمهای شبکه های عصبی پس انتشاری مدل تقلبات بیمه را طراحی و معرفی نمودند. براکت و همکارانش[7] علاوه بر شناسایی خسارتهای تقلبی و دستهبندی آنها از روش تحلیل مؤلفه های اصلی برای انتخاب مهمترین شاخصهای مؤثر بر تقلبات بهره برداری کردند. رخا[8] دستهبندی بیز ساده و درخت تصمیم مبتنی بر الگوریتمهای پیشبینی و آنالیز الگوهای تقلب را مورد استفاده قرار داد. وی اجرای مدلهای متریک که از ماتریس اغتشاش حاصل می شد را مبنای مطالعه خود قرار داد.
بیمه اتومبیل در میان رشته های مختلف بیمهای، سهم بالایی در پرتفوی حق بیمه دریافتی و حجم خسارت دارد. از لحاظ رخداد تقلب این رشته بیشتر از سایر رشته ها در معرض وقوع است به طوریکه که عدم توجه به این تقلبات هزینههای شرکت بیمه را افزایش و درآمدهای آنها را کاهش میدهد و در نهایت سبب افت عملکرد شرکت بیمه میشود. بررسی فرایند های تقلب با دریافت گزارش ادعای خسارت آغاز میشود و پس از بررسیهای لازم در صورت نداشن شواهدی مبنی بر ارتکاب تقلب طبق روال عادی برای پرداخت خسارت ارجاع داده میشوند. لذا برای بررسی، پروندهها به دو دسته ی جعلی و غیر جعلی تقسیم میشوند. دستهبندی دادههای مستخرج از پایگاه های اطلاعاتی یکی از موارد مهم در فرایند آنالیز دادهها است که میتواند برای استخراج مدلها و کلاسبندی دادهها مورد استفاده قرار گیرد. این روش، شیوه موثری برای ایجاد درک مناسب از دادههای انبوه محسوب میشود(ویلسون[9] 2005). در طی مراحل انجام فرایند دادهکاوی سه بخش مهم وجود دارد:
روشهای دستهبندی میتواند براساس مؤلفه ها و معیار های زیر طبقهبندی و ارزیابی شود:
رگرسیون لجستیک یکی از ابزارهای مهم دادهکاوی است و اغلب در مواقعی کاربرد مییابد که متغیر پاسخ دوبخشی (باینری) باشد(اودد و رکاچ[11] 2010). در این روش ضرورت دارد متغیر پاسخ عدد صحیح یا نسبی باشد. در این مقاله متغیر وابسته اسمی بوده و مقدار یک، برای تقلبی بودن یک ادعا و مقدار صفر، برای غیر تقلبی بودن آن منظور شده است. شکل کلی مدل رگرسیون لجستیک در رابطه ذیل ارائه شده است.
که در آن احتمال تقلبی بودن یک ادعاست، Y=1 به شرط وجود تعدادی از متغیرهای مستقل استد. ضرایبی هستند که باید برآورد شوند. لگاریتم طبیعی این احتمال یا لوجیت Yبه قرار زیر است:
Logit Y = b0 + b1 X1 +…..bnXn
درخت تصمیم یک ابزار پیشبینی با استفاده از مشاهدات است که نمایش نموداری از نتایج ممکن را ارائه میدهد. درخت تصمیم میتواند با الگوریتمهای مختلف فراگیری ماشین مانند ID3، CARTو C4.5طراحی شود. پیشبینی ها بهوسیله برگها و شاخهها به صفات موردبررسی متصل میشوند. درواقع یک مجموعه از گرههای تصمیم با شاخهها به هم متصل میشوند و از ریشه گره گسترش پیدا میکنند تا برگ و گرههای نهایی ادامه مییابد. الگوریتم ردهبندی و درخت رگرسیونی(CART) برای شرایط باینری کاربرد دارد. برای هر گره تنها دو شاخه وجود دارد. درخت تصمیم حاصل از این الگوریتم، برای هر تصمیم یک کاوش کامل از تمام متغیرهای موجود و انشعاب مقادیر فراهم و براساس معیار زیر با خرد کردنهای بهینه، انتخاب میشود. اگر معیار خوبی این خرد کردن برای متغیر s در گره t باشد:
نقطه بهینه زمانی بهدست میآیند که معیار فوق برای تمام حالتهای ممکن خرد کردن در گره مشخص، حداکثر شود )لاروس[12] 2005).
این روش دستهبندی برای دادههای با حجم بالا دارای دقت و سرعت بالایی است. در ردهبندی بیز ساده فرض بر این است که احتمال رخداد یک صفت روی احتمال سایر صفتها، بیتأثیر است. در تئوری بیز استخراج احتمال پسین با استفاده از احتمال پیشین امکانپذیر است. اگر θ پارامتریک توزیع نامعلوم باشد و P(θ) احتمال پیشین آن باشد، آنگاه:
در مواقعی که مجموعهای از پیشامدهای θ (جعلی و غیر جعلی) وجود داشته باشد، از فرضیه حداکثر احتمال استفاده خواهیم کرد.
که در آن متغیرهای مستقل است (شکوری 1390).
دادههای این مقاله از یکی از شرکتهای بزرگ بیمه اخذ شده که بعد از پالایش و حذف رکوردهای ناقص مشتمل بر800 رکورد گردید. لازم به توضیح است با توجه به حساسیتهای موجود در ارائه اطلاعات و دادههای ناقص اخذ رکوردهای بیشتر بهمنظور استفاده در مدلها مقدور نبوده است. ازآنجاییکه برای مدلسازی ترکیب نمودن دادههای جعلی و غیر جعلی ضروری است، نیمی از موارد یعنی 400 رکورد از لیست سیاه (که در آن احتمال وقوع تقلب تقریباً یک فرض شده است) در نظر گرفته شد. این گروه از پایگاه داده و انفورماتیک شرکت مربوط پس از مذاکره و کسب مجوز استخراج شده است و شامل پروندههایی بوده است که پس از بررسیهای لازم رأی به تقلبی بودن خسارت اعلامی داده شده است. 400 رکورد دیگر مربوط به بیمهنامههای عادی است. براساس معیار دقت، این مطالعه درصدد است بهترین مدل را شناسایی نماید.
کل دادهها به دو بخش 30 درصد و 70 درصد تقسیم گردید؛ بر این اساس 552 مشاهده مربوط به دادههای آموزشی[13] و 248 مورد دیگر مربوط به مجموعه دادههای آزمایشی برای اعتبارسنجی است. شایان ذکر است، دادههای آموزشی برای ساخت مدل و دادههای آزمایشی[14] برای اعتبار سنجی یا بررسی دقت مدل مورد استفاده قرار میگیرند. دادههای آزمایشی بهمنزله ناظر به الگوریتم وارد و میزان صحت نتایج را ارزیابی میکند. کلیه مراحل در نرمافزار Spss Clementine انجام شده است. بر این اساس، هفت متغیر توضیحی به همراه متغیر پاسخ در جدول 1 نشان داده شده است.
نام متغیر |
نقش متغیر |
نوع متغیر |
نام متغیر |
نقش متغیر |
نوع متغیر |
سابقه بیمهای “X1” |
توضیحی |
گسسته |
مقدار خسارت “X5” |
توضیحی |
پیوسته |
تعداد ادعای خسارت “X2” |
توضیحی |
گسسته |
جنس “X6” |
توضیحی |
دودویی |
تأخیر در اعلان خسارت “X3” |
توضیحی |
پیوسته |
سن “X7” |
توضیحی |
پیوسته |
کروکی “X4” |
توضیحی |
دودویی |
تقلب “Y” |
توضیحی |
اسمی |
در هر سه روش مورداستفاده در این مقاله، تقلبی بودن یا نبودن یک متغیر وابسته یا پاسخ در نظر گرفته میشود. اولین متغیر مستقل سابقه بیمهای است. در این زمینه ازنظر و تجربه کارشناسان خبره استفاده شده است و به این دلیل برگزیده شده است که انتظار میرود احتمال ارتکاب تقلب توسط بیمهگذارانی که سابقه بیمهای بالاتری در شرکت بیمه دارند کمتر باشد.
دومین متغیر توضیحی، تعداد ادعاهای خسارت است که بالا بودن این تعداد احتمال تقلبی بودن خسارت را افزایش میدهد. متغیر توضیحی بعدی تأخیر در اعلان خسارت است و فرض بر این است که هر چه این دوره طولانیتر شود، احتمال تقلب افزایش خواهد یافت. متغیر دیگری که مورد ملاحظه قرارگرفته است، کروکی در صحنه حادثه است. انتظار میرود با حضور پلیس در صحنه تصادف، احتمال تقلب تقلیل یابد. مقدار یک برای وجود کروکی و صفر برای عدم وجود آن در نظر گرفته شده است. پنجمین متغیر مستقل، مقدار خسارت است. ازآنجاییکه شرکتهای بیمه برای خسارتهای با مبالغ بالا حساسیت بیشتری نشان میدهند؛ به نظر میرسد با افزایش این مبلغ احتمال تقلب کاهش مییابد. سن راننده در زمان تصادف و جنسیت راننده دو متغیر مستقل دیگری هستند که در این مطالعه در نظر گرفته شدهاند. با توجه به متغیرهای مستقل اشاره شده، باید خاطرنشان نمود که هدف اصلی این مطالعه کلاسبندی و پیشبینی متغیر پاسخ براساس متغیرهای توضیحی است.
بعد از برازش مدل با استفاده از این روش، خروجی در جدول 2 تحت عنوان جدول احتمالات شرطی نشان داده شده است.
متغیر پاسخ |
سابقه بیمهای
|
تعداد ادعای خسارت |
تأخیر در اعلان خسارت
|
کروکی |
مقدار خسارت
|
جنس |
سن
|
||||||||||||||||
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
0.5 |
0.5 |
1 |
0.140 |
0.650 |
0 |
0.550 |
0 |
1 |
0.985 |
0.98 |
0 |
0.652 |
0.192 |
1 |
1 |
0.988 |
1 |
0.842 |
0.840 |
1 |
0.210 |
0.232 |
|
|
|
2 |
0.288 |
0.338 |
1 |
0.388 |
0.328 |
2 |
0.008 |
0.008 |
1 |
0.348 |
0.808 |
2 |
0 |
0.1 |
2 |
0.158 |
0.160 |
2 |
0.170 |
|
|
|
|
3 |
0.165 |
0.012 |
2 |
0.052 |
0.498 |
3 |
0.005 |
0.002 |
|
|
|
3 |
0 |
0.02 |
|
|
|
3 |
0.240 |
0.190 |
|
|
|
4 |
0.295 |
0 |
3 |
0.01 |
0.168 |
4 |
0.002 |
0.008 |
|
|
|
|
|
|
|
|
|
4 |
0.200 |
0.208 |
|
|
|
5 |
0.112 |
0 |
4 |
0 |
0.008 |
5 |
0 |
0.002 |
|
|
|
|
|
|
|
|
|
5 |
0.180 |
0.150 |
|
Value 1 for ،,value 2 for ،, value 3 for ، , ، . Value 1 for ،, value 2 for ،,value 3 for ، ,value 4 for ،,value 5 for . Value 1 for ،,value 2 for ،value 3 for. value 1 for ،,value 2 for ،,value3 for ، ,value 4 for ،,value for . ج: جعلی // غ: غیرجعلی |
با استفاده از احتمالات جدول فوق، ردهبندی دادههای آزمایشی صورت پذیرفته و نتایج در جدول 3 نشان داده شده است.
دقت |
پاسخ(پیشبینی شده) |
|
|||
غیر جعلی |
جعلی |
|
|||
4/98% |
2 |
123 |
جعلی |
متغیر پاسخ |
|
7/87% |
107 |
16 |
غیر جعلی |
||
|
کل |
همچنان که ملاحظه میشود دقت مدل در شناسایی پروندههای جعلی 4/98 درصد و برای غیر جعلی 7/87 درصد است، ضمن اینکه دقت مدل برای کل ادعاها اعم از جعلی و غیر جعلی 74/92 درصد میباشد. شایان ذکر است، در روش دستهبندی، هریک از متغیرها اهمیت متفاوتی در پیشبینی متغیر پاسخ دارند. نمودار زیر اهمیت این متغیرها در روش بیز ساده را نشان میدهد.
با استفاده از دادههای مربوطه، درخت تصمیم در شکل 3 نشان داده شده است.
براساس نمودار فوق میتوان یک مشاهده نمونه را کلاسبندی نمود(پیشبینی متغیر پاسخ آن مشاهده). برای مثال، اگر سابقه بیمهای کمتر از 5/3 سال و مقدار خسارت بیش از 447500 ریال باشد میتوان گفت متغیر پاسخ صفر یا غیر جعلی میباشد. به همین صورت قوانین دیگری را میتوان بهطور مستقیم از نمودار درخت تصمیم استخراج نمود. سرانجام با بهکارگیری دادههای آزمایشی، دقت مدل طبق جدول زیر استخراج میشود.
دقت |
پاسخ(پیشبینی شده) |
|
|||
غیر جعلی |
جعلی |
|
|||
95.2% |
6 |
119 |
جعلی |
متغیر پاسخ |
|
88.61% |
109 |
14 |
غیر جعلی |
||
|
کل |
دقت مدل برای موارد جعلی و غیر جعلی به ترتیب 2/95 و 61/88 درصد است. ضمن اینکه مدل درخت تصمیم برای کل ادعاها، دقتی معادل 74/92 درصد دارد. اهمیت متغیرها در این روش در قالب نمودار زیر قابلارائه است.
در این مرحله رگرسیون لجستیک پیشرو با استفاده از دادههای آموزشی به کار گرفته شده است (متغیرهایی که تأثیر بیشتری داشتهاند، به ترتیب وارد مدل شدهاند). پارامترها با استفاده از روش حداکثر درستنمایی تخمین زده شدهاند. این برآوردها در جدول 5 ارائه شدهاند.
معنیداری |
انحراف استاندارد |
پارامتر |
متغیر |
|
0.000 0.000 |
0/245 0/296 |
2/881 -274/3 |
ثابت |
گام اول |
0.000 0.000 0/057 |
0/210 0/421 0/483 |
-784/1 3/717 0/921 |
ثابت |
گام دوم |
0.000 0.000 0.000 0/0721 |
0/249 0/478 0/469 0/587 |
-951/1 3/876 2/370 -210/0 |
ثابت |
گام سوم |
در هر گام متغیرهای با بالاترین تأثیر، اضافه و مابقی حذف شدهاند. در ادامه مقیاسهای معنیداری مدل در جدول 6 ارائه میشود.
Nagelkerke R-square |
Cox & Snell R-square |
Likelihood logarithm |
|
648/0 |
486/0 |
236/398 |
گام اول |
871/0 |
653/0 |
194/180 |
گام دوم |
897/0 |
672/0 |
128/149 |
گام سوم |
نخستین معیار، احتساب دو برابر لگاریتم تابع درستنمایی است. این معیار، دال بر معنیداری ضرایب متغیرهای مستقل میباشد. کاهش این معیار در جدول، نشاندهنده بهبود مدل در طی گامهای پیش رفته میباشد. مقادیر مربع R کاکس وسل و مربع R ناجل کرک نیز محاسبه شده است که درصد تغییرات متغیر وابسته مدل را نشان میدهد.
مدل فوق برای ردهبندی ادعاها مورد استفاده قرار میگیرد و نتایج آن در قالب جدول 7 نشان داده شده است.
دقت |
پاسخ (پیشبینی شده) |
|
|||
غیر جعلی |
جعلی |
|
|||
96.8% |
4 |
121 |
جعلی |
متغیر پاسخ |
|
90.2% |
111 |
12 |
غیر جعلی |
||
|
کل |
ملاحظه میشود که مدل رگرسیون لجستیک، دارای دقت 55/93% برای کل ادعاها است که بهتر از پیشبینی تصادفی 50% است. لذا با استفاده از سه متغیر مستقل در مدل لجستیک به نحو مناسبتری میتوان به توضیح مدل پرداخت. مقادیر متغیرهای مستقل میتوانند برای تخمین احتمال متغیر پاسخ، در مدل فوقالذکر جایگذاری شوند. برای نمونه، اگر مقادیر متغیرهای x1 و x2 و x4 به ترتیب برابر 4و 3 و1 باشد:
397.0253
بنابراین؛ احتمال جعلی بودن برای ادعای یک شخص برابر 0.99 است. برای مقایسه همان حالت قبلی تنها با این تفاوت که تعداد ادعای خسارت فرد صفر باشد. در این حالت خواهیم داشت:
درنتیجه:
= 0.00349
بنابراین؛ احتمال اینکه ادعای شخص جعلی باشد به 0/00349 کاهش یافته است. چنانچه میانبر50:50(احتمال جعلی و غیرجعلی هردو ) برای حالت دوم در نظرگرفته شود؛ ضرورتی برای پیگیریهای بیشتر توسط واحد بازرسی وجود ندارد؛ زیرا طبق جدول احتمالات؛ احتمال جعلی بودن صفر است.
اهمیت متغیرها برای مدل رگرسیون لجستیک در نمودار زیر نشان داده شده است.
دادهکاوی و روشهای مختلف آن بهمنزله علمی در حال رشد میتواند کاربرد وسیعی در صنعت بیمه داشته باشد؛ بهنحویکه استخراج نتایج کاربردی و مدلسازی از انبوه دادهها خود زمینهای رو به رشد در مدیریت هر چه بیشتر ریسکهای یک شرکت بیمه است. اعمال سه تکنیک دادهکاوی بر روی دادههای واقعی و ارزیابی نتایج آنها مؤید آن است که رگرسیون لجستیک(نسبت به سایر روشها) از دقت بیشتری برخوردار است. از طرف دیگر، از میان متغیرهای مستقل سابقه بیمهای، تعداد ادعاهای خسارت و داشتن کروکی(نسبت به سایر متغیرها) از اهمیت بالاتری برخوردار هستند. یافتههای این مطالعه تأیید نمود که بیشتر تقلبهای بیمه اتومبیل در افراد میانسال رخ میدهد و با افزایش میزان خسارت، احتمال جعلی بودن کاهش مییابد.
در روشهای درخت تصمیم، رگرسیون لجستیک و بیز ساده به ترتیب چهار، سه و هفت متغیر به کار گرفته شدهاند. همانطور ملاحظه گردید در هر سه مدل متغیرهای سابقه بیمهای، تعداد ادعاهای خسارت و وجود یا عدم وجود کروکی برای صحنه حادثه از اهمیت بالایی برخوردار میباشند. شایانذکر است که روش رگرسیون لجستیک به محاسبات کمتری نسبت به سایر روشها نیاز دارد. این در حالی است که در مواقعی که سرعت تصمیمگیری اهمیت دارد، روش درخت تصمیم دید شماتیک مناسبتری را بهدست میدهد. روش بیز نیز زمانی که احتمال رخداد یک شاخص وابسته به احتمال رخداد سایر متغیرها وابسته نیست، میتواند از دقت خوبی برخوردار باشد. از بررسیهای صورت گرفته برای کشف تقلب این شاخه از صنعت بیمه میتوان برای مدلسازی و کشف تقلبات سایر رشتهها نظیر بیمه درمان نیز استفاده نمود. سایر روشهای شناسایی تقلب در حوزه دادهکاوی ازجمله سیستم خبره فازی و ماشین بردار پشتیبان میتواند در این زمینه استفاده شود.
مدلهای تقلب، برای مؤثر بودن در کاهش تقلبهای بیمهای(بهویژه در یک بازه زمانی بلندمدت) نیاز به، بروز رسانی مداوم، جهت سازگاری رفتارهای تقلب با الگوهای جدید دارند. در صورت وجود اطلاعات، متغیرهای مستقل دیگری را نیز میتوان به مدل افزود. ازجمله این متغیرها میتوان به زمان تصادف، درونشهری یا برونشهری بودن منطقه تصادف، تعداد مسافران در هنگام حادثه و تعداد سالهایی که از زمان اخذ گواهینامه رانندگی گذشته است، اشاره نمود. استفاده ازنظر خبرگان نیز میتواند به انتخاب شاخصهای مناسب تقلب کمک نماید.
[1]. Robert
[2]. Ngai et al
[3]. Weisberg & Derrig
[4]. Belhadji & Dionne
[5]. Artis et al
[6]. Phua et al
[7]. Brockett et al
[8]. Rekha et al
[9]. Wilson
[10]. Cummins & Tennyson
[11]. Oded & Rokach
[12]. Larose
[13].Training
[14].Testing
افرادی که مرتکب تقلب میشوند، میکوشند تا منفعت بیشتری از بیمهنامه (فراتر از خسارت واردشده)، دریافت کنند. معمولاً در دو موقعیت ممکن است بیمهشده اقدام به تقلب نماید. نخست در شرایطی که یک شخص بهصورت عمدی تلاش میکند تا خسارتی را ایجاد و یا در گزارش میزان وقوع آن اغراق نماید. موقعیت دوم، زمانی است که بیمهشده با علم به وجود پوشش بیمه، احتیاط کمتر و یا حتی بیاحتیاطی میکند.
برایناساس، میتوان اهم هزینههای وارده ناشی ازاینگونه تقلبات را به شرح زیر طبقهبندی نمود:
دادهکاوی تکنیکهای مختلفی را برای استخراج اطلاعات از دادهها فر اهم میکند. لذا، شرکتهای بیمه برای کشف روندها و مدلها در میان انبوهی از دادهها از تکنیکهای دادهکاوی استفاده مینمایند(رابرت[1] 2010). استفاده از علم دادهکاوی در حوزه تقلب چه کمکی در کنترل این هزینهها میتواند داشته باشد؟ در صورت وجود و جمعآوری دادههای تقلبات چگونه میتوان از آن در کاهش این تخلفات در آتی استفاده نمود؟
در این مقاله پس از مقدمه در بخش ادبیات تحقیق به ساختار کلی تقلب در بازارهای مالی و تحقیقات پیشین در این زمینه پرداخته شده است. در بخش سوم مبانی نظری به کار گرفتهشده در این تحقیق براساس تکنیکهای مورداستفاده ارائه شده است. در بخش چهارم پس از معرفی متغیرهای مدل با استفاده از دادههای اخذشده از یکی از شرکتهای بزرگ بیمه به کمک نرمافزار SPSS Clementine خروجیهای سه روش آنالیز شدهاند و نهایتاً در بخش پنجم به ارائه نتیجهگیری و پیشنهادها براساس روشهای مورداستفاده در مدل پرداخته شده است.
در این مقاله تصویری از روشهای دستهبندی برای کاربرد کشف تقلب بیمهای با استفاده از تکنیکهای دادهکاوی ارائه میشود. این ساختار در شکل 1 انعکاس یافته است(نگای[2] و دیگران 2011).
تحقیقات متعددی در رشتۀ بیمه اتومبیل در کشورهای مختلف جهان انجام شده حذف و با توجه به تنوع حجم و نوع دادهها، روشهای مختلفی برای کشف تقلبات بیمه معرفی شده است. این روشها میتوانند در دو طیف با ناظر یا بی ناظر طبقهبندی شوند. در روشهای با ناظر، نمونههایی از موارد تقلبی و غیر تقلبی موجود است. بر این اساس مدلی طراحی میشود که قابلیت تشخیص و پیشبینی تقلبی بودن یا نبودن نمونههای جدید را دارا باشد. این روش برای بررسی تقلباتی کاربرد مییابد که از قبل وجود داشتهاند. روشهای بی ناظر به دنبال کشف نمونههایی هستند که کمترین شباهت با نمونه نرمال را نشان دهند.
ویسبرگ و دریگ[3] یک مدل رگرسیون خطی چندگانه را برای انتخاب شاخص های مختلف تقلب طراحی نمودند. بلادجی و دیون[4] نیز مطالعاتی را با استفاده از دادههای بیمه اتومبیل برای کانادا به انجام رساندند. آرتیس و دیگران[5] از مدلهای لوجیت چندگانه و مدلهای لوجیت چندگانه تودرتو برای کشف تقلب بیمه استفاده کردند. فوآ و همکاران[6] با ترکیب الگوریتمهای شبکه های عصبی پس انتشاری مدل تقلبات بیمه را طراحی و معرفی نمودند. براکت و همکارانش[7] علاوه بر شناسایی خسارتهای تقلبی و دستهبندی آنها از روش تحلیل مؤلفه های اصلی برای انتخاب مهمترین شاخصهای مؤثر بر تقلبات بهره برداری کردند. رخا[8] دستهبندی بیز ساده و درخت تصمیم مبتنی بر الگوریتمهای پیشبینی و آنالیز الگوهای تقلب را مورد استفاده قرار داد. وی اجرای مدلهای متریک که از ماتریس اغتشاش حاصل می شد را مبنای مطالعه خود قرار داد.
بیمه اتومبیل در میان رشته های مختلف بیمهای، سهم بالایی در پرتفوی حق بیمه دریافتی و حجم خسارت دارد. از لحاظ رخداد تقلب این رشته بیشتر از سایر رشته ها در معرض وقوع است به طوریکه که عدم توجه به این تقلبات هزینههای شرکت بیمه را افزایش و درآمدهای آنها را کاهش میدهد و در نهایت سبب افت عملکرد شرکت بیمه میشود. بررسی فرایند های تقلب با دریافت گزارش ادعای خسارت آغاز میشود و پس از بررسیهای لازم در صورت نداشن شواهدی مبنی بر ارتکاب تقلب طبق روال عادی برای پرداخت خسارت ارجاع داده میشوند. لذا برای بررسی، پروندهها به دو دسته ی جعلی و غیر جعلی تقسیم میشوند. دستهبندی دادههای مستخرج از پایگاه های اطلاعاتی یکی از موارد مهم در فرایند آنالیز دادهها است که میتواند برای استخراج مدلها و کلاسبندی دادهها مورد استفاده قرار گیرد. این روش، شیوه موثری برای ایجاد درک مناسب از دادههای انبوه محسوب میشود(ویلسون[9] 2005). در طی مراحل انجام فرایند دادهکاوی سه بخش مهم وجود دارد:
روشهای دستهبندی میتواند براساس مؤلفه ها و معیار های زیر طبقهبندی و ارزیابی شود:
رگرسیون لجستیک یکی از ابزارهای مهم دادهکاوی است و اغلب در مواقعی کاربرد مییابد که متغیر پاسخ دوبخشی (باینری) باشد(اودد و رکاچ[11] 2010). در این روش ضرورت دارد متغیر پاسخ عدد صحیح یا نسبی باشد. در این مقاله متغیر وابسته اسمی بوده و مقدار یک، برای تقلبی بودن یک ادعا و مقدار صفر، برای غیر تقلبی بودن آن منظور شده است. شکل کلی مدل رگرسیون لجستیک در رابطه ذیل ارائه شده است.
که در آن احتمال تقلبی بودن یک ادعاست، Y=1 به شرط وجود تعدادی از متغیرهای مستقل استد. ضرایبی هستند که باید برآورد شوند. لگاریتم طبیعی این احتمال یا لوجیت Yبه قرار زیر است:
Logit Y = b0 + b1 X1 +…..bnXn
درخت تصمیم یک ابزار پیشبینی با استفاده از مشاهدات است که نمایش نموداری از نتایج ممکن را ارائه میدهد. درخت تصمیم میتواند با الگوریتمهای مختلف فراگیری ماشین مانند ID3، CARTو C4.5طراحی شود. پیشبینی ها بهوسیله برگها و شاخهها به صفات موردبررسی متصل میشوند. درواقع یک مجموعه از گرههای تصمیم با شاخهها به هم متصل میشوند و از ریشه گره گسترش پیدا میکنند تا برگ و گرههای نهایی ادامه مییابد. الگوریتم ردهبندی و درخت رگرسیونی(CART) برای شرایط باینری کاربرد دارد. برای هر گره تنها دو شاخه وجود دارد. درخت تصمیم حاصل از این الگوریتم، برای هر تصمیم یک کاوش کامل از تمام متغیرهای موجود و انشعاب مقادیر فراهم و براساس معیار زیر با خرد کردنهای بهینه، انتخاب میشود. اگر معیار خوبی این خرد کردن برای متغیر s در گره t باشد:
نقطه بهینه زمانی بهدست میآیند که معیار فوق برای تمام حالتهای ممکن خرد کردن در گره مشخص، حداکثر شود )لاروس[12] 2005).
این روش دستهبندی برای دادههای با حجم بالا دارای دقت و سرعت بالایی است. در ردهبندی بیز ساده فرض بر این است که احتمال رخداد یک صفت روی احتمال سایر صفتها، بیتأثیر است. در تئوری بیز استخراج احتمال پسین با استفاده از احتمال پیشین امکانپذیر است. اگر θ پارامتریک توزیع نامعلوم باشد و P(θ) احتمال پیشین آن باشد، آنگاه:
در مواقعی که مجموعهای از پیشامدهای θ (جعلی و غیر جعلی) وجود داشته باشد، از فرضیه حداکثر احتمال استفاده خواهیم کرد.
که در آن متغیرهای مستقل است (شکوری 1390).
دادههای این مقاله از یکی از شرکتهای بزرگ بیمه اخذ شده که بعد از پالایش و حذف رکوردهای ناقص مشتمل بر800 رکورد گردید. لازم به توضیح است با توجه به حساسیتهای موجود در ارائه اطلاعات و دادههای ناقص اخذ رکوردهای بیشتر بهمنظور استفاده در مدلها مقدور نبوده است. ازآنجاییکه برای مدلسازی ترکیب نمودن دادههای جعلی و غیر جعلی ضروری است، نیمی از موارد یعنی 400 رکورد از لیست سیاه (که در آن احتمال وقوع تقلب تقریباً یک فرض شده است) در نظر گرفته شد. این گروه از پایگاه داده و انفورماتیک شرکت مربوط پس از مذاکره و کسب مجوز استخراج شده است و شامل پروندههایی بوده است که پس از بررسیهای لازم رأی به تقلبی بودن خسارت اعلامی داده شده است. 400 رکورد دیگر مربوط به بیمهنامههای عادی است. براساس معیار دقت، این مطالعه درصدد است بهترین مدل را شناسایی نماید.
کل دادهها به دو بخش 30 درصد و 70 درصد تقسیم گردید؛ بر این اساس 552 مشاهده مربوط به دادههای آموزشی[13] و 248 مورد دیگر مربوط به مجموعه دادههای آزمایشی برای اعتبارسنجی است. شایان ذکر است، دادههای آموزشی برای ساخت مدل و دادههای آزمایشی[14] برای اعتبار سنجی یا بررسی دقت مدل مورد استفاده قرار میگیرند. دادههای آزمایشی بهمنزله ناظر به الگوریتم وارد و میزان صحت نتایج را ارزیابی میکند. کلیه مراحل در نرمافزار Spss Clementine انجام شده است. بر این اساس، هفت متغیر توضیحی به همراه متغیر پاسخ در جدول 1 نشان داده شده است.
نام متغیر |
نقش متغیر |
نوع متغیر |
نام متغیر |
نقش متغیر |
نوع متغیر |
سابقه بیمهای “X1” |
توضیحی |
گسسته |
مقدار خسارت “X5” |
توضیحی |
پیوسته |
تعداد ادعای خسارت “X2” |
توضیحی |
گسسته |
جنس “X6” |
توضیحی |
دودویی |
تأخیر در اعلان خسارت “X3” |
توضیحی |
پیوسته |
سن “X7” |
توضیحی |
پیوسته |
کروکی “X4” |
توضیحی |
دودویی |
تقلب “Y” |
توضیحی |
اسمی |
در هر سه روش مورداستفاده در این مقاله، تقلبی بودن یا نبودن یک متغیر وابسته یا پاسخ در نظر گرفته میشود. اولین متغیر مستقل سابقه بیمهای است. در این زمینه ازنظر و تجربه کارشناسان خبره استفاده شده است و به این دلیل برگزیده شده است که انتظار میرود احتمال ارتکاب تقلب توسط بیمهگذارانی که سابقه بیمهای بالاتری در شرکت بیمه دارند کمتر باشد.
دومین متغیر توضیحی، تعداد ادعاهای خسارت است که بالا بودن این تعداد احتمال تقلبی بودن خسارت را افزایش میدهد. متغیر توضیحی بعدی تأخیر در اعلان خسارت است و فرض بر این است که هر چه این دوره طولانیتر شود، احتمال تقلب افزایش خواهد یافت. متغیر دیگری که مورد ملاحظه قرارگرفته است، کروکی در صحنه حادثه است. انتظار میرود با حضور پلیس در صحنه تصادف، احتمال تقلب تقلیل یابد. مقدار یک برای وجود کروکی و صفر برای عدم وجود آن در نظر گرفته شده است. پنجمین متغیر مستقل، مقدار خسارت است. ازآنجاییکه شرکتهای بیمه برای خسارتهای با مبالغ بالا حساسیت بیشتری نشان میدهند؛ به نظر میرسد با افزایش این مبلغ احتمال تقلب کاهش مییابد. سن راننده در زمان تصادف و جنسیت راننده دو متغیر مستقل دیگری هستند که در این مطالعه در نظر گرفته شدهاند. با توجه به متغیرهای مستقل اشاره شده، باید خاطرنشان نمود که هدف اصلی این مطالعه کلاسبندی و پیشبینی متغیر پاسخ براساس متغیرهای توضیحی است.
بعد از برازش مدل با استفاده از این روش، خروجی در جدول 2 تحت عنوان جدول احتمالات شرطی نشان داده شده است.
متغیر پاسخ |
سابقه بیمهای
|
تعداد ادعای خسارت |
تأخیر در اعلان خسارت
|
کروکی |
مقدار خسارت
|
جنس |
سن
|
||||||||||||||||
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
غ |
ج |
|
0.5 |
0.5 |
1 |
0.140 |
0.650 |
0 |
0.550 |
0 |
1 |
0.985 |
0.98 |
0 |
0.652 |
0.192 |
1 |
1 |
0.988 |
1 |
0.842 |
0.840 |
1 |
0.210 |
0.232 |
|
|
|
2 |
0.288 |
0.338 |
1 |
0.388 |
0.328 |
2 |
0.008 |
0.008 |
1 |
0.348 |
0.808 |
2 |
0 |
0.1 |
2 |
0.158 |
0.160 |
2 |
0.170 |
|
|
|
|
3 |
0.165 |
0.012 |
2 |
0.052 |
0.498 |
3 |
0.005 |
0.002 |
|
|
|
3 |
0 |
0.02 |
|
|
|
3 |
0.240 |
0.190 |
|
|
|
4 |
0.295 |
0 |
3 |
0.01 |
0.168 |
4 |
0.002 |
0.008 |
|
|
|
|
|
|
|
|
|
4 |
0.200 |
0.208 |
|
|
|
5 |
0.112 |
0 |
4 |
0 |
0.008 |
5 |
0 |
0.002 |
|
|
|
|
|
|
|
|
|
5 |
0.180 |
0.150 |
|
Value 1 for ،,value 2 for ،, value 3 for ، , ، . Value 1 for ،, value 2 for ،,value 3 for ، ,value 4 for ،,value 5 for . Value 1 for ،,value 2 for ،value 3 for. value 1 for ،,value 2 for ،,value3 for ، ,value 4 for ،,value for . ج: جعلی // غ: غیرجعلی |
با استفاده از احتمالات جدول فوق، ردهبندی دادههای آزمایشی صورت پذیرفته و نتایج در جدول 3 نشان داده شده است.
دقت |
پاسخ(پیشبینی شده) |
|
|||
غیر جعلی |
جعلی |
|
|||
4/98% |
2 |
123 |
جعلی |
متغیر پاسخ |
|
7/87% |
107 |
16 |
غیر جعلی |
||
|
کل |
همچنان که ملاحظه میشود دقت مدل در شناسایی پروندههای جعلی 4/98 درصد و برای غیر جعلی 7/87 درصد است، ضمن اینکه دقت مدل برای کل ادعاها اعم از جعلی و غیر جعلی 74/92 درصد میباشد. شایان ذکر است، در روش دستهبندی، هریک از متغیرها اهمیت متفاوتی در پیشبینی متغیر پاسخ دارند. نمودار زیر اهمیت این متغیرها در روش بیز ساده را نشان میدهد.
با استفاده از دادههای مربوطه، درخت تصمیم در شکل 3 نشان داده شده است.
براساس نمودار فوق میتوان یک مشاهده نمونه را کلاسبندی نمود(پیشبینی متغیر پاسخ آن مشاهده). برای مثال، اگر سابقه بیمهای کمتر از 5/3 سال و مقدار خسارت بیش از 447500 ریال باشد میتوان گفت متغیر پاسخ صفر یا غیر جعلی میباشد. به همین صورت قوانین دیگری را میتوان بهطور مستقیم از نمودار درخت تصمیم استخراج نمود. سرانجام با بهکارگیری دادههای آزمایشی، دقت مدل طبق جدول زیر استخراج میشود.
دقت |
پاسخ(پیشبینی شده) |
|
|||
غیر جعلی |
جعلی |
|
|||
95.2% |
6 |
119 |
جعلی |
متغیر پاسخ |
|
88.61% |
109 |
14 |
غیر جعلی |
||
|
کل |
دقت مدل برای موارد جعلی و غیر جعلی به ترتیب 2/95 و 61/88 درصد است. ضمن اینکه مدل درخت تصمیم برای کل ادعاها، دقتی معادل 74/92 درصد دارد. اهمیت متغیرها در این روش در قالب نمودار زیر قابلارائه است.
در این مرحله رگرسیون لجستیک پیشرو با استفاده از دادههای آموزشی به کار گرفته شده است (متغیرهایی که تأثیر بیشتری داشتهاند، به ترتیب وارد مدل شدهاند). پارامترها با استفاده از روش حداکثر درستنمایی تخمین زده شدهاند. این برآوردها در جدول 5 ارائه شدهاند.
معنیداری |
انحراف استاندارد |
پارامتر |
متغیر |
|
0.000 0.000 |
0/245 0/296 |
2/881 -274/3 |
ثابت |
گام اول |
0.000 0.000 0/057 |
0/210 0/421 0/483 |
-784/1 3/717 0/921 |
ثابت |
گام دوم |
0.000 0.000 0.000 0/0721 |
0/249 0/478 0/469 0/587 |
-951/1 3/876 2/370 -210/0 |
ثابت |
گام سوم |
در هر گام متغیرهای با بالاترین تأثیر، اضافه و مابقی حذف شدهاند. در ادامه مقیاسهای معنیداری مدل در جدول 6 ارائه میشود.
Nagelkerke R-square |
Cox & Snell R-square |
Likelihood logarithm |
|
648/0 |
486/0 |
236/398 |
گام اول |
871/0 |
653/0 |
194/180 |
گام دوم |
897/0 |
672/0 |
128/149 |
گام سوم |
نخستین معیار، احتساب دو برابر لگاریتم تابع درستنمایی است. این معیار، دال بر معنیداری ضرایب متغیرهای مستقل میباشد. کاهش این معیار در جدول، نشاندهنده بهبود مدل در طی گامهای پیش رفته میباشد. مقادیر مربع R کاکس وسل و مربع R ناجل کرک نیز محاسبه شده است که درصد تغییرات متغیر وابسته مدل را نشان میدهد.
مدل فوق برای ردهبندی ادعاها مورد استفاده قرار میگیرد و نتایج آن در قالب جدول 7 نشان داده شده است.
دقت |
پاسخ (پیشبینی شده) |
|
|||
غیر جعلی |
جعلی |
|
|||
96.8% |
4 |
121 |
جعلی |
متغیر پاسخ |
|
90.2% |
111 |
12 |
غیر جعلی |
||
|
کل |
ملاحظه میشود که مدل رگرسیون لجستیک، دارای دقت 55/93% برای کل ادعاها است که بهتر از پیشبینی تصادفی 50% است. لذا با استفاده از سه متغیر مستقل در مدل لجستیک به نحو مناسبتری میتوان به توضیح مدل پرداخت. مقادیر متغیرهای مستقل میتوانند برای تخمین احتمال متغیر پاسخ، در مدل فوقالذکر جایگذاری شوند. برای نمونه، اگر مقادیر متغیرهای x1 و x2 و x4 به ترتیب برابر 4و 3 و1 باشد:
397.0253
بنابراین؛ احتمال جعلی بودن برای ادعای یک شخص برابر 0.99 است. برای مقایسه همان حالت قبلی تنها با این تفاوت که تعداد ادعای خسارت فرد صفر باشد. در این حالت خواهیم داشت:
درنتیجه:
= 0.00349
بنابراین؛ احتمال اینکه ادعای شخص جعلی باشد به 0/00349 کاهش یافته است. چنانچه میانبر50:50(احتمال جعلی و غیرجعلی هردو ) برای حالت دوم در نظرگرفته شود؛ ضرورتی برای پیگیریهای بیشتر توسط واحد بازرسی وجود ندارد؛ زیرا طبق جدول احتمالات؛ احتمال جعلی بودن صفر است.
اهمیت متغیرها برای مدل رگرسیون لجستیک در نمودار زیر نشان داده شده است.
دادهکاوی و روشهای مختلف آن بهمنزله علمی در حال رشد میتواند کاربرد وسیعی در صنعت بیمه داشته باشد؛ بهنحویکه استخراج نتایج کاربردی و مدلسازی از انبوه دادهها خود زمینهای رو به رشد در مدیریت هر چه بیشتر ریسکهای یک شرکت بیمه است. اعمال سه تکنیک دادهکاوی بر روی دادههای واقعی و ارزیابی نتایج آنها مؤید آن است که رگرسیون لجستیک(نسبت به سایر روشها) از دقت بیشتری برخوردار است. از طرف دیگر، از میان متغیرهای مستقل سابقه بیمهای، تعداد ادعاهای خسارت و داشتن کروکی(نسبت به سایر متغیرها) از اهمیت بالاتری برخوردار هستند. یافتههای این مطالعه تأیید نمود که بیشتر تقلبهای بیمه اتومبیل در افراد میانسال رخ میدهد و با افزایش میزان خسارت، احتمال جعلی بودن کاهش مییابد.
در روشهای درخت تصمیم، رگرسیون لجستیک و بیز ساده به ترتیب چهار، سه و هفت متغیر به کار گرفته شدهاند. همانطور ملاحظه گردید در هر سه مدل متغیرهای سابقه بیمهای، تعداد ادعاهای خسارت و وجود یا عدم وجود کروکی برای صحنه حادثه از اهمیت بالایی برخوردار میباشند. شایانذکر است که روش رگرسیون لجستیک به محاسبات کمتری نسبت به سایر روشها نیاز دارد. این در حالی است که در مواقعی که سرعت تصمیمگیری اهمیت دارد، روش درخت تصمیم دید شماتیک مناسبتری را بهدست میدهد. روش بیز نیز زمانی که احتمال رخداد یک شاخص وابسته به احتمال رخداد سایر متغیرها وابسته نیست، میتواند از دقت خوبی برخوردار باشد. از بررسیهای صورت گرفته برای کشف تقلب این شاخه از صنعت بیمه میتوان برای مدلسازی و کشف تقلبات سایر رشتهها نظیر بیمه درمان نیز استفاده نمود. سایر روشهای شناسایی تقلب در حوزه دادهکاوی ازجمله سیستم خبره فازی و ماشین بردار پشتیبان میتواند در این زمینه استفاده شود.
مدلهای تقلب، برای مؤثر بودن در کاهش تقلبهای بیمهای(بهویژه در یک بازه زمانی بلندمدت) نیاز به، بروز رسانی مداوم، جهت سازگاری رفتارهای تقلب با الگوهای جدید دارند. در صورت وجود اطلاعات، متغیرهای مستقل دیگری را نیز میتوان به مدل افزود. ازجمله این متغیرها میتوان به زمان تصادف، درونشهری یا برونشهری بودن منطقه تصادف، تعداد مسافران در هنگام حادثه و تعداد سالهایی که از زمان اخذ گواهینامه رانندگی گذشته است، اشاره نمود. استفاده ازنظر خبرگان نیز میتواند به انتخاب شاخصهای مناسب تقلب کمک نماید.