ارزیابی الگوریتم‌های درخت تصمیم، بیز ساده و رگرسیون لجستیک در کشف تقلبات بیمه اتومبیل

گودرزی, آتوسا; جنت بابایی, سجاد

doi:10.22054/irisk.2017.9349

ارزیابی الگوریتم‌های درخت تصمیم، بیز ساده و رگرسیون لجستیک در کشف تقلبات بیمه اتومبیل

نوع مقاله : مقاله پژوهشی

نویسندگان

¹ رئیس موسسه بیمه اکو

² دانش آموخته کارشناسی ارشد علوم محاسبات و برنامه ریزی موسسه آموزش عالی بیمه اکو

10.22054/irisk.2017.9349

چکیده

از منظر علوم اقتصادی و با مراجعه به آمار و اطلاعات، تخلفات مالی در صنعت بیمه به‌صورت فزاینده‌ای در حال تبدیل‌شدن به یک مسئله جدی و قابل تأمل است. یکی از روش‌های مناسب جهت ارزیابی و مدل‌سازی تخلفات و تقلبات، تکنیک‌های داده‌کاوی است که می‌تواند نقش مهمی در کشف و پیش‌بینی تقلبات مالی ایفا نماید. این شیوه برای آشکار نمودن حقایق پنهان در ورای حجم انبوهی از داده‌ها بکار گرفته می‌شود. شرکت‌های بیمه می‌توانند الگوی پنهان در داده‌ها را کشف کرده و با مدل‌سازی و طراحی الگوهای مناسب اقدامات جدی در راستای کاهش تقلبات، مدیریت ریسک‌ها و ایفای تعهدات به عمل‌آورند.
در این مقاله، تکنیک‌های رایج جهت کشف تقلب در بیمه‌های اتومبیل (شامل رگرسیون لجستیک، درخت تصمیم و دسته بندی بیز ساده) مورداستفاده قرار می‌گیرد. ابزارهای داده‌کاوی به‌طور معمول با هدف تعمیم مدل‌های کشف ادعاهای تقلبی و ارائه پیش‌بینی به کار گرفته می‌شوند. متغیرهای توضیحی که در سه مدل این مطالعه مورداستفاده قرار می‌گیرند، عبارت‌اند از: سابقه بیمه‌ای، تعداد ادعاهای خسارت، تأخیر در اعلان خسارت، سن، جنس، کروکی و مبلغ خسارت (شکوری 1390) داده‌های موردنیاز از یکی از شرکت‌های بزرگ بیمه، پس از اخذ مجوزهای لازم، جمع‌آوری شده است. داده‌ها به دو بخش تقسیم شده است. از بخش نخست برای ساخت مدل و از بخش دوم برای دسته‌بندی استفاده شده است. یافته‌های این مطالعه مؤید آن است که مدل رگرسیون لجستیک دقت بیشتری برای پیش‌بینی کل ادعاها(تقلبی و غیر تقلبی) نسبت به دو مدل دیگر، یعنی درخت تصمیم و روش بیز داشته است.

کلیدواژه‌ها

عنوان مقاله [English]

Evaluation of Three Data Mining Algorithms (Decision Tree, Naive Bayes, Logistic Regression) in Auto Insurance Fraud Detection

نویسندگان [English]

Atousa Gopdarzi ¹
Sajad Janatbabaei ²

² ECO

چکیده [English]

From an economic standpoint, financial fraud in the insurance industry is becoming an increasingly serious problem. Nowadays, data mining techniques are commonly used to develop detection models and fraud patterns. Data mining plays an important role in financial fraud detection, helping to uncover hidden facts from among very large quantities of data. Insurance companies can discover hidden patterns in the data and, with the use of well-designed models, make efforts to reduce fraud, manage risks and fulfill their commitments.
In this paper, current techniques for detecting auto insurance fraud (logistic regression, decision tree, Naive Bayes) are used. Data mining techniques are typically used to develop models that can spot patterns in fraudulent claims. The techniques introduced are applied to real data in order to also offer predictions.
Seven explanatory variables have been examined in the three models. These variables are: policy age, number of claims, delay, age, gender, police sketches, amount of loss. After obtaining the necessary permits, the data required was collected from one of Iran's largest insurance companies. The data was then divided into two sections, one to develop models and the other for classification. Research findings showed that the logistic regression model demonstrated greater accuracy compared to the other two models in predicting total claims (fraudulent and non-fraudulent).

کلیدواژه‌ها [English]

Data mining
Fraud
Auto insurance
Decision tree
Naive Bayes
Logistic regression

اصل مقاله

مقدمه

شرکت‌های بیمه در سراسر جهان به‌طور مداوم منابع هنگفتی را در قالب جبران خسارت ادعاهای تقلبی از دست میدهند که در صورت صرف این منابع در فعالیت‌های تخصصی و سرمایه‌گذاری می‌توانستند خدمات مناسب‌تری به مشتریان خود ارائه نمایند. عوامل فروش می‌توانند داده‌کاوی را با اقدامات مربوط به کشف تقلب، ترکیب و دقت عملکرد خود را افزایش دهند که به این طریق نیاز به نیروی انسانی نیز کاهش م

مقدمه

افرادی که مرتکب تقلب می‌شوند، می‌کوشند تا منفعت بیشتری از بیمه‌نامه (فراتر از خسارت واردشده)، دریافت کنند. معمولاً در دو موقعیت ممکن است بیمه‌شده اقدام به تقلب نماید. نخست در شرایطی که یک شخص به‌صورت عمدی تلاش می‌کند تا خسارتی را ایجاد و یا در گزارش میزان وقوع آن اغراق نماید. موقعیت دوم، زمانی است که بیمه‌شده با علم به وجود پوشش بیمه، احتیاط کمتر و یا حتی بی‌احتیاطی می‌کند.

براین‌اساس، می‌توان اهم هزینه‌های وارده ناشی ازاین‌گونه تقلبات را به شرح زیر طبقه‌بندی نمود:

به‌طور میانگین خانواده‌ها حق بیمه بالاتری برای جبران هزینه‌های ناشی از تقلب می‌پردازند.
قیمت کالاها به دلیل پرداخت حق بیمه بیشتر(به سبب هزینه‌های مربوط به تقلب‌های بیمه‌ای)، افزایش می‌یابد.
هزینه‌های بیمه سلامت به دلیل وقوع تقلب در ادعاهای خسارت به‌ویژه در مناطقی که پوشش نامحدود هستند، افزایش پیدا می‌کند.
عموم بیمه‌شده‌ها با دقت بیشتری موردبررسی قرار می‌گیرند و زمان رسیدگی و تسویه مطالبات طولانی می‌شود.
به ازای هر واحد پولی که برای تقلب بیمه‌ای هزینه می‌شود؛ سودآوری شرکت بیمه به‌طور مستقیم متأثر می‌شود.
با استخدام واحدهای بازرسی، هزینه‌های نیروی انسانی شرکت‌های بیمه افزایش می‌یابد.
شرکت‌های بیمه‌ای که به‌طور مؤثر از تقلب جلوگیری به عمل نمی‌آورند، ممکن است ظرفیت‌های رقابت‌پذیری خود را از دست دهند؛ خصوصاً زمانی که نرخ‌ها به دلیل تقلب افزایش یابد.

داده‌کاوی تکنیک‌های مختلفی را برای استخراج اطلاعات از داده‌ها فر اهم می‌کند. لذا، شرکت‌های بیمه برای کشف روندها و مدل‌ها در میان انبوهی از داده‌ها از تکنیک‌های داده‌کاوی استفاده می‌نمایند(رابرت[1] 2010). استفاده از علم داده‌کاوی در حوزه تقلب چه کمکی در کنترل این هزینه‌ها می‌تواند داشته باشد؟ در صورت وجود و جمع‌آوری دادههای تقلبات چگونه می‌توان از آن در کاهش این تخلفات در آتی استفاده نمود؟

در این مقاله پس از مقدمه در بخش ادبیات تحقیق به ساختار کلی تقلب در بازارهای مالی و تحقیقات پیشین در این زمینه پرداخته شده است. در بخش سوم مبانی نظری به کار گرفته‌شده در این تحقیق براساس تکنیک‌های مورداستفاده ارائه شده است. در بخش چهارم پس از معرفی متغیرهای مدل با استفاده از داده‌های اخذشده از یکی از شرکت‌های بزرگ بیمه به کمک نرم‌افزار SPSS Clementine خروجی‌های سه روش آنالیز شده‌اند و نهایتاً در بخش پنجم به ارائه نتیجه‌گیری و پیشنهاد‌ها براساس روش‌های مورداستفاده در مدل پرداخته شده است.

ادبیات تحقیق

در این مقاله تصویری از روش‌های دسته‌بندی برای کاربرد کشف تقلب بیمه‌ای با استفاده از تکنیک‌های داده‌کاوی ارائه می‌شود. این ساختار در شکل 1 انعکاس یافته است(نگای[2] و دیگران 2011).

شکل 1. چارچوب کلی کاربرد داده‌کاوی در کشف تقلبات مالی

تحقیقات متعددی در رشتۀ بیمه اتومبیل در کشورهای مختلف جهان انجام شده حذف و با توجه به تنوع حجم و نوع داده‌ها، روش‌های مختلفی برای کشف تقلبات بیمه معرفی شده است. این روش‌ها می‌توانند در دو طیف با ناظر یا بی ناظر طبقه‌بندی شوند. در روش‌های با ناظر، نمونه‌هایی از موارد تقلبی و غیر تقلبی موجود است. بر این اساس مدلی طراحی می‌شود که قابلیت تشخیص و پیش‌بینی تقلبی بودن یا نبودن نمونه‌های جدید را دارا باشد. این روش برای بررسی تقلباتی کاربرد مییابد که از قبل وجود داشته‌اند. روش‌های بی ناظر به دنبال کشف نمونه‌هایی هستند که کمترین شباهت با نمونه نرمال را نشان دهند.

ویسبرگ و دریگ[3] یک مدل رگرسیون خطی چندگانه را برای انتخاب شاخص های مختلف تقلب طراحی نمودند. بلادجی و دیون[4] نیز مطالعاتی را با استفاده از داده‌های بیمه اتومبیل برای کانادا به انجام رساندند. آرتیس و دیگران[5] از مدل‌های لوجیت چندگانه و مدل‌های لوجیت چندگانه تودرتو برای کشف تقلب بیمه استفاده کردند. فوآ و همکاران[6] با ترکیب الگوریتم‌های شبکه های عصبی پس انتشاری مدل تقلبات بیمه را طراحی و معرفی نمودند. براکت و همکارانش[7] علاوه بر شناسایی خسارت‌های تقلبی و دسته‌بندی آنها از روش تحلیل مؤلفه های اصلی برای انتخاب مهمترین شاخصهای مؤثر بر تقلبات بهره برداری کردند. رخا[8] دسته‌بندی بیز ساده و درخت تصمیم مبتنی بر الگوریتم‌های پیش‌بینی و آنالیز الگوهای تقلب را مورد استفاده قرار داد. وی اجرای مدل‌های متریک که از ماتریس اغتشاش حاصل می شد را مبنای مطالعه خود قرار داد.

مبانی نظری

بیمه اتومبیل در میان رشته های مختلف بیمه‌ای، سهم بالایی در پرتفوی حق بیمه دریافتی و حجم خسارت دارد. از لحاظ رخداد تقلب این رشته بیشتر از سایر رشته ها در معرض وقوع است به طوریکه که عدم توجه به این تقلبات هزینه‌های شرکت بیمه را افزایش و درآمدهای آنها را کاهش می‌دهد و در نهایت سبب افت عملکرد شرکت بیمه می‌شود. بررسی فرایند های تقلب با دریافت گزارش ادعای خسارت آغاز می‌شود و پس از بررسی‌های لازم در صورت نداشن شواهدی مبنی بر ارتکاب تقلب طبق روال عادی برای پرداخت خسارت ارجاع داده می‌شوند. لذا برای بررسی، پرونده‏ها به دو دسته ی جعلی و غیر جعلی تقسیم می‌شوند. دسته‌بندی داده‌های مستخرج از پایگاه های اطلاعاتی یکی از موارد مهم در فرایند آنالیز داده‌ها است که می‌تواند برای استخراج مدل‌ها و کلاس‌بندی داده‌ها مورد استفاده قرار گیرد. این روش، شیوه موثری برای ایجاد درک مناسب از داده‌های انبوه محسوب می‌شود(ویلسون[9] 2005). در طی مراحل انجام فرایند داده‌کاوی سه بخش مهم وجود دارد:

حذف داده‌ها: داده‌های بی ارزش و غیر قابل استفاده حذف می‌شوند.
فشرده کردن داده‌ها: این مرحله با کد گذاری داده‌ها انجام می‌شود.
کشف الگوها: الگوهای موجود در پایگاه داده‌ها از جمله دسته‌بندی و.... کشف می‌شوند.

روش‌های دسته‌بندی می‌تواند براساس مؤلفه ها و معیار های زیر طبقه‌بندی و ارزیابی شود:

دقت: توانایی یک دسته‌بندی مشخص برای پیش‌بینی درست یک داده جدید یا مشاهده نشده ی قبلی، رانشان میدهد.
سرعت: سرعت هزینه‌های محاسباتی در تثبیت و استفاده از دسته‌بندی کننده‏ها یا پیش‌بینی کننده‏ها است.
توانایی: توانایی دسته‏بندی کننده برای ایجاد پیش‌بینی های صحیح با داده‌های اغتشاش یا ازدست‌رفته مشخص را منعکس می‌نماید.
مقیاس‌پذیری: توانایی ایجاد کلاس‌های کارآمد با داده‌های انبوه را نشان می‌دهد.
تفسیرپذیری: سطح مفهوم‌رسانی توسط کلاس‌ها می‌باشد، که یک موضوع ذهنی و کمتر قابل‌دسترسی است(کامینس و تنیسون[10] 1992).

رگرسیون لجستیک

رگرسیون لجستیک یکی از ابزارهای مهم داده‌کاوی است و اغلب در مواقعی کاربرد می‌یابد که متغیر پاسخ دوبخشی (باینری) باشد(اودد و رکاچ[11] 2010). در این روش ضرورت دارد متغیر پاسخ عدد صحیح یا نسبی باشد. در این مقاله متغیر وابسته اسمی بوده و مقدار یک، برای تقلبی بودن یک ادعا و مقدار صفر، برای غیر تقلبی بودن آن منظور شده است. شکل کلی مدل رگرسیون لجستیک در رابطه ذیل ارائه شده است.

که در آن احتمال تقلبی بودن یک ادعاست، _Y=1 به شرط وجود تعدادی از متغیرهای مستقل استد. ضرایبی هستند که باید برآورد شوند. لگاریتم طبیعی این احتمال یا لوجیت _Yبه قرار زیر است:

Logit Y = b₀ + b₁ X₁ +…..b_nX_n

درخت تصمیم

درخت تصمیم یک ابزار پیش‌بینی با استفاده از مشاهدات است که نمایش نموداری از نتایج ممکن را ارائه می‌دهد. درخت تصمیم می‌تواند با الگوریتم‌های مختلف فراگیری ماشین مانند ID3، CARTو C4.5طراحی شود. پیش‌بینی ها به‌وسیله برگ‌ها و شاخه‌ها به صفات موردبررسی متصل می‌شوند. درواقع یک مجموعه از گره‌های تصمیم با شاخه‌ها به هم متصل می‌شوند و از ریشه گره گسترش پیدا می‌کنند تا برگ و گره‌های نهایی ادامه می‌یابد. الگوریتم رده‌بندی و درخت رگرسیونی(CART) برای شرایط باینری کاربرد دارد. برای هر گره تنها دو شاخه وجود دارد. درخت تصمیم حاصل از این الگوریتم، برای هر تصمیم یک کاوش کامل از تمام متغیرهای موجود و انشعاب مقادیر فراهم و براساس معیار زیر با خرد کردن‌های بهینه، انتخاب می‌شود. اگر معیار خوبی این خرد کردن برای متغیر s در گره t باشد:

نقطه بهینه زمانی به‌دست می‌آیند که معیار فوق برای تمام حالت‌های ممکن خرد کردن در گره مشخص، حداکثر شود )لاروس[12] 2005).

بیز ساده

این روش دسته‌بندی برای داده‌های با حجم بالا دارای دقت و سرعت بالایی است. در رده‌بندی بیز ساده فرض بر این است که احتمال رخداد یک صفت روی احتمال سایر صفت‌ها، بی‌تأثیر است. در تئوری بیز استخراج احتمال پسین با استفاده از احتمال پیشین امکان‌پذیر است. اگر θ پارامتریک توزیع نامعلوم باشد و P(θ) احتمال پیشین آن باشد، آنگاه:

در مواقعی که مجموعه‌ای از پیشامدهای θ (جعلی و غیر جعلی) وجود داشته باشد، از فرضیه حداکثر احتمال استفاده خواهیم کرد.

که در آن متغیرهای مستقل است (شکوری 1390).

آنالیز داده‌ها

داده‌های این مقاله از یکی از شرکت‌های بزرگ بیمه اخذ شده که بعد از پالایش و حذف رکوردهای ناقص مشتمل بر800 رکورد گردید. لازم به توضیح است با توجه به حساسیت‌های موجود در ارائه اطلاعات و داده‌های ناقص اخذ رکوردهای بیشتر به‌منظور استفاده در مدل‌ها مقدور نبوده است. ازآنجایی‌که برای مدل‌سازی ترکیب نمودن داده‌های جعلی و غیر جعلی ضروری است، نیمی از موارد یعنی 400 رکورد از لیست سیاه (که در آن احتمال وقوع تقلب تقریباً یک فرض شده است) در نظر گرفته شد. این گروه از پایگاه داده و انفورماتیک شرکت مربوط پس از مذاکره و کسب مجوز استخراج شده است و شامل پرونده‌هایی بوده است که پس از بررسی‌های لازم رأی به تقلبی بودن خسارت اعلامی داده شده است. 400 رکورد دیگر مربوط به بیمه‌نامه‌های عادی است. براساس معیار دقت، این مطالعه درصدد است بهترین مدل را شناسایی نماید.

کل داده‌ها به دو بخش 30 درصد و 70 درصد تقسیم گردید؛ بر این اساس 552 مشاهده مربوط به داده‌های آموزشی[13] و 248 مورد دیگر مربوط به مجموعه داده‌های آزمایشی برای اعتبارسنجی است. شایان ‌ذکر است، داده‌های آموزشی برای ساخت مدل و داده‌های آزمایشی[14] برای اعتبار سنجی یا بررسی دقت مدل مورد استفاده قرار می‌گیرند. داده‌های آزمایشی به‌منزله ناظر به الگوریتم وارد و میزان صحت نتایج را ارزیابی می‌کند. کلیه مراحل در نرم‌افزار Spss Clementine انجام شده است. بر این اساس، هفت متغیر توضیحی به همراه متغیر پاسخ در جدول 1 نشان داده شده است.

نام متغیر	نقش متغیر	نوع متغیر	نام متغیر	نقش متغیر	نوع متغیر
سابقه بیمه‌ای “X₁”	توضیحی	گسسته	مقدار خسارت “X₅”	توضیحی	پیوسته
تعداد ادعای خسارت “X₂”	توضیحی	گسسته	جنس “X₆”	توضیحی	دودویی
تأخیر در اعلان خسارت “X₃”	توضیحی	پیوسته	سن “X₇”	توضیحی	پیوسته
کروکی “X₄”	توضیحی	دودویی	تقلب “Y”	توضیحی	اسمی

جدول 1. متغیرهای مورداستفاده در مدل‌ها

در هر سه روش مورداستفاده در این مقاله، تقلبی بودن یا نبودن یک متغیر وابسته یا پاسخ در نظر گرفته می‌شود. اولین متغیر مستقل سابقه بیمه‌ای است. در این زمینه ازنظر و تجربه کارشناسان خبره استفاده شده است و به این دلیل برگزیده شده است که انتظار میرود احتمال ارتکاب تقلب توسط بیمه‌گذارانی که سابقه بیمه‌ای بالاتری در شرکت بیمه دارند کمتر باشد.

دومین متغیر توضیحی، تعداد ادعاهای خسارت است که بالا بودن این تعداد احتمال تقلبی بودن خسارت را افزایش می‌دهد. متغیر توضیحی بعدی تأخیر در اعلان خسارت است و فرض بر این است که هر چه این دوره طولانی‌تر شود، احتمال تقلب افزایش خواهد یافت. متغیر دیگری که مورد ملاحظه قرارگرفته است، کروکی در صحنه حادثه است. انتظار می‌رود با حضور پلیس در صحنه تصادف، احتمال تقلب تقلیل یابد. مقدار یک برای وجود کروکی و صفر برای عدم وجود آن در نظر گرفته شده است. پنجمین متغیر مستقل، مقدار خسارت است. ازآنجایی‌که شرکت‌های بیمه برای خسارت‌های با مبالغ بالا حساسیت بیشتری نشان می‌دهند؛ به نظر می‌رسد با افزایش این مبلغ احتمال تقلب کاهش می‌یابد. سن راننده در زمان تصادف و جنسیت راننده دو متغیر مستقل دیگری هستند که در این مطالعه در نظر گرفته شده‌اند. با توجه به متغیرهای مستقل اشاره شده، باید خاطرنشان نمود که هدف اصلی این مطالعه کلاس‌بندی و پیش‌بینی متغیر پاسخ براساس متغیرهای توضیحی است.

دسته‌بندی با روش بیز ساده

بعد از برازش مدل با استفاده از این روش، خروجی در جدول 2 تحت عنوان جدول احتمالات شرطی نشان داده شده است.

متغیر پاسخ

سابقه بیمه‌ای

تعداد ادعای خسارت

تأخیر در اعلان خسارت

کروکی

مقدار خسارت

جنس

سن

0.5

0.140

0.650

0.550

0.985

0.98

0.652

0.192

0.988

0.842

0.840

0.210

0.232

0.288

0.338

0.388

0.328

0.008

0.348

0.808

0.1

0.158

0.160

0.170

0.220

0.165

0.012

0.052

0.498

0.005

0.002

0.02

0.240

0.190

0.295

0.01

0.168

0.002

0.008

0.200

0.208

0.112

0.008

0.002

0.180

0.150

Value 1 for ،,value 2 for ،, value 3 for ، , ، .

Value 1 for ،, value 2 for ،,value 3 for ، ,value 4 for ،,value 5 for .

Value 1 for ،,value 2 for ،value 3 for.

value 1 for ،,value 2 for ،,value3 for ، ,value 4 for ،,value for .

ج: جعلی // غ: غیرجعلی

جدول 2. جدول احتمالات شرطی روش بیز ساده

با استفاده از احتمالات جدول فوق، رده‌بندی داده‌های آزمایشی صورت پذیرفته و نتایج در جدول 3 نشان داده شده است.

دقت

پاسخ(پیش‌بینی شده)

غیر جعلی

جعلی

4/98%

123

جعلی

متغیر پاسخ
(مشاهده شده)

7/87%

107

غیر جعلی

92.74%

کل

جدول 3. جدول دقت مدل بیز ساده

همچنان که ملاحظه می‌شود دقت مدل در شناسایی پرونده‌های جعلی 4/98 درصد و برای غیر جعلی 7/87 درصد است، ضمن اینکه دقت مدل برای کل ادعاها اعم از جعلی و غیر جعلی 74/92 درصد می‌باشد. شایان ذکر است، در روش دسته‌بندی، هریک از متغیرها اهمیت متفاوتی در پیش‌بینی متغیر پاسخ دارند. نمودار زیر اهمیت این متغیرها در روش بیز ساده را نشان می‌دهد.

شکل2. نمودار اهمیت متغیرهای مدل بیز ساده

دسته‌بندی با روش درخت تصمیم

با استفاده از داده‌های مربوطه، درخت تصمیم در شکل 3 نشان داده شده است.

شکل 3. درخت تصمیم

براساس نمودار فوق می‌توان یک مشاهده نمونه را کلاس‌بندی نمود(پیش‌بینی متغیر پاسخ آن مشاهده). برای مثال، اگر سابقه بیمه‌ای کمتر از 5/3 سال و مقدار خسارت بیش از 447500 ریال باشد می‌توان گفت متغیر پاسخ صفر یا غیر جعلی میباشد. به همین صورت قوانین دیگری را می‌توان به‌طور مستقیم از نمودار درخت تصمیم استخراج نمود. سرانجام با به‌کارگیری داده‌های آزمایشی، دقت مدل طبق جدول زیر استخراج می‌شود.

دقت

پاسخ(پیش‌بینی شده)

غیر جعلی

جعلی

95.2%

119

جعلی

متغیر پاسخ
(مشاهده شده)

88.61%

109

غیر جعلی

92.74%

کل

جدول 4. جدول دقت مدل درخت تصمیم

دقت مدل برای موارد جعلی و غیر جعلی به ترتیب 2/95 و 61/88 درصد است. ضمن اینکه مدل درخت تصمیم برای کل ادعاها، دقتی معادل 74/92 درصد دارد. اهمیت متغیرها در این روش در قالب نمودار زیر قابل‌ارائه است.

شکل4. نمودار اهمیت متغیرهای مدل درخت تصمیم

دسته‌بندی با روش رگرسیون لجستیک

در این مرحله رگرسیون لجستیک پیشرو با استفاده از داده‌های آموزشی به کار گرفته شده است (متغیرهایی که تأثیر بیشتری داشته‌اند، به ترتیب وارد مدل شده‌اند). پارامترها با استفاده از روش حداکثر درستنمایی تخمین زده شده‌اند. این برآوردها در جدول 5 ارائه شده‌اند.

معنی‌داری

انحراف استاندارد

پارامتر

متغیر

0.000

0/245

0/296

2/881

-274/3

ثابت

گام اول

0.000

0/057

0/210

0/421

0/483

-784/1

3/717

0/921

ثابت

گام دوم

0.000

0/0721

0/249

0/478

0/469

0/587

-951/1

3/876

2/370

-210/0

ثابت

گام سوم

جدول 5. برآورد پارامترهای مدل رگرسیون لجستیک

در هر گام متغیرهای با بالاترین تأثیر، اضافه و مابقی حذف شده‌اند. در ادامه مقیاس‌های معنی‌داری مدل در جدول 6 ارائه می‌شود.

Nagelkerke R-square	Cox & Snell R-square	Likelihood logarithm
648/0	486/0	236/398	گام اول
871/0	653/0	194/180	گام دوم
897/0	672/0	128/149	گام سوم

جدول6. معیار برازش مدل رگرسیون لجستیک

نخستین معیار، احتساب دو برابر لگاریتم تابع درستنمایی است. این معیار، دال بر معنی‌داری ضرایب متغیرهای مستقل میباشد. کاهش این معیار در جدول، نشان‌دهنده بهبود مدل در طی گام‌های پیش رفته می‌باشد. مقادیر مربع R کاکس وسل و مربع R ناجل کرک نیز محاسبه شده است که درصد تغییرات متغیر وابسته مدل را نشان می‌دهد.

مدل فوق برای رده‌بندی ادعاها مورد استفاده قرار می‌گیرد و نتایج آن در قالب جدول 7 نشان داده شده است.

دقت

پاسخ (پیش‌بینی شده)

غیر جعلی

جعلی

96.8%

121

جعلی

متغیر پاسخ
(مشاهده شده)

90.2%

111

غیر جعلی

93.55%

کل

جدول7. دقت مدل رگرسیون لجستیک

ملاحظه می‌شود که مدل رگرسیون لجستیک، دارای دقت 55/93% برای کل ادعاها است که بهتر از پیش‌بینی تصادفی 50% است. لذا با استفاده از سه متغیر مستقل در مدل لجستیک به نحو مناسب‌تری می‌توان به توضیح مدل پرداخت. مقادیر متغیرهای مستقل می‌توانند برای تخمین احتمال متغیر پاسخ، در مدل فوق‌الذکر جایگذاری شوند. برای نمونه، اگر مقادیر متغیرهای x1 و x2 و x4 به ترتیب برابر 4و 3 و1 باشد:

397.0253

بنابراین؛ احتمال جعلی بودن برای ادعای یک شخص برابر 0.99 است. برای مقایسه همان حالت قبلی تنها با این تفاوت که تعداد ادعای خسارت فرد صفر باشد. در این حالت خواهیم داشت:

درنتیجه:

= 0.00349

بنابراین؛ احتمال اینکه ادعای شخص جعلی باشد به 0/00349 کاهش یافته است. چنانچه میانبر50:50(احتمال جعلی و غیرجعلی هردو ) برای حالت دوم در نظرگرفته شود؛ ضرورتی برای پیگیری‌های بیشتر توسط واحد بازرسی وجود ندارد؛ زیرا طبق جدول احتمالات؛ احتمال جعلی بودن صفر است.

اهمیت متغیرها برای مدل رگرسیون لجستیک در نمودار زیر نشان داده شده است.

شکل 5. نمودار اهمیت متغیرهای مدل رگرسیون لجستیک

نتایج و پیشنهاد‌ها

داده‌کاوی و روش‌های مختلف آن به‌منزله علمی در حال رشد می‌تواند کاربرد وسیعی در صنعت بیمه داشته باشد؛ به‌نحوی‌که استخراج نتایج کاربردی و مدل‌سازی از انبوه داده‌ها خود زمینه‌ای رو به رشد در مدیریت هر چه بیشتر ریسک‌های یک شرکت بیمه است. اعمال سه تکنیک داده‌کاوی بر روی داده‌های واقعی و ارزیابی نتایج آن‌ها مؤید آن است که رگرسیون لجستیک(نسبت به سایر روش‌ها) از دقت بیشتری برخوردار است. از طرف دیگر، از میان متغیرهای مستقل سابقه بیمه‌ای، تعداد ادعاهای خسارت و داشتن کروکی(نسبت به سایر متغیرها) از اهمیت بالاتری برخوردار هستند. یافته‌های این مطالعه تأیید نمود که بیشتر تقلب‌های بیمه اتومبیل در افراد میان‌سال رخ می‌دهد و با افزایش میزان خسارت، احتمال جعلی بودن کاهش می‌یابد.

در روش‌های درخت تصمیم، رگرسیون لجستیک و بیز ساده به ترتیب چهار، سه و هفت متغیر به کار گرفته شده‌اند. همان‌طور ملاحظه گردید در هر سه مدل متغیرهای سابقه بیمه‌ای، تعداد ادعاهای خسارت و وجود یا عدم وجود کروکی برای صحنه حادثه از اهمیت بالایی برخوردار می‌باشند. شایان‌ذکر است که روش رگرسیون لجستیک به محاسبات کمتری نسبت به سایر روش‌ها نیاز دارد. این در حالی است که در مواقعی که سرعت تصمیم‌گیری اهمیت دارد، روش درخت تصمیم دید شماتیک مناسب‌تری را به‌دست می‌دهد. روش بیز نیز زمانی که احتمال رخداد یک شاخص وابسته به ‌احتمال رخداد سایر متغیرها وابسته نیست، می‌تواند از دقت خوبی برخوردار باشد. از بررسی‌های صورت گرفته برای کشف تقلب این شاخه از صنعت بیمه می‌توان برای مدل‌سازی و کشف تقلبات سایر رشته‌ها نظیر بیمه درمان نیز استفاده نمود. سایر روش‌های شناسایی تقلب در حوزه داده‌کاوی ازجمله سیستم خبره فازی و ماشین بردار پشتیبان می‌تواند در این زمینه استفاده شود.

مدل‌های تقلب، برای مؤثر بودن در کاهش تقلب‌های بیمه‌ای(به‌ویژه در یک بازه زمانی بلندمدت) نیاز به، بروز رسانی مداوم، جهت سازگاری رفتارهای تقلب با الگوهای جدید دارند. در صورت وجود اطلاعات، متغیرهای مستقل دیگری را نیز می‌توان به مدل افزود. ازجمله این متغیرها می‌توان به زمان تصادف، درون‌شهری یا برون‌شهری بودن منطقه تصادف، تعداد مسافران در هنگام حادثه و تعداد سال‌هایی که از زمان اخذ گواهینامه رانندگی گذشته است، اشاره نمود. استفاده ازنظر خبرگان نیز می‌تواند به انتخاب شاخص‌های مناسب تقلب کمک نماید.

[1]. Robert

[2]. Ngai et al

[3]. Weisberg & Derrig

[4]. Belhadji & Dionne

[5]. Artis et al

[6]. Phua et al

[7]. Brockett et al

[8]. Rekha et al

[9]. Wilson

[10]. Cummins & Tennyson

[11]. Oded & Rokach

[12]. Larose

[13].Training

[14].Testing

ی‌یابد. نتیجه این اقدامات درنهایت می‌تواند به کمینه نمودن خسارات منجر شود.

براین‌اساس، می‌توان اهم هزینه‌های وارده ناشی ازاین‌گونه تقلبات را به شرح زیر طبقه‌بندی نمود:

به‌طور میانگین خانواده‌ها حق بیمه بالاتری برای جبران هزینه‌های ناشی از تقلب می‌پردازند.
قیمت کالاها به دلیل پرداخت حق بیمه بیشتر(به سبب هزینه‌های مربوط به تقلب‌های بیمه‌ای)، افزایش می‌یابد.
هزینه‌های بیمه سلامت به دلیل وقوع تقلب در ادعاهای خسارت به‌ویژه در مناطقی که پوشش نامحدود هستند، افزایش پیدا می‌کند.
عموم بیمه‌شده‌ها با دقت بیشتری موردبررسی قرار می‌گیرند و زمان رسیدگی و تسویه مطالبات طولانی می‌شود.
به ازای هر واحد پولی که برای تقلب بیمه‌ای هزینه می‌شود؛ سودآوری شرکت بیمه به‌طور مستقیم متأثر می‌شود.
با استخدام واحدهای بازرسی، هزینه‌های نیروی انسانی شرکت‌های بیمه افزایش می‌یابد.
شرکت‌های بیمه‌ای که به‌طور مؤثر از تقلب جلوگیری به عمل نمی‌آورند، ممکن است ظرفیت‌های رقابت‌پذیری خود را از دست دهند؛ خصوصاً زمانی که نرخ‌ها به دلیل تقلب افزایش یابد.

ادبیات تحقیق

شکل 1. چارچوب کلی کاربرد داده‌کاوی در کشف تقلبات مالی

مبانی نظری

حذف داده‌ها: داده‌های بی ارزش و غیر قابل استفاده حذف می‌شوند.
فشرده کردن داده‌ها: این مرحله با کد گذاری داده‌ها انجام می‌شود.
کشف الگوها: الگوهای موجود در پایگاه داده‌ها از جمله دسته‌بندی و.... کشف می‌شوند.

روش‌های دسته‌بندی می‌تواند براساس مؤلفه ها و معیار های زیر طبقه‌بندی و ارزیابی شود:

دقت: توانایی یک دسته‌بندی مشخص برای پیش‌بینی درست یک داده جدید یا مشاهده نشده ی قبلی، رانشان میدهد.
سرعت: سرعت هزینه‌های محاسباتی در تثبیت و استفاده از دسته‌بندی کننده‏ها یا پیش‌بینی کننده‏ها است.
توانایی: توانایی دسته‏بندی کننده برای ایجاد پیش‌بینی های صحیح با داده‌های اغتشاش یا ازدست‌رفته مشخص را منعکس می‌نماید.
مقیاس‌پذیری: توانایی ایجاد کلاس‌های کارآمد با داده‌های انبوه را نشان می‌دهد.
تفسیرپذیری: سطح مفهوم‌رسانی توسط کلاس‌ها می‌باشد، که یک موضوع ذهنی و کمتر قابل‌دسترسی است(کامینس و تنیسون[10] 1992).

رگرسیون لجستیک

Logit Y = b₀ + b₁ X₁ +…..b_nX_n

درخت تصمیم

بیز ساده

که در آن متغیرهای مستقل است (شکوری 1390).

آنالیز داده‌ها

نام متغیر	نقش متغیر	نوع متغیر	نام متغیر	نقش متغیر	نوع متغیر
سابقه بیمه‌ای “X₁”	توضیحی	گسسته	مقدار خسارت “X₅”	توضیحی	پیوسته
تعداد ادعای خسارت “X₂”	توضیحی	گسسته	جنس “X₆”	توضیحی	دودویی
تأخیر در اعلان خسارت “X₃”	توضیحی	پیوسته	سن “X₇”	توضیحی	پیوسته
کروکی “X₄”	توضیحی	دودویی	تقلب “Y”	توضیحی	اسمی

جدول 1. متغیرهای مورداستفاده در مدل‌ها

دسته‌بندی با روش بیز ساده

بعد از برازش مدل با استفاده از این روش، خروجی در جدول 2 تحت عنوان جدول احتمالات شرطی نشان داده شده است.

متغیر پاسخ

سابقه بیمه‌ای

تعداد ادعای خسارت

تأخیر در اعلان خسارت

کروکی

مقدار خسارت

جنس

سن

0.5

0.140

0.650

0.550

0.985

0.98

0.652

0.192

0.988

0.842

0.840

0.210

0.232

0.288

0.338

0.388

0.328

0.008

0.348

0.808

0.1

0.158

0.160

0.170

0.220

0.165

0.012

0.052

0.498

0.005

0.002

0.02

0.240

0.190

0.295

0.01

0.168

0.002

0.008

0.200

0.208

0.112

0.008

0.002

0.180

0.150

Value 1 for ،,value 2 for ،, value 3 for ، , ، .

Value 1 for ،, value 2 for ،,value 3 for ، ,value 4 for ،,value 5 for .

Value 1 for ،,value 2 for ،value 3 for.

value 1 for ،,value 2 for ،,value3 for ، ,value 4 for ،,value for .

ج: جعلی // غ: غیرجعلی

جدول 2. جدول احتمالات شرطی روش بیز ساده

با استفاده از احتمالات جدول فوق، رده‌بندی داده‌های آزمایشی صورت پذیرفته و نتایج در جدول 3 نشان داده شده است.

دقت

پاسخ(پیش‌بینی شده)

غیر جعلی

جعلی

4/98%

123

جعلی

متغیر پاسخ
(مشاهده شده)

7/87%

107

غیر جعلی

92.74%

کل

جدول 3. جدول دقت مدل بیز ساده

شکل2. نمودار اهمیت متغیرهای مدل بیز ساده

دسته‌بندی با روش درخت تصمیم

با استفاده از داده‌های مربوطه، درخت تصمیم در شکل 3 نشان داده شده است.

شکل 3. درخت تصمیم

دقت

پاسخ(پیش‌بینی شده)

غیر جعلی

جعلی

95.2%

119

جعلی

متغیر پاسخ
(مشاهده شده)

88.61%

109

غیر جعلی

92.74%

کل

جدول 4. جدول دقت مدل درخت تصمیم

شکل4. نمودار اهمیت متغیرهای مدل درخت تصمیم

دسته‌بندی با روش رگرسیون لجستیک

معنی‌داری

انحراف استاندارد

پارامتر

متغیر

0.000

0/245

0/296

2/881

-274/3

ثابت

گام اول

0.000

0/057

0/210

0/421

0/483

-784/1

3/717

0/921

ثابت

گام دوم

0.000

0/0721

0/249

0/478

0/469

0/587

-951/1

3/876

2/370

-210/0

ثابت

گام سوم

جدول 5. برآورد پارامترهای مدل رگرسیون لجستیک

Nagelkerke R-square	Cox & Snell R-square	Likelihood logarithm
648/0	486/0	236/398	گام اول
871/0	653/0	194/180	گام دوم
897/0	672/0	128/149	گام سوم

جدول6. معیار برازش مدل رگرسیون لجستیک

مدل فوق برای رده‌بندی ادعاها مورد استفاده قرار می‌گیرد و نتایج آن در قالب جدول 7 نشان داده شده است.

دقت

پاسخ (پیش‌بینی شده)

غیر جعلی

جعلی

96.8%

121

جعلی

متغیر پاسخ
(مشاهده شده)

90.2%

111

غیر جعلی

93.55%

کل

جدول7. دقت مدل رگرسیون لجستیک

397.0253

درنتیجه:

= 0.00349

اهمیت متغیرها برای مدل رگرسیون لجستیک در نمودار زیر نشان داده شده است.

شکل 5. نمودار اهمیت متغیرهای مدل رگرسیون لجستیک

نتایج و پیشنهاد‌ها

[1]. Robert

[2]. Ngai et al

[3]. Weisberg & Derrig

[4]. Belhadji & Dionne

[5]. Artis et al

[6]. Phua et al

[7]. Brockett et al

[8]. Rekha et al

[9]. Wilson

[10]. Cummins & Tennyson

[11]. Oded & Rokach

[12]. Larose

[13].Training

[14].Testing

مراجع

منابع

شکوری، مرتضی و همکاران. 1390 . شناسایی تقلب در بیمه اتومبیل با استفاده از داده‌کاوی.، پژوهشنامه بیمه، شماره 3، صفحه 103-128.

Artis, M., Ayuso, M. and Guillen, M.( 2002)," Detection of automobile insurance fraud with discrete choice models and misclassified claims", Journal of Risk and Insurance, 325-340.

Belhadji, D. B and Dionne, G. (1997). Development of an expert system for the automatic detection of automobile insurance fraud, Risk Management Chair, HEC-Montreal

Bhowmik. Rekha. (2011) Detecting Auto Insurance Fraud by Data Mining Techniques, Journal of Emerging Trends in Computing and Information Sciences.156-162.

Brockett, P.L., Xia, X and Derrig, R. A. (1998). Using kohonen's self-organizing feature map to uncover automobile bodily injury claims fraud, The Journal of Risk and Insurance, 245-74.

Cummins, J. D and Tennyson, S. (1992). Controlling automobile insurance costs, Journal of Economic Perspectives, 95-115.

E.W.T.Ngai, Yong Hu, Y.H,Wong, Yijunchen, xin sun; The application of data mining techniques in financial fraud detection: A classification framework and academic review of literature, decision support system 50(2011). 559 -569

Holton Wilson.J.(2005).An Analytical Approach to Detecting Insurance Fraud Using Logistic Regression, Journal of Finance and Accountancy.

Larose D.T (2005). Discovering Knowledge InData, Central Connecticut university, Canada, Wiley publication

Oded, M and Rokach, L. (2010). Data Mining and Knowledge Discovery Handbook. Prof, Springer New York Dordrecht Heidelberg London, DOI 10.1007/978-0-387-09823-4.

Phua, C., Alahakoon, D. and Lee, V. (2004). Minority report in fraud detection: classification of skewed data, Sigkdd Explorations, vol. 6, no. 1, 50-9.

Roberts, T. (2010). Improving the Defense Lines: The Future of Fraud Detection in the Insurance Industry (with Fraud Risk Models, Text Mining, and Social Networks), SAS Global forum, Insurance.

Subelj, L., Furlan, S.,Bajec, M. (2011). An expert system for detecting automobile insurance fraud using social network analysis, Expert Systems with Applications 38 ,1039–1052.

Weisberg, H. I and Derrig, R. A. (1993), Quantitative methods for detecting fraudulent automobile bodily insurance claims, AIB Cost Containment/Fraud Filing, 49-82.

دوره 1، شماره 2 - شماره پیاپی 2
اسفند 1395
صفحه 61-80

فایل ها

XML
اصل مقاله 1.05 M
فایل‌های تکمیلی/اضافی
abstract 3.pdf

سابقه مقاله

تاریخ دریافت: 21 مهر 1395
تاریخ بازنگری: 21 آبان 1395
تاریخ پذیرش: 21 دی 1395

تعداد مشاهده مقاله: 4,353
تعداد دریافت فایل اصل مقاله: 1,564

ارزیابی الگوریتم‌های درخت تصمیم، بیز ساده و رگرسیون لجستیک در کشف تقلبات بیمه اتومبیل

Evaluation of Three Data Mining Algorithms (Decision Tree, Naive Bayes, Logistic Regression) in Auto Insurance Fraud Detection

اصل مقاله

مقدمه

مقدمه

ادبیات تحقیق

شکل 1. چارچوب کلی کاربرد داده‌کاوی در کشف تقلبات مالی

مبانی نظری

رگرسیون لجستیک

درخت تصمیم

بیز ساده

آنالیز داده‌ها

جدول 1. متغیرهای مورداستفاده در مدل‌ها

دسته‌بندی با روش بیز ساده

جدول 2. جدول احتمالات شرطی روش بیز ساده

جدول 3. جدول دقت مدل بیز ساده

شکل2. نمودار اهمیت متغیرهای مدل بیز ساده

دسته‌بندی با روش درخت تصمیم

شکل 3. درخت تصمیم

جدول 4. جدول دقت مدل درخت تصمیم

شکل4. نمودار اهمیت متغیرهای مدل درخت تصمیم

دسته‌بندی با روش رگرسیون لجستیک

جدول 5. برآورد پارامترهای مدل رگرسیون لجستیک

جدول6. معیار برازش مدل رگرسیون لجستیک

جدول7. دقت مدل رگرسیون لجستیک

شکل 5. نمودار اهمیت متغیرهای مدل رگرسیون لجستیک

نتایج و پیشنهاد‌ها

ادبیات تحقیق

شکل 1. چارچوب کلی کاربرد داده‌کاوی در کشف تقلبات مالی

مبانی نظری

رگرسیون لجستیک

درخت تصمیم

بیز ساده

آنالیز داده‌ها

جدول 1. متغیرهای مورداستفاده در مدل‌ها

دسته‌بندی با روش بیز ساده

جدول 2. جدول احتمالات شرطی روش بیز ساده

جدول 3. جدول دقت مدل بیز ساده

شکل2. نمودار اهمیت متغیرهای مدل بیز ساده

دسته‌بندی با روش درخت تصمیم

شکل 3. درخت تصمیم

جدول 4. جدول دقت مدل درخت تصمیم

شکل4. نمودار اهمیت متغیرهای مدل درخت تصمیم

دسته‌بندی با روش رگرسیون لجستیک

جدول 5. برآورد پارامترهای مدل رگرسیون لجستیک

جدول6. معیار برازش مدل رگرسیون لجستیک

جدول7. دقت مدل رگرسیون لجستیک

شکل 5. نمودار اهمیت متغیرهای مدل رگرسیون لجستیک

نتایج و پیشنهاد‌ها

مراجع

منابع

دوره 1، شماره 2 - شماره پیاپی 2اسفند 1395صفحه 61-80

فایل ها

سابقه مقاله

هم رسانی

ارجاع به این مقاله

آمار

دوره 1، شماره 2 - شماره پیاپی 2
اسفند 1395
صفحه 61-80