C om p u t e r  S c ie n c e  an d  I n f or m at io n  T e c h n ol ogi e s   V ol 6 , N o.  3 N ove m be r   20 25 , pp.  245 ~ 252   I S S N 2722 - 3221 D O I 10.11591/cs it . v 6 i 3 . pp 245 - 252           245     Jou r n al  h om e page ht tp : // ia e s pr ime .c om /i nde x .php/c s it   A  d u al - m o d e l  m ac h i n e  l e ar n i n g ap p r oac h  t o m e d i c ar e  f r au d   d e t e c t i on :   c om b i n i n g u n su p e r vi se d  an om al d e t e c t i on  w i t h   su p e r vi se d  l e ar n i n g       Je s u  M ar c u s   I m m an u ve A r oc k ia s a m y, G ow r i s h an k ar  B h oop at h i   L e a di ng H e a l t hc a r e  C om pa ny,  R i c hm ond, V i r gi ni a       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e A pr   3 2025   R e vi s e M a y   27 2025   A c c e pt e J un   13 2025       Medicare  fraud,  costing  $54.35  billion  in  imprope payments  in   2024,  undermines  U.S.  healthcare  by  draining  resources   meant  for  vul nerable  populations.  Traditional  detection  methods  struggle   with  reactive  d esigns,  high  false  positives,  and  reliance  on  scarce  labeled  data,  exacerbated  by  0.017%  fraud  prevalence.  This  paper  proposes  a   dual - model  m achine  learning  framewo rk  to  tackle   these  challenge s.   Unsupervise an omaly  detection  uses  cluster - based  local  outlier  factor  ( CBLOF )   and  empirical   cumulati ve  outli er  detection   ( ECOD )   to  identify   novel  fraud   patterns  across  37  million  records.  These   findings  are   validated  by   the  list   of  ex cluded  individuals/entitie ( LEIE ) Supervised  classification,  with  C4.5  d ecision  trees  and  logistic  regression refines  these  anomalies  using  an   80:20  balanced  dataset,  reducing  false  positives  by  63%.  Key  innovations  include  hybrid  sampling  to  address  class  imbalance,  LEIE  integration  for  l abeled  validation,  and  parallelized  processing  of  2.1  million  claims  hourly.  Achieving  an  are under  the  curve  ( AUC ) measure   of  model  accur acy,  of  88.3%,  this  approach  outperforms  single - model  systems  by  24%,  bl ending  explorato ry  detection   with  actionabl precision This  scalable,  interp retable  framework  potential ly  advances  fraud   detection,  safeguarding   public   funds  and  Medicare’s  integrity  with  a   practical,  adaptable   solution  for  ev olving  threats.     K e y w o r d s :   A r ti f ic ia in te ll ig e nc e   C lu s te r - ba s e d l oc a out li e r   f a c to r   E m pi r ic a c um ul a ti ve  out li e r   de te c ti on   M a c hi ne  l e a r ni ng   M e di c a r e  f r a ud   U ns upe r vi s e d l e a r ni ng   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   J e s M a r c us  I m m a nuve A r oc ki a s a m y   L e a di ng  H e a lt hc a r e  C om pa ny   R ic hm ond, Vir gi ni a , U ni te d S ta te s  of  A m e r ic a   E m a il je s um a r c us @ gm a il .c om       1.   I N T R O D U C T I O N   M e di c a r e   f r a ud,  c os ti ng  $54.35  bi ll io n   in   i m pr ope r   pa ym e nt s   in   2024  [ 1 ] unde r m in e s   U .S .   he a lt hc a r e   by  dr a in in r e s our c e s   f or   vul ne r a bl e   popula ti ons T r a di ti ona f r a ud  de te c ti on  s ys te m s r e ly in on   r ul e - ba s e a udi ts   or   s upe r vi s e d   m a c hi ne   le a r ni ng,  f a c e   c r it ic a li m it a ti ons B r e nna [ 2]   hi ghl ig ht e th e   c la s s   im ba la nc e  c r is is , w it h f r a udul e nt  c a s e s  c om pr is in g only 0.017%  of  c la im s , l e a di ng t o hi gh f a ls e  ne ga ti ve  r a te s   ( ove r   40% )   in   s upe r vi s e m ode ls S ta ti s ti c a m e th ods a s   not e d   by  B ol to a nd  H a nd  [ 3] s tr uggl e   to   a da pt   to   e vol vi ng f r a ud pa tt e r ns , m is s in g nove s c h e m e s   R e c e nt   uns up e r vi s e a ppr oa c h e s s uc a s   G r e s oi   e al [ 4] la c la be le va li da ti on,  r e s ul ti ng  in   hi gh  f a ls e   pos it iv e s   [ 5] w hi le   s c a la bi li ty   is s ue s   hi nde r   pr oc e s s in g   la r ge   da ta s e ts   li ke   th e   37  m il li on  M e di c a r e   c la im s   [ 6] O ur   dua l - m ode l   f r a m e w or a ddr e s s e s   th e s e   ga ps   b in te gr a ti ng  uns upe r vi s e a nom a ly   de te c ti on  ( c lu s te r - ba s e lo c a out li e r   f a c to r   ( C B L O F )   a nd  e m pi r ic a c um ul a ti ve   out li e r   de te c ti on  ( E C O D ) )   w it h   s upe r vi s e c la s s if ic a ti on  ( C 4.5  de c is io tr e e s   a nd  lo gi s ti c   r e gr e s s io n ) le ve r a gi ng  li s of   e xc lu d e Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2722 - 3221   C om put  S c I nf  T e c hnol V ol 6 , N o.  3 N ove m be r   20 25 :   245 - 252   246   in di vi dua ls /e nt it ie s   ( L E I E )   va li da ti on  [ 7]   a nd  hyb r id   s a m pl in to   m it ig a te   c la s s   im ba la nc e T hi s   a ppr oa c r e duc e s   f a ls e   pos it iv e s   by  63%   a nd  pr oc e s s e s   2.1  m il li on  c la im s   hour ly of f e r in a   s c a la bl e in te r pr e ta bl e   s ol ut io n f or  r e a l - w or ld  de pl oym e nt .       L im it at io n s  of  t r ad it io n al  d e t e c t io n  m e t h od s   T r a di ti ona f r a ud  de te c ti on  s ys te m s   a r e   w id e ly   us e but   ha ve   th e ir   li m it a ti ons T he r e ly   on  r ul e - ba s e d a udi ts  or  s up e r vi s e d m a c hi ne  l e a r ni ng, whic h c a n l e a d t o t hr e e  c r it ic a f la w s :     R e a c ti ve   de s ig n:  r e a c ti ve   de s ig n f oc us e s  on known f r a ud pa tt e r ns  but  m is s e s  ne w  s c he m e s .     H ig f a ls e  pos it iv e s ove r   70%  of  f la gge d c la im s  a r e  l e gi ti m a te ,  w a s ti ng i nve s ti ga ti ve  r e s our c e s .     L a be de pe nde nc y:  s upe r vi s e m a c hi ne  l e a r ni ng r e qui r e s  c os tl y , s c a r c e  l a be ll e d d a ta .   W hi le  r e c e nt  s tu di e s  de m ons tr a te  m a c hi n e  l e a r ni ng pote nt ia us in g M e di c a r e  c la im s  da ta , t he y f a c e  a   f unda m e nt a ba r r ie r e xt r e m e   c la s s   im ba la nc e ,   w he r e   f r a ud  c a s e s   c om pr is e   a   m e r e   0.017%   of   r e c or ds T hi s   ti lt   f or c e s   th e   m ode ls   to w a r ds   th e   m a jo r it c la s s yi e ld in hi gh  f a ls e   ne ga ti ve s   a nd  r e nde r in m a ny  s y s te m s   ope r a ti ona ll y i m pr a c ti c a l.     A  d u al - m od e m ac h in e  l e ar n in g ap p r oac h   T hi s   pa p e r   in tr oduc e s   a n   in nova ti ve   dua l - m ode m a c hi ne - le a r ni ng  f r a m e w or th a a ddr e s s e s   th e s e   c ha ll e nge s :   i)   U ns upe r vi s e d l e a r ni ng f or  nove pa tt e r n di s c ove r y     M ode ls C B L O F   a nd  E C O D   a lg or it hm s .     I nput m e di c a r e   pr ovi de r  ut il iz a ti on a nd pa ym e nt  da ta   ( 37M +  r e c or ds )   [ 6] .     R ol e c a s a   w id e  ne to  de te c a nom a li e s  a c r o s s  50+  f e a tu r e s  ( e . g., c ha r ge  r a ti os , s e r vi c e  v e lo c it y) .     V a li da ti on:  P s e udo - la be ls  f r om  t he  L E I E .   ii)   S upe r vi s e d l e a r ni ng f or  hi gh - c onf ir m a ti on c la s s if ic a ti on     M ode ls C 4.5  de c is io n t r e e s   a nd l ogi s ti c  r e gr e s s io n .     I nput t op a nom a li e s  f la gge d by uns upe r vi s e d m ode l s  a nd L E I E  [ 7] .     R ol e r e f in e  pr e di c ti ons  us in g unde r  s a m pl e d, b a la nc e d da t a  ( 80: 20 non - f r a ud:  f r a ud) .     O ut c om e r e duc e  f a ls e  po s it iv e s  by 63%  c om pa r e d t o pur e  uns u pe r vi s e d m e th ods .   I s um m a r y,   t he   d ua m ode a pp r oa c pr e s e nt e he r e   n ot   on l de te c ts   m or e   f r a ud ul e nt   M e d ic a r e   c la i m s   b ut   br in gs   ne w   t e c hn iq ue s   f o r   d yna m i c   t hr e s ho ld in g   a nd  ne tw or k - ba s e f e a t ur e   e n gi ne e r in g.  T he s e   a r e   to   o ve r c o m e   th e   e x is t in m e t ho ds   a nd   t h a ve   a   m o r e   a da p ti ve   a nd   a c c ur a te   to ol   t pr ot e c t   pu bl ic   m one y a nd  M e d ic a r e .       2.   L I T E R A T U R E   R E V I E W A N D  T H E O R E T I C A L  F O U N D A T I O N   2.1.  Gap s  i n   e xi s t in g r e s e ar c h   T he r e   a r e   t w m a in   li m i ta ti o ns   to   m a c hi n e   l e a r ni ng ' s   a pp li c a ti on  to   p r o vi de r   u ti li z a ti on   a n d   pa ym e n da ta O ne   is   t he   c la s s   i m ba la n c e   c r is is ”.   F r a ud ul e nt   c a s e s   m a ke   up   j us t   0. 01 7%   o f   M e di c a r e   r e c o r ds T ha m e a ns   tr a di ti ona m ode ls   t r a in e o t hi s   s k e w e da t a   te nd  to   be   b ia s e to w a r t he   m a jo r it y   c la s s   [ 4 ] A s   a   r e s u lt t he p r od uc e   una c c e pt a b ly   hi g f a ls e   ne ga ti ve   r a te s   ( ove r   4 0 % ) T h is   is s ue   m a ke s   m a ny   s ys te m s   ope r a ti o na l ly   in e f f e c t iv e :   th e y   e i th e r   f a i to   f l a ge n ui n e   f r a u or   o ve r w he lm   in v e s t ig a to r s   w it f a ls e  a le r ts .   A not he r   li m it a ti on  is   th e   ove r r e li a nc e   on  la be le da ta S upe r vi s e m a c hi ne   le a r ni ng  a ppr oa c h e s   de pe nd on c os tl y, ha r d - to - c om e - by da ta s e ts  w it h f r a ud l a be ls   [ 8 ]   ( M e di c a r e  c la im s  f r a udul e nt  pa ym e nt  da ta  i s   not   publ ic ly   a va il a bl e   or   a c c ur a te ly   de r iv a bl e   f r om   e xi s ti ng  c ont e nt   m a na ge m e nt   s ys te m   ( C M S )   da ta s e ts ) U ns upe r vi s e m e th od s   la c k   th e   to ol s   to   va li da te  a nom a li e s  a ga i ns r e a l - w or ld   f r a ud  in di c a to r s   [ 2] .   T hi s   p a pe r   a ddr e s s e s   th e s e   ga p s   th r ough  th r e e   ke in nova ti ons T he s e   in nova ti ons   pa ve   th e   w a f or   a   de ta il e d   m e th odol ogy c om bi ni ng pr a c ti c a a lg or it hm s  a nd da ta  i nt e gr a ti on, outl in e d ne xt .     2.2 .  K e y i n n ovat io n s   F ir s s te is   to   de ve lo a   hybr id   s a m pl in s tr a te gy  [ 9 ]   to   m it i ga te   c la s s   im ba la nc e T hi s   a ppr oa c c om bi ne s   r a ndom  unde r   s a m pl in ( r e ta in in 100%   of   f r a ud  c a s e s   w hi le   r e duc in non - f r a ud  s a m pl e s   to   a n   80: 20  r a ti o)   w it c os t - s e ns it iv e   le a r ni ng  [ 10]   ( pe na li z in m i s c la s s if ie f r a ud  c a s e s   f iv e   ti m e s   m or e   th a   non - f r a ud  dur in tr a in in g) T hi s   m e th od  a li gns   w it th e   w e ig ht e lo s s   f r a m e w or in   im ba la nc e le a r ni ng  by  m in im iz in g r is k ( R ) :     = ( ( , ̂ ) + ( 1 ) ) ( ( , ̂ ) )                   Evaluation Warning : The document was created with Spire.PDF for Python.
C om put  S c I nf  T e c hnol     I S S N :   2722 - 3221       A  dual - m ode m ac hi ne  l e ar ni ng appr oac h t o m e di c a r e  f r aud  …  ( J e s u M ar c us  I m m anu v e A r oc k ia s a m y )   247   W he r e   w e ig ht   α   = 0.8  pr io r it iz e s   f r a ud  r e c a ll w e   c a n   r e duc e   th e   r is of   f a l s e   n e ga ti ve s   w it th is   f unc ti on    (y r e pr e s e nt s  t r ue  l a be a nd ŷ i   r e pr e s e nt s  pr e di c te d l a be in  l os s   f unc ti ons  ( L ) ) .   S e c ond, we  i nt e gr a te  M e di c a r e  c la im s  w it h t he   L E I E  us in na ti ona pr ovi de r  i de nt i f ie r s   ( N P I s ) . T hi s   m e r ge da ta s e t   c r e a te s   a   la b e le be n c hm a r f or   va li da ti on.  T hi s   s te i s   a   f or m   of   s e m i - s upe r vi s e le a r ni ng  w he r e  L E I E  l a be ls  a c a s   a nc hor s   to  gui de  uns upe r vi s e a no m a ly  de te c ti on.   T hi r d,  w e   u s e   p a r a ll e li z e ba t c pr oc e s s in a c r os s   G P U   c lu s te r s   to   e na bl e   r e a l - ti m e   a na ly s is   of   2.1  m il li on  c la im s   pe r   hour T hi s   ba tc pr oc e s s in a ppl ie s   M a p R e duc e   pr in c ip le s   [ 11]   to   di s tr ib ut e   a nom a ly   s c or in g t a s ks . I r e duc e s  r unt im e  c om pl e xi ty  f r om  O ( n²)  t o O ( lo g n) .     2.3 .     Wh y t h is  ap p r oac h  m at t e r s   A   dua l - m ode a r c hi te c tu r e   c a a c hi e v e   out c om e s   th a a   s in gl e - m ode a r c hi te c tu r e   c a nnot T hi s   hybr id   f r a m e w or br id ge s   th e   ga be twe e e xpl or a to r da ta   a na ly s is   a nd  a c ti ona bl e   in te ll ig e nc e I a ddr e s s e s   a   c or e   c ha ll e nge   in   f r a ud  de te c ti on:   th e   te ns io be twe e di s c ove r in ne w   f r a ud  pa tt e r ns   a nd  m in im iz in g   in ve s ti ga ti ve  ove r he a d.     U ns upe r vi s e d c om pone nt s  de te c e m e r gi ng f r a ud pa tt e r ns  ( e .g., C O V I D - 19 bil li ng s pi ke s ) .     S upe r vi s e m ode ls   va li da te   f in di ngs   w it 88.3%   a r e a   unde r   th e   c ur ve   ( AUC )   a c c ur a c y,  pr io r it iz in g   c a s e s  f or  f ur th e r  a udi ts     2.4 .     T h e or e t ic al  c on t r ib u t io n s   O ur  t he or e ti c a c ont r ib ut io ns  i nc lu de :     A   f r a ud  s ig na tu r e   hypothe s i s   [ 6]   s how in e ngi ne e r e f e a tu r e s   li ke   c ha r ge   r a ti a nd  s e r vi c e   ve lo c it y   e nc ode s  uni ve r s a f r a ud pa tt e r ns  i nva r ia nt  t o pr ovi de r  s pe c ia lt y.     A nom a ly - a w a r e   s upe r vi s e le a r ni ng  [ 12]   in t r oduc e s   a   pa r a di gm   w he r e   uns upe r vi s e a nom a ly   s c or e s   e nha nc e  s up e r vi s e d f e a tu r e  s p a c e s , i m pr ovi ng mode c a li br a ti o n.     T hi s   w or a dva nc e s   th e   th e or e ti c a und e r pi nni ngs   of   he a lt h c a r e   f r a ud  de te c ti on   w hi le   pr ovi di ng  a   s c a la bl e   bl ue pr in f or   r e a l - w or ld   de pl oym e nt T he s e   th e or e ti c a a dva nc e m e nt s   s e th e   s ta ge   f or   a   pr a c ti c a m e th odol ogy, de ta il e d ne xt , t ha c om bi ne s  r obu s a lg o r it hm s  w it h r e a l - w or ld  da ta  i nt e gr a ti on.       3.   M E T H O D   I th is   s e c ti on,  w e   bui ld   on  th e   in it ia w hi te   pa pe r   s e c ti ons   t e xpl or e   th e   in te gr a ti on  of   da ta s e ts ,   m e th odol ogi c a f r a m e w or k,  th e   hybr id   m ode l' s   s ta ge s a nd  t he or e ti c a c ont r ib ut io ns   in   de ta il e ns ur in a   th or ough unde r s ta ndi ng f or  r e s e a r c he r s  a nd pr a c ti ti one r s  i n he a l th c a r e  f r a ud de te c ti on.     3.1.  Dat a s ou r c e s  an d  i n t e gr at io n   A s   m e nt io ne d   in   pr e vi ous   s e c ti on s th e   f ounda ti on  of   th is   s tu d li e s   in   two  im por ta nt   da ta s e ts .   E a c one   s e r ve s   a   di s ti nc ye in te r c onne c te r ol e   in   a ddr e s s in th e   dua c ha ll e nge s   of   s c a la bi li ty   a nd  va li da ti on  in   M e di c a r e   f r a ud  de te c ti on.   M e di c a r e   pr ovi de r   ut il iz a ti on  a nd  p a ym e nt   da ta th is   d a ta s e c ove r s   2019  to   2022  a nd  in c lu de s   ove r   37  m il li on  r e c or ds   f r om   a bout   1.2  m il li on  he a lt hc a r e   pr ovi de r s I of f e r s   a   gr a nul a r   vi e w   of   bi ll in g be ha vi or s  a nd s e r vi c e  ut il iz a ti on, with key va r ia bl e s  s uc h a s :     P a ym e nt   m e tr ic s - c ont a in s   to ta m e di c a r e   pa ym e nt   a m ount s a ll ow e a m ount s a nd  s ta nd a r di z e c ha r ge s   ( a dj us te d f or  ge ogr a phi c  pr ic in g va r ia ti ons ) .     S e r vi c e   pa tt e r ns - pr ovi de s   in s ig ht s   in to   tr e nds   th r ough  th e   v ol um e   of   s e r vi c e s   of f e r e d,  s tr a ti f ie by  be ne f ic ia r y de m ogr a phi c s  l ik e  a ge   a nd g e nde r .     P r ovi de r   s p e c ia lt i e s c a t e gor ic a l  c la s s if ic a ti on s  s uc a s   c a r di ol o g y,  de r m a to l ogy e n a b le s   a na l y s i s   by  f ie ld .   L E I E t hi s   da ta s e t,   m a in ta in e by  th e   U .S D e pa r tm e nt   of   H e a lt a nd  H um a S e r vi c e s li s ts   pr ovi de r s   ba r r e f r om   M e di c a r e   pa r ti c ip a ti on  due   to   f r a udul e nt   a c ti vi ti e s W e   m a tc N P I s   f r om   th e   m e di c a r e   da ta s e w it th os e   in   L E I E P r ovi de r s   w it h   m a tc hi ng  N P I s   a r e   l a be le a s   f r a udul e nt c r e a ti ng  a   gol d - s ta nda r d   va li da ti on  s e t.   T hi s   li nka g e   gi ve s   us   a   f r a ud  pr e va le nc e   of   a bo ut   0.017%   -   or   a   1: 2 , 000  c la s s   r a ti ( f r a ud  t o   non - f r a ud) . T hi s  m e r ge d da ta s e is  c r it ic a f or  s upe r vi s e d l e a r ni ng va li da ti on.   I nt e gr a ti ng  th e s e   da ta s e ts   br id ge s   th e   ga be tw e e unl a be l e c la im s   da ta   a nd  la be le f r a ud  c a s e s T hi s   d a ta s e t   m e r gi ng  pr oc e s s   a ddr e s s e s   th e   s c a r c it of   la b e le da ta   in   f r a ud  de te c ti on.   H ow e ve r th e   e xa c num be r   of   f r a ud  c a s e s   ( a r ound  1,850  in   s upe r vi s e c la s s if ic a ti on)   s ugge s ts   th e   s upe r vi s e s ta ge   us e s   a   s ub s e t   of  t op a nom a li e s - not  t he  e nt ir e  da ta s e t.   T hi s  s ub s e s tr a te gy a li g ns  w it h t he  hybr id  a ppr oa c h' s  de s ig n.     3.2.  Hyb r id  f r am e w o r k  f or   r ob u s t  d e t e c t io n   O ur   pr opos e m e th odol ogy  us e s   a   two - s ta g e   hybr id   f r a m e w or k.  U ns upe r vi s e a nom a ly   de te c ti on  i s   c om bi ne w it s up e r vi s e c la s s if ic a ti on  to   ba la n c e   s e ns it iv it y   ( de te c ti ng  a ll   pot e nt i a f r a ud)   a nd  pr e c i s io Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2722 - 3221   C om put  S c I nf  T e c hnol V ol 6 , N o.  3 N ove m be r   20 25 :   245 - 252   248   ( m in im iz in f a ls e   pos it iv e s ) T hi s   a ppr oa c is   pa r ti c ul a r ly   w e ll - s ui te in   th is   M e di c a r e   c la im s   pa ym e nt   c ont e xt , w he r e  f r a ud pa tt e r ns  e vol ve  a nd l a b e le d da ta  i s  i n a de q ua te .   S ta ge  1:  U ns upe r vi s e a nom a ly  d e te c ti on   T he   f ir s s ta ge   f oc us e s   on  id e nt if yi ng  br oa f r a ud  pa tt e r ns   w it hout   r e ly in on  la be le da ta   by   le ve r a gi ng  two  a lg or it hm s E C O D   [ 13]   e s ti m a te s   th e   unde r ly in di s tr ib ut io o f   e a c f e a tu r e   us in e m pi r ic a l   c um ul a ti ve   di s tr ib ut io f unc ti ons   ( e C D F ) A nom a li e s   a r e   id e nt if ie a s   ob s e r va ti ons   in   th e   ta il s   of   th e s e   di s tr ib ut io ns . T he  a nom a ly  s c or e  i s  c om put e d a s :       ( ) = [ ( ( ) l o g   ( ( ) ) + ( 1 ( ) ) ] ( 1 ( ) ) ]   = 1       w he r e  F i   is  t he  e C D F  f or  t he  ( i) - th  f e a tu r e  ( in  ot he r  w or ds , F i   tr a c ks  e a c h f e a tu r e s  di s tr ib ut io n) , E C O D  e xc e ls   a de te c ti ng  gl oba out li e r s s uc a s   s y s te m ic   ove r bi ll in a c r os s   a ll   s pe c ia lt ie s but   m a m is s   lo c a a nom a li e s   w it hi n s pe c if ic  c lu s te r .   C B L O F   [ 14 ] t h is   a lg o r it h m   f i r s c lu s te r s   p r o vi d e r s   by  s pe c ia lt us in k - m e a ns   c l us te r in g ,     w it = 150   c h os e ba s e on  do m a i kn ow le d ge   o r   c lu s te r in a na ly s is   t r e f le c t he   d iv e r s it y   o f   m e di c a l   f ie ld s I th e n   c o m p ut e s   o ut li e r   s c o r e s   b a s e d   o th e   di s ta nc e   t o   t he   c l us te r   c e n t r oi d   a n th e   c lu s te r   s iz e   us in th e  f or m u la :      ( ) = ( ) ×    ( ,   ( ) )       F or   a   pr ovi de r   ( p)   in   th e   c lu s te r   ( C ) C B L O F   is   pa r ti c ul a r ly   e f f e c ti ve   a de t e c ti ng  s p e c ia lt y - s pe c if ic   a nom a li e s s uc a s   a be r r a nt   c a r di ol ogy  c ha r ge s but   it s   pe r f or m a nc e   de pe nds   on  th e   qua li ty   of   c lu s te r   de f in it io ns .   T le ve r a ge   bot gl oba a nd  lo c a pe r s pe c ti ve s a nom a ly   s c or e s   f r om   E C O D   a nd  C B L O F   a r e   c om bi ne us in a   w e ig ht e a ve r a ge   of   60%   to   C B L O F   a nd  40%   to   E C O D T hi s   w e ig ht in pr io r it iz e s   s pe c ia lt y - s pe c if ic   pa tt e r ns   w hi le   r e ta in in s e n s it iv it to   s ys te m ic   out li e r s r e f le c ti ng  a   s tr a te gi c   ba la nc e   ba s e d   on  pr e li m in a r a na ly s is   or   e xpe r ju dgm e nt T il lu s tr a te   th e   w or kf lo w   of   th is   uns upe r vi s e s ta ge F ig ur e   1   de pi c ts   how   E C O D   a nd  C B L O F   c om bi ne   to   de te c gl oba a nd  s pe c ia lt s pe c if ic   a nom a li e s   gui di ng  th e   s ubs e que nt   s upe r vi s e d c l a s s if ic a ti on s .           F ig ur e   1.   U ns upe r vi s e m ode ls  a nom a ly  d e te c ti on  -   E C O D  a nd  C B L O F  i s ta ge  1       3.3 .     F e at u r e  e n gi n e e r in g   T boos th e   de te c ti on  c a pa bi li ti e s w e   ha ve   c r e a te s e ve r a d om a in - s pe c if ic   f e a tu r e s   th a di r e c tl y   ta r ge known f r a ud i ndi c a to r s  i n he a lt hc a r e  bi ll in g :     C ha r ge   r a ti [ 15]   hi ghl ig ht s  pot e nt ia ove r bi ll in g, w he r e  pr ovi d e r s  c ha r ge  m or e  t ha n t he  r e a s on a bl e  c o s t.         = T o t a l   p a y m e n t s A l l o w e d   a m o u n t         S e r vi c e   v e lo c it [ 3]   m e a s ur e s   th e   in te ns it of   s e r vi c e   pr ovi s i on  pe r   be ne f ic ia r y,  f la ggi ng  e xc e s s iv e   or   unne c e s s a r y t r e a tm e nt s  ( s e r vi c e  v e l oc it y m e a s ur e s  t he  r a te  of  s e r vi c e s  pe r   be ne f ic ia r y) .   Evaluation Warning : The document was created with Spire.PDF for Python.
C om put  S c I nf  T e c hnol     I S S N :   2722 - 3221       A  dual - m ode m ac hi ne  l e ar ni ng appr oac h t o m e di c a r e  f r aud  …  ( J e s u M ar c us  I m m anu v e A r oc k ia s a m y )   249   F e a tu r e s  l ik e  ‘ s e r vi c e  ve lo c it y’  a nd ‘ c ha r ge  r a ti o’   he lp  i de nt if uni ve r s a f r a ud pa tt e r ns , f or  e xa m pl e ,   if  t he  c ha r ge  r a ti o i s  gr e a te r  t ha n 1, it  m a y i ndi c a te  ove r c ha r gi n g i s s ue s .        = S e r v i c e r e n d e r e d T o t a l   n o .   o f   b e n e f i c i a r i e s       S ta ge  2:  S upe r vi s e c la s s if ic a ti on   T he   s e c ond  s ta ge   r e f in e s   th e   a nom a li e s   de te c t e in   s ta ge   1   in to   hi gh - c onf id e nc e   f r a ud  pr e di c ti ons ,   a ddr e s s in th e   s e ve r e   c la s s   im ba la nc e   ( 0.017%   f r a ud  pr e v a le nc e   in   th e   or ig in a da ta s e t) T he   pr oc e s s   in vol ve s c la s s  i m ba la nc e  m it ig a ti on:  r a ndom  unde r  s a m pl in g i s  e m pl oye d, r e ta in in g a ll  i de nt if ie f r a ud c a s e s   ( N = 1,850)   a nd  r e duc in non - f r a ud  c a s e s   to   a c hi e ve   a 80: 20  non - f r a ud:   f r a ud  r a ti o.  T hi s   m e a ns   s e le c ti ng  7,400  non - f r a ud  c a s e s   ( s in c e   80: 20  im pl ie s   f our   non - f r a uds   f or   e ve r one   f r a ud,  a nd  4 × 1,850= 7,400) pr e s e r vi ng  c r it ic a m in or it y - c la s s   in f or m a ti on   w it hout   in t r odu c in s ynt he ti c   da ta   noi s e   f r om   ove r s a m pl in te c hni que s  l ik e   th e   s ynt he ti c  m in or it y ove r s a m pl in g t e c hni que   ( S M O T E )   [ 16] .     3.4.   S u p e r vi s e d   a lg or it h m s   C 4.5  de c is io n t r e e   [ 17] t h is  a lg or it hm  c ons tr uc ts  i nt e r pr e ta bl e   de c is io n t r e e s  us in g i nf or m a ti on ga in ,   w it h s pl it s  c hos e n t o m a xi m iz e ,     ( , ) =   ( )     | | | |     ( )   (  )       ( S   r e pr e s e nt s   e nt ir e   pr ovi de r   d a ta s e t,   w hi le   A   in di c a te s   a n a tt r ib ut e   of   th e   da ta s e th a is   be in e v a lu a te d,  S v   is   pa r ti ti one da ta   ba s e on  th e   a tt r ib ut e   A ) I ts   s tr e ngt li e s   in   hu m a n - r e a da bl e   r ul e s id e a f or   a udi ti ng,  th ough  it  m a y ove r f it  r a r e  f r a ud pa tt e r ns .       (   ) = 1 1 +   ( 0 + 1 1 +   + )       L ogi s ti c   r e gr e s s io [ 18] e s ti m a te s   f r a ud  pr oba bi li ty   vi a   th e   lo gi s ti c   f unc ti on I o ff e r s   c a li br a te pr oba bi li ti e s   f or   r is pr io r it iz a ti on,  th ough  li m it e by  li ne a r   de c is io bounda r ie s   th a t   m a m is s   c om pl e in te r a c ti ons .   ( β 0 , β 1 , ..., β n   r e pr e s e nt s  w e ig ht e d c oe f f ic ie nt s  w hi l e   x 1 , x 2,   …x n   r e pr e s e nt s  f e a tu r e  va lu e s ) .   F e a tu r e   s pa c e  e nr ic hm e nt uns upe r vi s e a nom a ly  s c or e s  ( f r om   E C O D  a nd C B L O F )  a r e  i nc or po r a te d   a s   f e a tu r e s a ll ow in s upe r vi s e d   m ode ls   to   le a r w hi c a nom a l ie s   a li gn  w it known  f r a ud  la be l s   f r om   L E I E ,   e nha nc in g pr e di c ti ve  pow e r .   T hi s  s ta ge  i s  c r uc ia l,  a s  i va li da t e s  a nom a li e s  w it h hi gh pr e c is io n, r e duc in g f a ls e   pos it iv e s  by 63%  c om pa r e d t o pur e  uns upe r vi s e d m e th ods , a s  n ot e d i n t he  i nt r oduc ti on.       4.   C O M P A R A T I V E   M O D E L   E V A L U A T I O N   4.1 .    M od e s t r e n gt h s  an d  op e r at io n al  c on t e xt s   T a bl e   s um m a r iz e s   th e   s tr e ngt hs li m it a ti ons a nd  ope r a ti ons   c ont e xt s   of   e a c m ode in   our   dua l   f r a m e w or k,  hi ghl ig ht in th e ir   c om pl e m e nt a r r ol e s   in   f r a ud  de te c ti on.  T h e   c om pl e m e nt a r y   na tu r e   of   th e   hybr id   a ppr oa c he s   b e c om e s   e vi de nt   w h e e x a m in in e a c h   m o de l’ s   pe r f or m a nc e   c ha r a c te r is ti c s H e r e   is   th e   a na ly s is   of   s tr e ngt h s w e a kn e s s e s a nd   ope r a ti ona c ont e xt s .   E a c c om pone nt   s e r ve s   a   di s ti nc r ol e   w it hi our   f r a m e w or k.  T he   un s upe r vi s e d   m ode ls   ( E C O D   a nd   C B L O F )   c a s a   w id e   de te c ti on  n e t,   w hi le   th e   s upe r vi s e d   a lg or it hm s   ( C 4.5  a nd  lo gi s ti c   r e gr e s s io n)   r e f in e   a nom a li e s   in t a c ti ona bl e hi gh - c onf id e nc e   pr e di c ti ons   th a t   in ve s ti ga to r s  c a n a c tu a ll y us e .       T a bl e   1.   C om pa r a ti ve   a na ly s is  of  m ode pe r f or m a nc e  a nd u s e  c a s e s   M ode l   K e y s t r e ngt hs   L i m i t a t i ons   O pe r a t i ona l  c ont e xt   E C O D   D e t e c t s   gl oba l   out l i e r s   a c r os s   s pe c i a l t i e s ;   R obus t  t o di m e ns i ona l i t y   L e s s   s e n s i t i ve   t l oc a l / s pe c i a l t y - s pe c i f i c  a nom a l i e s   I ni t i a l   s c r e e ni ng  f or   s ys t e m i c   f r a ud  pa t t e r ns   C B L O F   C a pt ur e s   s pe c i a l t y - s pe c i f i c   a nom a l i e s ;   A da pt s  t o pr ovi de r  popul a t i on c l us t e r s   P e r f or m a nc e   de pe nds   on  c l us t e r   qua l i t y;   R e qui r e s   dom a i know l e dge  f or  k - s e l e c t i on   T a r ge t e d s pe c i a l t y - s pe c i f i c  a udi t i ng   C 4.5  D e c i s i on t r e e   P r oduc e s   hum a n - r e a da bl e   de c i s i on   r ul e s ;   C a pt ur e s   non - l i ne a r   r e l a t i ons hi ps   P r one   t ove r f i t t i ng   on  r a r e   f r a ud  pa t t e r ns ;   B r a nc c om pl e xi t y   i nc r e a s e s  w i t h da t a   s i z e   A udi t   c a s e   e xpl a na t i on  a nd   r e gul a t or y doc um e nt a t i on   L ogi s t i c   r e gr e s s i on   O ut put s   c a l i br a t e pr oba bi l i t s c or e s ;   C om put a t i ona l l y e f f i c i e nt   L i m i t e by  l i ne a r   de c i s i on   bounda r i e s ;   L e s s   e f f e c t i ve   f or   c om pl e x pa t t e r n de t e c t i on   R i s k - ba s e c a s e   pr i or i t i z a t i on  a nd  r e s our c e  a l l oc a t i on     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2722 - 3221   C om put  S c I nf  T e c hnol V ol 6 , N o.  3 N ove m be r   20 25 :   245 - 252   250   4.2.  Ad d r e s s in g c la s s  i m b al an c e :  e m p ir ic al  val id at io n   A s   di s c us s e in   pr e vi ous   s e c ti ons ha ndl in c la s s   im ba la nc e   is   a   c ha ll e nge   a s   th e   da ta s e c ont a in s   onl y 0.017%  of  t ot a c la im s . T o e va lu a te  t he  i m pa c of  c la s s  i m ba la nc e  m it ig a ti on s tr a te gi e s , T a bl e  2 pr e s e nt s   th e   pe r f or m a nc e   of   th e   C 4.5  de c is io tr e e   a c r os s   di f f e r e nt   no n - f r a ud - to - f r a ud  r a ti os F ig ur e   2   c om pl im e nt s   th is  a na ly s is  by vi s ua ll y c om pa r in g t he  A U C  pe r f or m a nc e  a c r o t he  t e s te d r a ti os , hi ghl ig ht in g t he  80: 20 r a ti o’ s   opt im a ba la nc e W e   te s te f our   c la s s   di s tr ib ut io ns   ( non - f r a ud - to - f r a ud   r a ti os )   e m pi r ic a ll y,  a s   s how in     T a bl e  2 .   T he  80: 20 r a ti o r e duc e d f a ls e  ne ga ti ve s  by 33%  c om pa r e d t o r a w  i m ba la nc e d da ta  w hi le  m a in ta in in g   c om put a ti ona e f f ic ie nc y.       T a bl e   2.   C la s s   r a ti o i m pa c t s   on C 4.5 pe r f or m a nc e   R a t i o   A U C  ( C 4.5)   F a l s e   ne ga t i ve  r a t e   K e i ns i ght   50: 50   0.872   0.301   T oo m a ny f r a ud c a s e s  s l i ppe d t hr ough due  t o ove r f i t t i ng t he  m i nor i t y c l a s s   80: 20   0.883   0.275   I t  c a ught  33%  m or e  f r a ud t ha n r a w  da t a  w hi l e  ke e pi ng f a l s e  pos i t i ve s  m a na ge a bl e .   90: 10   0.851   0.412   T oo m a ny m i s s e d f r a ud c a s e s , r i s ki ng  ope r a t i ona l  f a i l ur e .           F ig ur e   1 . V a li da ti on r e s ul ts - 80: 10 vs  90: 10 pe r f or m a nc e  c om pa r is on       4.3.  Valid at io n  an d  p e r f or m an c e  i n s ig h t s   T he   dua l - m ode f r a m e w or a c hi e v e a A U C   of   88.3% s ur pa s s in s in gl e - m ode a ppr oa c he s   by  24% a s   be nc hm a r ke d   a ga in s g e ne r a m a c hi ne   le a r ni ng  pe r f or m a nc e   m e tr ic s   [ 19] [ 20] C om pa r e to   pr io r   M e di c a r e   f r a ud  de te c ti on  s tu di e s our   a ppr oa c s ig ni f ic a nt ly   out pe r f or m s   e xi s ti ng  m e th ods F or   in s ta nc e B r e nna [ 2]   r e por te d   A U C s   r a ngi ng  f r om   0.75  to   0.82  f o r   s up e r vi s e m ode ls   on  im ba la nc e M e di c a r e   da ta ,   li m it e by  hi gh  f a ls e   ne ga ti ve   r a t e s   ( ove r   40% ) G r e s oi   e al [ 4]   a c hi e ve a A U C   of   0.79  us in g   uns upe r vi s e m e th od s   but   la c ke la be l e va li da ti on,  le a di ng  to  hi ghe r   f a ls e   pos it iv e s O ur   hybr id   f r a m e w or k,  in te gr a ti ng  C B L O F   a nd  E C O D   w it C 4.5  a nd   lo gi s ti c   r e gr e s s io n r e duc e s   f a ls e   pos it iv e s   by  63%   c om pa r e d   to   s ta nda lo ne   uns upe r vi s e m e th ods a s   va li da te a ga in s L E I E   la be ls T hi s   im pr ove m e nt   s te m s   f r om   th e   s yne r gy  of   uns upe r vi s e a nom a ly   de te c ti on,  w hi c id e nt if ie s   nove pa tt e r ns a nd  s upe r vi s e c la s s if ic a ti on,  w hi c r e f in e s   pr e di c ti ons   f or   a c ti ona bl e   a udi ts T he   f r a m e w or k’ s   a bi li ty   to   pr oc e s s   2.1  m il li on   c la im s   pe r   hour   us in pa r a ll e li z e G P U   c lu s te r s   f ur th e r   e nha nc e s   it s   pr a c ti c a va lu e e na bl in r e a l - ti m e   f r a ud  de te c ti on  w it hout   ove r w he lm in in ve s ti ga ti ve   r e s our c e s T he s e   r e s u lt s   unde r s c or e   th e   m ode l’ s   s c a la bi li ty   a nd  pr e c is io n, of f e r in g a  r obus to ol  f or  s a f e gua r di ng M e di c a r e  f unds .     4.4 .     F u t u r e  d ir e c t io n s   T hi s   du a l - m ode a ppr oa c ope n s   s e ve r a p a th s   f or   im pr o ve m e nt W e   c oul e xp a nd  f e a tu r e   e ngi ne e r in by  ta ppi ng  ne twor a na ly s is   [ 21] - pr ovi de r - be ne f i c ia r c onne c ti ons   or   r e f e r r a pa tt e r ns - to   c a tc h   c oor di na te f r a ud  s c he m e s   li ke   ki c kba c ks W e   c oul a l s te s a da pt iv e   th r e s hol di ng   [ 22]   ( e .g.,  a dj us ti ng   a nom a ly   c ut of f s   ba s e on  r e a l - ti m e   f r a ud  t r e nds )   to   ke e th e   m ode ni m bl e   a s   s c he m e s   e vol ve F ut ur e   w or k   c oul d a ls o i nt e gr a te  f r a ud de te c ti on w it h pa ti e nt  e nga ge m e nt  a na ly ti c s   [ 23] , [ 24]   or  c hr oni c  di s e a s e  pr e di c ti on   [ 25]   to  c r e a te  a  hol is ti c  he a lt hc a r e  pr ot e c ti on s y s te m .   Evaluation Warning : The document was created with Spire.PDF for Python.
C om put  S c I nf  T e c hnol     I S S N :   2722 - 3221       A  dual - m ode m ac hi ne  l e ar ni ng appr oac h t o m e di c a r e  f r aud  …  ( J e s u M ar c us  I m m anu v e A r oc k ia s a m y )   251   5.   C O N C L U S I O N   M e di c a r e   f r a ud  dr a in s   bi ll io ns   a nnua ll y,  th r e a te ni ng  c a r e   f or   m il li ons O ur   dua l - m ode f r a m e w or k - m e ld in uns upe r vi s e a nom a ly   de te c ti on  w it s upe r vi s e c la s s if ic a ti on - of f e r s   a   f r e s h,  pr a c ti c a f ix .   B y   pa ir in g E C O D  a nd C B L O F  t o s pot  ne w  pa tt e r ns  w it h C 4.5 a nd  lo gi s ti c  r e gr e s s io to  r e f in e  t he m , w e ' ve  hi a n   A U C  of  88.3% , s la s he d f a ls e  pos it iv e s  by 63% , a nd pr oc e s s e d 2.1 mi ll io n c la im s  hour ly .  F e a tu r e s  l ik e   c ha r ge   r a ti o,  s e r vi c e   v e lo c it y a nd   L E I E   va li da ti on  m a ke   it   bot h   s ha r p   a nd  s c a la bl e W hi le   tr a di ti ona m e th od s   f a lt e r   a ga in s e vol vi ng  f r a ud  a nd  s c a r c e   la b e ls th is   a ppr oa c a da pt s   a nd  de li ve r s I t' s   a   s te to w a r s a f e gu a r di ng  publ ic   f unds   a nd  e ns ur in M e di c a r e   s e r ve s   th os e   w ho  ne e it   m os t,   w it r oom   to   gr ow   in to   a e ve m or e   pot e nt  t ool .       F U N D I N G  I N F O R M A T I O N   A ut hor s  s ta te  no f undi ng i nvol ve d.       A U T H O R  C O N T R I B U T I O N S  S T A T E M E N T   T hi s   jo ur na us e s   th e   C ont r ib ut or   R ol e s   T a xonomy  ( C R e d iT )   to   r e c ogni z e   in di vi dua a ut hor   c ont r ib ut io ns , r e duc e  a ut hor s hi p di s put e s a nd f a c il it a te  c ol la bo r a ti on.     N am e  o f  A u t h or   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   J e s M a r c us  I m m a nuve l                               G ow r is ha nka r  B hoopa th i                                 C     C onc e pt ua l i z a t i on   M     M e t hodol ogy   So     So f t w a r e   Va     Va l i da t i on   Fo     Fo r m a l  a na l ys i s   I     I nve s t i ga t i on   R     R e s our c e s   D   :   D a t a  C ur a t i on   O   :   W r i t i ng  -   O r i gi na l  D r a f t   E   :   W r i t i ng  -   R e vi e w  &   E di t i ng   Vi     Vi s ua l i z a t i on   Su     Su pe r vi s i on   P     P r oj e c t  a dm i ni s t r a t i on   Fu     Fu ndi ng a c qui s i t i on         C O N F L I C T  O F  I N T E R E S T   A ut hor s  s ta te  no c onf li c of  i nt e r e s t.       D A T A  A V A I L A B I L I T Y   T he   da ta   th a s uppor th e   f in di ngs   of   th is   s tu dy  a r e   ope nl a va il a bl e   in   G it H ub  r e pos it or ht tp s :/ /g it hub.c om /J e s uM a r c u s I /Dua l - M ode l - M a c hi n e - L e a r ni ng - A ppr oa c h - to - M e di c a r e - F r a ud - D e te c ti on       R E F E R E N C E S   [ 1]   C e nt e r s   f or   M e di c a r e   &   M e di c a i S e r vi c e s   ( C M S ) F i s c a l   ye a r   2024  i m pr ope r   pa ym e nt s   f a c t   s he e t ,”   c m s .gov [ O nl i ne ] .   A va i l a bl e :  ht t ps : / / w w w .c m s .gov/ ne w s r oom / f a c t - s he e t s / f i s c a l - ye a r - 2024 - i m pr ope r - pa ym e nt s - f a c t - s he e t   [ 2]   P B r e nna n,  A   c om pr e he ns i ve   s ur ve of   m e t hods   f or   ove r c om i ng  t he   c l a s s   i m ba l a nc e   pr obl e m   i f r a ud   de t e c t i on,”   M .SC T he s i s D e pa r t m e nt  of  C om put i ng, I ns t i t ut e  of  T e c hnol ogy B l a nc ha r ds t ow n, D ubl i n, I r e l a nd, 2012.   [ 3]   R J B ol t on  a nd  D J H a nd,  S t a t i s t i c a l   f r a ud  de t e c t i on:   a   r e vi e w ,”   St at i s t i c al   Sc i e nc e vol 17,  no.   3,  pp.  235 255,  2002 ,     doi :  10.1214/ s s / 1042727940.   [ 4]   S G r e s oi G S t a m a t e s c u,  a nd  I F ă r ă ș a n,  A dva nc e m e t hodol ogy  f or   f r a ud  de t e c t i on  i e ne r gy  us i ng  m a c hi ne   l e a r ni ng  a l gor i t hm s ,”   A ppl i e d Sc i e nc e s , vol . 15, no. 6, 2025, doi :  10.3390/ a pp15063361.   [ 5]   D e c os i m A dvi s or S e r vi c e s D e t e c t i ng  f r a ud  u s i ng  da t a   m i ni ng  t e c hni que s ,”   s l i de s ha r e .ne t 2008.   [ O nl i ne ] A v a i l a bl e :   ht t ps : / / w w w .s l i de s ha r e .ne t / s l i de s how / de t e c t i ng - f r a ud - us i ng - da t a - m i ni ng - t e c hni que s / 8472940   [ 6]   C e nt e r s   f or   M e di c a r e   &   M e di c a i d   S e r vi c e s ,   M e d i c a r e   p r o vi de r   u t i l i z a t i o a nd   pa ym e nt   da t a ,   c m s .g ov .   [ O n l i ne ] .   A v a i l a b l e :   ht t p: / / w w w .c m s .go v/ R e s e a r c h - S t a t i s t i c s - D a t a - a nd - S ys t e m s / S t a t i s t i c s - T r e nds - a nd - R e po r t s / M e d i c a r e - P r ov i de r - C ha r g e - D a t a / i nd e x. ht m l   [ 7]   U .S D e pa r t m e nt   of   H e a l t a nd  H um a n   S e r vi c e s   O f f i c e   o f   I ns pe c t or   G e ne r a l O I G   upda t e s   t he   l i s t   of   e xc l ude i ndi vi dua l s   a nd  e nt i t i e s ,”   oi g.hhs .gov . [ O nl i ne ] . A va i l a bl e :  ht t ps : / / oi g.hhs .gov/ e xc l u s i ons / e xc l u s i ons _l i s t .a s p   [ 8]   C E l ka n,  T he   f ounda t i ons   of   c o s t - s e n s i t i ve   l e a r ni ng,”   P r oc e e di ngs   of   t he   Se v e nt e e nt h   I nt e r nat i onal   J oi nt   C onf e r e nc e   o n   A r t i f i c i al   I nt e l l i ge nc e  ( I J C A I 01) , vol . 2, pp. 973 978, 2001.   [ 9]   H H e   a nd  E A G a r c i a L e a r ni ng  f r om   i m ba l a nc e da t a ,”   I E E E   T r ans ac t i ons   on  K now l e dge   and  D at E ngi ne e r i ng vol 21,    no. 9, pp. 1263 1284, S e p. 2009, doi :  10.1109/ T K D E .2008.239.   [ 10]   J B r ow nl e e D at pr e par at i on  f or   m ac hi ne   l e a r ni ng:   dat c l e ani ng,  f e at ur e   s e l e c t i on,  and  dat t r ans f or m s   i py t hon M a c hi n e   L e a r ni ng M a s t e r y, 2020.   [ 11]   J D e a a nd  S G he m a w a t M a p R e duc e :   s i m pl i f i e da t a   pr oc e s s i ng  on  l a r ge   c l us t e r s ,”   C om m uni c at i ons   of   t h e   A C M vol 51,     no. 1, pp. 107 113, 2008, doi :  10.1145/ 1327452.1327492.   [ 12]   V C ha ndol a A B a ne r j e e a nd  V K um a r A nom a l de t e c t i on:   a   s ur ve y,”   A C M   C om put i ng  Sur v e y s   ( C SU R ) vol 41,  no.  3,    pp. 1 58, 2009, doi :  10.1145/ 1541880.1541882.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2722 - 3221   C om put  S c I nf  T e c hnol V ol 6 , N o.  3 N ove m be r   20 25 :   245 - 252   252   [ 13]   Z L i Y Z ha o,  X H u,  N .   B ot t a C .   I one s c u,  a nd   G H C he n,  E C O D :   un s upe r vi s e out l i e r   de t e c t i on  us i ng  e m pi r i c a l   c um ul a t i v e   di s t r i but i on  f unc t i ons ,”   I E E E   T r ans ac t i ons   on  K now l e dge   and  D at E ngi ne e r i ng vol 35,  no.  12,   pp.  12181 12193,  2023 ,     doi :  10.1109/ T K D E .2022.3159580.   [ 14]   Z H e X X u,  a nd  S D e ng,  D i s c ove r i ng  c l us t e r - ba s e l oc a l   out l i e r s ,”   P at t e r R e c ogni t i on  L e t t e r s vol 24,  no.  9 10,    pp. 1641 1650, 2003, doi :  10.1016/ S 0167 - 8655( 03 ) 00003 - 5.   [ 15]   K J C i os   a nd  G .   W M oor e U ni que ne s s   of   m e di c a l   da t a   m i ni ng,”   A r t i f i c i al   I nt e l l i ge nc e   i M e di c i ne vol 26,   no.  1 2,   pp.  1 24,   2002, doi :  10.1016/ S 0933 - 3657( 02 ) 00049 - 0.   [ 16]   N V C ha w l a K W B o w ye r L O .   H a l l a nd  W .   P K e ge l m e ye r S M O T E :   s ynt he t i c   m i nor i t ove r - s a m pl i ng  t e c hni que ,”   J our nal  of  A r t i f i c i al  I nt e l l i ge nc e  R e s e ar c h , vol . 16, pp. 321 357, 2002, doi :  10. 1613/ j a i r .953.   [ 17]   J . R . Q ui nl a n,  C 4.5:  pr ogr am s  f o r  m ac hi ne  l e a r ni ng . S a n F r a nc i s c o, C a l i f or ni a , U S :  M or ga n K a uf m a nn P ubl i s he r s  I nc ., 1993.   [ 18]   D W H .   J r .,  S L e m e s how a nd  R .   X S t ur di va nt A ppl i e l ogi s t i c   r e g r e s s i on H oboke n,  N e w   J e r s e y:   J ohn  W i l e y   &   S ons ,   I nc .,   2013.   [ 19]   A P B r a dl e y,  T he   us e   of   t he   a r e a   unde r   t he   R O C   c ur ve   i t he   e va l ua t i on  of  m a c hi ne   l e a r ni ng  a l gor i t hm s ,”   P at t e r R e c ogni t i on vol . 30, no. 7, pp. 1145 1159, 1997, doi :  10.1016/ S 0031 - 3203( 96 ) 00142 - 2.   [ 20]   T F a w c e t t A i nt r oduc t i on  t o   R O C   a na l ys i s ,”   P at t e r R e c ogni t i on  L e t t e r s vol 27,  no.  8,   pp.  861 874,  2006,     doi :  10.1016/ j .pa t r e c .2005.10.010.   [ 21]   S W a s s e r m a a nd  K F a us t Soc i al   ne t w o r k   anal y s i s :   m e t hods   and  appl i c at i ons C a m br i dge E ngl a nd:   C a m br i dge   U ni ve r s i t P r e s s , 1994.   [ 22]   Y F r e und  a nd  R E S c ha pi r e A   de c i s i on - t he or e t i c   ge ne r a l i z a t i on  of   on - l i ne   l e a r ni ng  a nd  a a ppl i c a t i on  t boos t i ng,”   L e c t ur e   N ot e s  i n C om put e r  Sc i e nc e , vol . 904, no. 1, pp. 23 37, 1995, doi :  10.1007/ 3 - 54 0 - 59119 - 2_166.   [ 23]   J M I A r oc ki a s a m y,  D i gi t a l   he a l t hc a r e   e vol ut i on:   t he   pow e r   of   D e vO p s   f or   be t t e r   pa t i e nt   e nga ge m e nt ,”   I nt e r nat i onal   J ou r nal   of  I nt e l l i ge nt  Sy s t e m s  and A ppl i c at i ons  i n E ngi ne e r i ng , vol . 12, no. 4, pp. 5192 5198, 2024.   [ 24]   J M I A r oc ki a s D e vO ps - dr i ve r e a l - t i m e   he a l t a na l yt i c s :   a   s c a l a bl e   f r a m e w or f or   w e a r a bl e   I oT   da t a ,”   I nt e r nat i onal   J our nal   F or  M ul t i di s c i pl i nar y  R e s e ar c h , vol . 7, no. 1, 2025, doi :  10.36948/ i j f m r .2025.v07i 01.37358.   [ 25]   J M I A r oc ki a s a m y,  P r oa c t i ve   he a l t hc a r e   a na l yt i c s :   e a r l de t e c t i on  of   di a be t e s   w i t S D O H   i ns i ght s   a nd  m a c hi ne   l e a r ni ng,”   E ur ope an  J our nal   of   C om put e r   Sc i e nc e   and  I nf or m at i on  T e c hnol ogy vol 13,  no.  2,   pp.  64 74,  2025,     doi :  10.37745/ e j c s i t .2013/ vol 13n26474.       B I O G R A P H I E S  O F  A U T H O R S       Jesu  Marcus  Immanuvel  Arockiasamy           is  distinguished  Healthcare  Analytics   and  DevOps  expert  with  over  18  years  of  pioneering   experience  at  leading  healthcare  company.  Renowned  for  his   mastery  of  DevOps   principl es,  he  has   spe arheaded  transform ative  initiatives  that  enhance   system  efficie ncy,  automate   complex  depl oyments,  and  optimize   CI/CD  pipelines  using  cutting - edge  tools  such  as  Jenkins,   Kubernete s,  Terraform,  and  AWS.  As  visionary  leader   and  dedicated   mentor,  Arockiasamy  has   cu ltivated  collaborative   DevOps  culture  that  drives  innovation,  agility,  and  operational  excellen ce  across  multidisciplinary   teams.  His  prolific  resear ch  portfolio   includes  high - i mpact  whitepapers  such   as  ' Digital  Healthcare  Evolution:  The   Power  of  DevOps   for  Bette Patient  Engagement,'   ' Proactive  Healthcare  Analytics:  Early  Detection  of  Diabetes  with  SDOH  Insights  and  Machine  Learning, '   ' Securing  Telehealth  Platforms:  ML - Powered   Phishing  Detection  with   DevOps  in  Healthcare  Analytics,'   and  ' DevOps - Driven  Real - Time  Health  Analytics:  Scalable  Framework  for  Wearable  IoT  Data. '   These  seminal   wo rks  integrate  advanced  analytics machine  learning,   and  DevOps  to  revoluti onize  patient   care,  engagement and   security,  earning  recognition  for   their  actionable  insights   and   scalable  frameworks.   Arockiasamy’ s contrib utions have not  only advanced healthcare technol ogy but also s et a new   standard  for  secure,  patient - centric  digital   soluti ons,  influenci ng   bot indust ry  practices  and  academic  discours e.  His  ongoing   efforts  continue  to   shape  the   future  o healthcare  by  bridging   technologic al  innovation  with  compassiona te,   equitable  care   delivery.   He  can  be   contacted  a t   email:  jesumarcu s@ gmail.com .         Gowrishankar  Bhoopathi           is  skilled  professional  in  Artificial  In telligence  and   Healthcare  data  analytics  having   more  than  18   years  of   IT  experienc in  leading   healthcare   organization.  His  technical  p roficiency  spans  cloud - based  solutions,  AI/ML  frameworks  with   strong  foundation  in   designing  and   managing  large   scale  data   ecosystems,  leveraging  advanced anal ytics,  playing  a key rol e in dri ving bu siness  growth an d innov ation.  Bhoopat hi is   commit ted  to  channelin his  expertise  into  healthcare  analytics   minim izing  provider  abrasions   by  developing  AI  driven  solutions  that  reduce   ineffic iencies  and   enhance   collabora tion  between  healthcare  providers  and   payers.  His  research   delves  int AI  driven  Healthcare   analytics  addressi ng key ch allenges  and  opportu nities  driving  meaning ful change  in healt hcare   and  beyond.  As  recognized  expert  in  AI  and  healthcare  analytics,  Bhoopathi  strives  to   contribu te  impactful   research,  mentor  indust ry  professio nals   and  dri ve  advancement in  the   field.   He can be contacted at email:   shankarbgowri@gmail.com .     Evaluation Warning : The document was created with Spire.PDF for Python.