I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol . 15, No. 1, Febr ua r y 2026 , pp.  655 ~ 671   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 15 .i 1 .pp 655 - 671          655     Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   S t r ok e  p r e d i c t i on  u si n g d at a b a l an c i n g m e t h od  a n d  e xt r e m e   gr ad i e n t  b oost i n g       A b d  M iz w ar  A . R ah im 1 , A n n a B ai t a 1 , F ir m an  A s h ar u d in 1 ,   Wah id  M if t ah u A s h ar i 1 ,     Wal id y R ah m an  H ak im 2 ,   A n d r iy an  D w P u t r a 1 ,   S u p r ia t in 1 ,   E k o P r am on o 1   1 I nf or m a t i c s  S t udy P r og r a m , F a c ul t y of  C om put e r  S c i e nc e , A m i kom  U ni ve r s i t y  of  Y ogya ka r t a , Y ogya ka r t a , I ndone s i a   2 D e pa r t m e nt  of  P ha r m a c e ut i c a l  S c i e nc e s  a nd T e c hnol ogy Al - I r s ya d U ni ve r s i t y C i l a c a p , I ndone s i a       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e A ug 13, 2024   R e vi s e J a n 3, 2026   A c c e pt e J a n 22, 2026       Stroke  is  one  of  the  leading  causes  of  death  worldwide,  creating  an  urgent  need  for  effective  early  detection   systems,  particularly   because  conve ntional  methods ofte n struggle w ith  class imbala nce  and produc e biased  evalu ations.  Previou studies  have  primar ily  focuse on  accu racy   while  overl ooking  model  consistency,  data  pre - processing  quality,   and  probability - based  evaluatio n.  This  study  evaluates  model   performance  under  three   cond itions original  data  using  extreme  gradient  boosting  (XGBoost)  with  scale_p os_weight,  original  data  using  the  easy  ensemble   classifie r,  and  class - balanced  data  generated  using  random  oversampling   (ROS) a daptive  synthetic  sampling  (ADASYN),  and   synthetic  minority   over - sa mpling  technique  (SMOTE).  Each  model   underwen missing  value   ha ndling,  normalization,  feature  preparation,  and  hyperparameter  optimization   using   grid  search.  Performance  was   assessed  using   area  under  the   r eceiver  operating  characteristic  curve  (AUROC),  area  under   the  precision - recall  curve  (AUPRC),  confidence  inter vals,  calibration  curves,  Shapley   a dditive  explanati ons  (SHAP),  decision   curve  analysis   (DCA) ,   and  e xternal  validation.  The  results  demonstrate   that  data   resampling  signif icantly  improves  performa nce,  with  the  XGBoost - SMOTE  combination  ach ieving  the  best  results,  including  an  accuracy  of  0.99,  AUROC  of  0.998,  and  AUPRC  of  0.986,  outperforming  the   other  approaches.  This   method  provides  more  consistent  and  balanced  predictions,  supportin the  applicati on of art ificial  intell igence for  early str oke risk  identi fication.   K e y w o r d s :   D a ta  ba la nc in g   D a ta  pr e pr oc e s s in g   E xt r e m e  gr a di e nt  boos ti ng   F e a tu r e  s e le c ti on   S tr oke  pr e di c ti on   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   A bd M iz w a r  A . R a hi m   D e pa r tm e nt  of  C om put e r  S c ie nc e , A m ik om  U ni ve r s it y of  Y ogya ka r ta   D e pok, S le m a n, Y ogya ka r ta  55281, I ndone s ia   E m a il a bdul m iz w a r @ a m ik om .a c .i d       1.   I N T R O D U C T I O N   E ve r ye a r   13.7  m il li on  pe opl e   e xpe r ie nc e   s tr oke a nd  m or e   th a 5.8  m il li on  of   th e m   di e   f r om   th is   di s e a s e   [ 1] A c c or di ng  to   th e   W or ld   H e a lt O r ga ni z a ti on   ( W H O ) s tr oke   i s   th e   s e c ond   c a u s e   of   de a th   gl oba ll y,  c ont r ib ut in to   a r ound  11%   of   to ta de a th s   [ 2] D is a bi li ti e s   th a of te oc c ur   a f te r   a   pe r s on  e xpe r ie nc e s   a   s tr oke   in c lu de   s p e e c pr obl e m s phy s ic a li m it a ti ons w e a kne s s   or   pa r a ly s i s   on  one   s id e   of   th e   body, dif f ic ul ty  i n gr a s pi ng or  hol di ng obje c ts , a nd de c r e a s e d c om m uni c a ti on a bi li ti e s   [ 3] .   R e s e a r c on  s tr oke   s how s   th a th is   c ondi ti on  r e qui r e s   s e r io us   a tt e nt io be c a u s e   it   c a ha ve   a   s ig ni f ic a nt   im pa c on  a   c ount r y s  e c onomi c   gr ow th I f   not   tr e a te qui c kl a nd  a ppr opr ia te ly s tr oke  c a c a u s e   s e r io us   c om pl ic a ti on s   s u c a s   de m e nt ia   [ 4] D e m e nt ia   i s   a   m e d ic a l   t e r m   th a t   r e f e r s   t o   a   n um b e r   of   s y m pt om s   a s s oc ia te w it a   s i gn if i c a nt   d e c l in e   in   c ogn it i ve   f u nc ti o n,   c a u s i ng  di s r u pt i on   in   a   p e r s o n s   da il y   a c t iv i ti e s   [ 5 ] .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 15, No. 1, Febr ua r y 2026 655 - 671   656   S ym p to m s   t h a of te o c c ur   in   de m e nt i a   i nc lu d e   di s tu r ba n c e s   i m e m or y,  ju d gm e nt   s ki l ls pr ob le m - s ol v in g,   la n gu a g e ,  a nd  in de pe nd e n c e  i n  d a i ly   a c ti vi ti e s   [ 6] .   T he r e  a r e  va r io us  w a y s  t ha c a n he lp  m e di c a s ta f f  qui c kl y i de nt if y w he th e r  s om e one  i s  e xpe r ie nc in g   s tr oke   s ym pt om s one   of   w hi c is   us in m a c hi ne   le a r ni ng  te c hnol ogy.  T he   us e   of   th is   te c hnol ogy  ha s   pr ove e f f e c ti ve   in   c la s s if yi ng  a nd  opt im iz in th e   de ve lo pm e nt   of   th e   he a lt s e r vi c e   s ys te m   [ 7] [ 9] F or   e xa m pl e ,   tr e a ti ng  pa ti e nt s   in f e c te w it h e a r di s e a s e   c a be   pr e di c te f r om   da ta   ge ne r a te by  th e   he a lt in du s tr s th a it  c a n he lp  a nd s a ve  s om e one s  l if e  i n t he  l ong te r m , a le a s it  c a n s hor te n t he  t im e  i ta ke s  t o f in d out i f  a   pa ti e nt  i s  di a gnos e d w it h t he  di s e a s e  be c a us e  i is  h e lp e d by the  m a c hi ne  l e a r ni ng me th od us e d   [ 10] , [ 11] .   T he r e   ha ve   be e s e v e r a pr e vi ous   s tu di e s   w it th e   s a m e   c a s e na m e ly   th e   pr e di c ti on  of   s tr oke .   E xi s ti ng  r e s e a r c ha s   a ppl ie s e v e r a m a c hi ne   le a r ni ng  m e th ods   f or   c la s s if ic a ti on,  in c lu di ng  th e   r a ndom   f or e s ( R F )   c la s s if ie r   m e th od,  a r ti f ic ia ne ur a ne twor ( ANN ) s uppor ve c to r   m a c hi ne   ( S V M ) C 4.5,  a nd  na ïv e   B a ye s   ( N B ) . T he  be s r e s ul f r om  pr e vi ous  r e s e a r c h w a s  9 8%  a c c ur a c y.   P r e vi ous   r e s e a r c r e la te to   s tr oke   pr e di c ti on,  th is   r e s e a r c us e th e   e xt r e m e   gr a d ie nt   bo os ti ng   ( X G B oos t )   m e th o a nd  a ls im pl e m e n te da ta   p r e - p r oc e s s in te c hn iq ue s   in c lu di ng  la be l E nc ode r a nd   de a li ng  w i th   e m p ty   va lu e s   us in th e   te c h ni que   o f   c ha ng in e m pt va lu e s   w i th   a ve r a ge   va lu e s T hi s   r e s e a r c h   a c hi e ve a a c c u r a c r a te   of   96%   [ 12 ] O th e r   s tu di e s   a ls pr e di c s tr oke   bu us e   di f f e r e nt   m e th o ds na m e l y   X GB oos t,   k - ne a r e s t   ne ig h bor   ( K N N ) NB RF S V M a nd   lo g is ti c   r e gr e s s io ( L R ) T he   im p le m e nt a ti on   o f   th e   p r e - p r oc e s s in g   te c hn iq ue   of   th is   r e s e a r c h   is   to   ove r c om e   m is s in va lu e s   a n no r m a li z e   da ta T he   r e s ul ts   of   th is   r e s e a r c r e a c he 91%   a c c u r a c y   [ 13 ] T he   ne x r e s e a r c ha s   th e   s a m e   to pi c na m e ly   s tr o ke   c la s s if ic a ti on  us in g   m a c hi ne   le a r ni n m e th ods ,   na m e l A N N ,   S V M ,   de c is io n   t r e e   ( D T ) ,   L R ,   a nd   ba gg in g   a nd boos t in g.  i m pl e m e n ta ti o n o f  t e c h ni que s   be f o r e  e n te r i ng  th e  c la s s if ic a t io n  pr oc e s s na m e ly  c le a ni ng da ta ,   in c lu de s   de a l in w i th   m is s in va lu e s   a nd  de le ti ng  dup li c a te   d a ta T he   r e s ul ts   o f   th is   r e s e a r c s ta te   t ha th e   be s le ve l   of   a c c ur a c y   is   9 5%   [ 14 ] .   N e xt ,   r e s e a r c h   on   th e   s a m e   to p ic   a ls o   us e s   s e ve r a l   m a c hi ne   le a r ni n g   m e th ods   in c l udi ng   NB RF LR KNN s t oc ha s ti c   gr a d ie nt   de s c e nt   ( S G D ) DT ,   a nd   m ul ti la ye r   pe r c e p tr o n   ( M L P ) T h is   r e s e a r c h   a ls a p pl ie s   s e ve r a p r e - pr oc e s s in te c h ni que s   to   f ir s t   ove r c om e   m is s in va lu e s   i th e   pr oc e s s in g   da ta s e t,   a nd   ove r c om e   da ta   im ba la nc e   i t he   da t a s e us in g   s ynt he ti c   m in o r i ty   ove r - s a m pl in g   te c hni que   ( S M O T E ) .   T he   r e s ul ts   o f   th is   r e s e a r c h   obt a in e a a c c ur a c r a te   o f   98 %   [ 15 ] T he   la te s r e s e a r c h   is   on  s tr oke   p r e di c ti on  m a c hi ne   le a r ni n a lg o r it hm s de ve l opm e nt   a nd  e va lu a ti on  o f   pr e di c ti on  m o de ls T hi s   r e s e a r c c a r r ie s   o ut   a   c o m pa r a ti ve   a na ly s is   o f   m a c h in e   le a r ni ng  m e th ods   us in g   da ta s e ts   w i th   ba la nc e a nd   unba la nc e d  da ta  c ond it i ons . T he  r e s u lt s   of  t h is   r e s e a r c h  ha ve  t he  be s t  a c c ur a c y  o f   96%  us i ng  th e   RF   m e th od   us in g ba la nc e d da ta   [ 16 ] .   T he r e   a r e   s hor tc om in gs   in   th a pr e vi ous   r e s e a r c f ir s tl h a s   not   a ddr e s s e th e   c ondi ti on  of   unba la nc e da ta th is   c a c a us e   th e   m ode to   be   bi a s e to w a r ds   th e   m a jo r it c la s s c a us in in a c c ur a te   e va lu a ti ons   s uc a s   m is le a di ng  a c c ur a c y,   a nd  th e   pot e nt ia f or   ove r f it ti ng  on  m a jo r it da ta A s   a   r e s ul t,   th e   m ode m a f a il   to   r e c ogni z e   or   pr e di c oc c ur r e nc e s   of   m in o r it c la s s e s   e f f e c ti ve ly r e duc in th e   ge ne r a l   a bi li ty   of   th e   m ode to   a da pt a nd  pr oduc in s ubopti m a s ol ut io ns   in   th e   r e le va nt   a ppl ic a ti on  c ont e xt   [ 17] A pa r f r om   th a t,   da ta   nor m a li z a ti on  te c hni que s   ha ve   not   be e i m pl e m e nt e d,  a nd  di f f e r e nc e s   in   s c a le   be twe e n   f e a tu r e s   c a s ig ni f ic a nt ly   a f f e c th e   pe r f or m a nc e   a nd  s ta bi li ty   of   th e   m ode l.   F e a tu r e s   w it a   la r ge r   r a nge   o f   va lu e s   te nd  to   h a ve   a   m or e   dom in a nt   in f lu e nc e   in   th e   le a r ni ng  pr oc e s s w hi le   f e a tu r e s   w it a   s m a ll e r   r a nge   of   va lu e s   m a pl a le s s   of   a   r ol e   or   be   ig nor e in   de te r m in in m o de pr e di c ti ons   [ 18] T he   la s te c hni que   th a is   not   a ppl ie is   k - f ol c r os s - va li da ti on  in   e va lu a ti ng  m a c hi n e   le a r ni ng  m ode ls th e r e   is   a   r is th a t   th e   e va lu a ti on  of   m ode pe r f or m a nc e   w il be   in c ons is te nt   a nd  s ubj e c ti ve B onl doi ng  one   di vi s io of   tr a in in g   da ta   a nd  va li da ti on  da ta e va lu a ti on  r e s ul ts   c a be   to opt im is ti c   or   pe s s im is ti c   de pe ndi ng  on  how   th e   da ta   is   r a ndoml y di vi de d, t hus  not  pr ovi di ng a n a c c ur a te  pi c tu r e  of  how  w e ll  t he  m ode c a n pr e di c uns e e n da ta   [ 19] .   T ge g oo a c c u r a c y r e l o one   o f   th e   da t a   p r e - p r o c e s s i ng  te c h ni que s ,   na m e ly   f e a tu r e   s e le c ti on   w he n   us in g   t hi s   m e th od  in   t he   c la s s i f ic a t io pr oc e s s .   R e c e nt   r e s e a r c h   o th e   e f f e c of   f e a t u r e   s e le c ti o on   th e   a c c u r a c of   m a c h in e   le a r n in m ode ls   ha s   m a de   a   m a j or   c ont r ib u ti on  to   t he   i de n ti f ic a t io p r oc e s s   [ 20 ] .   A pa r f r om   th a t,   th e   a c c u r a c o f   t he   m ode a c hi e ve s   g ood  r e s ul ts   by  a pp ly in th e   da t a   ba la nc in m e th od,   w hi c ha s   be e pr ove in   r e s e a r c h   r e ga r di ng   th e   im pa c of   t he   da ta   b a la nc i ng   a p pr oa c w i th   a   c a s e   s tu dy   [ 2 1] A no th e r   te c h ni que   t ha t   c a n   be   a p pl ie d   to   a c h ie ve   go od   e va l ua t io s c o r e s   is   da ta   no r m a l iz a ti on.   T h is   te c h ni que   ha s   a ls o   be e n   p r ove to   be   a b le   to   in c r e a s e   a c c u r a c in   t he   c la s s i f i c a t io pr oc e s s T hi s   ha s   be e n   done   i r e s e a r c in v e s t ig a ti ng  th e   i m p a c t   o f   da ta   n or m a li z a t io n   o c la s s i f ic a t io pe r f or m a nc e   [ 2 2] T h e   la s one   is   t he   i m p le m e nt a t io o f   th e   k - f ol c r os s - va li da t io n   te c h ni que T hi s   te c h ni que   is   n ot   a   f unc ti o n   th a i nc r e a s e s   a c c u r a c d i r e c t ly b ut   r a th e r   a e va lu a ti on   te c hni que   t ha t   he lp s   in   va l id a t in g   m ode l   pe r f o r m a nc e  be tt e r   [ 23 ] .   T hi s   s tu dy  c la s s if ie s tr oke   r is th r ough  a   s e r ie s   of   s ta ge s   c ons i s ti ng  of   da ta   pr e - pr oc e s s in g   ( im put a ti on  of   m is s in body  m a s s   in de ( B M I )   va lu e s ha ndl in out li e r s   us in th e   in te r qua r ti le   r a nge   ( I Q R )   m e th od,  e nc odi ng  c a te gor ic a va r ia bl e s   us in L a be lE nc ode r a nd  nor m a li z in num e r ic a f e a tu r e s   w it min - m a s c a li ng ) di vi di ng  th e   da t a   in to   tr a in in a nd  te s t   da ta a nd   a ppl yi ng  va r io us   ba la n c in te c hni que s   to   th e   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       St r ok e  pr e di c ti on us in g data bal anc in g m e th od and e x t r e m e  g r adi e nt  boos ti ng   ( A bd M iz w ar  A . R ahi m )   657   tr a in in da ta   us in S M O T E a da pt iv e   s ynt he ti c   s a m pl in ( A D A S Y N ) a nd  r a ndom   ove r s a m pl in ( R O S ) .     T he   m ode w a s   th e de ve lo p e us in g   th e   X G B oos a lg or i th m   w it hype r pa r a m e te r   tu ni ng,  in c lu di ng  va r ia ti ons   of   th e   s c a le _pos _w e ig ht   pa r a m e te r a nd  th e   E a s yE n s e m bl e   m e th od  a s   a   c om pa r is on.  P e r f or m a nc e   e va lu a ti on  w a s   c onduc te d   us in th e   a r e a   unde r   th e   r e c e iv e r   ope r a ti ng  c ha r a c te r is ti c   c ur ve   ( A U R O C )   a nd  a r e a   unde r   th e   pr e c is io n - r e c a ll   c ur ve   ( A U P R C )   m e tr ic s c a li br a ti on  pl ot s S ha pl e a ddi ti ve   e xpl a na ti ons   ( S H A P )   in te r pr e ta bi li ty   a na ly s is boot s tr a c onf id e nc e   in te r va ls a nd  e xt e r na va li da ti on  to   de te r m in e   th e   opt im a l   m ode f or  pr e di c ti ng s tr oke  r is k.       2.   M E T H O D     T h is   s e c t io n   e xp la in s   th e   r e s e a r c h   f lo w   r e ga r di n di s e a s e   c l a s s if ic a ti on,   s t a r ti ng   f r om   d a t a   a c qu i s it i on da t a   pr e - pr o c e s s i ng u s e   of   th e   X G B oo s m o de l,   a n e va lu a ti on  of   m o de p e r f or m a nc e   a s   in   F ig ur e   1 F ig ur e   1   c l e a r ly   il l us tr a te s  t h e   ov e r a ll  pr o c e s s  i n   a  v is ua m a nn e r T hu s ,  r e a d e r s   c a e a s il y  f ol lo w  t he  m e th od ol o gy.           F ig ur e  1.  R e s e a r c h f lo w       2 .1.   D at as e t   T hi s   r e s e a r c d a ta s e t   w a s   ta ke n   f r om   th e   K a ggl e   da t a s e t   [ 24] .   T hi s   da ta s e ha s   5 , 110  d a ta   poi nt s ,   c ons is ts   of   12  a tt r ib ut e s 10  in de p e nde nt   va r ia bl e s   a s   f e a tu r e s ,   a nd  one   de pe nde nt   va r ia bl e   a s   a   c la s s   la be l.   T he   10  in de p e nde nt   va r ia bl e s   in   que s ti on  a r e   ge nd e r a ge hype r te ns io n,  he a r t_ di s e a s e ,   e ve r _m a r r ie d,  w or k_t ype r e s id e nc e _t ype ,   a vg_gluc os e _l e ve l,   bm i,   a nd  s m ok in g_s ta tu s T he   la b e is   th e   s tr oke   a tt r ib ut e   in   th is   da ta s e t.   T he   c la s s   ha s   two  va lu e s 0,  w hi c m e a n s   th e r e   i s   no  in di c a ti on  of   s tr oke a nd  1,  w hi c m e a n s   th e r e  i s  a n i ndi c a ti on of  s tr oke . T a bl e  1  da ta s e de s c r ib e s  t he  da ta s e f e a tu r e  i nf or m a ti on.     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 15, No. 1, Febr ua r y 2026 655 - 671   658   T a bl e  1.  D a ta s e t   No   F e a t ur e   I nf or m a t i on   1   G e nde r   F e m a l e   M a l e   2   A ge   A ge   3   H ype r t e ns i   1 hype r t e ns i on   0 doe s  not  ha ve  hype r t e ns i   4   he a r t _di s e a s e   1 H a ve  he a r t  di s e a s e   0 doe s  not  ha ve  he a r t  di s e a s e   5   e ve r _m a r r i e d   1 m e a ns  m a r r i e d   0 m e a ns   not   m a r r i e d   6   w or k_t ype   C hi l dr e n   P e r s ona l   N e ve r  w or k   G ove r nm e nt  w or k   E nt r e pr e ne ur   7   R e s i de nc e _t ype   R ur a l   U r ba n   8   a vg_gl uc os e _l e ve l   A ve r a ge  gl uc os e  l e ve l   9   bm i   body m a s s  i nde x   10   s m oki ng_s t a t us   N e ve r  s m oke d   U s e d t o s m oke   11   S t r oke   0 ( C l a s s  doe s  not  i ndi c a t e  s t r oke )   1 ( C l a s s  i ndi c a t e s t r oke )       2.2 .     P r e - p r oc e s s in g d at a   I th is   s tu dy,  th e   da ta   pr e pr oc e s s in s ta g e   c on s is ts   of   f our   m a in   s te ps .   T h e s e   s te p s   in c lu de   da ta   im put a ti on,  c a te gor ic a e nc odi ng,  out li e r   ha ndl in g,   a nd  f e a tu r e   s c a li ng.  T he s e   s te ps   a im   to   e ns ur e   th a th e   da ta  us e d i n t he  t r a in in g m ode is  c le a n, c ons i s te nt , a nd r e a dy f or  pr oc e s s in g by ma c hi ne  l e a r ni ng a lg or it hm s .     2.2.1.  D at im p u t at io n   D a t a s e f e a tu r e s   th a ha ve   e m pt va l ue s na m e l t he   B M I   f e a tu r e w e   c ho s e   a   te c h ni q ue   to   o ve r c o m e   th i s   by  c h a n gi n t he   e m pt va l u e s   to   th e   a v e r a g e   va l u e   of   B M I   ha vi n a   s tr ok e   a n B M I   n ot   ha vi n a   s tr ok e .   T h e   e m pt y   v a lu e s   of   th e   e n ti r e   d a t a s e f e a tu r e s   c a n   b e   s e e n   in   T a bl e   2.   T a b le   s h ow s   th a t he   e m pt v a l ue   i s   201   d a t a ,   i f  t h e  e m pt y  va lu e  i n   th e  B M I   f e a tu r e   h a s   c l a s s   0,   t he n  t he  e m p ty   v a l ue   i s  c h a ng e d t o   th e  a v e r a ge  B M I   va l ue   o f   c l a s s   0,   a nd   v ic e   v e r s a   if   t he   e m p ty   v a lu e   in   t he   B M I   f e a t ur e   ha s   c la s s   1 th e n   th e   e m pt v a lu e   i s   c h a ng e d t o t he  a ve r a ge  B M I  v a lu e   of   c l a s s  1 T he  a ve r a g e   B M I   v a lu e s   of   c l a s s e s   a nd  1  c a n  b e   s e e n i T a b le  3.       T a bl e  2. F e a tu r e s  t h a ha ve  a n e m pt y va lu e  c ondi ti on   No .   F e a t ur e   N um be r  of  e m pt y va l ue s   1   G e nde r   0   2   A ge   0   3   H ype r t e ns i   0   4   he a r t _di s e a s e   0   5   e ve r _m a r r i e d   0   6   w or k_t ype   0   7   R e s i de nc e _t ype   0   8   a vg_gl uc os e _l e ve l   0   9   bm i   201   10   s m oki ng_s t a t us   0   11   S t r oke   0       T a bl e  3. A ve r a ge   B M I   c la s s   1 a nd  B M I   c la s s   0   No .   F e a t ur e   A ve r a ge  va l ue   1   B M I  i ndi c a t e s   s t r oke  ( 1)   30.47   2   B M I  doe s  not  i ndi c a t e   s t r oke  ( 0)   28.82       T a bl e   s how s   a   c om pa r is on  of   th e   a ve r a ge   B M I   va lu e s   be t w e e two  c la s s e s c la s s   ( in di c a ti ng  s tr oke )   a nd  c la s s   ( not   in di c a ti ng  s tr oke ) B a s e on  th e   c a lc ul a ti on  r e s ul ts in di vi dua ls   w ho  e xpe r ie nc e a   s tr oke   ha a n   a ve r a g e   B M I   of   30.47,  w hi le   in di vi dua ls   w ho   di not   e xpe r ie nc e   a   s tr oke   ha d   a a ve r a ge   B M I   of  28.82.   A ll  s ta ge s  of  t hi s  pr oc e s s  c a n be   s e e n i n F ig ur e  2.   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       St r ok e  pr e di c ti on us in g data bal anc in g m e th od and e x t r e m e  g r adi e nt  boos ti ng   ( A bd M iz w ar  A . R ahi m )   659       F ig ur e  2. V is ua li z a ti on of  t he   e xpe r im e nt  s e tu p f or  f il li ng i n bl a nk va lu e s  i th e  B M I   f e a tu r e       2.2.2.  C at e gor ic al   e n c od in g   A ppl yi ng  th e   L a be lE nc ode r   te c hni que   to   c onve r t   c a te gor ic a f e a tu r e s   in to   num e r ic   da ta onl y   a   f e w   a tt r ib ut e s   a r e   c ha ng e in   th is   l a be li ng,  in c lu di ng  ge nd e r e ve r _m a r r ie d,  w or k_t ype r e s id e nc e _t ype a nd  s m oki ng_s ta tu s T he   r e s ul ts   of   th is   pr oc e s s   c a be   s e e in   T a b le   4.   F ig ur e   s how s   th e   c om pl e te   pr oc e s s   of   c onve r ti ng  c a te gor ic a va lu e s   to   num e r ic   va lu e s   us in L a be lE n c ode r .   S in c e   m a c hi ne   le a r ni ng  a lg or it hm s   li ke   X G B oos t   c a n only pr oc e s s  nume r ic  da t a , l a be e nc odi ng t e c hni que s  a r e  us e d t o t r a ns f or m  t hos e  f e a tu r e s .       T a bl e  4. L a be lE nc ode r   r e s ul ts   G e nde r   A ge   H ype r t e ns i   H e a r t _ di s e a s e   E ve r _   m a r r i e d   W or k _   t ype   R e s i de nc e _ t ype   A vg _ G l uc os e _   l e ve l   bm i   S m oki ng _   s t a t us   S t r oke   1   67   0   1   1   2   1   228.69   36.6   1   1   0   61   0   0   1   3   0   202.21   30.47   2   1   1   80   0   1   1   2   0   105.92   32.5   2   1   0   9   0   0   1   2   1   171.23   34.4   3   1   0   79   1   0   1   3   0   174.12   24   2   1   0   82   0   1   0   2   1   215.6   24.9   2   0   0   54   0   0   1   0   0   91.61   25.2   2   0   0   49   0   0   1   2   0   138.16   19.4   2   0   0   24   0   0   1   2   1   75.23   29   2   0   0   37   0   0   1   2   0   75.18   48.2   1   0   1   34   0   1   1   2   1   106.23   28.82   1   0           F ig ur e  3. V is ua li z a ti on of   th e  e xpe r im e nt  s e tu p f or  c onve r ti ng  c a te gor ic a va lu e s  t o nume r ic  va lu e s     w it h L a be lE nc ode r       2.2.3.  O u t li e r   h an d li n g   T a voi th e   e xt r e m e   in f lu e nc e   of   unr e pr e s e nt a ti ve   va lu e s   [ 25] out li e r   de te c ti on  a nd  ha ndl in a r e   pe r f or m e on  num e r ic   f e a tu r e s   s uc a s   a vg_gluc os e _l e v e a nd  B M I .   T hi s   pr oc e s s   us e s   th e   I Q R   m e th od,   de te r m in in g t he  l ow e r  a nd uppe r  bounds  ba s e d on the   ( 1) .      = 3 1   ( 1)     I nf or m a ti on:   Q1   is   f ir s qua r ti le   ( 25 th   pe r c e nt il e )   →  lo w e r   li m i of   th e   f ir s 25%   of   da ta .   is   t hi r qua r ti le   ( 75 th   pe r c e nt il e )   →  uppe r   li m it   of   th e   la s 25%   of   da ta .   I Q R   is   i nt e r qua r ti le   r a nge s how s   th e   s pr e a of   th e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 15, No. 1, Febr ua r y 2026 655 - 671   660   m id dl e   da ta   ( 50%   of   th e   da ta ) .   A f te r   th e   Q1   a nd  Q3   va lu e s   a r e   obt a in e d,  th e   lo w e r   a nd  uppe r   li m it s   f o r   de te c ti ng outl ie r s  a r e  c a lc ul a te a s   ( 2)  a nd ( 3) .        = 1 1 . 5 ×    ( 2)        = 3 + 1 . 5 ×    ( 3)     I nf or m a t io n :   l ow e r   bou nd   i s   m i ni m um   v a lu e   t ha i s   s ti l c on s i de r e d nor m a l ,   u pp e r   bou nd   i s   t he   m a xi m um  v a lu e   th a i s  s ti l c on s i d e r e d n or m a l a nd   v a l ue s   ou ts id e  t he  r a ng e   lo w e r  bo und upp e r  bo un a r e  c on s i de r e d  o ut l ie r s .     2.2.4.  F e at u r e   s c al in g u s e s  t h e  m in - m ax n or m al iz at io n  t e c h n iq u e   T e n s ur e   th e   va lu e s   of   w id e ly   di f f e r e nt   da t a s e t   f e a tu r e s   h a ve   a   uni f or m   s c a le   w he bui ld in g   m a c hi ne   le a r ni ng  m ode ls w e   ne e to   s t a nda r di z e O ne   of   th e   s ta nda r di z a ti on  te c hni que s   u s e is   min - m a nor m a li z a ti on,  w hi c c ha nge s   th e   or ig in a da ta   li ne a r ly   s th a th e   va lu e s   be twe e n   a tt r ib ut e s   a r e   b a la nc e d.   W it th is   nor m a li z a ti on,  a tt r ib ut e   va lu e s   a r e   tr a ns f or m e s uc th a th e r a nge   be twe e a nd   1,  a ll ow in f or   c ons is te nt   c om p a r is ons   a c r os s   a tt r ib ut e s   [ 26] N um e r ic   f e a tu r e s   w it w id e ly   va r yi ng  va lu e   r a ng e s s uc a s   a ge a ve r a g e   gl uc o s e   le v e l,   a nd  body   w e ig ht w e r e   nor m a li z e d   us in th e   min - m a nor m a li z a ti on  m e th od  to   ke e e a c a tt r ib ut e s   va lu e   w it hi th e   r a nge   of   to   1,  pr e ve nt in a ny  s in gl e   f e a tu r e   f r om   dom in a ti ng   th e   m ode l s   le a r ni ng  pr oc e s s   due   to   di f f e r e nc e s   in   s c a le O nl th e s e   f e a tu r e s   r e qui r e   nor m a li z a ti on  be c a us e   th e y   a r e   c ont in uous   num e r ic   va lu e s   w it s ig ni f ic a nt   va r ia ti ons   in   va lu e s O th e r   f e a tu r e s s u c a s   ge nd e r s m oki ng  s ta tu s oc c upa ti on,  r e s id e n c e   ty pe a nd  s e x,  w e r e   c a te gor iz e u s in L a be lE nc ode r a nd  th e   hyp e r te ns io a nd   he a r di s e a s e   f e a tu r e s   w e r e   a lr e a dy   bi na r da ta   s e ts   of   a n a nd  th e r e f or e   di not   r e qui r e   a ddi ti ona nor m a li z a ti on   [ 27] .   T hi s  m e th od c a n us e  t he  ( 4 ).     = ( ) ( )   ( 4 )     W he r e   N   is   th e   nor m a li z e va lu e   ( th e   ne w   va lu e   a f te r   tr a ns f or m a ti on) ;   x   is   th e   or ig in a l   va lu e   of   a a tt r ib ut e   be f or e   nor m a li z a ti on ;   m in V al ue   is   th e   m a xi m um   va lu e   of   th e   a t tr ib ut e a nd   m ax V al ue   is   th e   nor m a li z e d   va lu e   in   th e   r a nge   0,  1.   m in R ange   is   th e   lo w e r   bound  of   th e   de s ir e ne w   s c a le   r a ng e   ( us ua ll 0) ;   a nd  m ax R ange   is   th e   uppe r   bound  of   th e   de s ir e ne w   s c a le   r a nge   ( us u a ll 1) .   T he   e nt ir e   nor m a li z a ti on  pr oc e s s   c a be   s e e n     in  F ig ur e  4.           F ig ur e  4. V is ua li z a ti on of  t he   e xpe r im e nt  s e tu p f or  nume r ic  f e a tu r e s  t ha ha ve  ve r y di f f e r e nt  va lu e  r a nge s   us in g m in - m a x nor m a li z a ti on       2.3.   S p li t   d a t a   T r a in in g/ te s da ta   s pl it   di vi de s   th e   da ta s e in to   tr a in in da ta   a nd  te s t   da ta .   T he   s pl it   in   th is   s tu dy  di vi de s   th e   tr a in in da ta   a nd  te s d a ta   in to   70/ 30  us in a   s tr a ti f ie s pl it   to   m a in ta in   c la s s   pr opor ti on  ba la nc e T he   s tr a ti f ie 5 - f ol c r os s - va li da ti on  pr oc e s s   is   a ppl ie onl to   th e   tr a in in da ta   to   e va lu a te   a nd   opt im is e   m ode pe r f or m a nc e I c ont r a s t,   th e   te s da ta   is   us e onc e   in   th e   f in a s ta ge   to   m e a s ur e   th e   m ode l' s   ge ne r a li s a ti on  a bi li ty   w it hout   th e   r is of   da ta   le a ka ge W it th is   di vi s io n,  th e   pr im a r obj e c ti ve   is   to   e va lu a te   th e   m ode l s   pe r f or m a nc e   w he n   m a ki ng  pr e di c ti ons   us in g   a   to ta of   1 , 536   te s da ta   poi nt s .   I ge ne r a l,   m a c hi ne   le a r ni ng  m ode ls   c a pr oduc e   good  a c c ur a c if   th e ha ve   a   s m a ll   a m ount   of   te s da ta   [ 28] .   T he r e f or e in   th is   s tu dy,  w e   in c r e a s e th e   a m ount   of   t e s d a ta   a nd  e va lu a te w h e th e r   th e   m ode l   pr oduc e s a ti s f a c to r r e s ul ts .   T a bl e   5   il lu s tr a te s  t h e  da ta  di s tr ib ut io n.   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       St r ok e  pr e di c ti on us in g data bal anc in g m e th od and e x t r e m e  g r adi e nt  boos ti ng   ( A bd M iz w ar  A . R ahi m )   661   T a bl e  5. R e s ul ts  of  f e a tu r e  s e l e c ti on us in g t he  ba c kw a r d e li m in a ti on me th od   F ol d= k 1 k 5   A m ount  of   t r a i ni ng da ta   T e s t   da t a  a m ount   A m ount  of   da t a   3 , 582   1 , 536   5 , 118       2.3.1.  S am p li n g   T hi s   r e s e a r c da ta s e e xpe r ie nc e unb a la nc e d a ta   c ondi ti ons ,   w e   a ppl ie s e ve r a m e th od s one   of   w hi c w a s   th e   u s e   of   th e   S M O T E   m e th od  to   ove r c om e   th is . T h is   m e th od  c a ha ndl e  a   c la s s   im ba la nc e   in   th e   da ta s e by  b a la nc in th e   num be r   of   m in or it c la s s e s   s th a it   is   c om pa r a bl e   to   th e   m a jo r it c la s s T h e   r e s ul t   of  t hi s  t e c hni que  i s  s ynt he ti c  d a ta  c r e a te d ba s e d on the   K N N   [ 29]   a s  de f in e d i n ( 5 ).     = + (  )     ( 5 )     N e xt a ppl yi ng  th e   R O S   m e th od,  th is   m e th od  c a n   a ls pe r f or m   da ta   ba la nc in g.  T hi s   m e th od  w or ks   by  r a ndoml c opyi ng  th e   m in or it c la s s   ( f e w e r   c la s s e s )   unt il   th e   num be r   is   c om pa r a bl e   to   th e   m a jo r it ( m or e   c la s s e s )   [ 30] .   F ur th e r m o r e th e   im pl e m e nt a ti on  of   th e   r a nd om   unde r s a m pl in ( R U S )   m e th od  w or ks   by   r a ndoml y r e duc in g t he  numbe r  of  m a jo r it y  c la s s e s  s o t ha it  i s  pr opor ti ona to  t he  numbe r  of  m in o r it y c la s s e s T hi s  a ppr oa c h r e duc e s  t he  m a jo r it y r e pr e s e nt a ti on i n t he  da t a s e t   [ 31] .   T he   la tt e r   im pl e m e nt s   th e   A D A S Y N   m e th od,  th is   m e th od  ope r a te s   by  id e nt if yi ng  th e   r e la ti ve   di f f ic ul ty   le ve of   e a c m in or it e xa m pl e   in   th e   d a ta s e t,   th is   is   done   by  c a lc ul a ti ng  th e   r a ti b e twe e th e   num be r   of   m a jo r it y   ne ig hbor s   a nd  th e   to ta num be r   of   ne ig hb or s   ( m a jo r it y   a nd  m in o r it y)   f or   e a c m in or it y   e xa m pl e M in or it e xa m pl e s   th a ha ve   lo w e r   r a ti os   a r e   c ons id e r e m or e   di f f ic ul a nd  m o r e   im por ta nt   to   e xpa nd.  A D A S Y N   th e c r e a te s   s ynt he ti c   s a m pl e s   f or   th e s e   e xa m pl e s   by  e xt e ndi ng  th e   li ne   be twe e th e   m in or it e xa m pl e   a nd  it s   ne ig hbor s   in   f e a tu r e   s pa c e f oc us in on  th e   e xa m pl e s   th a a r e   m os di f f ic ul f or   th e   m ode to   id e nt if y.  T hi s   a ppr oa c h   e ns ur e s   th a th e   r e s ul ti ng  d a ta s e h a s   a   be tt e r   r e pr e s e nt a ti on  of   m in or it c la s s e s im pr ovi ng  m ode pe r f or m a nc e   in   c a s e s   w it s ig ni f ic a nt   c la s s   im ba la nc e   [ 32] A ove r vi e w   of   th e   e nt ir e  da ta  ba la nc in g pr oc e s s  w it h a ll  t he  m e th ods  u s e d c a n be  s e e n i n F ig ur e  5.           F ig ur e  5. D a ta  ba la nc in g a nd non - ba la nc in g r e s ul t s       2.4 .     C la s s if i c at io n  w it h   X G B oos t  al gor it h m , E as yE n s e m b le   c la s s i f ie r ,   an d   h yp e r p ar am e t e r  t u n n in g   T hi s   s tu dy  e m pl oys   th r e e   m ode ll in m e th ods   to   e v a lu a te   a lg or it hm   pe r f or m a nc e   unde r   va r io us   da ta   c ondi ti ons in c lu di ng  ove r s a m pl e d   da ta   a nd  or ig in a unba la n c e da ta dur in bot th e   c la s s if ic a ti on  a nd   hype r pa r a m e te r   tu ni ng  s ta ge s I th e   f i r s m e th od,  th e   X G B oo s a lg or it hm   w a s   tr a in e on  t r a in in da ta   th a t   ha d unde r gone  ove r s a m pl in g w it h S M O T E , A D A S Y N , a nd  R O S . S in c e  t he  c la s s  di s tr ib ut io n i n  t hi s  da ta  w a s   ba la nc e d,  th e   s e tt in gs   w e r e   m a d e   w it hout   th e   s c a l e _pos _w e ig ht   pa r a m e te r I th e   s e c ond  m e th od,  th e   c ha r a c te r is ti c s   of   c la s s   im ba la nc e   w e r e   m a in ta in e by   us in X G B oos on  th e   or ig in a d a ta   w it hout   s a m pl in g.  T hi s   m e th od  a ll ow s   th e   s c a le _pos _w e ig ht   pa r a m e te r   to   be   i nc lu de in   th e   hype r pa r a m e te r   s e a r c s pa c e   be c a us e   it   s e r ve s   to   im pos e   a   gr e a te r   pe na lt on  pr e di c ti on  e r r or s   in   m in or it y   c la s s e s T hi s   e n a bl e s   th e   m ode to  l e a r n f r om  i m ba la nc e d c la s s  di s tr ib ut io ns  m or e  pr opor ti ona ll y.   X G B oos c om bi ne s   boo s ti ng  a nd  gr a di e nt   boos ti ng  m e th od s I boos ti ng,  X G B oos is   us e d   to   c la s s if e r r or s   f r om   pr e vi ous   m ode ls a nd  it   i s   us e   of   gr a di e nt   de s c e nt   he lp s   m in im iz e   e r r or s   dur in th e   c r e a ti on  or   de ve lo pm e nt   of   ne w   m ode ls   [ 33] .   X G B oos r e qui r e s   s e ve r a pa r a m e t e r s   to   obt a in   a opt im a l   m ode c a ll e hype r pa r a m e te r s   w hi c a r e   us e to   a dj us va r io us   a s pe c t s   of   m a c hi ne   le a r ni ng  s th a th e c a in f lu e nc e   th e   pe r f or m a nc e   of   th e   m e th od  in   pr oc e s s in da ta s e ts s e v e r a pa r a m e te r s   a r e   us e to   im pr ove   c la s s if ic a ti on us in g t he   X G B oos m e th od   [ 34] , c a n be  s e e n i T a bl e   6 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 15, No. 1, Febr ua r y 2026 655 - 671   662   T a bl e   6 . P a r a m e te r s  i n X G B oos m e th od   P a r a m e t e r   I nf or m a t i on   m a x_de pt h   M a xi m um  de pt h of  t he  t r e e .   e t a  ( l e a r ni ng_r a t e )   P r e ve nt s  ove r f i t t i ng by r e duc i ng s i z e   m i n_c hi l d_w e i ght   M i ni m um  w e i ght  of  c hi l d_node   n_e s t i m a t or s   N um be r  of  t r e e s   s ubs a m pl e   R a ndom l s a m pl i ng f r om  t r a i ni ng da t a  be f or e   c ons t r uc t i ng t he  t r e e .   r a ndom _s t a t e   i nt e r na l  r a ndom  num be r  ge ne r a t or  i ni t i a l i z a t i on       H ype r pa r a m e te r   tu ni ng  w a s   pe r f or m e us in th e   g r id   s e a r c m e th od,  w hi c te s ts   a ll   pa r a m e te r   c om bi na ti ons   in   a   pr e de te r m in e s e a r c s pa c e T he   r a nge   o f   va lu e s   us e in c lu de m a x_d e pt w it f iv e   va r ia ti ons   ( 8,  10,  11,  13,  15 ) le a r ni ng_r a te   w it h   f iv e   va lu e s   ( 0.01,  0.02,  0.05,  0.07,  0.1) ,   m in _c hi ld _w e ig ht   w it two  va lu e s   ( 0.5  a nd  1.0) a nd   n_e s ti m a to r s   w it two   va r ia ti ons   ( 150  a nd  300) T he   s ubs a m pl e   pa r a m e te r   is   lo c ke a a   v a lu e   of   0.5  to   m a in ta in   c ons i s te nc in   th e   pr opor ti on  of   s a m pl e s   us e in   e a c tr e e w hi le   r a ndom_s ta te   is   s e to   42  to   e ns ur e   r e pr oduc ib il it y.  W it th is   c onf ig ur a ti on,  th e   to ta num be r   of   hype r pa r a m e te r   c om bi na ti ons   te s te is   100  ( 5 × 2 × 1) E a c c om bi na ti on  is   e va lu a te us in k - f ol c r os s - va li da ti on  ( k= 5) r e s ul ti ng  in   a   to ta of   500   m ode tr a in in gs .   T hi s   a ppr oa c e ns ur e s   th a hyp e r pa r a m e te r   s e le c ti on  i s   s ta bl e c on s is te nt , a nd  c a p a bl e   of   r e pr e s e nt in th e  m ode l' s   pe r f or m a nc e   in   a   ge ne r a li z a bl e   m a nne r   on uns e e n da ta   T he  t hi r d m e th od us e s  a n E a s yE ns e m bl e   c la s s if ie r   on t he  i ni ti a l  da ta  t o a ddr e s s  da ta  i m ba la nc e . T hi s   m e th od w or ks  by unde r s a m pl in g t he  m a jo r it y  c la s s  t o f or m  s e v e r a ba la nc e d s ubs e t s . T he n, i n e a c h s ubgr oup,   s e ve r a w e a m ode l s   a r e   tr a in e d,  a nd  a   pool in m e c ha ni s m   is   u s e to   c om bi ne   th e ir   pr e di c ti ons T h e   r e s ul is   a   m ode th a is   m or e   r e s i s ta nt   to   c la s s   im ba la nc e  a nd  m or e  s ta b le A ddi ti ona ll y,  w e   pe r f or m   pa r a m e te r   tu ni ng  on  th e   m ode us in E a s yE ns e m bl e T h e   pa r a m e te r s   w e   us e   a r e   n_e s ti m a to r s ba s e _ e s ti m a to r   ( a   DT   w it two   m a x_de pt h) a nd  s ubs ti tu ti on;   th e   be s v a lu e s   f or   e a c c a be   f ound  by  te s ti ng  th e   m e th od,  s pe c if ic a ll th r ough a  gr id  s e a r c h vi e w .     2.5 .     E val u at io n  an d   i n t e r p r e t at io n   M ode pe r f or m a nc e   e va lu a ti on  is   c onduc te c om pr e he ns iv e ly   by  c om bi ni ng  s e ve r a ke m e tr ic s I a ls in c lu de s   unc e r ta in ty   a n a ly s is ,   c a li br a ti on  m e a s ur e m e nt s m ode in te r pr e ta bi li ty a nd  e xt e r na va li da ti on   to   e ns ur e   g e ne r a li s a ti on  c a pa bi li ti e s .   T hi s   e va lu a ti on  a ppr oa c h   is   de s ig ne in   a c c or da n c e   w it b e s pr a c ti c e s   in  m a c hi ne  l e a r ni ng - ba s e d pr e di c ti ve  m ode ll in g i n t he  he a lt h do m a in  a nd f or  ha ndl in g i m ba la nc e d da ta .     2.5.1.  A U R O C  an d  A U P R C   A U R O C   a nd  A U P R C   is   us e d   to   a s s e s s   th e   di s c r im in a to r pe r f or m a nc e   of   a   m ode l.   A U R O C   a s s e s s e s   th e   m ode l s   a bi li ty   to   di s ti ngui s be twe e pos it iv e   a nd  ne ga ti v e   c la s s e s   a v a r io us   de c i s io th r e s hol ds I c ont r a s t,   A U P R C   a s s e s s e s   unba la nc e da t a s e t s   m or e   a c c ur a te ly   be c a u s e   it   f oc us e s   on  th e   r e la ti ons hi be twe e pr e c is io a nd  r e c a ll   f or   m in or it c la s s e s .   U s in th e s e   two  m e tr ic s   e ns ur e s   a unbi a s e a nd ba la nc e d e v a lu a ti on, pa r ti c ul a r ly  w he n pr e di c ti ng t he  r is k of  r a r e  e ve nt s   [ 35] .     2.5.2.  C on f id e n c e   in t e r val s   T il lu s tr a te   th e   s ta ti s ti c a unc e r ta in ty   of   th e   e va lu a ti on  r e s ul ts e a c pe r f or m a nc e   m e tr ic   is   a c c om pa ni e by   a   c onf id e nc e   in te r va l.   C onf id e n c e   in te r va ls   a r e   c a lc ul a te d   th r ough  r e pe a te boot s tr a ppi ng  on  th e   te s da ta a nd  th e   e s ti m a te s   obt a in e r e f le c th e   va r ia b il it of   m ode pe r f o r m a nc e   a c r os s   di f f e r e nt     s a m pl e s   [ 36] C om bi ni ng  C I s   im pr ove s   th e   r e li a bi li ty   of   in te r pr e ta ti on  a nd  a ll ow s   f or   be tt e r   c om pa r is ons   be twe e n m ode ls .     2.5.3.  C al ib r at io n   p lo t s   T a s s e s s   c a li br a ti on,  c a li br a ti on  pl ot s   a nd   a ddi ti ona c a li br a ti on  s c or e s ,   s u c a s   th e   B r ie r   s c or e a r e   us e d.  C a li br a ti on  de te r m in e s   th e   le ve of   li ke li hood  of   th e   m ode l' s   pr e di c ti ons   c om pa r e to   th e   a c tu a l   pr oba bi li ty   of   e ve nt s C a li br a ti on  pl ot s   a r e   us e to   a s s e s s   w h e th e r   th e   m ode te nds   to   be   ove r c onf id e nt   in   it s   pr e di c ti ons C li ni c a a ppl ic a ti ons   a nd  d e c is io s uppor s ys t e m s   r e qui r e   good  m ode ls   be c a u s e   th e c a di s ti ngui s h c la s s e s   a nd ge ne r a te  w e ll - c a li br a te d pr oba bi li ti e s   [ 3 7] .     2.5.4.  E xp la in ab il it y   U s in g   th e   e xpl a in a bl e   m e th od,  S H A P th e   a s pe c of   in te r pr e ta bi li ty   w a s   e x a m in e d.  T hi s   s tu dy   pr ovi de s   a unde r s ta ndi ng  of   th e   c ont r ib ut io of   e a c f e a tu r e   to   m ode pr e di c ti ons   a bot th e   gl oba le ve ( a c r os s   th e   e nt ir e   da ta s e t)   a nd  th e   lo c a l   le ve ( f or   in di vi dua pr e di c ti ons ) T h e   e x pl a in a bi li ty   a ppr oa c h   m a ke s   th e  m o de c l e a r   a nd  f a c i li t a t e s   s t a k e h ol d e r s ,  e s pe c i a ll y t ho s e   w or ki ng  i n t he  m e di c a or   pub li c  p ol i c y  f i e l ds   [ 3 8] .   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       St r ok e  pr e di c ti on us in g data bal anc in g m e th od and e x t r e m e  g r adi e nt  boos ti ng   ( A bd M iz w ar  A . R ahi m )   663   2.5.5.  D e c is io n   an al ys is   I a ddi ti on  to   s ta nda r m e tr ic s a   de c is io a na ly s i s   w a s   pe r f or m e to   e va lu a te   th e   m ode l' s   va lu e   in   r e a l - w or ld   de c is io n - m a ki ng.  D e c is io c ur ve   a na ly s is   ( D C A ) w hi c a s s e s s e s   th e   ne be ne f it   of   th e   m ode a t   va r io us   r is th r e s hol ds is   in c lu de in   th is   a na ly s i s D C A   s e r ve s   to   e va lu a te   w he th e r   th e   m ode tr ul ha s   c li ni c a or  ope r a ti ona a dva nt a ge s  ove r  ba s ic  m e th ods   s uc h a s  t r e a t - a ll  or  t r e a t - none .   T he r e f or e , t he  e va lu a ti on  not  onl y c ons id e r s  s ta ti s ti c a pe r f or m a nc e  but  a ls o t he  va lu e  of  t he  m ode in  r e a l - li f e  s it ua ti ons   [ 39] .     2.5.6.  E xt e r n al   val id at io n   T he   tr a in e a nd  e va lu a te m ode i s   th e te s te th r ough  e xt e r n a va li da ti on  w it da ta   f r om   va r io us   s our c e s   or   ti m e   pe r io ds E xt e r na l   va li da ti on  s how s   th e   m ode l s   pe r f or m a nc e   in   s it ua ti ons   out s id e   th e   in it ia l   tr a in in da ta   di s tr ib ut io n.  T hi s  s te i s   c r uc ia l   f or   a s s e s s in th e  ge ne r a li s a ti on  a nd   s tr e ngt of   th e   m ode l   a nd  i s   e s s e nt ia in  pr e di c ti ve  r e s e a r c h a im e a w id e r  a ppl ic a ti on   [ 40] .       3.   R E S U L T S  A N D  D I S C U S S I O N   T hi s   s e c ti on  pr e s e nt s   th e   r e s ul ts   of   th e   m ode ll in a nd  e va lu a ti on  pr oc e s s   of   th is   s tu dy.  T f ul f il   th e   r e s e a r c obj e c ti ve s a   c om pr e he ns iv e   a na ly s is   w a s   c onduc te to   e va lu a te   th e   pe r f or m a nc e   o f   th e   X G B oos t   m ode unde r   th r e e   di f f e r e nt   c ondi ti ons ove r s a m pl in da ta or ig in a da ta   w it w e ig ht   a dj us tm e nt   us in g   s c a le _pos _ w e ig ht a nd  or ig in a da ta   pr oc e s s e u s in th e   E a s y E ns e m bl e   c la s s if ie r T e va lu a te   th e   pr a c ti c a l   be ne f it s   of   th e   m ode in   de c is io m a ki ng,  de c is io a na ly s is   in c lu de pe r f or m a nc e   e va lu a ti on  us in A U R O C   a nd  A U P R C   m e tr ic s pr e di c ti on  c a li br a ti on,  unc e r ta in ty   l e ve ls   th r ough  c onf id e nc e   in te r va ls m ode l   in te r pr e ta bi li ty   us in S H A P a nd  de c is io a na ly s is T e ns ur e   th e   m ode l s   ge ne r a li s a ti on  a bi li ty   to   da ta   out s id e   th e   tr a in in di s tr ib ut io n,  e xt e r na v a li da ti on  w a s   a l s pe r f or m e d.  T he   f ol lo w in a r e   th e   te s r e s ul t s   f or   th e  or ig in a da ta  w it h w e ig ht  a dj us tm e nt  us in g s c a le _pos _ w e ig ht , a s  s how n i n F ig ur e  6.                       F ig ur e  6. E va lu a ti on  r e s ul ts   of   A U R O C   a nd   A U P R C c onf id e nc e  i nt e r va ls , c a li br a ti on plot s , e xpl a in a bi li ty de c is io n a na ly s is , a nd e xt e r na v a li da ti on  in  t e s ti ng or ig in a da ta  w it h t he  X G B oos m e th od us in g t he   s c a le _pos _ w e ig ht  pa r a m e te r       F ig ur e   s how s   th a th e   X G B oos m ode c a li br a te us in s c a le _pos _w e ig ht   e xhi bi ts   s ol id   pr e di c ti ve   pe r f or m a nc e   on  th e   te s da ta ,   w it th e   b e s c om bi n a ti on  o f   hype r pa r a m e te r s   be in le a r ni ng_r a te = 0.01,  m a x_de pt h= 8,  m in _c hi ld _w e ig ht = 1.0,   a nd  n_e s ti m a to r s = 150.   T he   m od e a c hi e v e a A U R O C   va lu e   of   0.836,  in di c a ti ng  a   s tr ong  a bi li ty   to   di s ti ngui s be twe e s tr oke   a nd  non - s tr oke   c la s s e s T he   A U P R C   v a lu e   of   0.314  r e m a in e a bove   th e   b a s e li ne   in   c ondi ti ons   of   hi gh  c la s s   i m ba la nc e T h e   c a li br a ti on  gr a ph  in di c a te s   th a t   th e   m ode te nds   to   e s ti m a te   pr oba bi li ti e s   c on s e r va ti ve ly   in   th e   lo w   r a nge   but   is   m or e   a c c ur a te   a hi gh  Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 15, No. 1, Febr ua r y 2026 655 - 671   664   pr oba bi li ti e s S H A P   a na ly s is   c onf ir m e th a a ge B M I a nd  gl u c os e   le ve ls   a r e   th e   m os in f lu e nt ia pr e di c to r s in   li ne   w it c li ni c a li te r a tu r e I n   a ddi ti on,  D C A   s how s   th a th e   m ode pr ovi de s   be tt e r   de c is io be ne f it s   th a n   tr e a t - a ll  or  t r e a t - none  s tr a te gi e s , pr ovi ng t ha th is  c la s s - w e ig ht in g a ppr oa c h i s  pr a c ti c a a nd r e le va nt  f or  s tr oke   r is pr e di c ti on  s c e na r io s F ur th e r m or e th e   r e s ul ts   of   te s ti ng  on  th e   or ig in a da ta   us in th e   E a s yE ns e m bl e   c la s s if i e r  m e th od a r e  s how n i n F ig ur e  7.                       F ig ur e  7. E va lu a ti on  r e s ul ts   of   A U R O C   a nd   A U P R C c onf id e nc e  i nt e r va ls , c a li br a ti on plot s , e xpl a in a bi li ty de c is io n a na ly s is , a nd e xt e r na v a li da ti on i n t e s ti ng or ig in a da ta  us in th e  E a s yE ns e m bl e   C la s s if ie r  m e th od       F ig ur e   s how s   th e   be s pe r f or m a nc e   r e s ul ts   f or   th e   E a s yE ns e m bl e   c la s s if i e r   m e th od  us in th e   or ig in a da ta  w it h t he   DT   c onf ig ur a ti on de pt h= 6, n_e s ti m a to r s = 30, a nd r e pl a c e m e nt = fa ls e . I n t he  e xt e r na te s s e t,   th e   m ode a c hi e ve a A U R O C   of   0.839,  in di c a ti ng  s tr ong  di s c r im in a to r pow e r how e ve r th e   A U P R C   va lu e   of   0.239  s ugge s t s   c h a ll e nge s   in   pr e di c ti ng  m in or it c l a s s e s T he   c a li br a ti on  c ur ve   s how s   th a th e   pr e di c ti on  pr oba bi li ti e s   a r e   not   f ul ly   a li gne w it th e   a c tu a l   pr oba bi li ti e s e s p e c ia ll in   th e   m id dl e   pr oba bi li ty   r a nge F e a tu r e   im por ta nc e   a na ly s is   id e nt if ie s   a ge   a s   th e   m os in f lu e nt ia pr e di c to r f ol lo w e by  B M I   a nd   a ve r a ge   gl uc os e   le ve l,   w hi le   ot he r   f e a tu r e s   c ont r ib ut e   m in im a ll y.  M e a nw hi le D C A   s how s   th a th e   m ode pr ovi de s   s m a ll   but  s ti ll   pos it iv e   de c is io be n e f it s   a m o s th r e s h ol ds O ve r a ll th is   m od e is  s ui ta bl e   f or   us e   a s   a   s ol id   ba s e li ne but   im pr ove m e nt s   in   a c c ur a c f or   m in o r it c l a s s e s   a r e   s ti ll   ne e de d.  N e xt   a r e   th e   r e s ul ts   of   te s ti ng  on  s a m pl e da ta   us in th e   A D A S Y N   te c hni que w h ic w e r e   th e n   c la s s if ie us in g   th e   X G B oos m e th od, a s  s how n i n F ig ur e  8.   F ig ur e   s how s   th e   r e s ul ts   of   te s ti ng  th e   s a m pl in da t a   ( a da s yn)   us in th e   X G B oos m e th od,  in di c a ti ng  th a th e   be s c onf ig ur a ti on,  w it m a x_de pt h = 15,  le a r ni ng_r a te = 0.05,  m in _c hi ld _w e ig ht = 1.0,  a nd   n_e s ti m a to r s = 300,  e xhi bi ts   f a ir ly   good  c la s s if ic a ti on  c a pa bi li ti e s T he   A U R O C   va lu e   of   0.768  in di c a te s   th a th e  m ode c a n di s ti ngui s h be twe e n n e ga ti ve  a nd pos it iv e  c l a s s e s  m ode r a te ly . I n c ont r a s t,  t he  A U P R C  va lu e  of   0.107  s ugge s t s   th a p e r f or m a nc e   on  m in or it c la s s e s   r e m a i ns   li m it e d,  w hi c m a y   be   a tt r ib ut e to   d a ta   im ba la nc e A lt hough  th e   pr oba bi li ty   p r e di c ti ons   a r e   not   ye f ul ly   a li gne w it th e   a c tu a di s tr ib u ti on,  th e   c a li br a ti on  c ur ve   gi ve s   a   B r ie r   s c or e   of   0.0921.   T hi s   in di c a te s   th a th e   pr oba bi li ty   pr e di c ti ons   a r e   r e la ti ve l y   a c c ur a te A c c or di ng  to   S H A P   a na ly s i s th e   va r ia bl e s   of   a ge ,   B M I a nd  a v e r a ge   gl uc o s e   le ve l   a r e   th os e   th a m os in f lu e nc e   th e   m od e l' s   pr e di c ti ons .   T he s e   f in di ngs   a r e   c on s is te nt   w it pr e vi ous   s tu di e s H ow e v e r D C A   s how s   th a th e   m ode doe s   not   pr ov id e   a   gr e a te r   ne t   be ne f it   c om pa r e to   th e   s e r ve   a ll   a nd  s e r ve   none   s tr a te gi e s A s   a   r e s ul t,   th e   m ode c a nnot   be   u s e f or   th r e s hol d - ba s e de c is io m a ki ng.  T he   f ol lo w in a r e   th e   r e s ul ts   of   c la s s if ic a ti on  u s in th e   X G B oos m e th od  in   th e   s e c ond  da ta   s a m pl in c ondi ti on  w it th e   R O S   te c hni que , a s   s how n i n F ig ur e  9.   Evaluation Warning : The document was created with Spire.PDF for Python.