I nte rna t io na l J o urna l o f   Adv a nces in Applie d Science s   ( I J AAS)   Vo l.  14 ,   No .   2 J u n 2 0 2 5 ,   p p .   454 ~ 4 6 8   I SS N:  2252 - 8 8 1 4 DOI 1 0 . 1 1 5 9 1 /ijaas . v 14 . i 2 . pp 454 - 4 6 8           454     J o ur na l ho m ep a g e h ttp : //ij a a s . ia esco r e. co m   O ptimi zing  diabe tes pre diction  using   ma chine learni ng a   ra ndo m forest ap pro a ch       Ao ne  M a eng e,   T s h ia m o   Sig wele ,   Clif o rd  B hen de,   Cha n da piwa   M o k g et hi,  Venum a dh a v   K utha di,  B les s ing   O m o g behin   D e p a r t me n t   o f   C o mp u t i n g   a n d   I n f o r m a t i c s,  F a c u l t y   o f   P u r e   a n d   A p p l i e d   S c i e n c e s,   B o t sw a n a   I n t e r n a t i o n a l   U n i v e r si t y   o f   S c i e n c e   a n d   Te c h n o l o g y ,   P a l a p y e ,   B o t sw a n a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Dec   15 2 0 2 4   R ev is ed   Ap r   11 2 0 2 5   Acc ep ted   Ap r   23 2 0 2 5       Dia b e tes ,   a   lea d in g   c a u se   o g l o b a m o rtalit y ,   is  re sp o n si b le  fo m il li o n o f   d e a th a n n u a ll y   d u e   t o   c o m p li c a ti o n s u c h   a h e a rt  d ise a se ,   k i d n e y   fa il u re ,   a n d   stro k e .   P ro jec ti o n i n d ica te  t h a 7 0 0   m il li o n   p e o p le  will   b e   a ffe c ted   b y   d iab e tes   in   2 0 4 5 ,   p lac in g   imm e n se   stra in   o n   g lo b a h e a lt h c a re   sy ste m s.  Early   d e tec ti o n   a n d   a c c u ra te  p re d icti o n   o d iab e tes   a re   e ss e n ti a i n   m it ig a ti n g   c o m p li c a ti o n a n d   re d u c in g   m o rtalit y   ra tes .   Ho we v e r,   e x isti n g   d iab e tes   p re d ictio n   fra m e wo rk fa c e   c h a ll e n g e s,  i n c lu d in g   imb a lan c e d   d a tas e ts,   o v e rfit ti n g ,   i n a d e q u a te  fe a tu re   se l e c ti o n ,   in su f ficie n h y p e rp a ra m e ter  tu n in g ,   a n d   lac k   o c o m p re h e n si v e   e v a lu a ti o n   m e tri c s.  To   a d d re ss   th e se   c h a ll e n g e s,   th e   p r o p o se d   ra n d o m   fo re st  d iab e tes   p re d ictio n   ( Ra n d o m   DIP)   fr a m e wo rk   in teg ra tes   a d v a n c e d   tec h n iq u e su c h   a h y p e rp a ra m e ter  tu n i n g ,   b a lan c e d   train in g ,   a n d   o p ti m ize d   fe a tu re   se lec ti o n   u sin g   ra n d o m   se a rc h   c ro ss - v a li d a ti o n   ( Ra n d o m ize d S e a rc h CV ) .   Th is  fra m e wo rk   sig n ifi c a n tl y   imp ro v e s   p re d ictiv e   a c c u ra c y   a n d   e n s u re re li a b le  c li n ica l   a p p l ica b il it y .   Ra n d o m   DIP   a c h iev e 9 9 . 4 %   a c c u ra c y ,   o u tp e r fo rm in g   re late d   wo rk s   b y   7 . 2 3 % ,   t h e   a re a   u n d e r   c u rv e   ( AUC )   o f   9 9 . 6 % ,   su r p a ss in g   c o m p a ra b le  fra m e wo rk b y   7 . 3 2 % ,   a   re c a ll   o f   1 0 0 % ,   e x c e e d in g   e x ist in g   m o d e ls  b y   9 . 6 5 % ,   a   p re c isio n   (9 7 . 8 % ) ,   F1 - sc o re   (9 8 . 9 % ) a n d   o u t p e rfo r m a n c e   o 6 . 6 9 % .   Th e se   m e tri c d e m o n stra te   Ra n d o m   DIP ' s e x c e ll e n c a p a c it y   to   id e n ti fy   d iab e tes   c a se s wh il e   m in imiz in g   fa lse   n e g a ti v e s   ( FPs )   a n d   p ro v i d in g   re li a b le  p re d icti o n s   fo r   c li n ica u se .   F u tu re   wo r k   will   f o c u o n   i n teg r a ti n g   re a l - ti m e   c li n ica d a ta  a n d   e x p a n d in g   th e   fra m e wo rk   to   a c c o m m o d a te  m u lt i - d ise a se   p re d icti o n   fo r   b r o a d e r   h e a lt h c a re   a p p li c a ti o n s .   K ey w o r d s :   Diab etes   Ho s p ital  F r an k f u r G er m a n y   M ac h in lear n in g   R an d o m   d iab etes p r e d ictio n   R an d o m   f o r est   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   T s h iam o   Sig wele   Dep ar tm en t o f   C o m p u tin g   an d   I n f o r m atics B o ts wan I n ter n atio n al  Un iv er s ity   o f   Scien ce   an d   T ec h n o lo g y   Plo t 1 0 0 7 1 ,   B o s eja,   Palap y e,   B o ts wan a   E m ail:  s ig wele t @ b iu s t.a c. b w       1.   I NT RO D UCT I O N   Diab etes   m ellitu s   is   ch r o n ic   m etab o lic   d is o r d e r   th at   k ee p s   th e   b lo o d   s u g ar   le v el  h ig h   b e ca u s th e   b o d y   eith er   d o es   n o t   p r o d u ce   en o u g h   in s u lin   o r   d o es  n o u s it  co r r ec tly   a n d   ca n   ca u s s e r io u s   h ar m   to   m a n y   o th er   o r g a n s ,   s u ch   as th h ea r t,  ey es,  n er v es,  an d   ev en   d ea th   [ 1 ] ,   [ 2 ] .   Diab etes h as two   m ai n   s u b ty p es,  n am ely   ty p 1   d iab etes  ( T 1 D)   an d   ty p 2   ( T 2 D) ,   ea ch   r eq u ir in g   p e r s o n alize d   in ter v en tio n s   [ 3 ] .   T h T 1 af f ec ts   1 0 o f   th wo r ld s   p o p u latio n   wh il th r em ain in g   9 0 is   af f ec ted   b y   T 2 [ 4 ] ,   [ 5 ] .   I is   v er y   cr u cial  to   ac cu r ately   d iag n o s th ese  s u b t y p es  o n   ti m to   av o id   c o m p licatio n s   o r   d ea th .   Stu d ies  in d icate   th at  T 2 p atien ts   with   an   ea r ly   an d   ac cu r ate  d iag n o s is   m ay   av o i d   8 0 o f   co m p licat io n s   [ 6 ] .   Diab etes  h as  af f ec te d   o v er   4 2 2   m illi o n   p eo p le  g lo b ally ,   r esu ltin g   in   a b o u 1 . 5   m illi o n   d ea th s   y ea r ly   [ 7 ] .   Acc o r d i n g   to   esti m ates,  7 0 0   m illi o n   p e o p le   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J  Ad v   Ap p l Sci     I SS N:   2252 - 8 8 1 4       Op timiz in g   d ia b etes p r ed ictio n   u s in g   ma c h in lea r n in g :   a   r a n d o fo r est a p p r o a ch   ( A o n e   Ma en g e)   455   will  b af f ec te d   b y   th e   d is ea s in   2 0 4 5   wo r ld wid [ 8 ] Acc o r d in g   to   W HO,   Af r ica   h as  o v e r   2 4   m illi o n   ad u lts   liv in g   with   d iab etes,  an d   th is   n u m b er   is   esti m ated   to   in cr ea s b y   1 2 9 to   r ea ch   5 5   m illi o n   b y   2 0 4 5 .   T h ese  h ig h   m o r tality   n u m b er s   in d i ca te  th u r g en n ee d   f o r   ef f ec tiv d iab etes  p r ed ictio n   f r a m ewo r k s   f o r   ea r ly   d iag n o s is   an d   p r e v en tio n .   Sev er al  m ac h i n lear n i n g   ( ML )   f r am ewo r k s   h av e   b ee n   p r o p o s ed   f o r   d ia b etes  p r ed ictio n s   to   o b tain   h id d en   i n s ig h ts   f r o m   b io m ed ical  d atas ets   to   m in im ize  d iab etes  co m p licatio n s   at  an   ea r ly   s tag e.   Nev er th eless ,   th er ex is t   cr itical  g ap s   in   cu r r e n t w o r k s   th at   n ee d   to   b ad d r ess ed .   R esear ch   g ap s cu r r en t   ML   f r am ewo r k s   r ely   o n   m in im a s et  o f   f ea tu r es,  in   th is   ca s e,   ju s f iv e,   wh i ch   m ay   m ak it  m o r d if f icu lt  f o r   th m o d el  to   ac cu r at ely   r ep r esen th co m p lex ity   o f   d iab etes - r elate d   f ac to r s .   T h ex cl u s iv r elian ce   o n   life s ty le - r elate d   f ac to r s   n e g lectin g   o th er   c r u cial  co n t r ib u to r s   to   d iab etes c an   p o ten tially   co m p r o m is th f r am ewo r k ' s   co m p r eh e n s iv en e s s .   T h u s o f   f em ale - o n ly   d atasets   in   m o d el  tr ain in g   in tr o d u ce s   g e n d er   b ias,  p o ten tially   co m p r o m is in g   th m o d el' s   p r ed ic tiv ac cu r ac y   a n d   g en er aliza b ilit y   to   u n d er r ep r es en ted   g r o u p s ,   s u ch   as  m ales.  I n   ad d itio n ,   th m ajo r ity   o f   f r a m ewo r k s   ar e   b ased   s o lely   o n   ac cu r ac y   m etr ics  o v er lo o k in g   o th er   ess en tial  asp e cts  o f   m o d el  p er f o r m a n ce .   C u r r en m o d els  ex h ib it   s u b o p tim al  p er f o r m an ce ,   ch a r ac ter ized   b y   lo ac cu r ac y   an d   h ig h   er r o r   r ates,  with   s o m lack in g   d o c u m en ted   ac cu r ac y   m etr ics.  A   s ig n if ica n r esear ch   g a p   ex is ts   in   th e   lack   o f   em b ed d e d - b ased   f ea tu r s elec tio n   m eth o d s   f o r   id en tify i n g   cr itical  d ata  f ea tu r es,  as we ll a s   th n ee d   f o r   f in e - tu n in g   class if ier s   to   en h an ce   m o d el  ac cu r ac y .   T h ese  o b s er v atio n s   em p h asiz th im p o r tan ce   o f   ad d r ess in g   th ese  lim itat io n s   in   d ev el o p in g   an d   ev alu atin g   d iab etes  p r ed ictio n   f r am ewo r k s   to   en h an ce   th eir   co m p r eh e n s iv en ess ,   r o b u s tn ess ,   an d   a p p li ca b ilit y .   T h u s ,   it  is   ess en tial  to   d ev elo p   f r a m ewo r k   th at   ca n   p r ed ict  d iab etes  i n   f ea s ib le,   p r ec is e,   an d   co s t - ef f icien m a n n er .   Th is   r esear ch   p r o p o s es  th d ev elo p m en t   o f   a   ML   f r am ew o r k   f o r   p r e d ictin g   d iab etes  ac cu r ately   lev e r ag in g   r an d o m   f o r est  alg o r ith m s   to   b r id g g a p s   in   e x is tin g   d iab ete s   f r am ewo r k s .   T h c o n tr ib u ti o n s   o f   t h is   r esear ch   wo r k   ar as f o llo ws,    i)   Gap   an aly s is id en tifie d   k ey   g ap s   in   ML - b ased   d iab etes  p r e d ictio n   f r a m ewo r k s   in cl u d i m b alan ce d   a n d   b iased   d atasets ,   in s u f f icien tr ain in g   d ata,   o v e r f itti n g ,   r ed u n d an a n d   ir r elev an f ea tu r e s ,   in ad eq u at e   f ea tu r s elec tio n ,   in ad e q u at m o d el   tu n in g ,   n eg lec o f   co m p r eh en s iv e   ev alu atio n   m etr ics,  an d   s u b o p tim al  p er f o r m a n ce   lik p r ed ictiv ac cu r ac y .   ii)   Fra m ewo r k   d ev elo p m en t:  d ev elo p ed   a   r an d o m   f o r est - b ased   ML   f r a m ewo r k   to   p r ed ict   d i ab etes  ca lled   r an d o m   f o r est d ia b etes p r ed ict io n   ( R an d o m   DI P)  to   en h an ce   p r ed ictio n   ac c u r ac y .   iii)   Data s et  m an ip u latio n ad o p te d   an d   m an ip u late d   th Ho s p ital  Fra n k f u r d ataset  wh ich   in clu d ed   eig h t   in d ep en d en t v ar ia b les an d   o n e   tar g et  v ar iab le  t o   s u it th R an d o m   DI P m o d el.   iv )   E v alu atio n :   th p r o p o s ed   R an d o m   DI P   f r a m ewo r k   s ig n if i ca n tly   o u tp er f o r m e d   r elate d   wo r k s   wh en   ev alu ated   f o r   p er f o r m an ce   i n   ter m s   o f   ac cu r ac y ,   a r ea   u n d er   cu r v ( AUC),   p r ec is io n ,   r ec all,   an d   F1 - s co r e.   T h r est  o f   th is   a r ticle  is   s tr u ctu r ed   as  f o llo ws:   s ec tio n   1   p r o v id es  th e   I n tr o d u ctio n   o f   th r esear ch   f o llo wed   b y   s ec tio n   2   wh ic h   d escr ib es  th e   p r o p o s ed   R an d o m   DI P   f r a m ewo r k .   T h e   s tu d y   f in d in g s   ar e   p r esen ted   an d   an aly ze d   in   s ec tio n   3   wh ile  s ec tio n   4   b r i n g s   th s tu d y   to   c o n clu s io n .   L iter atu r r ev iew:   we  p r o v id an   in - d ep th   g ap   an aly s is   b y   co n d u ctin g   r ev iew  o f   th ex is tin g   liter atu r f r o m   2 0 2 4   u p   to   5   y ea r s   ag o   o n   d iab etes  p r e d ictio n ,   h ig h lig h tin g   th lim itatio n s   an d   r esear ch   g ap s .   T h g a p   an al y s is   s u m m ar y   is   t h at  cu r r en ML   f r am ew o r k s   f o r   d iab etes p r ed ictio n   f ac e   s ev er al  g ap s ,   i n clu d in g   o v er f itti n g ,   f ea tu r r ed u n d an c y ,   ir r elev an f ea tu r es,  im b ala n ce d   an d   b iased   d atasets ,   in s u f f icien d ata,   n eg lect   o f   p er f o r m an ce   m etr ics,  s u b o p tim al  ac cu r ac y ,   an d   in ad e q u a te  f ea tu r s elec tio n   an d   tu n in g .   T h f o llo win g   a r e   s o m o f   th d etailed   r elate d   f r am ewo r k s   with   th eir   co n t r ib u t io n s   an d   g ap s .   Atif   et  a l.   [ 4 ]   p er f o r m s   a n   an al y s is   o f   ML   class if ier s   f o r   p r e d ic tin g   d iab etes  m ellitu s   in   th e   p r elim in ar y   s tag b u th e r e   is   p o o r   ac cu r ac y   p er f o r m an ce .   Pra n to   et  a l .   [ 5 ]   an aly ze d   d iab etes  p r e d ictio n   u s in g   th e   r an d o m   f o r est  al g o r ith m   b u f ac e d   s ev er al  lim itatio n s .   T h r elian ce   o n   o n ly   f o u r   f ea tu r es  d r aws  atten tio n   to   lim ited   an d   in ad eq u ate  f ea t u r e   s elec tio n ,   r ed u cin g   th m o d el’ s   ab ilit y   to   r ep r esen th e   co m p lex ity   o f   d iab etes - r ela ted   f ac to r s ,   wh ich   in cr ea s es  er r o r   r ates  an d   h in d er s   p r ed ictiv e   ac cu r ac y .   T h m o d el’ s   r elativ ely   lo ac c u r a cy   ( 7 8 %),   d esp ite   r ec all  o f   8 9 an d   F1 - s co r o f   8 4 %,  e m p h asizes  s u b o p ti m al  p er f o r m an ce   a n d   o v er f itti n g .   Ad d itio n ally ,   tr ain in g   ex cl u s iv ely   o n   f em al d ata  in tr o d u ce s   g en d er   b ias ,   lim itin g   th m o d e l’ s   g en e r al izab ilit y   to   d iv er s p o p u latio n s ,   th er eb y   p r o d u ci n g   b iased   p r e d ictio n s   an d   o v e r s im p lifie d   d ec is io n   b o u n d ar ies  th at  f ail  to   ca p tu r r ea l - wo r ld   co m p lex ities .   Ah a m ed   et  a l [ 8 ]   em p lo y e d   th li g h g r a d ien b o o s tin g   m ac h i n e   ( L GB M)   alg o r ith m   f o r   d iab e tes  p r e d ictio n ,   ac h iev in g   an   ac c u r ac y   o f   9 5 . 2 0 %.  W h ile  th s tu d y   ex p lo r e d   tr an s f o r m e r - b ase d   lear n in g   f o r   d ataset  en h a n ce m en t,  it  r elied   s o lely   o n   ac c u r ac y   f o r   ev alu atio n ,   o v er lo o k in g   o th er   cr itical  p er f o r m an ce   m etr ics  lik p r ec is io n ,   r ec all,   an d   AUC.  A lth o u g h   th u s o f   Nu m Py ,   Seab o r n ,   an d   MA T L AB   f o r   an aly s is   p r o v id e d   tr an s p ar en cy ,   th ab s en ce   o f   f u r th er   f i n e - tu n in g   f o r   class if ier s   r ef lects in ad eq u ate  m o d el  o p tim izatio n ,   lim itin g   th o p p o r tu n ity   to   ac h ie v ev en   b etter   p er f o r m an ce .   T h s tu d y   in d ic ates th im p o r tan ce   o f   u tili zin g   d iv er s m etr ics  an d   ad d itio n al  tu n i n g   to   im p r o v m o d el  ev alu atio n   an d   ac cu r ac y .   J o s h an d   Dh ak al  [ 9 ]   d e v elo p e d   d iab e tes  p r ed ictio n   m o d el  u s in g   lo g is tic  r eg r ess io n   ( L R )   an d   d e cisi o n   tr ee   ( DT )   b u t   en co u n ter e d   s ig n if ican lim itatio n s .   T h u s o f   o n ly   f iv f ea tu r es  in d icate s   p o ten tial  r ed u n d a n cy   an d   ir r elev an f ea t u r es,  r estrictin g   th m o d el’ s   ca p ac ity   t o   c ap t u r co m p lex   d iab etes  p r e d icto r s .   T h e x clu s iv e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 8 1 4   I n t J Ad v   Ap p l Sci Vo l.   14 ,   No .   2 J u n 2 0 2 5 :   4 5 4 - 468   456   r elian ce   o n   d ata  f r o m   wo m en   ( Pima   I n d ia n   d ataset)   in tr o d u ce s   b ias  an d   im b ala n ce ,   lim iti n g   g en er aliza b ilit y .   R ep o r tin g   o n ly   ac cu r ac y   an d   cr o s s - v alid atio n   er r o r   r ate   r ef lects  n eg lect  o f   co m p r eh en s iv p er f o r m a n ce   m etr ics,  wh ile  th 7 8 . 2 6 ac cu r ac y   an d   2 1 . 7 4 er r o r   s u g g est  s u b o p tim al  p er f o r m a n ce   an d   p o ten tial   o v er f itti n g .   Un s p ec if ied   to o ls   an d   in ad eq u ate  m o d el  d etails  f u r th er   h in d er   r ep licab ilit y   an d   im p r o v em en t   o p p o r tu n ities .   Af tab   et  a l .   [ 1 0 ]   p r o p o s ed   a   f u s ed   d iab etes  p r ed ictio n   m o d el  co m b in in g   n v B ay es,  DT ,   an d   ar tific ial  n eu r al   n etwo r k   alg o r ith m s ,   ac h iev in g   h ig h   ac cu r ac y   ( 9 5 . 2 0 %)  with   a   m is s   r at o r   f alse  n e g ativ e   ( FN )   r ate)   o f   4 . 8 0 %.  Ho wev er ,   th ev alu atio n   m et r ics  wer lim ited   to   ac cu r ac y   an d   m is s   r ate,   n eg lectin g   co m p r eh e n s iv p e r f o r m an ce   m etr ic s   s u ch   as  r ec all,   p r ec is io n ,   a n d   F1 - s co r e,   wh ich   ar e   e s s en tial  f o r   ass ess in g   b r o ad e r   m o d el  p er f o r m a n ce .   Fu r th er m o r e ,   th lack   o f   d eta ils   ab o u th ML   to o ls   u s ed   r ed u ce s   r ep licab ilit y   an d   in ter p r etab ilit y .   T h ese  lim itatio n s ,   d esp ite  p r o m is in g   r es u lts ,   in d icate   th n e ed   f o r   d ee p er   ev alu atio n s   an d   ex p licit  to o s p ec if icatio n s   to   en s u r th r o b u s tn ess   o f   th e   m o d el.   Sax en et  a l .   in   [ 1 1 ]   p r ed icted   d iab etes  u s in g   th r an d o m   f o r est  alg o r ith m   w ith   f ea tu r s elec tio n   m eth o d s ,   ac h iev in g   7 9 . 8 3 ac c u r ac y ,   s p ec if icity   o f   7 1 . 4 %,  s en s itiv ity   o f   7 9 . 8 %,  an d   an   AUC  o f   8 3 . 6 %.  Ho wev er ,   th m o d el  was  tr ain ed   ex clu s iv ely   o n   d ata  f r o m   p r e g n an wo m e n   in   th e   Pima   I n d ian s   d ataset,   in tr o d u cin g   g en d er   an d   p o p u la tio n   b ias  an d   lim itin g   g en er aliza b ilit y   to   b r o ad e r   d em o g r ap h ics.  W h ile  p er f o r m an ce   m etr ics  s u ch   as  s en s itiv ity   an d   AUC  wer p r o m is in g ,   t h r elativ ely   lo ac cu r ac y   in d icate s   s u b o p tim al   p er f o r m an ce .   Ad d itio n ally ,   t h u s o f   W ek 3 . 9   was  d o cu m en ted ,   b u th e   l im ited   d ataset  d iv er s ity   r estricts  th m o d el’ s   ab ilit y   to   m ak u n b iased   an d   r ep r esen tativ p r e d ictio n s .   Ag liata  et  a l [ 1 2 ]   d ev elo p e d   t y p 2   d iab etes  p r ed ictio n   m o d el  u s in g   th Ad am   alg o r ith m ,   ac h iev in g   an   ac cu r ac y   o f   8 6 an d   r ec eiv er   o p e r atin g   ch a r ac ter is tic  ( R OC )   AUC  o f   9 3 . 4 %.  C h o u   et  a l.  [ 1 3 ]   p r o p o s es  f r am ew o r k   p r ed ictin g   th e   o n s et  o f   d ia b etes  with   ML   m et h o d s .   T ah a   an d   Ma leb ar y   [ 1 4 ]   p r o p o s es  h y b r id   m eta - class i f ier   o f   f u zz y   clu s ter in g   a n d   l o g is tic  r eg r ess io n   f o r   d iab ete s   p r ed ictio n .   I s lam     et  a l.   [ 1 5 ]   p r o p o s es  co m p a r ativ ap p r o ac h   to   allev iatin g   th p r ev alen ce   o f   d iab etes  m ellitu s   u s in g   ML An b an an th e n   et  a l.  [ 1 6 ]   p r o p o s ed   co m p ar ativ e   p er f o r m a n c an aly s is   o f   h y b r id   a n d   class ical  ML   m eth o d s   in   p r ed ictin g   d iab etes.  Desp ite  th s tr o n g   R OC   A UC ,   th e v alu atio n   r elied   s o lely   o n   ac cu r ac y   an d   AUC,  n eg lectin g   co m p r eh en s iv e   m etr ics  s u ch   as  s en s itiv ity ,   s p e cif icity ,   an d   F1 - s co r e .   T h m o d el  u tili ze d   th r ee   d atasets .   W h ile   th d ataset  d i v er s ity   ad d s   v alu e,   th lim ited   ev alu atio n   m etr ics  r estrict  h o lis tic  as s ess m en t   o f   th m o d el’ s   ef f ec tiv en ess .   T h is   ca lls   f o r   b r o ad er   m et r ics  to   p r o v i d m o r r o b u s an d   i n ter p r etab le  m o d el  in s ig h ts .       2.   RE S E ARCH   M E T H O D   T h is   s ec tio n   d escr ib es  th s tep s   ca r r ied   o u in   th d ev el o p m e n t   o f   th R an d o m   DI P   m o d el  to   ad d r ess   th id en tifie d   g ap s   f r o m   th e   liter atu r o f   o v er f itti n g ,   f ea tu r e   is s u es,  b iased   d atasets ,   in s u f f icien d ata,   lim ited   p er f o r m an ce   m etr ics,  s u b o p t im al  ac cu r ac y ,   in a d eq u ate  f ea tu r s elec tio n ,   an d   tu n in g   in   ML   m o d els.   Ad d r ess in g   t h ese  g ap s   will   b ev id en th r o u g h   th im p r o v em en o f   p er f o r m an ce   m etr ic s   s u ch   as   ac cu r ac y ,   AUC,  p r ec is io n ,   r ec all,   a n d   F1 - s co r wh ic h   co r r elate   with   t h g ap s .   Fig u r e   1   s h o ws  th ar ch itectu r f o r   t h e   p r o p o s ed   R an d o m   DI f r a m ewo r k   f o r   d iab etes  p r ed ict io n .   T h s t ep s   in   Fig u r 1   ar ca r r ied   o u to   s y s tem atica lly   b u ild ,   tr ain ,   an d   ev alu ate  th p r o p o s ed   R an d o m   DI f r am ewo r k   u s in g   t h e   p u b licly   av ailab le   Ho s p ital  Fra n k f u r t   Ger m an y   d ataset.   T h p r o p o s ed   r an d o m   f o r est  f r am ewo r k   is   d esig n ed   to   ac h iev h ig h   p r ed ictio n   ac c u r ac y   b y   lev e r ag in g   en s em b le  lear n in g   tech n iq u es.  T h is   f r am ewo r k   i n teg r ates  ad v a n ce d   p r ep r o ce s s in g ,   f ea tu r e   s elec tio n ,   h y p er p a r am eter   t u n in g ,   an d   r ig o r o u s   ev alu atio n   m etr ics  t o   en s u r e   r o b u s an d   r eliab le  p r ed ictio n s .   I n   th f o l lo win g ,   we  p r o v id d etailed   ex p lan atio n   o f   ea ch   p h ase  o f   th m eth o d o lo g y ,   ac co m p an ied   b y   r elev an t e q u a tio n s   wh er n ec ess ar y .     2 . 1   Da t a s et   a cquis it io n   Data s et  d escr ip tio n   an d   q u ali ty th d ata   ac q u is itio n   p h ase  is   cr itical  in   d ev elo p in g   th e   p r o p o s ed   d iab etes  p r ed ictio n   f r am ewo r k .   T h is   p h ase  in v o l v es  s o u r c in g   an d   v alid atin g   d ataset  co n tain in g   f ea t u r es  in d icativ o f   d iab etes.  T h d a taset  u s ed   in   th is   f r am ewo r k   i s   th Ho s p ital  Fra n k f u r t   Ger m an y   d ataset,   wh ich   is   p u b licly   av ailab le  o n   th Kag g le  p latf o r m .   T h H o s p ital  Fra n k f u r t   Ger m an y   d ataset  is   ch o s en   f o r   its   co m p r eh e n s iv f ea tu r s et  th at  ca p tu r es c r itical  d iab etes in d icato r s ,   m ak in g   it h ig h ly   r elev a n t to   th p r ed ictio n   task .   I ts   lar g e   s am p le   s ize  e n h an ce s   th e   m o d el' s   ab ilit y   t o   g e n er alize   ac r o s s   d iv er s e   p atien p o p u latio n s ,   en s u r in g   r o b u s an d   r eliab l p r ed ictio n s .   Ad d itio n ally ,   its   wid esp r ea d   ad o p tio n   i n   p r ev io u s   r esear ch   f r am ewo r k s   v alid ates  its   cr ed ib ilit y   an d   u tili ty   in   d iab etes - r elate d   s tu d ies,  r ein f o r cin g   its   s u itab ilit y   f o r   th e   p r o p o s ed   f r am ewo r k   [ 3 ] ,   [ 1 0 ] ,   [ 1 3 ] ,   [ 1 4 ] .   Data s et  c o m p o s itio n th d ata s et  co n tain s   2 , 0 0 0   in s tan ce s ,   with   d is tr ib u tio n   o f   6 8 4   d ia b etic  ca s es   ( 3 4 . 2 %)  an d   1 , 3 1 6   n o n - d iab et ic  ca s es   ( 6 5 . 8 %).   T h is   b alan c ed   d is tr ib u t io n   en s u r es  f air   r e p r esen tatio n   o f   b o t h   d iab etic  an d   n o n - d iab etic  cla s s es,  p r o v id in g   a   s o lid   f o u n d atio n   f o r   tr ain in g   an d   test in g   p r ed ictiv m o d els   wh ile  m in im izin g   b ias  in   cla s s if icatio n   r esu lts .   T h i s   co m p o s itio n   m ak es  th d ataset  r eliab le  f o r   b u ild in g   acc u r ate  an d   b alan ce d   p r ed icti o n   alg o r ith m s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J  Ad v   Ap p l Sci     I SS N:   2252 - 8 8 1 4       Op timiz in g   d ia b etes p r ed ictio n   u s in g   ma c h in lea r n in g :   a   r a n d o fo r est a p p r o a ch   ( A o n e   Ma en g e)   457       Fig u r 1 .   T h p r o p o s ed   R an d o m   DI f r am ewo r k   ar ch itectu r e   f o r   th e   d iab etes p r e d ictio n       Data s et  r ep r esen tatio n   an d   d escr ip tiv ch ar ac ter is tics :   th d ataset  is   s h o wn   as in p u t to   th f r am ewo r k   in   Fig u r 1 .   T h d ata  r ep r e s en tatio n   s ec tio n   ex p lain s   h o th d ataset  is   s tr u ctu r ed ,   in clu d in g   f ea tu r e   o r g an izatio n ,   lab els,  an d   o v er a ll f o r m at,   en s u r in g   clar ity   f o r   ML   m o d el  tr ain in g   a n d   ev alu a tio n .   T h d ataset    is   r ep r esen ted   as   ( 1 ) .     = { ( 1 , 1 ) , ( 2 , 2 ) , , ( , ) }   ( 1 )     W h er e   = { ( 1 ) , ( 2 ) , ,  }   d en o tes  th f ea tu r v e cto r   f o r   th   p atien t.  T h v a r i ab le  { 0 , 1 }   is   th e   d ich o to m o u s   v ar iab le  r ep r ese n tin g   two   p o s s ib le  wh er = 1   if   th p atien h as  d iab etes  o r   = 0   if   th p atien d o es  n o h av e   d iab ete s .   T h v ar iab le   = 2000   is   th to tal  n u m b er   o f   p atien r ec o r d s   an d   f in ally ,   = 9   is   th n u m b er   o f   f ea tu r es  i n   th d ataset.   T h ese  f ea tu r es   in clu d g lu c o s lev els,  b o d y   m ass   in d ex   ( B MI ) ,   in s u lin   lev els,  ag e,   b lo o d   p r ess u r e,   s k in   th ick n ess ,   p r e g n a n cies,  d iab etes  p ed ig r ee   f u n ctio n ,   an d   o u tco m e,   with   t h o u tc o m v a r iab le  in d icatin g   wh et h er   p atien t is d iab etic  o r   n o t.   T ab le  1   p r esen ts   d escr ip tiv s tatis t ics  o f   th d ataset.   T h av er ag g lu c o s lev el  is   1 2 1 . 1 8   m g /d L ,   with   s tan d ar d   d e v iatio n   o f   3 2 . 0 7 ,   i n d icatin g   s ig n if ica n t v ar iab ilit y .   T h av er a g B MI   is   3 2 . 1 9 ,   s u g g esti n g   an   o v er weig h p o p u latio n   an d   in s u lin   lev els  h av m ea n   o f   8 0 . 2 5 ,   with   o u tlier s   s u ch   as  m ax im u m   v al u o f   7 4 4 .   Patien ag es  r an g e   f r o m   2 1   to   8 1   y ea r s ,   with   m ea n   o f   3 3 . 0 9   y ea r s .   T h e   d ataset  is   b alan ce d ,   with   3 4 d iab etic  ca s es,  en s u r in g   r elia b le  f o u n d atio n   f o r   p r ed ictiv a n aly s is .         T ab le  1 .   T h d escr ip tiv s tatis tics   o f   th Ho s p ital Fr an k f u r t   Ger m an y   d ataset   S t a t i st i c   P r e g n a n c y   G l u c o s e   B l o o d   p r e ss u r e   S k i n   t h i c k n e ss   I n su l i n   B M I   P e d i g r e e   f u n c t i o n   A g e   O u t c o m e   C o u n t   2 , 0 0 0   2 , 0 0 0   2 , 0 0 0   2 , 0 0 0   2 , 0 0 0   2 , 0 0 0   2 , 0 0 0   2 , 0 0 0   2 , 0 0 0   M e a n   3 . 7 0 3   1 2 1 .   6 9 . 1   2 0 . 9   8 0 . 2 5   3 2 . 1 9   0 . 4 7 1   3 3 . 1 0   0 . 3 4 2   S t d   3 . 3 0 6 3   3 2 . 0 6   1 9 . 1 8   1 6 . 1 0   1 1 1 . 2   8 . 1 4 1   0 . 3 2 3   1 1 . 7 9   0 . 4 7 4   M i n   0 . 0   0 . 0   0 . 0   0 . 0   0 . 0   0 . 0   0 . 0 7 8   2 1 . 0   0 . 0   2 5 %   1 . 0   9 9 . 0   6 3 . 5   0 . 0   0 . 0   2 7 . 3 7 5   0 . 2 4 4   2 4 . 0   0 . 0   5 0 %   3 . 0   1 1 7 . 0   7 2 . 0   2 3 . 0   4 0 . 0   3 2 . 3   0 . 3 7 6   2 9 . 0   0 . 0   7 5 %   6 . 0   1 4 1 . 0   8 0 . 0   3 2 . 0   1 3 0 . 0   3 6 . 8   0 . 6 2 4   4 0 . 0   1 . 0   M a x   1 7 . 0   1 9 9 . 0   1 2 2 . 0   1 1 0 . 0   7 4 4 . 0   8 0 . 6   2 . 4 2   8 1 . 0   1 . 0       2 . 2 .     Da t a   pre - pro ce s s ing   T h d ata   p r e - p r o ce s s in g   p h as is   cr u cial  f o r   p r ep a r in g   th d ataset  f o r   t h r a n d o m   f o r est  m o d el.   I t   in v o lv es  s er ies  o f   s tep s   to   e n s u r th at  th e   d ata  is   clea n ,   r elev an t,  an d   r ea d y   f o r   a n aly s is .   T h ese  s tep s   h elp   en h an ce   th e   q u ality   o f   th e   d at aset  an d ,   i n   tu r n ,   im p r o v e   th e   m o d el’ s   p er f o r m a n ce .   T h p h ase  in clu d es   ex p lo r ato r y   d ata  an aly s is   ( E DA) ,   wh ich   h elp s   u n co v er   p atter n s   an d   r elatio n s h ip s   with in   th d ata.   I also   co v er s   tech n i q u es  lik h an d li n g   m is s in g   v alu es,  n o r m alizi n g   f ea t u r es,  d etec tin g   an d   r e m o v in g   o u tlier s ,   a n d   p er f o r m in g   d im en s io n ality   r ed u ctio n .   T h s u b s eq u e n s u b s ec tio n s   ex p lain   t h ese  s tep s   in   d et ail,   elab o r atin g   o n   ea ch   p r o ce s s   an d   its   im p o r tan c in   en s u r in g   th d ataset  is   o p t im al  f o r   tr ain in g .   Data   p r e - p r o ce s s in g   p h ase  1 :   E DA   is   p e r f o r m e d   to   s u m m ar ize  an d   v is u alize   th e   d ataset,   p r o v id i n g   in s ig h ts   in to   its   s tr u ctu r an d   r ev ea lin g   p atter n s ,   c o r r elatio n s ,   o r   a n o m alies   [ 1 5 ] .   Featu r d is tr ib u tio n s   ar e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 8 1 4   I n t J Ad v   Ap p l Sci Vo l.   14 ,   No .   2 J u n 2 0 2 5 :   4 5 4 - 468   458   ex am in ed   u s in g   h is to g r am s   a n d   b o x   p lo ts   t o   d etec s k ewn ess ,   o u tlier s ,   an d   m is s in g   v al u e s .   R elatio n s h ip s   b etwe en   f ea tu r es  ar an aly ze d   th r o u g h   s ca tter   p lo ts   an d   co r r elatio n   h ea tm a p s .   T h co r r elatio n   co ef f icien r   q u an tifie s   th s tr en g th   o f   r el atio n s h ip s .   Stro n g   co r r elatio n s   ( r   >0 . 7 )   s u g g est  r ed u n d a n c y ,   g u id in g   f ea tu r e   s elec tio n   f o r   d iab etes p r ed icti o n .   T h e   f o r m u la  f o r   th c o r r el atio n   co ef f icien t is   ( 2 ) .     =    ( , )   ( 2 )     W h er    ( , )   is   th co v ar ian ce   b et wee n   v ar iab les    an d   ,   an d   ,   ar th eir   r esp ec tiv s tan d ar d   d ev iatio n s .   I n   th Ho s p ital  Fra n k f u r t   Ger m a n y   d ia b etes  d atase as  s h o wn   in   Fig u r 2 ,   h i g h er   g lu c o s lev els  s h o s tr o n g   c o r r elatio n   with   d iab etes  p r esen ce   ( r   >0 . 5 ) ,   wh ile  B MI   an d   a g h a v wea k er   ass o ciatio n s     ( r   b etwe en   0 . 2   to   0 . 3 ) .   Hig h er   in s u lin   lev els  co r r elate   s tr o n g ly   with   g l u co s e,   an d   h ig h er   s k in   th ick n ess   co r r elate s   with   in s u lin   lev els.  h ig h er   B MI   is   wea k ly   ass o c iated   with   d iab etes  an d   b lo o d   p r ess u r e,   an d   o ld er   ag s h o ws a  wea k   lin k   to   d iab etes r is k   [ 1 6 ] .           Fig u r 2 .   T h co r r elatio n   b etw ee n   f ea tu r es  o f   Ho s p ital Fr an k f u r t   Ger m an y   d iab etes d ataset       Data   p r e - p r o ce s s in g   p h ase  2 h an d lin g   m is s in g   v alu es  is   cr itical  f o r   im p r o v in g   m o d el  p er f o r m an ce   an d   en s u r i n g   ac c u r ate  p r ed icti o n s .   Miss in g   v alu es  ar im p u t ed   u s in g   t h m ed ia n   v alu e   o f   th co r r esp o n d in g   f ea tu r to   a v o id   d is to r tio n   f r o m   o u tlier s   [ 1 5 ] .   T h e   im p u tatio n   f o r m u la  is   ( 3 ) .        = {     ( { 1 , 2 , ,  } ) if      is   mis s in g  o th erw is e.   ( 3 )     Her e,      is   th v alu o f   th - th   f ea tu r f o r   th - th   s am p le,   an d   th m ed ian   ( { 1 , ,  } )   is   th m ed ian   o f   th f ea tu r ac r o s s   all  s am p les .   T h is   m eth o d   en s u r es  th d ataset  r em ain s   r o b u s with o u in tr o d u cin g   b iases   [ 1 6 ] .   Data   p r e - p r o ce s s in g   p h ase  3 :   f ea tu r n o r m aliza tio n   is   ap p lied   to   s ca le  f ea tu r es  to   co m p ar ab le   r an g e,   en s u r in g   th at   lar g e - m a g n itu d e   f ea tu r es  d o   n o t   d o m in ate  m o d el  tr ain i n g .   T h e   z - s co r n o r m aliza tio n   f o r m u la  is   ( 4 ) .      =    ( 4 )   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J  Ad v   Ap p l Sci     I SS N:   2252 - 8 8 1 4       Op timiz in g   d ia b etes p r ed ictio n   u s in g   ma c h in lea r n in g :   a   r a n d o fo r est a p p r o a ch   ( A o n e   Ma en g e)   459   W h er    is   th n o r m alize d   v al u e,      is   th o r ig i n al  v alu e,     is   th m ea n   o f   th - th   f ea tu r e,   a n d     is   its   s tan d ar d   d ev iati o n .   T h is   s tan d ar d izatio n   ce n ter s   ea ch   f ea t u r ar o u n d   m e an   o f   0   with   u n it  s tan d ar d   d ev iatio n ,   e n h an cin g   m o d el  co n v er g e n ce   an d   im p r o v in g   p er f o r m an ce   [ 1 6 ] .   Data   p r e - p r o ce s s in g   p h ase  4 o u tlier   d etec tio n   a n d   r em o v al th o u tlier s   s h o wn   in   Fig u r 3   ar d at p o in ts   th at  d ev iate  s ig n i f ican tly   f r o m   t h r est  o f   th d atas et,   o f ten   ca u s ed   b y   er r o r s   in   d ata  co llectio n   o r   m ea s u r em en t.  T h ese  o u tlier s   ca n   d is to r p r ed ictio n s   an d   le ad   to   in ac cu r ate  m o d el  p er f o r m an ce .   I n   d iab etes  p r ed ictio n ,   ab n o r m al   v alu es,   s u ch   as   ex tr em e   g lu c o s lev els,  ca n   s k ew  r esu lts ,   m ak in g   th m o d el  u n r eliab le .   T o   ad d r ess   th is ,   th in ter q u ar tile  r an g ( I QR )   m eth o d   is   u s ed   to   d etec an d   r em o v o u t lier s .   T h I QR   an d   o u tlier   in eq u ality   ar ca lcu late d   as   ( 5 )   a n d   ( 6 ).      = 3 1   ( 5 )      < 1 1 . 5      or      > 3 + 1 . 5    ( 6 )     W h er 1   an d   3   r ep r esen th e   2 5 th   an d   7 5 th   p er ce n tiles   o f   t h d ataset,   r esp ec tiv ely .   An y   d ata  p o in t      f allin g   o u ts id th r an g in   ( 6 )   is   co n s id er ed   an   o u tlier   a n d   r em o v ed .   T h is   p r o ce s s   en s u r es  clea n er ,   m o r e   r eliab le  d ata,   im p r o v in g   m o d el  g en er aliza tio n   an d   p r e d ictio n   ac cu r ac y .   R em o v in g   o u tlier s   as  s h o wn   in     Fig u r 4   h elp s   th e   m o d el   av o id   in s tab ilit y ,   o v e r f itti n g ,   an d   p o o r   p er f o r m an ce ,   lead in g   to   b etter   d ec is io n - m ak in g   [ 1 6 ] - [ 1 8 ] .           Fig u r 3 .   Data   p r e - pr o ce s s in g   p h ase  4 : o u tlier   d etec tio n   o f   e ac h   f ea tu r e           Fig u r 4 .   Data   p r e - p r o ce s s in g   p h ase  4 : o u tlier s   r em o v al  d ata  p o in ts   d is tr ib u tio n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 8 1 4   I n t J Ad v   Ap p l Sci Vo l.   14 ,   No .   2 J u n 2 0 2 5 :   4 5 4 - 468   460   Data   p r e - p r o ce s s in g   p h ase  5 :   d im en s io n ality   r ed u ctio n to   r ed u ce   co m p u tatio n al  c o m p l ex ity   an d   m itig ate  o v er f itti n g ,   p r in cip al   co m p o n en an aly s is   ( PC A)   ca n   b a p p lied .   PC tr an s f o r m s   th o r ig i n al  d ata   m atr ix     in to   lo wer - d im en s io n al  s p ac   wh ile  r etain in g   m o s o f   th d ata  v ar ia n ce   =  ,   wh er   is   th o r ig in al  d ata  m atr ix ,     is   th m atr ix   o f   eig en v ec to r s   ( p r in c ip al  co m p o n en ts )   d er iv e d   f r o m   th co v ar ian ce   m atr ix   o f   ,   an d     is   th e   tr an s f o r m ed   f ea t u r s p ac e.   Fo r   in s tan c e,   h ig h - d im e n s io n al  f ea t u r es  li k B MI ,   in s u lin   lev els,  an d   g lu co s m ea s u r e m en ts   ar co n d en s ed   in to   f e wer   d im en s io n s   wh ile  p r eser v in g   cr itical  p atter n s   in f lu en cin g   d iab etes  p r ed icti o n   [ 1 6 ] .   T h is   r e d u ce s   co m p u tatio n al  co m p lex ity   a n d   m i tig ates  th r is k   o f   o v er f itti n g .     2 . 3 .     M o del t ra ini ng   Mo d el  tr ain in g   p h ase  1 :   d ata  s p litt in g ,   wh en   we  tr ain   th e   r an d o m   f o r est  m o d el,   we   ar teac h in g   it   to   p r ed ict  th o u tco m ( wh et h e r   p er s o n   h as  d iab etes  o r   n o t)   b ased   o n   p atter n s   in   th tr ain in g   d ata.   T h is   tr ain in g   p r o ce s s   allo ws  th m o d el  to   lear n   f r o m   t h f ea t u r es  ( s u ch   as  g lu co s lev els   an d   B MI )   an d   m a k e   p r ed ictio n s   f o r   n ew,   u n s ee n   d ata.   On ce   t h d ata   h as  b ee n   p r e - p r o ce s s ed   a n d   clea n ed ,   it  i s   s p lit  in to   tr ain i n g   an d   test in g   s ets  u s in g   an   8 0 :2 0   r atio .   T h e   tr ain in g   s et  ( 8 0 %)  is   u s ed   to   tr ain   th ML   m o d el,   wh ile  th test in g   s et  ( 2 0 %)  is   u s ed   to   ev alu ate   its   p er f o r m a n ce .   T h is   en s u r e s   th m o d el  ca n   g en er alize   to   n ew,   u n s ee n   d ata.   T o o ls   lik s cik it - lear n ' s   tr ain _ test _ s p lit   f u n ctio n   a r u s ed   to   r an d o m ly   d iv id e   th d at aset,  m ain tain in g   a   b alan ce d   r ep r esen tatio n   o f   d iab etic  an d   n o n - d iab etic  ca s e s   in   b o th   s u b s ets,  wh ich   h el p s   im p r o v m o d el   ac cu r ac y   a n d   r eliab ilit y .   T h e   tr ain in g   s et  is   u s ed   t o   tr ain   th e   r an d o m   f o r est  m o d el,   ML   alg o r ith m   d esig n ed   to   p r ed ict  d iab etes  o u tco m es.   Du r in g   tr ain in g ,   th m o d el  l ea r n s   th p atter n s   an d   r elatio n s h ip s   b etwe en   th in p u f ea tu r es  ( s u ch   as  g lu co s lev els,  in s u lin ,   an d   B MI )   an d   th tar g et  v ar iab le  ( d ia b etes  s tatu s ) .   Af ter   tr ain in g ,   th m o d el  is   ev alu ate d   u s in g   th test in g   s et,   wh ich   co n tain s   d ata  it  h as  n ev er   s ee n   b ef o r e.   E v alu atio n   m etr ics  s u ch   as  ac cu r ac y ,   p r ec is io n ,   r ec all,   an d   F1 - s co r e   ar ca lcu lated   to   ass es s   th e   m o d el' s   p r ed ictiv p er f o r m an ce .   A d d itio n ally ,   r e s u lts   f r o m   K - f o l d   cr o s s - v alid atio n   ar u s ed   to   f in e - tu n e   h y p er p ar am eter s   s u c h   as  tr ee   d ep th   an d   n u m b e r   o f   esti m ato r s   to   im p r o v th m o d el’ s   g en er aliza tio n   a n d   a cc u r ac y ,   en s u r in g   it   p er f o r m s   o p tim ally   o n   n ew,   u n s ee n   d ata T h f o llo win g   ar e ar th d etailed   p h ases   f o r   m o d el  tr ain in g   o f   R an d o m   DI P.   Mo d el  tr ain in g   p h ase  2 alg o r ith m   f o r   cr ea tio n   o f   r a n d o m   f o r est ,   t h r a n d o m   f o r est  alg o r ith m ,   as   o u tlin ed   in   Alg o r it h m   1 ,   is   em p lo y ed   to   c o n s tr u ct  a   r o b u s d i ab etes  p r ed ictio n   m o d el.   T h is   en s em b le  lear n in g   ap p r o ac h   cr ea tes  m u ltip le  DT s ,   ea ch   tr ain ed   o n   a   r an d o m   s u b s et  o f   th d iab etes  d ataset  u s in g   th b o o ts tr ap   s am p lin g   m eth o d   [ 3 ] ,   [ 1 9 ] .   T h m o d el  p r ed icts   d iab etes  o u tco m es  b y   ag g r eg atin g   p r ed i ctio n s   f r o m   all  th e   in d iv id u al  DT s .   T h e   p r e d ictio n   p r o ce s s   f o r   th r a n d o m   f o r es t m o d el  is   r ep r esen ted   m ath em atica lly   as   ( 7 ) .     =    ( 1 ( ) , 2 ( ) , , ( ) )   ( 7 )     W h er   is   th p r ed icted   d iab etes  clas s if icatio n   r esu lt  f o r   th in p u f ea tu r es  , ( )   d en o tes  th p r ed ictio n   f r o m   t h - th   DT ,   a n d     is   th to tal  n u m b er   o f   DT s   i n   t h en s em b le.   T h m o d e   f u n ctio n   ag g r eg ates   p r ed ictio n s   b y   s elec tin g   th m o s f r eq u en tly   o cc u r r in g   class   lab el  ac r o s s   all  tr ee s .   T h is   m ajo r ity   v o tin g   m ec h an is m   en s u r es  t h at  th e   m o d el  r e d u ce s   o v er f itti n g   co m p ar ed   to   in d iv i d u al  DT s   [ 2 0 ] ,   [ 2 1 ] .   B y   co m b in in g   th s tr en g th s   o f   m u ltip le  tr ee s ,   r an d o m   f o r est  en h an ce s   p r e d ictiv ac cu r ac y   an d   g e n e r aliza tio n ,   m ak in g   it  an   ef f ec tiv to o f o r   d iab etes  cl ass if icatio n .   T h m o d e   f u n ctio n   a g g r eg ates  p r ed ictio n s   b y   s elec tin g   th e   m o s t   f r eq u e n tly   o cc u r r in g   class   lab el  ac r o s s   all  tr ee s .       Alg o r ith m   1 .   Alg o r ith m   f o r   cr ea tio n   o f   r an d o m   f o r est   I n p u t:  no .   o f   tr ee s   ( T ) ,   no .   o f   f ea tu r es ( m ) ,   tr ain i n g   d ataset  ( , ) ,   b o o ts tr ap   s am p lin g   m eth o d .   Ou tp u t: γ f in al  p r ed ictio n   ( d ia b etes c lass if icatio n   r esu lt).   1.   Set  no .   o f   tr ee s d ef in th t o tal  n u m b er   o f   DT s   f o r   d iab etes  p r ed ictio n   as T .   2.   Select  n o .   o f   f ea tu r es: s p ec if y   ,   th n u m b er   o f   in p u t f ea tu r es u s ed   b y   ea c h   tr ee   to   s p lit n o d e s .   3.   I n itialize  co u n ter : set  tr ee   co u n ter   i 1.   4.   wh ile  i ≤ T   d o   5.   R an d o m ly   s am p le  d ata  with   r e p lace m en t f r o m   th d iab etes tr ain in g   d ataset   .   6.   R an d o m ly   s elec t F m ,   th s u b s et  o f   f ea tu r es f o r   th e     tr ee   f r o m   th to tal  f ea tu r s et.   7.   T r ain   th   DT     u s in g   th s am p l ed   d ataset  an d   s elec ted   f ea tu r e   s u b s et.   8.   I n cr em en t tr ee   co u n ter : i i + 1.   9.   en d   10.   Fin al  p r ed ictio n : d eter m in d i ab etes o u tco m u s in g   m ajo r ity   v o tin g   ac r o s s   T   tr ee s   f o r   n ew  in p u ts     Mo d el  tr ain in g   p h ase   3 K - f o l d   cr o s s - v alid atio n   en h an ce s   th r o b u s tn ess   an d   g e n er aliza b il ity   o f   t h d iab etes  p r ed ictio n   m o d el  b y   d iv id in g   th d ataset  in to   eq u al - s ized   s u b s ets  o r   f o ld s .   T h m o d el  is   tr ain ed   K   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J  Ad v   Ap p l Sci     I SS N:   2252 - 8 8 1 4       Op timiz in g   d ia b etes p r ed ictio n   u s in g   ma c h in lea r n in g :   a   r a n d o fo r est a p p r o a ch   ( A o n e   Ma en g e)   461   tim es,  u s in g   K - 1   f o ld s   f o r   t r a in in g   an d   th e   r e m ain in g   f o ld   f o r   test in g .   T h is   m eth o d   en s u r es  m o r e   r eliab le   ev alu atio n   o f   th e   m o d el' s   p er f o r m an ce   an d   m itig ates  o v er f itti n g .   T h e   p er f o r m a n ce   m etr ic   f o r   ea c h   f o ld   ( )   is   co m p u ted ,   a n d   t h a v er ag e   p e r f o r m a n ce   ( )   is   ca lcu lated   ac r o s s   all  f o ld s .   T h is   ap p r o ac h   en s u r es  t h at  ea ch   s u b s et  o f   th d iab etes  d ataset  is   u s ed   f o r   test in g ,   o f f e r in g   a   co m p r e h en s iv ass ess m en o f   th e   m o d el' s   ab ilit y   to   p r ed ict  d iab etes a cc u r ately .      = 1 = 1    ( 8 )     W h er   r ep r esen ts   th av er a g p er f o r m an ce   o f   th m o d el  ac r o s s   all  f o ld s ,   p r o v id i n g   an   o v e r all  ev alu atio n   o f   th m o d el' s   ab ilit y   to   p r ed ict  d iab etes.  K   d en o tes  th to tal  n u m b er   o f   f o ld s   o r   s u b s ets  o f   th e   d iv id ed   d ataset   r ef er s   to   th p er f o r m an ce   m etr ic  ( e. g . ,   ac c u r ac y ,   p r ec is io n ,   an d   r ec a ll)  o b tain ed   f r o m   th   f o ld   d u r in g   test in g ,   wh ic h   r ef lects  h o well  th e   m o d el  p e r f o r m s   o n   th at   s p ec if ic  s u b s et.   B y   av er ag in g     v alu es a cr o s s   all  f o ld s ,   th m o d el’ s   g en er aliza b ilit y   is   ass ess ed ,   en s u r in g   it p er f o r m s   well  o n   u n s ee n   d ata.   Mo d el  tr ain in g   p h ase  4 h y p er p ar am eter   o p tim izatio n ,   i n   th is   s ec tio n ,   th tr ain in g   p r o c ess   o f   th r an d o m   f o r est  m o d el  is   in teg r ated   with   h y p er p ar am eter   t u n in g   to   o p tim ize  its   p er f o r m an ce   f o r   d iab etes   p r ed ictio n ,   as  s h o wn   in   Alg o r ith m   2 R an d o m   s ea r ch   cr o s s - v alid atio n   ( R an d o m ize d Sear ch C V )   is   ch o s en   as   an   ef f ec tiv tech n iq u f o r   f in d in g   th b est  co m b in atio n   o f   h y p er p a r am eter s   f o r   th r an d o m   f o r est  m o d el,   o p tim izin g   it  f o r   b etter   p r ed ict iv p er f o r m a n ce .   I h elp s   in   tu n in g   k ey   p ar a m eter s   s u ch   as  t h n u m b er   o f   tr ee s   ( T ) ,   m a x im u m   d ep t h   ( m a x _ d ep th ) ,   t h n u m b er   o f   f ea tu r e s   u s ed   in   tr ee   s p litt in g   ( m ) ,   m in im u m   s am p les   r eq u ir ed   to   s p lit an   in ter n al  n o d ( m in _ s am p les_ s p lit),   an d   t h m in im u m   s am p les r eq u ir e d   to   b at  leaf   n o d ( m in _ s am p les_ leaf ) .   T h is   tu n in g   d ir ec tly   in f lu en ce s   t h m o d el' s   ac cu r ac y   an d   a b ilit y   to   g en e r alize .   T h e   m o d el  tr ai n in g   co n s is ts   o f   f itti n g   th e   r an d o m   f o r est  alg o r i th m   u s in g   th e   tr ain in g   d ata   u s in g   Alg o r ith m   1 wh ile  s im u ltan eo u s ly   f in e - tu n in g   t h h y p er p ar am eter s   u s in g   R an d o m ized Sear ch C V T h o b jectiv is   t o   m ax im ize  th p e r f o r m an ce   m etr ic    ( s u ch   as  ac cu r ac y ,   p r ec is io n ,   o r   r ec all)   b y   a d ju s tin g   t h ese  p ar am eter s ,   wh ich   en h an ce s   th r an d o m   f o r est  m o d el' s   ab ilit y   to   p r ed ict  d iab etes.  T h o p tim izatio n   p r o b lem   is   ex p r ess ed   as   ( 9 ) .       =     (  ( tr ain , ) , tr ain )   ( 9 )     W h er Θ   r ep r esen ts   th s et  o f   h y p er p ar am eter s ,   wh ich   i n clu d es  th n u m b e r   o f   t r ee s   ( ) ,   m a x im u m   d e p th   ( ma x_ d ep t h ) ,   a n d   th n u m b er   o f   f ea tu r es  ( ) ,   u s ed   f o r   s p litt in g .   T h v ar iab le    is   th h y p er p ar am eter   g r id   th at  d ef in e s   th p o s s ib le  co m b in atio n s   o f   th ese  p ar am eter s .   T h v ar iab le   ( t r ain , )   is   th r an d o m   f o r est  m o d el  tr ain ed   o n   d iab etes  tr ai n in g   d ata  tr ain   with   th h y p er p ar a m eter s   Θ .   T h v ar iab le    is   th p er f o r m a n ce   m etr ic  ( e. g . ,   ac cu r ac y ,   p r ec is io n ,   an r ec all)   u s e d   to   ev al u ate  th m o d el' s   ab ilit y   to   p r ed ict  d iab etes.  T h e   v ar iab le  tr ain   is   th ac tu al  lab el  o f   d iab etes  in   th tr ain in g   s et.   T h v ar iab le  Θ   is   th o p tim al  s et  o f   h y p er p ar am eter s   th at  m a x im izes th p er f o r m an ce   m etr ic .       Alg o r ith m   2 .   Step s   f o r   R an d o m ized S ea r ch C to   o p tim ize  h y p er p a r am eter s   I n p u t:     Hy p er p ar a m eter   g r id   ( H) ,   no .   o f   iter atio n s   ( it e r ) ,   cr o s s - v alid atio n   f o l d s   ( K) ,   d iab etes  tr ain i n g   d ata  ( tr ain ) ,   d iab etes te s t d ata  ( tes t ) ,   n u m b er   o f   tr ee s /est im ato r s   ( T ) ,   n u m b e r   o f   f ea t u r es ( m )   Ou tp u t:  Op tim ized   h y p er p ar a m eter s   ( ) ,   tr ain ed   r an d o m   f o r e s m o d el  (  ) ,   d iab etes  p r ed ictio n s   ( ˆ tes t ) p er f o r m an ce   m etr ics ( e. g . ,   ac c u r ac y ,   p r ec is io n ,   an d   r ec all) .   1.   Def in h y p e r p ar am ete r   g r id d ef in H,   in clu d i n g   T ,   m ax _ d ep th ,   an d   m .   2.   I n itialize  R an d o m ized Sear ch C V:  s et  u p   H,   ite r atio n s   it e r ,   an d   K - f o ld   C V.   3.   T r ain   m o d els o n   d iab etes d ata:   f it  R an d o m ized Sear ch C u s in g   d iab etes tr ain in g   d ata  t r ain .   4.   Select  b est h y p er p ar am ete r s : c h o o s o p tim al    m ax im izin g   C ac cu r ac y   f o r   class if icatio n .   5.   Fin al  d iab etes p r ed ictio n : o p tim ized     to   p r ed ict  d iab etes o u tco m es o n   test   d ata.       3.   RE SU L T S AN D I SCU SS I O N   3 . 1 .     M o del e v a lua t i o n m et ri cs   T ab le  2   s h o ws  s u m m a r y   o f   th ad o p te d   ev alu atio n   m etr ic s ,   th eir   eq u atio n s ,   a n d   th ei r   d e f in itio n   in   d iab etes  p r ed ictio n   ter m s .   E v a lu atio n   is   a   cr u cial   s tag in   th e   ML   p r o ce s s .   Pre d ictio n s   ar e   m ad o n   a   2 0 test   d ataset  u s in g   th p r ev io u s ly   tr ain ed   f r am ewo r k .   T h is   s tep   ass ess e s   th f r am ewo r k ' s   ab ilit y   to   g en er alize   n ew  d ata  an d   m ea s u r es  its   ef f ec tiv en ess   in   p r ac tical  s itu atio n s .   T h p r im ar y   o b jectiv is   to   ev alu ate  th ac cu r ac y   an d   r o b u s tn ess   o f   th tr ain ed   f r am ewo r k   wh en   ap p lied   to   u n s ee n   d ata .   E v alu atio n   h el p s   id en tify   p o ten tial  is s u es  lik o v er f itti n g   o r   u n d e r f itti n g   an d   p r o v id es  in s ig h ts   in to   th f r am ewo r k ' s   g en er aliza tio n   ca p ab ilit ies.  T o   ef f ec tiv ely   ass ess   th im p ac o f   th alg o r ith m ,   it  is   es s en tial  to   d ef in s p ec if ic  p er f o r m an ce   m etr ics  th at  Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 8 1 4   I n t J Ad v   Ap p l Sci Vo l.   14 ,   No .   2 J u n 2 0 2 5 :   4 5 4 - 468   462   ca n   m ea s u r th e   q u ality   o f   class if icatio n   f r am ewo r k   [ 4 ] .   T h e   m o d el   ev alu atio n   m etr ics  ar ac cu r ac y ,   p r ec is io n ,   r ec all,   F1 - s co r e,   an d   R OC .   T h p er f o r m a n ce   ev a lu atio n   p r i m ar ily   in v o lv es  ca l cu latio n s   b ased   o n   th co n f u s io n   m atr ix   [ 2 ] .   co n f u s io n   m atr i x   e v alu ates  h o well  clas s if icatio n   f r am ewo r k   p r ed icts   d iab etic  an d   n o n - d ia b etic  p atien ts   as  f o llo ws   [ 2 ] ,   [ 4 ] .   tr u p o s itiv ( T P)  s h o ws  th at  d iab etic  p atien is   co r r ec tly   p r ed icted   as  d iab etic.   tr u n eg ativ ( T N)   s h o ws  th at  n o n - d iab etic  p atien i s   co r r ec tl y   p r ed icted   as  n o n - d iab etic.   FN   s h o ws  th at  d iab etic  p atien is   in co r r ec tly   p r ed icted   as  n o n - d ia b etic.   L astl y ,   f alse  p o s itiv e   ( FP )   in d icate s   th at  n o n - d iab etic  p atien is   in co r r ec tly   p r ed icted   as  d iab etic.   T h f r am ewo r k   d ev elo p m en t   an d   ev alu atio n   ar co n d u cte d   u s in g   Py th o n   v er s io n   3 . 1 2   p r o g r am m in g   lan g u a g o n   J u p y te r   No teb o o k   v er s io n   6 . 5 . 4   o n   6 4 - b it  W in d o ws  1 0   o p er atin g   s y s tem .   T h h ar d w ar s p ec if icatio n s   in clu d an   I n tel( R )   C o r ( T M)   i3 - 7 0 2 0 C PU @ 2 . 3 0 GHz   an d   4 . 0 0   GB   o f   i n ter n al  R AM .       T ab le  2 .   T h ad o p ted   ev al u atio n   m etr ics   M e t r i c   D e f i n i t i o n   E q u a t i o n     A c c u r a c y   C a l c u l a t e s   t h e   p r o p o r t i o n   o f   c o r r e c t l y   c l a ss i f i e d   p a t i e n t s   ( b o t h   d i a b e t i c   a n d   n o n - d i a b e t i c )   o u t   o f   a l l   p a t i e n t s ,   g i v i n g   a n   o v e r a l l   p e r f o r ma n c e   i n d i c a t o r   o f   t h e   f r a mew o r k   [ 1 3 ] .      =  +   +    +    +    ( 1 )   P r e c i s i o n   E v a l u a t e s   t h e   p r o p o r t i o n   o f   c o r r e c t l y   i d e n t i f i e d   d i a b e t i c   p a t i e n t ( TP s)   o u t   o f   a l l   p a t i e n t p r e d i c t e d   t o   b e   d i a b e t i c   [ 2 2 ] .    =     +      ( 2 )   R e c a l l   M e a su r e t h e   p r o p o r t i o n   o f   c o r r e c t l y   i d e n t i f i e d   d i a b e t i c   p a t i e n t ( TP s)   a m o n g   a l l   a c t u a l   d i a b e t i c   p a t i e n t s .   I t   i n d i c a t e t h e   f r a m e w o r k 's  a b i l i t y   t o   c a p t u r e   a l l   d i a b e t i c   c a ses   [ 1 7 ] .    =   +      ( 3 )   F1 - s c o r e   C o m b i n e t h e   f r a mew o r k 's  a b i l i t y   t o   a v o i d   f a l se l y   l a b e l i n g   n o n - d i a b e t i c   p a t i e n t a d i a b e t i c   ( p r e c i s i o n )   a n d   i t s   e f f e c t i v e n e ss  i n   c o r r e c t l y   i d e n t i f y i n g   a c t u a l   d i a b e t i c   p a t i e n t s (r e c a l l )   [ 4 ] ,   [ 1 5 ] .     1  = 2 (       )  +    ( 4 )   R O C   C u r v e   ( A U C )   D i st i n g u i s h   b e t w e e n   d i a b e t i c   a n d   n o n - d i a b e t i c   p a t i e n t s   a c r o ss   d i f f e r e n t   t h r e s h o l d   v a l u e s   [ 2 3 ] .    =    0 1 (  1 ( ) )    ( 5 )       3 . 2 .     P a ra m et er   g rid   I n   th ex p e r im en t,  we  d ef in e d   p ar am eter   g r id ,   H with   s ev er al  im p o r tan h y p er p ar am et er s   f o r   th r an d o m   f o r est  f r am ew o r k .   T h p ar am eter   n _ esti m ato r s ,   wh ich   co n tr o ls   th n u m b e r   o f   tr ee s   in   th f o r est,  was  test ed   with   v alu es  r an g in g   f r o m   1   to   1 , 0 0 0 .   T h m ax _ f ea t u r es   p ar am eter ,   wh ich   d eter m in es  th n u m b e r   o f   f ea tu r es  to   co n s id er   wh en   m ak in g   s p lit,  was  test ed   with   o p tio n s   s u ch   as  ' au to ' ' s q r t' ,   an d   ' lo g 2 ' .   T h m ax _ d e p th   p a r am eter ,   wh ic h   s ets  th m ax im u m   d ep th   o f   ea ch   tr ee ,   v ar ied   b etwe en   1   an d   2 5 0   to   s tr ik a   b alan ce   b etwe en   ca p tu r i n g   c o m p lex   p atter n s   an d   p r ev e n t in g   o v er f itti n g .   Ad d itio n ally ,   we  ad ju s ted   th e   m in _ s am p les_ s p lit   an d   m in _ s am p les_ leaf   p ar am eter s ,   wi th   v alu es  r a n g in g   f r o m   2   t o   5   a n d   1   to   3 ,   r esp ec tiv ely .   T h ese  p ar am eter s   co n tr o l   th m in im u m   n u m b er   o f   s am p les  r e q u ir ed   to   s p lit  n o d e   an d   to   b e   p r es en t a t a   leaf   n o d e,   th e r eb y   in f lu en cin g   th f r a m ewo r k ' s   co m p lex ity   a n d   g e n er aliza tio n   ab ilit y .     3 . 3 .     B est  f ra m ewo r k   pa ra met er s   T h h y p e r p ar am eter   s ea r ch   i d en tifie d   an   ef f ec tiv c o m b i n atio n   th at  s ig n if ican tly   b o o s ted   m o d el   p er f o r m an ce .   m a x _ d e p th   o f   1 8 8   a llo we d   tr ee s   to   ca p tu r co m p lex   p atter n s ,   wh ile  m ax _ f ea tu r es  s et  to   ' au to en ab led   th u s o f   all  av ailab le  f ea tu r es  d u r in g   s p lits .   T h m in _ s am p les_ leaf   was  s et  to   1 ,   allo win g   h ig h ly   d etailed   tr ee s ,   an d   t h m in _ s am p les_ s p lit   s et  to   3   h elp ed   p r ev en t   o v er f itti n g   b y   r eq u i r in g   at  least  th r ee   s am p les  to   s p lit  n o d e.   Ad d itio n ally ,   n _ esti m ato r s   was  s et  to   2 2 ,   p r o v id in g   co m p ac y e s tr o n g   en s em b le.   T h ese  o p tim ized   s ettin g s   r esu lted   in   b est  cr o s s - v alid atio n   s co r o f   0 . 9 7 1 9 ,   in d icatin g   s tr o n g   g en er aliza tio n   to   u n s ee n   d ata.     3 . 4 .     P r o po s ed  f ra m ewo r k   re s ults - no   co m pa riso n   T h R an d o m ized Sear ch C V   was  s et  u p   to   as s es s   ten   d if f er en co m b in atio n s   o f   p a r am eter s   th r o u g h   10 - f o l d   c r o s s - v alid atio n   [ 2 4 ] ,   [ 2 5 ] r esu ltin g   in   t o tal  o f   1 0 0   f r a m ewo r k   f its .   Af te r   th is   e x ten s iv s ea r ch ,   th e   f r am ewo r k   was  test ed   o n   s ep ar ate  test   s et.   Fig u r e   5   s h o ws  th r esu lts   o f   t h p r o p o s ed   f r am ew o r k .   T h e   r esu lts   o f   th p r o p o s ed   R an d o m   DI f r am ewo r k   d em o n s tr ate  its   ex ce p tio n al  ca p ab ilit y   in   p r ed ictin g   d iab etes,   with   n o tab le  tr en d s   an d   p atter n s   th at  h ig h lig h its   ef f ec t iv en ess .   T h ac cu r ac y   o f   9 9 . 4 in d icate s   th at  R an d o m   DI is   h ig h ly   r eliab le  in   co r r ec tly   id en tify in g   b o th   d iab etic  an d   n o n - d iab etic  in d iv id u als.  T h h ig h   ac cu r ac y   s u g g ests   th at  th m o d el  h as  lear n ed   to   ca p t u r th u n d er ly i n g   p atter n s   in   th d ata ,   en s u r in g   m in im al   m is class if icatio n ,   wh ich   is   cr itical  in   m ed ical  d iag n o s is   to   av o id   FN s   o r   FP s .   T h R OC   A UC   s co r o f   9 9 . 6 %   s u g g ests   th at  R an d o m   DI is   h ig h ly   p r o f icien in   d is tin g u is h in g   b etwe en   d iab etic  an d   n o n - d iab etic  p atien ts .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J  Ad v   Ap p l Sci     I SS N:   2252 - 8 8 1 4       Op timiz in g   d ia b etes p r ed ictio n   u s in g   ma c h in lea r n in g :   a   r a n d o fo r est a p p r o a ch   ( A o n e   Ma en g e)   463   T h n ea r - p er f ec v alu r ef lec ts   th m o d el' s   ab ili ty   to   m ain tain   h ig h   p er f o r m a n ce   ev en   wh en   ad ju s tin g   th e   d ec is io n   th r esh o ld ,   en s u r i n g   t h at  th p r ed ictio n   s y s tem   d o e s   n o m is s   p atien ts   with   d iab e tes,  cr u cial  asp ec t   in   ea r ly   d iag n o s is   an d   tr ea tm e n t.    p r ec is io n   o f   9 7 . 8 m ea n s   th at  wh en   R an d o m   DI p r e d icts   p atien h as  d iab etes,  i is   h ig h ly   lik ely   to   b co r r ec t.  T h is   is   cr u cial  in   h ea lth ca r e   b ec au s e   h ig h   p r ec is io n   r ed u ce s   th o cc u r r e n ce   o f   FP s ,   p r ev en tin g   p atien ts   f r o m   u n d er g o in g   u n n ec ess ar y   m ed ical   tr ea tm en ts   o r   in ter v en tio n s .   T h p e r f ec r ec all   s co r ( 1 0 0 %)  i n d icate s   th at   th m o d el  id e n tifie s   all  ac tu al   d iab etic  p atien ts   with o u t   m i s s in g   an y .   T h is   is   esp ec ially   im p o r tan t   in   d iab et es  p r ed ictio n ,   as  m is s in g   d iab etic  p atien co u ld   lea d   to   d el ay ed   d ia g n o s is   an d   tr ea tm en t,  p o ten tially   r esu ltin g   in   s ev er h ea lth   co m p licatio n s .   T h m o d el' s   ab ilit y   to   ac h iev p er f ec r ec all   in d icate s   its   ef f ec tiv en ess   in   ca tch in g   ev e r y   p o s s ib le  d iab etes  ca s e,   en s u r in g   ea r ly   in te r v en tio n .   F1 - s co r e   ( 9 8 . 9 %) .   T h F1 - s co r with   v alu o f   9 8 . 9 r ef lects  well - b alan ce d   m o d el.   T h is   h ig h   F1 - s co r e   d em o n s tr ates  th at  R an d o m   D I n o o n ly   p er f o r m s   well  in   id en tify in g   d iab etic  ca s es  b u also   m ain tain s   s tr o n g   ab ilit y   to   a v o id   FP s ,   m a k in g   it a n   i d ea l m o d el  f o r   p r ac tical  d iab etes p r ed ictio n .             Fig u r 5 .   Pro p o s ed   f r am ewo r k   r esu lts       3 . 5 .     P r o po s ed  f ra m ewo r k   re s ults co m pa riso n wit h r ela t ed  f ra m ewo r k s   T h p r o p o s ed   f r am ewo r k   is   n o co m p a r ed   with   r elate d   wo r k s   f r o m   th r ev iewe d .   T h c o m p ar is o n   f r am ewo r k s   ar e   Atif   et  a l.  [ 4 ] C h o u   et  a l.   [ 1 3 ] ,   A n b an an th en   et  a l.   [ 1 6 ]   s h o r ten e d   as  An b an ,   an d   o u r   p r o p o s ed   R an d o m   DI P .   W co m p ar ed   o u r   f r am ewo r k   with   ex is tin g   f r am ewo r k s   f o r   p er f o r m an ce   in   ter m s   o f   th ev alu atio n   m etr ics  o f   ac cu r ac y ,   R OC   AUC,  p r ec is io n ,   r ec all,   an d   F1 - s co r e .   W d id   th is   f o r   f ai r   co m p ar is o n ,   as  o u r   f r am ewo r k   u s es  th s am e   m etr ics.  Ou r   co m p ar is o n   r esu lts   clea r ly   s h o th at  th e   p r o p o s ed   r an d o m   f o r est f r am ewo r k   o u tp er f o r m s   o th er   m eth o d s   in   all  e v alu ated   m etr ics.   Fig u r e   6   s h o ws   th e   a cc u r ac y   m et r i c   o f   a ll   t h e   f r a m ew o r k s .   T h e   f ig u r e   h i g h li g h ts   t h a t   t h p r o p o s e d   R an d o m   D I P   f r am ew o r k   s ig n if i ca n tl y   o u t p e r f o r m s   all   o t h e r   f r a m e wo r k s   wi th   a n   ac c u r a cy   o f   9 9 . 4 % .   T h p r o p o s e d   R a n d o m   D I o u t p e r f o r m s   C h o u   et  a l.   [ 1 3 ]   ( 9 5 . 3 %)   b y   4 . 3 0 %,  Atif   et  a l.  [ 4 ]   ( 9 7 . 2 %)   b y   2 . 2 6 % ,   a n d   An b an an th e n   et  a l.   [ 1 6 ]   ( 9 8 . 5 %)   b y   0 . 9 1 %.   T h r e aso n   f o r   t h e   h i g h   a cc u r ac y   o f   t h e   p r o p o s e d   f r a m e wo r k   co m p a r e d   t o   o t h er s   is   d u t o   ( 1 )   e f f ec t iv h y p er p ar am et er   tu n i n g   th r o u g h   R an d o m iz ed S ea r c h C V ,   w h i ch   o p ti m iz es  t h r a n d o m   f o r est   m o d el' s   p ar a m et er s ,   a n d   ( 2 )   r o b u s t   f ea t u r s e le cti o n   t h at  el im i n a tes  ir r e le v a n t   v a r i ab les   a n d   en h a n ce s   m o d el   p er f o r m an ce .   T h e   h ig h   a cc u r ac y   m e an s   t h a th p r o p o s ed   f r a m ew o r k   is   h i g h l y   r el ia b le   in   class if y i n g   p ati e n t s   c o r r ec tl y   as   d ia b e tic   o r   n o n - d i a b et ic .   T h is   h i g h   ac cu r a c y   m et r ic   s o l v e d   t h e   r es ea r c h   g a p s   o f   i m b al an ce d   a n d   b ias ed   d atas ets ,   i n s u f f i cie n t   tr ai n i n g   d ata ,   an d   s u b o p ti m al   p r e d ic ti v ac cu r a c y   in   e x is t in g   f r a m e wo r k s .   Fig u r 7   illu s tr ates  th R OC   AUC  m etr ic  f o r   all  f r am ew o r k s .   T h R an d o m   DI f r am ew o r k   ac h iev es  an   im p r ess iv R OC   AUC  o f   9 9 . 6 %,  d em o n s tr atin g   its   s u p er io r   ab ilit y   to   d is tin g u is h   b e twee n   d iab etic  an d   non - d iab etic  ca s es.  T h p r o p o s ed   R an d o m   DI o u tp er f o r m s   Atif   et  a l.  [ 4 ]   ( 9 7 . 2 %)  b y   2 . 4 7 %,  An b an a n th en     et  a l.   [ 1 6 ]   ( 9 8 . 3 %)  b y   1 . 3 2 %,  an d   C h o u   et  a l.   [ 1 3 ]   ( 9 9 . 1 %)  b y   0 . 5 0 %.  T h e   r ea s o n   f o r   th e   h ig h   R OC   AUC  o f   th p r o p o s ed   f r am ewo r k   is   ( 1 )   co m p r e h en s iv d ata  p r ep r o c ess in g ,   wh ich   en s u r es  clea n   an d   u n b iased   in p u t   d ata,   an d   ( 2 )   o p tim ized   DT s   w ith in   th r an d o m   f o r est  m o d el,   lead in g   to   b etter   s ep ar atio n   o f   d iab etic  an d   n o n - d iab etic  ca s es.  T h h ig h   R OC   AUC  m ea n s   th at  th e   f r a m ewo r k   ca n   r eliab ly   d if f er en tiate   TP s   an d   TN s   ac r o s s   v ar y in g   d ec is io n   th r esh o ld s .   T h is   m etr ic  o f   h ig h   R O C   AUC   s o lv ed   th r esear ch   g ap s   o f   o v er f itti n g ,   in ad eq u ate  f ea t u r s elec tio n ,   a n d   n eg lect  o f   co m p r e h en s iv e v alu atio n   m etr ics.   Evaluation Warning : The document was created with Spire.PDF for Python.