I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m pu t er   E ng ineering   ( I J E CE )   Vo l.   15 ,   No .   6 Decem b er   20 25 ,   p p .   5 3 4 7 ~ 5 3 5 9   I SS N:  2088 - 8 7 0 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijece. v 15 i 6 . pp 5 3 4 7 - 5 3 5 9           5347       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m   An ensembl e ma c hine learning   ba sed mo del  for pred iction a nd  dia g no sis  of diabetes melli tus       M o a t a M o ha m ed  E l Sherbi ny 1 ,   Asm a a   H a m dy   Ra bie 2 M o ha m ed  G a m a l A bd el  F a t t a h 1   Ali El s herbi ny   T a k i El din 3 ,   H o s s a m   E l - Din M o s t a f a 1   1 D e p a r t me n t   o f   El e c t r o n i c s a n d   C o m mu n i c a t i o n   En g i n e e r i n g ,   F a c u l t y   o f   E n g i n e e r i n g ,   M a n s o u r a   U n i v e r s i t y ,   M a n so u r a ,   E g y p t   2 D e p a r t me n t   o f   C o m p u t e r   a n d   C o n t r o l   S y s t e m s E n g i n e e r i n g   S c i e n c e ,   F a c u l t y   o f   En g i n e e r i n g ,   M a n s o u r a   U n i v e r si t y ,   M a n so u r a ,   E g y p t   3 D e p a r t me n t   o f   C y b e r   S e c u r i t y ,   F a c u l t y   o f   A r t i f i c i a l   I n t e l l i g e n c e ,   D e l t a   U n i v e r si t y ,   G a masa ,   E g y p t       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Feb   2 2 ,   2 0 2 5   R ev is ed   J u l 1 7 ,   2 0 2 5   Acc ep ted   Sep   1 4 ,   2 0 2 5       Dia b e tes   m e ll it u (DM)   is   a   c h ro n ic  m e tab o li c   d iso r d e t h a p o se s sig n ifi c a n t   h e a lt h   risk a n d   g lo b a e c o n o m i c   b u rd e n s.  Early   p re d icti o n   a n d   a c c u ra te  d iag n o sis  a re   c ru c ial  fo e ffe c ti v e   m a n a g e m e n a n d   trea tme n t.   Th is  stu d y   p re se n ts  a n   e n se m b le  m a c h in e   le a rn in g - b a se d   m o d e d e sig n e d   to   p re d ict  a n d   d iag n o se   Dia b e tes   M e ll it u u si n g   c li n ica a n d   d e m o g ra p h ic  d a ta.  Th e   p ro p o se d   a p p r o a c h   in te g ra tes   m u lt i p le  m a c h i n e   lea rn i n g   a lg o rit h m s,   in c lu d in g   ra n d o m   fo re st  (RF ),   e x t re m e   g ra d ien b o o stin g   (XG B),   a n d   l o g isti c   re g re ss io n   (LR),   to   le v e ra g e   t h e ir  in d i v id u a stre n g t h a n d   e n h a n c e   th e   e n ti re   p e rfo rm a n c e .   Th e   e n se m b le  m o d e wa train e d   a n d   v a li d a ted   o n   m u lt ip le   c o m p re h e n siv e   d a tas e ts.  P e rfo rm a n c e   m e a su re d e m o n stra te  th e   ro b u st n e ss   o p r o p o se d   m o d e a n d   it re li a b il it y   in   d isti n g u ish in g   d iab e ti c   c a se fro m   non - d iab e ti c   c a se a fter  a p p ly i n g   se v e ra l   p re p r o c e ss in g   ste p s.   Th is  w o rk   e n su re th e   c a p a b il it y   o f   m a c h in e   lea rn i n g   in   a d v a n c i n g   h e a l th c a re   b y   p ro v id i n g   e fficie n t,   d a ta - d r iv e n   to o ls  f o d iab e tes   m a n a g e m e n t,   a i d in g   c li n icia n i n   e a rl y   d ia g n o sis,   a n d   c o n tr ib u ti n g   to   p e rso n a li z e d   trea tme n t   stra teg ies .   Co m p a ra ti v e   a n a l y sis  a g a in st  sta n d a lo n e   m o d e ls  h i g h li g h ts  th e   su p e rio p re d ictiv e   c a p a b il i ti e s o f   th e   e n se m b le ap p ro a c h .   Re su lt s h a d   sh o wn   th a e n se m b le  m o d e a c h iev e d   a n   a c c u ra c y   o 9 6 . 8 8 %   a n d   p r e c isio n   o f   8 9 . 8 5 %   o u t p e rfo rm in g   i n d i v id u a l   c las sifiers .   K ey w o r d s :   C las s if icatio n   Diab etes m ellitu s   E n s em b le   Ma ch in lear n in g     Per f o r m an ce   m ea s u r es   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Mo ataz   Mo h am ed   E l Sh er b in y   Dep ar tm en t o f   E lectr o n ics an d   C o m m u n icatio n   E n g in ee r i n g ,   Facu lty   o f   E n g in ee r in g ,   Ma n s o u r Un iv e r s ity   Ma n s o u r a,   DK  3 5 5 1 6 ,   E g y p t   E m ail: m o ataz elsh er b in y @ m a n s . ed u . eg       1.   I NT RO D UCT I O N   Dia b et es  m e llit u s   is   o n e   o f   th e   m o s p r e v ale n t   c h r o n i d is ea s es  a n d   h as   b ec o m e   a   m aj o r   p u b li h e alt h   ch all en g e   [ 1 ] .   Di ab et es  m e llit u s   ( D M)   is   c h r o n i m e ta b o li d is ea s e   ch a r ac te r iz e d   b y   el e v at e d   b l o o d   g l u co s e   lev els ,   r es u l ti n g   f r o m   e it h e r   i n s u f f i cie n t   i n s u li n   p r o d u c ti o n   o r   i n ef f e cti v e   i n s u li n   u t ili za t io n   [ 2 ] .   T h p r e v a le n c o f   d ia b etes   h as   r ea ch e d   ala r m i n g   l ev els   wi th   p r o j ec t io n s   in d ic ati n g   f u r t h e r   g r o wt h   in   t h e   c o m i n g   d e ca d es .   Acc o r d in g   t o   t h e   I n te r n a ti o n a D ia b e tes   Fe d er ati o n   ( I DF ) ,   5 3 7   m il li o n   ad u lts   a g e d   2 0 7 9   y ea r s   w er e   li v i n g   wit h   d ia b etes   g lo b all y   i n   2 0 2 1   [ 3 ] .   T h is   n u m b er   is   p r o je cte d   to   r is t o   6 4 3   m il li o n   b y   2 0 3 0   an d   7 8 3   m ill io n   b y   2 0 4 5 ,   r e f le cti n g   s i g n i f ic an u p wa r d   t r e n d .   I n   2 0 2 1 ,   d i a b et es  was   est im ate d   to   b th ca u s e   o f   6 . 7   m illi o n   f at ali ties ,   i n d ic ati n g   t h a o n p er s o n   d ies  ev e r y   f i v s e co n d s   d u t o   d i ab et es - r e lat ed   c o m p l i ca ti o n s .   Di ab etes   is   co n s i d e r e d   s i le n k i lle r   w h e r th n u m b e r   o f   u n d i a g n o s e d   ca s es  g l o b all y   is   n ea r l y   2 4 0   m ill io n   in d i v i d u a ls   ac c o u n ti n g   f o r   1   i n   2   a d u lts   wit h   d ia b e tes  [ 4 ] .   E g y p r a n k ed   n i n t h   g l o b al ly   i n   t h n u m b er   o f   d ia b e tes  ca s es ,   wit h   1 0 . 9   m i lli o n   ad u l ts   l iv i n g   wit h   t h d is ea s e .   Ar o u n d   5 0 %   o f   d ia b etes   c ases   i n   E g y p t   r e m ain   u n d ia g n o s ed .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 3 4 7 - 5 3 5 9   5348   T h d is ea s is   a s s o ciate d   wit h   s ev er co m p licatio n s   [ 5 ] ,   in clu d in g   ca r d io v ascu lar   d is o r d er s ,   r en al  f ailu r e,   n eu r o p ath y ,   an d   r etin o p ath y ,   wh ich   s ig n if ican tly   i m p ac th e   q u ality   o f   life   a n d   in cr ea s m o r tality   r ates.  E ar ly   d iag n o s is   an d   ef f ec tiv m an ag em e n ar e,   t h er ef o r e,   cr itical  in   m itig atin g   t h d ev elo p m en o f   d iab etes  an d   its   ac co m p an y i n g   co m p licatio n s .   T r a d itio n al  d iag n o s tic  m eth o d s   f o r   d iag n o s is   o f   d iab etes  [ 6 ] s u ch   as  f asti n g   p lasma   g lu c o s ( FP G) ,   o r al  g lu c o s to ler an ce   test s   ( OGT T ) ,   an d   h em o g l o b in   A1 ( Hb A1 c)   lev els,  ar r eliab le  b u m ay   b lim ited   b y   co s t,  ac ce s s ib ilit y ,   an d   th n ee d   f o r   lab o r a to r y   in f r astru ct u r e.   Mo r eo v er ,   th ese  m eth o d s   o f te n   f ail  to   p r ed ict  th e   o n s et  o f   d iab etes  in   p r ed iab etic   in d iv i d u als,  em p h asizin g   th n ee d   f o r   in n o v ativ e   ap p r o ac h es  to   en h an ce   ea r ly   d etec tio n .   I n   r ec en y ea r s ,   ad v an ce s   i n   m ac h in e   lear n i n g   ( ML )   h av d e m o n s tr ated   s i g n if ican p o te n tial  in   h ea lth ca r e,   o f f e r in g   d ata - d r iv e n   s o lu tio n s   f o r   d is ea s p r ed ictio n ,   d iag n o s is ,   an d   p er s o n alize d   tr ea tm en t.  T elem ed icin h as  b ec o m g am e - ch a n g in g   s o lu tio n   [ 7 ] wh er it  im p r o v es   h ea lth ca r e   ac ce s s ib ilit y   b y   elim in atin g   t h n ee d   f o r   i n - p er s o n   h o s p ital  v is its   th r o u g h   th e   u tili za tio n   o f   d ig ital c o m m u n icatio n   tech n o l o g y   t h at  en ab les   d is tan t c o n s u ltatio n s .   Mo s o f   p r ev io u s   s tu d ies  em p lo y ed   th Pima   I n d ian s   Diab etes  Data s et   ( PID D) .   I is   co n s id er ed   as   o n o f   th m o s well - k n o wn   d atasets   in   b in ar y   class if icatio n   o f   d iab etes  u s in g   m ac h in lear n in g .     Feb r ian   et  a l.   [ 8 ]   ap p lied   two   s u p er v is ed   m ac h i n lear n in g   a lg o r ith m s   o n   th PID D.   T r ai n   an d   test   s p lit  wer p er f o r m ed   with o u c r o s s   v ali d atio n .   T h r esu lts   o f   K - n ea r est  n eig h b o r   ( KNN)   wer o u t p er f o r m ed   b y   n aïv e   B ay es  ( NB )   in   b o th   ex p er im e n ts .   Au th o r s   co m p ar e d   r esu lts   in   ter m s   o f   ac cu r ac y ,   r ec all  as  well  as   p r ec is io n .   NB   ac h iev ed   th h ig h est  ac cu r ac y   o f   7 8 . 5 2   %.  Kan g r an d   Sin g h   [ 9 ]   s p lit  d ata  in to   tr ain i n g   an d   test in g   u s in g   10 - f o l d   cr o s s - v alid atio n   f o r   p r ep r o ce s s in g   s tag e.   Au t h o r s   co m p ar e d   s ix   s u p e r v is ed   m ac h in lea r n in g   alg o r ith m s   u s in g   th r ee   ev alu at io n   m etr ics  wh ich   ar ac cu r ac y ,   p r ec is io n   an d   r ec all.   T h e y   NB ,   KNN,   s u p p o r v ec to r   m ac h in ( SVM) d ec is io n   tr ee   ( DT ) r an d o m   f o r est  ( R F)   an d   lo g is tic  r eg r ess io n   ( L R )   o n   t h PID in d icatin g   th at   SVM  ac h iev ed   h ig h est  ac c u r ac y   s co r o f   7 4 . 3 f o llo wed   b y   L R   wh ich   ac h iev ed   7 4 %.  C h an g   et  a l.   [ 1 0 ]   co n d u cted   th r ee   ex p er im en ts   o n   th PID D.   T h f ir s t e x p er im en t sh o wed   th at  R o u tp er f o r m ed   b o th   DT   an d   NB   b y   ac h iev in g   7 9 . 5 7 % a n d   8 9 . 4 % in   ter m s   o f   ac c u r ac y   an d   p r ec is io n   r esp ec tiv e ly .   Au th o r s   ap p lied   f ea tu r s elec tio n   o f   3 - f ac t o r   o f   th en tire   d ataset  in   th s ec o n d   ex p er im en t.  NB   r ea ch e d   a cc u r ac y   o f   7 9 . 1 3 %,   an d   F1 - s co r e   o f   8 4 . 7 1 %.  I n   t h eir   f in al  e x p er im e n t,  au t h o r s   u tili ze d   f ea tu r e   s elec tio n   o f   5 - f ac to r .   Ho wev er ,   ac cu r ac y   wen d o w n   to   7 7 . 8 3 b y   NB Mu s h taq   et  a l.   [ 1 1 ]   em p l o y ed   two - s ta g m o d el  s elec tio n   m eth o d o l o g y .   L R ,   SVM,   KNN,   GB ,   NB   an d   R ap p lied   to   d eter m in th e   ef f icien cy   o f   p r ed ictio n   m o d els.  R was  f o u n d   to   b th b est  with   ac cu r ac y   o f   8 0 . 7 af ter   ap p l y in g   s m o te.   T h e n s em b le  o f   th b est  3   m o d els  y ield ed   ac c u r ac y   o f   8 2 o n   o r ig in al  d ataset  an d   8 1 . 7 o n   b alan ce d   d ataset.   R awa et  a l.   [ 1 2 ]   ass u r es  th e   u s ef u ln ess   o f   d ata  m in in g   tech n iq u es  to   ev alu ate  th u n k n o wn   p atter n s   o n   th PID D.   Au th o r s   p r o p o s ed   m u ltip le  tech n iq u es  s u ch   as  A d aBo o s an d   Naïv e   B ay es  f o r   th an aly s is   an d   p r ed ictio n   o f   DM   p atien ts .   T h e   r esu lts   co m p u ted   ar f o u n d   to   b 7 9 . 6 9 class if icatio n   ac cu r ac y   b y   Ad aBo o s m eth o d .   B ar ik   et  a l.   [ 1 3 ]   u s ed   two   m ac h in e   lear n in g   alg o r ith m s   o n   PID D.   I n   th ca s e   o f   R F,  th p r ed ictio n   v alu e   was  7 1 . 9 b u XGBo o s y ield ed   h ig h e r   ac cu r ac y   o f   7 4 . 1 %.  Palim k ar   et  a l.   [ 1 4 ]   u tili ze d   m u ltip le  m ac h in lear n in g   m o d els  o n   q u esti o n n air e   d ataset  s u ch   a s   L R ,   SVM,   n aïv B ay es  a n d   ad a p tiv b o o s tin g   ( Ad aB o o s t) .   R esu lts   wer co m p ar ed   u s in g   7 0 % - 3 0 tr ain in g   an d   test in g   ac cu r ac y   r esp ec tiv ely   in   ad d itio n   to   m ea n   s q u ar er r o r   ( MSE ) .   L R   ac h iev ed   9 3 . 5 9 %,  SVM  y ield ed   9 4 . 2 3 %,  Gau s s ian   NB   9 1 . 0 2 a n d   Ad aBo o s 9 4 . 8 7   in   ter m s   o f   test in g   ac cu r ac y .   Vo ca b io m ar k er   p r ed ictio n   o f   d is ea s h as  b ee n   em p lo y e d   in   v ar iety   o f   d is ea s es,  in clu d in g   C OVI D - 1 9   d etec tio n ,   Par k in s o n ' s   d is ea s e,   p u lm o n ar y   f u n ctio n ,   an d   co r o n ar y   ar ter y   d is ea s e.   Fag h er az zi  et  a l.   [ 1 5 ]   im p lem en ted   th eir   s tu d y   o n   C o liv s tu d y   v o ice  d ataset.   au th o r s   u tili ze d   th r ee   class if ier   alg o r ith m s   s u ch   as  lo g is tic  r eg r ess io n s u p p o r t v ec to r   m ac h in a n d   m u lti - lay e r   p er ce p tr o n   class if ier s   ( ML P).   R esu lts   in d icate d   th at  ML y ield e d   th e   h i g h est  ac cu r ac y   o f   6 7 o n   f em ale   g r o u p   with   6 6 %,6 7 s p ec if ic ity   an d   s en s itiv ity   r esp ec tiv ely .   Fu r th e r m o r e ,   ML ac h iev ed   7 1 %,  7 0 an d   7 3 in   ter m s   o f   ac cu r ac y ,   s p ec if icity   a n d   s en s itiv ity   r esp ec tiv ely .   Kau f m an   et  a l.   [ 1 6 ]   in v esti g ated   th p r o s p ec o f   s p ee ch   an aly s is   as  p r escr ee n in g   o r   tr ac k in g   to o f o r   ty p e   2   d ia b etes  m ellitu s   ( T 2 DM )   th r o u g h   co n tr asti n g   t h v o ice  r ec o r d in g s   b etwe en   n o n - d iab etic  an d   T 2 DM   in d iv i d u a ls .   T o tal  2 6 7   p a r ticip an ts   wer d iag n o s ed   as  n o n - d iab etic   o r   d iab etic   b ased   o n   Am er ican   Diab etes  Ass o ciatio n   ( ADA)   g u id elin es.  Sam p les r ec r u ited   i n   I n d ia  u s in g   a   s m ar tp h o n e   ap p licatio n   r ec o r d in g   fix e d   p h r ase  in   a d d itio n   to   d em o g r a p h ic  f ea t u r es  s u ch   as  ag e   an d   b o d y   m ass   in d ex .   Au th o r s   im p lem en ted   two   s u p er v is ed   m ac h in lear n in g   m o d els  wh i ch   ar l o g is tic  r eg r ess io n   a n d   n aïv B ay es.  L R   ac h iev ed   test in g   ac cu r ac y   o f   7 0 o n   wo m en   v o ice  d ataset.   Acc u r ac y   wen u p   to   8 2 wh en   all  f ea tu r es  wer im p lem en ted .   On   Me n   v o ice   d ataset,   L R   s co r ed   a   test in g   ac c u r ac y   o f   6 9 %.   Mo r e o v er ,   wh e n   all  f ea tu r es  wer e   co n s id er ed ,   ac c u r ac y   we n t u p   to   8 6 %.    T h is   s tu d y   aim s   to   d esig n   a n   ac cu r ate  m ac h in e   lear n in g   m o d el  th at  tr ain s   ea ch   class   in d e p en d en o f   d ataset  o r ig in al  d is tr ib u tio n   a n d   s ize  th r o u g h   th em p lo y m en o f   p r o p er   p r e p r o ce s s in g   ap p r o ac h   to   h an d le  th n o n - ex is tin g   v alu es,  d ata   r escalin g   an d   class   im b alan ce .   Fu r th er m o r e,   I m p r o v in g   t h p er f o r m an ce   o f   p r o p o s ed   m o d el  th r o u g h   b alan cin g   th d ataset  an d   e n s em b le  tech n iq u es.  T h p r o p o s ed   m o d el  was  ap p lied   o n   d iv er s d atasets   to   en s u r th g en er aliza b ilit y   o f   th r esu lts .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A n   en s emb le  ma ch in lea r n in g   b a s ed   mo d el  fo r   p r ed ictio n   a n d   …  ( Mo a ta z   Mo h a med   E S h erb in y )   5349   T h r e m ain d er   o f   th is   m an u s cr ip is   o r g an ized   as  f o llo ws:   Sectio n   2   r ev iews  m eth o d s   u s ed   in   th ap p licatio n   o f   m ac h in lear n i n g   f o r   d iab etes  d iag n o s is ,   f o llo win g   th d escr ip tio n   o f   th d atasets   em p lo y ed   in   th is   s tu d y .   Sectio n   3   p r esen ts   ex p er im e n tal  r esu lts   an d   d is cu s s io n .   Fin ally ,   c o n clu s io n   an d   p o s s ib le  f u tu r e   wo r k   in   s ec tio n   4 .       2.   M E T H O D   T h is   s ec tio n   im p lem en ts   th s tated   ar ch itectu r o f   th is   p ap e r .   I d elv es  in to   f iv m ain   p ar ts .   First ly ,   d ataset  d escr ip tio n ,   th en   d ata   p r ep r o ce s s in g ,   tr ain - test   s p lit  an d   c r o s s   v alid atio n ,   ML   alg o r ith m s   an d   f in ally   p er f o r m an ce   ev al u atio n   m etr ic s   as sh o wn   in   Fig u r 1 .           Fig u r 1 .   Pro p o s ed   f r am ewo r k   b lo ck   d iag r am       2 . 1 .     Da t a s et   L ab eled   d ata  is   v ital  in p u to   s u p er v is ed   m ac h in lear n in g   an d   d ee p   lear n in g   class if icatio n   p r o b lem s   [ 1 7 ] .   A   r elev an t   co llectio n   o f   d ata  ai d s   to   b etter   m ac h in e   lear n in g   class if icatio n .   T h er e   ar f o u r   d atasets   im p lem en ted   in   th is   s tu d y   th at  d if f er   in   n u m b er   o f   s am p les  as  well  a s   th n u m b er   an d   th ty p o f   th eir   attr ib u tes.  T h ey   wer e   g a th er ed   f r o m   p u b lic  h o s ts   an d   b y   ag r ee m en ts   with   m e d ical  c en ter s   an d   d o cto r s .   T h ey   ar e   p u b licly   av ailab le   o n lin h o s ted   b y   UC I   Ma ch i n L ea r n i n g .   Deta iled   d escr i p tio n   o f   f ea tu r es  in   en tire   d atasets   is   illu s tr ated   th r o u g h   T ab les  1   to   4 .       T ab le  1 .   Descr ip tiv f ea t u r es  o f   PID D   A t t r i b u t e   D e scri p t i o n   N u l l   v a l u e s   c o u n t   R a n g e   P r e g n a n c i e s   N u mb e r   o f   t i mes   a   p a t i e n t   h a s   b e e n   p r e g n a n t   -   0 - 17   G l u c o s e   C o n c e n t r a t i o n   o f   p l a sm a   g l u c o se   a t   t w o   h o u r i n   a n   o r a l   g l u c o se   t o l e r a n c e   t e st   ( G TI T)   1 8 0   0 - 1 9 9   BP   D i a st o l i c   b l o o d   p r e ss u r e   ( mm   H g )   2 2 1   0 - 1 2 2   ST   S k i n   f o l d   t h i c k n e ss  i n   Tr i c e p s (m m)   2 9 2   0 - 99   I n su l i n   S e r u m I n su l i n   f o r   t w o   h o u r s ( / ml )   4 9 8   0 - 8 4 6   B M I   B o d y   mas s i n d e x   ( k g / m)   80   0 - 6 7 . 1   D P F   D i a b e t e p e d i g r e e   f u n c t i o n   -   0 . 0 7 8     2 . 4 2   A g e   A g e   i n   y e a r s   -   2 1   - 81   O u t c o m e   B i n a r y   t a r g e t   i n d i c a t i n g   d i a b e t i c   o r   n o t   -   -   1       T h f ir s d ataset  n am ely   Pima   I n d ian   Diab etes  Data s et   ( PID D) .   T h PID is   wid ely   u s e d   m ed ical  d ata  r ec o r d s   in   m ac h in e   lear n in g .   I was  g at h er ed   b y   th e   Natio n al  I n s titu te  o f   Diab etes   an d   Dig esti v an d   Kid n ey   Dis ea s es  ( NI DDK) .   I f o cu s es  o n   p r e d ictin g   w h eth er   p atien h as  d iab etes  b a s ed   o n   d iag n o s tic  m ea s u r em en ts   an d   p e r s o n al  d ata.   T h d ataset  is   p ar o f   t h UC I   Ma ch in L ea r n in g   R ep o s ito r y   av ailab le   o n lin o n   Kag g le  [ 1 8 ] .   I co n s is ts   o f   7 6 8   in s tan ce s   with   9   attr ib u tes  in clu d in g   th tar g et  v a r iab le.   All  f ea tu r es  ar n u m er ic  an d   d escr ib e d   in   T ab le  2 .   T h s ec o n d   d ataset  is   s u b m itted   u s in g   q u esti o n n air f o r   d iab etes   p r ed ictio n   ca s s tu d y   [ 1 9 ] .   I co n tain s   5 2 0   s am p les  a n d   1 7   p r ed ictiv f ea tu r es.   T h th ir d   d ataset  [ 2 0 ]   co n s is ts   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 3 4 7 - 5 3 5 9   5350   o f   1 0 0 , 0 0 0   s am p les  with   7   f ea tu r es.  I t   is   co n s id er ed   th lar g est  d ataset  in   th is   s tu d y   am o n g   th e   f o u r   im p lem en ted   o n es.  T h f o u r t h   an d   last   d ataset  n am ed   Vo i ce - an d - d iab etes - VOCADI AB   [ 2 1 ]   is   av ailab le  o n   GitHu b   r ep o s ito r y .   I t   is   p a r o f   t h C o liv Vo ice   s tu d y ,   t h at  f o c u s es  o n   u s in g   v o ice  an aly s is   to   s cr ee n   f o r   ty p 2   d iab etes  ( T 2 DM )   in   th ad u lt  p o p u latio n   o f   th Un ited   States .   T h g o al  o f   th s tu d y   is   to   an aly ze   ac o u s tic  r ec o r d in g s   wh ich   ar in   th f o r m   o f   v o ice  em b e d d in g s .   Par ticip an ts   lik ely   p r o v id ed   s tan d a r d ized   v o ice  r ec o r d in g s ,   s u ch   as:  Su s tain ed   v o wels  ( /a a o r   /o o / ) .   Ad d itio n ally ,   it  in v o l v es  th ass o ciate d   p ar ticip an t   m eta  d ata  to   d e v elo p   m ac h in lear n in g - b ased   s cr ee n in g   to o l f o r   ty p 2   d iab etes.        T ab le  2 .   Descr ip tiv f ea t u r es  o f   q u esti o n n air d ataset   A t t r i b u t e   D e scri p t i o n   R a n g e   ( D i s t r i b u t i o n )   A g e   A g e   o f   p e r s o n   i n   y e a r s   16 - 90   G e n d e r   S e x   o f   p a t i e n t   M a l e   ( 6 3 %)  o r   F e m a l e   ( 3 7 %)   P o l y u r i a   Ex c e ss  u r i n a t i o n   Y e s (5 0 %   o r   N o   ( 5 0 % )   P o l y d i p si a   Ex c e ss  t h i r st   Tr u e   ( 4 5 % )   o r   F a l se   ( 5 5 % )   S u d d e n   w e i g h t   l o ss   U n i n t e n t i o n a l   a n d   r a p i d   w e i g h t   l o ss   Tr u e   ( 4 2 % )   o r   F a l se   ( 5 8 % )   W e a k n e ss   R e d u c e d   e n e r g y   Tr u e   ( 5 9 % )   o r   F a l se   ( 4 1 % )   P o l y p h a g i a   Ex c e ssi v e   h u n g e r   o r   i n c r e a se d   a p p e t i t e   Tr u e   ( 4 6 % )   o r   F a l se   ( 5 4 % )   G e n i t a l   t h r u sh   F u n g a l   i n f e c t i o n   Tr u e   ( 2 2 % )   o r   F a l se   ( 7 8 % )   V i su a l   b l u r r i n g   D i f f i c u l t y   i n   se e i n g   c l e a r l y   Tr u e   ( 4 5 % )   o r   F a l se   ( 5 5 % )   I t c h i n g   P e r si st e n t   s k i n   p r u r i t u s   Tr u e   ( 4 9 % )   o r   F a l se   ( 5 1 % )   I r r i t a b i l i t y   Emo t i o n a l   se n si t i v i t y   o r   mo o d   sw i n g s   Tr u e   ( 2 4 % )   o r   F a l se   ( 7 6 % )   D e l a y e d   h e a l i n g   S l o w   w o u n d   h e a l i n g   Tr u e   ( 4 6 % )   o r   F a l se   ( 5 4 % )   P a r t i a l   p a r e si s   W e a k n e ss  o r   p a r a l y s i o f   m u sc l e   g r o u p   Tr u e   ( 4 3 % )   o r   F a l se   ( 5 7 % )   M u s c l e   s t i f f n e ss   R e d u c e d   f l e x i b i l i t y   i n   m u sc l e s   Tr u e   ( 3 8 % )   o r   F a l se   ( 6 2 % )   A l o p e c i a   H a i r   l o ss  a n d   h o r mo n e   i m b a l a n c e   Tr u e   ( 3 4 % )   o r   F a l se   ( 6 6 % )   O b e si t y   Ex c e ss  b o d y   f a t   Tr u e   ( 1 7 % )   o r   F a l se   ( 8 3 % )   C l a s s   B i n a r y   t a r g e t   i n d i c a t i n g   d i a b e t i c   o r   n o t   P o si t i v e   ( 6 2 %)  o r   N e g a t i v e   ( 3 8 %)       T ab le  3 .   Descr ip tiv f ea t u r es  o f   th ir d   d ataset   A t t r i b u t e   D e scri p t i o n   R a n g e   G e n d e r   S e x   o f   p a t i e n t   M a l e   ( 1 )     F e m a l e   ( 0 )   A g e   A g e   i n   y e a r s   0 - 80   Ht   H y p e r t e n si o n   Y e s (1 )     N o   ( 0 )   Hd   H e a r t   D i sea se   Y e s (1 )     N o   ( 0 )   S mo k i n g   P a r t i c i p a n t   h i st o r y   o f   s mo k i n g   C u r r e n t ,   n e v e r ,   f o r mer ,   n o _ i n f o   B M I   B o d y   mas s i n d e x   ( k g / m)   1 0 . 0 1     9 5 . 6 9   H b A 1 c   G l y c a t e d   H e m o g l o b i n :   a   b l o o d   t e s t   t h a t   mea s u r e t h e   a v e r a g e   b l o o d   su g a r   ( g l u c o se)  l e v e l s   o v e r   t h e   p a st   2 - 3   m o n t h s   3 . 5 - 9   B g l   B l o o d   g l u c o s e   l e v e l   8 0   -   300   d i a b e t e s   B i n a r y   t a r g e t   i n d i c a t i n g   d i a b e t i c   o r   n o t   D i a b e t i c   ( 1 )   non - D i a b e t i c   ( 0 )       T ab le  4 .   Descr ip tiv f ea t u r es  o f   VOCADI AB   A t t r i b u t e   D e scri p t i o n   R a n g e   B y o l s _ e mb e d d i n g s   N u meri c a l   r e p r e se n t a t i o n s   o f   k e y   a c o u st i c   a n d   sp e e c h   c h a r a c t e r i s t i c s e x t r a c t e d   f r o m   p a r t i c i p a n t s’   v o i c e   r e c o r d i n g s   -   G e n d e r   S e x   o f   p a r t i c i p a n t     M a l e   ( 1 )     F e m a l e   ( 0 )   A g e   A g e   i n   y e a r s   1 8   -   81   B M I   B o d y   mas s i n d e x   ( k g / m)   1 5 . 8 2   t o   6 6 . 9 3   Et h n i c i t y   R a c e   o f   p a r t i c i p a n t     La t i n o     w h i t e     b l a c k     mi x e d     o t h e r     A s i a n   -   u n k n o w n   A D A _ sco r e   D i a b e t e s - r e l a t e d   sc o r e   b a s e d   o n   t h e   A meric a n   D i a b e t e s   A sso c i a t i o n 's   c l a ssi f i c a t i o n .   I n t e g e r   f r o 0   t o   7   D i a b e t e s   B i n a r y   t a r g e t   i n d i c a t i n g   d i a b e t i c   o r   n o t   D i a b e t i c   ( 1 )   non - D i a b e t i c   ( 0 )       2 . 2 .     Da t a   prepro ce s s ing   Pre p r o ce s s in g   i s   an   im p o r tan t   b u ild in g   b lo ck   i n   th p r o ce s s   o f   d ev el o p m e n o f   t h e   p r o p o s e d   m o d el .   W h er th ef f icien cy   o f   th p r ed ictio n   m o d e l   i s   a l t e r e d   b y   t h e   i n c o n s i s t e n t   d a t a .   T h e r e   ar s o m s er io u s   o b s er v atio n s   in   th ese  d atasets   s u ch   as  n o n - e x is tin g   v alu es  o r   ze r o   v alu es,  n o m in al  f ea tu r es  an d   tar g et  class   u n eq u al  d is tr ib u tio n s .   T h p r ep r o ce s s in g   o f   d ata  is   im p le m en ted   i n   th r ee   d i f f e r e n t   s tag es  w h i c h   ar class   im b alan ce ,   h a n d lin g   m is s in g   v alu es,  an d   e n c o d i n g .       Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A n   en s emb le  ma ch in lea r n in g   b a s ed   mo d el  fo r   p r ed ictio n   a n d   …  ( Mo a ta z   Mo h a med   E S h erb in y )   5351   2 . 2 . 1 .   Cla s s   im ba la nce   C las s   im b alan ce   o cc u r s   wh en   th er ar c o m p ar ativ el y   m o r s am p les  in   o n class   o f   d ata s et  th an   in   o th er   class .   Ma ch in e   lear n in g   m o d els  m i g h h av d if f icu lti es  in   p r e d ictio n   s tag e   b ec au s e   o f   th is   im b alan ce .   As  th ey   ten d   to   f av o r   th m aj o r ity   class   r esu ltin g   in   b iased   m o d el  p r ed ictio n   a n d   m is le ad in g   p er f o r m an ce ,   p ar ticu lar ly   f o r   th m in o r ity   class   [ 1 6 ] .   C las s   im b alan ce   i s s u es  ca n   b ad d r ess ed   in   s e v er al  way s   s u ch   as  u n d er   s am p lin g   th d o m in a n t   class   o r   o v er s am p lin g   th e   m in o r ity   class .   Ad d itio n ally ,   d ata  au g m en tatio n ,   wh ich   is   co m m o n l y   em p lo y ed   in   im ag d atasets .   All  d ataset s   im p lem en ted   in   th is   s tu d y   s u f f er   f r o m   class   im b alan ce   as  s h o wn   in   Fig u r 2   ex ce p f o r   VOCADI A B   wh er th tar g et  class   d is tr ib u tio n   is   eq u al.   PID in clu d es  5 0 0   d ia b etic  p atien ts   wh ile  th e   n u m b er   o f   n o n - d ia b etic  in d iv id u als  is   2 6 8 .   T h th ir d   d atas et  co n tain s   9 1 , 5 0 0   n o n - d iab et ic  in d iv id u als  an d   o n ly   8 , 5 0 0   d iab etic  p atien ts .   T h q u esti o n n ai r d ataset  co n ta in s   3 2 0   d ia b etics a n d   2 0 0   n o n - d iab etics.           Fig u r 2 .   Data s et  tar g et  class   d is tr ib u tio n       2 . 2 . 2 .   M is s i ng   v a lues   T h er ar e   s o m s er io u s   o b s er v atio n s   in   th ese  d atasets   s u ch   as  n u ll  o r   ze r o   v alu es.  So m e   f ea tu r es,  s u ch   as Glu co s e,   B lo o d   Pre s s u r e,   Sk in   T h ick n ess ,   I n s u lin ,   an d   B MI ,   h av ze r o   v alu es,  wh ich   ar u n lik ely   in   a   r ea l - wo r ld   m ed ical  s ettin g .   F o r   e x am p le,   ze r o   B MI   o r   g l u co s is   b io l o g ically   im p o s s ib le.   Fo r   v ar iety   o f   r ea s o n s ,   p atien ts   o f ten   n eg lec m u ltip le  r eq u i r ed   test s .   T h e r e f o r e ,   n o n - e x is tin g   v alu es  w ill  ap p ea r   in   d ata,   r eq u ir in g   th em p lo y m e n t o f   s u itab le  im p u tatio n   tec h n iq u es.     T h er ar m u ltip le  ap p r o ac h es  to   h an d le  n o n - e x is tin g   attr ib u tes  lik ex ch an g in g   th e m   with   a   co n s tan t,  m ea n ,   m ed ian   an d   m o s f r eq u e n t.  Dea lin g   with   in co m p lete  m e d ical  r ec o r d s   ca n   b e   p er f o r m ed   th r o u g h   d if f er en m et h o d s   [ 2 2 ] .   Swap p in g   o u m is s in g   f ea tu r es  with   co n s tan “z er o   h as  n o   ef f ec o n   th e   p r ed ictio n   b iasi n g   o f   m o d el.   On   th e   o t h er   h an d ,   th is   ass u m p tio n   is   b io lo g ically   im p o s s ib le.   Neg lectin g   in co m p lete  r ec o r d   b y   s im p l y   r em o v in g   th em   ca n   af f e ct  s m al l - s ca le  d atasets .   Oth er   m ath e m atica ap p r o ac h es   s u ch   as r ep lacin g   n o n - ex is tin g   v alu es with   co n s tan t,  m ea n ,   m ed ian   o r   m o s t f r e q u en t.     2 . 2 . 3   N o m ina l f e a t ures   T h m ac h i n lear n in g   al g o r it h m   n ee d s   to   tr a n s f o r m   n o m in al  v alu es  in to   n u m er ical  v alu es  s o   th at  it   ca n   co m p r eh en d   th e   d ata  it  r ec eiv es  to   en ab le   f u r t h er   p r o c ess in g .   C ateg o r ical   v a r i a b l e s   wer e   en co d e d   u s i n g   o n h o t   en c o d er .   I tr an s f o r m s   ea ch   u n iq u v al u in   th n o m in al  attr ib u te  in to   b in ar y   v ec to r .   E v er y   u n iq u e   v alu is   r ep r esen ted   b y   v ec t o r   with   s in g le  “1 ”  in d icatin g   th p r esen ce   o f   th at  ca teg o r y   wh ile  th r em ain in g   ca teg o r ies  ar r ep r esen ted   b y   “0 ”.   E n co d in g   is   cr u cial  b ec au s m ac h in e   lear n in g   m o d els  wo r k s   wit h   n u m er ical  d ata,   n o t c ateg o r ica l la b els.     2 . 3 .     K - F o ld cr o s s   v a lid a t io n   C r o s s   v alid atio n   an d   tr ain - test   s p lit   ar tech n iq u es  u s ed   in   m ac h in lear n in g   to   ev al u ate  m o d el  p er f o r m an ce .   Sin ce   th e y   esti m ate  h o well  m o d el  will   g en er alize   to   u n s ee n   d ata.   I n   th tr ain - test   s p lit  Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 3 4 7 - 5 3 5 9   5352   m eth o d ,   th d ataset  is   d iv id ed   in to   two   p ar ts .   T h e   tr ain   s et  wh ich   is   u s ed   to   tr ai n   th e   m o d el,   an d   th e   test   Set   th at  is   u s ed   t o   ev alu ate  th e   p e r f o r m a n ce   o n   u n k n o wn   d ata.   I is   co n s id er ed   th e   s im p lest   ap p r o ac h   wh er e   d ata   is   d iv id ed   in to   a   7 0 % - 8 0 f o r   tr ain in g   p h ase  an d   a   2 0 % - 3 0 f o r   test in g   p h ase.   I t   is   s im p le,   q u ick ,   ea s y   to   im p lem en an d   c o m p u tatio n ally   ef f icien t.   I wo r k s   well  f o r   lar g d atasets .   On   t h o t h er   h an d ,   t h er is   a   h ig h   v ar ian ce   wh er p er f o r m an ce   d ep en d s   o n   h o th d ata  is   s p lit.  T h r esu lts   m ig h v ar y   with   d if f er en r a n d o m   s ee d s .   I t is less   r eliab le  f o r   s m all  d atasets   wh er th s in g le  s p lit m ig h t n o t c a p tu r t h v ar i ab ilit y   in   th d ata.     T h d ataset  is   d iv id ed   in to   a   n u m b er   “K”   o f   s u b s ets  th at  ar ap p r o x im ately   eq u al  s ize  in   cr o s s   v alid atio n .   T h m o d el  is   tr ain ed   an d   test ed   tim es,  with   ea ch   f o ld   u s ed   as  th test   s et  e x ac tly   o n ce   an d   th e   r em ain in g   f o ld s   as  th e   tr ain in g   s et  as  s h o wn   in   Fig u r 3 .   Al d ata  p o i n ts   ar u s ed   f o r   b o t h   tr ain in g   an d   s o   it  is   co n s id er ed   c o m p u tatio n ally   e x p en s iv an d   ca n   b tim e - co n s u m in g ,   esp ec ially   f o r   la r g d atasets   o r   co m p lex   m o d els.           Fig u r 3 .   Fiv e - f o ld   cr o s s   v alid atio n   [ 2 3 ]       2 . 4 .     M a chine le a rning   Ma ch in lear n in g   ( ML )   m ak u s o f   m ath em atica an d   s tatis tical  alg o r ith m s   in   o r d e r   t o   id en tify   p atter n s   in   d ata  s o   th at  it  ca n   p er f o r m   an   ac cu r ate   an d   p r ec is p r ed ictio n s   [ 2 4 ] .   ML   en h an ce   th eir   p er f o r m an ce   o v er   tim th r o u g h   b ein g   ex p o s ed   to   m o r d ata .   Su p er v is ed   lear n in g   tr ai n s   o n   lab eled   d ata  u s ed   in   class if icatio n   as  in   o u r   ca s e.   T h is   s tu d y   in v o lv es  an   e n s em b le  o f   m ac h in lear n i n g   class if ier s ,   s u ch   as   r an d o m   f o r est  ( R F),   ex tr em g r ad ien b o o s tin g   ( XGB)  an d   lo g is tic  r eg r ess io n   f o r   t h p u r p o s o f   p r e d ictin g   d iab etes   m ellitu s .     2 . 4 . 1 .   L o g is t ic  re g re s s io n   lo g is tic  r eg r ess io n   ( L R )   is   o n o f   t h p o p u lar   s u p er v is ed   le ar n in g   alg o r ith m s   i n   h ea lth ca r s y s tem s .   I is   k n o wn   f o r   its   s im p licity   an d   ea s o f   im p lem e n tatio n ,   m ak in g   it  o n o f   t h m o s s u i tab le  alg o r ith m s   f o r   b in ar y   class if icatio n   p r o b lem s .   T h L R   u s es  co llectio n   o f   in d ep en d en f ea tu r es  to   p r e d ict  th lik elih o o d   o f   th class   o u tp u [ 2 5 ] .   T h th r e s h o ld   u s ed   to   id en tify   wh ich   d ata  b elo n g s   to   p a r ticu lar   cl ass   is   k n o wn   as  th d ec is io n   b o u n d ar y   [ 2 6 ] .   T h e   lo g is tic  s ig m o id   f u n ctio n   is   u s ed   to   g et  th is   ca teg o r izatio n   p r o b ab ilit y .   T h e   co ef f icien ts   o f   L R   p r o v id cle ar   in s ig h ts   in to   th r elatio n s h ip   b etwe en   ea ch   f ea tu r a n d   th o u tco m class .     2 . 4 . 2 .   Ra nd o m   f o re s t   R an d o m   f o r est  ( R F)   cr ea tes  n u m b er   o f   d ec is io n   tr ee s   an d   g iv es  th o u tp u class   o f   ea ch   tr ee   in   th tr ain in g   p h ase   [ 2 7 ] R ca n   h an d le  lar g n u m b er   o f   f ea tu r es  ev en   if   th ey   in clu d m is s i n g   d ata,   m ak in g   it   s u itab le  f o r   r e al - wo r ld   d atasets .   Mo r eo v er ,   it  p r o v id es  in s i g h ts   to   f ea tu r im p o r tan ce   t h at  d eter m in wh ic h   v ar iab les  co n tr ib u te   th m o s t o   th e   p r e d ictio n .   T h is   m o d el   o f f er s   a   s tr aig h tf o r wa r d   m o d if i ca tio n   th at   u tili ze s   a   co r r elate d   tr ee   in   th b ag g i n g   p r o ce s s ,   th is .   ce r tain   am o u n o f   attr ib u tes  ar ig n o r e d   ac r o s s   all  co lu m n s   d u r in g   b o o ts tr ap p in g   [ 2 8 ] .   T h is   tech n iq u e   aid s   in   th e   p r o ce s s   o f   r ed u cin g   v ar ia n ce .   O n   th e   o th er   h a n d ,   it  r aises   th p r o b ab ilit y   o f   b iasi n g .     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A n   en s emb le  ma ch in lea r n in g   b a s ed   mo d el  fo r   p r ed ictio n   a n d   …  ( Mo a ta z   Mo h a med   E S h erb in y )   5353   2 . 4 . 3 .   E x t re m g ra dient  bo o s t ing   An   ex tr em g r ad ien b o o s tin g   ( XGB )   i s   tr ee - b ased   s eq u en tial  DT   alg o r ith m   ap p lied   to   r elativ ely   s m all  o r   m ed iu m   s ize  tab u lar   d atasets   [ 2 9 ] .   I is   co n s id er e d   to   b am o n g   th m o s ef f ec tiv tech n iq u es  f o r   class if icatio n   an d   p r ed ictio n .   I is   k n o wn   f o r   its   s p ee d   an d   p er f o r m an ce   d u to   o p tim ized   g r ad ien b o o s tin g   alg o r ith m s .   B y   co m b in in g   co m p ar ativ ely   wea k er   a n d   s im p ler   m o d els.  Scalab ilit y   is   co n s id er ed   th m o s im p o r tan f ea tu r in   XGB  [ 3 0 ] ,   wh er it  im p lem en lear n in g   th r o u g h   d is tr ib u te d   co m p u tin g   an d   m em o r y   u s ag is   well  s tr u ctu r ed .   T h e   u s o f   L ass o   an d   R id g r eg u lar izatio n   aid s   in   p r ev en tin g   o v er f itti n g .   XGB  ca n   wo r k   with   d if f er en t ty p es o f   d ata  m ak in g   it v e r s atile  f o r   m an y   m ed ical  ap p licatio n s .     2 . 4 . 4 .   E ns em ble m o delin g   Sin ce   d if f er en m o d els  h av e   d if f er en s tr en g th s   an d   wea k n ess es.  E n s em b le  m eth o d s   u tili ze   th co llectiv d ec is io n   o f   m u ltip l b ase  m o d els  wh ich   ar e   m o r r o b u s an d   ac c u r ate  t h an   a n y   in d i v id u al   m o d el.   E r r o r s   d u t o   b iasi n g ,   v a r ian ce ,   o r   ev en   n o is in   t h d ata   ca n   b m i n im ized   t h r o u g h   c o m b in in g   m u ltip le  m o d els  [ 3 1 ] .   Pre d ictio n s   f r o m   m u ltip le  m o d els  ar e   av er a g ed   f o r   r eg r ess io n   o r   c o m b in ed   d u e   to   m ajo r ity   v o tin g   f o r   class if icatio n   as  in   o u r   ca s e.   E n s em b le  m eth o d s   ca n   b etter   id en tify   a n d   u tili ze   im p o r tan f ea tu r es.  Alth o u g h   in d iv id u al  m o d els  m ay   b co m p u tatio n ally   ef f i cien t,  en s em b les  ca n   s till   b ef f icien th r o u g h   p ar allel  p r o ce s s in g   o r   o p tim iz ed   alg o r ith m s   m a k in g   it c o m p ar ed   to   tr ain i n g   s in g le  c o m p l ex   m o d el.     2 . 5 .     E v a lua t i o n m ea s ures   Key   p er f o r m an ce   m etr ics  in   class if icatio n   task s   in clu d ac cu r ac y ,   p r ec is io n ,   r ec all,   an d   F1 - s co r e.   T o   ca lcu late  th ese  m etr ics,  r ely in g   o n   f o u r   k e y   co m p o n en ts :   tr u p o s itiv es  ( T P),   f alse  p o s itiv es  ( FP ) ,   tr u n eg ativ es  ( T N) ,   an d   f alse  n eg ativ es  ( FN) .   T h ese  co m p o n en t s   ar ty p ically   r ep r esen ted   in   co n f u s io n   m at r ix ,   as illu s tr ated   in   Fig u r 4 .           Fig u r 4 .   B in ar y   class   co n f u s io n   m atr ix       Acc u r ac y   m ea s u r es th p r o p o r tio n   o f   c o r r ec tly   class if ied   in s tan ce s   o u t o f   th to tal  ca s es.       =    +   +  +  +    ( 1 )     Pre cisi o n   in d icate s   th r atio   o f   co r r ec tly   id e n tifie d   p o s itiv in s tan ce s   to   th to tal  p r ed icte d   p o s itiv es.       =     +    ( 2 )     R ec all  r ef lects th p r o p o r tio n   o f   ac tu al  p o s itiv ca s es th at  wer co r r ec tly   p r ed icted .       =     +      ( 3 )     F1 - Sco r is   th weig h ted   a v er ag o f   p r ec is io n   an d   r ec all.     1  =   2        +    ( 4 )       2 . 6 .     E x perim ent a l set up   T h m o d el  was  co n d u cte d   o n   th Kag g le  p latf o r m   o n   an   in t el  i7 - 10 th   g en er atio n   p r o ce s s o r .   T h co d e   was w r itten   in   Py th o n   p r o g r a m m in g   lan g u ag e.   T h s cr ip t in clu d es th f o llo win g   k ey   elem en ts :   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 3 4 7 - 5 3 5 9   5354   a.   E n v ir o n m en tal  s etu p I m p o r ti n g   to o ls   an d   lib r ar ies  wh ich   wer im p lem en ted   in   t h is   s tu d y   as  s h o wn   in   Fig u r 5   an d   illu s tr ated   in   T a b le  5 .   b.   Kag g le  c o n f i g u r atio n :   t h u ti lized   m em o r y   f o r   m o d el  tr ai n in g   was  1 . 2   GiB   wh ile  th d is k   s p ac was     2 . 3   GiB .   Fu r th er m o r e,   th r u n t im o f   en tire   c o d was 1 , 2 7 5   s ec o n d s   with o u t a cc eler at o r .   c.   Hy p er p ar a m eter   tu n in g   f o r   i m p lem en ted   m ac h i n lear n in g   m o d els  as  s h o wn   in   Fig u r 6 .   Valu es  ar d is cu s s ed   in   T ab le  6 .             Fig u r 5 .   Scr ee n s h o t o f   t h in p u t lib r ar ies an d   to o ls       T ab le  5 .   I m p o r te d   lib r ar ies   Li b r a r y   I mp l e me n t a t i o n   p u r p o se   P a n d a s   D a t a   m a n i p u l a t i o n   a n d   a n a l y s i s   o f   d a t a   f r a mes ,   h a n d l i n g   s t r u c t e d   d a t a ,   c l e a n i n g   d a t a   a n d   t r a n sf o r ma t i o n .   N u mP y   N u meri c a l   c o m p u t i n g   f o r   m u l t i d i m e n si o n a l   a r r a y s   a n d   ma t h e ma t i c a l   o p e r a t o r s.   S c i k i t - l e a r n   M a c h i n e   l e a r n i n g   a l g o r i t h m f o r   c l a ss i f i c a t i o n   a n d   m o d e l   e v a l u a t i o n .   P l o t l y   G r a p h i n g   l i b r a r i e s f o r   q u a l i t y   v i s u a l i z a t i o n .   Ti me   M e a su r i n g   a n d   m a n a g i n g   t i me - r e l a t e d   t a s k i n   p r o g r a ms.   Te n s o r F l o w   O p e n - so u r c e   l i b r a r y   f o r   b u i l d i n g   a n d   t r a i n i n g   b o t h   ma c h i n e   a n d   d e e p   l e a r n i n g   m o d e l s .           Fig u r 6 .   Scr ee n s h o t   o f   t h Ka g g le  ML   m o d els an d   p a r am ete r   tu n in g     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A n   en s emb le  ma ch in lea r n in g   b a s ed   mo d el  fo r   p r ed ictio n   a n d   …  ( Mo a ta z   Mo h a med   E S h erb in y )   5355   T ab le  6 .   E x p er im en p ar am ete r s   M m o d e l   P a r a me t e r   V a l u e   D e scri p t i o n   LR   so l v e r   l i b l i n e a r   O p t i mi z a t i o n   a l g o r i t h m .   RF   n _ e st i ma t o r s   1 0 0   N u mb e r   o f   t r e e i n   f o r e s t .   max _ d e p t h   N o n e   N o d e s s p r e a d   t i l l   e v e r y   l e a f   i p u r e   t o   e n s u r e   e a c h   l e a f   n o d e   r e p r e se n t s   a   d i s t i n c t   c l a ss   w i t h o u t   a n y   a m b i g u i t y .   XGB   n _ e st i ma t o r s   1 0 0   N u mb e r   o f   b o o st i n g   i t e r a t i o n s .   max _ d e p t h   N o n e   M a x   d e p t h   o f   t r e e .   l e a r n i n g _ r a t e   0 . 1   S h r i n k a g e   p a r a m e t e r   t h a t   c o n t r o l s   t h e   c o n t r i b u t i o n   o f   e a c h   t r e e   t o   t h e   f i n a l   m o d e l   d e c i si o n .   En se mb l e   e st i mat o r s   LR ,   R F ,   X G B   Li st   o f   t u p l e s w h e r e   e a c h   e st i ma t o r   i a   c l a ss i f i e r .   v o t i n g   H a r d   M a j o r i t y   v o t i n g   c l a ss .   n _ j o b s   - 1   R u n n i n g   a   n u m b e r   o f   j o b s f o r   f i t t i n g   a n d   p r e d i c t i o n   i n   p a r a l l e l   w h e r e   - mea n s a l l   p r o c e sso r s   a r e   b e i n g   u s e d .       3.   RE SU L T S   AND  D I SCU SS I O N   co n s id er ab le  p r ep r o ce s s in g   is   tak en   in to   ac co u n in   th r ee   m ain   s tep s   af ter   im p o r tin g   lib r ar ies  an d   d atasets .   First  s tep ,   d ea lin g   with   class   im b alan ce   is s u es  t h r o u g h   a p p ly in g   s y n th etic  m i n o r ity   o v er s am p lin g   tech n iq u e   ( SMOT ) .   Seco n d   s tep   is   r e p lacin g   n o n - ex is tin g   v alu with   m ea n   v alu e   in s tead   o f   s im p ly   r em o v in g   th s am p le  r o in   o r d er   t o   p r e s er v d ataset  s ize.   L astl y ,   c o n v er tin g   n o n - n u m er ic  f ea t u r es  i n to   n u m er ic  o n e   b y   ap p ly in g   o n e - h o e n co d e r .   Data s ets  a r e   d iv id ed   in to   tr ain in g   an d   test in g   p a r titi o n s   with   7 0 % - 3 0 o r     80% - 2 0 th en   5 - f o ld s   cr o s s   v alid atio n   is   ap p lied .   A n   en s em b le  m o d el  f o r   th r ee   b ase  c lass if ier s   wh ich   ar lo g is tic  r eg r ess io n ,   r a n d o m   f o r est  an d   e x tr em g r ad ien t   b o o s tin g .   Ma jo r ity   v o tin g   was  ch o s en   in   th e   p r o p o s ed   p r ed ictio n   m o d el.   R esu lts   ar co m p ar ed   u s in g   ac cu r ac y ,   p r e cisi o n ,   r ec all  an d   F1 - s co r as  s h o wn   in   T ab le  7 .   Ad d itio n ally ,   co n f u s io n   m atr i ce s   ar illu s tr ated   in   Fig u r es  7   to   1 0 ,   ( a)   7 0 tr ain   an d   3 0 test   an d   ( b )   8 0 %   tr ain   an d   3 0 test .   C o m p ar is o n   b etwe en   th p r o p o s ed   m o d el  an d   p r e v io u s   r elate d   wo r k   is   s u m m ar ized   in   T ab le  8 .   T h en s em b le  tech n iq u co m b in es  th p r ed ictio n s   o f   m u ltip le  in d iv id u al  m o d els  to   cr ea te  m o r r o b u s an d   ac c u r ate  p r e d ictio n   m eth o d .   T h is   im p r o v em en t   ar is es  b ec au s en s em b le  m eth o d s   lev er ag th e   s tr en g th s   o f   in teg r ated   m o d els   wh ile  m in im izin g   th eir   wea k   p o in ts .   C o m b in in g   m o d els  with   co m p lem en tar y   ca p ab ilit ies  allo ws  ca p tu r in g   b o th   lin ea r   an d   n o n - lin ea r   r elatio n s h ip s   an d   p atter n s ,   wh er L R   ca p tu r es  s im p le   p atter n s   wh ile  R h an d les  n o n - lin ea r   in ter ac tio n s .   A d d i tio n ally ,   XGB  f o cu s es  o n   m is class if ied   d ata.   Stan d alo n R h as  s o m b ias es  d ep en d in g   o n   th d e p th   o f   tr ee s .   L in ea r   L R   m o d els  h a v h ig h   b ias  wh en   p r o b lem s   ar n o n - lin ea r   s u ch   as in   o u r   ca s e.   Ho wev e r ,   o v er f itti n g   m ig h t b a   s er io u s   is s u e.       T ab le  7 .   E n s em b le  m o d el  r esu lts   o n   all  d atasets   Tr a i n - Te s t   S p l i t   D a t a s e t   A c c u r a c y   P r e c i s i o n   R e c a l l   F1 - sc o r e   8 0   - 2 0   %   P I D D   8 1 %   8 0 %   8 3 %   8 1 %   Q u e st i o n n a i r e   9 5 %   9 7 %   9 4 %   9 5 %   Th i r d   d a t a s e t   9 6 . 8 8   %   8 9 . 8 5 %   7 9 . 6 6 %   7 1 . 5 5 %   V O C A D I B   9 0 . 9 8 %   8 9 . 4 7 %   9 0 . 2 7   9 1 . 0 7 %   7 0     3 0   %   P I D D   8 2 %   8 1 %   8 4 %   8 2 %   Q u e st i o n n a i r e   9 6 %   9 7 %   9 5 %   9 6 %   Th i r d   d a t a s e t   9 6 . 8 3 %   8 9 . 6 7 %   7 9 . 1 7 %   7 0 . 8 7 %   V O C A D I B   9 2 . 3 5 %   9 5 . 1 8 %   9 1 . 8 6 %   8 8 . 7 6 %           ( a)   ( b )         ( a)   ( b )       Fig u r 7 .   C o n f u s io n   m atr i x   f o r   th en s em b le  m o d el  o n   f ir s t d ataset  ( a)   7 0 % tr ain   a n d   3 0 % test an d     ( b )   8 0 % tr ain   an d   3 0 % test     Fig u r 8 .   C o n f u s io n   m atr i x   f o r   th en s em b le  m o d el  o n   s ec o n d   d ataset  ( a)   7 0 % tr ain   an d   3 0 % test an d   ( b )   8 0 % tr ain   an d   3 0 % test       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   6 Decem b e r   20 25 :   5 3 4 7 - 5 3 5 9   5356       ( a)   ( b )         ( a)   ( b )       Fig u r 9 .   C o n f u s io n   m atr i x   f o r   th en s em b le  m o d el  o n   th ir d   d ataset  ( a)   7 0 % tr ain   an d   3 0 % test an d     ( b )   8 0 % tr ain   an d   3 0 % test     Fig u r 1 0 .   C o n f u s io n   m atr ix   f o r   th en s em b le  m o d el  o n   f o u r th   d ataset  ( a)   7 0 % tr ain   an d   3 0 % test  an d   ( b )   8 0 % tr ai n   an d   3 0 % test       T ab le  8 .   Pro p o s ed   m o d el  r esu l ts   v er s u s   r elate d   wo r k   in   liter a tu r r ev iew   A u t h o r s   D a t a s e t   Te c h n i q u e   A c c u r a c y   F e b r i a n   e t   a l .   [ 8 ]   P i ma   I n d i a n   D i a b e t e s   d a t a se t   (PIDD)   K N N   NB   7 7 . 9 2 %   7 8 . 5 2 %   K a n g r a   a n d   S i n g h   [ 9 ]   NB   K N N   S V M   DT   RF   LR   7 2 . 6 %   6 6 . 1 %   7 4 . 3 %   7 1 . 8 %   6 4 . 9 %   7 4 %   C h a n g   e t   a l .   [ 1 0 ]   RF   N B   a n d   f e a t u r e   s e l e c t i o n   ( 3 - F a c t o r )   N B   a n d   f e a t u r e   s e l e c t i o n   ( 5 - F a c t o r )   7 9 . 5 7 %   7 9 . 1 3 %   7 7 . 8 3 %   M u s h t a q   e t   a l .   [ 1 1 ]   S t a n d a l o n e   R F   En se mb l e   ( b a l a n c e d   d a t a se t )   8 0 . 7 %   8 1 . 7 %   R a w a t   e t   a l .   [ 1 2 ]   A d a B o o st   7 9 . 6 9 %   B a r i k   e t   a l .   [ 1 3 ]   RF   XGB   7 1 . 9 %   7 4 . 1 %   P a l i m k a r   e t   a l .   [ 1 4 ]   C a se   st u d y   d a t a set   LR   S V M   NB   A d a B o o st   9 3 . 5 9 %   9 4 . 2 3 %   9 1 . 0 2 %   9 4 . 8 7 %   F a g h e r a z z i   e t   a l .   [ 1 5 ]   V O C A D I A B   F e mal e   g r o u p   -   LR   F e mal e   g r o u p   -   M LP   F e mal e   g r o u p   -   S V M   M a l e   g r o u p   -   LR   M a l e   g r o u p   -   S V M   M a l e   g r o u p   -   M LP   6 7 %   6 3 %   5 7 %   6 9 %   7 0 %   7 1 %   K a u f ma n   e t   a l .   [ 1 6 ]   V o i c e   r e c o r d d a t a s e t   LR   ( w o me n     v o i c e   f e a t u r e s)   LR   ( w o me n     a l l   f e a t u r e s)   N B   ( me n     v o i c e )   N B   ( me n     a l l   f e a t u r e s)   7 0 %   8 2 %   6 9 %   8 6 %   P r o p o se d   m o d e l   P I D D   En se mb l e   o f   L R ,   R F   a n d   X G B   8 2 %   C a se   st u d y   d a t a set   9 6 %   Th i r d   d a t a s e t     9 6 . 8 3 %   V O C A D I A B   9 2 . 3 5 %       4.   CO NCLU SI O N   T h p r ed ictio n   o f   d ia b etes  m ellitu s   is   co n s id er ed   ch allen g in g   m ed ical  r esear ch   to p ic.   T h i s   r esear ch   in v o lv ed   t h e   d ev el o p m en o f   a   m ac h in lear n i n g - b ased   p ip el in f o r   th e   p r o ce s s   o f   p r ed ictin g   d iab etes m ellitu s   d ep en d i n g   o n   f o u r   d i f f er en d atasets .   T h ese  d ataset s   h av s er io u s   o b s er v atio n s   s u ch   as  clas s   im b alan ce ,   m is s in g   v alu es  in   ad d itio n   to   ca teg o r ical  f ea tu r es.  T r ai n in g   an d   test in g   wer p e r f o r m ed   b y   ap p l y in g   5 - f o ld   cr o s s   v alid atio n .   C o n s eq u e n tly ,   o u r   g o al   was  m et   b y   ap p ly i n g   L R ,   R an d   XGB  in   a n   e n s em b le  m o d el.   T h p r o p o s ed   m o d el  y ield e d   r esu lt s   wh ich   ar s u p er io r   to   th o s o f   o th e r   s tu d ies  in   liter atu r r e v iew   r ea ch in g   8 2 8 1 %,  8 4 %,8 2 in   ter m s   o f   a cc u r ac y ,   p r ec is io n ,   r ec all  an d   F1 - s co r r esp ec tiv ely   o n   th e   PID D.   T h r esu lts   wer 9 2 . 3 5 %,  9 5 . 1 8 %,  9 1 . 8 6 an d   8 8 . 7 6   f o r   ac cu r ac y ,   p r ec is io n ,   r ec all  an d   F1 - s co r r esp ec tiv ely   wh en   ap p ly in g   p er f o r m a n ce   m etr ics   v o ca d ataset.   T h e   h ig h est  r e s u lts   ar 9 6 . 8 8 %,  8 9 . 8 5 %,  7 9 . 6 6 %,  an d   7 1 . 5 5 o n   th th ir d   d ataset.   R esu lts   wer 9 6 %,   9 7 %,   9 5 an d   9 6 f o r   ac cu r ac y ,   p r ec is io n ,   r ec all  an d   F1 - s co r e   r esp ec tiv ely   o n   q u esti o n n air e   d ataset.   I n   f u tu r wo r k ,   it  is   s u g g ested   to   ap p ly   d if f er en t   n o n - ex is tin g   v al u im p u tatio n   tech n iq u es  clo s e   to   r ea l - life   s itu atio n s   in   a d d itio n   to   v ar i o u s   class   im b alan ce   tech n i q u es.   Fu r th er m o r e ,   m o r m ac h in e   lear n in g   a n d   d ee p   lear n i n g   tech n iq u es will b ap p lied   o n   h y b r id   d atasets .   Evaluation Warning : The document was created with Spire.PDF for Python.