I AE S In t er na t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.  1 4 ,   No .   6 ,   Dec em b er   2 0 2 5 ,   p p .   4 7 8 7 ~ 4 8 0 1   I SS N:  2 2 5 2 - 8 9 3 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijai.v 14 .i 6 . p p 4 7 8 7 - 4 8 0 1           4787     J o ur na l ho m ep a g e h ttp : //ij a i . ia esco r e. co m   Enha ncing  so ft wa re f a ult  predi ctio n t hro ug h data   b a la ncing   techniqu es a nd m a chine learning       Ak s ha t   Ra j ,   Durv a   M a ha de o   Cha v a n,  P riy a l A g a rwa l,  J estin  G ig i ,   Ma d h u r Ra o ,   Vin a y a k   Mu sa le   Aksh ita   Ch a n c h l a n i,   Mu r ta z a   S h a b b irbh a i   Dho l k a w a la ,   K u la m a la   Vi n o d   K u m a r   D e p a r t me n t   o f   C o mp u t e r   E n g i n e e r i n g   a n d   Te c h n o l o g y ,   D r .   V i s h w a n a t h   K a r a d   M I W o r l d   P e a c e   U n i v e r s i t y ,   P u n e ,   I n d i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ma y   6 ,   2 0 2 4   R ev is ed   Oct  2 7 ,   2 0 2 5   Acc ep ted   No v   8 ,   2 0 2 5       S o ftwa re   fa u lt   p re d ictio n   is  e ss e n ti a fo e n s u rin g   th e   re li a b i li ty   a n d   q u a li t y   o so ftwa re   sy ste m s b y   id e n ti f y in g   p o te n ti a d e fe c ts ea rly   in   th e   d e v e lo p m e n t   li fe c y c le.  Ho we v e r,   t h e   p re se n c e   o imb a lan c e d   d a tas e ts  p o se a   sig n ifi c a n t   c h a ll e n g e   t o   t h e   e ffe c ti v e n e ss   o f   fa u lt   p re d icti o n   m o d e ls.  I n   t h is  p a p e r,   we   in v e stig a te  t h e   imp a c o d iffer e n d a ta  b a lan c in g   tec h n iq u e s,  in c lu d in g   g e n e ra ti v e   a d v e rsa rial  n e two r k (G AN s),  sy n th e ti c   m in o r it y   o v e r - sa m p li n g   tec h n iq u e   (S M OTE) ,   a n d   Ne a rM iss,  o n   m a c h in e   lea rn in g   (M L)   m o d e l   p e rfo rm a n c e   fo r   s o ftwa re   fa u lt   p re d ictio n .   T h ro u g h   a   c o m p a ra ti v e   a n a ly sis   a c ro ss   m u lt ip le  d a tas e ts  c o m m o n ly   u se d   in   so ftwa re   e n g in e e rin g   re se a rc h ,   we   e v a lu a te  th e   e ffica c y   o t h e se   tec h n iq u e in   a d d re ss in g   c las imb a lan c e   a n d   imp r o v i n g   p re d icti v e   a c c u ra c y .   Ou fi n d i n g p ro v i d e   in si g h t in to   th e   m o st  e ffe c ti v e   a p p ro a c h e fo h a n d li n g   imb a lan c e d   d a ta  in   so ft wa re   fa u lt   p re d ictio n   tas k s,   th e re b y   a d v a n c in g   th e   sta te - of - t h e - a rt  i n   so ftwa re   e n g in e e rin g   re se a rc h   a n d   p ra c ti c e .   An   e x ten siv e   e x p e rime n tatio n   is  p e rfo rm e d   a n d   a n a ly z e d   i n   t h is  stu d y   h e re   th a t   in c l u d e 8   d a tas e ts,  4   d a ta   b a lan c in g   tec h n iq u e s ,   a n d   4   ML   tec h n iq u e in   o rd e to   d e m o n stra te  th e   e ffica c y   o v a rio u s m o d e ls i n   s o ft wa re   fa u lt   p re d icti o n .   K ey w o r d s :   G e n e r a t i v e   a d v e r s a r i al   n e t w o r k s   I m b alan ce d   d ata   Nea r Miss   SMOT E   So f twar f au lt p r e d ictio n   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Ma d h u r i Rao   Dep ar tm e n o f   C o m p u t er   E n g i n e er in g   a n d   T ec h n o l o g y ,   Dr .   Vis h w a n at h   Ka r a d   M I T   W o r l d   Pe ac e   U n i v e r s i ty   Ko th r u d ,   Pu n e,   Ma h a r ash tr a,   I n d ia   E m ail: m ad h u r i. r ao @ m itwp u . ed u . in       1.   I NT RO D UCT I O N   So f twar f au lt  p r ed ictio n   aim s   at  id en tify in g   im p e n d in g   f a u lts   o r   b u g s   in   s o f twar m o d u les  b ef o r e   th ey   ar v is ib le  o p e r atio n al  i s s u es,  th er eb y   en h an cin g   th e   q u ality   o f   t h b u ilt  s o f twar e   [ 1 ] ,   [ 2 ] .   W ith   th e   in cr ea s in g   co m p lex it y   o f   s o f t war s y s tem s   an d   th d em an d   f o r   r eliab le  an d   ef f icien s o f tw ar e,   th im p o r ta n ce   o f   ac cu r ate  f au lt  p r ed ictio n   tech n iq u es  ca n n o b o v er s tated .   T r ad itio n al  m eth o d s   o f   f au lt  p r ed ictio n   o f te n   r ely   o n   m ac h in lear n in g   ( ML )   m o d els  tr ain ed   o n   h is to r ical  d ata  to   class if y   s o f twar e   m o d u les  as  d ef ec tiv o r   non - d ef ec tiv e   b ased   o n   v ar i o u s   co d m etr ics  an d   ch ar ac te r is tics   [ 3 ] [ 6 ] .   Ho wev er ,   o n e   o f   th s ig n if ican ch allen g es  in   s o f twar f a u lt  p r ed ictio n   is   d ea li n g   with   im b a lan ce d   d atasets .   I m b alan ce d   d atasets   o cc u r   wh en   th class es  o f   in ter est  ( d ef ec t iv v s .   n o n - d e f ec tiv m o d u le s )   ar n o e v en ly   d is tr ib u ted ,   lead in g   to   b iased   m o d el  p er f o r m an ce   [ 7 ] ,   [ 8 ] .   T h r esear ch   aim   o f   th is   s tu d y   i s   to   in v esti g ate   th e f f ec tiv en e s s   o f   d if f er en t   d ata   b alan cin g   tech n i q u es in   im p r o v in g   ML   m o d el  p er f o r m an ce   f o r   s o f twar f au lt p r e d ictio n .   S p ec if ically ,   we  will   ex p lo r tech n iq u es  s u ch   as  g en er ativ ad v er s ar ial  n etwo r k s   ( GANs)   [ 9 ] [ 1 1 ] s y n th e tic  m in o r ity   o v er - s am p lin g   tech n iq u e   ( SMOT E )   [ 1 2 ] ,   [ 1 3 ] ,   a n d   Nea r Miss   [ 1 4 ]   t o   ad d r ess   th im b alan ce   in   th d ataset .     B y   co m p ar in g   th p er f o r m an ce   o f   ML   m o d els  tr ain ed   o n   b alan ce d   an d   u n b alan ce d   d a tasets ,   we   s ee k   to   id en tify   th m o s ef f ec tiv ap p r o ac h   f o r   h a n d lin g   im b alan ce d   d ata  in   s o f twar f au lt   p r ed ictio n   task s .     ML   tech n iq u es  co u ld   b clas s if ied   as  s u p er v is ed ,   u n s u p er v is ed   an d   s em i - s u p er v is ed .   ML   tech n iq u es  h a v Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 :   4 7 8 7 - 4 8 0 1   4788   b ee n   v er y   u s ef u in   d etec tin g   i s s u es  an d   b u g s   in   s o f twar e   [ 1 5 ] ,   [ 1 6 ] .   H o wev er ,   t h ef f icac y   o f   ML   tech n iq u es  d ep en d s   o n   th n at u r o f   d atas ets  th at  ar o f ten   lin k ed   to   b im b alan ce d .   Ad d r ess in g   is s u es   o f   d ata  im b alan ce   is   th er ef o r h i g h ly   ess en tial  [ 1 7 ]   in   ev e r y   ar ea   wh er d ata  d is tr ib u tio n   h as a   s ig n i f ican ce   in   d ec is io n - m ak in g .         2.   L I T E R AT U RE   R E VI E A ND   RE S E ARCH   T ARG E T S   So f twar f au lt   p r e d ictio n   is   a   cr itical  asp ec o f   s o f twar e n g in ee r in g ,   aim i n g   to   i d en tif y   p o ten tial  d ef ec ts   in   s o f twar e   m o d u les  b ef o r e   th ey   lead   to   o p e r atio n al  is s u es.  Ad d r ess in g   th c h allen g es  p o s ed   b y   im b alan ce d   d atasets   is   cr u cial  f o r   im p r o v in g   th ac c u r ac y   an d   ef f ec tiv e n ess   o f   f au lt  p r ed ict io n   m o d els.  I n   th is   liter atu r s u r v ey ,   we  r ev iew  p r ev io u s   r esear ch   in   s o f twar e   f au lt  p r ed ictio n ,   with   f o cu s   o n   d ata  b alan cin g   tech n iq u es  s u ch   as  GANs,  SMOT E ,   an d   Nea r Miss .   W al s o   d is cu s s   th lim itatio n s   o f   e ar lier   ap p r o ac h es  an d   h o th e   p r o p o s ed   r esear ch   ai m s   to   ad d r ess   th em .   I n   th e   r e alm   o f   s o f twar f au lt  p r ed icti o n ,   a d d r ess in g   th ch allen g o f   im b alan ce d   d atasets   is   p ar am o u n f o r   ac h iev in g   ac cu r ate  an d   r eliab le  p r ed icti v m o d els.  Var io u s   d ata  b alan cin g   tech n iq u es  h av b ee n   p r o p o s ed   an d   e x p lo r ed   in   th liter atu r to   m itig ate  t h im p ac o f   class   im b alan ce   o n   m o d el  p er f o r m an ce .   I n   t h is   s ec tio n ,   we  r ev i ew  p r ev io u s   r esear c h   f o c u s in g   o n   d ata  b alan cin g   tech n iq u es  s u ch   as  GANs,  SMOT E ,   an d   Nea r Miss ,   h ig h lig h t in g   th eir   s tr en g th s ,   lim itatio n s ,   an d   g a p s ,   as  well  as  d is cu s s in g   h o th p r o p o s ed   r esear ch   aim s   to   ad d r ess   t h ese  s h o r tco m in g s .   E n g elm an   an d   L ess m an n   [ 1 8 ]   p r esen c o n d itio n al  W ass er s t ein   GAN - b ased   o v er s am p lin g   o f   tab u lar   d ata   f o r   im b al an ce d   lear n in g   f o r   o v er s am p lin g   im b ala n ce d   d at in   cr ed it  s co r in g .   Alq ar n an d   Aljam aa n   [ 1 9 ]   p r o p o s n o v el  ap p r o ac h   th at   co m b in es  GAN - b ased   m eth o d s   with   b o o s tin g   en s em b les  to   im p r o v s o f twar d ef ec p r ed i ctio n   p er f o r m an ce .   W h ile  th s tu d y   o f f e r s   p r o m is in g   s o lu tio n ,   it  lack s   s p ec if i v alid atio n   o n   th q u ality   o f   g en er ated   s y n th etic  d ata  an d   th s ca lab ilit y   o f   th p r o p o s ed   a p p r o ac h .   Ou r   r es ea r ch   aim s   to   ad d r ess   th ese  g ap s   b y   co n d u ctin g   r ig o r o u s   p er f o r m a n ce   e v alu a tio n   an d   s ca lab ilit y   test in g   o f   GAN - b ased   o v e r s am p lin g   tech n iq u es,  th u s   p r o v id i n g   em p ir ical  ev id en ce   o f   th eir   ef f ec tiv en ess   an d   p r ac tical  f ea s ib ilit y .   Sev er al  s tu d ies  h av in v esti g ated   th u s o f   d if f er en d ata  b alan cin g   tech n iq u es  to   im p r o v s o f twar e   f au lt  p r ed ictio n   m o d els.  Fo r   e x am p le,   Ku m a r   an d   Ven k ates an   [ 2 0 ]   ex p lo r ed   th u s o f   G ANs  f o r   ad d r ess in g   d ata  im b alan ce   in   s o f twar d e f ec p r ed ictio n .   T h e   au th o r s   p r o p o s ed   n o v el  ap p r o ac h   t h at  lev er ag es  GANs  to   g en er ate  s y n t h etic  d ata  s am p l es,  th er eb y   b alan cin g   th d is tr ib u tio n   o f   d ef ec tiv a n d   n o n - d ef ec tiv in s tan ce s   in   th d ataset.   T h eir   r esu lts   s h o wed   p r o m is in g   im p r o v em e n ts   in   m o d el  ac cu r ac y   an d   p er f o r m an ce   c o m p ar e d   to   tr ad itio n al  tech n iq u es.  Similar ly ,   Fen g   et  a l.   [ 2 1 ]   f o c u s es  o n   u s in g   SMOT E ,   p o p u lar   o v e r s am p lin g   tech n iq u e,   t o   ad d r ess   class   i m b alan ce   in   s o f twar f au lt  p r ed ictio n .   T h s tu d y   co m p ar ed   th p er f o r m an ce   o f   ML   m o d els  tr ain ed   o n   b alan ce d   an d   u n b alan ce d   d atasets ,   d em o n s tr atin g   th ef f ec tiv e n ess   o f   SMOT E   in   im p r o v in g   m o d el  p er f o r m a n ce .   Ho wev er ,   th s tu d y   also   h ig h lig h ted   lim itatio n s   in   th s ca lab ilit y   an d   co m p u tatio n al   ef f icien c y   o f   SMOT E ,   in d icatin g   t h n ee d   f o r   f u r th er   r esear ch   in   th is   ar ea .   I n   ad d itio n   to   o v er s am p lin g   tech n iq u es  lik SMOT E   an d   GANs,  u n d e r   s a m p lin g   m et h o d s   s u ch   as  Nea r Miss   h av also   b ee n   ex p lo r ed   i n   th co n te x o f   s o f twar f au lt  p r ed ictio n .   Fo r   ex am p le,   Mq ad et  a l.  [ 1 4 ]   in v e s tig ates  th u s o f   Nea r Miss   f o r   h a n d lin g   class   im b alan ce   i n   d e f ec p r ed ictio n   d atasets .   T h au t h o r s   p r o p o s ed   a   h y b r id   ap p r o ac h   th at  co m b in es  u n d er   s am p lin g   with   f ea tu r s elec tio n   to   i m p r o v e   th p er f o r m a n ce   o f   ML   m o d els.  T h eir   ex p er im en tal  r esu lts   s h o wed   p r o m is in g   im p r o v e m en ts   in   m o d el  ac cu r a cy   an d   g e n er ali za tio n   ca p ab ilit ies.  Fu r th er m o r e ,   in   [ 2 2 ] ,   s u r v e y   o f   s o f twar f a u lt  p r ed ictio n   tech n iq u es  an d   r ec en d ev el o p m en ts   is   p r o v id ed wh ich   h ig h lig h ts   th n ee d   to   ad d r ess   class   im b alan ce   is s u e s .   W h ile  th s u r v ey   o f f e r s   v alu ab le  in s ig h ts   in to   v ar io u s   s u p er v is ed   ML   tech n iq u es  an d   s am p lin g   m eth o d s ,   it  lack s   in - d ep th   ex p lo r atio n   o f   em er g in g   tech n iq u es  b e y o n d   SMOT E .   Ou r   r esear ch   aim s   to   ex te n d   th is   s u r v ey   b y   in v esti g atin g   t h ef f ec tiv e n ess   o f   GANs  an d   o th e r   a d v an ce d   d at b alan cin g   tec h n iq u es   in   s o f twar f au lt   p r e d ictio n ,   th u s   e n r ich in g   t h ex is tin g   liter atu r with   n ew  in s ig h ts   an d   em p ir ical  ev id en ce .   Ou r   p r im ar y   r esear ch   tar g et   is   to   co n d u ct   ex ten s iv e x p e r im en ts   to   e v alu ate  t h p e r f o r m an ce   o f   s o f twar d ef ec t   p r e d ictio n   i n   s ce n ar io s   wh er e   d ata   is   im b ala n ce d .   Desp ite  t h a d v an ce m e n ts   in   d ata   b alan cin g   tech n iq u es  f o r   s o f twar f au l p r ed ictio n ,   s ev e r al  lim itatio n s   ex is in   ea r lier   ap p r o ac h es.  On e   co m m o n   lim itatio n   is   th lack   o f   co m p r eh en s iv ev alu atio n   an d   co m p ar is o n   o f   d if f e r en s am p lin g   m eth o d s   ac r o s s   d iv er s d atasets   an d   ML   alg o r ith m s .   Ma n y   s tu d ies  f o cu s   o n   lim ited   s et  o f   tech n iq u es  o r   d atasets ,   wh ich   m ay   n o f u lly   ca p tu r e   th e   v ar iab ilit y   an d   c o m p lex ity   o f   r ea l - wo r ld   s o f twar d ev e lo p m en s ce n a r io s .   Fu r th er m o r e ,   ex is tin g   r esear c h   o f ten   o v er lo o k s   th im p ac t   o f   d ata  b ias  an d   m o d el  in te r p r etab ilit y   o n   th e   ef f ec tiv en ess   o f   d ata  b ala n cin g   tech n iq u es.  I m b alan ce d   d ata s ets  m ay   co n tain   b iased   r ep r esen tatio n s   o f   ce r tain   class es,  lead in g   to   s k ewe d   m o d el  p r e d ictio n s   an d   er r o n eo u s   co n clu s io n s .   Mo r eo v e r ,   th in ter p r etab ilit y   o f   ML   m o d els tr ain ed   o n   b alan ce d   o r   s y n th etic  d ata  is   o f ten   o v er lo o k ed ,   m ak in g   it c h allen g in g   to   u n d e r s tan d   th e   u n d er ly i n g   f ac to r s   d r i v in g   m o d el  p r ed ictio n s .   Her e ,   we  s tu d y   th im p ac o f   d ata  im b al an ce   o n   8   d if f er en t   d atasets J M1 ,   A R 1 ,   C M1 ,   K C 2 ,   MW1 ,   PC 1 ,   MC2 ,   an d   KC 1 .   Ou r   r esear ch   aim s   to   b u il d   u p o n   th p r o b lem s   id en tifie d   in   liter atu r r ev ie d u to   d ata  im b alan ce   an d   b y   ev alu atin g   th ap p licab ilit y   o f   GAN - b ased   o v er s am p lin g   ac r o s s   m u ltip le   s o f twar f au lt  p r ed ictio n   d atasets .   W th u s   ex ten d   th s co p b ey o n d   s p ec if ic   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       E n h a n ci n g   s o ftw a r fa u lt p r ed ictio n   th r o u g h   d a ta   b a la n cin g   tech n iq u es a n d   ma ch i n lea r n in g   ( A ksh a t R a j)   4789   d o m ain s   an d   ad d r ess   th lim itatio n s   o f   s in g le - class   f o c u s .   Ou r   r esear ch   s ee k s   to   b r id g th is   g ap   b y   in co r p o r atin g   GAN - b ased   o v e r s am p lin g   in to   th c o m p ar ativ an aly s is ,   th u s   p r o v id in g   m o r co m p r eh en s iv e   ev alu atio n   o f   s am p lin g   tec h n i q u es'   ef f icac y   in   s o f twar f au l t p r ed ictio n .       3.   P RO P O SE M E T H O DO L O G Y   T o   o v er co m th lim itatio n s   o f   ex is tin g   r esear ch ,   we  ad o p ted   s y s tem atic  ap p r o ac h   th at  in clu d es  th o r o u g h   ex p e r im en tatio n ,   r i g o r o u s   ev alu atio n   m etr ics,  a n d   e x ten s iv v alid atio n   ac r o s s   d iv er s s o f twar e   d ev elo p m e n s ce n ar i o s   ex p l o r i n g   GAN,   SMOT E ,   an d   N ea r Miss   ac r o s s   m u ltip le  d atasets   an d   ML   alg o r ith m s .   Ad d itio n ally ,   we  h av e x p lo r ed   th u s o f   ad v an ce d   s am p lin g   tech n iq u es  an d   en s em b le  m eth o d s   to   f u r th er   en h an ce   th e   m o d el   p er f o r m an ce   an d   r eliab ilit y .   He n ce ,   th p r o p o s ed   r esear ch   s ee k s   to   a d v an ce   th f ield   o f   s o f twar f au lt   p r ed ictio n   b y   p r o v id in g   in s ig h ts   i n to   th e   m o s ef f ec tiv d ata  b ala n cin g   tech n iq u es  f o r   im p r o v in g   m o d el   ac cu r ac y   a n d   r eliab ilit y .   B y   a d d r ess in g   th lim itatio n s   o f   ea r lier   ap p r o ac h es,  we  aim   to   co n tr ib u te   to   th e   d ev el o p m en t   o f   m o r e   r o b u s an d   d ep e n d ab le  f au lt  p r ed ictio n   m o d els,  u ltima tely   en h an ci n g   th q u ality   an d   r eliab ilit y   o f   s o f twar s y s tem s .   Fig u r 1   d e p icts   th lo g ical  s tep s   tak en   in   t h p r o p o s ed   m o d el .           Fig u r 1 .   L o g ical  s tep s   o f   th p r o p o s ed   s o f twar f au lt  p r ed ic tio n   m o d el       3 . 1 .     Da t a   p re pro ce s s ing   W b eg in   b y   co llectin g   s o f twar f au lt  p r e d ictio n   d atasets   f r o m   r ep u tab le  s o u r ce s   s u ch   a s   NASA 's  s o f twar en g in ee r in g   lab o r at o r y   an d   th PR OM I SE  s o f twar en g in ee r i n g   r ep o s ito r y .   Da ta  p r ep r o ce s s in g   is   co n d u cte d   to   en s u r d ata  q u ality   an d   co n s is ten cy .   T h is   in v o lv es  h a n d lin g   m is s in g   v a lu es,  o u tlier s ,   an d   in co n s is ten cies  in   th d ataset s .   W em p lo y   tec h n iq u es  s u ch   as  m ea n   im p u tatio n   o r   d eletio n   f o r   m is s in g   v alu es,  o u tlier   d etec tio n   an d   r em o v al  u s in g   s tatis tical   m eth o d s   o r   d o m ain   k n o wled g e,   an d   s tan d ar d izatio n   o r   n o r m aliza tio n   to   s ca le  th f ea tu r es  ap p r o p r iately .   Ad d itio n a lly ,   we  p er f o r m   ex p l o r ato r y   d ata  an aly s is   ( E DA)   [ 1 8 ]   to   g ain   in s ig h ts   in to   th d ata  d is tr ib u tio n   an d   ch ar ac ter is tics ,   id en tify in g   p o ten tial  p a tter n s   o r   tr en d s   th at   m ay   aid   in   m o d el  d ev elo p m en an d   in ter p r etatio n .   E DA  also   h elp s   u s   u n d er s tan d   th ex ten o f   class   im b alan ce   in   th d atasets ,   wh ich   is   cr u cial  f o r   s elec tin g   ap p r o p r iate  d ata  b ala n cin g   tec h n iq u es.     3. 2 .   Da t a   g ener a t io n us ing   g ener a t iv a dv er s a ria l net wo r k   Dee p   lear n in g   m o d els  s u ch   as  GAN   co m p r is two   n eu r al  n etwo r k s ,   th g en e r ato r   an d   th d is cr im in ato r ,   th at  ar e n g ag e d   in   m in im ax   g am e.   T h g e n er ato r   attem p ts   to   g e n er ate  s y n th etic  d ata  th at  is   alm o s lik th r ea d ata,   wh il th d is cr im in ato r   aim s   to   id en tify   th r ea an d   g e n er ated   d ata.   T h g e n er ato r   aim s   to   g e n er ate  in c r ea s in g ly   r ea lis tic  s am p les  b y   m in im i zin g   its   o wn   lo s s   ( l o s s ) ,   wh ich   m ea s u r es  t h d is cr ep an cy   b etwe en   t h d is cr im in ato r ' s   p r ed ictio n s   a n d   lab el   in d icatin g   th e   g en er ated   d ata   is   r ea l.   C o n v er s ely ,   th e   d is cr im in ato r   s ee k s   to   c o r r ec tly   class if y   r ea an d   f ak e   s am p les,  th u s   m in im izin g   its   lo s s     ( lo s s ) .   lo s s   an d   lo s s   ar f u n d am e n tal  co m p o n en ts   in   tr ain in g   GANs,  r ep r esen tin g   th o b jectiv es  o f   th e   g en er ato r   a n d   d is cr im in ato r ,   r esp ec tiv ely ,   in   ac h iev in g   th eir   co m p etin g   g o als.  T h g en er a to r   lo s s   is   ty p ically   d ef in ed   u s in g   b in a r y   cr o s s - e n tr o p y ,   m ea s u r in g   th d if f e r en ce   b etwe en   th d is cr im in ato r ' s   p r ed ictio n s   o n     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 :   4 7 8 7 - 4 8 0 1   4790   g en er ated   d ata   an d   a   m atr ix   o f   o n es  ( s in ce   th e   g en er at o r   wan ts   th d is cr im in ato r   to   cl ass if y   its   o u tp u ts   as  r ea l) .   Ma th em atica lly ,   it c an   b ex p r ess ed   as  ( 1 ):          =     1   = 1  ( ( ( ) ) )   ( 1 )     Her e,   G ( )   is   th o u tp u o f   t h g en e r ato r   f o r   th e   i - th   i n p u n o is s am p le    an d   D( G ( ) )   is   th e   d is cr im in ato r s   o u t p u wh en   t h p r o b ab ilit y   o f   th g en er ate d   s am p le  G ( )   is   r ea l ,   an d   is   th b atch   s ize  co n s id er ed .   T h d is cr im in ato r   lo s s   is   co m p u ted   u s in g   b in ar y   cr o s s - en tr o p y   lo s s   s ep ar ately   f o r   r ea a n d   f a k e   d ata,   an d   t h en   av e r ag ed .   Ma th em atica lly ,   it c an   b ex p r ess ed   as  ( 2 ) :        =     1 2   = 1     ( ( ) )   +     ( 1   ( ( ( ) ) )   )     ( 2 )     Her e,     is   th ith   r ea d ata  p o in an d   ( )   th d is cr im in ato r   is   o u tp u wh en     is   r ea l.  G ( )   is   th o u tp u o f   th g en e r ato r   f o r   th e   i - th   in p u n o is s am p le     an d   D( G ( ) ) .   T h e   d is cr im in ato r s   o u tp u wh en   th e   p r o b a b ilit y   o f   t h g en e r ated   s am p le  G ( )   is   r ea l ,   an d   is   th e   b atch   s ize  co n s id er e d .   B in ar y   cr o s s - en tr o p y   lo s s   m ea s u r es  th d if f er en ce   b etwe en   p r o b a b ilit y   d is tr ib u tio n s ,   p ar ticu lar ly   u s ef u f o r   b i n ar y   class if icatio n   p r o b lem s .   I t is d e f in ed   as  ( 3 ) .     ( ) =     1   = 1 ( 1   ( ) )       )     ( 3 )     W h er    i s   th tr u lab el  ( 0   o r   1 )   a n d   (  )   is   th p r ed ict ed   p r o b ab ilit y   o f   th p o s itiv e   class .   T h GA N   o b jectiv f u n ctio n   is   ess en tially   m in im a x   g am e   b etwe en   t h g en er ato r   an d   th d is cr im in a to r .   T h e   g en e r ato r   tr ies  to   m in im ize  th d is cr im in ato r ' s   ab ilit y   to   d is tin g u is h   b etwe en   r ea an d   f a k d ata,   wh ile  th d is cr im in ato r   tr ies to   m ax im ize  it.  Ma th em a tically ,   it is   g iv en   as  ( 4 ) .            ( , ) = ~  ( ) [ l og ( ) ] +   ~ ( )     [ l og ( 1 ( ( ) ) ) ]     ( 4 )     Her e ,   D( x )   is   th d is cr im in ato r s   o u tp u an d   G ( )   is   th g en er ato r ' s   o u tp u ( f ak d ata)   an d      ( )    ( )   ar th d ata  a n d   n o is d is tr ib u tio n s .     3. 3 .   Da t a   ba la ncing   us ing   s y nthet ic  m ino rit y   o v e r - s a m pli ng   t ec hn iqu e   SMOT E   is   wid ely - u s ed   d ata  au g m en tatio n   tech n iq u th at  p r o d u ce s   u n r ea l sam p les f o r   t h m in o r ity   class   b y   s y n th esizin g   b etwe e n   ex is tin g   m in o r ity   class   s am p les.  Sp ec if ically ,   SMOT E   c o n s id er s   m in o r ity   class   s am p le  an d   its   k   n ea r est  n eig h b o r s ,   th en   c r ea tes  n ew  s y n th etic  s am p les  alo n g   th lin s eg m en ts   jo in in g   th em .   B y   ef f ec tiv ely   in cr ea s in g   th r ep r esen tatio n   o f   th m in o r ity   class ,   SMOT E   h elp s   to   b alan ce   th class   d is tr ib u tio n   in   th d atasets ,   th u s   m itig atin g   th b ias  to wa r d s   th m ajo r ity   class .   T h is   tech n iq u aim s   to   im p r o v t h p er f o r m a n ce   o f   ML   m o d els  b y   p r o v id in g   th e m   with   m o r d iv er s an d   r ep r esen tativ tr ain in g   d ata,   th er eb y   r ed u cin g   t h r is k   o f   m o d el  o v e r f itti n g   an d   im p r o v in g   p r ed ictiv ac c u r ac y   f o r   t h m in o r ity   class .     3. 4 .   Da t a   ba la ncing   us ing   Nea rMi s s   An o th er   d ata  b alan cin g   tech n i q u we  u tili ze   is   Nea r Mis s ,   w h ich   is   s p ec if ically   d esig n ed   t o   ad d r ess   class   im b alan ce   b y   u n d er   s am p lin g   th m ajo r ity   class .   Nea r Miss   s e lects  a   s u b s et  o f   m a jo r ity   class   s am p les   th at  ar clo s est  to   th m in o r ity   class   s am p les  in   f ea tu r e   s p ac e,   ef f ec tiv ely   r ed u cin g   t h im b alan ce   r atio   b etwe en   th m ajo r ity   a n d   m i n o r ity   class es.  Nea r Miss   o f f er s   th r ee   v ar ian ts Nea r Miss - 1 ,   Nea r Miss - 2 ,   an d   Nea r Miss - 3 ,   ea ch   em p lo y in g   d if f er en s tr ateg ies  to   s elec th m ajo r ity   class   s am p les  f o r   r e m o v al.   Nea r Miss - co n s id er s   s am p les  f r o m   th e   m ajo r ity   class   with   th s m all est  av er ag d is tan ce   to   th e   th r ee   n ea r est  m in o r ity   class   s am p le s .   I n   Nea r Miss - 2 ,   s am p les  f r o m   th m ajo r ity   cl ass   with   th f ar th est  av er ag d is tan ce   to   th th r ee   n ea r est  m in o r ity   class   s am p les  ar co n s id er e d .   Nea r Miss - 3   o n   th e   o th e r   h a n d   is   two - s te p   p r o ce s s   th at  f ir s t   s elec ts   m ajo r ity   class   s am p les  u s in g   Nea r Miss - 1   o r   Nea r Miss - 2   an d   t h en   f u r th e r   r e f in es  t h s elec tio n   b ased   o n   th e   m ajo r ity   class   s am p les  th at  ar m is class if ied   b y   a   k - n ea r est  n eig h b o r   ( KNN)   class if ier   tr ain ed   o n   t h e   o r ig in al  d ataset.   B y   s tr ateg ically   r em o v in g   m ajo r ity   class   s am p les,  Nea r Miss   aim s   to   e n h an ce   th b ala n ce   b etwe en   th class es a n d   im p r o v th p er f o r m a n ce   o f   ML   m o d els o n   im b alan ce d   d atasets .     3. 5 .   M a chine le a rning   a lg o ri t hm s   T h im p lem e n tatio n   will  u ti lize  v a r iety   o f   ML   alg o r i th m s   s u itab le  f o r   class if icatio n   task s ,   in clu d in g   b u t   n o lim ited   to r an d o m   f o r ests   ( R F)   [ 2 3 ] ,   KNN   [ 2 4 ] lo g is tic  r eg r ess io n   ( L R )   [ 2 5 ] ,   [ 2 6 ] a n d   g r ad ien b o o s tin g   ( GB )   [ 2 7 ]   a lg o r ith m s .   I n   o u r   a n aly s is   o f   v ar io u s   d atasets   ac r o s s   d if f e r en d ata  b alan cin g   tech n iq u es,  we   ev alu ate d   th e   p er f o r m an ce   o f   f o u r   co m m o n l y   u s ed   m ac h i n e - lear n in g   m o d els:   RF LR ,   KNN,   an d   GB .   T h ese  m o d els  wer ch o s en   f o r   th eir   v er s atility   an d   wid esp r ea d   ap p licab ilit y   in   class if icatio n   task s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       E n h a n ci n g   s o ftw a r fa u lt p r ed ictio n   th r o u g h   d a ta   b a la n cin g   tech n iq u es a n d   ma ch i n lea r n in g   ( A ksh a t R a j)   4791   T h f ir s m o d el  em p lo y e d   was  K NN ,   wh ich   is   n o n - p ar am e tr ic  class if icatio n   alg o r ith m .   Giv en   q u er y   p o in ,   th alg o r ith m   f in d s   th   n ea r est  n eig h b o r s   in   th tr ai n in g   s et  an d   ass ig n s   th m ajo r ity   class   am o n g   th ese  n eig h b o r s   to    .   C o n s id er   ( )   to   b t h s et  o f   k   n ea r est  n ei g h b o r s   o f     in   th e   tr ain in g   s et,   th en   t h e   p r ed icted   class   lab el   is   f o r   is   g iv en   as p er   ( 5 ):     ̂ =         є  ( )   ( = )     ( 5 )     Her I ( . )   is   th in d icato r   f u n ct io n   an d     is   th clas s   lab el  o f   t h i - th   n ea r est  n eig h b o r   an d   ̂   is   th p r ed icted   class   lab el  f o r   .   LR   is   a   lin e ar   class if icatio n   m o d el  th at  p r ed icts   th p r o b ab ilit y   o f   b in ar y   o u tco m e .     I t m o d els th p r o b a b ilit y   ( =1 )   u s in g   th lo g is tic  f u n ctio n   g iv en   as  ( 6 ) .         ( = 1 ) =   1 1 +       ( 6 )     Her e,   x   is   th in p u v ec to r ,   is   th weig h v ec to r ,   an d   i s   th b ase  o f   th n atu r al  alg o r ith m .   RF   c las s if ier   cr ea tes  m u ltip le  d ec is io n   tr ee s   d u r in g   th e   tr ain in g   p h ase.   L et   u s   co n s id er   ( )   to   b th p r ed icti o n   o f   th i - t h   d ec is io n   tr ee ,   th en   th p r ed ict ed   class   lab el  f o r   i n p u t   x   is   g iv en   as  p er   ( 7 ) .   Her e   n   i n d ica tes  th n u m b er   o f   d ec is io n   tr ee s .     ̂ =      { 1 ( ) , 2 ( ) , , ( )   }     ( 7 )     GB   is   also   an   en s em b le  m eth o d   lik e   RF   c lass if ier .   I b u ild s   s tr o n g   m o d el  b y   s eq u en tially   ac cu m u latin g   wea k   lear n e r s   ( ty p ically   d ec is io n   tr ee s )   an d   also   am en d in g   th er r o r s   m ad b y   p r e v io u s   lear n er s .   T h p r e d ictio n   o f   t h en s em b le  is   weig h ted   s u m   o f   th p r ed ictio n s   o f   all  th wea k   lear n er s .   C o n s id er   ( )   as th p r ed ictio n   o f   th m - th   wea k   lea r n er .   T h f in al  p r ed ictio n   is   co m p u ted   as p er   ( 8 ) .     ̂ =   = 1 ( )     ( 8 )     Her e,   is   th n u m b er   o f   wea k   lear n er s   an d     ar th co r r esp o n d in g   weig h ts .     3. 6 .   Descript io n o f   d a t a s et s   T h s o f twar f au lt p r ed ictio n   d atasets   r ef er en ce d ,   n am ely   J M1 ,   AR 1 ,   C M1 ,   KC 2 ,   MW1 ,   PC 1 ,   MC2 ,   an d   KC 1 ,   a r well - k n o wn   d at asets   co m m o n ly   u s ed   in   r esea r ch   f o r   e v alu atin g   ML   m o d el s   in   th c o n tex o f   s o f twar d ef ec p r e d ictio n .   T h ese  d atasets   co n tain   wid r an g e   o f   s tatic  co d m et r ics  an d   attr ib u tes   ass o ciate d   with   s o f twar m o d u les,  wh ich   s er v as  f ea tu r es  f o r   tr ain i n g   p r ed ictiv e   m o d els.  T h J MI   d ataset  is   o f ten   u s ed   f o r   ev alu atin g   ML   m o d els  in   s o f twar d ef ec t   p r ed ictio n   task s .   I co n tain s   s tatic  co d m etr ics     an d   attr ib u tes  ex t r ac ted   f r o m   J av p r o jects,  in clu d in g   m ea s u r es  r elate d   to   co d e   co m p le x ity ,   s ize,   an d   o b ject - o r ien ted   d esig n   p r o p er ties .   Attr ib u tes  m ay   in clu d lin es  o f   co d e,   Mc C ab e' s   cy clo m atic  co m p lex ity ,   Halstead ' s   m etr ics,  an d   v ar io u s   o th er   s o f twar m etr ics  [ 2 8 ] ,   [ 2 9 ] .   T h r esear ch   in   [ 3 0 ] [ 3 2 ]   it  is   d em o n s tr ate s   h o th ese  m etr ics   p lay   r o le  in   s o f twar f au lt  p r ed ictio n .   T h e   d ataset  p r o v id es  lab eled   in s tan ce s   in d icatin g   wh eth er   s o f twar m o d u le  co n tain s   d ef ec ts   o r   n o t.  T h ey   co n s is o f   attr ib u tes  lik s tatic   co d m etr ics  an d   attr ib u tes  co llected   f r o m   s o f twar r ep o s ito r ies,  f o cu s in g   o n   c o d c h u r n   an d   ch a n g e - r elate d   m etr ics.   A t t r i b u t es   m a y   i n cl u d e   l i n es   ad d e d ,   l i n e s   d e le t e d ,   n u m b e r   o f   c o d e   m o d i f i c a t i o n s ,   a n d   o t h e r   m e t r i cs  r e l a t e d   t o   c o d e   e v o l u ti o n   a n d   c h a n g e   p a t t e r n s .   S o m e   a t t r i b u t e s   l i k e   c o m b i n a t i o n   o f   s i z e ,   c o m p l e x i t y ,   a n d   d e s i g n - r e l a t e d   m e t r i cs ,   d e p e n d i n g   o n   t h e   s p e c i f i c   c h a r a c te r i s t i cs   o f   t h e   s o f t w a r e   p r o j e c ts   f r o m   w h i c h   t h e   d a t a   w a s   c o l l e c t e d ,   a r e   i n c l u d e d .   O v e r al l ,   t h es d a t as e ts   o f f e r   a   r ic h   s o u r c e   o f   i n f o r m a t i o n   f o r   t r a in i n g   a n d   e v a l u a ti n g   m a c h i n e - l e a r n i n g   m o d e l s   f o r   s o f t w a r e   f a u l t   p r e d i c t i o n .   B y   l ev e r a g i n g   t h e   d i v e r s e   s e t   o f   s t ati c   c o d e   m e t r i c s   a n d   a t t r i b u t es   p r o v i d e d   i n   t h e s e   d a t a s et s ,   r es e a r c h e r s   c a n   d e v e l o p   r o b u s t   p r e d i c t i v e   m o d e ls   c ap a b l e   o f   i d e n t i f y i n g   p o t e n t i a l   d e f e ct s   i n   s o f t wa r e   m o d u l e s ,   t h e r e b y   a i d i n g   i n   t h e   im p r o v e m e n t   o f   s o f t w a r e   q u a l ity   a n d   r e l i a b i l it y .       4.   RE SU L T S AN A L YS I S AN DIS CU SS I O N   Per f o r m an ce   ev al u atio n   an d   t esti n g   ar cr itical  asp ec t s   o f   ass es s in g   th ef f ec tiv en ess   an d   ef f icien cy   o f   th im p lem en ted   s o f twar f au lt  p r e d ictio n   s y s tem .   W ex p lain   th ev al u atio n   p r o ce s s   in to   two   co m p o n en ts alg o r ith m   tim c o m p lex ity   an d   test in g   m eth o d o lo g ies.  W h en   e v alu atin g   th tim co m p lex ity   o f   d if f er en d ata  b alan cin g   tech n iq u es  an d   ML   alg o r ith m s ,   it' s   ess en tial  to   co n s id er   b o th   th tim r eq u ir e d   f o r   tr ain in g   th m o d els an d   th ti m n ee d ed   f o r   m ak in g   p r e d ictio n s   o n   n ew  d ata.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 :   4 7 8 7 - 4 8 0 1   4792   GAN s   d em o n s tr ated   tim e   c o m p lex ity   o f   ap p r o x im ately   2 5   m in u tes  p er   d ataset.   GANs  ty p ically   r eq u ir e   m o r e   tim f o r   tr ain in g   co m p a r ed   to   o th er   b alan cin g   tech n iq u es  d u t o   th eir   co m p l ex   ar ch itectu r a n d   iter ativ tr ain in g   p r o ce s s .   Ho wev er ,   th e y   ca n   g e n er at m o r e   ac cu r ate   an d   p r ec is s y n th etic  d ata.     Oth er   b alan ci n g   tech n iq u es  ( e. g . ,   SMOT E ,   Nea r Miss )   d e m o n s tr ated   a   tim c o m p lex it y   th at   was  ty p ically     1   to   2   s ec o n d s .   T r ad itio n al  d ata  b alan cin g   tech n i q u es  lik SMOT E   an d   Nea r Miss   ar co m p u tatio n ally   less   ex p en s iv co m p ar ed   to   GA Ns.  T h ey   in v o lv s im p ler   a lg o r ith m s   an d   g en er ate  b ala n ce d   d atasets   m o r e   q u ick ly .   W h en   e v alu atin g   th e   tim c o m p lex ity   o f   ML   alg o r ith m s ,   it' s   cr u cial  to   c o n s id er   b o th   tr ain i n g   tim e   an d   p r e d ictio n   tim e.   Dec is io n   t r ee s   h av e   tim co m p le x i ty   as  O( n * m   lo g   m ) ,   w h er is   th n u m b er   o f   s am p les ,   wh ile  m   is   th n u m b er   o f   f ea tu r es.  T h tim co m p lex ity   o f   R is   O( n * m   lo g   m * k ) ,   w h er k   is   th e   n u m b er   o f   tr ee s   e x is tin g   in   th e   f o r est.   SVM  h as  tim co m p lex ity   o f   O( n 2 * m ) ,   w h e r n   is   th n u m b er   o f   s am p les  an d   m   is   th e   n u m b er   o f   f ea tu r es.  SVMs  ca n   b co m p u tatio n ally   ex p en s iv f o r   lar g d atasets   h en ce ,   we  d id   n o em p lo y   it  h er e.   KNN  h as  tim co m p lex ity   o f   O( n * k * m ) ,   wh er n   is   th n u m b er   o f   s am p les,  k   is   th n u m b e r   o f   n eig h b o r s ,   an d   m   is   th n u m b er   o f   f ea tu r es.  LR   h as  tim co m p lex ity   o f   O( n * m ) ,   wh er n   is   th n u m b er   o f   s am p les  an d   m   is   th n u m b er   o f   f ea tu r es.  K - Me an s   h as  tim c o m p lex ity   o f   O( n * k * t*   m ) ,   wh er n   is   th e   n u m b er   o f   s am p les,  k   is   th n u m b er   o f   clu s ter s ,   is   th n u m b er   o f   iter atio n s ,   an d   m   is   th e   n u m b er   o f   f ea tu r e s .   An aly zin g   m o d el   p er f o r m an ce   o n   th KC 2   d ataset  ac r o s s   d if f er en d ata  b alan cin g   tech n iq u es  p r o v id es  v alu ab le  in s ig h ts   in to   th eir   ef f ec tiv en ess .   GAN  b alan ce d   d ata   co n s is ten tly   en h a n ce s   ac cu r ac y   ac r o s s   m o d els  co m p ar ed   to   th e   u n b alan ce d   s ce n ar io ,   with   RF   lead in g   in   p er f o r m an ce .   T h is   s u g g ests   th ef f icac y   o f   GAN  b alan cin g   in   im p r o v in g   m o d el  ac cu r ac y   wit h o u s ig n if ica n d ata  lo s s .   Ho wev er ,   em p l o y in g   d ata  b alan c in g   tech n i q u es  s u ch   as  SMOT E   an d   Nea r Mi s s   f u r th er   im p r o v es  ac cu r ac y ,   n o tab ly   co m p ar e d   to   th u n b ala n ce d   d ata.   SMOT E   b alan ce d   d ata   lead s   to   s ig n if i ca n ac cu r ac y   im p r o v e m en ts   ac r o s s   m o d els,  with   R an d   KNN  ac h iev in g   th e   h ig h est  ac cu r ac y .   Nea r Miss   b alan ce d   d ata   also   en h a n ce s   ac cu r ac y ,   b u t o   a   less er   e x ten co m p ar ed   to   SMOT E   b alan cin g .   Fig u r 2   d ep icts   th e   g e n er ato r   an d   d is cr im in ato r   lo s s   o f   KC 2 ,   wh ile  Fig u r 3   d ep icts   th c o m p ar is o n   o f   ac cu r ac ies  f o r   ML   alg o r i th m s   ap p lied   to   KC 2 .   I n   s u m m ar y ,   wh ile  GAN  b alan cin g   s h o ws  p r o m is e,   SMOT E   b alan cin g   em er g es  a s   th m o s ef f ec tiv tech n iq u f o r   im p r o v in g   m o d el  p er f o r m an ce   o n   th e   KC 2   d ataset,   f o llo wed   b y   Nea r M is s   b alan cin g .   T h ese  in s ig h t s   aid   in   s elec tin g   ap p r o p r ia te  d ata  b alan cin g   tech n iq u es  f o r   class if icatio n   task s   o n   th KC 2   d atase t.  I n   th an aly s is   f o r   th KC 2   d ata s et ,   th g en er ato r   lo s s   r ea ch ed   its   m in im u m   at  e p o c h   3 4 5 2   as  d e p icted   i n   Fig u r e   2 ,   in d icatin g   o p tim al  p e r f o r m an ce   f o r   s y n th etic  d ata  g en e r atio n   u s in g   th e   GAN  m o d el.   Me a n wh ile,   th e   d is cr im in ato r   lo s s   also   d ec r ea s es,  in d icatin g   im p r o v e d   d is cr im in atio n   b etwe en   r ea l   a n d   s y n t h etic  d ata.   T h is   m iles to n s u g g ests   th at  th g en er a to r   h as  c o n v e r g ed ,   p r o d u cin g   th e   h ig h est q u ality   s y n th etic  d ata  am o n g   th 1 0 , 0 0 0   ep o ch s   tr ain ed .               Fig u r 2 .   Gen e r ato r   a n d   d is cr i m in ato r   lo s s   o f   KC 2     Fig u r 3 .   Acc u r ac y   c o m p ar is o n   o f   KC 2       An aly zin g   m o d el  p er f o r m an c o n   th J M1   d ataset  ac r o s s   v ar io u s   d ata  b alan cin g   tech n iq u es  r ev ea ls   in s ig h tf u tr en d s .   I n   th an al y s is   f o r   th J M1   d ataset ,   as  d e p icted   in   Fig u r 4 ,   th g en er a to r   lo s s   r ea ch ed   its   m in im u m   at   ep o c h   1 1 3 2 ,   in d icatin g   o p tim al   p er f o r m a n ce   f o r   s y n th etic  d ata  g e n er atio n   u s in g   th e   GAN  m o d el.   Me an wh ile,   th d is cr im in ato r   lo s s   also   d ec r ea s es,  in d ica tin g   im p r o v ed   d is cr im in atio n   b etwe en   r ea a n d   s y n th etic  d ata.   T h is   m iles to n s u g g ests   th at  th g en er at o r   h as  co n v er g e d ,   p r o d u cin g   t h h ig h est  q u ality   s y n th etic  d ata  a m o n g   th e   1 0 , 0 0 0   ep o ch s   tr ain e d .   GAN - b alan ce d   d ata  c o n s is ten tly   im p r o v es  ac c u r ac y   co m p ar ed   t o   th u n b alan ce d   s ce n ar io   ac r o s s   m o d els,  with   R s h o wca s in g   p ar ticu lar ly   h ig h   ac cu r ac y .     T h is   u n d er s co r es  GAN  b alan cin g ' s   ef f ec tiv en ess   in   en h an cin g   m o d el  p e r f o r m an ce   wh il m ain tain in g   d ata   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       E n h a n ci n g   s o ftw a r fa u lt p r ed ictio n   th r o u g h   d a ta   b a la n cin g   tech n iq u es a n d   ma ch i n lea r n in g   ( A ksh a t R a j)   4793   in teg r ity .   Ho we v er ,   e m p lo y i n g   tech n i q u es  lik SMOT E   a n d   Nea r Miss   f u r th er   en h an ce s   ac cu r ac y ,   n o tab ly   co m p ar ed   to   t h u n b ala n ce d   d ata.   SMOT E   b alan ce d   d ata  n o tab ly   im p r o v es  ac cu r ac y   ac r o s s   m o d els,  th o u g h   LR   ex h ib its   lo wer   ac cu r ac y   with   th is   tech n iq u e ,   as  ca n   b e   in f er r ed   f r o m   Fig u r 5 .   Nea r Miss   b alan ce d   d ata  also   en h an ce s   ac cu r ac y ,   alb ei to   les s er   ex ten co m p ar ed   to   SMOT E   b alan cin g .   I n   s u m m ar y ,   wh ile  GAN   b alan cin g   s h o ws  p r o m is e,   SMOT E   b alan cin g   em er g es  as  th m o s ef f ec tiv tech n iq u f o r   im p r o v in g   m o d el  p er f o r m an ce   o n   th J M1   d ata s et,   f o llo wed   cl o s ely   b y   Nea r Miss   b alan cin g .   T h ese  in s ig h t s   ass is in   s elec tin g   ap p r o p r iate  d ata  b ala n cin g   tec h n iq u es f o r   class if icatio n   task s   o n   th J M1   d ataset.             Fig u r 4 .   Gen e r ato r   a n d   d is cr i m in ato r   lo s s   o f   J M1     Fig u r 5 .   Acc u r ac y   c o m p ar is o n   o f   J M1       I n   t h e   a n a l y s is   f o r   t h e   KC 1   d ata s e t ,   t h e   g e n e r at o r   l o s s   r e a c h ed   i t s   m i n i m u m   a t   e p o c h   4 1 2 8   a s   d e p i ct e d   i n   F i g u r e   6 .   I t   i n d i c a t e s   t h e   o p t i m a l   p e r f o r m a n c e   f o r   s y n t h e t i c   d a t a   g e n e r a t i o n   u s i n g   t h e   G A N   m o d e l .   M e a n w h i l e ,   t h e   d is c r i m i n at o r   lo s s   al s o   d e c r e as es ,   i n d i c at i n g   im p r o v e d   d i s c r i m i n a ti o n   b e t w ee n   r e a l   a n d   s y n t h e ti d a t a .   T h is   m il es t o n e   s u g g e s ts   t h a t   t h g e n e r a t o r   h as   c o n v e r g e d ,   p r o d u c i n g   t h e   h i g h e s t   q u a l i t y   s y n t h e ti c   d a ta  a m o n g   t h e   1 0 , 0 0 0   e p o c h s   t r a i n e d .   T h e   K C 1   d a ta s et   a n a l y s is   r e v e a ls   t h a t   G A N   b al a n c ed   d a t a   c o n s is t e n tl y   i m p r o v e s   a c c u r a c y   a c r o s s   m o d e l s ,   i n d i c a ti n g   i ts   e f f e c t i v e n ess   w i t h o u d a t a   l o s s .   U n b al a n c e d   d a t a   l e a d s   t o   l o w e r   a c c u r a c y ,   b u t   S MO T E   a n d   N e a r M is s   t e c h n i q u e s   n o t a b l y   e n h a n c e   i t .   SM O T E   b al a n ce d   d a t a   v a r i es   i n   e f f e c t i v e n es s   a m o n g   m o d e ls ,   w i t h   R F   a n d   K N b e n e f i t i n g   t h e   m o s t   a s   ca n   b e   s e e n   f r o m   F i g u r e   7 .   N e a r M is s   b a l a n c e d   d a t a   m a i n t a i n s   h i g h   a c c u r a c y ,   t h o u g h   n o t   s i g n i f i c a n t l y   b e t t e r   t h a n   S M O T E   b a la n c ed   d a t a .   I n   s u m m a r y ,   G A N   b al a n c i n g   i s   r o b u s f o r   K C 1 ,   b u t h e f f e c ti v e n e s s   o f   S MO T E   a n d   N e a r Mi s s   t e c h n i q u e s   v a r ie s   a c r o s s   m o d e l s ,   a i d i n g   i n   s e l ec t i n g   s u i ta b l e   b a l a n c i n g   t ec h n i q u e s   f o r   cl a s s i f i ca t i o n   t as k s   o n   t h e   K C 1   d a t a s et .             Fig u r 6 .   Gen e r ato r   a n d   d is cr i m in ato r   lo s s   o f   KC 1     Fig u r 7 .   Acc u r ac y   c o m p ar is o n   o f   KC 1       Fig u r 8   d e p i c t s   th g en er ato r   an d   d is cr im in ato r   lo s s   o f   PC 1   d ataset.   I n   th an aly s is   f o r   th PC 1   d ataset,   th g en er ato r   lo s s   r ea ch ed   its   m in im u m   at  e p o ch   1 7 6 7 ,   in d icatin g   o p tim al  p er f o r m an ce   f o r   s y n th etic   d ata  g en e r atio n   u s in g   th e   GAN  m o d el.   Me a n wh ile,   th e   d is cr im in ato r   lo s s   also   d ec r ea s es,  in d icatin g   im p r o v e d   d is cr im in atio n   b etwe en   r ea l   a n d   s y n t h etic  d ata.   T h is   m iles to n s u g g ests   th at  th g en er a to r   h as  c o n v e r g ed ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 :   4 7 8 7 - 4 8 0 1   4794   p r o d u cin g   th h ig h est  q u ality   s y n th etic  d ata  am o n g   th e   1 0 , 0 0 0   ep o c h s   tr ain ed .   An al y zin g   th e   PC 1   d ataset's   d ata  b alan cin g   tech n iq u es  r ev ea ls   d is tin ct  p atter n s   in   m o d e p er f o r m an ce .   GAN  b ala n ce d   d ata  co n s is ten tly   b o o s ts   ac cu r ac y   ac r o s s   m o d els ,   with   R F a ch iev in g   th h ig h est ac cu r ac y .   C o n v e r s ely ,   u n b al an ce d   d ata  lead s   to   d ec r ea s ed   ac cu r ac y ,   u n d er lin in g   th ch allen g es  p o s ed   b y   im b alan ce d   class   d is tr ib u tio n s .   Ho wev er ,   b o t h   SMOT E   an d   Nea r Miss   tech n i q u es  n o tab ly   en h a n ce   ac c u r ac y   co m p ar ed   to   th e   u n b alan ce d   s ce n ar io .   SMOT E   b alan ce d   d ata  v a r ies  in   ef f ec tiv en ess   am o n g   m o d els,  p ar ticu lar ly   b en ef itin g   R an d   GB .   Nea r Miss   b alan ce d   d ata  m ain tain s   co n s is ten tly   h ig h   ac cu r ac y ,   ac h iev in g   p er f e ct  s co r es  f o r   R an d   GB .   Fig u r 9   d e p icts   th e   ac cu r ac y   o f   PC 1   d atasets   ac r o s s   all  th m o d els  d ev elo p ed .   Ho wev er ,   LR   an d   KNN  s h o s lig h tly   lo wer   ac cu r ac y   co m p a r ed   to   o th er   tech n iq u es.  I n   s u m m ar y ,   GA b alan cin g   em er g es  as  a   r o b u s s tr ateg y   f o r   im p r o v in g   m o d el  p er f o r m an ce   o n   th PC 1   d ataset,   wh ile  th ef f ec tiv en ess   o f   SMOT E   an d   Nea r Miss   tech n iq u es  v ar ies  ac r o s s   m o d els.  T h ese  in s ig h ts   o f f e r   g u id an ce   in   s elec tin g   ap p r o p r iate  d ata  b alan cin g   tech n iq u es  f o r   class if icatio n   task s   o n   th PC 1   d ata s et.   I n   th an aly s is   f o r   th C M1   d atase t,  th g en er ato r   lo s s   r ea ch ed   its   m in im u m   at  e p o c h   6 1 8 9 ,   i n d icatin g   o p tim al  p e r f o r m a n ce   f o r   s y n th etic   d ata  g en er atio n   u s in g   t h GAN  m o d el.   Me an wh ile,   th e   d is cr im in ato r   lo s s   also   d ec r ea s es,  in d icatin g   im p r o v ed   d is cr im in atio n   b etwe en   r ea an d   s y n t h etic  d ata.   T h is   m iles to n s u g g ests   th at  th g en er ato r   h as  co n v er g e d ,   p r o d u cin g   t h h ig h est  q u ality   s y n th etic  d ata  a m o n g   t h 1 0 , 0 0 0   e p o ch s   tr ai n ed .             Fig u r 8 .   Gen e r ato r   a n d   d is cr i m in ato r   lo s s   o f   PC 1     Fig u r 9 .   Acc u r ac y   c o m p ar is o n   o f   PC 1       Fig u r 1 0   d em o n s tr ates  th g en er ato r   an d   d is cr im in ato r   l o s s   f o r   C M1   d ataset ,   wh ile  Fig u r 1 1   d ep icts   th ac cu r ac y   o b tai n ed   ac r o s s   ML   m o d els  d ev el o p ed   in   th s tu d y   o f   C M1   d ataset.   An aly zin g   th e   C M1   d ataset's  d ata  b alan cin g   tec h n iq u es  s h ed s   lig h o n   m o d e p er f o r m an ce   ac r o s s   v ar io u s   s ce n ar io s .   GAN   b alan ce d   d ata  co n s is ten tly   en h an ce s   ac cu r ac y   ac r o s s   m o d els,  with   R lead in g   i n   p er f o r m an ce .   T h is   u n d er s co r es  th ef f ec tiv e n ess   o f   GAN  b alan cin g   in   im p r o v in g   m o d el  ac cu r ac y   with o u s ig n if ican d ata  lo s s .   C o n v er s ely ,   u n b alan ce d   da ta  lead s   to   r ed u ce d   ac c u r ac y ,   h i g h lig h tin g   th c h allen g es  p o s ed   b y   im b alan ce d   class   d is tr ib u tio n s .             F i g u r e   1 0 .   G e n e r a t o r   a n d   d i s c r im i n a t o r   l o s s   o f   C M 1     Fig u r 1 1 .   Acc u r ac y   co m p a r is o n   o f   C M1   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       E n h a n ci n g   s o ftw a r fa u lt p r ed ictio n   th r o u g h   d a ta   b a la n cin g   tech n iq u es a n d   ma ch i n lea r n in g   ( A ksh a t R a j)   4795   SMOT E   b alan ce d   d ata  d em o n s tr ates  v ar ied   ef f ec tiv en ess   am o n g   m o d els,  p ar ticu lar ly   b en ef itin g     R an d   GB .   T h is   tech n iq u s u b s tan tially   en h an ce s   ac cu r ac y   ac r o s s   m o d els  co m p ar ed   to   th u n b alan ce d   s ce n ar io .   Nea r Miss   b alan ce d   d ata  m ain tain s   h ig h   ac cu r ac y   lev els,  p a r ticu lar ly   ac h iev in g   p er f e ct  s co r es  f o r   LR .   Ho wev er ,   KNN  ex h ib its   s lig h tly   lo wer   ac cu r ac y   co m p ar ed   to   o th er   tec h n iq u es.  I n   s u m m ar y ,   GAN   b alan cin g   em er g es  as  r elia b le  s tr ateg y   f o r   en h an ci n g   m o d el  p er f o r m an ce   o n   th C M1   d ataset,   wh il e   SMOT E   an d   Nea r Miss   tech n i q u es  o f f er   a d d itio n al   im p r o v e m en ts   with   v ar y in g   ef f ec tiv e n ess   am o n g   m o d els.  T h ese  in s ig h ts   p r o v id e   g u id a n ce   f o r   s elec tin g   ap p r o p r iate  d ata  b alan ci n g   tec h n iq u es   f o r   class if icatio n   task s   o n   th C M1   d ataset.   F i g u r 1 2   d ep i c t s   th g en e r a t o r   a n d   d i s c r im i n a to r   l o s s   o f   M C 2 ,   w h i l F i g u r 1 3   d e p i c t s   th a c c u r a c y   o f   M C 2   f o r   t h e   ML   m o d e l s   c o n s i d er e d .   I n   t h a n a l y s i s   f o r   th M C 2   d a t a s e t,   t h e   g e n e r a to r   l o s s   r e a c h e d   i t s   m in i m u m   a t   e p o ch   8 9 9 8 ,   i n d i c a t in g   o p t im a l   p e r f o r m an c e   f o r   s y n t h e t i c   d a ta   g e n e r a t io n   u s i n g   t h e   G A N   m o d e l .   M ea n wh i l e,   t h e   d i s cr i m in a t o r   l o s s   a l s o   d e c r ea s e s ,   i n d ic a t i n g   i m p r o v e d   d i s c r i m in a t i o n   b e t w e en   r ea l   a n d   s y n t h e t i c   d a t a .   T h i s   m i l e s t o n e   s u g g e s t s   t h a t   t h e   g e n er a t o r   h a s   c o n v er g e d ,   p r o d u c in g   t h h i g h e s t   q u a l i ty   s y n t h e t i c   d a t a m o n g   th e   1 0 , 0 0 0   e p o ch s   t r a i n e d .   C o m p ar i n g   d a t b a la n c i n g   t e ch n iq u e s   o n   t h e   M C 2   d a t a s e r ev e a l s   d i s t i n c t   p e r f o r m an c p a t te r n s .   G A N   b a l an c ed   d a t g e n er a l ly   en h an c e s   m o d e a c c u r a c y   b y   g e n e r a t in g   b a l an c e d   d a t a s e t s   w i t h o u t   s ig n if ic a n t   i n f o r m a t io n   lo s s .   U n b a la n c ed   d a t a   le a d s   to   l o w e r   a cc u r a c y   a s   m o d e l s   s t r u g g l e   w i th   m in o r i ty   c l a s s   r e p r e s en t a t i o n .   S M O T E   b a la n c e d   d a t a   v ar i e s   i n   e f f e c t iv en e s s   a m o n g   m o d e l s ;   LR   n o t a b ly   s t r u g g le s .   N e ar M i s s   b a l a n ce d   d a t a   s l i g h tl y   d e c r ea s e s   K N N 's   a c c u r a c y   c o m p ar e d   t o   o t h er   t e ch n iq u e s .   I n   s u m m a r y ,   w h i l e   G A N   b a l an c i n g   co n s i s t e n t l y   im p r o v e s   a c c u r a c y ,   th ef f e c t iv e n e s s   o f   S M O T E   a n d   Ne a r M i s s   t e c h n i q u e s   v a r ie s   a cr o s s   m o d e l s .   T h e s i n s i g h t s   a id   i n   s e l e c t i n g   t h e   m o s t   s u i t ab l b a l a n c in g   te c h n i q u e   f o r   c l a s s i f i c a t i o n   t a s k s   o n   t h e   M C 2   d a t a s e t ,   c o n s i d er i n g   s p e c i f i m o d e l   r e q u i r e m en t s   a n d   d a t a s e c h ar a c t er i s t i c s .             Fig u r 1 2 .   Gen er ato r   an d   d is cr im in ato r   lo s s   o f   MC2     Fig u r 1 3 .   Acc u r ac y   co m p a r is o n   o f   MC2       Fig u r 1 4   d e p icts   th g e n er ato r   an d   d is cr im in ato r   lo s s   o f   M C 2   wh ile  Fig u r 1 5   d ep icts   th ac cu r ac y   o f   MC2   f o r   ML   m o d els  co n s id er ed .   An aly zin g   m o d el  p er f o r m an ce   o n   th MW1   d ataset  ac r o s s   v ar io u s   d ata   b alan cin g   tech n iq u es  r ev ea ls   n o tab le  tr en d s .   GAN  b alan ce d   d ata  co n s is ten tly   en h an ce s   ac cu r ac y   co m p ar ed   to   th u n b alan ce d   s ce n ar io ,   wit h   R ac h iev in g   th h ig h est  ac cu r ac y   am o n g   m o d els.  T h i s   u n d er s co r es  th ef f ec tiv en ess   o f   GAN  b alan ci n g   in   im p r o v in g   m o d el  p er f o r m an ce   with o u s ig n if ica n d ata  lo s s .   Ho wev er ,   em p lo y in g   tech n iq u es  lik e   SMOT E   an d   Nea r Miss   f u r t h er   b o o s ts   ac cu r ac y   n o tab ly   co m p a r ed   to   th e   u n b alan ce d   d ata.   SMOT E   b al an ce d   d ata  n o tab l y   im p r o v es  ac cu r ac y   ac r o s s   m o d els,  with   LR   ac h iev in g   t h h ig h est  ac cu r ac y .   Nea r Miss   b alan ce d   d ata  also   en h an ce s   ac cu r ac y   b u to   less er   ex ten co m p ar ed   to   SMOT E   b alan cin g .   I n   s u m m a r y ,   wh ile  GAN  b alan cin g   s h o ws  p r o m is e,   SMOT E   b alan cin g   em er g es  as  th e   m o s t   ef f ec tiv tech n iq u f o r   en h a n c in g   m o d el  p er f o r m an ce   o n   t h e   MW1   d ataset,   f o llo wed   b y   N ea r Miss   b alan cin g .   T h ese  in s ig h ts   g u id in   s elec t in g   ap p r o p r iate  d ata  b alan cin g   tech n iq u es  f o r   class if icatio n   task s   o n   th MW1   d ataset.   I n   th an al y s is   f o r   th MW1   d ataset,   th g en er a to r   lo s s   r ea ch ed   its   m in im u m   at  ep o ch   3 6 4 9 ,   in d icatin g   o p tim al  p er f o r m a n ce   f o r   s y n th etic  d ata  g e n e r atio n   u s in g   th e   GAN  m o d el.   Me an wh ile,   th d is cr im in ato r   lo s s   also   d ec r ea s es,  in d icatin g   im p r o v ed   d is cr im in atio n   b etwe en   r ea an d   s y n th etic  d ata.     T h is   m iles to n s u g g ests   th at  t h g en er ato r   h as  co n v er g ed ,   p r o d u cin g   th h ig h est  q u ality   s y n th etic  d ata  am o n g   th 1 0 , 0 0 0   e p o ch s   tr ain e d .         Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 :   4 7 8 7 - 4 8 0 1   4796         Fig u r 1 4 .   Gen er ato r   an d   d is cr im in ato r   lo s s   o f   MC2     Fig u r 1 5 .   Acc u r ac y   co m p a r is o n   o f   MW1       Fig u r 1 6   d e p icts   th g en er at o r   an d   d is cr im in ato r   l o s s   o f   A R 1   wh ile  Fig u r e   1 7   d ep icts   th ac cu r ac y   o f   AR 1   f o r   ML   m o d els  co n s i d er ed .   E x am in in g   m o d el  p er f o r m an ce   o n   th e   AR 1   d ataset  ac r o s s   d iv er s d ata  b alan cin g   s tr ateg ies  p r o v id es   in s ig h tf u o b s er v atio n s .   GA b alan ce d   d ata   g en er ally   e n h an ce s   ac cu r ac y   co m p ar ed   to   t h u n b ala n ce d   s ettin g ,   esp ec ially   b en ef itin g   R an d   KNN  m o d els.  T h is   u n d er s co r es  th ef f ec tiv en ess   o f   GAN  b ala n cin g   in   im p r o v in g   m o d el  p er f o r m an ce   wh ile  m ain tain in g   d ata  in teg r ity .   I n ter esti n g ly ,   th Un b ala n ce d   d ata  s ce n ar io   alr ea d y   y iel d s   h ig h   ac cu r ac y   ac r o s s   all  m o d els,  s u g g esti n g   m in im al  im p ac t o n   m o d el  p er f o r m an ce   in   th is   s p ec if ic  s ce n ar io .             Fig u r 1 6 .   Gen er ato r   an d   d is cr im in ato r   lo s s   o f   AR 1     Fig u r 1 7 .   Acc u r ac y   co m p a r is o n   o f   AR 1       Ho wev er ,   th e   o u tc o m es  ar e   m o r v a r ied   with   SMOT E   b ala n ce d   d ata ,   with   R an d   KNN  ac h iev in g   h ig h er   ac c u r ac y ,   wh ile  LR   an d   GB   ex h ib it  lo wer   ac c u r ac y   co m p a r ed   to   o th er   tec h n iq u es.  Mo r e o v er ,   Nea r Miss   b alan ce d   d ata   s h o ws  b o th   p o s itiv an d   n eg ativ im p ac ts ,   en h an cin g   ac c u r ac y   f o r   s o m e   m o d els  wh ile  s ig n if ican tly   r ed u cin g   it  f o r   o th e r s .   I n   s u m m ar y ,   w h ile  GAN  b alan cin g   c o n s is ten tly   b o o s ts   m o d el  ac cu r ac y   f o r   th AR 1   d ataset,   th ef f ec tiv en ess   o f   SMOT E   an d   Nea r Miss   b alan cin g   tech n iq u es  v ar ies  ac r o s s   m o d els.   T h ese  f in d in g s   o f f er   v alu ab le  in s ig h ts   f o r   s elec tin g   s u itab le  d ata  b alan cin g   m eth o d s   f o r   class if icatio n   task s   o n   th e   AR 1   d ataset.   I n   th a n aly s is   f o r   th e   AR 1   d at aset,  th g e n er ato r   lo s s   r ea ch ed   its   m in im u m   at   ep o ch   4 0 7 8 ,   in d icatin g   o p tim a p er f o r m an ce   f o r   s y n th etic  d a ta  g en er atio n   u s in g   th GAN  m o d el.   Me an wh ile,   th d is cr im in ato r   lo s s   also   d e cr ea s es,  in d icatin g   im p r o v ed   d is cr im in atio n   b etwe en   r ea a n d   s y n th etic  d ata.   T h is   m iles to n s u g g ests   th at  t h g en er ato r   h as  co n v er g ed ,   p r o d u cin g   th h ig h est  q u ality   s y n th etic  d ata  am o n g   th 1 0 , 0 0 0   e p o ch s   tr ain e d .   T ab le  1   p r esen ts   s u m m ar y   o f   th o v e r all  r esu lts   o b tain ed   b y   d e v elo p in g   1 2 8   m o d els ( 8   d atasets * 4   d ata  b alan cin g   ap p r o ac h es* 4   ML   m o d e ls ) .   T h r esear ch   f in d in g s   o n   s y n th etic  d ata  g en er atio n   an d   d e f ec p r ed ictio n   in   s o f twar en g in ee r in g   h av s ev er al  p o ten tial  ap p li ca tio n s   in   r ea l - wo r ld   s ce n ar io s   lik s o f twar q u ality   ass u r an ce ,   r eso u r ce   allo ca tio n ,   r is k   m an ag em en t,   au to m ated   b u g   d etec tio n ,   s o f twar m ain ten an ce   an d   ev o lu tio n ,   co n tin u o u s   Evaluation Warning : The document was created with Spire.PDF for Python.