I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   3 9 ,   N o .   2 A ugus t   20 25 ,   pp .   1 130 ~ 1 144   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 3 9 .i 2 . pp 1 13 0 - 1 144             1130     Jou r n al   h o m e pa ge ht t p: / / i j e e c s . i a e s c or e . c om   C o m p a r i so n   o f   r o b u st   m a c h i n e   l e a r n i n g   a l g o r i t h m s o n   o u t l i e r a n d   i m b a l a n c e d   sp a m   d a t a       D o d o   Zae n al   A b i d i n 1 ,   Jas m i r   Jas m i r 2 ,   Er r i s ya   R as yw i r 3 ,   A gu s   S i s w an to 3   1 D e p a rt m e n t   o f   M a g i s t e o f   I n fo r m a t i o n   S y s t e m ,   F a c u l t y   o C o m p u t e S c i e n c e ,   U n i v e r s i t a s   D i n a m i k a   Ba n g s a ,   J a m b i ,   I n d o n e s i a   2 D e p a rt m e n t   o f   C o m p u t e r   E n g i n e e ri n g ,   F a c u l t y   o C o m p u t e S c i e n c e ,   U n i v e rs i t a s   D i n a m i k a   Ba n g s a ,   J a m b i ,   In d o n e s i a   3 In fo r m a t i o n   S y s t e m ,   F a c u l t y   o f   C o m p u t e r   S c i e n c e ,   U n i v e r s i t a s   D i n a m i k a   B a n g s a ,   J a m b i ,   I n d o n e s i a       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e N ov   12 202 4   R e v i s e M a r   22 20 25   A c c e pt e J ul   2 2025       E f f e c t i v e   s pa m   d e t e c t i o i s   e s s e nt i a l   f o r   da t a   s e c ur i t y ,   us e r   e xp e r i e nc e ,   a nd   o r g a ni z a t i o na l   t r u s t .   H o w e v e r ,   o ut l i e r s   a nd   c l a s s   i m ba l a nc e   c a i m p a c t   m a c hi ne   l e a r n i ng   m o de l s   f o r   s pa m   c l a s s i f i c a t i o n.   P r e v i o us   s t udi e s   f o c us e o f e a t u r e   s e l e c t i o a nd   e n s e m b l e   l e a r n i ng   b ut   h a v e   no t   e xp l i c i t l y   e xa m i ne d   t he i r   c o m bi ne d   e f f e c t s .   T hi s   s t udy   e v a l ua t e s   t h e   pe r f o r m a nc e   o f   r a n do m   f o r e s t   ( R F ) ,   g r a d i e n t   bo o s t i ng   ( G B ) ,   a nd   e x t r e m e   g r a di e nt   bo o s t i ng   ( X G B o o s t )   un de r   f o ur   e xpe r i m e n t a l   s c e n a r i o s :   ( i )   w i t ho ut   s y nt he t i c   m i no r i t y   o v e r - s a m pl i ng   t e c hni que   ( S M O T E )   a nd  o ut l i e r s ,   ( ii )   w i t ho ut   S M O T E   bu t   w i t h   o ut l i e r s ,   ( iii )   w i t S M O T E   a n w i t ho ut   o ut l i e r s ,   a nd   ( iv )   w i t h   S M O T E   a nd   w i t h   o ut l i e r s .   R e s ul t s   s ho w   t ha t   X G B o o s t   a c hi e v e s   t h e   hi g he s t   a c c ur a c y   ( 96 % ) ,   a n   a r e a   und e r   t he   c u r v e - r e c e i v e r   o pe r a t i ng   c ha r a c t e r i s t i c   ( A U C - R O C )   o f   0. 9928 ,   a n t h e   f a s t e s t   c o m put a t i o n   t i m e   ( 0 . 61 84   s e c o nds )   un de r   t he   S M O T E   a nd   o ut l i e r - f r e e   s c e na r i o .   A ddi t i o na l l y ,   RF   a t t a i ne d   a A U C - R O C   o f   0. 9920 ,   w hi l e   GB   a c h i e v e 0. 9 876   bu t   r e q ui r e d   m o r e   p r o c e s s i ng   t i m e .   T he s e   f i n di ng s   e m p ha s i z e   t h e   ne e t o   a ddr e s s   c l a s s   i m ba l a nc e   a nd   o ut l i e r s   i s pa m   de t e c t i o m o de l s .   T h i s   s t udy   c o nt r i but e s   t o   d e v e l o pi ng   m o r e   r o bus t   s p a m   f i l t e r i ng   t e c hn i que s   a nd  pr o v i de s   a   b e nc hm a r f o r   f ut ur e   i m pr o v e m e nt s .   B y   s y s t e m a t i c a l l y   e v a l ua t i ng   t he s e   f a c t o r s ,   i t   l a y s   a   f o unda t i o n   f o r   d e s i g ni ng   m o r e   e f f e c t i v e   s pa m   d e t e c t i o n   f r a m e w o r ks   a da p t a b l e   t o   r e a l - w o r l d   i m ba l a nc e d   a n no i s y   da t a   c o ndi t i o ns .   Ke y w or d s :   Co m pa r i s o n   Im b a l a n c e d a t a   M a c hi n e   l e a rni n g     O ut l i e r s   S pa m   T hi s   i s   an   ope n   ac c e s s   ar t i c l e   u nde r   t he   C C   B Y - SA   l i c e ns e .     Cor r e s pon di n g   Au t h or :   D o d o   Z a e n a l   A b i di n   D e pa rt m e n t   of  M a gi s t e r   o f   In f o rm a t i o S y s t e m ,   F a c ul t y   of   Co m put e S c i e n c e     U n i v e r s i t a s   D i na m i k a   B a n gs a   J a m b i   J e n de ra l   S udi rm a n   S t r e e t ,   T h e h o k,   S o ut J a m b i ,   J a m b i ,   I n do n e s i a   E m a i l :   do do z a e n a l a b i d i n @ gm a i l . c o m       1.   I N TR O D U C TI O N   T h e   ra pi d   g r o w t h   o f   t e c hn o l o g y - b a s e a pp l i c a t i o n s   a nd   t he   m a s s i v e   v o l um e   o f   di gi t a l   da t a   ha v e   hi g h l i g ht e t h e   n e e fo r   e ff i c i e n t   da t a   p r o c e s s i n a n a na l y s i s .   S pa m   r e m a i n s   o n e   of   t h e   m o s t   c h a l l e n gi n g   i s s ue s   fo r   bo t h   r e s e a r c h e r s   a nd  p ra c t i t i o n e r s   due   t o   t h e   di s rupt i o n s   i t   c a us e s   fo r   us e r s   a nd  s e r v i c e   pr o v i de r s   [1],   [2] .   I t   n e ga t i v e l y   i m pa c t s   us e r   e xpe r i e n c e   a n d   po s e s   s i gni f i c a n t   s e c u r i t y   a n t r us t   c o n c e rn s   f o r   o r ga ni z a t i o n s   [3 ].   M a c hi n e   l e a rn i ng   a l go ri t hm s   h a v e   b e e n   w i de l y   a ppl i e i s p a m   de t e c t i o w i t p r o m i s i n g   r e s ul t s   [4] .   H ow e ve r ,   n e w   c ha l l e n ge s   e m e r ge ,   pa rt i c ul a r l y   w h e n   d a t a s e t s   c o n t a i n   o ut l i e r s   a nd  c l a s s   i m b a l a n c e s ,   w h i c c a s i g ni f i c a nt l y   a f fe c t   m o de l   pe r f o r m a n c e   [5] .   A dd r e s s i ng  t h e s e   c ha l l e n ge s   r e qui r e s   f u r t h e r   i n v e s t i ga t i o i n t o   r o b us t   m a c h i n e   l e a rni n g   s t ra t e gi e s ,   pa rt i c ul a rl y   i n   e v a l u a t i ng  t h e i e ff e c t i v e n e s s   i ha n dl i n g   o ut l i e r s   a n d   c l a s s   i m b a l a n c e   [6 ].   S e v e r a l   s t u di e s   ha v e   e xpl o r e d i f f e r e nt   a s pe c t s   o f   s pa m   c l a s s i f i c a t i o n.   A s da g hi   a n d   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752         Com par i s o o f   r ob us t   m ac h i ne   l e ar ni ng  a l gor i t hm s   o o ut l i e r s   and   …  ( D odo  Z a e na l   A bi di n )   1131   S o l e i m a n i   [7]  i n v e s t i ga t e t h e   i m pa c t   o f   di m e n s i o n a l i t y   r e duc t i o n   o s pa m   c l a s s i f i c a t i o n,   p a r t i c ul a rl y   i un b a l a n c e da t a s e t s ,   a nd  c o n c l ude t ha t   ra n do m   f o r e s t   (R F )   a c hi e v e a a c c ura c y   of   94. 86% .   S i m i l a rl y ,   F a y a z   e t   al .   [8]   p r o po s e a e n s e m b l e   m o de l   us i ng   g ra di e nt   b oo s t i n g   (G B )   a n d   e xt r e m e   g ra di e n t   b o o s t i n ( X G Bo os t ) ,   w hi c i m p r o v e c l a s s i f i c a t i o a c c ur a c y   t o   84 . 74%   f o r   g ra di e nt   b o o s t i n g   m a c h i n e   ( G B M )   a n 85. 59 f o r   X G B o os t   o n   u n b a l a n c e d a t a s e t s .   D e s pi t e   t h e s e   a dv a n c e m e n t s ,   l i m i t e d   r e s e a r c ha s   di r e c t l y   b e n c h m a r ke d   t h e   pe r f o r m a n c e   o f   t h e s e   a l go ri t hm s   i n   ha n d l i ng  b o t h   o ut l i e r s   a nd  c l a s s   i m b a l a n c e   w i t h i s pa m   de t e c t i o n   d a t a s e t s .   W hi l e   p r e v i o us   s t udi e s   f o c us e pri m a r i l y   o n   d i m e n s i o n a l i t y   r e duc t i o a n d   e ns e m b l e   l e a rn i ng,   t h e y   di d   n o t   e xpl i c i t l y   e xa m i n e   h o w   o ut l i e h a ndl i n g   a n d   d a t a   i m b a l a n c e   i m pa c t   c l a s s i f i c a t i o n   pe r f o r m a n c e   i s pa m   de t e c t i o n   s y s t e m s .   B e n c h m a r ki ng  s t udi e s   a r e   c r uc i a l   t o   e v a l ua t i n g   a l go r i t hm   r o b us t n e s s   u n de r e a l - w o r l n o i s y   a n i m b a l a n c e s pa m   da t a .   M i s c l a s s i f i c a t i o c a r e s ul t   i l o s i n r e l e v a n t   i n f o r m a t i o n   a n d   a ddi t i o na l   f a l s e   po s i t i v e s   (F P s )   t h a t   a r e   ha rm f ul   t o   us e r s   a n d   o r g a ni z a t i o n s   [9],   [10] .   H e n c e   t h e   ne e fo f i n d i n g   a n d   s t u dy i n a l go r i t h m s   c a p a b l e   of   a s s ua gi ng   t h e s e   c o n c e rn s   [11] ,   [12] .   T h e   o b j e c t i v e   of   t hi s   s t udy   i s   t o   f i l l   t h e   m e n t i o n e d   ga p   b y   c o m pa ri n g   t h e   pe r f o rm a n c e   o f   t hr e e   r o b us t   m a c hi n e   l e a rni n g   a l go ri t hm s RF GB ,   a n d   X G B oo s t ,   a c r o s s   di f f e r e n t   s p a m   de t e c t i o n   d a t a s e t s   f a c i ng  o ut l i e r s   a nd  i m b a l a n c e   da t a   i s s u e s .   By   c a rr y i n o ut   t hi s   t y p e   of   a n a l y s i s   o n   t h e   S p a m b a s e   da t a   s e t   (4 , 60 s a m pl e s   a nd  57  r e l e v a n t   f e a t ur e s w e   h o pe   t o   p r o v i de   a ddi t i o na l   i n s i g ht s   i n t o   h o w   w e l l   e a c h   o f   t h e s e   a l go ri t hm s   w i l l   m a na ge   da t a   w i t h   s uc h   c h a ra c t e r i s t i c s .   T h e   S pa m b a s e   da t a s e t   f r o m   t h e   U CI  M a c hi n e   L e a rn i n g   R e po s i t o r y   i s   a   go o s o ur c e   fo r   m o r e   i n s i g h t s   o n   t h i s   p r o b l e m   [13].   A l s o ,   i t hi s   s t udy ,   a   n e w   s t y l i n a n d   a pp r o a c h   t o   e v a l ua t i ng  a l go r i t hm s   l i ke   a c c u r a c y ,   pr e c i s i o n ,   r e c a l l ,   F s c o r e ,   a n r e c e i v e r   o pe r a t i ng  c h a ra c t e ri s t i c   ( R O C )   ar e a   u n de r   t h e   c ur v e   ( A U C )   w i l l   b e   di s c us s e d.   T h e s e   m e t r i c s   w e r e   c h o s e n   s i n c e   e a c h   o ff e r s   a n   a l t e rna t i v e   pe r s pe c t i v e   o n   t h e   qua l i t y   of   t h e   a l go r i t h m   r e ga r d i n s p a m   i de n t i f i c a t i o a nd  r e duc t i o n   i n   m i s c l a s s i f i c a t i o n s   [1 4],   [15] .   I pa r t i c ul a r,   R O A U s h o w s   i n   c l e a t e rm s   h o w   w e l l   t h e   m o de l   c a d i s t i ngui s b e t w e e n   t h e   s p a m   a n d   n o n - s pa m   c l a s s e s   w h i c h   i s   ke y   t o   pe r fo r m a n c e   e v a l ua t i o n   o i m b a l a n c e da t a s e t s   [16] ,   [17] .   T hr o ug h   t hi s   c o n t ri b ut i o n,   w e   a i m   t o   l a y   a   fo un da t i o f o r   f ut ur e   r e s e a r c h   i n   s p a m   de t e c t i o n   a nd  r o b us t   l e a rni n g   a l go r i t hm s ,   ul t i m a t e l y   e nh a n c i n g   t h e   e f fe c t i ve n e s s   of   e xi s t i n s p a m   c l a s s i f i c a t i o s y s t e m s .       2.   M ET H O D   T h i s   s t udy   e v a l ua t e s   t h e   pe r f o r m a n c e   o f   m a c hi n e   l e a rni n g   m o de l s   i h a ndl i n g   o ut l i e r s   a nd  c l a s s   i m b a l a n c e   i n   s pa m   de t e c t i o n.   T h e   r e s e a r c h   f o l l o w s   a   s t r uc t u re pr o c e s s   i n v o l v i n da t a   c o l l e c t i o n ,   e xpl o ra t o r y   a n a l y s i s ,   da t a   p r e p r o c e s s i n g,   m o de l   t e s t i n g ,   a n d   e v a l ua t i o n.   T h e   p r o c e dur a l   s t e ps   a r e   i l l us t ra t e i n   F i gu r e   1 .   F i gu r e   1   i l l us t r a t e s   t h e   e xpe ri m e n t a l   s e t up   f o r   s p a m   de t e c t i o n   s i m u l a t i o n.   T h e   p r o c e s s   be gi n s   w i t t h e   s pa m   da t a s e t ,   f o l l ow e by   e xpl o r a t o r y   da t a   a n a l y s i s   (E D A t o   e xa m i n e   f e a t u r e   di s t ri b ut i o n,   o ut l i e r s ,   a nd  c l a s s   i m b a l a n c e .   I da t a   p r e p r o c e s s i n g ,   d a t a   c l e a n i ng,   f e a t u r e   e n g i n e e ri n g,   a nd  s y n t h e t i c   m i n o ri t y   ove r - s a m pl i n g   t e c hni que   ( S M O T E )   a r e   a pp l i e t o   ha n d l e   c l a s s   i m b a l a n c e   a nd  p r e p a r e   t h e   d a t a s e t   f o r   m o de l   t r a i ni n g .   D u r i ng  m o de l   t e s t i ng,   t hr e e   m a c h i n e   l e a rni n g   a l g o r i t hm s   R F ,   G B M ,   a nd  X G B o os t   a r e   e v a l u a t e unde f o ur   e xpe ri m e n t a l   c o n di t i o n s ,   c o n s i de ri n g   t h e   p r e s e n c e   o a b s e n c e   o f   S M O T E   a n d   o ut l i e r s .   E a c h   a l go ri t hm   i s   t r a i n e a n d   t e s t e t o   a s s e s s   i t s   pe r f o r m a n c e   o n   i m b a l a n c e a n d   n o i s y   da t a .           F i gu r e   1 .   S t a ge s   o f   a n a l y s i s   a n d   e v a l ua t i o o f   s pa m   d a t a s e t     Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i V o l .   3 9 ,   N o .   2 ,   A ugus t   20 25 :   1 130 - 1 144   1132   F i na l l y ,   m o de l   e v a l ua t i o i s   c o n d uc t e us i n g   c o n f us i o m a t r i x ,   p r e c i s i o n,   r e c a l l ,   F 1 - s c o r e ,   a nd  R O C - A U t o   m e a s u r e   c l a s s i f i c a t i o a c c u r a c y   a nd  r o b us t n e s s .   T h i s   s t r uc t u r e d   e xpe ri m e nt a l   s e t up   hi g hl i g ht s   t h e   i m p a c t   o f   da t a   p r e p r o c e s s i n g   t e c hn i que s   o s pa m   c l a s s i f i c a t i o n ,   e n s u r i ng  t h e   s e l e c t i o o f   t h e   m o s t   e ffe c t i ve   m o de l   f o r   r e a l - w o r l i m pl e m e n t a t i o n.     2. 1 .     D atas e t   T h e   S pa m b a s e   da t a s e t   i s   a v a i l a b l e   a s   p a r t   o f   t h e   U CI  M a c h i n e   L e a rn i ng  R e po s i t o r y   a n c a b e   us e fo r   s pa m   de t e c t i o n,   w h e r e   i t   i n c l ude s   4, 601   e m a i l s   w i t h   t h e i r   c l a s s i f i c a t i o n s   F r e de ri c ks o n   e t   al .   [1 8] I t   ha s   57  a t t ri b ut e s   o f   r e a l   v a l ue s   ( a f t e r   n o r m a l i z a t i o n s a n o n e   t a rge t   f e a t u r e   r e p r e s e n t i ng  w h e t h e r   a   g i v e n   e - m a i l   i s   c o n s i de r e s pa m ,   w e   w i l l   c o n s i de a s   m a r g i n a l l y   po s i t i v e   e xa m pl e s   o nl y   t h o s e   fo r   w h i c h   i t s   o ut put s   a r e   b e t w e e n   t o   go   f r o m   n o t   b e i n g   s p a m   t o   t h e   o t h e r s .   T h e   a t t ri b ut e s   of   t h i s   da t a s e t   a r e   s ui t e f o r   t a s ks   s uc a s   a ut o m a t i c a l l y   f i l t e ri n o ut   s p a m   e m a i l s   f r o m   a   us e r ' s   e m a i l   a c c o un t   [13] ,   [1 9 ].   T h e   da t a   ha s   a l r e a dy   b e e n   c l e a n e a n d   c o n v e r t e t o   n um e r i c a l   f o r m ,   s o   t h e r e   i s   n o   n e e d   f o r   n o rm a l i z a t i o h e r e .   T h e   da t a s e t s   ha v e   m o s t l y   b a l a n c e c l a s s   d i s t r i b ut i o n ,   b ut   f urt h e r   a n a l y s i s   i s   n e c e s s a r y   t o   m i t i ga t e   t h e   po t e n t i a l   i m pa c t   o f   c l a s s   i m b a l a n c e   o n   M L   a l go ri t hm s .   T h e s e   da t a s e t s   w i l l   b e   s pl i t   i n t o   t ra i ni n a n d   t e s t i n g   s e t s ,   t y pi c a l l y   a t   a   70 / 30  ra t i o ,   e n s u r i n g   s uf f i c i e n t   d a t a   f o r   m o de l   t r a i n i ng  w hi l e   p r e s e r v i n g   a i nde pe n de n t   t e s t   s e t   f o r   un b i a s e e v a l ua t i o n.   D a t a   p r e p r o c e s s i n t e c hni qu e s ,   i n c l udi ng  f e a t u r e   s c a l i n g   a nd  o ut l i e r   r e m o v a l ,   w i l l   b e   a ppl i e b e fo r e   t r a i n i ng  t o   e nha n c e   m o de l   pe r f o r m a nc e .   A ddi t i o na l l y ,   c r o s s - v a l i da t i o n   w i l l   b e   us e t o   a s s e s s   ge n e r a l i z a b i l i t y   a n d   p r e v e n t   o v e r f i t t i n g ,   e n s u ri n g   t h a t   t h e   t r a i n e m o de l s   pe r f o r m   c o n s i s t e n t l y   a c r o s s   di f fe r e nt   d a t a   di s t ri b ut i o n s .     2. 2 .     Ex p l o r ato r d ata   an al ys i s   Im po rt a n c e   o f   t h e   E D A   s t a ge :   i t   i s   e xt r e m e l y   i m po r t a n t   t o   pe r f o r m   a i ni t i a l   a n a l y s i s   be fo r e   m o de l i ng  a s   t h i s   h e l ps   a   r e s e a r c h e u n de r s t a n d i f f e r e n t   c ha r a c t e r i s t i c s   o f   t h e   S pa m b a s e   da t a s e t   [ 20 ],   [2 1 ] .   E D A   h e l ps   i u nde r s t a n d i n g   t h e   di s c r e pa n c i e s   b e t w e e n   s p a m   a nd  n o n - s pa m   e m a i l s   a s   w e l l   a s   i f i n di ng  o ut l i e r s   t h a t   m i g ht   a f f e c t   a l go ri t hm   pe r f o r m a n c e .   I a dd i t i o n,   E D A   h e l ps   i n   c h o o s i n t h e   ri g h t   f e a t u r e s   a nd  h o w   t o   t r e a t   da t a   (us e   o f   m o r e   r o b us t   a l go r i t h m s   f o r   O ut l i e r s / un b a l a n c e d a t a ).   T h e   E D A   r e s ul t s   c l e a r l y   s t a t e t ha t   t h e   n o   m i s s i n g   v a l ue s   i n   t h e   S p a m b a s e   d a t a s e t   s o   w e   di n o t   a ppl y   a n y t h i ng   t o   t h i s .   H a v i n g   s a i d   t ha t ,   t h e r e   a r e   s o m e   o ut l i e r s   p r e s e n t   i t h e   f e a t u r e s   w o r d_f r e q_ge o r ge   a n d   w o r d_f r e q_ r e m o v e   w h i c m i g ht   hu r t   m o de l   pe r f o r m a n c e .   T hi s   c a b e   m i t i g a t e d   w i t t e c hni que s   l i ke   t r i m m i n g ,   o r   us i n s t r o n ge r   a l go ri t hm s   s uc h   a s   RF GB ,   a n d   X G Bo os t .   W o r d_f r e q_y o ur   a nd  c h a r_f r e q_$  a r e   i m po rt a nt   f e a t u r e s   i di s t i n gu i s h i ng  s p a m   a s   t h e y   e xh i b i t   t h e   s t r o n ge s t   po s i t i v e   c o r r e l a t i o w i t t h e   t a r ge t   ( s pa m ) .   B a s e o t h e s e   c o rr e l a t i o n s ,   f e a t u r e   s e l e c t i o c a b e   pe r f o r m e t o   e nh a n c e   m o de l   pe r f o r m a n c e .   A l t h o ug h   t h e   da t a   c o n s i s t s   o f   60. 6%   n o n - s pa m   a n 39. 4%  s pa m ,   t h e   c l a s s   i m b a l a n c e   c a n   b e   m i t i ga t e d   us i n g   S M O T E .   S um m a r y :   t h e   d a t a s e t   i s   n o w   f ul l y   pr e - p r o c e s s e d.   T h e   i m pl e m e nt e p i pe l i n e   de t e c t s   c l a s s   i m b a l a n c e   a n a pp l i e s   S M O T E   t o   ge n e r a t e   s y n t h e t i c   s a m pl e s   a l o ng  t h e   s t a n d a r d   de v i a t i o n,   e n s u ri n g   a   b a l a n c e r e p r e s e n t a t i o o f   s pa m   a n n o n - s p a m   da t a .   A ddi t i o na l l y ,   hi ghl y   c o r r e l a t e d   f e a t ur e s   w i t t h e   t a rge t   v a r i a b l e   s i g n i f i c a n t l y   i n f l ue n c e   m o de l   pr e di c t i o n s ,   m a ki ng  f e a t u r e   s e l e c t i o n   a   c r uc i a l   s t e i n   i m p r o v i n g   c l a s s i f i c a t i o n   a c c ur a c y   a n d   r e duc i n g   n o i s e .     2. 3 .     D ata   p r e p r o c e s s i n g   D a t a   p r e p r o c e s s i n s t e ps   a r e   pe r f o r m e t o   gu a r a nt e e   t h e   qu a l i t y   a n r e l i a b i l i t y   o f   t h e   a n a l y s i s   [2 2 ].   W e   f i r s t   s pl i t   t h e   f e a t u r e s   a n d   t a r ge t s   f r o m   X   w i t h   t h e   i n de pe n de n t   v a r i a b l e s   (f e a t ur e s )   a nd   y   w i t h   t h e   de pe n de nt   v a ri a b l e   ( t a rge t s ),   w h e r e   ' Cl a s s '   i s   t h e   t a r ge t   c o l um n.   T h e n ,   t h e   S M O T E   t e c hni que   i s   a p pl i e t o   c o r r e c t   c l a s s   i m b a l a n c e   b y   ge n e r a t i ng  s y n t h e t i c   s a m pl e s   o f   t h e   m i n o ri t y   c l a s s ,   e n s u r i ng  t h e   m o de l   l e a rn s   e ffe c t i ve l y   f r o m   bo t s pa m   a n d   n o n - s p a m   i n s t a n c e s   [2 3 ].   T h e   r e s a m p l e da t a   i s   t h e n   d i v i de i n t o   t ra i a nd  t e s t   s e t s   us i ng  t h e   t r a i n _t e s t _s p l i t   f un c t i o n,   a l l o c a t i ng  70 f o r   t ra i ni n a n d   30%  f o r   t e s t i n g .   T h e   s t r a t i f i e pa ra m e t e r   i s   us e t o   m a i nt a i n   t h e   o r i g i n a l   c l a s s   di s t r i b ut i o a c r o s s   bo t s e t s ,   w h i c h   i s   c r uc i a l   f o r   p r e v e n t i ng  b i a s e l e a rn i ng  a n d   e n s u r i n g   c o n s i s t e n t   m o de l   e v a l ua t i o n.   A ddi t i o na l l y ,   f e a t ur e   s c a l i ng  a n d   o ut l i e r   r e m o v a l   a r e   pe r f o r m e d   t o   e nha n c e   m o de l   pe r f o r m a n c e   by   r e d uc i n g   t h e   i n f l ue n c e   o f   e xt r e m e   v a l ue s   a n d   i m p r o v i n g   o v e r a l l   c l a s s i f i c a t i o s t a b i l i t y   a nd  ge n e r a l i z a t i o n.   T h e s e   pr e p r o c e s s i n s t e ps   p l a y   a   c ri t i c a l   r o l e   i i m p r o v i n g   c l a s s i f i c a t i o n   a c c ur a c y   a n d   e n s u ri n g   r o b us t   s pa m   de t e c t i o n .   B y   a ddr e s s i n o ut l i e r s   a n c l a s s   i m b a l a n c e ,   t hi s   a pp r o a c h   a l l o w s   m a c h i n e   l e a rn i ng  m o de l s   t ge n e ra l i z e   b e t t e r,   e nha nc e   p r e d i c t i v e   r e l i a b i l i t y ,   a nd   a d a pt   e f f e c t i v e l y   t o   r e a l - w o rl d   s p a m   f i l t e ri ng   c ha l l e nge s   [5 ] .     2. 4 .     M o d e l   t e s ti n g   T h i s   S p a m b a s e   da t a s e t   i s   us e t o   t e s t   a l go r i t hm   m o de l s   by  e xa m i ni n g   di f f e r e n t   c o n d i t i o n s   o f   da t a   i m b a l a n c e   a n o ut l i e r s   s o   t h a t   t h e   pe r f o r m a n c e   e v a l ua t i o n   a n c o m pa ri s o n   o f   a l go ri t hm s   l i ke   RF GB ,   a nd  Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752         Com par i s o o f   r ob us t   m ac h i ne   l e ar ni ng  a l gor i t hm s   o o ut l i e r s   and   …  ( D odo  Z a e na l   A bi di n )   1133   X G Boo s t   c a o b t a i a c c ura t e   a nd   r e l i a b l e   r e s ul t s ,   p r o v i di n g   de e pe i n s i g ht s   i nt o   m o de l   r o b us t n e s s   a n d   c l a s s i f i c a t i o e f fe c t i ve n e s s   a c r o s s   v a r y i n g   da t a   d i s t r i b ut i o n s .   T h i s   w a s   t e s t e i d i f fe r e nt   s c e na r i o s .   S o ,   w i t h o ut   S M O T E   a n d   o ut l i e r s   a r e   us e a s   a   b a s e l i n e   f o r   a l go ri t hm   pe r f o rm a n c e   o t h e   da t a s e t   t ha t   h a s   n o t   b e e n   a l t e r e d.   T h e   s e c o n o n e ,   w i t h o ut   S M O T E   b ut   w i t o ut l i e r s ,   a n a l y z e s   h o w   o ut l i e r s   a f f e c t   a l go r i t hm   pe r f o r m a n c e   i t h e   p r e s e n c e   o f   i m b a l a n c e .   T hi r d ,   w i t h   S M O T E   a n d   w i t h o ut   o ut l i e r s   a s s e s s e s   pe r f o r m a n c e   i m p r o ve m e n t   us i n g   S M O T E   w hi l e   a l s o   a c c o un t i n g   f o r   t h e   p r e s e n c e   o f   o ut l i e r s .   F i n a l l y ,   t h e   w i t S M O T E   a nd   w i t o ut l i e r s   t e s t s .   T h e   a l go ri t hm   o S M O T E   a n d   o ut l i e c us t o m i z e da t a s e t s   a s   a o v e r v i e w   of   w h a t   t h e   a l go r i t hm   i s   go o a t   w h e w o r ki n t o o   c o m pl e x.   T hr o ug h   t h e s e   t e s t s ,   w e   e xpe c t   t o   de t e rm i n e   t h e   pe r f o r m a n c e s   by   w h i c h   i t   f u n c t i o n s   b e s t   a n w ha t   s o m e   of  t h e   b e s t   a pp r o a c h e s   m a y   be   i o r de r   t o   i m p r o v e   i t s   a c c u r a c y   a n r e l i a b i l i t y   a s   a   s pa m   c l a s s i f i c a t i o n   m o de l   [2 4 ],   [2 5 ] .   R e s ul t s   w i l l   a l s o   h e l p   i t h e   s e l e c t i o o f   t h e   b e s t   a l go r i t hm   f o r   s i m i l a d a t a s e t s   l a t e r .     2. 5 .     M o d e l   e v al u ati o n   Co m pa r a t i v e   pe r f o r m a n c e   a s s e s s m e n t   o f   a l go ri t hm i c   m o de l s   l i ke   RF GB ,   a n d   X G B oo s t   i s   e xpe c t e d   t o   gi v e   i n s i g ht s   i nt o   t h e i r   a b i l i t y   i n   s pa m   d a t a   c l a s s i f i c a t i o by   c o n s i de r i n g   a s pe c t s   s uc a s   c l a s s   i m b a l a n c e   a n o ut l i e r   v a ri a b l e s .   H e n c e ,   b o t h   t h e   c o n f us i o n   m a t ri a nd  R O A U a r e   i m po r t a n t   i n   t h i s   c a s e   a s   t h e y   pr o v i de   a   go o u n de r s t a n di ng   o f   t h e   a c c u r a c y   s c o r e   [2 6 ].   I t h e   c o n f us i o m a t ri x ,   c o r r e c t   a nd   i n c o rr e c t   pr e di c t i o n s   a r e   r e p r e s e n t e d   a s   c o unt s   o f   t r ue   po s i t i v e   (T P ) ,   t r ue   n e ga t i v e   (T N ) ,   f a l s e   po s i t i v e   (F P ),   a n d   f a l s e   n e ga t i v e   (F N [26] .   F r o m   t h e s e   v a l ue s   c a l c ul a t i o n   o f   a c c ura c y ,   pr e c i s i o n,   r e c a l l ,   a nd  F 1 - s c o r e   c a n   b e   do n e   w h i c gi v e s   a i de a   a b o ut   t h e   pe r f o r m a n c e   o f   t h e   m o de l   i c l a s s i fy i n s p a m   o n o n - s p a m   m a i l .   O t h e   o t h e h a nd,   R O C   A U C   i n d i c a t e s   h o w   w e l l   a   m o de l   d i s t i ngui s h e s   b e t w e e po s i t i v e   (s pa m )   a n n e ga t i v e   (n o n - s pa m c l a s s e s   a s   t hr e s h o l ds   c h a nge   [2 7 ].   T h e   A U s c o r e   m e a s u r e s   h o w   w e l l   pr e di c t i o n s   a r e   r a nke d,   ra t h e t ha n   t h e i a b s o l ut e   v a l ue s   (w h i c h   i s   a   p rob l e m   w i t i m b a l a n c e d a t a ) .   A s   s uc h ,   a   h i g h e A U v a l ue   i n di c a t e s   b e t t e r   c l a s s i f i c a t i o n   pe r f o r m a n c e .   T hi s   s t udy   c a n   us e   t h e s e   t w o   m e t ri c s   t o   e v a l ua t e   w h i c a l go r i t h m   pe r f o r m s   b e s t   u n de r e a l   c o n di t i o n s   p r o v i di n g   a   de e pe u nde r s t a n d i n g   o f   t h e   e ff e c t i v e n e s s   of  bo t h.   S o ,   t h e s e   o ut c o m e s   w i l l   m a ke   a   f u n d a m e n t a l   g r o u n f o ut i l i z i n m a c hi n e - l e a rni n g   a l go r i t hm s   o s pa m   da t a s e t s   i pa s t   s t ud i e s   a n d   i r e a l - t i m e   c a s e s   w h i c h   c a n   e f f i c i e n t l y   w o r w i t h   s p a m   i de n t i f i c a t i o n   t e c hn i que s   i n   r e s pe c t i v e   s c e n a r i o s .     2. 6 .     Le ar n i n g   m o d e l   2. 6 . 1.     R an d o m   f o r e s t   RF   i s   a e n s e m b l e   l e a rn i ng  a l go r i t h m   t ha t   m e rge s   m u l t i pl e   de c i s i o n   t r e e s ,   us i n g   m a j o r i t y   v o t i n t o   de t e r m i n e   t h e   o ut c o m e   [2 8 ].   It   i s   r e s i l i e n t   t o   o ut l i e r s   due   t o   i t s   b a gg i n g   a pp r o a c h ,   w hi c c r e a t e s   r a ndo m   s ub s e t s   o f   t h e   d a t a ,   t h e r e by   r e duc i n g   t h e   i n f l ue n c e   o f   o ut l i e rs   o t h e   o v e r a l l   m o de l   [2 9 ].   W h e de a l i ng   w i t h   i m b a l a n c e da t a ,   RF   c a b e   o pt i m i z e w i t t e c hni que s   s uc h   a s   S M O T E ,   c l a s s   w e i gh t i n g ,   o t hr e s h o l t u n i n g   t o   b e t t e r   a dd r e s s   t h e   m i n o r i t y   c l a s s .   A ddi t i o n a l l y ,   f e a t ur e   i m po r t a n c e   a na l y s i s   h e l p s   i s e l e c t i n t h e   m o s t   r e l e v a nt   a t t ri b ut e s ,   i m p r o v i n m o de l   i n t e r p r e t a b i l i t y   a n r e d uc i n g   n o i s e .   T h e   c o m b i n a t i o n   o f   t h e s e   t e c hn i que s   e nh a n c e s   c l a s s i f i c a t i o n   pe r f o r m a n c e ,   p a r t i c ul a rl y   i n   s pa m   de t e c t i o n ,   w h e r e   di s t i n gu i s h i ng  b e t w e e n   l e gi t i m a t e   a n d   s pa m   m e s s a ge s   i s   c r uc i a l .   I ge n e r a l ,   RF   i s   a   s t r o n g   a nd  v e r s a t i l e   a l go r i t hm ,   e ff e c t i v e   a t   m a n a g i n g   o ut l i e r s   a n d   c a b e   f ur t h e r   r e f i n e t o   ha n d l e   da t a   i m b a l a n c e   m o r e   e f fe c t i ve l y .     2. 6 . 2.     G r ad i e n t   b o o s ti n g   GB   i s   a e n s e m b l e   m e t h o d   t ha t   c o n s t r uc t s   m o de l s   i n   a   s e que n t i a l   m a nn e t o   r e c t i f y   e a r l i e m i s t a ke s   [ 30 ].   It   i s   n o t   v e r y   r e s i s t a n t   t o   o ut l i e r s ,   a s   s ub s t a nt i a l   e rr o r s   f r o m   t h e s e   o ut l i e r s   c a n   i n f l ue n c e   t h e   s ub s e que n t   t r e e s .   T h i s   i s s ue   c a n   b e   m i t i ga t e by   e m pl oy i n a   m o r e   r o b us t   l o s s   f un c t i o n,   l i ke   H ube r   l o s s ,   o r   by   e l i m i na t i n o ut l i e r s   du r i ng  t h e   d a t a   p r e p r o c e s s i n p ha s e .   F o r   da t a   i m b a l a n c e ,   GB   c a n   b e   o pt i m i z e b y   a dj us t i n g   c l a s s   w e i ght s   o us i n g   r e s a m pl i ng   t e c hni que s   s uc a s   S M O T E   [3 1 ],   [3 2 ] .   T hi s   s t e h e l ps   t o   h a ndl e   m i n o ri t y   c l a s s e s   t o   m a ke   t h e   m o de l   m o r e   a c c ura t e .   O v e ra l l ,   GB   i s   r o b us t ,   b ut   r e qui r e s   c us t o m i z a t i o t ha n dl e   o ut l i e r s   a n d   da t a   i m b a l a n c e .   D e s pi t e   i t s   s e n s i t i v i t y   t o   n o i s y   da t a ,   GB   r e m a i n s   a   po w e r f ul   m e t h o f o r   s pa m   c l a s s i f i c a t i o due   t o   i t s   a b i l i t y   t o   c a pt ur e   c o m pl e pa t t e rn s .   H y pe r pa ra m e t e r   t u ni n g ,   i n c l ud i n l e a rn i ng  ra t e   a dj us t m e nt   a nd  t r e e   de pt r e gul a t i o n,   p l a y s   a   c r uc i a l   r o l e   i i m p r o v i n g   pe r f o r m a n c e .   W h e n   c o m b i n e w i t p r o pe r   p r e pr o c e s s i n a n d   f e a t ur e   s e l e c t i o n,   GB   c a e f f e c t i v e l y   e n ha n c e   c l a s s i f i c a t i o a c c ur a c y   w h i l e   m i t i g a t i n g   t h e   i m pa c t   o f   o ut l i e r s   a n c l a s s   i m b a l a n c e .     2. 6 . 3.     X G B o o s t   W i t o pt i m i z a t i o n s   l i ke   L a n d   L 2   r e gul a r i z a t i o a nd   t re e   pru n i n g ,   X G B oo s t   i s   a   s t r o n g   a n d   e ffe c t i ve   e n s e m b l e   l e a rn i ng   a l go ri t hm   [3 3 ] .   B y   m i n i m i z i n g   o ut l i e i n f l ue n c e   t hr o ug t r e e   p r u ni n g   a n d   r e duc i n g   t h e   i m p a c t   o f   l a rge   e rr o r s   t hr o ug r e gul a r i z a t i o n ,   t h e s e   f e a t u r e s   i n c r e a s e   t h e i r o b us t n e s s   t o   o ut l i e r s   [3 4 ].   X G B oo s t   c a n   b e   us e i n   c o n j u n c t i o n   w i t h   r e s a m p l i n g   m e t h o ds   l i ke   S M O T E   t o   a dd r e s s   d a t a   i m b a l a n c e   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i V o l .   3 9 ,   N o .   2 ,   A ugus t   20 25 :   1 130 - 1 144   1134   by   a l l ow i n c l a s s   w e i ght   a dj us t m e n t s   t ha t   gi v e   m i n o r i t y   c l a s s e s   m o r e   w e i ght .   T hi s   m a ke s   i t   a   us e f ul   a l go ri t hm   f o r   a   v a r i e t y   of   m a c hi n e   l e a rn i ng  a ppl i c a t i o n s   by   i n c r e a s i n p r e di c t i o n   a c c ura c y   o n   unde rr e p r e s e n t e d   c l a s s e s   [3 5 ].   B e y o n ha n d l i n g   o ut l i e r s   a n d   c l a s s   i m b a l a n c e ,   X G B oo s t   e xc e l s   i n   s p a m   de t e c t i o n   due   t o   i t s   a b i l i t y   t o   e ff i c i e n t l y   pr o c e s s   l a rge   da t a s e t s   w h i l e   m a i nt a i n i ng  hi gh  p r e di c t i v e   pe r f o r m a n c e .   It s   GB   m e c ha n i s m   e n s u r e s   t ha t   w e a l e a rn e r s   a r e   s e que nt i a l l y   i m p r o v e d,   r e duc i n m i s c l a s s i f i c a t i o ra t e s .   A d di t i o na l l y ,   t u n i n g   h y pe r pa r a m e t e r s   s uc h   a s   l e a rn i ng  ra t e ,   m a de pt h,   a nd  s ub s a m pl e   ra t i o   f u r t h e r e f i n e s   i t s   e f fe c t i ve n e s s ,   m a k i n g   i t   a   c o m pe t i t i v e   c h o i c e   fo r   s pa m   c l a s s i f i c a t i o n   t a s ks .       3.   R ES U LTS   A N D   D I S C U S S I O N   T h i s   s e c t i o n   p r e s e n t s   t h e   r e s ul t s   a n d   a n a l y s i s   of   h o w   m a c hi n e   l e a rni ng  a l go r i t h m s   pe r f o r m   w h e ha n dl i n g   o ut l i e r s   a nd  i m b a l a n c e s p a m   d a t a .   T h e   s t u dy   foc u s e s   o n   t hr e e   a l go r i t h m s   -   RF GB ,   a nd  X G B o o s t   kn o w n   f o t h e i e f fe c t i ve n e s s   i c l a s s i f i c a t i o t a s ks   u n de r   c ha l l e n g i n g   c o n di t i o n s .   T h e   p r i m a r y   o bj e c t i v e   i s   t o   e v a l ua t e   t h e i r   r o b us t n e s s   i r e a l - w o r l d   s pa m   de t e c t i o s c e na r i o s   a nd   a s s e s s   t h e i s ui t a b i l i t y   fo r   i m p r o v i n c l a s s i f i c a t i o pe r f o r m a n c e .   S pa m   de t e c t i o i s   o f t e n   hi n de r e b y   t h e   i m b a l a n c e d i s t ri b ut i o o f   s pa m   a n d   n o n - s p a m   e m a i l s .   T a dd r e s s   t hi s ,   t h i s   s t udy   a ppl i e s   f o ur   e xpe r i m e n t a l   s c e na r i o s :   ( i w i t h o ut   S M O T E   a n d   o ut l i e r s ,   ( ii w i t h o ut   S M O T E   b ut   w i t h   o ut l i e r s ,   ( i i i )   w i t h   S M O T E   a nd  w i t h o ut   o ut l i e r s ,   a n d   ( iv w i t h   S M O T E   a nd  w i t h   o ut l i e r s .   T h e s e   s c e n a ri o s   p r o v i de   a   c o m pr e h e n s i v e   a s s e s s m e n t   o f   m o de l   b e h a v i o u n de d i f fe r e nt   da t a   c o n d i t i o n s ,   e n s u r i ng  a   t h o r o ug h   e v a l u a t i o n   o f   t h e i s t r e n gt h s   a nd  w e a kn e s s e s   i s pa m   c l a s s i f i c a t i o n.   M o de l   e v a l ua t i o n   i s   c o n d uc t e us i n pe r f o r m a n c e   m e t ri c s   s uc h   a s   a c c ur a c y ,   pr e c i s i o n,   r e c a l l ,     F1 - s c o r e ,   c o n f us i o n   m a t ri x ,   a nd  R O C - A U C.   T h e   c o n f us i o n   m a t r i p r o v i de s   i n s i g ht s   i nt o   c l a s s i f i c a t i o n   e rr o r s ,   w h i l e   R O C - A U m e a s u r e s   t h e   b a l a n c e   b e t w e e n   TP s   a n d   FP s ,   a i d i n g   i t hr e s h o l d   o pt i m i z a t i o n.   By   a na l y z i n t h e s e   m e t r i c s ,   t hi s   s t udy   e xpl o r e s   n o t   o n l y   qua n t i t a t i v e   r e s ul t s   b ut   a l s o   t h e   p ra c t i c a l   i m p l i c a t i o n s   o f   m o de l   pe r f o r m a n c e .   T hi s   c o nt r i b ut e s   t o   t h e   de v e l o pm e n t   o f   m o re   e ffe c t i ve   a n d   r o b us t   s pa m   de t e c t i o s y s t e m s ,   off e r i n i n s i g ht s   i n t o   t h e i r   a pp l i c a b i l i t y   i r e a l - w o r l s e t t i n gs .     3. 1 .     R an d o m   fo r e s m o d e l   e v al u ati o n   r e s u l ts   T h i s   s e c t i o p r e s e nt s   t h e   e v a l ua t i o r e s ul t s   f o r   t h e   RF   m o de l ,   a   ke y   c o m po n e nt   o f   o ur   s t u dy   t h a t   c o m pa r e s   m a c hi n e   l e a rni n g   a l go r i t hm s   r o b us t   t o   o ut l i e r s   a nd  c l a s s   i m b a l a n c e   i s pa m   d a t a .   RF   w a s   s e l e c t e d   due   t o   i t s   p r o v e n   e f fe c t i v e n e s s   i ha n d l i n g   hi g h - di m e n s i o n a l   a nd   c l a s s - i m b a l a n c e d a t a s e t s .   W e   pe r f o r m e d   a   s y s t e m a t i c   e v a l ua t i o a c r o s s   f o ur   t e s t   c o n d i t i o n s :   ( 1 )   w i t h o ut   S M O T E   a n d   o ut l i e r s ,   ( 2)   w i t h o ut   S M O T E   b ut   w i t h   o ut l i e r s ,   ( 3 )   w i t h   S M O T E   a n d   w i t h o ut   o ut l i e r s ,   a n d   ( 4 w i t S M O T E   a nd  w i t h   o ut l i e r s .   E a c h   s c e na r i o   off e r s   i n s i g ht s   i n t o   t h e   m o de l ' s   a d a pt a b i l i t y   a n d   r o b us t n e s s   i f a c i n g   d a t a   c h a l l e n ge s .   T h e   r e s ul t s   w i l l   b e   a na l y z e us i ng  a pp r o p r i a t e   m e t r i c s   t o   a s s e s s   t h e   pe r f o r m a n c e   o f   t h e   RF   m o de l   i s pa m   de t e c t i o n,   s uppo r t i n g   o n go i n g   i m p r o v e m e n t s   i n   s p a m   f i l t e ri n g   s y s t e m s .   T h e   e v a l ua t i o i n c l ude s   a c c ur a c y ,   pr e c i s i o n,   r e c a l l ,   a n d   A U C - R O C.   A   de t a i l e d   s um m a r y   of   t h e   f i n di ngs   i s   p r e s e n t e d   i T a b l e   1 .   T a b l e   1   p r o v i de s   a   pe r f o r m a n c e   c o m pa ri s o n   o f   f o ur   RF   c l a s s i f i e r   s c e na r i o s ,   di s t i n gu i s h e by   t h e   a ppl i c a t i on   o f   S M O T E   a n d   t h e   p r e s e n c e   o f   o ut l i e r s .   A l l   s c e na r i o s   m a i nt a i n e a n   a c c ur a c y   of   0. 96,   de m o n s t r a t i ng  s t r o n g   c l a s s i f i c a t i o n   c a pa b i l i t y ,   s t a b i l i t y ,   a nd  r o b us t n e s s   i h a ndl i ng  i m b a l a n c e d a t a   w hi l e   m i ni m i z i n g   t h e   i m p a c t   o f   o ut l i e r s   o o v e r a l l   m o de l   pe r f o rm a n c e   a n d   p r e di c t i v e   r e l i a b i l i t y .   P r e c i s i o a l s r e m a i n e a t   0 . 96  a c r o s s   a l l   s c e n a ri o s ,   b ut   s c e n a ri o   (w i t h   S M O T E   a n w i t h o ut   o ut l i e r s a c hi e v e t h e   h i g h e s t   r e c a l l   (0 . 97)   a n d   A U C - R O (0. 9920) ,   i n d i c a t i n g   i m p r o v e d   po s i t i v e   c a s e   de t e c t i o n .   Co n v e r s e l y ,   s c e n a r i o   r e c o r de t h e   l o w e s t   A U C - R O (0. 9910 ),   r e i n f o r c i ng  p ri o f i n di ngs   t ha t   o ut l i e r s   c a s l i g h t l y   de gr a de   m o de l   pe r f o r m a n c e .       T a b l e   1 .   I m pa c t   o f   S M O T E   a n d   O ut l i e r s   o RF   Cl a s s i f i c a t i o P e r f o r m a n c e   S c e n a ri o   A c c u ra c y   P re c i s i o n   Re c a l l   F 1   s c o r e   A U C - RO C   Co m p u t a t i o n   t i m e   ( 1 w i t h o u t   S M O T E   a n d   o u t l i e r s   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 9 1 9   0 . 7 7 9 3   s e c o n d s   ( 2 w i t h o u t   S M O T E   b u t   w i t h   o u t l i e r s   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 9 1 1   0 . 9 1 1 6   s e c o n d s   ( 3 w i t h   S M O T E   a n d   w i t h o u t   o u t l i e r s   0 . 9 6   0 . 9 6   0 . 9 7   0 . 9 6   0 . 9 9 2 0   0 . 8 0 2 8   s e c o n d s   ( 4 w i t h   S M O T E   a n d   w i t h   o u t l i e r s   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 9 1 0   0 . 9 0 1 8   s e c o n d s       T o   c o n t e xt u a l i z e   t h e s e   r e s ul t s ,   S o l e i m a n i   [7 ]   r e po r t e d   9 4. 86%   a c c ura c y   f o r   RF   i w e b   s pa m   de t e c t i o n   us i ng  f e a t u r e   s e l e c t i o o t h e   W E B S P A M - U K 20 07  d a t a s e t .   W hi l e   t h e i s t udy   fo c us e o n   f e a t u r e   s e l e c t i o n ,   o ur   r e s e a r c e xa m i n e s   t h e   i m pa c t   o f   S M O T E   a nd  o ut l i e r   h a ndl i n i e m a i l   s p a m   c l a s s i f i c a t i o n .   A l t h o ug a c c ura c y   v a l ue s   a r e   n o t   d i r e c t l y   c o m pa r a b l e   due   t o   di f f e r e n t   da t a s e t s   a nd   p r e p r o c e s s i n m e t h o ds ,   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752         Com par i s o o f   r ob us t   m ac h i ne   l e ar ni ng  a l gor i t hm s   o o ut l i e r s   and   …  ( D odo  Z a e na l   A bi di n )   1135   bo t h   s t udi e s   h i g hl i g h t   RF ’s   e ff e c t i v e n e s s   i n   ha n dl i n i m b a l a n c e da t a .   Co m put a t i o n   t i m e   v a ri e d,   w i t S c e n a r i o   (w i t h o ut   S M O T E   a nd  o ut l i e r s b e i ng  t h e   f a s t e s t   a t   0. 7793  s e c o n ds ,   w hi l e   s c e n a ri o   (w i t h o ut   S M O T E   b ut   w i t o ut l i e r s t o o t h e   l o n ge s t   a t   0. 9116   s e c o n ds .   D e s pi t e   i n c r e a s i n g   c o m put a t i o n   t i m e ,   S M O T E   i m p r o v e r e c a l l   a n A U C - R O C,   j us t i f y i n t h e   t ra de - o ff .   In  c o n c l us i o n ,   a pp l y i n g   S M O T E   w i t h o ut   o ut l i e r s   r e s ul t e i t h e   h i g h e s t   r e c a l l   a n d   A U C - R O C   s c o r e s ,   i m p r o v i n g   t h e   m o de l ' s   a b i l i t y   t o   c l a s s i fy   m i n o ri t y   c l a s s e s .   T hi s   m e t h o i s   h i g hl y   r e c o m m e n de d   f o r   i m b a l a n c e da t a s e t s ,   a nd  e f f e c t i v e   o ut l i e ha n d l i n g   c a f ur t h e r   e nha n c e   p r e di c t i v e   a c c ura c y .   O n go i n m o n i t o ri n o f   pe r f o r m a n c e   m e t ri c s   i s   e s s e n t i a l   f o r   s us t a i ni n m o de l   e ff e c t i v e n e s s .   T h e   pe r f o r m a n c e   e v a l ua t i o o f   t h e   RF   m o de l   i s   s h o w n   i n   F i gu r e   2 .           F i gu r e   2 .   Co m p a r i s o o f   c o n f us i o n   m a t r i c e s   f o r   t h e   RF   m o de l :   i m pa c t   o f   o ut l i e r s   a n d   S M O T E       In  t h e   f i r s t   s c e na r i o ,   t h e   m o de l   s h o w e s t r o ng   pe r f o r m a n c e   w i t 807   TN s ,   3 0   FP s ,   34   FN s ,   a n d   802   TP s ,   i ndi c a t i n e f f e c t i v e   c l a s s i f i c a t i o n   de s pi t e   s o m e   m i s c l a s s i f i c a t i o n   i t h e   po s i t i v e   c l a s s .   T h e   s e c o n s c e n a r i o   s h o w e s i m i l a r   pe r f o r m a n c e   b ut   w i t s l i g h t l y   h i g h e FN s   (3 2)  a n d   FP s   (3 1),   i n di c a t i n g   t h a t   o ut l i e r s   c a a f f e c t   a c c ur a c y .   W i t h   t h e   a ppl i c a t i o n   o f   S M O T E   w i t h o ut   o ut l i e r s ,   t h e   m o de l   c a pt u r e d   m o r e   TN s   (808 b ut   m i s c l a s s i f i e m o r e   po s i t i v e s ,   r e s ul t i n i n   3 FN s .   I t h e   s c e n a ri o   w i t S M O T E   a n o ut l i e r s ,   T N r e m a i n e d   h i g a t   807 ,   w i t 33   FN s ,   i n d i c a t i n b e t t e r   ha n d l i ng  o f   po s i t i v e   c l a s s   pr e di c t i o n s .   O v e r a l l ,   t h e   R F   m o de l   c l a s s i f i e s   e ve n t s   e ff e c t i v e l y ,   a l t h o ug h   t h e   i n t r o duc t i o o f   S M O T E   o f t e n   i n c r e a s e s   FN   r e s ul t s ,   a n o ut l i e r s   a f f e c t   pr e di c t i o n s   by   i nc r e a s i n f a l s e   c l a s s i f i c a t i o n s .   T h e s e   f a c t o r s   c a i n f l ue n c e   o ve r a l l   m o de l   r e l i a b i l i t y   a n d   de c i s i o n - m a ki n g   a c c ura c y .   T o   e v a l ua t e   t h e   pe r f o r m a n c e   o f   t h e   m o de l   a c r o s s   di f f e r e n t   c l a s s e s ,   t h e   r e s ul t s   a r e   p r e s e n t e i F i gu r e   3.   T o   m e a s u r e   t h e   pe r f o r m a n c e   o f   m a c h i n e   l e a rni n g   a l go ri t hm s ,   w e   us e   t h e   R O a nd   A U e v a l ua t i o n   m e t h o ds .   I F i gu r e   3 ,   w e   c a s e e   a   g ra p de pi c t i ng   t h e   f o ur   R O c u r v e s   o f   v a r i o us   RF   m o de l s .   T P   i s   m e a s u r e o t h e   v e r t i c a l   a xi s ,   r e pr e s e nt i ng   t h e   p r o po r t i o of   po s i t i v e   c l a s s e s   a c c u r a t e l y   i de n t i f i e by   t h e   m o de l ,   w hi l e   F P   o n   t h e   h o ri z o n t a l   a x i s   s h o w s   t h e   p r o po rt i o of   n e ga t i v e   c l a s s e s   m i s c l a s s i f i e a s   po s i t i v e .   T h e   r e s ul t s   o n   a l l   c u r v e s   s h o w   a n   A U v a l ue   o f   0. 99 ,   i n di c a t i n g   o ut s t a ndi n g   pe r f o r m a n c e   i di s t i ngui s hi n g   b e t w e e n   po s i t i v e   a n d   n e ga t i v e   c l a s s e s .   A U v a l ue s   c l o s e   t o   s ugge s t   t ha t   t h e   m o de l   p r e di c t s   t h e   c l a s s   w i t h   hi g p r e c i s i o a n d   r o b us t n e s s .   F u rt h e rm o r e ,   a   c o m pa ri s o n   b e t w e e n   m o de l s   s h o w s   s i m i l a pe r f o r m a n c e ,   i ndi c a t i n g   t ha t   t h e   a ddi t i o o f   S M O T E   a nd  t h e   p r e s e n c e   o f   o ut l i e r s   do   n o t   s i g ni f i c a n t l y   i m pa c t   c l a s s i f i c a t i o a b i l i t y   i t h i s   s c e na r i o .   T h e   c o n s i s t e nt l y   h i g A U v a l ue s   a c r o s s   a l l   c o n di t i o n s   hi g hl i g ht   t h e   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i V o l .   3 9 ,   N o .   2 ,   A ugus t   20 25 :   1 130 - 1 144   1136   m o de l ' s   c a pa b i l i t y   t o   ge n e ra l i z e   w e l l   a c r o s s   di f f e r e n t   d a t a   d i s t r i b ut i o n s .   T h e s e   r e s ul t s   r e i n f o r c e   t h e   e ffe c t i ve n e s s   of   t h e   RF   m o de l ,   de m o n s t r a t i ng  i t s   s t r o ng   a da pt a b i l i t y   a n r e l i a b i l i t y   i n   ha n d l i n g   s pa m   c l a s s i f i c a t i o c ha l l e n ge s .           F i gu r e   3 .   P e r f o r m a n c e   e v a l ua t i o o f   t h e   RF   m o de l   us i n g   R O cu r v e   a n A U C       3. 2 .     G r ad i e n b o o s ti n m o d e l   e v al u ati o n   r e s u l ts   T h i s   s e c t i o p r o v i de s   a n   e v a l ua t i o o f   t h e   GB   m o de l ,   w h i c h   s e r v e s   a s   t h e   c e n t ra l   f o c us   i n   c o m pa ri n g   v a r i o us   m a c h i n e   l e a rni n g   a l go ri t hm s   c a pa b l e   o f   e ffe c t i ve l y   m a n a gi n g   o ut l i e r s   a nd  i n t e g ra t i n g   i m b a l a n c e c l a s s   di s t ri b ut i o n s   i s pa m   da t a .   GB   w a s   s e l e c t e fo r   i t s   e xc e pt i o n a l   c a p a c i t y   t o   pr o c e s s   h i g h - di m e n s i o n a l   da t a s e t s   a n t o   a dd r e s s   u n b a l a n c e c l a s s   di s t r i b ut i o n s   t hr o ug h   i t s   i t e r a t i v e   boo s t i n g   a pp r o a c h .   T hi s   t e c hni que   s y s t e m a t i c a l l y   e n ha n c e s   t h e   pe r f o r m a n c e   o f   w e a l e a rn e r s   i s uc c e s s i ve   s t a ge s ,   m a k i n g   t h e   m o de l   e s pe c i a l l y   s ui t e f o r   c o m pl e c l a s s i f i c a t i o n   t a s ks .   A s   a   r e s ul t ,   GB   c o n s i s t e n t l y   e n h a n c e s   p r e di c t i o n   a c c u r a c y   a n pr e c i s i o n,   a da p t i n g   w e l l   t o   t h e   u ni que   c h a ra c t e ri s t i c s   o f   c h a l l e n g i n g   d a t a s e t s .   It s   s t ruc t u r e b o o s t i n g   p r o c e s s   i s   p a r t i c ul a rl y   a dv a n t a ge o us   i s c e n a ri o s   w h e r e   p r e c i s e   c l a s s i f i c a t i o o f   m i n o ri t y   c l a s s e s   i s   c ri t i c a l ,   f ur t h e r e i n f o r c i n g   i t s   r o l e   a s   a   po w e r f ul   t o o l   i s pa m   de t e c t i o n   a n d   o t h e c l a s s i f i c a t i o c ha l l e nge s .   T o   e v a l ua t e   t h e   e f f e c t s   of   S M O T E   a n d   o ut l i e r s   o t h e   c l a s s i f i c a t i o pe r f o r m a n c e   o f   t h e   g ra di e n t - bo os t i n g   m o de l ,   w e   c a rr i e d   o ut   a   s e ri e s   o f   e xp e r i m e nt s .   T h e   r e s ul t s ,   de t a i l e i n   T a b l e   2 ,   p r e s e nt   m e t r i c s   l i ke   A U C - R O a n c o m put a t i o t i m e ,   o ffe r i n g   i n s i g h t s   i nt o   h o w   t h e   a c c ura c y ,   p r e c i s i o n ,   r e c a l l ,   a n d   c o m put a t i o n a l   e ff i c i e n c y   of   t h e   m o de l   a r e   i n f l ue n c e by   o ut l i e r s   a nd   t h e   us e   o f   S M O T E   t o   b a l a n c e   t h e   da t a s e t .   T hi s   a na l y s i s   e m p ha s i z e s   t h e   c ri t i c a l   r o l e   o f   p r e pro c e s s i n m e t h o ds   a n d   c o m put a t i o n a l   f a c t o r s   i e nh a n c i ng  t h e   m o de l ’s   p r e di c t i v e   a c c ura c y   a n d   e ff i c i e n c y .   T a b l e   2   s h o w s   t h e   c o m pa ri s o r e s ul t s   o f   t h e   GB   m o de l   pe r f orm a n c e   i v a r i o us   s c e na r i o s ,   p r e s e n t i n g   ke y   m e t r i c s   s uc h   a s   a c c u r a c y ,   pr e c i s i o n ,   r e c a l l ,   F s c o r e ,   A U C - R O C,   a n c o m put a t i o n   t i m e .   T h e   GB   m o de l   w a s   e v a l ua t e d   a c r o s s   f o ur   s c e na r i o s ,   v a r y i n b a s e d   o S M O T E   a p pl i c a t i o a nd   o ut l i e p r e s e n c e .   A l l   s c e n a r i o s   a c hi e v e s i m i l a a c c ur a c y   l e v e l s   r a ngi ng  f r o m   0 . 94   t o   0. 95 ,   i ndi c a t i n g   c o n s i s t e nt   c l a s s i f i c a t i o n   pe r f o r m a n c e .   P r e c i s i o a nd   r e c a l l   v a l ue s   r e m a i n e s t a b l e   b e t w e e n   0 . 9 a n d   0 . 95,   s h o w i n g   t ha t   t h e   m o de l   e ffe c t i ve l y   pr e di c t e po s i t i v e   c a s e s   w i t h   m i ni m a l   FP s   a nd  ne ga t i v e s .   T h e   F s c o r e   ra n ge b e t w e e n   0. 94   a n d   0. 95 ,   c o n f i r m i n g   a   w e l l - b a l a n c e m o de l .   T h e s e   s t a b l e   m e t r i c s   s ugge s t   t h a t   GB   m a i n t a i n s   h i g c l a s s i f i c a t i o r e l i a b i l i t y   a c r o s s   di f fe r e nt   c o n d i t i o n s .       T a b l e   2 .   I m pa c t   o f   S M O T E   a n d   o ut l i e r s   o n   GB   c l a s s i f i c a t i o pe r f o r m a n c e   S c e n a ri o   A c c u ra c y   P re c i s i o n   Re c a l l   F 1   s c o r e   A U C - RO C   Co m p u t a t i o n   t i m e   (1 w i t h o u t   S M O T E   a n d   o u t l i e r s   0 . 9 5   0 . 9 5   0 . 9 5   0 . 9 5   0 . 9 8 7 0   2 . 6 6 4 1   s e c o n d s   (2 w i t h o u t   S M O T E   b u t   w i t h   o u t l i e r s   0 . 9 4   0 . 9 4   0 . 9 4   0 . 9 4   0 . 9 8 7 6   3 . 1 8 0 1   s e c o n d s   (3 w i t h   S M O T E   a n d   w i t h o u t   o u t l i e r s   0 . 9 5   0 . 9 5   0 . 9 5   0 . 9 5   0 . 9 8 7 4   2 . 2 6 6 0   s e c o n d s   (4 w i t h   S M O T E   a n d   w i t h   o u t l i e r s   0 . 9 5   0 . 9 5   0 . 9 5   0 . 9 5   0 . 9 8 7 6   2 . 1 8 5 6   s e c o n d s     Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752         Com par i s o o f   r ob us t   m ac h i ne   l e ar ni ng  a l gor i t hm s   o o ut l i e r s   and   …  ( D odo  Z a e na l   A bi di n )   1137   T e s t i n g   r e s ul t s   i a l l   s c e na r i o s   y i e l de s t a t i s t i c a l l y   s i m i l a A U C - R O v a l ue s   b e t w e e n   0. 9870   a nd  0. 9876 ,   de m o n s t r a t i ng   t h e   m o de l ’s   s t r o n g   a b i l i t y   t o   d i s t i n g ui s s pa m   f r o m   n o n - s p a m   e m a i l s .   H ow e ve r ,   c o m put a t i o t i m e   v a ri e d,   w i t h   t h e   s c e na r i o   w i t h o ut   S M O T E   a n d   o ut l i e r s   t a ki n g   t h e   l o n ge s t   (3 . 1801   s e c o n ds ),   w h i l e   t h e   s c e n a ri o   w i t h   S M O T E   a nd  o ut l i e r s   r e s ul t e i n   t he   s h o rt e s t   (2 . 1856   s e c o n ds ).   S M O T E   a ppe a r s   t o   i m p a c t   c o m put a t i o n a l   e f f i c i e n c y ,   b ut   f ur t h e r   i n v e s t i ga t i o n   i s   n e e de t o   c o n f i r m   i t s   r o l e   i n   r e duc i n g   p r o c e s s i n t i m e .   O v e r a l l ,   t h e   GB   m o de l   de m o n s t ra t e s   s t r o n g   pe r f o r m a n c e   a c r o s s   a l l   s c e n a ri o s .   T h e   c o m b i n a t i o o S M O T E   a nd   o ut l i e h a ndl i n g   p r o v i de s   t h e   b e s t   e f f i c i e n c y   w hi l e   m a i nt a i n i n g   hi g a c c ura c y ,   p r e c i s i o n,   r e c a l l ,   F s c o r e ,   a nd   A U C - R O C.   T hi s   e v a l ua t i o c o n f i r m s   t h e   rob us t n e s s   a nd   a d a p t a b i l i t y   of   GB   i ha n d l i n g   i m b a l a n c e da t a s e t s   a nd  n o i s y   da t a .   F u t u r e   r e s e a r c c o ul e xpl o r e   i nt e g r a t i n g   f e a t u r e   s e l e c t i o n   w i t h   S M O T E   t o   f ur t h e r   o pt i m i z e   c l a s s i f i c a t i o n   pe r f o r m a n c e   w h i l e   m a i nt a i n i n g   c o m p u t a t i o na l   e f f i c i e n c y .   T h e   pe r f o rm a nc e   e v a l u a t i o o f   t h e   GB   m o de l   i s   p r e s e nt e d   i F i g u r e   4 .           F i gu r e   4 .   Co m p a r i s o o f   c o n f us i o n   m a t r i c e s   f o r   t h e   GB   m o de l :   i m p a c t   o f   o ut l i e r s   a nd  S M O T E       T h e   c o n f us i o n   m a t r i x   i F i gu r e   4   s h o w s   t h e   pe r f o r m a n c e   o f   t h e   G B   a l go r i t h m   a c r o s s   f o ur   s c e n a ri o s .   T h e   t e s t   r e s ul t s   i a l l   s c e n a ri o s   s h o w   hi g h   a c c ura c y   v a l ue s ,   w i t h   n o t i c e a b l e   T N   a nd  T P   v a l ue s ,   s uc a s   802  T N   a nd  78 T P   v a l ue s   i t h e   f i r s t   m a t ri x ,   i ndi c a t i n g   s t r o ng  p r e di c t i v e   a b i l i t y .   W h e n   c o m pa ri n t h e   i m p a c t   o S M O T E ,   t h e   r e s ul t s   a r e   s i m i l a f o G B   w i t S M O T E   a n d   w i t h o ut   o ut l i e r s   a nd   G B   w i t h o ut   S M O T E   a n d   o ut l i e r s ,   i n d i c a t i n g   a   l i m i t e d   e f fe c t   o n   c l a s s i f i c a t i o pe r f o rm a n c e .   H ow e v e r ,   i nt r o duc i n g   o ut l i e r s   i n c r e a s e FP s   a n d   FN s ,   w i t 39   F P   a nd   54   F N   i t h e   G B   w i t h o ut   S M O T E   a nd   o ut l i e r s   s c e n a ri o   hi g hl i g ht i ng   t h e   de t ri m e n t a l   e f fe c t   of   o ut l i e r s .   In  s um m a r y ,   t h e   G B   a l go ri t hm   m a i n t a i n e s t r o n g   pe r f o rm a n c e   i n   s c e na r i o s   w i t h   a nd  w i t h o ut   S M O T E ,   b ut   c a ut i o i s   r e qu i r e i t h e   p r e s e n c e   o f   o ut l i e rs .   T h i s   a n a l y s i s   un de r s c o r e s   t h e   i m po r t a n c e   o e v a l ua t i n g   f a c t o r s   s uc a s   S M O T E   a nd  o ut l i e r s   t o   u n de r s t a n t h e i e f f e c t   o m o de l   pe r f o r m a n c e .   T o   e v a l ua t e   t h e   pe r f o rm a n c e   o f   t h e   m o de l   a c r o s s   di f f e r e n t   c l a s s e s ,   t h e   r e s ul t s   a r e   p r e s e n t e i n   F i gu r e   5 .   T h e   R O c ur v e   fo r   t h e   G B   a l go r i t h m   e v a l ua t e s   i t s   c l a s s i f i c a t i o n   pe r f o r m a n c e   a c r o s s   t h e   f o ur   s c e n a r i o s .   A l l   c ur v e s   s h o w e c o n s i s t e n t   pe r f o r m a n c e ,   w i t a n   i m p r e s s i v e   A U of   0. 99   a c r o s s   a l l   s c e n a ri o s ,   r e ga rdl e s s   o f   t h e   p r e s e n c e   o f   S M O T E   o r   o ut l i e r s .   T h i s   i n d i c a t e s   t ha t   GB   m a i nt a i n s   h i g di s c r i m i na t i v e   a b i l i t y ,   e ff e c t i v e l y   di s t i n gu i s h i ng  b e t w e e n   c l a s s e s ,   w h i l e   r e m a i ni n r o b us t   a g a i n s t   c l a s s   i m b a l a n c e   a n d   v a r i a t i o n s   c a us e d   by   o ut l i e r s .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i V o l .   3 9 ,   N o .   2 ,   A ugus t   20 25 :   1 130 - 1 144   1138   T h e   hi g A U i n d i c a t e s   t ha t   t h e   m o de l   e xc e l s   a t   d i s t i ng ui s h i n g   b e t w e e po s i t i v e   a nd   n e ga t i v e   c l a s s e s .   T h e   G B   m o de l   a l s o   s uc c e s s f ul l y   ke e ps   t h e   FN   ra t e   l ow ,   w h i c i s   c r uc i a l   i s i t ua t i o n s   w h e r e   m i s s i n g   po s i t i v e   i n s t a n c e s   i s   hi g hl y   de t r i m e nt a l .   O v e r a l l ,   t h e   a na l y s i s   u n de r s c o r e s   t h e   s t r o n g   pe r f o r m a n c e   o f   GB   i n   ha n dl i n g   c l a s s   i m b a l a n c e   a nd  o ut l i e r s ,   v a l i d a t i n i t s   r e l i a b i l i t y   fo r   c l a s s i f i c a t i o n   t a s ks   w i t h i t h e   da t a s e t .           F i gu r e   5 .   P e r f o r m a n c e   e v a l ua t i o o f   t h e   GB   m o de l   us i n g   R O c u r v e   a n A U C       3. 3 .     X G B o o s m o d e l   e v al u ati o n   r e s u l ts   T h i s   s e c t i o n   de t a i l s   t h e   e v a l ua t i o r e s ul t s   o f   t h e   X G B oo s t   m o de l ,   f o c us i n o n   i t s   e ff e c t i v e n e s s   i ha n dl i n g   o ut l i e r s   a n m a i n t a i ni n g   c l a s s   c o n t i n u i t y   i s pa m   d a t a .   X G B oo s t   w a s   s e l e c t e fo r   i t s   r o b us t   c a pa b i l i t y   t o   m a n a ge   hi g h - d i m e n s i o n a l   d a t a s e t s   v i a   a e ff i c i e n t   b o os t i ng  a l go r i t hm   a n d   po w e r f ul   r e gul a r i z a t i o n   f e a t u r e s   t h a t   e nh a n c e   a c c u r a c y   a n r e duc e   o ve r f i t t i n g .   I t s   de c i s i o n   t r e e - b a s e f r a m e w o r e n a b l e s   a d a pt i v e   l e a rni n g   f r o m   p a s t   e rr o r s ,   m a ki ng  X G B oos t   pa rt i c ul a r l y   w e l l - s ui t e f o r   t a c kl i n g   c o m pl e c l a s s i f i c a t i o t a s ks .   T o   e v a l ua t e   t h e   i m pa c t   o f   S M O T E   a n d   o ut l i e r s ,   w e   c o n duc t e t h e   e xpe r i m e nt s   s h o w n   i T a b l e   3,   w h i c i n c l ude   m e t ri c s   s uc h   a s   A U C - R O a n d   c o m put a t i o t i m e .   T h e   r e s ul t s   hi g h l i g h t   h o w   o ut l i e r s   a nd  t h e   a ppl i c a t i o n   o f   S M O T E   f o r   b a l a n c i n t h e   d a t a s e t   a f f e c t   a c c ur a c y ,   pr e c i s i o n,   r e c a l l ,   a nd  c o m put a t i o n a l   e ff i c i e n c y .   T hi s   u nde r s c o r e s   t h e   i m po r t a n c e   o f   pr e p r o c e s s i n g   m e t h o ds   i i m p r o v i ng  m o de l   pe r f o r m a n c e .   X G Boo s t   pe r f o r m a n c e   r e m a i n e d   s t a b l e   a c r o s s   f o ur   s c e n a ri o s   (w i t h / w i t h o ut   S M O T E   a n d   o ut l i e r s ) ,   m a i n t a i ni n g   a a c c ura c y ,   p r e c i s i o n ,   r e c a l l ,   a n d   F s c o r e   o f   a p p r o xi m a t e l y   96%.   T hi s   i n d i c a t e s   t h a t   n e i t h e r   S M O T E   n o o ut l i e r s   s i g ni f i c a nt l y   i m pa c t e d   o v e r a l l   c l a s s i f i c a t i o pe r f o r m a n c e   a n d   m o de l   c o n s i s t e n c y .   A U C - R O v a l ue s   r a n ge f r o m   0. 9923  t o   0. 992 8,   w i t a   s l i g ht   i n c r e a s e   w h e n   S M O T E   w a s   a ppl i e d,   c o n f i r m i n g   c o n s i s t e n t   c l a s s   s e pa r a t i o n .   T h e   i m pa c t   o f   S M O T E   a n o ut l i e r s   o n   c o m put a t i o na l   e ff i c i e n c y   w a s   a l s a n a l y z e d.   S c e n a r i o   (S M O T E   w i t h o ut   o ut l i e r s )   h a t h e   f a s t e s t   e xe c ut i o n   t i m e   (0 . 618 4   s e c o n ds ),   w hi l e   s c e n a r i o   4   (o ut l i e r s   i n c l ude d,   n o   S M O T E t o o t h e   l o nge s t   (2 . 2914   s e c o n ds ).   F a y a z   e t   al .   [8]   r e po r t e X G B oo s t   a c h i e v i ng  85 . 59%  a c c ura c y   i n   c l a s s i fy i n g   s p a m   p r o duc t   r e v i e w s   us i n f e a t u r e   s e l e c t i o n   a n d   e n s e m b l e   l e a rni n g .   W h i l e   t h e i s t udy   fo c us e o n   f e a t u r e   s e l e c t i o n ,   o u r   r e s e a r c h   a ppl i e s   S M O T E   a n d   o ut l i e h a ndl i ng  f o r   e m a i l   s pa m   c l a s s i f i c a t i o n.   A s   t h e s e   s t udi e s   us e   di f f e r e n t   da t a s e t s   a n d   pr e p r o c e s s i n t e c hn i que s ,   a c c ur a c y   v a l ue s   a r e   n o t   di r e c t l y   c o m pa r a b l e .   H ow e ve r ,   b o t h   f i n di ngs   i ndi c a t e   X G Boo s t ’s   r o b us t n e s s   i ha n dl i n g   i m b a l a n c e da t a   a c r o s s   di ff e r e n t   do m a i n s .   T h e s e   r e s ul t s   e m p ha s i z e   t h e   i m po r t a n c e   o f   s e l e c t i n g   p r e p r o c e s s i n t e c hn i que s   b a s e o n   d a t a s e t   c h a ra c t e ri s t i c s .   F u t u r e   r e s e a r c s h o ul d   e xpl o r e   h y b r i a pp r o a c h e s   i nt e g r a t i n g   f e a t u r e   s e l e c t i o a nd   c l a s s   b a l a nc i ng   f o f u rt he o p t i m i z a t i o n.   T he   pe r f o rm a n c e   e v a l u a t i o o f   t h e   X G B o o s t   m o de l   i s   p re s e nt e d   i F i gu re   6 .       T a b l e   3 .   I m pa c t   o f   S M O T E   a n d   o ut l i e r s   o n   X G B o os t   c l a s s i f i c a t i o pe r f o r m a n c e   S c e n a ri o   A c c u ra c y   P re c i s i o n   Re c a l l   F 1   s c o r e   A U C - RO C   Co m p u t a t i o n   t i m e   (1 w i t h o u t   S M O T E   a n d   o u t l i e r s   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 9 2 3   1 . 4 2 0 6   s e c o n d s   (2 w i t h o u t   S M O T E   b u t   w i t h   o u t l i e r s   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 9 2 5   2 . 2 9 1 4   s e c o n d s   (3 w i t h   S M O T E   a n d   w i t h o u t   o u t l i e r s   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 9 2 8   0 . 6 1 8 4   s e c o n d s   (4 w i t h   S M O T E   a n d   w i t h   o u t l i e r s   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 6   0 . 9 9 2 8   0 . 7 8 4 0   s e c o n d s   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752         Com par i s o o f   r ob us t   m ac h i ne   l e ar ni ng  a l gor i t hm s   o o ut l i e r s   and   …  ( D odo  Z a e na l   A bi di n )   1139       F i gu r e   6 .   Co m p a r i s o o f   c o n f us i o n   m a t r i c e s   f o r   t h e   X G B o o s t   m o de l :   i m p a c t   o f   o ut l i e r s   a n d   S M O T E       B a s e o t h e   c o m b i n e d   c o n f us i o n   m a t r i x   g r a p f o r   t h e   X G Bo os t   a l go ri t hm ,   t h i s   a na l y s i s   i l l us t r a t e s   t h e   p r e di c t i o n   r e s ul t s   w i t h   a n d   w i t h o ut   t h e   a pp l i c a t i o o f   S M O T E   a n d   t h e   p r e s e n c e   of   o ut l i e r s .   T h e   f i ndi n gs   hi g h l i g ht   v a r i a t i o n s   i m i s c l a s s i f i c a t i o n   ra t e s ,   p a r t i c ul a rl y   i m i n o ri t y   c l a s s e s ,   de m o n s t ra t i n g   h o w   S M O T E   i m p r o v e s   r e c a l l   w h i l e   o ut l i e r s   s l i g h t l y   a ffe c t   o ve r a l l   m o de l   s t a b i l i t y   a n p r e c i s i o n.   I t h e   X G B oo s t   m o de l   w i t h o ut   S M O T E   a nd  o ut l i e r s ,   t h e   m o de l   r e c o r de 806   T P s ,   8 01  TN s ,   36   FP s ,   a n d   30   FN s.   T h e s e   r e s ul t s   r e f l e c t   h i g a c c ura c y   i p r e d i c t i n g   b o t c l a s s e s ,   i ndi c a t i n g   t ha t   t h e   m o de l   e f fe c t i ve l y   di s t i ngui s h e s   b e t w e e n   t h e m   u nde t h e s e   c o n di t i o n s .   W h e n   e v a l ua t i n g   t h e   X G B o os t   m o de l   w i t h o ut   S M O T E   b ut   w i t o ut l i e r s ,   t h e   pe r f o r m a n c e   s h o w e d   808   T P s   a nd   797   T N s .   H ow e ve r ,   t h e   n u m b e o f   F P s   i n c r e a s e t o   40 ,   w h i l e   F N s   s l i g h t l y   de c r e a s e t o   2 8.   T h i s   s ugge s t s   t h a t   w h i l e   t h e   m o de l ' s   a b i l i t y   t o   c o r r e c t l y   i de n t i f y   po s i t i v e   c a s e s   i m p r o v e d,   t h e   p r e s e n c e   of   o ut l i e r s   ha a   m i n o i m pa c t ,   s l i g ht l y   a f fe c t i n g   t h e   o v e r a l l   p r e d i c t i v e   pe r f o r m a n c e .   A f t e r   a pp l y i n S M O T E   t o   t h e   X G B oo s t   m o de l   w i t h o ut   o ut l i e r s ,   t h e   c o un t   o f   T P   s t a y e a t   808 ,   w hi l e   T N   r o s e   t o   803   a n d   F P   d r o ppe d   t o   3 4.   T h i s   r e f l e c t s   a   s i g n i f i c a n t   i m p r o v e m e n t   i c l a s s   b a l a n c e ,   e nha n c i n g   t h e   m o de l ' s   a b i l i t y   t o   pr e di c t   t h e   n e ga t i v e   c l a s s   m o r e   a c c ura t e l y .   A ddi t i o na l l y ,   f o r   t h e   X G B oo s t   m o de l   w i t h   b o t h   S M O T E   a nd  o ut l i e r s ,   t h e   T P   i n c r e a s e s l i g h t l y   t o   810,   T N   re m a i n e d   u n c h a nge a t   80 3,   F P   s t a y e a t   34 ,   a nd  F N   de c r e a s e t o   26 .   T hi s   i ndi c a t e s   t ha t   c o m b i ni n g   S M O T E   w i t o ut l i e r s   i m p r o v e t h e   de t e c t i o n   o f   po s i t i v e   c l a s s e s   w h i l e   p r e s e r v i n g   o v e r a l l   m o de l   pe r f o r m a n c e .   O v e r a l l ,   t h e   a s s e s s m e n t   o f   X G Boo s t   r e v e a l s   c o n s i s t e n t   pe r f orm a n c e   a c r o s s   di f f e r e n t   s c e na r i o s ,   w i t S M O T E   p r o v i ng  e s s e n t i a l   f o r   e ff e c t i v e l y   b a l a n c i n t h e   c l a s s e s .   T h e   i m pa c t   o f   o ut l i e r s   s e e m s   t o   b e   m i ni m a l ,   i n di c a t i n g   t ha t   X G B oo s t   i s   r e s i l i e n t   e n o ugh  t o   m a na ge   n o i s e   i n   t h e   d a t a   w i t h o ut   a   s u b s t a nt i a l   de c l i n e   i a c c ur a c y .   T o   t h o r o ug hl y   e v a l ua t e   t h e   m o de l ' s   pe r f o r m a n c e   a c r o s s   v a r i o us   c l a s s e s ,   t h e   r e s ul t s   a r e   i l l us t ra t e i n   F i gu r e   7 ,   w hi c v i s ua l i z e s   t h e   di s t ri b ut i o n   o f   pr e di c t i o r e s ul t s   a n d   o ffe r s   a ddi t i o na l   i n s i g h t s   i nt o   t h e   m o de l ' s   e ffe c t i ve n e s s .   T h e   c o m b i n e R O c ur v e   a na l y s i s   fo r   t h e   X G B oo s t   a l go r i t hm   s h o w s   t h a t   a l l   m o de l s   pe r f o r m   e xc e pt i o n a l l y   w e l l .   R e ga r d l e s s   o f   w h e t h e S M O T E   i s   a ppl i e o o ut l i e r s   a r e   p r e s e n t ,   e v e r y   m o de l   c o n f i gur a t i o n   a c h i e v e a n   A U of   0. 99,   w h i c h   i s   v e r y   c l os e   t o   t h e   o pt i m a l   v a l ue   o f   1.   T h i s   de m o n s t r a t e s   t h e   m o de l ' s   o ut s t a n d i n c l a s s i f i c a t i o n   c a p a b i l i t y .   T h e r e   i s   n o   s ub s t a nt i a l   di f f e r e n c e   a m o ng  t h e   r e s ul t s   o f   e a c h   m o de l ,   s ugge s t i n g   t ha t   n e i t h e t h e   us e   o f   S M O T E   n o t h e   e xi s t e n c e   o f   o ut l i e r s   s i g n i f i c a nt l y   i m p a c t e t h e   Evaluation Warning : The document was created with Spire.PDF for Python.