I A E S  I n t e r n at i on al  Jou r n al  o f  A r t i f i c i a l  I n t e l l i ge n c e  ( I J - AI )   V ol . 15, N o. 1, F e br ua r y 2026 , pp.  681 ~ 694   I S S N :  2252 - 8938 ,   D O I :  10.11591/ i j a i .v 15 .i 1 .pp 681 - 694          681     Jou r n al  h om e page h t t p : / / i j a i .i ae s c or e .c om   C om p ar i s on   b e t w e e n   e n s e m b l e   an d   l i n e ar   m e t h od s   f or   w e b s i t e   p h i s h i n g   d e t e c t i on       S ab a   H u s s e i n   R as h i d ,   S ab a   A l aa   A b d u l w ah h ab ,   F ar ah   A m e r   A b d u l az i z   D e pa r t m e nt   of   C om pu t e r   S c i e nc e ,   C ol l e ge   of   C om put e r   S c i e nc e   a nd   M a t he m a t i c s ,   T i k r i t   U ni ve r s i t y,   T i k r i t ,   I r a q       A r t i c l e   I n f o     A B S T R A C T   A r t i c l e   h i s t o r y :   R e c e i ve d   O c t  11, 2024   R e vi s e d   J a n 4, 2026   A c c e pt e d   J a n 22, 2026       In   th e   c u rre nt   digi t alized   world,   th e   n o t io n   of   cybersec u ri t y   h as   beco m e   cru cial   in   everyday   life ,   a n d   th e   iss u e   of   privacy   t akes   th e   leadi n g   role   in   th e   t ec hn ological   age n da   of   th e   global   co mmun i t y.   O n e   s u c h   social   e n gi n eeri n g   att ack   th a t   is   c u rre nt ly   prevale nt   is   p h is h i n g,   w h ic h   is   a   co mm o n   t ec hn iq u e   u sed   by   cybercri m i n als   to   i nt ercep t   se n si t ive   da t a.   Despi t e   th e   prese n ce   of   cert ai n   li m i t a t io n s   w h ic h   ca n   res t ric t   i t s   u sef u l n ess,   m ac h i n e   lear n i n g   (ML)   h as   evolved   i nt o   an   i nt eres t i n g   approac h   to   ide nt ify   p h is h i n g   a tt acks .   Clo u d   ML   is   an   effec t ive   sol ut io n   th a t   u ses   clo u d   co m p ut i n g   sol ut io n s   to   crea t e ,   t rai n,   a n d   deploy   m odels   th a t   provide   a   fas t er   a n d   m ore   acc u ra t e   res u l t   as   well   as   s u ppor t   large   da t ase t s.   T h is   paper   co m pares   th e   e n se m ble   m e th od   of   Am azo n   SageMa ker’s   A ut oML   t ool,   A ut oGl u o n,   wi th   th e   li n ear   m e th od   of   SageMa ker’s   lin ear   lear n er   algori thm   for   websi t e   p h is h i n g   de t ec t io n.   Key   fact ors   exa m i n ed   i n cl u de   t rai n i n g   tec hn iq u es,   t rai n i n g   t i m e,   ba t c h   t ra n sfor m   t i m e ,   e n dpoi nt   predic t io n   t i m e,   a n d   m odel   acc u racy .   T h e   res u l t s   de m o n s t ra t e   th a t   w h ile   A ut oGl u o n   o ut perfor m s   li n ear   lear n er   in   t er m s   of   acc u racy   a n d   predict io n   speed ,   li n ear   lear n er   is   fas t er   in   t rai n i n g   a n d   ba t c h   t ra n sfor m   processes.   K e y w or d s :   A ut oG l uon   C l oud M L   E ns e m bl e   m ode l   L i ne a r  l e a r ne r   W e bs i t e  ph i s h i ng   This   is   an   open   access   article   under   the   CC   BY - SA   license .     C or r e s pon di n g   A u t h or :   S a ba   H us s e i n   R a s hi d   D e pa r t m e n t   of   C om put e r   S c i e nc e ,   C ol l e g e   of   C om put e r   S c i e n c e   a nd   M a t he m a t i c s ,   T i kr i t   U ni ve r s i t y     S t r e e t   of   T i kr i t - M os i l ,   Al - Q a di s s i ya h   Q ua r t e r   009642 ,   T i k r i t ,   S a l a he dd i n,   I r a q   E m a i l :   s a ba hus s e i n88@ t u.e du. i q       1.   I N T R O D U C T I O N   W i t h   p r i va c y   as   a   m a j o r   i s s ue ,   c yb e r s e c u r i t y   is   e s s e nt i a l   in   t oda y s   e nv i r onm e nt   [ 1] .   C ybe r c r i m i n a l s   us e   phi s hi ng,   a   w e l l - know n   s oc i a l   e ngi ne e r i ng   a t t a c k,   to   obt a i n   pe r s ona l   i nf or m a t i on   [ 2] ,   as   a t t a c ke r s   u t i l i z e   e - c om m e r c e   w e bs i t e s ,   ba nks ,   a nd   c r e di t   c a r d   c om pa n i e s   as   t he i r   gu i s e s   to   t r i c k   p e opl e   i nt o   s e ndi ng   s e ns i t i ve   da t a   [ 3] .   P hi s h i ng   is   de f i ne d   as   “a   c r i m i na l   m e c ha ni s m   us i ng   bo t h   t e c hn i c a l   s ub t e r f ug e   as   w e l l   as   s oc i a l   e ngi ne e r i ng   f or   s t e a l i ng   pe r s ona l   i de n t i t y   da t a   a nd   f i na nc i a l   a c c oun t   c r e de n t i a l s   of   c ons u m e r s   by     A nt i - P hi s h i ng   W or k i ng   G r oup   ( A P W G ) ,   w i t h   1,003,924   phi s hi ng   a t t a c ks   r e por t e d   gl ob a l l y   in   t he   f i r s t   qua r t e r   of   2025.   N um e r ous   t e c hni que s   w e r e   pu t   f or t h   to   i de n t i f y   a nd   c l a s s i f y   ph i s h i ng   a t t e m pt s ,   s uc h   as   bl a c kl i s t   m e t hod   a nd   he ur i s t i c   a na l ys i s   of   t he   s our c e   c ode .   Y e t ,   t he   he ur i s t i c   a pp r oa c h   is   d i f f i c ul t   to   us e ,   c l a s s i f i e r   de ve l opm e n t   t a ke s   t i m e ,   a nd   t he   bl a c k l i s t   ha s   t r oubl e   i d e nt i f yi ng   i n t e r m i t t e n t   phi s h i ng   s i t e s   [ 4] .   T hr ough   e xa m i n i ng   w e bs i t e   pa t t e r ns   a nd   f e a t ur e s ,   m a c hi ne  l e a r n i ng   ( M L )   is   good   in   i de n t i f yi ng   phi s h i ng   a t t a c ks   a nd   he l ps   di s t i ngui s h   be t w e e n   m a l i c i ous   a nd   t r us t w or t hy   w e bs i t e s .   C om pa r e d   to   c onve nt i ona l   r ul e - ba s e d   a l gor i t hm s ,   it   c oul d   de t e c t   m i no r   phi s hi ng   i ndi c a t or s   s uc h   as   s us p i c i ous   uni f or m   r e s our c e   l o c a t or s   ( U R L s a nd   dom a i n   a ge   w i t h   m o r e   a c c ur a c y.   T he s e   m e t hods   m i ght   be   ha m pe r e d   by   i s s ue s   in   ha nd l i ng   unba l a nc e d   da t a s e t s ,   a d j us t i ng   to   nove l   a t t a c k   s t r a t e gi e s ,   a nd   gua r a n t e e i ng   m ode l   ge n e r a l i z a t i on   a c r os s   m a ny   w e bs i t e s   [ 5] .   To   de ve l op,   t r a i n,   a nd   de p l oy   m ode l s   f o r   f a s t ,   a c c ur a t e   r e s ul t s   a nd   m a na g i ng   huge   da t a ,   c l oud  ML   m a ke s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r t i f   I nt e l l V ol . 15, N o. 1, F e br ua r y 2026 681 - 694   682   a dva nt a ge   of   c l oud  c om put i ng  s e r v i c e s .   T hi s   ki nd   of   s e r vi c e   ha s   num e r ou s   be ne f i t s   i nc l ud i ng   s c a l a b i l i t y,   c os t - e f f e c t i ve ne s s ,   a nd   s i m p l i c i t y   of   us e .   It   m a ke s   us e   of   e ns e m bl e   as   w e l l   as   l i ne a r   ML   t e c hn i que s ,   w hi c h   c om bi ne   s e ve r a l   m od e l s   to   c r e a t e   m or e   r e l i a b l e   pr e d i c t i on   m ode l .   T he   di ve r s i t y   of   m ode l s   is   l e ve r a ge d   by   e ns e m bl e   t e c hn i que s   to   i m p r ove   e r r or   r e duc t i on   as   w e l l   as   ge ne r a l i z a t i on   ove r   s i ng l e   m od e l s   [ 6] .     A   c l oud   ML   m ode l   c a l l e d   A ut oM L   s t r e a m l i ne s   t he   pr oc e s s   of   c hoos i ng,   c r e a t i ng,   a nd   i m p r ovi ng   ML   m ode l s   a ut o m a t i c a l l y,   m a k i ng   it   e a s i e r   f or   non - e xpe r t s   to   c om p l e t e   a c t i vi t i e s ,   s uc h   as   f e a t ur e   e ngi ne e r i ng,   da t a   pr e p r oc e s s i ng,   hype r p a r a m e t e r   t un i ng,   a l gor i t hm   s e l e c t i on,   a nd   m ode l   e va l ua t i on,   w hi c h   in   t ur n   c ut s   dow n   on   t he   a m ount   of   t i m e   s pe c i a l i s t s   ne e d   to   c ons t r uc t   h i gh - qua l i t y   m ode l s   [ 7 ] .   A m a z on   c r e a t e d   t he   ope n - s ou r c e   A ut oM L   t ool k i t   A ut oG l uon,   w hi c h   is   bui l t   on   P yt hon.   A ut om a t i c   f e a t u r e   da t a   t ype   a na l y s i s ,   l ow   pr e di c t i ve   a t t r i but e   di s c a r di ng,   ha ndl i ng   of   m i s s i ng   va l ue s ,   r a w   da t a   p r e pr oc e s s i ng,   a nd   da t a   s e pa r a t i on   i nt o   t r a i ni ng   a nd   va l i da t i on   s e t s   a r e   a l l   done   by   i t .   W i t h   t he   us e   of   r e pe a t e d   k - f ol d   ba ggi ng   f or   pr e ve n t i ng   ove r f i t t i ng,   it   t r a i ns   a   va r i e t y   of   m od e l s ,   i nc l ud i ng   k - ne a r e s t   ne i ghbo r s   ( KNN ),   e xt r e m e   g r a di e n t   boos t i ng   ( X G B oos t ) ,   r a ndom   f o r e s t s   ( R F ) ,   c a t e gor i c a l   boo s t i ng  ( C a t B oos t ) ,   l i ght   g r a di e n t   boos t i ng  m a c hi ne   ( L i ght G B M ) ,   e xt r e m e l r a ndo m i z e t r e e s   ( E xt r a T r e e s ) a nd  ne u r a l   ne t w or ks   [ 8 ] .   In   c l oud   M L ,   l i ne a r   t e c hni que s   de pi c t   t he   r e l a t i on   b e t w e e n   i npu t   pa r a m e t e r s   a nd   p r e di c t e d   out pu t s   us i ng   a   l i ne a r   f unc t i on.   T hos e   m e t hods   can   ha nd l e   huge   da t a s e t s   as   w e l l   as   r e a l - t i m e   a pp l i c a t i ons   w i t h   hi gh - di m e ns i ona l   da t a   s i nc e   t he y   pr e s um e   t he   t a r ge t   pa r a m e t e r   is   a   l i ne a r   c om b i na t i on   of   i nput   f e a t ur e s   [ 9] .   W i t h   t h e   us e   of   a   l i ne a r   f unc t i on   f or   r e p r e s e n t i ng   i nput   pa r a m e t e r s   as   w e l l   as   t a r ge t   va r i a bl e s   in   da t a s e t s   w i t h   l i ne a r   r e l a t i ons ,   A m a z on   Web   S e r vi c e s   ( A W S )   S a ge M a ke r   pr ovi de s   l i ne a r  l e a r ne r ,   a   s upe r v i s e d   ML   t e c hni que   a ppr op r i a t e   f or   c l a s s i f i c a t i on   a nd   r e gr e s s i on   a ppl i c a t i ons   [ 10] .     A ut oG l uon   a nd   S a ge M a ke r s   l i n e a r  l e a r ne r   ha ve   be e n   e xt e ns i ve l y   s t udi e d   in   t h e   pa s t   f or   a   va r i e t y   of   ML   a ppl i c a t i ons ,   i nc l udi ng   t i m e   s e r i e s   f or e c a s t i ng,   c l a s s i f i c a t i on,   a nd   r e gr e s s i on   [ 11] [ 21] .   Y e t ,   t he r e   is   a   c l e a r   l a c k   of   r e s e a r c h   on   t he   a pp l i c a t i on   of   s uc h   m e t hods   pa r t i c ul a r l y   in   on l i ne   w e bs i t e   ph i s hi ng   de t e c t i on.   H ow e ve r ,   t he   a l gor i t h m s   i nc o r por a t e d   w i t h i n   t he   A ut oG l uon   a r c h i t e c t ur e   ha ve   be e n   s e pa r a t e l y   i nve s t i ga t e d   f or   w e bs i t e   phi s h i ng   de t e c t i on,   e s t a bl i s hi ng   a   r obus t   ba s e l i n e   f or   j us t i f y i ng   t he   c ur r e n t   c om pa r i s on   [ 22] [ 29] .   In   t hi s   s t udy,   A ut oG l uon   is   c om pa r e d   w i t h   l i ne a r  l e a r ne r ,   e m pha s i z i ng   f unda m e nt a l   e l e m e nt s   s u c h   as   t r a i ni ng   t i m e ,   t r a i ni ng   m e t hods ,   e ndpoi n t   pr e di c t i on   t i m e ,   a nd   a c c u r a c y.   M or e ove r ,   a   l a r ge   da t a s e t   of   11,430   pr e pr oc e s s e d   U R L   s a m pl e s   m a i nt a i ne d   on   A m a z on   S i m p l e   S t or a ge   S e r vi c e   ( S 3 )   is   us e d   to   m a ke   t he   t r a de - of f   be t w e e n   a c c ur a c y   a nd   t he   ne e d   f or   s pe e dy,   e f f i c i e n t   pr oc e s s i ng,   w hi c h   a l l ow s   f or   t he   s e l e c t i on   of   one   of   s uc h   m ode l s .   A m a z on   C l oudW a t c h   is   us e d   to   f o l l ow   up   t he   pe r f or m a nc e ,   w hi l e   A m a z on   S a ge M a ke r   is   us e d   to   bui l d,   t r a i n,   a nd   de pl oy   t he   m ode l .   T he   vi r t ua l   r e s our c e s   r e qui r e d   f or   m ode l   de ve l op m e nt   a r e   a c qui r e d   t hr ough   A m a z on   E l a s t i c   C om put e   C l oud   ( E C 2)   i ns t a nc e s .       2.   M E T H O D   T hi s   s t udy   e xhi bi t s   a   c om pa r i s on   of   t w o   A W S   S a ge M a ke r   f r a m e w or ks   de s i gne d   to   de t e c t   w e bs i t e   phi s hi ng   by   e m p l oyi ng   t w o   di s s i m i l a r   ye t   c om pl e m e n t a r y   ML   c onc e pt s   w i t hi n   t he   S a ge M a k e r   c l oud   pl a t f o r m .   T he   p r oc e s s   is   c o m pr i s e d   of   t he   s ubs e que n t   s t a ge s :   i n   t h e   f i r s t   s t a ge ,   t he   A W S   S a ge M a ke r   s e t t i ngs   w a s   c onf i gu r e d   a nd   s e t   a c c or d i ng   to   t h e   r e qu i r e m e nt s   of   t he   pr opos e d   m ode l ,   in   t he   s e c ond   s t a ge ,   t he   da t a s e t   w a s   dow nl oa de d   f r om   t he   s our c e ,   m a nua l l y   c onf i gur e d,   a nd   upl oa d e d   to   t he   S3   buc ke t   f o r   f ur t he r   pr oc e s s i ng,   t he   t h i r d   s t a g e   i nvol ve d   da t a s e t   p r e pr oc e s s i ng,   w hi c h   w a s   c onduc t e d   us i ng   a   S a ge M a ke r   P y t hon   S c r i pt   s pe c i f i c a l l y   w r i t t e n   f o r   t h e   da t a s e t   a nd   i nt e g r a t e d   in   t he   no t e book,   t he   r e s ul t s   of   t hi s   s t a g e   w a s   s a ve d   i nt o   S 3.   In   t he   f our t h   s t a ge ,   t he   t r a i ni ng   of   bo t h   A ut oG l uon   a nd   l i ne a r   l e a r ne r   w a s   c onduc t e d   on   t he   pr e pr o c e s s e d   t r a i n i ng   da t a   w he r e   A ut oG l uon   w a s   t r a i ne d   us i ng   a   S a ge M a ke r   P y t hon   S c r i pt ,   c a l l e d   l a t e r   in   t he   not e book,   w hi l e   l i ne a r   l e a r ne r   w a s   di r e c t l y   i n t e gr a t e d   i nt o   t he   no t e book,   t he   t r a i ni ng   t i m e   w a s   r e c or de d   us i ng   A W S   C l oudW a t c h   a nd   t he   r e s ul t s   w e r e   s a v e d   in   t he   S3   buc ke t ,   in   t h e   f i f t h   s t a ge ,   an   of f l i ne   ba t c h   t r a ns f o r m   pr e di c t i on   w a s   c onduc t e d   on   t he   t r a i n i ng   r e s u l t s   to   m e a s u r e   t he   a c c ur a c y   of   t he   m ode l s   a nd   t h e   t i m e   ne e de d   to   obt a i n   t he   r e s ul t s ,   t he   s i xt h   s t a ge   i nc l ude d   t he   de pl oy m e nt   of   t he   p r opos e d   m ode l s   us i ng   t w o   s e pa r a t e   s i ngl e - m ode l   e ndpoi n t s   to   m e a s ur e   t he   t i m e   r e qui r e d   f o r   t h e   pr e d i c t i on   to   be   c onduc t e d   in   a   r e a l - t i m e   s c e na r i o.   T he   c onc l ud i ng   pha s e   i nvol ve s   a c qui r i ng   t he   e ndpo i nt   p r e di c t i on   r e s ul t s   a nd   e v a l ua t i ng   t he m   a ga i ns t   t he   t r a i n i ng   a nd   ba t c h   t r a n s f or m   out c o m e s .     S i x   e va l ua t i on   m e t r i c s   a r e   us e d   in   t h i s   s t udy :   a c c ur a c s c o r e ,   pr e c i s i on ,   F1 - s c or e ,   r e c a l l ,   a nd   r e c e i ve r   ope r a t i ng  c ha r a c t e r i s t i c   ( R O C ) .   It   a i m s   to   c om pa r e   t he   pe r f or m a nc e   of   t he   ba gg i ng   e ns e m bl e   s t r a t e gy   of   A W S   S a ge M a ke r   A ut oG l uon   w i t h   t he   s i m p l e   l i ne a r   s t r a t e gy   of   A W S   l i ne a r  l e a r ne r   to   gi ve   s om e   i de a   on   t he   t r a de - of f   be t w e e n   t he   a ut o m a t i on - ba s e d   e n s e m b l e   s c he m e   a nd   t h e   t r a d i t i ona l   l i ne a r   m od e l   in   phi s hi ng   de t e c t i on   s e t t i ng.   T he   a na l ys i s   f oc u s e s   on   f our   f und a m e n t a l   a s pe c t s ,   i nc l udi ng   de t e c t i on   a c c ur a c y,   t r a i n i ng   t i m e ,   o f f l i ne   p r e di c t i on   t i m e ,   a nd   on l i ne   i n f e r e nc e   s pe e d.   T he   s y s t e m a t i c   a pp r oa c h   a dopt e d   in   t he   pa pe r   is   p r e s e nt e d   in   a   s y s t e m a t i c   w a y   a nd   is   b r oke n   dow n   i nt o   t he   f ol l ow i ng   s t e ps ,   as   s how n   in   Fi gur e   1 .     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r t i f   I nt e l l     I S S N :   2252 - 8938       C om par i s on be t w e e n e ns e m bl e  and  l i ne ar  m e t hods  f or  w e bs i t e  ph i s hi ng d e t e c t i on   ( Saba H us s e i n R as h i d )   683       F i gur e   1.   T he   ge ne r a l   f l ow c ha r t   of   t he   pr opo s e d   m e t hodol ogy       2.1.    E n vi r on m e n t   c on f i gu r a t i on     T he   e xpe r i m e nt   de t a i l e d   in   t hi s   pa pe r   w a s   e xe c ut e d   us i ng   a   l a pt op   w i t h   an   I nt e l   C or e   i5 - 10210U   C P U   at   1.60   G H z ,   8   GB   of   R A M ,   a nd   t he   W i ndow s   11   H om e   E di t i on   ope r a t i ng   s ys t e m .   T he   A W S   S a ge M a ke r   S t udi o   pl a t f or m   w a s   e m pl oye d   to   c r e a t e   a nd   r un   P yt hon   c ode s   in   J upyt e r   N ot e book   e nvi r on m e nt .   S3   f a c i l i t a t e d   t he   s t o r a ge   a nd   r e t r i e va l   of   a l l   e xpe r i m e n t a l   a r t i f a c t s ,   w hi l e   t he   m l .m 4.xl a r ge   vi r t ua l   i ns t a nc e   t ype   f r o m   E C 2   pr ov i de d   f ou r   vi r t ua l   C P U s ,   16   GB   of   vi r t ua l   m e m or y,   a nd   h i gh - pe r f or m a nc e   n e t w or ki ng   f or   a   64 - bi t   ope r a t i ng   s ys t e m .   A W S   C l oudW a t c h   w a s   u t i l i z e d   to   m oni t or   t he   pe r f o r m a nc e   of   t he   S a ge M a ke r   m ode l   a nd   to   l og   t h e   pr oc e s s i ng,   t r a i n i ng,   a nd   pr e d i c t i on   dur a t i ons .     2.2.    D at as e t   c on f i gu r a t i on   T he   Web   pa ge  phi s hi ng de t e c t i on   da t a s e t   ut i l i z e d   in   t h i s   w or k   is   a va i l a b l e   on   M e nde l e y   da t a   [ 30] .   It   ha s   87   f e a t ur e s   a nd   11,430   U R L s .   To   i nc r e a s e   a c c ur a c y   a nd   g a i n   a   de e pe r   unde r s t a nd i ng   of   t he   da t a s e t s   be ha vi or ,   t he   87   c h a r a c t e r i s t i c s   in   t he   da t a s e t   a r e   c l a s s i f i e d   as   s e e n   in   F i gur e   2:   56   f e a t ur e s   de r i ve d   f r om   U R L   s ynt a x;   24   f e a t u r e s   r e s ul t i ng   f r om   t he   c ont e n t   of   w e bs i t e s ;   a nd   7   f e a t ur e s   obt a i ne d   f r o m   w e bs i t e   s e r v i c e s .     2.3.  D at as e t  p r e p r oc e s s i n g   A f t e r   a na l yz i ng  t he   da t a s e t   f or   t hi s   w or k,  i t   ha s   be e c onc l ude t ha t   i t   i s   ba l a nc e d,  w i t h     5,715  s a m pl e s   of   l e g i t i m a t e   U R L s   a nd  5,715  e xa m p l e s   o f   phi s hi ng  U R L s a l l   of   w hi c ha no  m i s s i ng   va l ue s T he r e   i s   no  ne e d   f or   a e a r l i e r   pr e pr oc e s s i ng   s t e a s   A ut oG l uon  c oul d   pr e p r oc e s s   t he   d a t a .   H ow e ve r t he   pur pos e   of   t h i s   s t e i s   t p r e pr oc e s s   t he   da t a   be f or e   t r a i ni ng  i l i ne a r   l e a r n e r A s   a   r e s ul t t he   pr e pr oc e s s i ng  s c r i p t i nt e gr a t e a s   a   S a ge M a ke r   S t ud i P yt hon  S c r i pt ,   i s  r e duc e t o t he   f o l l ow i ng f i ve   s t e ps ,   w hi c a r e   s how i F i gur e   3.  T o   r e duc e   dupl i c a t i on  a nd  a ny  de t r i m e n t a l   e f f e c t s   on  m ode l   pe r f or m a nc e ,   hi ghl c or r e l a t e f e a t u r e s   w e r e   f i r s t   e xc l ude f r o m   t he   f e a t ur e   s e l e c t i on  pr oc e s s   w i t t he   us e   of   P e a r s on   c or r e l a t i on. T hr e e  f e a t ur e s  w e r e  r e m ov e d be c a us e   t he i r  c or r e l a t i on r a t e s  w e r e  h i ghe r   t ha n 90% . S ubs e que n t l y,   t i m pr ov e   m ode l   pe r f or m a nc e   t h r ough  l ow e r i ng  no i s e f e a t ur e   r e duc t i on  w a s   c a r r i e out   by  r e m ov i ng  t he   nom i na l   f e a t ur e   U R L ,”   w hi c r e pr e s e nt e t he   na m e s   of   t he   da t a s e t s   U R L s L a be l   e nc odi ng  w a s   us e t o   t r a ns f o r m   c a t e gor i c a l   l a be l   va l ue s   i nt nu m e r i c   va l ue s e ns u r i ng  c o m pa t i bi l i t w i t M L   t e c hni que s T he   e nc ode s t a t us   f e a t ur e ,   w hi c de no t e s   da t a s e t   c l a s s i f i c a t i ons ha s   phi s h i ng”   a s s i gn e t o   one   ( 1 )   a nd   l e gi t i m a t e   s e t   t o   z e r o   ( 0 ) A ddi t i ona l l y,  f e a t u r e   s c a l i ng  w a s   c a r r i e ou t   t r e c onf i gur e   da t a   w i t h i a   gi ve n   r a nge of t e 0 t 1,  us i ng  P y t hon' s   M i nM a xS c a l e r ( ) B t a ki ng t hi s   s t e p,  f e a t ur e s   w i t va l ue s   be t w e e a nd   100  a r e   no t   a l l ow e d t do m i na t e  t he   o t he r   f e a t ur e s .   F ol l ow i ng t ha t ,   a   70 : 30  r a t i o   w a s   us e d   t o   s pl i t   t he   da t a s e t   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r t i f   I nt e l l V ol . 15, N o. 1, F e br ua r y 2026 681 - 694   684   i nt t r a i ni ng  a s   w e l l   a s   t e s t i ng  s e t s w i t 30 %   ( 3,425  s a m p l e s )   a nd  70%   ( 8,001  s a m pl e s )   go i ng  t e a c s e t .   F i na l l y, S 3 w a s  us e t o upl oa d bo t h s e t s  f o r  a ddi t i ona l  pr oc e s s i ng.           F i gur e  2. A na l ys i s  of   t he  da t a s e t  us e d i n t h e  pr opos e m e t hodo l ogy           F i gur e   3.   S t e ps   of   da t a   p r e pr oc e s s i ng   s t e p   of   t he   pr opo s e d   m e t hodol ogy   56 24 7 f e a t ur e s  de r i ve d f r om  t he  s ynt a x of  t he U ni f or m  R e s our c e  L oc a t or s  ( U R L ) f e a t ur e s  de r i ve d f r om  t he  c ont e nt  of t he  w e bs i t e s f e a t ur e s  de r i ve d f r om  t he  s e r vi c e s a s s oc i a t e d w i t h t he  w e bs i t e s Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r t i f   I nt e l l     I S S N :   2252 - 8938       C om par i s on be t w e e n e ns e m bl e  and  l i ne ar  m e t hods  f or  w e bs i t e  ph i s hi ng d e t e c t i on   ( Saba H us s e i n R as h i d )   685   2.4.     T r ai n i n g   To   a s c e r t a i n   t h e   opt i m a l   a ppr oa c h   f or   m a na gi ng   l a r g e   da t a s e t s   in   pr a c t i c a l   a pp l i c a t i on s ,   t he   t r a i ni ng   s t a ge   c on t r a s t s   S a ge M a ke r s   e n s e m b l e   m e t hod   w i t h   t he   l i ne a r   m e t hod.   T w o   a l gor i t hm s ,   A ut oM L   A ut oG l uon   a nd   l i ne a r   l e a r ne r a r e   e m p l oye t t r a i a nd  a s s e s s   t he   pr opo s e m ode l L i ne a r   l e a r ne r   w a s   i nvoke d   in   t he   S a ge M a ke r   no t e book   v i a   s pe c i f i c   c ode ,   as   it   is   i nt e g r a t e d   w i t h i n   t he   S a ge M a ke r   S t ud i o   N ot e book   a r c hi t e c t u r e ,   w hi l e   A ut oG l uon’ s   c ode   ne e de d   a dd i t i ona l ,   s e p a r a t e   P yt hon   S c r i pt s   to   c onf i gu r e   t he   t r a i ni ng   a nd   i nf e r e nc e   hype r pa r a m e t e r s .     2.4.1.   A u t oG l u on   A ut oG l uon   can   be   de f i ne d   as   an   ope n - s our c e   A ut oM L   f r a m e w or k   de ve l ope d   by   A W S   w hi c h   a ut om a t e s   t he   c ons t r uc t i on   of   e x a c t   ML   m ode l s   w i t h   m i ni m a l   m a nua l   e f f or t   [ 31] .   T he   f r a m e w or k   s i m p l i f i e s   c om pl i c a t e d   p r oc e dur e s   s uc h   as   m od e l   s e l e c t i on,   hype r pa r a m e t e r   t uni ng,   a nd   f e a t u r e   e ngi ne e r i ng,   m a ki ng   t he m   a va i l a b l e   f or   e xpe r t s   a nd   non - e xpe r t s ,   i m p r ovi ng   a c c u r a c y   by   m e r gi ng   di f f e r e nt   m ode l s   a nd   m e t hods   a nd   t hus   m a k i ng   it   us e f u l   f or   t a bul a r   da t a   a ppl i c a t i ons   s u c h   as   c l a s s i f i c a t i on   [ 32 ] .   A ut oG l uon   op e r a t e s   w i t hi n   P yt hon   S c r i pt s   to   ge ne r a t e   r e l i a bl e   pr e di c t i on   m od e l s   w i t h   m i n i m a l   hum a n   i nput ,   as   it   us e s   ba ggi ng   t e c hni que s   to   m i ni m i z e   va r i a t i on   a nd   e nh a nc e   s t a bi l i t y,   by   t r a i ni ng   m u l t i pl e   m ode l s   on   r a ndom   d a t a ,   a nd   m a ke   pr e d i c t i ons   ba s e d   on   m a j or i t y   vo t e s   [ 33 ] .   A ut oG l uon   a l s o   a ut o m a t e s   hype r pa r a m e t e r   t uni ng   by   us i ng   r a ndom   s e a r c h   a l gor i t hm s ,   as   s how n   in   T a bl e   1.   A f t e r   t r a i ni ng,   it   a n a l yz e s   m ode l s   vi a   c r os s - va l i da t i on   a nd   a ggr e ga t e s   t he   be s t   pe r f o r m e r s   f o r   r e l i a b l e   p r e di c t i ons   [ 34] .   F o r   t h i s   pa pe r ,   A ut oG l uon   w a s   c hos e n   due   to   its   a bi l i t y   to   a ut om a t e   m a j or   opt i m i z a t i on   pr oc e s s e s   by   ut i l i z i ng   t he   c om b i na t i on   di s t r i bu t e d   t r a i ni ng   a m ong   m ul t i pl e   d i ve r s e   l e a r ne r s   w i t h i n   i t s   a r c hi t e c t ur e   e nha nc e s   t he   r obus t ne s s   a nd   ge ne r a l i z a t i on   of   t he   m ode l ,   e na bl i ng   r a pi d   de p l oym e n t ,   a nd   m a k i ng   it   pr e f e r a bl e   f or   r e a l - w or l d   a pp l i c a t i ons .   A ut oG l uon   u t i l i z e s   t he   ba ggi ng   a ppr oa c h   to   e nha nc e   t he   pe r f or m a n c e   a nd   s t r e ngt h   of   ML   a l go r i t hm s   as   de pi c t e d   in   f ol l ow i ng   s t e ps :     i)   B a s e   m ode l s   ( l e ve l   1)     A ut oG l uon   t r a i n s   a   s e t   of   ba s e   m od e l s   us i ng   a l go r i t hm s   l i ke   L i gh t G B M ,   C a t B oos t ,   RF ,   E xt r a T r e e s ,   X G B oos t ,   KNN ,   a nd   ne ur a l   ne t w or ks   ( F a s t A I ) .       B a ggi ng   is   a ppl i e d   as   a   f or m   of   c r o s s   va l i da t i on,   w he r e :   a)   T he   t r a i ni ng   da t a   is   di vi de d   i n t o   s e ve r a l   boot s t r a pp e d   s a m pl e s   ( t hi s   r e s e a r c h   us e d   f i ve   r a ndom   s ubs e t s ) .   b)   E a c h   ba s e   m ode l   is   t r a i ne d   on   a   d i s s i m i l a r   s e t   of   da t a ,   e na bl i ng   t he   m ode l   e ns e m bl e   to   l e a r n   us i ng   s l i ght l y   di s s i m i l a r   da t a   d i s t r i bu t i on.   c)   T he   pr oc e s s   ge ne r a t e s   s e ve r a l   va r i a t i ons   of   t he   s a m e   ba s e   m ode l ,   a nd   each   one   of   t he m   r e f l e c t s   d i s t i nc t   f e a t u r e   a s s o c i a t i ons   a nd   m i n i m i z e s   va r i a nc e   in   t he   f i na l   pr e d i c t i on.   E a c h   t r a i ne d   m ode l   t he n   ge ne r a t e s   pr e di c t i on s   ba s e d   on   t he   pa t t e r ns   l e a r n e d   f r o m   i t s   r e s pe c t i ve   da t a   s ubs e t ,   a nd   t he i r   ou t put s   a r e   l a t e r   c o m bi ne d   to   f o r m   a   r obu s t   e ns e m bl e   pr e d i c t i on.   ii)   F i r s t - l a ye r  pr e d i c t i ons     O nc e   t r a i ne d,   t he   ba s e   m ode l s   m a ke   p r e di c t i ons   on   a   v a l i d a t i on   s e t   of   t he   t r a i ni ng   da t a .     T he s e   pr e di c t i ons   a r e   r e f e r r e d   to   as   f i r s t - l a ye r   pr e d i c t i ons   a nd   s e r ve   as   i nput   f e a t ur e s   f or   t he   s e c ond   l a ye r   of   m ode l s .   i i i )   S t a c ki ng   ( l e ve l   2)     M e t a - m ode l s ,   or   l e v e l   2   m od e l s ,   a r e   c r e a t e d   us i ng   t he   f i r s t - l a ye r   p r e di c t i on s   as   i npu t .     In   s t a c ki ng,   a   m e t a - m ode l   is   t r a i ne d   to   c om b i ne   t h e   out put s   f r o m   l e ve l   1   m ode l s .     T hi s   m e t a - m ode l   l e a r ns   to   w e i gh   t he   pr e d i c t i ons   f r om   di f f e r e nt   ba s e   m ode l s   to   m i ni m i z e   pr e di c t i on   e r r or s .   i v)   W e i ght e d   e n s e m b l e   ( l e ve l   2   m ode l )     T he   w e i ght e d   e ns e m bl e   m ode l   r e pr e s e n t s   t he   m e t a - m ode l   c om b i ni ng   pr e di c t i on s   f r om   l e ve l   1   m ode l s   w i t h   t he   us e   of   a   w e i gh t e d   a ve r a g e .     W e i ght s   a r e   ba s e d   upon   pe r f o r m a nc e   of   e ve r y   one   of   t he   ba s e   m ode l s   t hr oughou t   t he   t r a i ni ng be t t e r - pe r f or m i ng   m od e l s   ha v e   be e n   a s s i gne d   h i ghe r   w e i gh t   va l ue s ,   w hi l e   poor e r   one s   r e c e i ve d   l ow e r   w e i ght s .     T hi s   t e c hn i que   r e s ul t s   in   t he   i m pr ove m e nt   of   t he   ov e r a l l   a c c ur a c y   of   pr e di c t i on   by   gi v i ng   a   h i ghe r   l e ve l   of   i m po r t a nc e   to   t h e   s t r onge r   m od e l s .   T hos e   s t e ps   ha v e   be e n   i l l us t r a t e d   in   F i gur e   4.       T a bl e   1 .   H ype r pa r a m e t e r s   of   A ut oG l uon   H ype r pa r a m e t e r   V a l ue   P ur pos e   a nd   e f f e c t   num _ba g_f ol d s   5   S pe c i f i e s   t he   num be r   of   f ol d s   f or   k - f ol d   ba ggi ng   to   r e d uc e   ove r f i t t i ng.   num _ba g_s e t s   1   i nd i c a t e s   t he   num be r   of   c om pl e t e   ba ggi ng   r ound s .   num _s t a c k_l e ve l s   0   D i s a bl e s   a d d i t i ona l   s t a c ki ng   l a ye r s   to   s hor t e n   t r a i ni ng   t i m e .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r t i f   I nt e l l V ol . 15, N o. 1, F e br ua r y 2026 681 - 694   686       F i gur e   4 .   S t e ps   of   A ut oG l uon   t r a i n i ng       2.4.2.   L i n e ar   l e ar n e r   T he   t e c hni que   of   l i ne a r   c l a s s i f i c a t i on   in   A m a z on   S a ge M a ke r   can   be   de s c r i be d   as   s upe r v i s e d   l e a r ni ng   a ppr o a c h   t ha t   ha s   be e n   de s i gne d   f o r   t he   e nha nc e m e n t   of   bi na r y   c l a s s i f i c a t i on   t a s k s .   It   bui l ds   a   l i ne a r   de c i s i on   bounda r y,   w hi c h   is   e xh i bi t e d   as   hype r p l a ne ,   f or   t he   pur pos e   of   s e pa r a t i ng   t h e   da t a   poi n t s   of   di f f e r e nt   c l a s s e s   by   t he   a s s i gn m e nt   a nd   op t i m i z a t i on   of   t h e   f e a t u r e   w e i ght s   f or   c l a s s   di s s oc i a t i on   [ 35 ] .   T he   m ode l   c ont i nuous l y   a dj us t s   t hos e   w e i gh t   va l ue s   t h r oughout   t he   t r a i ni ng   f or   m i ni m i z i ng   e r r o r s   a nd   i m p r ovi ng   a c c ur a c y.   T hi s   t e c hn i que   is   a ppr e c i a t e d   s i nc e   it   is   s c a l a bl e ,   c om pu t a t i ona l l y   e f f i c i e n t ,   a nd   i nt e r pr e t a bl e ,   w hi c h   m a ke s   it   s ui t a bl e   f or   l a r ge - s c a l e   a ppl i c a t i ons   [ 36 ] .   A c c or d i ng   to   T a bl e   2,   w hi c h   pr e s e nt e d   t he   hype r pa r a m e t e r s   us e d   f or   t h e   a l gor i t hm ,   S a ge M a ke r s   l i ne a r   l e a r ne r   e m p l oys   t he   s t oc ha s t i c   gr a d i e nt   de s c e nt   ( S G D )   f or   t he   pur pos e   of   ha ndl i ng   l a r ge   da t a s e t s .   It   ut i l i z e s   a ut o m a t i c   f e a t ur e   s c a l i ng   f or   nor m a l i z i ng   f e a t ur e s   of   di f f e r e nt   s c a l e s   a nd   r e gul a r i z i ng   t he   t e c hn i que s   f o r   ove r f i t t i ng   pr e ve n t i on.   S G D   opt i m i z e s   t he   m ode l   t hr ough   t he   a d j us t m e nt   of   w e i ght   va l ue s   in   e r r or   di r e c t i on,   gui d e d   by   t he   g r a di e n t   of   l os s   f unc t i on.   T he   l e a r ni ng   r a t e   r e gul a t e s   t h e   s i z e   of   t hos e   a d j us t m e nt s ,   w hi c h   l e a ds   to   ba l a nc i ng   t he   s t a bi l i t y   of   t he   m ode l   a nd   s pe e d   of   c onve r ge nc e .   T he   pr oc e s s   of   t r a i n i ng   c ont i nue s   to   t h e   poi nt   w he r e   m i ni m a l   i m pr ov e m e n t s   a r e   a c hi e ve d,   or   a   s e t   nu m be r   of   i t e r a t i ons   a r e   c om pl e t e d   [ 37 ] .   T he   S a ge M a ke r   i nt e gr a t e d   a l go r i t h m   w a s   c hos e n   f or   c om pa r i s on   a ga i n s t   A ut oG l uon   in   t hi s   pa pe r   be c a us e   of   i t s   c a pa bi l i t y   of   ha ndl i ng   l a r ge   da t a s e t s   e f f e c t i ve l y,   of f e r i ng   a   f a s t   t r a i ni ng   a nd   i nf e r e nc e   t i m e ,   w i t h   e a s y   i nt e r pr e t a bi l i t y ,   bui l t - in   r e gul a r i z a t i on   to   r e duc e   ove r f i t t i ng,   a nd   l ow e r   c ons u m pt i on   of   c l oud   r e s ou r c e s ,   w hi c h   g i ve s   it   t h e   be ne f i t   of   f a s t   de pl oy m e nt ,   m a ki ng   it   s u i t a b l e   f or   t i m e - s e ns i t i ve   phi s hi ng   de t e c t i on   s ys t e m s .   A   br e a kdow n   of   t he   pr oc e s s   t ha t   is   i nvol ve d   in   t he   t r a i n i ng   of   a   l i ne a r  l e a r ne r   m ode l   in   A m a z on   S a ge M a k e r   ha s   be e n   d e pi c t e d   in   F i gu r e   5 .     O bj e c t i ve   f unc t i on a nd r e gu l a r i z a t i on   i)   O bj e c t i ve   f unc t i on :  l i ne a r  l e a r ne r   us e s   an   obj e c t i v e   f unc t i on   to   m e a s ur e   t he   e r r or   be t w e e n   pr e di c t e d   a nd   a c t ua l   l a be l s .   F or   bi na r y   c l a s s i f i c a t i on,   l ogi s t i c   r e gr e s s i on   is   e m pl oye d,   e s t i m a t i ng   t he   pr oba bi l i t y   t ha t   an   i nput   be l ongs   to   a   s pe c i f i c   c l a s s .     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r t i f   I nt e l l     I S S N :   2252 - 8938       C om par i s on be t w e e n e ns e m bl e  and  l i ne ar  m e t hods  f or  w e bs i t e  ph i s hi ng d e t e c t i on   ( Saba H us s e i n R as h i d )   687   ii)   R e gul a r i z a t i on :     L1   r e gul a r i z a t i on :   e nc our a ge s   s pa r s i t y   in   t he   m ode l   by   s hr i nki ng   w e i gh t s   t ow a r d   z e r o,   w hi c h   s i m p l i f i e s   t he   m ode l   by   i gnor i ng   l e s s   i m por t a nt   f e a t u r e s .     L2   r e gul a r i z a t i on :  t hi s   is   a   t e r m   t ha t   is   us e d   to   pe na l i z e   bi g   w e i gh t s   t ha t   gi ve   out   s m oo t he r   m ode l s .   B ot h   r e gul a r i z a t i on   m e t hods   a r e   s pe c i f i e d   us i ng   t he   hype r pa r a m e t e r   l a m bda   t ha t   m odul a t e s   t he   s t r e ng t h   of   t he   p e na l t y   in   or d e r   to   s uppor t   t he   pr e ve n t i on   of   ove r f i t t i ng   i i i )   S G D   opt i m i z a t i on :     I ni t i a l i z a t i on:   t he   m ode l   be gi ns   by   i ni t i a l i z i ng   pa r a m e t e r s ,   i nc l udi ng   w e i ght s   f or   each   f e a t u r e   a nd   bi a s e s .     G r a di e nt   c a l c u l a t i on:  t he   gr a d i e nt   of   t he   obj e c t i v e   f unc t i on   is   c a l c ul a t e d,   r e pr e s e nt i ng   t he   di r e c t i on   a nd   m a gni t ude   of   c ha nge   in   t he   e r r o r   r e l a t i v e   to   t h e   m ode l ' s   pa r a m e t e r s .     M i ni - b a t c h   upda t e s :   i n s t e a of   c o m put i ng   gr a d i e nt s   on   t he   e nt i r e   da t a s e t ,   t h e   m ode l   upda t e s   its   pa r a m e t e r s   u s i ng   s m a l l   s ubs e t s   of   t he   da t a   ( m i ni - b a t c he s ) ,   i m pr ov i ng   c om pu t a t i ona l   e f f i c i e nc y   f or   l a r ge   da t a s e t s .     W e i ght   a nd   bi a s   upda t e s :   w e i ght s   a nd   bi a s e s   a r e   i t e r a t i ve l y   a dj us t e d   ba s e d   on   t he   gr a di e n t s   to   m i ni m i z e   t he   e r r or .   T he   l e a r ni ng   r a t e   c on t r ol s   how   l a r ge   each   upda t e   s t e p   i s .   T he   pr oc e s s   c on t i nue s   unt i l   e i t he r   t he   w e i gh t s   c onve r ge ,   or   t he   m a x i m u m   num be r   of   i t e r a t i ons   is   r e a c he d.         T a bl e   2 .   H ype r pa r a m e t e r s   of   l i ne a r  l e a r ne r   Hyperparam e t er   Valu e   Pu rpose   a n d   effec t   m i n i_ba t c h _size   200   th e   num ber   of   sa m ples   processed   before   u pda t i n g   m odel   para m e t ers   to   lower   com p ut a t io n   t i m e.   epoch s   10   th e   num ber   of   co m ple t e   passes   th ro u g h   th e   t rai n i n g   da t ase t   to   red u ce   overfi tt i n g.   regu lariza t io n   (L1,   L2)   Aut o   Applies   bo th   L1   a n d   L2   reg u lariza t io n   to   red u ce   overfi tt i n g .           F i gur e   5 .   S t e ps   of   l i ne a r   l e a r ne r  t r a i n i ng       3.   R E S U L T S   AND   D I S C U S S I O N   F ol l ow i ng   t r a i n i ng   w i t h   bot h   A ut oG l uon   a nd   l i ne a r   l e a r ne r ,   t he   t r a i ni ng   a r t i f a c t s   w e r e   upl oa de d   to   t he   S3   buc ke t   a nd   ba t c t r a ns f o r m   w a s   t he n   c a r r i e d   out   on   t he   r e s ul t s   of   bot h   t e c hni que s   f or   m a k i ng   of f l i ne   pr e di c t i ons   on   t h e   l a r ge   d a t a s e t   t hr ough   di vi d i ng   t he m   i n t o   ba t c he s   a nd   upl o a di ng   t he   r e s u l t s   to   S3   as   w e l l .   T he n,   e ndpoi nt   pr e d i c t i on   w a s   c a r r i e d   out   by   de pl oy i ng   e ndpoi n t s   as   w e b   s e r vi c e   e ndpoi n t s   w hi c h   c oul d   r e c e i ve   H T T P   r e que s t s   as   w e l l   as   r e s pons e s   w i t h   pr e d i c t i ons   in   a l m os t   r e a l   t i m e .   T he   e va l ua t i on   t i m e   a nd   r e s ul t s   f or   bo t h   m e t hods   w e r e   ob t a i ne d   u s i ng   t he   t e s t   da t a s e t .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r t i f   I nt e l l V ol . 15, N o. 1, F e br ua r y 2026 681 - 694   688   3.1.    E val u at i on   r e s u l t s   F ol l ow i ng   t r a i n i ng   w i t h   bot h   A ut oG l uon   a nd   l i ne a r   l e a r ne r ,   t he   t r a i ni ng   a r t i f a c t s   w e r e   upl oa de d   to   t he   S3   buc ke t   a nd   ba t c t r a ns f o r m   w a s   t he n   c a r r i e d   out   on   t he   r e s ul t s   of   bot h   t e c hni que s   f or   m a k i ng   of f l i ne   pr e di c t i ons   on   t h e   l a r ge   d a t a s e t   t hr ough   di vi d i ng   t he m   i n t o   ba t c he s   a nd   upl o a di ng   t he   r e s u l t s   to   S3   as   w e l l .   T he n,   e ndpoi nt   pr e d i c t i on   w a s   c a r r i e d   out   by   de pl oy i ng   e ndpoi n t s   as   w e b   s e r vi c e   e ndpoi n t s   w hi c h   c oul d   r e c e i ve   H T T P   r e que s t s   as   w e l l   as   r e s pons e s   w i t h   pr e d i c t i ons   in   a l m os t   r e a l   t i m e .   T he   e va l ua t i on   t i m e   a nd   r e s ul t s   f or   bo t h   m e t hods   w e r e   ob t a i ne d   u s i ng   t he   t e s t   da t a s e t .     3.1.1.   E val u at i on   r e s u l t s   of   A u t o G l u on   S i nc e   t he   e ns e m b l e   a r c hi t e c t ur e   of   A ut oG l uon   ge ne r a t e s   pr e di c t i ons   by   a ggr e ga t i ng   t he   out c o m e s   of   m a ny   ba s e   l e a r ne r s ,   T he r e f o r e ,   T a bl e s   3   a nd   4   pr e s e nt   t he   l e a de r boa r d   pr e di c t i ons   a nd   e va l u a t i on   m e t r i c s ,   r e s pe c t i ve l y,   r a t he r   t ha n   a   s i ngu l a r   c onf u s i on   m a t r i x.   T he   w e i ght e e ns e m bl e   m ode l   ha d   t he   hi gh e s t   pe r f or m a nc e ,   w i t h   a   t e s t   a c c ur a c y   of   97% ,   as   s e e n   in   T a bl e   3,   be i ng   t he   l a s t   l e ve l   in   t he   t r a i n i ng   or de r .     T hi s   de m ons t r a t e s   t ha t   e ns e m bl e   l e a r n i ng   in   t he   s e c ond   pr e di c t i on  l e ve l ,   w hi c h   c o m bi ne s   t he   out pu t s   f r om   f i r s t   pr e di c t i on   l e v e l   m ode l s ,   ope r a t e s   by   i nt e gr a t i ng   m a ny   s t r a t e gi e s .   T hi s   f i na l   e ns e m bl e   m e r ge s   t he   pr e di c t i ons   f r om   m a ny   f ounda t i ona l   m ode l s ,   w hi c h   s i m u l t a n e ous l y   r e duc e s   bot h   b i a s   a nd   va r i a nc e .   In   t he   f i r s t   l e ve l ,   L i gh t G B M ,   C a t B oos t ,   a nd   E xt r a T r e e s   a r e   i ns t a nc e s   of   t r e e - b a s e d   m ode l s   t ha t   a c hi e v e d   s e c ond   pl a c e   w i t h   an   a c c u r a c y   of   96 %   a f t e r   t r a i ni ng   in   t he   t hi r d,   f ou r t h,   a nd   f i f t h   o r de r ,   r e s pe c t i ve l y.   V a r i e t of   U R L ,   c ont e nt ,   a nd   s e r vi c e - ba s e d   a t t r i bu t e s .   T he i r   e xc e p t i ona l   pe r f or m a nc e   ove r   t h e   ne ur a l   a nd   d i s t a nc e - ba s e d   m ode l s   can   be   e xpl a i ne d   by   t he   f a c t   t h a t   t he y   c oul d   c a pt u r e   c om p l e x   r e l a t i ons h i ps   be t w e e n   f e a t ur e s .   T he   t w o   ne xt   be s t   m ode l s   w e r e   RF   a nd   X G B oos t   w i t h   s c or e s   of   96%   e ve n   t hough   t he y   h a d   s c or e d   s e c ond   a nd   s e ve nt h   in   t r a i ni ng   o r de r .   T h i s   w a s   b e c a us e   t h e y   u s e d   an   e ns e m b l e - of - t r e e s   s t r u c t u r e .   T he   F a s t A I   de m o ns t r a t e d   95 a c c u r a c y,   pl a c i ng   it   in   t he   s i xt h   o r de r   of   t r a i ni n g   w h i c h   is   qu i t e   g ood   but   no t   s upe r i or   c om p a r e d   to   t he   o t he r   m ode l s   due   to   t he   s e n s i t i vi t y   of   t he   f e a t u r e s   to   s c a l i ng   a nd   t he   op t i m i z a t i on   of   pa r a m e t e r s .   F i na l l y,   t he   f i r s t   in   t he   l i ne   of   t h e   t r a i n i ng   m ode l s   w a s   KNN,   w hi c h   d i d   no t   f a r e   w e l l   as   t he   l a s t ,   w i t h   an   a c c u r a c y   of   83 % .   D i s t a n c e - ba s e d   l e a r n i ng   m e t hodo l og i e s   e n c oun t e r   d i f f i c u l t i e s   w i t h   h i gh - di m e ns i ona l   t a b ul a r   da t a   w he n   s e v e r a l   f e a t u r e s   e x e r t   m i ni m a l   or   c o r r e l a t e d   i n f l u e nc e .       T a bl e   3 .   L e a de r boa r d   p r e di c t i on  t a bl e   of   A ut oG l uon   a l go r i t hm s   N o.   A l gor i t hm   A c c ur a c y   s c or e   ( % )   S t a c k   l e ve l   T r a i ni ng   or d e r   1   W e i ght e d   e ns e m bl e   97   2   8   2   L i ght G B M   96   1   3   3   C a t B oos t   96   1   4   4   E xt r a T r e e s   96   1   5   5   RF   96   1   2   6   X G B oos t   96   1   7   7   F a s t A I   95   1   6   8   KNN   83   1   1       T a bl e  4. T he  e va l ua t i on  m e t r i c s  o f  A ut oG l uon a f t e r  ba t c h t r a ns f or m   N o.   M e t r i c   V a l ue  ( % )   1   A c c ur a c y   97   2   P r e c i s i on   97   3   R e c a l l   96   4   F1 - s c or e   97   5   R O C   97       T a bl e   4   s um m a r i z e s   t he   e va l ua t i on   m e t r i c s   obt a i ne d   f r om   t he   f i na l   A ut oG l uon   e ns e m bl e   on   t he   t e s t   da t a s e t .   T he   w e i gh t e d   e ns e m b l e   a c hi e ve d   t he   gr e a t e s t   pe r f or m a nc e   f or   A ut oG l uon   on   t he   s e c ond   p r e di c t i on   l e ve l ,   w i t h   99 %   R O C ,   97%   F1 - s c or e ,   97%   a c c ur a c y,   97%   pr e c i s i on,   a nd   96 %   r e c a l l .   T hi s   i m p l i e s   t ha t   t he r e   is   a   good   a bi l i t y   to   di f f e r e n t i a t e   be t w e e n   phi s hi ng   U R L s   a nd   l e gi t i m a t e   U R L s .   In   a ddi t i on,   i nc o r por a t i ng   bot h   f a l s e   po s i t i ve s   a nd   f a l s e   n e ga t i ve s   i nt o   a   s i ng l e ,   ba l a nc e d   m e a s u r e m e n t .   F ur t he r m or e ,   t he   e xc e l l e n t   s c or e s   a c r os s   a l l   t h e   m e a s ur e s   i ndi c a t e   s t r ong   di s c r i m i na t i on   be t w e e n   phi s h i ng   a nd   l e g i t i m a t e   l a be l s   a nd   a r e   i ndi c a t i ve   of   t he   f a c t   t ha t   t h e   pe r f or m a nc e   of   A ut oG l uon ’s   e ns e m bl e   l e a r ni ng   a ppr oa c h   w a s   e xc e p t i ona l l y   w e l l   on   t h i s   da t a s e t ,   as   t he   us a ge   of   va r i ous   a l gor i t hm s   is   he l pf u l   in   c a pt u r i ng   d i ve r s e   da t a   pa r t s ,   r e s u l t i ng   in   s t r ong   pe r f or m a nc e .   A ut oG l uon s   a u t om a t e d   f e a t ur e   s e l e c t i on   a nd   hype r pa r a m e t e r   t uni ng   he l pe d   to   i m pr ove   t he   m ode l ' s   pe r f or m a n c e   w i t hout   ove r f i t t i ng,   s i nc e   d i ve r s e   m ode l s   in   t he   e ns e m bl e   m a y   c ont r i but e   to   s u c c e s s .   T r e e - e ns e m bl e d   a l go r i t h m s   a r e   w e l l - s ui t e d   to   s t r uc t ur e d   d a t a ,   a nd   t he i r   c om b i na t i on   c e r t a i nl y   i m pr ove d   ove r a l l   pe r f or m a nc e ,   in   a ddi t i on   to   t he   s t a c k i ng   t e c hn i que   w hi c h   m i ni m i z e d   m ode l   va r i a nc e   a nd   i nc r e a s e d   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r t i f   I nt e l l     I S S N :   2252 - 8938       C om par i s on be t w e e n e ns e m bl e  and  l i ne ar  m e t hods  f or  w e bs i t e  ph i s hi ng d e t e c t i on   ( Saba H us s e i n R as h i d )   689   ge ne r a l i z a t i on,   a l l ow i ng   t he   m ode l   to   pe r f o r m   w e l l   in   phi s hi ng   c l a s s e s ,   a l ongs i de   t he   ba l a nc e d   da t a s e t   a nd   t he   e f f e c t i ve   r e gul a r i z a t i on   as   t he y   he l p e d   s us t a i n   hi gh   r e s u l t s   in   bot h   a c c ur a c y   a nd   r e c a l l .     3.1.2. E val u at i on  r e s u l t s  of   l i n e ar   l e ar n e r   B a s e on  t he   c onf us i on  m a t r i of   l i ne a r   l e a r n e r   di s p l a ye i F i gur e   6,  i t   c a be   de duc e t ha t     1,616  s a m p l e s   w e r e   c or r e c t l y   c l a s s i f i e d   a s   l e gi t i m a t e ,”   w he r e a s   1,619   s a m pl e s   w e r e   a pp r opr i a t e l y   c l a s s i f i e d   a s   phi s hi ng.”   120  s a m p l e s   a r e   w r ongl c l a s s i f i e a s   phi s hi ng,   w he r e a s   onl 74  s a m pl e s   a r e   i nc o r r e c t l y   c l a s s i f i e d   a s   l e g i t i m a t e .”   S how i ng   t ha t   l i ne a r   l e a r ne r   ha s   a   l ow   i nc i de n c e   of   f a l s e   po s i t i ve s ,   a s   i t   i s   a bl e   t o   a c c ur a t e l c a t e gor i z e   a   l a r ge   pr opor t i on  o f   i ns t a nc e s   t ha t   a r e   pos i t i ve T h i s   i nd i c a t e s   t ha t   l i ne a r   l e a r ne r   i s   e f f e c t i ve  a t  m a na g i ng l a r ge  da t a s e t s   a nd pr oduc i ng  a c c ur a t e  pr e d i c t i ons  w i t h a   l ow  a m ount  o f  m i s l a b e l i ng. A s   s how i T a bl e   5,   l i ne a r   l e a r n e r   ob t a i ne a a c c u r a c of   94%   w i t c om p a r a bl y   hi gh  p r e c i s i on  o f   95% ,     F1 - s c or e   of   94 % R O C   of   94% a nd  a   r e c a l l   of   93 % T he   f i nd i ngs   de m ons t r a t e  t ha t  t he   m ode l   i s   e f f e c t i ve   a t   r e c ogni z i ng  phi s hi ng  w e bs i t e s   w hi l e   a l s a voi di ng  f a l s e   pos i t i ve s T he   m ode s t   va r i a t i on  be t w e e a c c ur a c y   a nd  r e c a l l   i m pl i e s   t ha t   t he   m ode l   s l i ps   up  on  t he   s i de   of   c a ut i on,  f oc us i ng  on  l ow e r i ng  f a l s e   pos i t i ve s   w hi l e   m i s s i ng  a   f e w   phi s hi ng  w e bs i t e s T he   h i gh  va l ue   of   R O C   i s   a n i ndi c a t i on   of   t he  f a c t   t ha t  t he  m ode l   h a s   g r e a t   c a pa c i t y f o r  di s t i ngu i s hi ng be t w e e n t he  phi s h i ng a nd t he  l e ga l  w e bs i t e s , w hi c h ha s  be e n c ons i de r e d c r i t i c a l  i n   t hi s   e nvi r onm e n t   w he r e   t he   m i s c l a s s i f i c a t i ons   m i ght   l e a d t s e ve r e   c ons e que nc e s T a ki ng  i nt c ons i de r a t i on   i t s   hi gh l e ve l s   o f   a c c u r a c y,   pr e c i s i on,   a nd r e c a l l , t he  l i ne a r  l e a r ne r  m ode l   w oul be   hi gh l de pe nda b l e  f or   t he   de t e c t i on of  r e a l - w or l d phi s h i ng, w hi c h m a ke s  i t  a n i nva l ua bl e  t ool   f or  a pp l i c a t i on s  of  c ybe r s e c ur i t y.           F i gur e   6 .   T he   c onf us i on m a t r i x of  l i ne a r   l e a r n e r  pr e d i c t i on a f t e r  ba t c h t r a ns f o r m       T a bl e   5 .   T he   e va l ua t i on  m e t r i c s  o f  l i n e a r  l e a r ne r  a f t e r  ba t c h t r a n s f or m   N o.   M e t r i c   V a l ue   (%)   1   A c c ur a c y   94   2   P r e c i s i on   95   3   R e c a l l   93   4   F1 - s c or e   94   5   R O C   94       3.1.3.   C om p ar i s on   of   e val u a t i on  r e s u l t s   F i gur e   7   i l l us t r a t e s   t he   c o m pa r i s on   of   t he   r e s u l t s   of   t he   e v a l ua t i on   of   bo t h   A ut oG l uon   a nd   l i ne a r   l e a r ne r .   T he   gr a ph   a l l ow s   v i s ua l i z i ng   A ut oG l uon   a nd  l i ne a r   l e a r ne r   in   t e r m s   of   t he   m a i n   a s s e s s m e nt   pa r a m e t e r s .   It   w a s   f ound   t h a t   A ut oG l uon   in   a l l   f i ve   m e a s ur e s ,   a c c ur a c y,   p r e c i s i on,   r e c a l l ,   F1 - s c or e ,   a nd   R O C ,   ha s   a l w a ys   r e por t e d   h i ghe r   va l ue s   w he n   c om pa r e d   to   l i ne a r   l e a r ne r   w ho   ha s   r e po r t e d   s l i ght l y   l ow e r   but   e qua l l y   r e l i a bl e   r e s ul t s ,   w hi c h   s how s   t h a t   t h e   e ns e m b l e   m od e l   ha s   a   s t r ong   ba l a nc e   be t w e e n   t he   de t e c t i on   of   phi s hi ng   w e bs i t e s   a nd   f a l s e   a l a r m s .   T h i s   can   be   e xp l a i n e d   by   t he   f a c t   t ha t   A ut oG l uon   h a s   a   m e c ha ni s m   of   c a pt ur i ng   non - l i n e a r ,   a nd   c om p l i c a t e d   pa t t e r ns   in   t he   da t a .   T he   s t a c k i ng   t e c hn i que   f ur t he r   e nha nc e s   m ode l   ge ne r a l i z a t i on   a nd   r e duc e s   va r i a nc e ,   r e s ul t i ng   in   r obus t   p r e di c t i ve   be ha v i or   a c r os s   bot h   ph i s hi ng   a nd   l e gi t i m a t e   c l a s s e s .   L i ne a r   l e a r ne r ,   by   c om pa r i s on,   c onf i r m s   t ha t   t he   m ode l   is   c om pe t e nt   at   di s t i ngu i s hi ng   be t w e e n   l e g i t i m a t e   a nd   m a l i c i ous   w e bs i t e s   bu t   r e m a i ns   l i m i t e d   by   i t s   l i ne a r   de c i s i on   bounda r y,   w hi c h   c a nnot   f ul l y   r e p r e s e n t   t he   non - l i n e a r   f e a t ur e   r e l a t i ons hi ps   t yp i c a l   of   phi s hi ng   da t a .   T he   s l i ght l y   hi gh e r   pr e c i s i on   r e l a t i ve   to   r e c a l l   s ugge s t s   t ha t   l i n e a r   l e a r ne r   is   m or e   c ons e r va t i ve   in   c l a s s i f i c a t i on,   pr oduc i ng   f e w e r   f a l s e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r t i f   I nt e l l V ol . 15, N o. 1, F e br ua r y 2026 681 - 694   690   pos i t i ve s   w hi l e   m i s s i ng   a   s m a l l   po r t i on   of   phi s h i ng   s a m p l e s .   D e s pi t e   t he s e   di f f e r e nc e s ,   bot h   a l go r i t hm s   de m ons t r a t e   s t r ong   c a p a bi l i t y,   w i t h   A ut oG l uon   f a vor e d   f or   a c c ur a c y - c r i t i c a l   a ppl i c a t i ons   a nd   l i ne a r   l e a r ne r   m or e   s u i t a b l e   f or   t i m e - s e ns i t i ve   or   r e s ou r c e - l i m i t e d   e nvi r on m e nt s .   D ue   t t he   l a c of   s t udi e s   ut i l i z i ng  S a ge M a ke r s   A ut oG l uon  a nd l i ne a r   l e a r ne r  f or   w e bs i t e   ph i s hi ng   de t e c t i on a s  m e n t i one d be f or e , T a b l e  6 pr e s e n t s  a  c om p a r i s on be t w e e n t he  e v a l ua t i on r e s ul t s  of  A ut oG l uon i n   t hi s   s t udy  a nd   t he   r e s ul t s   o f   t he   i nd i vi dua l   a l go r i t hm s   i nt e gr a t e w i t h i i t s   a r c hi t e c t u r e I t   a l s i nc l ude s   t he   r e s ul t s  of  l i ne a r   l e a r ne r  a nd a  s i m i l a r  a l gor i t hm   i n c ons t r uc t i on a nd pe r f o r m a nc e , a l l  ob t a i ne d f r om   t he  r e l a t e d   w or m e nt i one e a r l i e r   i t he   s e c t i on   1 T he   r e s ul t s   de m ons t r a t e t ha t   t he   pr opos e m ode l   out pe r f o r m e i n   t e r m s   of   a c c u r a c y,  c onf i r m i ng  t he   t r e nd  t ha t   m ode l   di ve r s i t i m pr ove s   ph i s hi ng - de t e c t i on  r obus t n e s s a nd   va l i da t i ng i t s  e f f i c i e nc f or  l a r ge  w e bs i t e  phi s h i ng us e  c a s e s .           F i gur e   7 .   C om pa r i s on   of   e v a l ua t i on   r e s ul t s   f o r   bot h   m e t hods   a f t e r   ba t c t r a ns f or m       T a bl e   6 .   C om pa r i s on   of   e va l ua t i on r e s u l t s  w i t h r e l a t e d w or ks   M od e l   D a t a s e t   A c c ur a c y   (%)   E nvi r onm e nt   R e f e r e nc e   C a t B oos t   C I C - B e l l - DNS   90   G oogl e   C ol a b   [ 22]   F a s t A I   I S C X - U R L   96   G oogl e   C ol a b   [ 23]   L i ght G B M   U C I   phi s hi ng   d om a i ns   d a t a s e t   95   G oogl e   C ol a b   [ 24]   RF   P hi s hT a nk   93   G oogl e   C ol a b   [ 25]   X G B oos t   P hi s hO F E   94   J upyt e r   N ot e book   [ 26]   E xt r a T r e e s   U C I   phi s hi ng   d om a i ns   d a t a s e t   96   G oogl e   C ol a b   [ 27]   L ogi s t i c  r e gr e s s i on   C om bi ne d   of   m ul t i pl e   K a ggl e   d a t a s e t s   93   A W S   S a ge M a ke r   [ 28]   KNN   Web   pa ge   phi s h i ng   d e t e c t i on   83   A W S   S a ge M a ke r   [ 29]   A ut oG l uon   Web   pa ge   phi s h i ng   d e t e c t i on   97   A W S   S a ge M a ke r   T hi s   s t ud y   L i ne a r   l e a r ne r   Web   pa ge   phi s h i ng   d e t e c t i on   94   A W S   S a ge M a ke r   T hi s   s t ud y       3.2.     T i m e   as s e s s m e n t   T he   pa pe r   e s t i m a t e d   t r a i n i ng,   ba t c h   t r a ns f or m ,   a nd   pr e di c t i on   t i m e s   of   e a c h   a l go r i t h m   on   an   A m a z on   c l oudw a t c h   l og,   w hi c h   pr ovi d e s   va l ua b l e   i nf o r m a t i on   on   t he   e f f e c t i ve ne s s   of   pa r t i c ul a r   a l gor i t h m s .   F i gur e   8   gi ve s   r e s u l t s   of   t he   t i m e   e v a l ua t i on.   A ut oG l uon   us e d   m or e   m e m or y   a nd   pr o c e s s i ng   a nd   m e m o r y   r e s ou r c e s   t ha n   l i ne a r   l e a r ne r   b e c a us e   it   us e d   t he   S a ge M a ke r   m l . m 4.xl a r ge   i ns t a n c e ,   w hi c h   u s e d   a bou t   1.3   t i m e s   m or e   m e m or y   a nd   r e qui r e d   m o r e   t i m e   to   t r a i n   be c a u s e   it   is   a   m ul t i - m ode l   e ns e m bl e   a r c h i t e c t ur e   a nd   op t i m i z e s   t he   r e s ul t i ng   a r c hi t e c t ur e .   T h i s   e x t r a   c om pu t a t i on   c os t ,   t hough,   l e d   to   i m pr ove d   p r e di c t i ve   a c c ur a c y   a nd   i nc r e a s e d   ge ne r a l i z a t i on,   w hi c h   s how s   t h a t   A ut oG l uon   is   s u i t a b l e   w he n   l a r ge   s c a l e   or   a c c u r a c y - s e ns i t i ve   e nvi r onm e n t s   a r e   ne e de d.   On   t he   ot he r   ha nd,   l i ne a r   l e a r ne r   t r a i ne d   a nd   i nf e r r e d   f a s t e r   us i ng   l e s s   r e s ou r c e s   w hi c h   va l i da t e d.   i t s   e f f e c t i ve ne s s   in   t i m e - c r i t i c a l   or   r e s our c e - l i m i t e d   a ppl i c a t i ons .   T he s e   r e s ul t s   e m pha s i z e   t ha t   w hi l e   A ut oG l uon   of f e r s   s upe r i or   a c c u r a c y,   l i ne a r   l e a r ne r   r e m a i ns   m or e   e f f i c i e n t   a nd   pr a c t i c a l   w he r e   c om put a t i ona l   c ons t r a i n t s   a r e   a   pr i o r i t y.     3.2.1 T r ai n i n g t i m e   A s   F i gur e   s how s t he   t r a i n i ng  t i m e   of   A ut oG l uon  i s   412.8  s e c ond s w hi c i s   not   s ur p r i s i ng  gi ve n   t he   c om p l e xi t of   t he   A ut oG l uon f r a m e w or k.  S e ve r a l   s t e ps  a r e   i n c l ude d i t hi s   f r a m e w or k,  i nc l udi ng m ode l   s e l e c t i on,  hype r p a r a m e t e r   opt i m i z a t i on,  a nd  t he   d e ve l op m e nt   o f   e ns e m bl e s w hi c c a e xp l a i n t he   t i m e  c os t .   M ode l   e n s e m b l i ng  i s   on e   of   t he   s i gn i f i c a nt   va r i a bl e s   t h a t   c ont r i but e   t o   t he   m or e   t i m e   s pe n t   on  t r a i ni ng.   A ut oG l uon  us ua l l t r a i ns   a   nu m be r   of   m od e l s   a nd  a ggr e ga t e s  t he i r   pr e di c t i on s   by  t he   ba ggi ng  m e t hod.  T hi s   a l gor i t hm  r e qu i r e s  m o r e  c om pu t a t i ona l  r e s ou r c e s  a nd t i m e  t ha n t r a i n i ng a  s i ngl e  m ode l , w hi c h i s  not  t he  c a s e   97% 97% 96% 97% 97% 94% 95% 93% 94% 94% 90% 91% 92% 93% 94% 95% 96% 97% 98% 99% 100% A c c ur a c y P r e c i s i on R e c a l l F - 1 R O C P e r c e n t a g e M e t r i c s A ut oG l uo n L i ne a r  L e a r ne r Evaluation Warning : The document was created with Spire.PDF for Python.