I AE S   I n t e r n at ion al  Jou r n al   of   Ar t if icial   I n t e ll ig e n c e   ( I J - AI )   Vol.   14 ,   No.   2 Apr il   20 25 ,   pp.   96 3 ~ 97 4   I S S N:  2252 - 8938 ,   DO I 10 . 11591/i jai . v 14 .i 2 . pp 96 3 - 97 4             963     Jou r n al  h omepage ht tp: // ij ai . iaes c or e . c om   A n  e n h a n c e d   c asc a d e   e n se m b le  m e t h od   f or   b ig  d at a a n al ysi s       I van   I z on in 1 , 2 ,   Ro m an   M u z yk a 2 ,   Rom a n   T k ac h e n k o 3 ,   M ichal   Gre gu s 4 ,   Rom an   Korz h 5 Kyrylo  Ye m e t s 2   1 D e pa r tm e nt  of  C iv il  E ngi ne e r in g, S c hool  of  E ngi ne e r in g, U ni v e r s it y of   B ir mi ngha m, B ir mi ngha m, U ni te d K in gdom   2 D e pa r tm e nt  of  A r ti f ic ia I nt e ll ig e nc e , L vi v P ol yt e c hni c  N a ti ona U ni ve r s it y, L vi v, U kr a in e   3 D e pa r tm e nt  of  P ubl is hi ng I nf or ma ti on T e c hnol ogi e s , L vi v P ol yt e c hni c  N a ti ona U ni ve r s it y, L vi v, U kr a in e   4 F a c ul ty  of  M a na ge m e n t,  C ome ni us  U ni ve r s it y B r a ti s la va , B r a t is la va , S lo va k ia   5 D e pa r tm e nt  of  S oc ia C omm uni c a ti on a nd I nf or ma ti on A c ti vi ti e s , L vi v P ol yt e c hni c  N a ti ona U ni ve r s it y, L vi v, U kr a in e       Ar t icle   I n f o     AB S T RA CT   A r ti c le  h is tor y :   R e c e ived   J uly   8 2024   R e vis e Oc t   23 2024   Ac c e pted  Nov   14 2024       In   t h d i g i t al   ag e,   t h p r o l i ferat i o n   o d a t p res e n t s   b o t h   ch a l l e n g e s   an d   o p p o r t u n i t i e s ,   p art i cu l arl y   i n   t h real o b i g   d at a,   w h i c h   i s   ch ara ct er i zed   b y   i t s   v o l u me,   v e l o c i t y ,   an d   v ar i et y .   Mach i n l earn i n g   i s   c ru ci a l   t ech n o l o g y   fo r   ex t rac t i n g   i n s i g h t s   fro t h es v a s t   d a t as e t s .   A mo n g   mach i n l ear n i n g   met h o d s ,   en s emb l met h o d s ,   an d   es p eci al l y   cas cad i n g   en s em b l e s ,   are  h i g h l y   effect i v fo b i g   d at a n al y s i s .   W h i l i t   i s   t r u t h at   t h t r ai n i n g   p ro c ed u res   fo r   cas cad e n s em b l e s   can   b t i me - co n s u mi n g   a n d   ma y   h a v l i m i t a t i o n s   i n   t erms   o accu racy ,   t h i s   p ap er  p r o p o s e s   s o l u t i o n   t o   en h an ce  t h ei p erfo rman ce.   O u met h o d   i n v o l v e s   u s i n g   s t o ch a s t i g ra d i e n t   d e s cen t   ( SG D cl as s i f i ers ,   a n   i mp r o v e d   t rai n i n g   d at s ep ara t i o n   al g o r i t h m,   an d   i n t e g rat i n g   p ri n ci p al   co mp o n e n t   a n al y s i s   (PCA a t   eac h   en s emb l l ev e l .   W ar co n f i d e n t   t h at   t h e s e   en h a n cemen t s   l ead   t o   i mp r o v e d   res u l t s   a n d   acc u racy .   T h p ro p o s ed   a p p r o ach   i s   d es i g n ed   t o   en h an ce  b o t h   t h e   g e n eral i zat i o n   p r o p er t i e s   an d   accu rac y   o t h e   en s em b l (3 % ),   w h i l a l s o   red u c i n g   i t s   t ra i n i n g   t i me.   Res u l t s   fr o mo d el l i n g   o n   real - w o rl d   b i o med i cal   d a t as e t   d emo n s t rat s i g n i fi can t   red u c t i o n s   i n   t rai n i n g   d u rat i o n ,   i mp ro v emen t s   i n   g e n eral i zat i o n   p ro p ert i e s ,   an d   en h a n ce d   accu racy   w h en   c o mp are d   t o   o t h er  p o s s i b l i m p l eme n t a t i o n s   o t h en s em b l e .   K e y w o r d s :   B ig  da ta  a na lys is   B inar c las s if ica ti on  tas k   C a s c a d e   e ns e mbl e     I mbala nc e da tas e t   Kolmogor ov - Ga bor   polynom ial   M a c hine  lea r ning   W iene r   polynom ial   Th i s   i s   a n   o p en   a c ces s   a r t i c l u n d e r   t h CC  B Y - SA   l i ce n s e.     C or r e s pon din A u th or :   R oman  M uz yka   De pa r tm e nt  of   A r ti f icia l   I ntelli ge nc e ,   L viv  P olyt e c hnic  Na ti ona Unive r s it y   S .   B a nde r a   s tr . ,   12,   L viv,   79013 ,   Ukr a ine   E mail:   r oman. muzyka . mkns s h. 2022@lpnu. ua       1.   I NT RODU C T I ON     I the  dig it a l   e r a ,   th e   e x pone n ti a g r ow th  of   da ta   ha s   us he r e i ne c ha ll e n ge s   a n op po r tun it ies .   B ig   da ta  is   o f ten   c ha r a c te r ize d   by   a mo ng  othe r   thi n gs ,   it s   volu me,   ve loci ty ,   a n va r ie ty ,   wh ich  c a pos e   a   f o r mi da ble   c ha ll e n ge   to   c on ve nt iona da ta   p r oc e s s ing   tec hn iq ue s .   How e v e r ,   mac h ine   lea r ni ng   ha s   e me r ge d   a s   a   pi vota tec hno logy   i a d dr e s s i ng  thes e   c ha l lenge s ,   du e   to   it s   a bil i ty   to   a na lyze   a nd   e xt r a c t   i ns igh ts   f r o mas s ive   da tas e ts .   T he   s yne r gy  be twe e m a c hine   lea r n ing   a nd   bi d a ta  p r oc e s s in ha s   unde r g one   s igni f ica nt   de ve lop ment   ove r   ti me .   H owe ve r ,   c on ve nt iona da t a   p r oc e s s in tec hniques   ha ve   e nc ou nte r e c ha ll e ng e s   i ha n dli ng   the  va s t   a moun a nd   in tr ica c y   o f   big   da ta   [ 1 ] ,   [ 2 ] .   T h e   d e ploy ment   o f   mac h ine   lea r ni ng   mo de ls   a t   s c a le   ha s   be e n   s igni f ica n tl y   im pr ove d   by   mac h ine  lea r nin a lgo r i thm s ,   pa r t icula r l t hos e   that   ut il iz e   pa r a l lel   c o mp u ti ng   a nd   dis tr ibu ted  s ys tems .   T his   ha s   a ll owe o r ga niza t ion s   to  e xt r a c t   va l ue   f r om  thei r   da ta   a s s e ts   m or e   e f f ic i e ntl y   [ 3] T he   a dve n o f   tec hn olo gies   s uc a s   a pa c he   ha doo a nd  s pa r ha s   ma de   s c a la ble  a nd  e f f ic ient   big   da ta  p r oc e s s ing   f r a mew o r ks   a c c e s s ibl e ,   the r e b f a c i li tati ng   the   de pl oymen of   mac hine   lea r n ing   m ode ls   a t   s c a le   [ 4] .   M a c hine  lea r ning  ha s   s e ve r a a dva ntag e s   f or   pr oc e s s ing  bi da ta  tas ks   [ 5] .   F ir s tl y,   it   e na bles   pr e dictive  a na lyt ics   by  identif ying   pa tt e r ns   a nd  tr e nds   withi n   va s da tas e ts ,   whic c a f a c il it a te  in f or med   de c is ion - making   [ 6] .   S e c ondly,   mac hine  lea r ning   a lgor it hms   c a n   a utom a te  da ta  pr oc e s s ing  wor kf lows ,   r e duc ing   manua Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell Vol.   14 ,   No.   2 Apr il   20 25 :   96 3 - 97 4   964   int e r ve nti on  a nd  s tr e a ml ini ng  ope r a ti ons   [ 7] .   T hir dl y,   it   is   im por tant  to  note  that  the  it e r a ti ve   na tur e   of   mac hine  lea r ning  a ll ows   models   to  c onti nuous ly  im pr ove   a nd  a da pt  to  e volvi ng  da tas e ts ,   r e s ult ing  in   e nha nc e a c c ur a c a nd  pe r f or manc e   ove r   ti me  [ 8] .   De s pit e   it s   pr omi s ing  c a pa bil it ies ,   mac hine  lea r ning  f or   big  da ta  pr oc e s s ing  is   not  without   c ha ll e nge s   [ 9 ] .   T he   main  hu r dle  is   th a lar ge   da ta  s e ts   a r e   c ompl e to   mana ge   a nd  e f f e c ti ve ly   pr oc e s s   [ 10] .   E ns ur ing   s c a labili ty,   f a ult   tol e r a nc e ,   a nd  r e s our c e   opti mi z a ti on   in  dis tr ibu ted  e nvir onments   r e mains   a ongoing  c ha ll e nge .   I n   a ddit ion,   da ta  qu a li ty  [ 11]   a nd   pr e pr oc e s s ing  [ 12]   a r e   c r it ica f a c to r s   that  c a s igni f ica ntl im pa c th e   pe r f o r manc e   of   mac hine  le a r ning  models   [ 13] ,   [ 14 ] .   Add r e s s ing  is s ue s   s uc a s   mi s s ing   va lues ,   outl ier s ,   a nd   da ta  im ba lanc e s   r e quir e s   c a r e f ul  c ons ider a ti on  to   pr e ve nt   bias   a nd  inac c ur a c in  the   a na lys is   [ 15] ,   [ 16] .   F ur ther mo r e ,   the  a c c ur a c of   in divi dua mac hine  lea r ning  models ,   whic is   c r it ica f or   s uc tas ks ,   is   not  a lwa ys   s a ti s f a c tor y.   I pa r ti c ular ,   the  method  de s c r ibed  [ 17]   is   highl e f f e c ti ve   f or   a na ly z in lar ge   da tas e ts .   How e ve r ,   the  a c c ur a c of   their   s tocha s ti c   gr a dient  de s c e nt  ( S GD )   a lgo r it hm   is   not  up   to  the   mar k.   T a ddr e s s   thi s   is s ue ,   I z onin  e t   al .   [ 18]   inves ti g a ted  the  nonl inea r   e xpa ns ion   of   input s   f or   S GD ,   im pleme nti ng  it   us ing  dif f e r e nt  powe r s   of   the  W ie ne r   polynom ial.   T his   pa pe r   a ppr oxim a tes   a   tabula r   da tas e t   us ing  dif f e r e nt  powe r s   o f   the  s a me  polynom ial .   T h e   de gr e e   of   the  po lynom ial  wa s   de ter mi ne us ing  S GD   due   to  it s   high  s pe e d.   T he   r e s ult s   of   the  modelli ng   s ugge s that  incr e a s ing  the  de gr e e   of   a ppr oxim a ti on  would   im pr ove   the  a c c ur a c of   the  model .   How e ve r ,   t he   dir e c a ppr oxim a ti on   a ppr oa c by  high   powe r s   of   thi s   polynom ial  may  s igni f ica ntl incr e a s e   the  pr oble m's   dim e ns ionali ty.   I is   im po r tant  to  note   that  po lynom ial  a ppr oxim a ti on  may   not   a lwa ys   be   a pp r opr iate   whe the   number   of   a tt r ibut e s   e xc e e ds   the  number   of   v e c tor s   in   a   da tas e t.   He nc e ,   a   dir e c a ppr oxim a ti on  with  thi s   polynom ial,   e ve with  the  us e   of   high - s pe e S GD ,   may  n ot  be   the  mos s uit a ble  a ppr oa c h.   W he dis c us s ing  the  c ompos it ion  of   e ns e mbl e s   f r om  thes e   methods   [ 19] ,   i is   im por tant   to   note   that   they  c a pa r ti a ll a ll e viate   the   a f or e mentioned  is s ue s .   I pa r ti c ular ,   s c a li ng,   a s   the  mos t   a c c ur a te  c las s   of   e ns e mbl e   methods ,   c a be   opti mi z e to   wor k   e f f ici e ntl with  lar ge - s c a le  da tas e t s   [ 20] .   T he s e   methods   pa r ti ti on   the  da ta  or   e mpl oy  incr e menta t r a ini ng  tec hniques ,   whic c a he lp  mana ge   a nd  pr oc e s s   da ta  in  dis tr ibut e d   e nvir onments   mor e   e f f icie ntl y .   C a s c a de   e ns e mbl e s   c a be   c ons ider e d   mor e   f a ult - tol e r a nt   than  in divi dua l   models   a s   they  us e   mul ti ple  models   [ 21] .   T h is   mea ns   that  if   one   model  f a il s   or   pr oduc e s   inac c ur a te  r e s ult s ,   the  e ns e mbl e   c a s ti ll   make   r e li a ble  p r e dictions   by   a ggr e ga t ing  output s   f r om   mul ti ple   models .   F ur t he r mor e ,   c a s c a de   e n s e mbl e s   c a opti mi z e   r e s our c e s   by  dis t r ibut ing  c omput a ti on  a c r os s   mul ti ple  models   or   pr oc e s s ing   unit s   [ 22] ,   lea ding  to  opt im ize uti li z a ti on  o f   c omp utational  r e s our c e s   in  dis tr ibut e e nvir onments .   M or e ove r ,   it   is   wor th   noti ng   that   e ns e mbl e   methods ,   includi ng   c a s c a de   e ns e mbl e s ,   ha ve   the   potential  to  be   r e s is tant  to  nois or   im pe r f e c da ta .   B c ombi ning  mul ti ple  m ode ls   that  a r e   tr a ined  on  di f f e r e nt  s ubs e ts   or   r e pr e s e ntations   of   the  da ta,   e ns e mbl e   methods   c a mi ti ga te   the  im pa c of   mi s s ing  va lues ,   outl ier s ,   a nd   da ta  im ba lanc e s   [ 16] .   C a s c a d e   e ns e mbl e   methods   may  not  c ompl e tely  s ol ve   a ll   the  c ha ll e nge s   mentioned   pr e vios ly,   but  they   c a c e r tainly  he lp  a dd r e s s   them  by  u ti li z ing  the  di ve r s it a nd  c oll e c ti ve   int e ll igenc e   of   mul ti ple   mod e ls   [ 23]   I is   c r uc ial   to   c a r e f ull y   de s ign   a nd  tune   c a s c a de   e ns e mbl e s   to  f it   the  s p e c if ic   c ha r a c ter is ti c s   a nd  r e q uir e ments   of   the  pr oblem  do main  [ 24] .   W hil e   c a s c a de   e ns e mbl e s   a r e   c ons ider e the  mos a c c ur a te  c las s   of   e ns e mbl e   methods ,   their   hier a r c hica de c is ion - making  pr oc e s s   r e quir e s   a   lengthy  tr a ini ng  pr oc e dur e   [ 25] .   T his   tas c a be c ome  e ve mor e   c ompl e whe a na lyzing  high - d im e ns ional  da tas e ts   [ 26]   us ing  c ompl e x,   nonli ne a r   mac hine   lea r ning  methods   a t   e a c leve o f   a   de e lea r ning   c a s c a de   [ 27] .   M or e ove r ,   the   methodology   e ntails   s e gmenting  the  da tas e int s e c ti ons ,   whic a r e   then  pr oc e s s e a de s ignate leve ls   withi the   c a s c a de   s tr uc tur e .   T his   tec hnique  r e s tr icts   the  e xpos ur e   of   we a ke r   p r e dictor s   to  the  e nti r e   da tas e t,   ther e by  r e duc ing  the  a c c ur a c of   the   c a s c a de   f or e c a s or   c las s if ica ti on  model  a s   a   whole   [ 28] .   T he s e   f a c tor s   c umul a ti ve ly   a f f e c t   the  pe r f or manc e   of   the  c a s c a de   e ns e mbl e .   Ac c or ding  to  the  li ter a tu r e ,   a   c ompr e he ns ive  e va luation  of   the  pe r f or manc e   o f   c a s c a de   e ns e mbl e   s hould  take   in to  a c c ount   va r ious   indi c a tor s   s uc a s   a c c ur a c y,   s pe e d,   a nd   ge ne r a li z a ti on  [ 29 ] Ac c ur a c ( ba s e on  dif f e r e nt   pe r f or manc e   indi c a tor s )   mea s ur e s   how  s uc c e s s f ull the  mac hine  lea r nin model   pr e dicts   outcome s   c ompar e to  the   a c tual  r e s ult s .   it 's   typi c a ll e xp r e s s e a s   a   pe r c e ntage   a nd  is   c r uc ial  f or   e ns ur ing  th e   r e li a bil it y   of   ins ight s   de r ived   f r om   big   da ta.   T r a ini ng   ti me   mea s ur e s   the   dur a ti on   r e quir e d   to   tr a in   a   mac hine  lea r ning   model   on   a   given   da tas e [ 30 ] ,   while  ge ne r a li z a ti on  mea s ur e s   it s   a bil it y   to   pe r f or we ll   on   uns e e da ta.   I is   im por tant   to  c ons ider   a ll   thes e   in dica tor s   in  c ombi na ti on.   Dudz ik  e al.   [ 27]   de v e loped  a   c a s c a de   e ns e mbl e   ba s e on  s uppor ve c tor   mac hines   ( S VM s ) .   T he   S VM   e ns e mbl e   wa s   c ompos e us ing  a e volut ionar a lgor it hm   pr opos e by   the  a uthor s   to  opti mi z e   the   hype r pa r a mete r s   of   the  mac hine  lea r n ing  method  unde r lyi ng  the  c a s c a de   e ns e mbl e .   T he   pr o pos e a ppr oa c ha s   de mons tr a ted  high  a c c ur a c y.   T he   tr a ini ng   pr oc e s s   f or   S VM s   [ 31]   is   known   to   ha ve   high   ti me  a nd   memor c ompl e xit y,   whic is   f ur ther   incr e a s e by  the   opti m iza ti on  pr oc e dur e   f o r   e a c S VM   a t   e a c leve of   the  c a s c a de .   As   a   r e s ult ,   the   a c c ur a c a nd  du r a ti on   of   S VM s   a r e   li mi ted ,   making  thei r   a ppli c a ti on  c ha ll e nging.   How e ve r ,   with  c a r e f ul  c ons ider a ti on  a nd   e xpe r ti s e ,   S VM s   c a s ti ll   be   a   va luable   tool   in  c e r tain   c ontexts .   Ac c or ding  to   I z onin   e t   al.   [ 32 ] ,   a   dis ti nc t   method  wa s   e mpl oye by   the  a utho r s   to   c ons tr uc t   a   c a s c a de   e ns e mbl e   us ing  s uppor ve c tor   r e gr e s s ion  ( S VR ) .   T he   da tas e wa s   pa r ti ti one int o   e qua s e gments ,   with  the   number   of   s e gments   de ter mi ning  the  c a s c a de 's   de pt h.   T he   ba s ic  mac hine  lea r ning  method  us e wa s   li n e a r   S VR .   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   Ar ti f   I ntell     I S S N:   2252 - 8938         A e nhanc e c as c ade   e ns e mble   me thod  for   big  da ta  analys is   ( I v an  I z onin )   965   T his   a ppr oa c im pr ove d   the  method's   s pe e d,   a lt ho ugh  it   may  ha ve   de c r e a s e the  potential  a c c ur a c of   c a s c a de   e ns e mbl e s .   T a ddr e s s   the   a f or e mentioned   dr a wba c k,   a   modi f i c a ti on  of   thi s   s c he me  wa s   pr opos e in  [ 33] .   At   e a c leve of   the  c a s c a de ,   the   a uthor s   ut il ize high - s pe e S GD   a s   a   f unda menta l   mac hine  lea r ning   a lgor it hm.   Additi ona ll y,   a   qua dr a ti c   W iene r   polynom ial   wa s   e mpl oye f or   the  nonli ne a r   t r a ns f or mation  o f   inpu da ta  a e a c leve of   the  c a s c a de ,   whic r e s ult e in  a   s ign if ica nt  im pr ove ment   in  the   f or e c a s a c c ur a c y.   M or e ove r ,   it   s hould  be   noted  that  the   c a s c a de   s tr uc tur e   of   th e   method  r e s ult s   in  a im pli c it   a pp r oxim a ti on  t hr ough  a     high - de gr e e   polynom ial.   I is   wo r th  mentioni ng   t ha e a c ne leve of   the  c a s c a de   doubles   the  or d e r   of   the   W iene r   polynom ial.   How e ve r ,   thi s   incr e a s e   in   or d e r   lea ds   to   a   s igni f ica nt  e xpa ns ion  o f   the   input   da t a   s pa c e ,   whic in   tur n   pr olongs   the  t r a ini ng   pr oc e dur e .   T pa r ti a ll c ompens a te  f o r   thi s   dr a wba c k,   S GD   is   e mpl oye d.   How e ve r ,   it   is   wor th   noti ng  that   the  pr opos e a pp r oa c may  ha ve   a im pa c on  the  ge ne r a li z a ti on  p r ope r ti e s   of   the  method.   T he r e f or e ,   it   may  be   ne c e s s a r to  c onduc f ur ther   r e s e a r c to  r e duc e   the  tr a ini ng  ti me  of   the  method  while  s im ult a ne ous ly  im pr oving   it s   ge ne r a li z a ti on  pr ope r ti e s   a nd  a c c ur a c [ 34] .   T he   objec ti ve   of   thi s   pa pe r   is   to   im pr ove   the   pe r f o r manc e   of   the   c a s c a de   e ns e mbl e   of   S GD   c las s if ier s   by  im pleme nti ng  a   c ombi na ti on  of   a   ne da ta  pa r ti ti oning  a lgor it hm  a nd  P C a e a c leve of   the  e ns e mbl e   method.   T he   e f f e c ti ve ne s s   of   thi s   a ppr oa c h   is   e v a luate by  mea s ur ing   e nha nc e ments   in  the  ge ne r a li z a ti on  pr ope r ti e s   a nd  a c c ur a c of   the  c a s c a de   e ns e mbl e   of   S GD   c las s if ier s ,   a s   we ll   a s   a   s ubs tantial  r e duc ti on  in  the  dur a ti on  of   it s   tr a ini ng .   T h e   m a in   c o nt r ib ut io ns   o f   th is   pa p e r   a r e   th e   f ol l ow in g:     W e   i mp r ov e d   th e   S GD - b a s e d   c a s c a de   e ns e mb le   by   j oi nt l y   u ti l izi ng   a   n e w   da ta   pa r t i ti on in g   a lg o r i thm   a nd  a dd i ti ona l   a p pl ica t io n   o f   P C A   a t   e a c h   le ve l   of   t he   h ie r a r c hi c a l   e ns e mb le .   T he   us e   o f   t he   f i r s t   a p p r o a c d e m ons t r a te d   a   s ig ni f i c a nt   i mp r ove me nt   i n   t he   a c c u r a c y   of   t he   e ns e mb le   me th od .   T he   u t il iz a t io n   o f   th e   s e c on a pp r oa c h   s ig ni f ica nt ly   r e d uc e d   i ts   t r a in in g   t i me .   T h e   c o mb ine d   us e   o f   bo t h   a p p r o a c h e s   p r ov id e d   a   s u bs t a n t ial  e nh a nc e m e n t   i n   t he   pe r f o r ma nc e   o f   t he   c a s c a de   e ns e mb le   ba s e d   o n   two   c r i ti c a l   i nd ic a t o r s ;     W e   i mp r o ve t he   t r a in i ng   a nd   a pp li c a ti on   p r oc e d u r e s   o f   the   c a s c a de   e ns e mb le   th r o ug h   t he   c omb i ne d   i m pl e m e n ta ti on   of   bo th   a p p r oa c he s   a s   m e n ti on e d   in   t he   f i r s t   s c ien t if ic   c o nt r ib ut io n   o f   th is   p a pe r ,   im p r o v ing   i ts   pe r f o r ma nc e   in   te r ms   o f   a c c u r a c y   a n d   t r a i ni ng   ti m e   w he n   s o lv in g   c las s i f i c a t i on   tas ks ,   pa r ti c u la r ly   in   t he   a na lys is   o f   la r ge   d a t a s e ts ;     W e   ha ve   de mo ns t r a te d   a   s ig ni f ica n t   e n ha nc e me nt   in  t he   pe r f o r ma nc e   o f   t he   c a s c a de   e ns e mb le   ( tr a i n in ti m e ,   g e n e r a l iz a t io n   p r ope r t ies )   c om pa r e d   t o   o th e r   p os s i ble   i mp le men ta ti on s .   T he   pa pe r   is   s tr uc tu r e a s   f oll ows in  s e c ti on  2,   the  e nha nc e ments   made   to  the  c a s c a de   e ns e mbl e   method  a r e   e xplaine d,   including   the  im p leme ntation  of   a   nove t r a ini ng   da ta  pa r t it ioni ng   a lgor it hm   a nd  the   int e gr a ti on  of   pr incipa c omponent  a na lys is   ( P C A)   a e a c leve l.   T he   r e s ult s   obtaine f r om  the  a ppli c a ti on  of   the  im pr ove c a s c a de   e n s e mbl e   method  a r e   pr e s e nted  in  s e c ti on  3,   a nd  the  im pli c a ti ons   of   the  f ind ings   a r e   dis c us s e d.   F inally,   s e c ti on  s umm a r ize s   the  ke f i ndings   a nd  c ontr ibut ions   of   the  s tudy .       2.   AN   I M P ROVE CA S CA DE   E NSE M B L E   M E T HO D   T h e   c a s c a d e   e n s e m b l e   i m p r o v e d   i n   t h i s   p a p e r   i s   b a s e d   o n   [ 3 3 ] .   A s   p r e v i o u s l y   m e n t i o n e d ,   I z o n i n   e t   a l .   [ 3 3 ]   p r op os e d   a   h ie r a r c hi c a l   c las s if ie r   t ha t   us e s   a   hi gh - s pe e d   S G D   q ua d r a t ic   W i e n e r   p ol yn om ia l   f o r   no n li ne a r   t r a ns f o r ma t io n   o f   th e   in pu t   d a t a   a t   e a c h   le ve l   o f   t he   c a s c a de .   T he   t r a in in g   d a t a s e t   is   d iv id e d   in t o   e q ua l   pa r ts ,   a nd  t he   n um be r   o f   pa r t s   d e t e r m in e s   the   n um be r   o f   c a s c a de   l e ve ls .   Ho we ve r ,   it   s h ou ld   b e   n o ted   t ha t   th e   e xis t ing   m e t ho h a s   tw o   d r a wba c ks .   O ne   is   the   f o r ma ti on   o f   r a nd om   s ubs a m pl e s   o f   th e   s a m e   s ize   ( w i th ou r e pe ti t io ns )   f o r   e a c l e v e l   o f   t he   c a s c a de .   T h is   m a y   r e s ul t   in   we a k   r e gr e s s or s   r e c e iv i ng   on ly   a   s m a l l   p o r t io n   of   t he   us e f u l   i n f o r ma ti on  f o r   a na lys is ,   wh ic c o ul po te nt ia ll y   r e d uc e   the   a c c ur a c y   o f   t he   c a s c a d e   a s   a   wh ole .   S e c on d ,   t he   us e   of   a   no n li ne a r   e xp a ns io n   s c h e m e   f o r   t he   p r ob le m   i np uts   ba s e d   o th e   q ua d r a t ic   W ie ne r   p ol yn om ia l   r e p r e s e n ts   a no th e r   p o ten t ia d is a dv a n ta ge .   W h il e   th is   a p pr oa c h   ha s   b e e n   s h ow n   t o   i mp r ove   t he   a c c u r a c y   o f   li ne a r   c las s i f ie r s ,   i t   a ls o   e xp a n ds   t he   s pa c e   o f   t a s k   i np u ts ,   wh ic c a r e s u lt   in   a   s ig ni f i c a nt   in c r e a s e   in   tr a i n in t im e ,   e s pe c i a l ly   whe n   de a li n wi t h i gh - d i men s i ona l   d a t a   o f   l a r ge   vo lu me .   Ho we v e r ,   in   t his   pa p e r ,   we   a i t o   a d d r e s s   b o th   o f   th e s e   d r a wb a c ks .   n e w   d a t a   pa r t i ti on in a l go r it h w a s   us e in   c on ju nc t io wi th   a dd it io na a p pl ic a t io o f   P C a t   e a c h   l e v e l   of   the  h ie r a r c h ica l   e ns e mb le .   T he   f ir s t   a p p r o a c h   s ho we d   a   s ig ni f ica nt   im p r o ve men t   i t he   a c c u r a c y   o f   t he   e n s e m b le  m e th od ,   wh il e   t he   s e c o nd   a p p r oa c h   s ig n if ic a n tl y   r e du c e d   i ts   t r a i n in g   t im e .   T h e   c om bi ne d   us e   o f   bo th   a pp r oa c he s   p r ov id e d   a   s u bs t a n ti a l   e n ha n c e men t   in   th e   pe r f or man c e   of   t he   c a s c a de   e ns e mb le   ba s e d   o n   t wo   c r i ti c a l   i nd ic a t o r s .   L e us   take   a   c los e r   look  a thes e   two  methods .   I n   t his   pa pe r ,   we   p r opos e   a a ddit ional  us e   of   P C to   r e duc e   the   dim e ns ionalit o f   the  input   da ta  s pa c e   f o r   e a c h   we a c las s if ier   of   the   hier a r c hica l   method.   T he   ba s ic  c a s c a de   e ns e mb le  [ 33]   uti li s e s   a   qua dr a ti c   W i e ne r   polynom ial  a e a c leve l,   whic c a incr e a s e   the   dim e ns ionalit of   the  input   da ta  s pa c e .   T his   a ppr oa c a ll ows   f or   a   mo r e   e f f icie nt  a nd  e f f e c ti ve   im plem e ntation  of   the   method.   T o   a utom a te  thi s   pr oc e dur e ,   we   us e the  metho d   of   c a lcula ti ng  c umul a ti ve   va r ianc e   e xplaine va lues .   I ha s   be e de ter mi ne that  the  number   of   pr incipa c omponents   c a be   a utom a ti c a ll s e lec te to  mee the  us e r 's   s pe c if ied  pe r c e ntage   of   va r ianc e   e xplain e d.   R e c e nt  numer ica modelli ng   r e s ult s   ha ve   de m on s tr a ted  Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell Vol.   14 ,   No.   2 Apr il   20 25 :   96 3 - 97 4   966   that  s e lec ti ng  a   va lue  of   95%   gua r a ntee s   that  e a c we a c las s if ier   c ons ider s   the  f unda menta inf or mation   ne c e s s a r f or   the  a na lys is .   Our   modi f ica ti on  s ign if ica ntl r e duc e s   the  input   da ta  s pa c e   of   the  pr o blem  by  dis c a r ding  les s   s igni f ica nt  or   nois pr incipa l   c omp one nts .   T his   r e duc ti on   is   by  mo r e   than  10   ti mes   a n he lps   to  s hor ten  the  tr a ini ng   dur a ti on   f o r   both   e a c we a mac hine  lea r ning - ba s e c las s if ier   a nd  the   im pr ove c a s c a de   e ns e mbl e   a s   a   whole .   W e   c a ll   the   us e   of   thi s   p r oc e dur e   in  the   ba s e li ne   me thod  [ 33 ]   modi f ica ti on  1   [ 3 5] .   B oth  the  ba s ic  [ 33]   a nd  the   im pr ove d   c a s c a de   e ns e mbl e   in   thi s   pa pe r   r e quir e   divi ding   a   lar ge   da tas e t   int pa r ts   to   f or m   a   c a s c a de   s tr uc tur e .   A   n e da ta  pa r ti ti oning  a lgor it hm  is   p r opos e in  the   pa pe r   f o r   f or mi ng   s ubs e ts   a e a c leve of   the  c a s c a de .   T his   is   a c hieve by  r a ndoml s e lec ti ng  a   number   o f   ve c tor s   f r om  the   tr a ini ng  s e that  c or r e s ponds   to  the  us e r - de f ined  s iz e .   T hus ,   the  s ubs e ts   f or   the  im p r ove methods   c a be   e it he r   lar ge r   o r   s maller   in   s ize   c ompar e d   to   the  s ubs e ts   f or   the   o r igi na l   method   [ 33] .   Additi ona ll y,   the  s ub s e ts   may  c ontain  r e pe a ted  ve c tor s ,   whic is   not  a l lowe in  th e   e xis ti ng  method  [ 33] .   T he s e   modi f ica ti ons   a im   to   e nha nc e   the  a c c ur a c of   e a c we a c las s if ier   a nd  the   im pr o ve S GD - ba s e c a s c a d e   e ns e mbl e   a s   a   whole .   T he   a ppr oa c us e in  the  o r igi na l   method  [ 33]   is   r e f e r r e d   to  a s   m odif ica ti on  2   [ 36] .   T he   pe r f o r manc e   of   the  e xis ti ng   c a s c a de   e ns e mbl e   [ 33]   c a be   e nha nc e by  c ombi ning  mo dif ica ti on  a nd  modi f ica ti on  2.   How e ve r ,   it   is   ne c e s s a r to   modi f the   tr a ini ng   a lgor it hms   a nd   a pply  them   to   t he   im pr ove d   S GD - ba s e c a s c a d e   e ns e mbl e .   P lea s e   r e f e r   to   F igur e   f or   the  f low  c ha r o f   the   i mpr ove d   S GD - ba s e c a s c a de   e ns e mbl e   tr a ini ng.   L e us   e xplor e   the  ke s tage s   of   the  e nha nc e tr a ini ng  pr oc e s s   a nd  the  a ppli c a ti on  of   the  im pr ove method  us ing   modi f ica ti on   1   a nd   modi f ica ti on   2   in  gr e a ter   de tail .   I n   or de r   to   do   s o,   we   will   int r o duc e   the  c onc e pt  of   da ta   pr oc e s s ing  pr oc e dur e ,   whic is   ut il ize a e ve r y   leve o f   the   im pr ove d   S GD - ba s e c a s c a de   e ns e mbl e ,   a nd  outl ine  it s   ke s tage s .   T he   da ta  pr oc e s s ing  pr oc e dur e   c ons is t s   of   the  f oll owing  s teps i)   nor maliza ti on  of   da ta   by  c olum ns   ba s e on  the   ma xim u e leme nt;   ii )   qua dr a ti c   e xpa ns ion  of   the  no r malize d   input s   of   a   given  da ta  s a mpl e   via  the  wie ne r   polynom ial;   a nd   ii i)   a pply ing  P C a nd  s e lec ti ng  the  number   of   pr incipa c omponents   that  pr ovide  95%   of   the  e xpl a ined  va r ianc e .   B e f or e   be ginni ng  the  tr a ini ng  p r oc e dur e ,   the  tr a ini ng  da tas e is   divi de d   int o   s ubs e ts   us ing  a   ne da ta  pa r ti ti on ing  a lgor i thm .   T his   c r e a tes   N - s ub s e ts   with  r e pe ti ti ons ,   whic de ter m ine  the  N   leve ls   of   the   im pr ove S GD - ba s e c a s c a de   e ns e mbl e .     2. 1.     L e ar n in a lgori t h m     S tep  1.   T he   da ta   p r oc e s s ing  pr oc e dur e   is   pe r f or me on  the  f ir s s ubs e to  tr a in  the  we a c las s if ier   ( S GD - ba s e c las s if ier   1) .     S t e p   2 .   T h e   d a ta   p r oc e s s i ng   p r oc e du r e   is   pe r f o r me o n   t he   s e c on d   s u bs e a n a p pl ie to   th e   p r e - t r a i ne d   w e a c las s i f i e r   1 .   T h e   o ut pu t   v a l ue s   o bt a i ne d   f r om   S G D - b a s e d   c l a s s i f ie r   a r e   a dde d   t o   s u bs e t   2   a s   a n   a d di ti o na f e a t ur e .   A f t e r   pe r f o r mi ng   th e   da ta   p r oc e s s in g   p r oc e du r e ,   we a k   c las s if ie r   2   ( S G D - ba s e d   c las s i f i e r   2)   is   t r a in e d .     S tep  3.   T he   d a ta  pr oc e s s ing  pr oc e dur e   is   pe r f o r m e on  the  thi r d   s ubs e a nd  a ppli e s   it   to  the  p r e vious ly  tr a ined  we a c las s if ier   1.   T he   output   va lues   obtaine f r om  S GD - ba s e c las s if ier   a r e   a dde t o   s ubs e a s   a a ddit ional   f e a tur e .   T he n,   pe r f o r m   the  da ta   pr o c e s s ing  pr oc e dur e   a nd  a pply   it   to   the   pr e - tr a ined  we a k   c l a s s i f i e r   2 .   T h e   o u t p u t   v a l u e s   o b t a i n e d   f r o m   S G D - b a s e d   c l a s s i f i e r   2   a r e   a d d e d   t o   s u b s e t   3   a s   a n   a d d i t i o n a l   f e a t u r e .   F i n a l l y ,   a f t e r   p e r f o r m i n g   t h e   d a t a   p r o c e s s i n g   p r o c e d u r e ,   w e a k   c l a s s i f i e r   3   ( S G D - b a s e d   c l a s s i f i e r   3 )   i s   t r a i n e d .     S tep  N.   T he   da ta   pr oc e s s ing  pr oc e dur e   is   pe r f or med  on   the  las t,   s ubs e N   a nd   it s   a ppli c a ti on   to   the   pr e vious ly  tr a ined  we a c las s if ier   1.   T he   output   va lues   obtaine f r om  S GD - ba s e c las s if ier   a r e   a dde to  s ubs e a s   a a ddit ional  f e a tur e .   T he n,   pe r f or the  da ta  pr oc e s s ing  pr oc e dur e   a nd  a pply  it   t the     pr e - tr a ined  we a c las s if ier   2.   T he   output   va lues   obtaine f r om   S GD - ba s e c las s if ier   a r e   a dde d   to   s ubs e a s   a a ddit ional  f e a tur e .   T he n ,   pe r f or m   the  da ta  p r oc e s s ing  pr oc e dur e   a nd  a pply  it   to   the  p r e - tr a ined  we a c las s if ier   3.   T he s e   s teps   a r e   r e pe a ted  a e a c s ubs e que nt  leve unti the  f inal  leve of   the  im p r ove d     S GD - ba s e c a s c a de   e ns e mbl e   is   r e a c he d,   whe r e   the   las t   we a c las s if ier   ( S GD - ba s e c las s if ier   N)   is   t r a i ne d.     2. 2.     App li c a t ion   a lgorit h m   I the  a ppli c a ti on  a lgor it hm  f or   the  im p r ove S G D - ba s e c a s c a de   e ns e mbl e ,   the  input   da ta  ve c tor   i s   c las s if ied  int one   of   the   pr oblem - de f ined  c las s e s   u s ing  a   pr e - tr a ined  c a s c a de   s c he m e   with  leve ls .   T he   given   ve c tor   unde r goe s   a   d a ta   pr oc e s s ing  p r oc e dur e   a n is   then   a ppli e to   the  p r e - tr a ined  we a k   c las s if ier   1 .   T he   output   va lues   obtaine d   f r om   S GD - ba s e c las s if ier   1   we r e   a dde d   to  the  given   ve c tor   a s   a a ddit ional  f e a tur e .   T he n ,   the  d a ta  pr oc e s s ing  pr oc e dur e   wa s   pe r f or med  a nd  the  ve c tor   wa s   a ppli e to  the  pr e - tr a ined  we a k   c las s if ier   2.   S ubs e que ntl y,   the  output   va lues   obtaine f r om   S GD - ba s e c las s if ier   we r e   a dde d   to  t he   given   da ta  ve c tor   a s   a nother   a ddit ional  f e a tur e .   T he   d a ta   pr oc e s s ing  pr oc e dur e   wa s   pe r f or med  a ga in  a nd   th e   ve c tor   wa s   a ppli e to  the  pr e - tr a ined  we a c las s if ier   3 .   All  the  s teps   outl ined  pr e vios ly  a r e   c a r r ied  out  a e a c s ubs e qu e nt  leve unti the  s tate   leve of   the  im pr ove S GD - ba s e c a s c a d e   e ns e mbl e   is   r e a c he d.   At  thi s   po int ,   the  f inal   we a c las s if ier   ( S GD - ba s e c las s if ier   N)   is   a ppli e to  de ter mi ne   the   de s ir e membe r s hip  c las s   of   the  input   da ta  ve c tor .   T he   i mpr ove d   c a s c a de   e n s e mbl e   of f e r s   the  f o ll owing  a dva ntage s :   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   Ar ti f   I ntell     I S S N:   2252 - 8938         A e nhanc e c as c ade   e ns e mble   me thod  for   big  da ta  analys is   ( I v an  I z onin )   967     I mpr ove s   the  ge ne r a li z a ti on  p r ope r ti e s   of   the  da ta  c las s if ica ti on  method;     I nc r e a s e s   the  c las s if ica ti on  a c c ur a c y;     R e duc e s   s ub s a mpl e   dim e ns ionalit a e a c c a s c a de   e ns e mbl e   leve l;     R e duc e s   the  c ompl e xit of   c omput a ti on  o f   the   s e lec ted  we a c las s if ier ;     S hor tens   the  tr a ini ng   pr oc e dur e   dur a ti on.           F igur e   1.   F low - c ha r f o r   the   i m p r ov e d   S G D - ba s e d   c a s c a de   e ns e mb le   ( t r a i n in g   m od e )       3.   RE S UL T S   AN DI S CU S S I ON   T s im ulate   the   ope r a ti on   of   the   im p r ove c a s c a de   e ns e mbl e ,   the   a uthor s   c r e a ted   c us tom   s of twa r e   us ing  the  P ython   pr ogr a mm ing   langua ge ,   ba s e on  pr inciples   f r om   [ 37] ,   [ 38 ] .   E xpe r im e ntal  s tud ies   we r e   c a r r ied  out  on  a   c omput e r   with  a n   I ntel®  C or e ™  i7 - 8750H  pr oc e s s or   ( c lock  f r e que nc 2. 20   GH z ) ,   R AM   GB .     3. 1.     Dat as e t   d e s c r ip t ion s   T he   2021  United  S tate s   Dis e a s e   R is F a c tor   S ur ve il lanc e   S ys tem  ( B R F S S )   pr ovided  e xtens ive   da tas e ts ,   whic we r e   dis s e mi na ted  by  the   C e nter s   f or   Dis e a s e   C ontr ol  a nd   P r e ve nti on   a c r os s   the  Unite S tate s   a nd  it s   s ur ve ye r e gions   [ 37] .   T he   2021  c yc le  of   th e   B R F S S   inves ti ga ted  a   r a nge   of   he a lt pa r a m e ter s ,   s uc a s   ove r a ll   he a lt a s s e s s ment,   dur a ti on  of   we ll ne s s ,   phys ica a c ti vit y   leve ls ,   hype r tens ion  a nd   c h oles ter ol   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell Vol.   14 ,   No.   2 Apr il   20 25 :   96 3 - 97 4   968   s c r e e ning,   pr e va lenc e   of   c hr onic  il lnes s   a nd  a r thr i ti c   c ondit ions ,   tobac c us a ge   pa tt e r ns ,   f r uit   a nd   v e ge table   c ons umpt ion  ha bit s ,   a nd  a c c e s s ibi li ty  to  medic a a s s is tan c e   ( c or e   s e c ti on) .   T he   pr im a r da tas e t   ini ti a ll c ontaine a   br oa s pe c tr um  of   inf o r mation  r e late to  thes e   he a lt c ondit ions .   T his   c ompr e he ns ive  da tas e pr ovides   a   s oli f ounda ti on  f or   f u r ther   a na lys is   a nd  r e s e a r c h.   T he   da ta s e wa s   r e f ined  to  f oc us   s olely  on  li f e s tyl e   f a c tor s   r e leva nt   to   human   he a lt h.   Ou r   main   objec ti ve   wa s   to   p r e dict   oc c ur r e nc e s   of   c a r diovas c ular   dis e a s e s   thr ough  a   bina r c las s if ica ti on  tas k.   T he   r e s ult ing  da tas e c ons is t s   of   308, 854   r e c or ds ,   e a c with  29   a t tr ibut e s .   T he   f i r s pha s e   o f   da ta   pr e pr oc e s s ing  invol ve d   ide nti f ying  a nd   r e movi ng   dupli c a te   e ntr ies   to   e ns ur e   the  uniquene s s   of   e a c r e c or d.   T his   s tep  is   c r uc ial   f or   maintaining  the   int e gr it y   of   the  da tas e a nd  p r e ve nti ng   r e dunda nc in  the  a na lys is .   B e li mi na ti ng  dupli c a te  e ntr ies ,   the  r e s e a r c he r s   a im e to  s tr e a ml ine  th e   da tas e t   a nd  pr e pa r e   it   f or   f ur ther   a na lys is .   Af ter   e ns ur ing  t he   uniquene s s   of   e a c r e c or d,   the  ne xt  s tep  wa s   to  a ddr e s s   a nd  r e c ti f a ny  mi s s ing  va lues   withi the  da tas e t .   M is s ing  va lues   c a s igni f ica ntl im pa c the  qua li ty  a nd   r e li a bil it of   the  a na lys is .   B a ddr e s s ing  a nd  r e c ti f ying  thes e   mi s s ing  va lue s ,   the  r e s e a r c he r s   a im e to   e nha nc e   the  a c c ur a c a nd   r obus tnes s   of   the  da tas e f or   s ubs e que nt  a na lyt ica pr oc e s s e s .   F oll owing   the  p r e pr oc e s s ing   s tage ,   the  s ubs e que nt  a na lyt ica s tep  f oc us e on  mi ti ga ti ng  the  c las s   im ba lanc e   obs e r ve in  the  da tas e t.   I nit ially,   the  dis tr ibut ion   r a ti o   be twe e c las s e s   s tood  a t   92 %   to   8 % .   M a int a ini ng   ba lanc e c las s e s   is   c r uc ial   f o r   the  e f f ica c of   mac hine  lea r n ing  models ,   a s   it   c a s igni f ica ntl im pa c the  model's   a bil it y   to  make   a c c ur a te  pr e dictions .   T a c hieve   ba lanc e d   c las s e s ,   two  pr incipa l   a lg or it hms   we r e   e mpl oye c onc ur r e ntl y:   s ynthetic  mi nor it ove r s a mpl ing   tec hn ique   ( S M OT E )   a nd  Ne a r M is s .   S M OT E   wa s   us e to  a ugment  ins tanc e s   of   the  mi nor it c las s ,   while  Ne a r M is s   w a s   e mpl oye to  r e duc e   ins tanc e s   of   the  major it c las s .   T his   it e r a ti ve   pr oc e s s   invol ve a djus ti ng   va r ious   pa r a mete r   va lues   to   r e g ulate   the   number   of   ins tanc e s   f r om   both   c las s e s ,   a i mi ng  to   a c hieve   a   mor e   ba lanc e dis tr ibut ion .   A f ter   a   thor ough  it e r a ti ve   p r oc e s s   of   a djus ti ng  pa r a mete r   va lues ,   it   ha s   be e de ter mi ne that  the  opti mal  a c c ur a c a nd  s upe r ior   ge ne r a li z a ti on  f o r   the  us e c las s if ier   c a be   a c hieve by  s e lec ti ng  e xa c tl 75, 000   ins tanc e s   f r om  e a c c l a s s   in  the  or igi na l   da tas e t.   As   a   r e s ult ,   the   f inal  da tas e f or   im pleme nti ng  mac hine  lea r ning   tr a ini ng   pr oc e dur e s   c ontains   150, 000  obs e r va ti ons .     3. 2.     Op t im al   p ar am e t e r s   s e lec t ion   f or   t h e   im p r ove d   c as c ad e   e n s e m b le   T he   s e lec ti on  of   p a r a mete r s   is   of   utm os im por tanc e   f or   the  im p r ove S GD - ba s e c a s c a de   e n s e mbl e .   T his   e ns e mbl e   joi ntl y   e mpl oys   a   ne w   da ta   pa r ti ti oning  a lgor it h a nd   a ddit ional   a ppli c a ti on   of   P C a t   e a c leve of   the   hier a r c hica e ns e mbl e .   I is   c r uc ial  to   d e ter mi ne   the  f ol l owing:     T he   opti mal   number   o f   leve ls   f o r   the   c a s c a de   e ns e mbl e ;     T he   opti mal  s ize   ( %   of   the  tr a ini ng  s a mpl e )   o f   e a c s ubs e wa s   r a ndoml ge ne r a ted  with  r e pe ti ti ons   of   the   im pr ove c a s c a de   e ns e mbl e   a c c or ding  to  the  e nha nc e tr a ini ng  da ta  s e pa r a ti on  a lgo r it hm ;     T he   opti mal   number   o f   pr incipa c omponents   a e a c leve of   the  e ns e mbl e   a f ter   a pplyi ng  P C A;     Optim a pa r a mete r s   f o r   e a c of   the  we a c las s if ier s .   T he   opti mal  pa r a mete r s   of   S GD   we r e   s e lec ted  us ing  the  gr id  s e a r c method  a s   a   we a pr e dictor   a e a c leve of   the  im pr ove c a s c a de   e ns e mbl e .   T he   number   of   pr incipa c omponents   us e in  the  hier a r c hica l   method  wa s   de ter mi ne ba s e on  the  c umul a ti ve   v a r ianc e   e xplaine d.   T his   a ppr oa c a ll ows   f or   the  c a l c ulation  of   the  tot a l   va r iation   in  the   da ta  e xplaine by   a   c h os e number   of   p r incipa c omponents .   F or   the  opti mi z a ti on  of   the   im pr ove d   S GD - ba s e c a s c a de   e ns e mbl e ,   we   s e lec ted  the  pr incipa l   c omponents   a t   e a c lev e of   the   c a s c a de   that  a c c ounted  f or   95%   of   the  e xplaine va r ianc e .   T he s e   c omponents   we r e   then  us e a s   input s   f or   e a c h   we a c las s if ier .   T his   a ppr oa c e ns ur e that   the  r e quir e number   of   pr incipa l   c omponents   f o r   e a c we a pr e dictor   of   the  e ns e mbl e   wa s   a utom a ti c a ll s e lec te d,   r e s ult ing  in  opti mi z e pe r f o r manc e .   T he   im p lem e ntation   of   a utom a ti on  in  thi s   pr oc e du r e   s igni f ica ntl r e duc e s   the  ti me  r e quir e to  c onduc r e s e a r c on  the  e f f e c ti ve ne s s   of   the  method   a nd  it s   p r a c ti c a a ppli c a ti on.   I thi s   pa pe r ,   s e ve r a e xpe r im e ntal   s tudi e s   we r e   c o nduc ted  to  de ter m ine  the   mos e f f icie nt  va lues   f or   the  f ir s t   two   pa r a mete r s   in   or de r   to   opti mi z e   the  e f f e c ti ve ne s s   of   the  i mpr ove S GD - ba s e c a s c a de   e ns e mbl e .   T his   a r ti c le   pr e s e nts   the   r e s ult s   o f   e xpe r im e nts   o the   a c c ur a c y,   s pe e d,   a nd   ge ne r a li z a ti on   pr ope r ti e s   of   the   pr opos e hier a r c hica method.   T he   number   o f   c a s c a de   leve ls   va r i e f r om  to   6,   a nd  r a ndom  s ubs a mpl e s   with  r e pe ti ti ons   we r e   f or med  a e a c leve of   the  c a s c a de   e ns e mbl e   of   dif f e r e nt  s ize s   ( r a nging  f r om   20%   to   90%   of   the  ini ti a l   tr a ini ng   s a mpl e   with  a   s tep  of   10% ) .   T he   r e s ult s   a r e   s hown  in   F igur e   2 ( a )   s hows   the  r e s ult s   in   tr a ini ng   mode,   a nd  F ig ur e   2 ( b )   s hows   the  r e s ult s   in  tes mo de .   F igur e   de mons tr a tes   that  u ti li z ing  a   s mall  pe r c e ntage   ( 20% - 30% )   o f   the   tr a ini ng  s a mpl e   to   c r e a te   r a ndom  s ubs a mpl e s   with   r e pe ti ti ons   yields   high   a c c ur a c dur ing   the   tr a ini ng   mode  o f   the   c a s c a de   e ns e mbl e .   How e ve r ,   thi s   a ppr oa c may  ne ga ti ve ly  im pa c t   it s   ge ne r a li z a ti on  pr ope r ti e s .   C onve r s e ly,   us ing  r a ndom   s ubs a mpl e s   with  a   volum e   o f   mor e   than   50%   of   th e   tr a ini ng   s a mpl e   e nha nc e s   a c c ur a c dur ing   the   a p pli c a ti on  mode  but  may  r e s ult   in  ove r tr a ini n of   the  method .   All  of   thes e   c ha r a c ter is ti c s   a pply  to  c a s c a de   de s i gns   with  2,   3 ,   4 ,   5 ,   a nd   leve ls .   I t   is   im por tant   to   note  that   u s ing  lar ge   s ubs a mpl e s   a e a c leve of   the  c a s c a de   e ns e mbl e   may  incr e a s e   the  tr a ini ng   ti me  o f   the  e nti r e   method .   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   Ar ti f   I ntell     I S S N:   2252 - 8938         A e nhanc e c as c ade   e ns e mble   me thod  for   big  da ta  analys is   ( I v an  I z onin )   969     ( a )       ( b)     F igur e   2.   C ha nge   in  the   a c c ur a c of   the  im pr ove d   S GD - ba s e c a s c a de   e n s e mbl e   ( F 1 - s c or e )   whe c ha nging  the  %   o f   t r a ini ng  s a mpl e   us a ge   with  r e pe ti ti on  a nd  the  number   o f   e ns e mbl e   leve ls ( a )   f or   tr a ini ng   mo de   a nd   ( b)   f or   tes mode       F igur e   2   a ls o   il lus tr a tes   that   incr e a s ing  the   numbe r   o f   leve ls   in   the  c a s c a de   e ns e mbl e   ( be yond   5)   f or   pr oc e s s ing  a   given  da tas e is   not  r e c omm e nde d,   a s   it   may  r e duc e   the  ge ne r a li z a ti on  p r ope r ti e s   of   the  p r opos e de s ign.   W e   s ugge s that  the   opti mal  pa r a mete r s   f or   s olvi ng  the   pr o blem   a r e   to   us e   a   c a s c a de   of   f our   le ve ls   a nd  to  f or m   r a ndom   s ubs a mpl e s   a e a c leve us ing  40 %   of   the  t r a ini ng  s a mpl e .   T he s e   r e s ult s   a r e   s umm a r ize in  F igur e   3.   B a s e on  the  r e s ult s   pr e s e nt  in  F ig ur e   3,   i c a be   s tate that  the  S GD - ba s e c a s c a d e   e ns e mb le,   whe n   tr a ined  on  s ubs a mpl e s   c ompr is ing  40%   of   the  tr a ini ng  s a mpl e   s ize ,   e xhibi ts   the  highes ge ne r a li z a ti on  pr ope r ti e s   a nd  a c c ur a c y   in   both  modes .   I is   wor t noti ng   that   the  us e   o f   s ubs a mpl e s   of   thi s   s ize   doe s   not  s igni f ica ntl incr e a s e   the  tr a ini ng   ti me  o f   the   meth od  c ompar e to  the  us e   of   lar ge r   s ubs a mpl e s .           F igur e   3.   T he   be s pa r a mete r s   f o r   the  i m p r o ve d   S GD - ba s e d   c a s c a de   e ns e mb le   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell Vol.   14 ,   No.   2 Apr il   20 25 :   96 3 - 97 4   970   3. 3.     Re s u lt s   T a ble  1   pr e s e nts   the   r e s ult s   o f   the  im p r ove d   S GD - ba s e c a s c a de   e ns e mbl e   us ing  f our   pe r f or manc e   indi c a tor s .   T h e   r e s ul ts   f r o m   T a b le   1   i nc lu de   t he   o p ti mi z e d   p a r a m e t e r s   o f   th e   S G D - ba s e d   c a s c a de   e ns e mb le  i m p r o ve d   in   t his   a r t ic le T h e   r e s u l ts   c l e a r ly   de m on s tr a te   it s   s up e r i or   pe r f or ma nc e   c o mp a r e d   to   ot he r   me th o ds .       T a ble  1.   R e s ult s   f or   the   im pr ove c a s c a de   e ns e mbl e   P e r f or ma nc e  i ndi c a to r   T r a in in g mode   T e s mode   P r e c is io n   0.806   0.884   R e c a ll   0.803   0.75   F1 - s c or e   0.802   0.801   T r a in in g t im e  ( s e c onds )   0.31   -       3. 4.     Com p ar is on   an d   d is c u s s ion   T he   pr opos e s olut ion,   the  im pr ove c a s c a de   e ns e mbl e ,   wa s   e va luate f or   it s   e f f e c ti ve ne s s   by  c ompar ing  it   wi th  s e ve r a s im il a r   methods :   i)   m e t hod  [ 17]   ( S GD   a lgor it hm) ii )   m e thod   [ 18]   ( e xten de d - input   S GD ) ;   ii i )   m e thod  [ 33]   ( ba s ic  c a s c a de   e ns e mbl e ) ;   iv)   m odif ica ti on   1   ( ba s ic  c a s c a de   e ns e mbl e   with  P C on  e a c c a s c a de   leve l)   [ 35 ] ;   a nd  v )   m odif ica ti on   2   ( b a s ic  c a s c a de   e ns e mbl e   with  s ubs a mpl e s   with  r e pe t it ions   on   e a c c a s c a de   leve l)   [ 36] .   T he   a utho r s   thor oughly  a na lyze the  da ta  s e s tudi e in  thi s   a r ti c le  a nd  c onf idently  inves ti ga ted  the  e f f e c ti ve ne s s   of   e a c method   ment ioned  a bove .   T he e xpe r tl s e lec ted  the   opti mal   pa r a mete r s   of   e a c method  us ing  the  gr id   s e a r c method.   T he   r e s ult s   a r e   s umm a r ize in  T a ble  2.       T a ble  2.   Opt im a pa r a mete r s   f or   a ll   inves ti ga ted  m e thods   M e th od   O pt im a pa r a me te r s   M e th od [ 17]   lo s s = ' lo g' , pe na lt y= l2 , a lp ha = 0.0001.   M e th od [ 18]   S G D   c la s s if ie r , qua dr a ti c s  W ie ne r  pol ynomi a l.   M e th od [ 33]   C a s c a d e  e ns e mbl e  of  t he  S G D  a lg or it hms ;   qua dr a ti c s   W ie ne r  pol ynomi a l;   5 de pt h l e ve ls ;   tr a in in g s a mpl e  i s  di vi de d i nt o 5 e qua pa r ts .   M odi f ic a ti on 1  [ 35]   C a s c a d e  e ns e mbl e  of  t he  S G D  a lg or it hms ;   qua dr a ti c s  W ie ne r  pol ynomi a l;   6 de pt h l e ve ls ;   in put  da ta  s pa c e  i s  r e duc e d i n di me ns io n a li ty  a e a c h l e ve of  t h e   c a s c a de  us in g P C A e ns ur in g a le a s 95%  of  t he   va r ia nc e .   M odi f ic a ti on 2  [ 36]   C a s c a d e  e ns e mbl e  of  t he  S G D  a lg or it hms ;   qua dr a ti c s  W ie ne r  pol ynomi a l;   3 de pt h l e ve ls ;   tr a in in g s a mpl e  w a s   s ubs a mpl e d r a ndoml y a e a c h l e ve l,  w it h 7 0%  of  t he  s a mpl e  be in s e le c t e d w it h r e pe ti ti ons .   P r opos e d s ol ut io n   C a s c a d e  e ns e mbl e  of  t he  S G D  a lg or it hms ;   qua dr a ti c s  W ie ne r  pol ynomi a l;   4 de pt h l e ve ls ;   tr a in in g s a mpl e  w a s   s ubs a mpl e d r a ndoml y a e a c h l e ve l,  w it h 4 0%  of  t he  s a mpl e  be in g s e le c t e d w it h r e pe ti ti ons ;   in put  da ta  s p a c e  i s  r e duc e d i n di me ns io n a li ty  a e a c h l e ve of  t h e  c a s c a de  us in g P C A e ns ur in g a le a s 95%  of  t he   va r ia nc e .       T wo  c r it e r ia  we r e   s e lec ted  to  c ompar e   the  e f f e c ti ve ne s s   of   a ll   the  methods   unde r   s tudy:   i)   F 1 - s c or e   in   tr a ini ng  a nd   tes modes ;   a nd   ii )   tr a ini ng   ti me   ( in   s e c onds ) the  f ir s c r it e r ion   pr ovides   a n   oppor tuni ty   to   c ompar e   the  a c c ur a c of   a ll   methods   in  a ppli c a ti on  mode.   F ur ther mor e ,   the  ge ne r a li z a ti on  pr ope r ti e s   of   e a c h   method  c a be   e va luate by  the  dif f e r e nc e   in   F s c or e s   be twe e tr a ini ng  a nd  tes mode.   T he   s e c ond  c r it e r ion  a ll ows   us   to  e s ti mate   the  dur a ti on  of   the  t r a ini ng  pr oc e dur e   f or   the  s e lec ted  method,   whic is   c r uc ial  whe a na lyzing  lar ge   da tas e ts .   F igur e s   a nd  s how  the  c ompar is on  r e s ult s   f or   F s c or e   a nd  tr a ini ng  t im e ,   r e s pe c ti ve ly,   ba s e on  both  c r it e r ia .   A f ter   c a r e f ul  a na lys is   of   the   c ompar i s on  r e s ult s   pr e s e nted  in  F igu r e s   a nd   5,   it   is   c lea r   th a the   method  [ 17 ] ,   whic is   ba s e on   the  high - s pe e S GD   a lgor it hm ,   ha s   the  f a s tes tr a ini ng   ti me   in  F ig ur e   5,   but   e xhibi ts   the  lowe s c las s if ica ti on  a c c ur a c a s   s hown  in   F igu r e   4 .   How e ve r ,   thi s   method   s ti ll   de mons tr a tes   high  ge ne r a li z a ti on  pr ope r ti e s .   T he   m e thod  [ 18]   wa s   a bl e   to  incr e a s e   the  c las s if ica ti on  a c c ur a c of   the  da ta  by  mor e   than  5%   a c c or ding  to   the  F 1 - s c or e   in  F igu r e   4,   th r o ugh  the  c ombi na ti on   of   the  h igh - s pe e S GD   a lgor i thm   a nd  the  qua dr a ti c   W iene r   polynom ial.   How e ve r ,   the  us e   of   qua dr a ti c   W ien e r   polynom ial  s igni f ica ntl incr e a s e s   th e   dim e ns ionalit of   the  p r oblem,   whic in   tur n   lea ds   to  a   longer   tr a ini ng  p r oc e dur e .   T he   t r a ini ng  ti me  f or   thi s   method  ha s   incr e a s e s igni f ica ntl y   c ompar e t the  p r e vious   method   s e e   F igur e   5.   F u r ther mor e ,   the   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   Ar ti f   I ntell     I S S N:   2252 - 8938         A e nhanc e c as c ade   e ns e mble   me thod  for   big  da ta  analys is   ( I v an  I z onin )   971   ge ne r a li z a ti on  pr ope r ti e s   of   thi s   method  ha ve   de ter i or a ted.   S pe c if ica ll y,   the  di f f e r e nc e   be twe e the   F 1 - s c or e   in  both  tr a ini ng   modes   is   s igni f ica ntl highe r   than  that  of   method  [ 17 ] .   T he   ba s ic  c a s c a de   e ns e mbl e   ( method   [ 33] )   ha s   be e s hown  to   a c hieve   a   10%   higher   a c c ur a c y     ( F 1 - s c or e )   c ompar e to   m e thod   [ 17]   a nd   a lm os 5 %   c ompar e d   to  method  [ 18] .   F u r ther mor e ,   thi s   me thod  ha s   the  a dva ntage   of   r e duc ing  the  dur a t ion  of   the  tr a ini ng  pr oc e dur e   by  a lm os ha lf   c ompar e to  method   [ 18] .   B ut   the  ba s ic  c a s c a de   e ns e mbl e   ha s   the   wor s t   ge ne r a li z a ti on  pr ope r ti e s   of   a ll   the  methods   inves ti ga ted  a s   s hown  in   F igur e   4.   T he   ba s ic  c a s c a de   e ns e mbl e   ( method  [ 33] )   wa s   opti mi z e by  i mpl e menting  P C a e a c leve ( m odif ica ti on   1) ,   r e s ult ing  in   a   r e duc ti on   of   tr a in in ti me   by   a lm os 7   ti mes .   F u r ther mor e ,   m odif ica ti on  1   led  to  a   2 %   incr e a s e   in   a c c ur a c in  the  a ppli c a ti on   mo de .   T he s e   be ne f it s   a r e   a tt r ibut e to   the  s ubs tantial  r e duc ti on   in  s ubs a mpl e   dim e ns ionalit a e a c leve of   the  c a s c a de   e ns e mbl e .   T he   number   of   pr oblema ti c   inp uts   a e a c h   leve of   the  c a s c a de   e ns e mbl e   wa s   e f f e c ti ve ly  r e duc e by  mor e   than  tenf old   by  us ing  P C A,   whic a c c ounts   f or   95%   of   the   va r ianc e .   T he s e   lea s s igni f ica nt  p r inc ipal  c omponents   e it he r   do   not   inf luenc e   the  c las s if ica ti on  r e s ult s   or   a r e   nois e   c ompon e nts   ne ga ti ve ly  a f f e c ti ng  the  c las s if ica ti on  r e s ult s .   T he   a c c ur a c of   the  ba s ic  c a s c a de   e ns e mbl e   ( method  [ 33] )   wa s   im pr ove by  im ple menting  a   ne s ubs a mpl ing  s c he me  f or   e a c c a s c a de   leve ( m odif ica ti on  2 ) .   T his   r e s ult e in   a   2%   incr e a s e   in  a c c ur a c ba s e o n   F 1 - s c or e   a s   s hown  in  F igur e   4 .   Additi ona ll y,   th is   modi f ica ti on   s igni f ica ntl e n ha nc e the  ge ne r a li z a ti on  pr ope r ti e s   c ompar e d   to  the     m e thod  [ 33 ] .   None thele s s ,   the   incr e a s e s ubs a mpl e   s ize   a t   e a c leve l   of   the   c a s c a de   e ns e mbl e   led  to   a   tr a ini ng   pr oc e dur e   that  wa s   ne a r ly  twice   a s   long,   a s   il lus tr a t e in  F igu r e   5.           F igur e   4.   F 1 - s c or e   f or   a ll   inves ti ga ted  methods           F igur e   5.   T r a ini ng  t im e   ( in   s e c onds )   f or   a ll   inves ti ga ted  methods       T he   c ombi ne us e   of   the  ne s ubs a mpl ing  s c he me  a nd  the  a ppli c a ti on  of   P C a e a c leve o f   the   ba s ic  c a s c a de   e ns e mbl e   ( method  [ 33 ] ) ,   whic is   pr opos e in   thi s   a r ti c le  ( pr opos e s olut ion) ,   pr ovi de high   a c c ur a c y,   the  highes ge ne r a li z a ti on,   a nd  s igni f ic a ntl lowe r   tr a ini ng  t im e   c ompar e to  the  b a s ic   c a s c a d e   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell Vol.   14 ,   No.   2 Apr il   20 25 :   96 3 - 97 4   972   e ns e mbl e   a s   s hown  in  F igur e s   a nd  5.   T he s e   a dva ntage s   make   thi s   method  a   ve r pr a c ti c a s olut io n.   F utur e   r e s e a r c c ould  be   dir e c ted  towa r ds   two   main  a r e a s :     T he   a c c ur a c of   the  im pr ove d   c a s c a de   e ns e mbl e   c a be   e nha nc e by  us ing  a lt e r na ti ve   l inea r   metho ds   a s   we a c las s if ier s .   I is   im por tant  to  c ons ider   thi s   op ti on  only  i f   thes e   methods   ha ve   be e pr ove to  pr ovide  higher   a c c ur a c than  S GD   whe a na lyzing  a   s pe c if ic  da tas e t.     I mpl e menting  a lt e r na t ive  pr incipa l   c omponent   e xt r a c ti on  methods ,   s uc a s   ne ur a l   ne twor k   a na logu e s   of   P C A,   c ould   potentially   r e duc e   the  du r a ti on  o f   th e   tr a ini ng   pr oc e dur e   f o r   the  e nti r e   c a s c a de   e ns e mbl e ,   pr ovided  that  they   ha ve   a   f a s ter   pe r f or manc e   than  t he   c las s ica P C A.   How e ve r ,   both  o f   t he   a bove   a ppr oa c he s   s hould  be   us e taking  int o   a c c ount  the  s pe c if ics   of   a   pa r ti c ular   tas a nd  the  qua li ty,   qua nti ty   a nd  dim e ns ionalit o f   the   tr a ini ng  da ta  s e a va il a ble  to   s olve  it   with  mac hine  l e a r ning.       4.   CONC L USI ON   T he   incr e a s e   in  digi tal  da ta  pr e s e nts   both  c ha ll e nge s   a nd  oppor tuni ti e s .   How e ve r ,   with  the  va s volum e   a nd  c ompl e xit y   of   big   da ta ,   tr a dit ional   pr oc e s s ing  methods   c a be   s tr a ined .   M a c hine  lea r ning  is   a   ke s olut ion   that  e na bles   a na lys is   a nd  ins ight   e xtr a c ti on   f r om  l a r ge   da tas e ts .   T he   int e gr a ti on   of   mac hine  lea r ning   a nd  big   da ta  ha s   e volved  s igni f ica ntl y,   with  c a s c a de   e ns e mbl e s ,   pa r ti c ular ly  e ns e mbl e   methods ,   s howing  pr omi s e .   W he de s igni ng  c a s c a de   e n s e mbl e s ,   it   is   c r uc ial  t ba lanc e   the  f a c tor s   of   high  a c c ur a c a nd  lengthy   tr a ini ng,   e s pe c ially  with  c ompl e x   da tas e ts   a nd  nonl inea r   tec hniques .   How e ve r ,   with   c a r e f ul   c ons ider a ti on   a nd   e xpe r ti s e ,   c a s c a de   e ns e mbl e s   c a s ti ll   a c hieve   im pr e s s ive  a c c ur a c y.   Additi ona ll y ,   pa r ti ti on ing  da tas e ts   int o   s u bs e ts   c a n   li mi t   mac h ine  lea r ning   a lgo r it hms a c c e s s   to   the   e nt ir e   da tas e t,   potentially   a f f e c ti ng  the  ove r a ll   pe r f or manc e   of   the  c a s c a de   model.   T his   pa pe r   pr e s e nts   s igni f ica nt  im pr ove ments   to  the  S GD - ba s e c a s c a de   e ns e mbl e   by   int e gr a ti ng  a   ne tr a ini ng  da ta  pa r ti ti oning  a lgo r i thm   a nd  P C a e a c leve l.   T he   c ombi ne us e   of   thes e   methods   e nha nc e s   the  e ns e mbl e ' s   a c c ur a c a nd   r e duc e s   tr a ini ng  ti me.   T he   pa pe r   de mons tr a tes   thr ough  modeling  that  the   c a s c a de   e ns e mbl e 's   pe r f or manc e   metr ics ,   including   a c c ur a c y,   t r a ini ng  t im e ,   a nd   ge ne r a l iza ti on  pr ope r ti e s ,   a r e   s igni f ica ntl y   im pr ov e c ompar e to  the  ba s e li ne   method.   F utu r e   r e s e a r c will   e xplor e   a lt e r na ti ve   methodologi e s ,   s uc a s   non - it e r a ti ve   a r ti f icia ne ur a ne two r ks   ( s uc c e s s ive  g e ometr ic  tr a ns f or mations   model   ( S G T M )   ne ur a l - li ke   s tr uc tu r e )   a nd   ne ur a l   ne twor k - ba s e va r iations   of   P C A,   to   e nha nc e   a c c ur a c y,   r e duc e   tr a ini ng   ti me ,   a nd  maintain  ge ne r a li z a ti on  pr ope r ti e s   with   c onf idenc e .   F u r ther mor e ,   the   e xa mi na ti on  of   the  c a s c a de   e ns e mbl e 's   pr e s e nt a ti on  a s   a   polynom ial  s c he me  ( whe uti li z ing  S GT M   ne ur a l - li ke   s tr uc tur e   a s   a   we a c la s s if ier   f or   the  c a s c a de )   is   int e nde to  a c c e ler a te  inf e r e nc e   ti me  dur ing  a ppli c a ti on  s tage s .   T he s e   inqui r ies   ha ve   the  potential  to  im pr ove   t he   c a pa bil it ies   of   c a s c a de   e n s e mbl e s   a nd  br oa de their   a ppli c a bil it in  r e a l - wo r ld  big  da ta  s c e na r ios .       AC KNOWL E DGE M E NT S   P r of .   M icha Gr e gus   wa s   s uppor ted  by   the   S lova R e s e a r c a nd  De ve lopm e nt  Age nc unde r   the  c ontr a c No.   APVV   19 - 0581 .   T his   wo r is   f unde by   the  E ur ope a n   Union’ s   Ho r izon  E ur ope   r e s e a r c a nd   innovation  pr ogr a m   unde r   gr a nt   a gr e e ment  No   10 1138678,   p r ojec Z E B AI   ( I nnova ti ve   methodologi e s   f or   the   de s ign  of   Z e r o - E mi s s ion  a nd  c os t - e f f e c ti ve   B uil di ngs   e nha nc e by  Ar ti f icia l   I ntelli ge nc e ) .       RE F E RE NC E S   [ 1]   A C ha ha l,   P . G ul ia a nd  N .   S . G i ll D if f e r e nt   a na ly ti c a f r a me w or ks   a nd  bi gda ta   mode f o r   in te r ne of   th in gs ,”   I ndone s ia J ou r nal   of  E le c tr ic al  E ngi ne e r in g and C om put e r  S c ie nc e , vol . 25, no. 2,  pp.  1159 1166, 2022, doi:  10.11591/i je e c s .v25.i2.pp1159 - 1166.   [ 2]   I . K r a k, O . S te li a , A . P a s hko, M . E f r e mov, a nd O . K hor oz ov, “ E le c tr oc a r di ogr a m c la s s if ic a ti on us in g w a ve le tr a ns f or ma ti ons ,”   in   P r oc e e di ngs   -   15t I nt e r nat io nal   C onf e r e nc e   on  A dv anc e T r e nds   in   R adi oe le c tr oni c s T e le c o m m uni c at io ns   and  C om p ut e r   E ngi ne e r in g, T C SE T  2020 , 2020, pp. 930 933 , doi 10.1109/T C S E T 49122.2020.235573.   [ 3]   L M oc hur a a nd  N K r yvi ns ka P a r a ll e li z a ti on  of   f in di ng  th e   c ur r e nt   c oor di na te s   of   th e   li da r   ba s e on  th e   ge ne ti c   a lg o r it hm  a nd   ope nmp t e c hnol ogy,”   Sy m m e t r y , vol . 13, no. 4, 2021, doi 10.3 390/ s ym13040666.   [ 4]   A .   C ha udha r y,  K R B a twa da N .   M it ta l,   a nd  E .   S P il li A dM a p:   a   f r a me w or f or   a dve r ti s in us in M a pR e duc e   pi pe li ne ,”   C om put e r  Sc ie n c e  and I nf or m at io n T e c hnol ogi e s , vol . 3, no. 2,  pp. 82 93, 2022, doi:  10.11591/cs it .v3i 2.pp82 - 93.   [ 5]   A H A l - H a ma mi   a nd  A A F la yyi h,  E nha nc in bi d a ta   a na ly s is   by  u s in ma p - r e duc e   te c hni qu e ,”   B ul le ti of   E le c tr i c al   E ngi ne e r in g and I nf or m at ic s , vol . 7, no. 1, pp. 113 116, 2018,  do i:  10.11591/ee i. v7i 1.895.   [ 6]   Y M a r z ha n,  K T a l s hyn,  K K a ir a t,   B S a ul e A K a r ly ga s h,  a nd  O Y e r bol S ma r te c hnol ogi e s   of   th e   r is k - ma na ge me nt   a nd  de c is io n - ma ki ng  s ys t e ms   in   a   f uz z da ta   e nvi r onme nt ,”   I ndo ne s ia J our nal   of   E le c t r ic al   E ngi ne e r in and  C o m put e r   Sc ie nc e   vol . 28, no. 3, pp. 1463 1474, 2022, doi:  10.11591/i je e c s .v28.i3.pp1463 - 1474.   [ 7]   C G a ngul i,   S K S ha ndi ly a M N e hr e y,  a nd  M H a vr yl iu k,  A da pt iv e   a r ti f ic ia be e   c ol ony  a lg or it h f o r   na tu r e - in s pi r e d   c ybe r   de f e ns e ,”   Sy s te m s , vol . 11, no.   1, 2023, doi:  10.3390/s y s te ms 11 010027.   [ 8]   L M oc hur a d,  K S ha khovs ka a nd  S M ont e ne gr o,  P a r a ll e s o lv in of   f r e dhol in te gr a e qua ti ons   of   th e   f ir s ki nd  by  T ik ho nov   r e gul a r iz a ti on  me th od  us in O pe n M P   te c hnol ogy,”   A dv anc e s   in   I nt e ll ig e nt   Sy s t e m s   and   C o m put in g pp.  25 35,   2020,  doi 10.1007/978 - 3 - 030 - 33695 - 0_3.   [ 9]   O B is ik a lo V K ha r c he nko,  V K ovt un,  I K r a k,  a nd  S P a vl ov,  P a r a me te r iz a ti on  of   th e   s to c ha s ti c   mode f or   e va lu a ti ng  va r ia bl e   s ma ll  da ta  i n t he  S ha nnon e nt r opy ba s i s ,”   E nt r opy , vol . 25, no.   2, 2023, doi:  10.3390/e25020184 .   Evaluation Warning : The document was created with Spire.PDF for Python.