I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol .   14 , N o.   4 A ugus t   2025 , pp.  3003 ~ 3013   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 14 .i 4 .pp 3003 - 3013          3003     Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   In ve st i gat i on  on  l ow - p e r f or m an c e  t u n e d - r e gr e ss or  of  i n h i b i t or c on c e n t r at i on  t a r ge t i n g t h e  S A R S - C o V - p ol yp r ot e i n  1ab       D an ie F e b r ia n  S e n gk e y 1, 5 , 7 , A n ge li n a S t e van y R e gi n a M as e n gi 2, 5 ,   A lwi n  M e lk ie  S am b u l 1, 5   T r in a E k aw at T al le i 3, 4, 5 S h e r w in  R e in al d o U n s r at d ia n t o S om p ie 1, 6   1 D e pa r t m e nt  of  E l e c t r i c a l  E ngi ne e r i ng,  F a c ul t y of  E ngi ne e r i ng, U ni ve r s i t a s  S a m  R a t ul a ngi , M a na do, I ndone s i a   2 D e pa r t m e nt  of  P ha r m a c ol ogy a nd  T he r a py , F a c ul t y of  M e di c i ne , U ni ve r s i t a s  S a m  R a t ul a ngi , M a na do,  I ndone s i a   3 D e pa r t m e nt  of  B i ol ogy, F a c ul t y of  M a t he m a t i c s  a nd N a t ur a l  S c i e nc e U ni ve r s i t a s  S a m  R a t ul a ngi , M a na do, I ndone s i a   4 D e pa r t m e nt  of  B i ol ogy, F a c ul t y of  M e di c i ne , U ni ve r s i t a s  S a m  R a t ul a ngi , M a n a do, I ndone s i a   5 B i om ol e c ul a r  L a bor a t or y, U ni ve r s i t a s  S a m  R a t ul a ngi , M a na do, I ndone s i a   6 I nf or m a t i on a nd C om m uni c a t i on T e c hnol ogy A c a de m i c  S uppor t  U ni t , U ni ve r s i t a s  S a m  R a t ul a ngi , M a n a do, I ndone s i a   7 D i r e c t or a t e  of  R e s e a r c h, D e ve l opm e nt , a nd I nnova t i on, I ndone s i a   A r t i f i c i a l  I nt e l l i ge nc e  S oc i e t y, J a ka r t a , I ndone s i a       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e O c 19, 2024   R e vi s e J un 12, 2025   A c c e pt e J ul  10, 2025       Hyperparameter  tuning  is  a   key  optimization   strategy   in  machine  le arning   (ML) often  used  with  GridSearchCV  to  find  optimal  hyperparameter  combinat ions.  This  study  aimed  to   predict  the  half - maximal  inh ibitory  concentrati on  (IC 50 of  small  molecules   targeting  the  SARS - CoV - re plicase  polyprotein  1ab  (pp1ab)  by   optimizing  three   ML   algorit hms:  hist ogram  gradient  boosting  regressor   (HGBR),  light   gradient  boosting   re gressor   (LGBR),  and  random  forest   regressor  (RFR).   Bioactivity  data,   inc luding  duplicates,  were  processed  using  three  approaches:  untreated,  aggrega tion  of  quantitative  bioactivity,  and  duplicate  removal.   Molecular  featur es   were  encoded  using  twelve  types  of  molecular  fingerprin ts.  To  optimi ze  the  models,  hyperpar ameter  tuning  with  GridSearc hCV  was  applied  ac ross  a   broad  parameter  space.  The  results  showed  that   the  performance  of  the  models  was  inconsistent,  despite   comprehensive  hyperparameter   t uning.  Further   analys is  showed   that  the  distribu tion  of  Murcko  fragments  was  uneven  between  the  training  and  testing   datasets.  Key  fragments   were   underrepresented  in  the  testing  phas e,  leading  to   mismatch  in   model  predictions.  The   study  demonstrates  that   hyperparameter  tuning  alon may  not  be  sufficient  to  achieve  high   predictive  performance  whe the  distribution  of  molecular  fragments   is  unbalanced   between  trainin and  testing  datasets.  Ensuring  fragment   diversity  across  datasets   is  cruc ial  for  improving mode l reliability in  drug discov ery applic ations.   K e y w o r d s :   H ype r pa r a m e te r  t uni ng   I nhi bi to r y c onc e nt r a ti on   50   M ur c ko f r a gm e nt s   Q ua nt it a ti ve  s tr uc tu r e - a c ti vi ty   r e la ti ons hi p   S A R S - C oV - p ol ypr ot e in  1a b   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   D a ni e F e br ia n S e ngke y   D e pa r tm e nt  of  E le c tr ic a E ngi ne e r in g,  F a c ul ty  of   E ngi ne e r in g U ni ve r s it a s  S a m  R a tu la ngi   K a m pus  U ns r a t   S tr e e t , B a hu,  M a na do 95115, I ndone s ia   E m a il da ni e ls e ngke y@ uns r a t. a c .i d       1.   I N T R O D U C T I O N   T he   C O V I D - 19  pa nde m ic   w a s   one   of   th e   f or c e s   th a dr o v e   th e   s ur ge   in   c om put e r - a id e dr ug  di s c ove r y   ( C A D D   a dopt io n ) R e la te s tu di e s   dur in th is   pe r io d   ta r ge e it he r   th e   hos t   ta r ge t ,   s uc a s   th e   tr a ns m e m br a ne   pr ot e a s e   s e r in e   ( T M P R S S 2)   [ 1] or   th e   pa r of   th e   vi r us ,   s uc a s   th e   3 - c hym ot r yps in - li ke   pr ot e a s e   ( 3C L pr o)   or   th e   m a in   pr ot e a s e   (M pr o )   [ 2] [ 9] H ua ng  e al [ 1]   ut il iz e m ol e c ul a r   doc ki ng  to   e xa m in e   th e   dr ugs   w it po s it iv e ly   c ha r ge gu a ni di nobe nz oy a nd/ or   a m in id in obe nz oyl   gr oups   to   in hi bi T M P R S S a th e   hos t.   M ol e c ul a r   doc ki ng  w a s   a ls us e to   a s s e s s   th e   pot e nt ia to   r e pur pos e   a ppr ove dr ugs ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 A ugus t   20 25 3003 - 3013   3004   s uc a s   qui nol in e   [ 2]   a s   w e ll   a s   is a vuc ona z oni um α - LI ,   a nd  pe nt a ga s tr in   [ 6]   to   in hi bi t   th e   vi r us 's   m a in   pr ot e a s e W hi le   a ls t a r ge ti ng  th e   m a in   pr ot e a s e na tu r a pr od uc ts   w e r e   a s s e s s e w it m ol e c ul a r   doc ki ng  a s   a lt e r na ti ve   pha r m a c ot he r a py opti ons  [ 4] , [ 8] , [ 9] .   T he   a dopt io of   m a c hi ne   le a r ni ng  ( M L )   is   a   va r ia ti on  in   C A D D known  a s   m a c hi ne   le a r ni ng - a id e dr ug  di s c ove r ( M L D D ) C la s s if ic a ti on  is   a   c om m on  ta s k   in   M L D D w he r e   t he   ta r ge of   th e   c la s s if ic a ti on  us e s   e it he r   a   known  in te r a c ti on,  c ode a s   a   bi n a r va lu e   [ 10 ] [ 12]   or   c a te gor ie s   ba s e on   th e   di s c r e ti z e   ha lf - m a xi m a in hi bi to r c onc e nt r a ti on  ( I C 50 )   va lu e   [ 7] [ 13] [ 1 4] D e s pi te   th e   di s c r e ti z a ti on  of   th e   I C 50   be in g   a   c om m on  a ppr oa c a s   de m on s tr a te in   th e   m e nt io ne d   s tu di e s how e ve r th is   a ppr oa c i s   di s c our a ge in   ge ne r a e pi de m io lo gy  s tu di e s   du e   to   th e   lo s s   of   in f or m a ti on  w it hi th e   num e r ic   va r ia bl e   [ 15] B a s e on  two   m e ta - a na ly s e s ,   it   is   f ound  th a c ont in uou s r a th e r   th a di s c r e t e m e a s ur e m e nt s   c oul im pr ove   va li di ty   a nd   r e li a bi li ty   [ 16] .   F or   in s ta nc e G a e t   al .   [ 17]   bui ld   r e gr e s s io m ode ls   us in g   r a ndom  f or e s ( RF ) a nd  s uppor ve c to r   m a c hi ne   ( S V M )   w it s om e   opt im iz a ti on  to   pr e di c th e   I C 50   of   th e   [ 1,2,3]   tr ia z ol o   [ 4,5 - d]   pyr i m id in e   de r iv a ti ve s   ( 1,2,3 - T P D )   to   in hi bi th e   r e pl ic a ti on  of   th e   M G C - 803,  th e   ga s tr ic   c a nc e r   c e ll   in   hum a n s I c ont r a s to   th e   w or in   [ 13] [ 18]   ut il iz e S V M a r ti f ic ia ne ur a ne twor ( A N N ) ne a r e s ne ig hbor   ( K NN) ,   a nd  R F   to   bui ld   r e gr e s s io m ode ls   f or   p r e di c ti ng  th e   I C 50   to w a r ds   m ul ti pl e   h e pa ti ti s   C   vi r us   ( H C V )     non - s tr u c tu r a l   pr ot e in s S im il a r ly ,   th e   w or k   of   F i a e al [ 1 9]   us e r a ndom   f or e s t   r e gr e s s i on  ( R F R )   a nd   gr a di e n boo s ti n r e gr e s s io ( G B R )   to   d e ve lo p M L   m od e ls   to   p r e di c t he   I C 50 t a r ge ti ng  th e   H C V  ge no ty pe   1a   ( I s ol a te   1) S uppor t   ve c to r   r e gr e s s io ( S V R )   is   us e in   pr e di c ti ng  th e   in hi bi ti on  of   s m a ll   m ol e c ul e s   to     be ta - s e c r e ta s e   ( B A C E 1) w hi c is   a e nz ym e   r e la te to   A lz he im e r s   di s e a s e   ( A D )   [ 20] I a not he r   s tu dy ,   m ul ti pl e   li ne a r   r e gr e s s io ns   ( M L R )   w as   f ound  a s   th e   b e s a lg or it hm   c om pa r e to   S V R c la s s if ic a ti on  a nd   r e gr e s s io ( C A R T ) a nd  A N N   in   pr e di c ti ng  th e   c om pound   bi ndi ng  f r e e   e ne r gy  ( B F E )   to w a r ds   th e     S A R S - C oV - 2 m a in  pr ot e a s e   [ 21] .   I n our  p r e vi ous  s tu dy   [ 22] ,   we   e xpe r im e nt e d w it h 42  M L  r e gr e s s io n a lg or it hm s  t o pr e di c th e  I C 50   o f   bi oa c ti ve  c om pounds ,   t a r ge ti ng t he   pol ypr ot e in  1a ( pp1a b )   of  t he  S A R S - C oV - 2, w hi c h c om pr is e s  t he   vi r us s   non - s tr uc tu r a pr ot e in   ( N S P )   12  to   N S P 16   [ 23] ,   [ 24] T he   de f a ul t   hype r pa r a m e te r s   w e r e   us e w it hout   a ny  tu ni ng  pr oc e s s   in vol ve d.  T he   f e a tu r e s   w e r e   de r iv e f r om   th e   c om pounds   by  us in P ubC h e m   f in ge r pr in ts   O ut   of   th e   42   e xpe r im e nt e a lg or it hm s th r e e   a lg or it hm s R F R li ght   gr a di e nt   boos ti ng  m a c hi ne   r e gr e s s io ( L G B R ) a nd  hi s to gr a m   gr a di e nt   boos ti ng  m a c hi ne   r e gr e s s io n   ( H G B R )   w e r e   f ound  a s   th e   m os s t a bl e   f or   th is   c om bi na ti on  ba s e d   on  th e  R 2   va lu e s H ype r pa r a m e te r   tu ni ng  i s  a   te c hni que   in   M L   th a is   us e d   to   opt im iz e   th e   m ode pe r f or m a nc e   by  twe a ki ng  th e   hype r pa r a m e te r s   of   th e   a l gor it hm   [ 25 ] [ 28] I is   c om m onl y   us e w it h   G r id S e a r c hC V w hi c c om bi ne s   a   la r ge   hyp e r pa r a m e te r   s e a r c s pa c e   a nd  c r os s - va li da ti on  to   obt a in   th e   opt im a ge ne r a li z a bl e   m ode f or   th e   a lg or it hm .   T he r e f or e in   th is   s tu dy,   w e   e xt e nde d   th e   e xp e r im e nt   w it th e s e   a lg or it hm s w hi c a ls f a ll   in to   th e   e n s e m bl e   tr e e - ba s e c a te gor y,  a nd  in ve s ti ga te th e   im pa c ts   of   da ta   di s tr ib ut io n, e s pe c ia ll y t he   M ur c ko f r a gm e nt s   of  t he  c om pound s on   th e  m ode pe r f or m a nc e   T he   r e s of   th is   a r ti c le   is   or ga ni z e a s   f ol lo w s in   s e c ti on   2 ,   w e   pr e s e nt   th e   da ta s e a s   w e ll   a s   th e   m e th ods   w e   u s e f or   da ta   c ur a ti on,  tr e a tm e nt s   in   pr e - pr oc e s s in g,  m ode tr a in in g,  va li da ti on,  a nd  pe r f or m a nc e   e va lu a ti on. T he n, i s e c ti on   3 , w e  c om pa r e  t he  pe r f or m a nc e  be twe e n t he  t r e a tm e nt s , a s  w e ll  a s  i nve s ti ga te  t he   di s tr ib ut io of   c om pound  c ha r a c te r is ti c s   in   tr a in in g   a nd  te s ti ng  da ta s e ts L a s t,   in   s e c ti on   4 th is   pa pe r   is   c onc lu de d ,   a nd dir e c ti ons  f or  f ut ur e   w or k   a r e  pr e s e nt e d.       2.   M E T H O D   T he   r e s e a r c m e th odol ogy  m a in ly   f ol lo w s   th e   c or e   a c ti vi ti e s   of   da ta  s c ie nc e   m e th odol ogy ,   a s  s how n   in   F ig ur e   m a in ly   c ons is ts   of   th r e e   pa r ts .   T he   pr e pr oc e s s in g   pa r is   r e la te to   f a s hi oni ng  th e   c om pounds '   bi oa c ti vi ty   da ta   f or   M L   tr a in in g.  T he   pi pe li ne   pa r i s   w he r e   w e   us e   c u s to m   pi pe li ne s   th a f e e in to   th e   hype r pa r a m e te r   tu ni ng  pr oc e s s T h e   pi pe li ne a ppr oa c w il e n s ur e   no  da ta   le a ka g e he nc e   gua r a nt e e in g   th a th e   m ode ha s   ne ve r   s e e n   th e   da ta   u s e f or   it s   pe r f or m a nc e   e va lu a ti on.  L a s t,   in   th e   r e s ul a na ly s is   a nd  doc um e nt a ti on  pa r t ,   th e   e xpe r im e nt   r e s ul t s   a r e   a n a ly zed   a nd   c o m pa r e d.  M a in ly w e   u s e P yt hon  ve r s io n   3.10  a nd  s c ik it - le a r n   [ 29]   ve r s io n 1.5.1 in t he  m ode li ng a nd a na ly s is   pha s e s .     2.1 .     P r e p r oc e s s in g   T he   da t a   pr e pa r a ti on  pha s e   b e gi ns   w it h   da ta   a c qui s it io n s p e c if ic a ll y   in hi bi to r bi oa c ti vi ty   da ta   B us in th e   C hE M B L   w e s e r vi c e   [ 30] ,   w e   a c qui r e d in   to ta l,   1,455  c om pounds   w it known  I C 50  to   th e   S A R S - C oV - pp1a ( C H E M B L 4523582) he a vi ly   in c r e a s e f r om   our   pr e vi ous   s tu dy  [ 22] I th is   da ta s e t,   c om pounds   a r e   r e pr e s e nt e in   s im pl if ie m ol e c ul a r   in put   li n e   e nt r s ys te m   ( S M I L E S )   f or m a t T he   da ta   c le a ni ng  a l s in c lu de s   s ta nda r di z in th e   S M I L E S   not a ti on  of   e a c c om pound   a nd  c onve r ti ng  th e   I C 50   to   th e   r e s pe c ti ve   ne ga ti ve   lo g a r it hm ic   s c a le pI C 50 he n c e   na r r ow in g   th e   s c a le F ol lo w in th e   c le a ni ng  s te ps ,   w e   c ont in ue   w it tr e a ti ng  th e   dupl ic a t e s I dr ug  di s c ove r e xp e r im e nt s di f f e r e nt   a ppr oa c he s   a nd  di f f e r e nt   la bor a to r s e tt in gs   m ig ht   yi e ld   di f f e r e nt   I C 50   va lu e s de s pi te   th e   us e   of   th e   s a m e   c om pound.  I our   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       I nv e s ti gat io n on low - pe r fo r m anc e  t une d - r e g r e s s or  of  i nhi bi to r y  c onc e nt r at io n …  ( D ani e F e br ia n Se ng k e y )   3005   e xpe r im e nt s w e   tr ie s e ve r a a ppr oa c he s   to   ha ndl e   th e   dupl ic a te da ta F ir s t,   w e   le f th e m   a s   is s e c ond,  w e   a ggr e ga te d t he m  by t a ki ng t he  a ve r a ge  of  t he  pI C 50   va lu e a nd l a s t,  w e  dr oppe d a ll  dupli c a te c om pounds .           F ig ur e   1.   C our s e  of   r e s e a r c h       A f te r   th e   dupl ic a te s   w e r e   tr e a t e d,  w e   c ont in ue by   tr a ns f or m in th e   c he m ic a c om pounds     ( in   S M I L E S )   in to   m ol e c ul a r   f in ge r pr in ts   ( de s c r ip to r s ) ,   r e s ul ti n in   a   ta bl e   f or   e a c f in ge r pr in t   w e   us e d.  T he   m ol e c ul a r   f in ge r pr in ts   r e pr e s e nt   th e   c ha r a c te r is ti c s   of   a   c he m ic a c om pound.  F or   e a c c om pound,  a   f in ge r pr in is  a  s e r ie s  of  bi ts , w he r e  e a c h bi is  a   B ool e a n , r e pr e s e nt in g a  s pe c if ic  c he m ic a c h a r a c te r is ti c , a nd,  a s   a   w hol e de s c r ib e s   th e   c om pound.  F or   in s ta nc e ,   th e   P ubC he m   f in ge r pr in t,   th e   f ir s bi s how s   w he th e r   th e   r e s pe c ti ve   c om pound  po s s e s s e s   f our   or   m or e   hydr oge a to m s T he   tr a ns f or m a ti ons   to   th e   f in ge r pr in ts   a r e   done   us in P a D E L   s of twa r e   [ 31] I to ta l,   th e r e   a r e   12  va r i a nt s   of   f e a tu r e   s e ts T h e   de s c r ip ti on  of   e a c f in ge r pr in a nd  th e   num be r   of   m ol e c ul a r   f e a tu r e s   it   ha s   a r e   pr ovi de in   T a bl e   1.  S in c e   12  ty pe s   of   m ol e c ul a r   f in ge r pr in ts   a r e   in   us e   a nd   th r e e   tr e a tm e nt s   f or   dupl ic a te s 36   da ta s e ts   a r e   us e f or   th e   e xpe r im e nt s T he n,   us in g a n 80:20 r a ti o of  t r a in in g a nd t e s ti ng da ta , r e s pe c ti ve ly , e a c h da ta s e is   s pl it  us in g t he  f unc ti on a va il a bl e   in   s c ik it - le a r n .     2.2 .     P ip e li n e  an d   h yp e r p ar am e t e r  t u n in g   T e ns ur e   th e   r e li a bi li ty   a nd  th e   c ont in ui ty   of   m ode tr a in in a nd,  la te r ut il iz e   th e m   f or   in f e r e nc in g,   th e  f e a tu r e  s e le c ti on pr oc e s s e s  a r e  c oupl e d w it h t he  r e gr e s s or s  a s  pi pe li ne s . T he  f ir s f e a tu r e  s e le c ti on me th od   is   th e   va r ia nc e   th r e s hol d T hi s   f e a tu r e   s e le c ti on  m e th od  dr op s   f e a tu r e s   w it va r ia nc e   unde r   th e   s pe c if ie le ve l.   T he   r e s of   th e   f e a tu r e s   a r e   th e f e in to   th e   s e c ond   f e a t ur e   s e le c ti on  m e th od,  th e   m ut ua in f or m a ti on   ( e nt r opy ) . W e  s e th e  f e a tu r e s  s e le c to r  t o us e  onl y t he  t op c e r ta in  pe r c e nt il e , a c c or di ng t o t he  f e a tu r e s '  e nt r opy   s c or e T he   pos t - f e a tu r e   s e le c ti on  da ta s e w il th e be   us e to   t r a in   th e   r e gr e s s or A s   de s c r ib e e a r li e r th r e e   M L  r e gr e s s io n a lg or it hm s  w e r e  e xpl or e d a lt e r na te ly H G B R , R F R , a nd L G B R .   A s   a   de v e lo pm e nt   f r om   our   pr e vi ous   a ppr oa c in   [ 22] th e   c ur r e nt   m e th od   e m pl oys   hyp e r pa r a m e te r   tu ni ng  us in G r id S e a r c hC V to   e xh a us ti ve ly   t e s e a c c om bi na ti on  of   th e   hype r pa r a m e t e r s   in   th e   s e a r c h   s pa c e T o e ns ur e  t he  g e ne r a li z a bi li ty  of  t he  hype r pa r a m e te r s  w i th  t he  be s pe r f or m a nc e  dur in g t r a in in g, 5 - f ol d   c r os s - va li da ti on  is   us e d.  T a bl e   1   li s ts   th e   s te ps   a nd  m odul e s   in   th e   pi pe li ne s a nd  th e   s e a r c s pa c e   us e f or   hype r pa r a m e te r  t uni ng.     2.3 .     A n al ys is  an d   d oc u m e n t at io n   I th is   pa r of   th e   r e s e a r c h,  w e   e va lu a te   th e   pe r f or m a nc e   of   th e   m ode ls   by  c om pa r in th e   pe r f or m a nc e   of   th e   tr a in e m ode l s   a nd   a ppl yi ng  it   to   in f e r   t he   la be ls   in   th e   t e s ti ng  da t a s e t.   P e r f or m a nc e   m e tr ic s   us e d   a r e   R 2   a nd   th e   r oot   m e a s qu a r e e r r or   ( R M S E ) S ta ti s ti c a a na ly s e s   a nd  f ig ur e s   a r e   done   us in g   th e  R  s ta ti s ti c a s of twa r e  ve r s io n 4.4.1  [ 32] .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 A ugus t   20 25 3003 - 3013   3006   T a bl e   1 . H ype r pa r a m e te r  t uni ng pipe li ne  s t e ps , m odul e , a nd hy pe r pa r a m e te r  s e a r c h s p a c e   P i pe l i ne   s t e p   M odul e   H ype r pa r a m e t e r   s e a r c h s pa c e   F e a t ur e   s e l e c t i on   V a r i a nc e   t hr e s hol d   t hr e s hol d:  0.8( 1 - 0.8)  =0.16; 0.9( 1 - 0.9)  =0.09     S e l e c t   pe r c e nt i l e   ( s c or i ng by  m ut ua l  i nf or m a t i on )   p e r c e nt i l e :  10, 20, 50, 100   R e gr e s s or   H G B R   m a x_i t e r :  [ 100, 1000, 10000, 99999999] ,   m a x_de pt h:  [ N one , 10, 20, 30,  40, 50] ,   m i n_s a m pl e s _l e a f :  [ 1, 2, 4, 8, 16, 32, 64] ,   l 2_r e gul a r i z a t i on:  [ 0, 0.1, 0.01] ,   l e a r ni ng_r a t e :  [ 0.01] ,   w a r m _s t a r t :  [ T r ue , F a l s e ] ,   e a r l y_s t oppi ng:  [ T r ue ] ,   n_i t e r _no_c ha nge :  [ 10, 100] ,   r a ndom _s t a t e :  [ 22] ,     L G B R   boos t i ng_t ype ' :  [ ' gbdt ' ,' r f ' ] ,   n_e s t i m a t or s ' :  [ 99999999] ,   m a x_de pt h' :  [ - 1, 15, 31, 63] ,   l e a r ni ng_r a t e :   [ 0.01] ,   r a ndom _s t a t e :   [ 22] ,   num _l e a ve s :  [ 7, 31, 127, 1027, 2047, 4095]   e a r l y_s t oppi ng_r ounds :  [ 20]     R F R   n_e s t i m a t or s :  [ 10, 100, 1000] ,   m i n_s a m pl e s _l e a f :  [ 1, 2, 4, 8, 16] ,   m a x_de pt h:  [ N one , 10, 20, 30, 40, 50] ,   oob_s c or e :   [ T r ue , F a l s e ] ,   r a ndom _s t a t e :  [ 22] ,   w a r m _s t a r t :  [ T r ue , F a l s e ] ,   m i n_s a m pl e s _s pl i t :  [ 2, 3, 4, 8, 16] ,   m a x_f e a t ur e s :  [ " s qr t ", " l og2", N one ]       3.   R E S U L T S  A N D  D I S C U S S I O N   U s in g   th e   be s hype r p a r a m e te r s   f o und   f or   e a c c om bi na ti o of   m ol e c u la r   f i nge r pr i nt s   a n a lg or it h m   f or   e v e r tr e a tm e nt  of   du pl ic a te d   d a ta ,   w e   tr a in e m o de l s  a nd   a ppl ie d   th e m   to   th e   t e s t in g da t a s e t.  T a bl e s   2   t s how   th e   be s hype r pa r a m e te r s   f or   H G B R L G B R a nd  R F R   a lg or it hm s r e s pe c ti ve ly f or   e a c m ol e c ul a r   f in ge r pr in t.     3.1 .     P e r f or m an c e   m e t r ic s   F ig ur e   s how s   t he   boxplot s   of   th e   pe r f or m a nc e   m e tr ic s R 2 ,   a nd  R M S E   of   th e   m ode ls   w it th e   hype r pa r a m e te r s   th a ga ve   th e   be s pe r f or m a nc e   dur in g   th e   tu n in w it th e   5 - f ol c r os s - va li da ti on  s te p.  I is   obvi ous   th a by  e nt ir e ly   dr oppi ng  th e   dupl ic a te bi oa c ti vi ty   da t a th e   m ode ls   pe r f or m e e xt r e m e ly   di f f e r e nt ly   f r om   th e   ot he r   two  tr e a tm e nt s W he th e   dupl ic a te da ta   w a s   dr oppe d,  th e   R 2   va lu e s   dr oppe a nd  c om m onl y   f e ll   unde r   z e r w it a   hi ghe r   va r ia ti on,  e it he r   dur in tr a in in or   te s ti ng,  a s   c a b e   s e e in   F ig ur e   2 ( a ) M e a nw hi le w h e th e s e   dupl ic a t e s   w e r e   le f unt ouc he d,  th e   R 2   dur in tr a in in w a s   s li ght ly   lo w e r   th a th e   a ve r a ge pI C 50   tr e a tm e nt but   th e   c ondi ti on  w a s   r e ve r s e in   te s ti ng.  T he   boxplot   of   th e   lo s s   f unc ti on,  R M S E ,   in   F ig ur e   2 ( b )   in di c a te s   th e   s a m e   th in g.  P e r f or m a nc e   m e tr ic s   f or   e a c c om bi na ti on  of   m ol e c ul a r   f in ge r pr in t   a nd a lg or it hm  w it h t he  be s hype r pa r a m e te r s  a r e  s how n i n F ig u r e s  1 a nd 2.         ( a )     ( b)     F ig ur e  2. B oxpl ot s   of   pe r f or m a nc e  m e tr ic s  a c r os s  t r e a tm e nt s   a n d m ode li ng s ta ge s   of   ( a )  R 2   a nd ( b)  R M S E   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       I nv e s ti gat io n on low - pe r fo r m anc e  t une d - r e g r e s s or  of  i nhi bi to r y  c onc e nt r at io n …  ( D ani e F e br ia n Se ng k e y )   3007   B e f or e   s ta ti s ti c a ll y   c om pa r in th e   pe r f or m a nc e   m e tr ic s th e   S ha pi r o - W il te s w a s   a ppl ie to   c he c th e   di s tr ib ut io nor m a li ty   of   e a c pe r f or m a nc e   m e tr ic F or   th is   te s t,   th e   da ta   a r e   gr oupe a c c or di ng  to   tr e a tm e nt s a lg or it hm s a nd  m ode li ng   s ta ge s T he r e f or e a   s in gl e   di s tr ib ut io te s te h a s   12  p e r f or m a nc e   da ta .   T a bl e   2   s how s   th e   p - va lu e s   of   th e   S ha pi r o - W il te s t.   W it α = 0.05,  it   is   c le a r   th a s om e   of   th e   d a ta   a r e   not   nor m a ll y di s tr ib ut e d, he nc e  non - pa r a m e tr ic  t e s s houl d be  us e f or  f ur th e r  a na ly s is .         T a bl e   2 . P - va lu e s  of  t he  S ha pi r o - W il k t e s f or  nor m a li ty  di s tr ib ut io n of  t he  pe r f or m a nc e  m e tr ic s , gr oupe d by  th e  t r e a tm e nt  f or  dupli c a te s  a nd a lg or it hm s . T he  i ta li c iz e d num be r s  a r e  t hos e   unde r   th e   α = 0.05   T r e a t m e nt   A l gor i t hm   T r a i n R 2   T e s t  R 2   T r a i n R M S E   T e s t   R M S E   U nt r e a t e d   H G B R   0.038   0.167   0.083   0.124   U nt r e a t e d   R F R   0.017   0.197   0.047   0.035   U nt r e a t e d   L G B R   0.018   0.202   0.051   0.036   A ve r a ge d   H G B R   0.017   0.574   0.089   0.879   A ve r a ge d   R F R   0.012   0.475   0.047   0.842   A ve r a ge d   L G B R   0.012   0.360   0.048   0.681   D r oppe d   H G B R   0.001   <0.001   0.841   0.205   D r oppe d   R F R   0.255   0.537   0.210   0.649   D r oppe d   L G B R   0.282   0.629   0.132   0.812       W e   us e th e   F r ie dm a n   te s f or   one - w a y   r e pe a te d   m e a s ur e s   a na ly s is   of   v a r ia nc e   to   c om pa r e   e a c h   pe r f or m a nc e   m e tr ic   be twe e th e   tr e a tm e nt s   w it th e   s a m e   a lg or it hm by  us in th e   m ol e c ul a r   f in ge r pr in a s   th e   id e nt if ie r T he   r e s ul ts ,   a s   s how in   T a bl e   3 ,   s how   th a in   a l c om pa r is ons a le a s one   gr oup  of   dupl ic a te   da ta  t r e a tm e nt  ha s  a  s ig ni f ic a nt ly  di f f e r e nt  di s tr ib ut io n  of  a  pa r t ic ul a r  pe r f or m a nc e  m e tr ic F ol lo w in g t he  one - w a r e pe a te m e a s ur e s   F r ie dm a te s t,   w e   c a r r ie out   th e   P a i r w is e   W il c oxon  te s to   c om pa r e   pe r f or m a nc e   m e tr ic s   be twe e di f f e r e nt   tr e a tm e nt s   of   th e   s a m e   a lg or it hm s T he   B e nj a m in i - H oc hbe r ( B H )   m e th od  is   u s e f or   p - va lu e   a dj us tm e nt T he   r e s ul ts   in   T a bl e   4   s how s   th a in   m os c a s e s w it α= 0.05,  it   c a be   s e e th a tr e a tm e nt s   f or   dupl ic a te   da ta   s ig ni f ic a nt ly   a f f e c th e   pe r f or m a n c e T he   R 2   dur in tr a in in w it H G B R   of   th e   unt r e a te a nd  a ve r a ge tr e a tm e nt s   is   th e   onl c om pa r is on  th a is   not   s ig ni f ic a nt ly   di f f e r e nt H ow e ve r it s   c ount e r pa r in  t e s ti ng i s  s ig ni f ic a nt ly  di f f e r e nt .       T a bl e   3 . R e s ul ts  of  t he  r e pe a t e d m e a s ur e s  F r ie dm a n t e s of  t he   pe r f or m a nc e  m e tr ic s  be twe e n t r e a tm e nt s   A l gor i t hm   M e t r i c s   n   F   D e gr e e  of   f r e e dom   p - va l ue   H G B R   T r a i n R 2   12   18.667   2   <0.001   R F R   T r a i n R 2   12   22.167   2   <0.001   L G B R   T r a i n R 2   12   22.167   2   <0.001   H G B R   T e s t  R 2   12   20.667   2   <0.001   R F R   T e s t  R 2   12   22.167   2   <0.001   L G B R   T e s t  R 2   12   22.167   2   <0.001   H G B R   T r a i n R M S E   12   19.500   2   <0.001   R F R   T r a i n R M S E   12   24.000   2   <0.001   L G B R   T r a i n R M S E   12   24.000   2   <0.001   H G B R   T e s t  R M S E   12   24.000   2   <0.001   R F R   T e s t  R M S E   12   24.000   2   <0.001   L G B R   T e s t  R M S E   12   24.000   2   <0.001       3.2 .     M u r c k o f r ag m e n t s   I dr ug  di s c ove r y,  s in c e   di f f e r e nt   f r a gm e nt s   le a to   di f f e r e nt   bi oa c ti vi ty   be twe e th e   s m a ll   m ol e c ul e s   a nd   th e   ta r ge t,   de c om pos in g   th e   c om pound s   in to   f r a gm e nt s   is   a   c om m on  ta s k   [ 33] T he   M ur c ko  f r a gm e nt s pr opos e by  B e m is   a nd  M ur c ko  in   1996  [ 34 ] is   a   w id e ly   a dopt e te c hni que in c lu di ng  in   M L D D   [ 35] [ 36] T he   m e th od  w or ks   by  r in s ys te m s li nke r s ,   a nd  t he   s id e   c ha in s   of   th e   m ol e c ul e s .   T h e   M ur c ko   f r a gm e nt s   c ons is of   a   c om bi na ti on  of   r in gs   a nd  li nke r s   b e twe e th e m w it a ll   te r m in a s ubs ti tu e nt s   r e m ove d.  I th is   pa r t,   w e   c om pa r e   th e   c ha r a c te r is ti c s   of   th e   M ur c ko  f r a gm e nt s   be twe e tr e a tm e nt s   a nd  m ode li ng  s ta ge s   to   id e nt if th e   c a us e   of   th e   lo w - pe r f o r m a nc e   m e tr ic s   e ve a f te r   a dopt in g   hype r pa r a m e te r   tu ni ng.  T he   M ur c ko   f r a gm e nt s   a r e   e xt r a c t e f r om   th e   c om po unds   us in th e   R   c he m i s tr de ve lo pm e nt   ki ( R C D K )   pa c ka ge   ve r s io 3.8.1  [ 37] T he   m in im um   f r a gm e nt   s iz e   us e in   th e   e xt r a c ti on  is   th r e e I n   to ta l,     551  f r a gm e nt s   c a be   id e nt if ie f r om   th e   bi oa c ti vi ty   da ta s e t.  T he   f r a gm e nt s  a r e   num be r e d   f r om   F 001  to   F 551  a c c or di ng  to   th e ir   f r e que nc ie s   in   th e   da ta s e t.   O ut   of   th e   551   f r a gm e nt s 12  w it th e   hi ghe s f r e que nc ie s   w e r e   s e le c te d f or  f ur th e r  a na ly s is .   I r e ga r ds   to   pI C 50   a s   th e   r e gr e s s io ta r ge a nd  th e   na tu r e   of   th e   M ur c ko  f r a gm e nt s   a s   a   f r a gm e nt   th a a ppe a r s   in   r e la te c om pound s w hi c in   tu r a f f e c ts   th e   c o m pounds   c ha r a c te r is ti c s th e th e ir   m ol e c ul a r   f in ge r pr in ts   w hi c a r e   us e a s   f e a tu r e s   f or   th e   r e gr e s s io a lg o r it hm s im pl th a c om pounds   w it th e   s a m e   M ur c ko  f r a gm e nt   s houl ha ve   s im il a r   pI C 50 F ig u r e   s how s   th e   di s t r ib ut io ns   of   th e   p I C 50   of   th e   s e le c te d   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 A ugus t   20 25 3003 - 3013   3008   M ur c ko  f r a gm e nt s   f or   tr a in in g   a nd  te s ti ng  in   a ll   th r e e   tr e a tm e nt s F r om   th e   12  s a m pl e M ur c ko  f r a gm e nt s i t   c a n be  s e e f r om  F ig ur e  3 s om e  f r a gm e nt s   ha ve  di f f e r e nt   pI C 50   di s tr ib ut io ns , s o   th e  t r e nd i s  m or e  pr onounc e d   w he th e   dupl ic a te   bi oa c ti vi ty   da ta   a r e   dr oppe d.  F or   in s ta nc e th e   M ur c ko  f r a gm e nt s   F 001,  F 002,  F 003,  a nd   F 005  ha ve   di f f e r e nt   p I C 50   di s tr ib ut io ns S t il in   th e   dr oppe r ow s in c e   it   ha s   f e w e r   da ta th e r e   a r e   c a s e s   w he r e   c e r ta in   M ur c ko  f r a gm e nt s   onl e xi s in   e it he r   da ta s e t,   s uc a s   h a ppe ne w it F 010  a nd   F 011.  D e s pi te   th e   M ur c ko  f r a gm e n F 010  a ls onl a ppe a r in in   one   of   two  da ta s e ts   in   th e   a ve r a ge tr e a tm e nt it   c a be   s e e n t ha th e  boxplot s  i n t he  r e s pe c ti ve  r ow  ha ve   s im il a r  pI C 50   di s tr ib ut io ns .       T a bl e   4 . R e s ul ts  of  t he   two - s id e d P a ir w is e   W il c oxon te s w it h t he  B H  a dj us tm e nt  on t he  p e r f or m a nc e  m e tr ic s   be twe e n t r e a tm e nt s   A l gor i t hm   M e t r i c s   T r e a t m e nt   gr oup  1   T r e a t m e nt   gr oup  2   n1   n2   W   p - va l ue   A dj us t e d p - va l ue   H G B R   T r a i n R 2   U nt r e a t e d   A ve r a ge d   12   12   32   0.622   0.622   H G B R   T r a i n R 2   U nt r e a t e d   D r oppe d   12   12   78   <0.001   <0.001   H G B R   T r a i n R 2   A ve r a ge d   D r oppe d   12   12   78   <0.001   <0.001   R F R   T r a i n R 2   U nt r e a t e d   A ve r a ge d   12   12   1   0.001   0.001   R F R   T r a i n R 2   U nt r e a t e d   D r oppe d   12   12   78   <0.001   <0.001   R F R   T r a i n R 2   A ve r a ge d   D r oppe d   12   12   78   <0.001   <0.001   L G B R   T r a i n R 2   U nt r e a t e d   A ve r a ge d   12   12   1   0.001   0.001   L G B R   T r a i n R 2   U nt r e a t e d   D r oppe d   12   12   78   <0.001   <0.001   L G B R   T r a i n R 2   A ve r a ge d   D r oppe d   12   12   78   <0.001   <0.001   H G B R   T e s t  R 2   U nt r e a t e d   A ve r a ge d   12   12   71   0.009   0.009   H G B R   T e s t  R 2   U nt r e a t e d   D r oppe d   12   12   78   <0.001   <0.001   H G B R   T e s t  R 2   A ve r a ge d   D r oppe d   12   12   78   <0.001   <0.001   R F R   T e s t  R 2   U nt r e a t e d   A ve r a ge d   12   12   76   0.001   0.001   R F R   T e s t  R 2   U nt r e a t e d   D r oppe d   12   12   78   <0.001   <0.001   R F R   T e s t  R 2   A ve r a ge d   D r oppe d   12   12   78   <0.001   <0.001   L G B R   T e s t  R 2   U nt r e a t e d   A ve r a ge d   12   12   76   0.001   0.001   L G B R   T e s t  R 2   U nt r e a t e d   D r oppe d   12   12   78   <0.001   <0.001   L G B R   T e s t  R 2   A ve r a ge d   D r oppe d   12   12   78   <0.001   <0.001   H G B R   T r a i n R M S E   U nt r e a t e d   A ve r a ge d   12   12   67   0.027   0.027   H G B R   T r a i n R M S E   U nt r e a t e d   D r oppe d   12   12   0   <0.001   0.001   H G B R   T r a i n R M S E   A ve r a ge d   D r oppe d   12   12   0   <0.001   0.001   R F R   T r a i n R M S E   U nt r e a t e d   A ve r a ge d   12   12   78   <0.001   <0.001   R F R   T r a i n R M S E   U nt r e a t e d   D r oppe d   12   12   0   <0.001   <0.001   R F R   T r a i n R M S E   A ve r a ge d   D r oppe d   12   12   0   <0.001   <0.001   L G B R   T r a i n R M S E   U nt r e a t e d   A ve r a ge d   12   12   78   <0.001   <0.001   L G B R   T r a i n R M S E   U nt r e a t e d   D r oppe d   12   12   0   <0.001   <0.001   L G B R   T r a i n R M S E   A ve r a ge d   D r oppe d   12   12   0   <0.001   <0.001   H G B R   T e s t  R M S E   U nt r e a t e d   A ve r a ge d   12   12   0   <0.001   <0.001   H G B R   T e s t  R M S E   U nt r e a t e d   D r oppe d   12   12   0   <0.001   <0.001   H G B R   T e s t  R M S E   A ve r a ge d   D r oppe d   12   12   0   <0.001   <0.001   R F R   T e s t  R M S E   U nt r e a t e d   A ve r a ge d   12   12   0   <0.001   <0.001   R F R   T e s t  R M S E   U nt r e a t e d   D r oppe d   12   12   0   <0.001   <0.001   R F R   T e s t  R M S E   A ve r a ge d   D r oppe d   12   12   0   <0.001   <0.001   L G B R   T e s t  R M S E   U nt r e a t e d   A ve r a ge d   12   12   0   <0.001   <0.001   L G B R   T e s t  R M S E   U nt r e a t e d   D r oppe d   12   12   0   <0.001   <0.001   L G B R   T e s t  R M S E   A ve r a ge d   D r oppe d   12   12   0   <0.001   <0.001           F ig ur e  3. T he  boxplot s   of  t he  pI C 50   di s tr ib ut io ns  f or  t he  s e le c te d M ur c ko  f r a gm e nt s   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       I nv e s ti gat io n on low - pe r fo r m anc e  t une d - r e g r e s s or  of  i nhi bi to r y  c onc e nt r at io n …  ( D ani e F e br ia n Se ng k e y )   3009   F ig ur e   s how s   th e   12  s e le c te d   M ur c ko   f r a gm e nt s   pl ot te a s   l in e   s tr uc tu r e f ol lo w e by   th e   na m e a nd  s ta ti s ti c s   f or   e a c tr e a tm e nt A s   th e   s pl it ti ng  s tr a te gy  us e a n   80: 20  pr opo r ti on  f o r   t r a in in a nd  te s ti ng,   r e s pe c ti ve ly it   c a be   s e e n   th a not   a ll   of   th e s e   s e le c te d   f r a gm e nt s   a r e   e ve nl di s tr ib ut e r e ga r di ng  th e   pr opor ti on.  F o r   in s ta nc e in   e a c tr e a tm e nt th e r e   30  c om pounds   s ha r e   M ur c ko  f r a gm e nt   F 001.  I th e   unt r e a te dupl ic a te s   da ta s e t,   th e   s pl it   is   e xa c tl 80: 20  ( 24: 6) b ut   in   th e   a ve r a ge a nd  dr oppe d,  th e   s pl it s   a r e   s li ght ly   s hi f te to   86.67:13.33  ( 26: 4) F 002  is   a not he r   f r e qu e nt   M ur c ko  f r a gm e nt th a t   s pl it   w it a   r a ti 78.94:21.06  ( 30: 8) 80: 20  ( 20: 5) a nd  90: 10  ( 18: 2 )   a th e   unt r e a te d,  a ve r a ge d,  a nd  dr oppe dupl ic a te   tr e a tm e nt s r e s pe c ti ve ly T he   r a ti f or   th e   M ur c ko  f r a gm e nt   F 002  a th e   d r oppe tr e a tm e nt   ha s   a   m a jo r   de vi a ti on  f r om   th e   e xpe c te s pl it   r a ti o.  T h e   de vi a ti ons   of   th e   s pl it   r a ti a r e   e ve m or e   not ic e a bl e   f or   th e   s e le c te M ur c ko  f r a gm e nt s   w it le s s   f r e que nc y,  s uc a s   F 010  a nd  F 011.  M ur c ko   f r a gm e nt   F 010  w a s   di s tr ib ut e d w it h a  r a ti o of  75: 5 ( 21: 7)   f or  t he   unt r e a te dupl ic a t e  a nd 100:0 f or  t he  ot he r  t w o t r e a tm e nt s .           F ig ur e  4. S e le c te d M ur c ko f r a gm e nt s       T he   f ir s li ne   in   e a c c e ll   s how s   th e   f r a gm e nt   num be r   ( F ###) T he th e   s e c ond,   th ir d,  a nd  f our th   li ne s  s how  t he  pr opor ti on a nd p I C 50   s ta ti s ti c s  i n untr e a te d dupli c a te s , a ve r a ge d pI C 50 , a nd dr oppe d dupli c a te s ,   r e s pe c ti ve ly I e a c li ne th e   num be r s   s ho w   f r e que nc ie s   a nd  pr opor ti ons   of   th e   r e s pe c ti ve   f r a gm e nt   in   th e   tr a in in g/ te s ti ng  da ta s e t,   f ol lo w e by  th e   r e s pe c ti ve   a ve r a g e   a nd  s ta nd a r de vi a ti on  of   pI C 50   in   th e   tr a in in g/ te s ti ng da ta s e t .     3.3 .     D is c u s s io n s   T ypi c a ll y,  hype r pa r a m e te r   tu ni ng  is   a ppl ie to   ga in   hi ghe r   M L   m ode l   pe r f or m a nc e   s uc a s   de m ons tr a te in   pr e vi ous   s tu di e s   [ 38] H ow e ve r e ve w it a   la r ge   hype r pa r a m e te r s   s e a r c s pa c e in   th is   pa r ti c ul a r   s tu dy,  w e   f ound  th e   r e gr e s s or s   pe r f or m a nc e s   w e r e   not   a s   e xpe c te d.  T he r e f or e by  c onduc ti ng  f ur th e r   a na ly s e s ,   w e  a ppl ie d s ta ti s ti c a t e s ts   to   th e   pe r f or m a nc e  da ta gr oupe by   th e   tr e a tm e nt s   f or   dupl ic a te d   bi oa c ti vi ty   da ta T he   r e s ul ts   of   th e   r e pe a te m e a s ur e s   F r ie dm a te s s how   th a t   th e   di f f e r e nc e s   in   th e   da ta   pr e pa r a ti on  s ig ni f ic a nt ly   im pa c m ode pe r f or m a nc e r e ga r dl e s s   of   th e   a lg or it hm s T hi s   f in di ng  is   c on s is te nt   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 A ugus t   20 25 3003 - 3013   3010   w it pr e vi ous   s tu di e s   on   hype r pa r a m e te r   opt im iz a ti on .   A   s tu dy  by  S c hr a tz   e al [ 39]   on   hype r pa r a m e te r   tu ni ng  in   th e   f ie ld   of   e c ol ogi c a m ode li ng,  it   w a s   f ound  th a t he   r e s ul ts   of   hype r pa r a m e te r   tu ni ng  m ig ht   be   ne gl ig ib le   f or   R F S im il a r ly S ip pe r   [ 40 ]   e va lu a te m a ny  a lg or i th m s   a nd  da ta s e ts  a nd  f ound  th a c on s id e r a bl e   ga in s   c oul not   a lw a ys   be   e xpe c t e f r om   hype r pa r a m e te r   tu ni ng.  T he   s tu dy  a ls f ound  th a R F R w hi c w a s   a ls o us e d i n our  s tu dy, i s  on e  a lg or it hm  e xpe c te d t o ga in  l e s s  f r om  hype r pa r a m e te r  t uni ng.   S pl it ti ng  th e   da ta s e f or   tr a in in a nd  te s ti ng  is   a   s ta nda r pr a c ti c e   in   M L I c la s s if ic a ti on  ta s k s e ns ur in th e   ba la nc e   be twe e th e   la be ls   or   c la s s e s   is   a im por t a nt   c ons id e r a ti on  in   da ta   pr e pa r a ti on  s in c e   th e   di ve r s it y of  t he  s a m pl e s  i n e a c h c la s s  br in gs  c on s id e r a bl e  i nf lu e nc e  t o t he  m ode pe r f or m a nc e   [ 41] . I n a not he r   s tu dy  of   he a r di s e a s e   c la s s if ic a ti on  w it e ns e m bl e   a lg or it hm s th e   pr e s e r ve di s tr ib ut io in   tr a in - te s t     s pl it ti ng  br ought  c ons id e r a bl e   im pa c ts   to   th e   ove r a ll   pe r f or m a nc e   [ 42] P r e di c ti on  ta s ks   s uc a s   r e gr e s s io ns   do  not   s ha r e   th is   da ta s e im ba la nc e   pr obl e m   due   to   th e   d if f e r e nt   na tu r e   of   th e   ta r ge t.   H ow e ve r th e   r e pr e s e nt a ti ve ne s s   of   th e   d a ta   c ha r a c te r is ti c s   di s tr ib ut io in   bot tr a in in a nd  te s ti ng  da ta s e ts   ha s   to   be   c ons id e r e d T hi s   im pl ie s   th a th e   f a ir ne s s   of   da ta   c ha r a c te r is ti c s   in   th e   tr a in - te s s pl it   ha s   to   be   c ons id e r e d,  a s   pr opos e in   th e   s tu dy  by  S a l a z a r   e t   al [ 43] I th is   s tu dy,   r e g a r dl e s s   of   th e   hype r pa r a m e te r   tu ni ng  w it h   a e xha us ti ve   s e a r c s p a c e   on  v a r io us   c om bi na ti ons   of   tr e a tm e nt s  of   dupl ic a te s f e a tu r e   e xt r a c ti on  us in v a r io us   m ol e c ul a r   f in ge r pr in ts   a s   de s c r ip to r s a nd  s e ve r a a lg or it hm s t he   be s m ode ls   s ti ll   ha ve   lo w   pe r f or m a nc e A s   th e   M ur c ko  f r a gm e nt   r e pr e s e nt s   th e   c or e   s tr uc tu r a f r a m e w or k   of   a   m ol e c ul e in c lu di ng  it s   r in gs   a nd   li nke r s w it th e   s id e   c ha in s   or   t e r m in a s ubs ti tu e nt s   e xc lu de d ,   it   is   c e nt r a to   th e   m ol e c ul a r   s tr uc tu r e   a nd   of te n   c ons id e r e a s   th e   s c a f f ol d   on  w hi c va r io us   f unc ti ona gr oups   a r e   a tt a c he d.   O ur   in ve s ti ga ti on  of   th e   M ur c ko  f r a gm e nt s   di s tr ib ut io ns   in   th e   tr a in   a nd  te s da ta s e t s   f ound  th a s om e   of   th e m   w e r e   not   e qua ll di s tr ib ut e in   bot da ta s e ts r e s ul ti ng  in   a   f r a gm e nt s   im ba la nc e   b e twe e th e   da ta s e ts th e r e f or e th e   f e a tu r e s   le a r ne by  th e   m ode ls   a r e   di f f e r e nt   f r om   th os e   in   th e   te s t   da ta s e t.   T hi s   is s ue   s houl be   c on s id e r e f ur th e r   w it a n   e xpa nde d   li s of  a lg or it hm s  a nd bioa c ti vi ty  t a r ge ts .       4.   C O N C L U S I O N   I th is   s tu dy,  w e   in ve s ti ga te th e   lo w   pe r f or m a nc e   of   th e   e ns e m bl e   tr e e - ba s e r e gr e s s or   a lg or it hm s   in   pr e di c ti ng  th e   I C 50   of   s m a ll   m ol e c ul e s ta r ge ti ng   th e   S A R S - C oV - pp1a b.  D e s pi te   th e   e xha u s ti ve   hype r pa r a m e te r   s e a r c s pa c e va r io us   c om bi na ti ons   of   tr e a tm e nt s   of   dupl ic a te   bi oa c ti vi ty   da ta   a nd   m ol e c ul a r   f in ge r pr in de s c r ip to r s   a s   f e a tu r e s none   of   th e   r e s ul ti ng  m o de ls   ga in e d   a   s a ti s f a c to r num b e r   of   R 2   a nd  R M S E . T r e a tm e nt - w is e , dr oppi ng a ll  t he  dupli c a te d bi oa c ti vi ty  da ta  yi e ld e d t he  w or s pe r f or m a nc e  c om pa r e d   to   th e   ot he r   two   tr e a tm e nt s T he   R 2   v a lu e s   a c r os s   m ode li ng  s t a ge s   ( tr a in c r o s s - va li da ti on,  a nd   te s t)   te nd   to   ha ve  s im il a r  t r e nds  r e ga r dl e s s  of   th e  m ol e c ul a r  f in ge r pr in ts  a nd a lg or it hm s . H ow e ve r , a  de e pe r  c om pa r is on of   th e   R M S E   in   e a c m ol e c ul a r   f in ge r pr in s how s   th a th e   e xpe r i m e nt s   w it unt r e a te dupl ic a te s   te nd  to   yi e ld   hi ghe r   R M S E   in   te s c r os s - va li da ti on  th a n   in   th e   r e a tr a in in d a ta s e t.   A th e   s a m e   ti m e a s   a   lo s s   f unc ti on,  it   s houl be   th e   ot he r   w a a r ound.  H e nc e ba s e on  our   e xpe r i m e nt s tr e a ti ng  th e   dupl ic a te s   by  a ve r a gi ng  th e   pI C 50   br ought  m or e   r e a s ona bl e   r e s ul t s .   T he   ba la nc e di s tr ib ut io be twe e la be ls   i s   a im por ta nt   f a c to r   in   ove r a ll   m ode pe r f or m a nc e   in   c la s s if ic a ti on  ta s k s B ha vi ng  b a la nc e la be di s tr ib ut io in   bot tr a in in a nd  te s ti ng  da ta s e ts th e   c ons i s te nc of   th e   d a ta   c oul b e   pr e s e r ve d,  he nc e th e   c ha r a c t e r is ti c s   f a c e by  th e   a lg or it hm   dur in m ode tr a in in c oul a ls be   f ound  w he e va lu a ti ng  th e   m ode w it th e   te s ti ng  da ta s e t.   R e ga r dl e s s   of   th e   na tu r e   of   th e   ta s k,  th e   r e pr e s e nt a ti ve ne s s   of   th e   c ha r a c te r is ti c s   in   th e   tr a in in a nd  te s ti ng  da ta s e ts   a l s in f lu e nc e s   th e   m ode pe r f or m a nc e I ou r   s tu dy our   in ve s ti ga ti on  of   th e   M ur c ko  f r a gm e nt s   di s tr ib ut io ns  i n t he  da ta s e ts  us e d f or  t r a in in g a nd t e s ti ng w a s  no ba la nc e d. T he r e  a r e  c a s e s  w he r e  s om e  of  t he   f r e que nt   M ur c ko  f r a gm e nt s   in   th e   w hol e   da ta s e w e r e   not   e ve nl di s tr ib ut e or   di d   not   e xi s in   th e   te s ti ng  da ta s e t.   T hi s   is   c ons id e r e th e   m a in   c a u s e   of   th e   m ode ls de s pi te   hype r pa r a m e te r s   be in tu ne w it a e xha us ti ve   li s of   s e a r c s p a c e w hi c te nds   to   ove r f it .   F ut ur e   s tu di e s   s houl c ons id e r   th e   is s ue   of   M ur c ko  f r a gm e nt   di s tr ib ut io n.  W he in ve s ti ga ti ng  th e   e f f e c of   M ur c ko  f r a gm e nt   di s tr ib ut io ns   in   qua nt it a ti ve   s tr uc tu r e - a c ti vi ty   r e la ti ons hi ( Q S A R )   m ode li ng,  a   w id e   r a ng e   of   a lg or it hm s ta r ge ts ta s k s a nd  s pl it   r a ti os   m us be  c ons id e r e d.       A C K N O WL E D G E M E N T S   T he   a ut hor s   th a nk  th e   s ta f f   of   th e   I nf or m a ti on  a nd  C om m uni c a ti on  T e c hnol ogy  A c a de m ic   S uppor U ni t , U ni ve r s it a s  S a m  R a tu la ngi , f or  t e c hni c a s uppor dur in g t he  e xpe r im e nt s .       F U N D I N G  I N F O R M A T I O N   T hi s   w or is   f unde by  th e   D a f ta r   I s ia P e la ks a na a A ngga r a ( D I P A )   U ni ve r s it a s   S a m   R a tu la ngi :   R is e D a s a r  U nggula n U N S R A T  2024,   c ont r a c num be r 184/ U N 12.13/L T /2 024.   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       I nv e s ti gat io n on low - pe r fo r m anc e  t une d - r e g r e s s or  of  i nhi bi to r y  c onc e nt r at io n …  ( D ani e F e br ia n Se ng k e y )   3011   A U T H O R  C O N T R I B U T I O N S  S T A T E M E N T   T hi s   jo ur na us e s   th e   C ont r ib ut or   R ol e s   T a xonomy  ( C R e di T )   to   r e c ogni z e   in di vi dua l   a ut hor   c ont r ib ut io ns , r e duc e  a ut hor s hi p di s put e s a nd f a c il it a te  c ol la bo r a ti on.     N am e  o f  A u t h or   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   D a ni e F e br ia S e ngke y                               A nge li na  S te va ny  R e gi na  M a s e ngi                               A lwi n M e lk ie  S a m bul                               T r in a  E ka w a ti  T a ll e i                               S he r w in  R e in a ld U ns r a td ia nt o S om pi e                                 C     C onc e pt ua l i z a t i on   M     M e t hodol ogy   So     So f t w a r e   Va     Va l i da t i on   Fo     Fo r m a l  a na l ys i s   I     I nve s t i ga t i on   R     R e s our c e s   D   :   D a t a  C ur a t i on   O   :   W r i t i ng  -   O r i gi na l  D r a f t   E   :   W r i t i ng  -   R e vi e w  &   E di t i ng   Vi     Vi s ua l i z a t i on   Su     Su pe r vi s i on   P     P r oj e c t   a dm i ni s t r a t i on   Fu     Fu ndi ng a c qui s i t i on         C O N F L I C T  O F  I N T E R E S T  S T A T E M E N T   T he  a ut hor s  s t a te  no c onf li c of  i nt e r e s t.       D A T A  A V A I L A B I L I T Y   T he   bi oa c ti vi ty   da ta s e t   us e d   in   th is   r e s e a r c h   w a s   r e tr ie ve f r om   th e   C hE M B L   da ta b a s e   a ht tp s :/ /e bi .a c .uk/ c he m bl   in   A pr il   2024.  P r e pr oc e s s e da ta s e ts   w it e xt r a c te f in ge r pr in ts   a s   f e a tu r e s   a nd  th e   di f f e r e nt   tr e a tm e nt s   on  th e   dupl ic a te   bi oa c ti vi ty   a r e   a va il a bl e   in   ht tp s :/ /g it hub.c om /d a ni e ls e ngke y/ s uppl e m e nt a r ie s /t r e e /m a in /p p 1a b_i ja i2 025.       R E F E R E N C E S   [ 1]   X H ua ng,  R P e a r c e G S O m e nn,  a nd  Y . Z ha ng,  I de nt i f i c a t i on  o f   13  gua ni d i nobe nz oyl -   or   a m i ni di nobe nz oyl - c ont a i ni ng   dr ugs   t pot e nt i a l l i nhi bi t   T M P R S S f or   C O V I D - 19   t r e a t m e nt ,”   I nt e r nat i onal   J our nal   of   M ol e c ul ar   Sc i e nc e s vol 22,  no.  13,    J un. 2021, doi :  10.3390/ i j m s 22137060.   [ 2]   R A l e xpa ndi J F D e   M e s qui t a ,   S K P a ndi a n,   a nd  A V R a vi Q ui nol i ne s - ba s e S A R S - C oV - 3C L pr a nd   R dR p   i nhi bi t or s   a nd  s pi ke - R B D - A C E i nhi bi t or   f or   dr ug - r e pur pos i ng  a ga i ns t   C O V I D - 19:   a i s i l i c o   a na l ys i s ,”   F r ont i e r s   i M i c r obi ol ogy   vol . 11, J ul . 2020, doi :  10.3389/ f m i c b.2020.01796.   [ 3]   A K ha l e a nd  Z A .   E l   H a l i e m G e ne r a t i ve   r e c ur r e nt   ne t w or f or   de s i gn   S A R S - C oV - m a i p r ot e a s e   i nhi bi t or ,”   i n   2022  I nt e r nat i onal   C onf e r e nc e   on  Sof t w ar e T e l e c om m uni c at i ons   and  C om put e r   N e t w o r k s   ( Sof t C O M ) 2022,  pp.  1 6 doi 10.23919/ S of t C O M 55329.2022.9911377.   [ 4]   D S ha j i S Y a m a m ot o,  R S a i t o,  R S uz uki S N a ka m ur a a nd  N K u r i t a P r opos a l   of   nove l   na t ur a l   i nhi bi t o r s   of   s e ve r e   a c ut e   r e s pi r a t or s yndr om e   c or ona vi r us   m a i pr ot e a s e :   m ol e c ul a r   doc ki ng  a nd  a i ni t i o   f r a gm e nt   m ol e c ul a r   or bi t a l   c a l c ul a t i ons ,”   B i ophy s i c al  C he m i s t r y , vol . 275, A ug. 2021, doi :  10.1016/ j .bpc .2021.106608.   [ 5]   F H u,  D W a ng,  Y H u,   J .   J i a ng,  a nd   P Y i n,   G e ne r a t i ng  nove l   c om pound s   t a r ge t i ng  S A R S - C oV - m a i n   pr ot e a s e   ba s e on   i m ba l a nc e da t a s e t ,”   i 2020  I E E E   I nt e r nat i onal   C onf e r e nc e   on  B i oi nf or m at i c s   and  B i om e di c i ne   ( B I B M ) I E E E D e c 2020,    pp. 432 436 , doi :  10.1109/ B I B M 49941.2020.9313317.   [ 6]   I A c hi l onu,  E .   A I w uc hukw u,  O .   J A c hi l onu,   M A F e r na nde s a nd  Y S a ye d T a r ge t i ng  t he  S A R S - C oV - m a i p r ot e a s e   us i ng   F D A - a ppr ove i s a vuc ona z oni um a   P 2 P α - ke t oa m i de   de r i va t i ve   a nd  pe nt a ga s t r i n:   a in - s i l i c o   dr ug  di s c ove r a ppr oa c h,”   J our nal  of  M ol e c ul ar  G r aphi c s  and M ode l l i ng , vol . 101, D e c . 2020, doi :  10.10 16/ j .j m gm .2020.107730.   [ 7]   N F e r dous   e t   al . M pr opr e d:   a   m a c hi ne   l e a r ni ng  ( M L )   dr i ve w e b - a pp  f or   bi oa c t i vi t pr e di c t i on  of   S A R S - C oV - m a i pr ot e a s e   (M pr o )  a nt a goni s t s ,”   P L O S O N E , vol . 18, no. 6, J un. 2023, doi :  10.1371/ j our na l . pone .0287179.   [ 8]   T E T a l l e i   e t   al . ,   P ot e nt i a l   of   pl a nt   bi oa c t i ve   c om pounds   a s   S A R S - C oV - m a i pr ot e a s e   ( M pr o )   a nd  s pi ke   ( S )   gl yc opr ot e i n   i nhi bi t or s :  a  m ol e c ul a r  doc ki ng s t udy,”   Sc i e nt i f i c a , vol . 2020, pp. 1 18, D e c . 2 020, doi :  10.1155/ 2020/ 6307457.   [ 9]   T E .   T a l l e i   e t   al . F r ui t   b r om e l a i n - de r i ve pe pt i de   pot e nt i a l l r e s t r a i ns   t he   a t t a c hm e nt   of   S A R S - C oV - va r i a nt s   t hA C E 2:   a   pha r m a c oi nf or m a t i c s  a ppr oa c h,”   M ol e c ul e s , vol . 27, no. 1, J a n. 2022, doi :  10.3390/ m ol e c ul e s 27010260.   [ 10]   F S ul i s t i a w a n,  W A K us um a N S .   R a m a dha nt i a nd  A T e dj o,   D r ug - t a r ge t   i nt e r a c t i on  pr e di c t i on   i c or ona vi r us   d i s e a s e   2019   c a s e   us i ng  de e s e m i - s upe r vi s e l e a r ni ng  m ode l ,”   i 2020  I nt e r nat i onal   C onf e r e nc e   on  A dv anc e C om put e r   Sc i e nc e   and   I nf or m at i on Sy s t e m s , I E E E , O c t . 2020, pp. 83 88 , doi 10.1109/ I C A C S I S 51025 .2020.9263241.   [ 11]   L E r l i na   e t   al . V i r t ua l   s c r e e ni ng  of   I ndone s i a n   he r ba l   c om pounds   a s   C O V I D - 19  s uppor t i ve   t he r a py:   m a c hi ne   l e a r ni ng  a nd   pha r m a c ophor e   m ode l i ng  a ppr oa c he s ,”   B M C   C om pl e m e nt ar y   M e di c i ne   and  T he r api e s vol .   22,  no.  1,  D e c .   2022,     doi :  10.1186/ s 12906 - 022 - 03686 - y.   [ 12]   N S R a m a dha nt i W A K us um a ,   I B a t uba r a a nd  R H e r ya nt o,  R a ndom   f or e s t   t pr e di c t   e uc a l ypt us   a s   a   pot e nt i a l   h e r i n   pr e ve nt i ng  C O V I D 19 ,”   i 2021  I E E E   C onf e r e nc e   on  C om put at i onal   I nt e l l i ge nc e   i B i oi nf or m at i c s   and  C om put at i onal   B i ol ogy   ( C I B C B ) I E E E , O c t . 2021, pp. 01 05 , doi :  10.1109/ C I B C B 49929.2021.9562940.   [ 13]   A A M a l i k,  C P ha nus um por n,  N S c ha dua ngr a t W S hoom bua t ong,  C I s a r a nkur a N a A yudhya a nd  C N a nt a s e na m a t ,   H C V pr e d:  a  w e s e r ve r  f or  pr e di c t i ng t he  bi oa c t i vi t y of  he pa t i t i s  C  vi r us  N S 5B  i nhi bi t or s ,”   J our nal  of  C om put at i onal  C he m i s t r y vol . 41, no. 20, pp. 1820 1834, J ul . 2020, doi :  10.1002/ j c c .26223.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 A ugus t   20 25 3003 - 3013   3012   [ 14]   T L e r ks ut hi r a t S C hi t phuk,  W .   S t i t c ha nt r a kul D D e j s uphong,   A A M a l i k,   a nd  C N a nt a s e n a m a t P A R P 1pr e d:   a   w e s e r ve r   f or   s c r e e ni ng  t he   bi oa c t i vi t of   i nhi bi t or s   a ga i ns t   D N A   r e pa i r   e nz ym e   P A R P - 1,”   E X C L I   J our nal vol 22,  pp.  84 107,  2023,    doi :  10.17179/ e xc l i 2022 - 5602.   [ 15]   C B e nne t t e   a nd  A V i c ke r s A g a i ns t   qua nt i l e s :   c a t e gor i z a t i on  of   c ont i nu ous   va r i a bl e s   i n   e pi de m i ol ogi c   r e s e a r c h,  a nd  i t s   di s c ont e nt s ,”   B M C  M e di c al  R e s e ar c h M e t hodol ogy , vol . 12, no. 1, D e c . 2012, d oi :  10.1186/ 1471 - 2288 - 12 - 21.   [ 16]   K E M a r kon,  M C hm i e l e w s ki a nd  C J M i l l e r ,   T he   r e l i a bi l i t a nd  va l i di t of   d i s c r e t e   a nd  c ont i nuous   m e a s ur e s   of   ps yc hopa t hol ogy:  a  qua nt i t a t i ve  r e vi e w ,”   P s y c hol ogi c al  B ul l e t i n , vol . 137, no.  5, pp. 856 879, 2011, doi :  10.1037/ a 0023678.   [ 17]   Z G a o,  R X i a a nd  P .   Z ha ng,  P r e di c t i on  of   a nt i - pr ol i f e r a t i on  e f f e c t   of   [ 1,2,3]  T r i a z ol [ 4,5 - d]   pyr i m i di ne   de r i va t i ve s   by  r a ndom   f or e s t   a nd  m i x - ke r ne l   f unc t i on  S V M   w i t P S O ,”   C he m i c al   and  P har m ac e ut i c al   B ul l e t i n vol 70,  no.  10,  O c t 2022,    doi :  10.1248/ c pb.c 22 - 00376.   [ 18]   S . K a m boj , A . R a j put , A . R a s t ogi , A . T ha kur , a nd  M . K um a r , “ T a r ge t i ng non - s t r uc t ur a l  pr ot e i ns  of  he pa t i t i s  C  vi r us  f or  pr e di c t i ng  r e pur pos e dr ugs   us i ng  Q S A R   a nd  m a c hi ne   l e a r ni ng  a ppr oa c he s ,”   C om put at i o nal   and  St r uc t ur al   B i ot e c hnol ogy   J ou r nal vol 20,   pp. 3422 3438, 2022, doi :  10.1016/ j .c s bj .2022.06.060.   [ 19]   D N .   F i a t   e t   al . C om pa r a t i ve   a na l ys i s   of   H e pa t i t i s   C   vi r us   ge not ype   1a   ( I s ol a t e   1)   us i ng  m ul t i pl e   r e gr e s s i on  a l gor i t hm s   a nd  f i nge r pr i nt i ng  t e c hni que s ,”   J our nal   of   E l e c t r oni c s E l e c t r o m e di c al   E ngi ne e r i ng,  and  M e di c al   I nf or m at i c s vol 6,  no.   4,     pp. 478 488, S e p. 2024, doi :  10.35882/ j e e e m i .v6i 4.506.   [ 20]   T R N ovi a ndy,  G M I dr oe s T E T a l l e i D H a nda ya ni a nd  R I dr oe s Q S A R   m ode l i ng  f or   pr e di c t i ng  be t a - s e c r e t a s e   1   i nhi bi t or a c t i vi t i n   a l z he i m e r s   di s e a s e   w i t s uppor t   ve c t or   r e gr e s s i on,”   M al ac c P har m ac e ut i c s vol 2,  no.  2,  pp.  79 85,    S e p. 2024, doi :  10.60084/ m p.v2i 2.226.   [ 21]   G I B J a na i r o,  D E .   C Y u,  a nd  J I B . J a na i r o,  A   m a c hi ne   l e a r ni ng  r e gr e s s i on  m ode l   f or   t he   s c r e e ni ng  a nd  de s i gn  of   pot e nt i a l   S A R S - C oV - pr ot e a s e   i nhi bi t or s ,”   N e t w or k   M ode l i ng  A nal y s i s   i H e al t h   I nf or m at i c s   and   B i oi nf or m at i c s vol .   10,  no.   1,     D e c . 2021, doi :  10.1007/ s 13721 - 021 - 00326 - 2.   [ 22]   D F S e ngke a nd  A M a s e ngi R e gr e s s i on  a l gor i t hm s   i pr e di c t i ng  t he   S A R S - C oV - r e pl i c a s e   pol ypr ot e i 1a i nhi bi t or :   a   c om pa r a t i ve   s t udy,”   J our nal   of   E l e c t r oni c s E l e c t r om e di c al   E ngi ne e r i ng,  a nd  M e di c al   I nf or m at i c s vol 6,  no.  1,  pp.  1 10,     D e c . 2023, doi :  10.35882/ j e e e m i .v6i 1.338.   [ 23]   Y C á r de na s C on e j o,  A L i ñ a n‐ R i c o,  D A G a r c í a R odr í gue z S C e nt e no‐ L e i j a a nd  H S e r r a no‐ P os a da A n   e xc l us i ve   42  a m i no   a c i s i gna t ur e   i pp1a b   pr ot e i pr ovi de s   i ns i ght s   i nt t he   e vol ut i ve   hi s t or of   t he   2019  nove l   hum a n‐ pa t hoge ni c   c or ona vi r u s   ( S A R S C oV 2) ,”   J our nal  of  M e di c al  V i r ol ogy , vol . 92, no. 6, pp. 688 692, J un . 2020, doi :  10.1002/ j m v.25758.   [ 24]   R Y a da e t   al . R ol e   of   s t r uc t ur a l   a nd  non - s t r uc t ur a l   pr ot e i ns   a nd  t h e r a pe ut i c   t a r ge t s   of   S A R S - C oV - f or   C O V I D - 19,”   C e l l s vol . 10, no. 4, A pr . 2021, doi :  10.3390/ c e l l s 10040821.   [ 25]   T B a dr i ya h,  D B S a nt o s o,  I S ya r i f a nd  D R S ya r i f I m pr ovi ng  s t r oke   di a gnos i s   a c c ur a c u s i ng  hype r pa r a m e t e r   opt i m i z e d   de e l e a r ni ng,”   I nt e r nat i onal   J our nal   of   A dv anc e s   i I nt e l l i ge nt   I nf or m at i c s vol 5,  no.  3,   N ov.  2019,    doi :  10.26555/ i j a i n.v5i 3.427.   [ 26]   H J P W e e r t s A C M ue l l e r a nd  J V a ns c hor e n,  I m por t a nc e   of   t uni ng  hype r pa r a m e t e r s   of   m a c hi ne   l e a r ni ng  a l gor i t hm s ,”   ar X i v - C om put e r  Sc i e nc e pp. 1 - 17, J ul 2020 .   [ 27]   B B i s c hl   e t   al . H yp e r pa r a m e t e r   opt i m i z a t i on:   f ounda t i ons a l gor i t hm s be s t   pr a c t i c e s a nd  op e c ha l l e nge s ,”   W i l e y   I nt e r di s c i pl i nar y  R e v i e w s :  D at a M i ni ng and K now l e dge  D i s c ov e r y , vol . 13, no.  2, 2023, doi :  10.1002/ w i dm .1484.   [ 28]   A B oul e s t e i x,  B .   B i s c hl a nd   P P r obs t T una bi l i t y:   i m por t a nc e   of   hype r pa r a m e t e r s   of   m a c hi ne   l e a r ni ng  a l gor i t hm s ,”   J our nal   of   M ac hi ne  L e ar ni ng R e s e ar c h , vol . 20, no. 53, 2019.   [ 29]   F P e dr e gos a   e t   al . ,   S c i ki t - l e a r n:   m a c hi ne   l e a r ni ng  i n   P yt hon,”   J ou r nal   of   M ac hi ne   L e ar ni ng  R e s e ar c h ,   vol 127,  no.   9,     pp. 2825 2830, 2019.   [ 30]   M D a vi e s   e t   al . C hE M B L   w e s e r vi c e s :   s t r e a m l i ni ng  a c c e s s   t dr ug  di s c ove r da t a   a nd  ut i l i t i e s ,”   N uc l e i c   A c i ds   R e s e ar c h   vol . 43, no. W 1, J ul . 2015, doi :  10.1093/ na r / gkv352.   [ 31]   C W Y a p,  P a D E L de s c r i pt or :   a ope s our c e   s of t w a r e   t c a l c ul a t e   m o l e c ul a r   de s c r i pt or s   a nd  f i nge r pr i nt s ,”   J our nal   of   C om put at i onal  C he m i s t r y , vol . 32, no. 7, pp. 1466 1474, M a y 2011, doi :  10.10 02/ j c c .21707.   [ 32]   R   C or e   T e a m R :   a   l anguage   and   e nv i r onm e nt   f or   s t at i s t i c al   c om put i ng R   F ou nda t i on  f or   S t a t i s t i c a l   C om put i ng V i e nna ,   A us t r i a 2024. [ O nl i ne ] . A va i l a bl e :   ht t ps : / / c r a n.r - pr oj e c t .or g/ doc / m a nua l s / r - r e l e a s e / f ul l r e f m a n.pdf   [ 33]   N . N . I va nov, D . A . S hul ga , a nd V . A . P a l yul i n, “ D e c om po s i t i on of  s m a l l  m ol e c ul e s  f or  f r a gm e nt - ba s e d dr ug de s i gn,”   B i ophy s i c a vol . 3, no. 2, pp. 362 372, 2023, doi :  10.3390/ bi ophys i c a 3020024.   [ 34]   G W B e m i s   a nd  M A M ur c ko,  T he   pr ope r t i e s   of   know d r ugs 1.  m ol e c u l a r   f r a m e w or ks ,”   J our nal   of   M e di c i nal   C he m i s t r y vol . 39, no. 15, pp. 2887 2893, J a n. 1996, doi :  10.1021/ j m 9602928.   [ 35]   A K um a r S L oha r c h,  S K um a r R P R i ng e a nd  R P a r ke s h,  E xpl oi t i ng  c h e m i nf or m a t i c   a nd  m a c hi ne   l e a r ni ng  t na vi ga t e   t he   a va i l a bl e   c he m i c a l   s pa c e   of   pot e nt i a l   s m a l l   m ol e c ul e   i nhi bi t or s   of   S A R S - C o V - 2,”   C om put at i onal   and  St r uc t ur al   B i ot e c hnol ogy   J our nal , vol . 19, pp. 424 438, 2021, doi :  10.1016/ j .c s bj .2020.12.028.   [ 36]   T Y e t   a l . E xpl o r i ng  t he   c he m i c a l   s pa c e   of   C Y P 17A i nhi bi t or s   us i ng  c h e m i nf or m a t i c s   a nd  m a c hi ne   l e a r ni ng,”   M o l e c ul e s   vol . 28, no. 4, F e b. 2023, doi :  10.3390/ m ol e c ul e s 28041679.   [ 37]   R G uha C h e m i c a l   i nf or m a t i c s   f unc t i ona l i t i R ,”   J ou r nal   of   St at i s t i c al   Sof t w ar e vol 18,  no.  5,   2007,     doi :  10.18637/ j s s .v018.i 05.   [ 38]   K . S . N ugr oho, A . Y . S ukm a de w a , A V i di a nt o, a nd W . F M a hm udy, “ E f f e c t i ve  pr e di c t i ve  m ode l l i ng f or  c or ona r y a r t e r y di s e a s e s   us i ng  s uppor t   ve c t or   m a c hi ne ,”   I A E I nt e r nat i onal   J our nal   of   A r t i f i c i al   I nt e l l i ge nc e   ( I J - A I ) vol 11,  no.  1,  M a r 2022,     doi :  10.11591/ i j a i .v11.i 1.pp345 - 355.   [ 39]   P S c hr a t z J M ue nc how E I t u r r i t xa J R i c ht e r a nd  A B r e nni ng,  H ype r pa r a m e t e r   t uni ng  a nd  pe r f or m a nc e   a s s e s s m e nt   of   s t a t i s t i c a l   a nd  m a c hi ne - l e a r ni ng  a l gor i t hm s   us i ng  s pa t i a l   da t a ,”   E c ol ogi c al   M ode l l i ng vol 406,  pp.  109 120,  A ug.  2019,    doi :  10.1016/ j .e c ol m ode l .2019.06.002.   [ 40]   M S i ppe r H i gh  pe r   pa r a m e t e r :   a   l a r ge - s c a l e   s t udy  of   hype r pa r a m e t e r   t uni ng  f or   m a c hi ne   l e a r ni ng  a l gor i t hm s ,”   A l gor i t hm s   vol . 15, no. 9, S e p. 2022, doi :  10.3390/ a 15090315.   [ 41]   A R á c z D B a j u s z a nd  K H é be r ge r E f f e c t   of   da t a s e t   s i z e   a nd  t r a i n/ t e s t   s pl i t   r a t i os   i Q S A R / Q S P R   m ul t i c l a s s   c l a s s i f i c a t i on,   M ol e c ul e s , vol . 26, no. 4, F e b. 2021, doi :  10.3390/ m ol e c ul e s 26041111.   [ 42]   D M oha pa t r a S K B hoi C M a l l i c k,  K K J e na a nd  S M i s hr a D i s t r i but i on  pr e s e r vi ng  t r a i n - t e s t   s pl i t   di r e c t e e ns e m bl e   c l a s s i f i e r   f or   he a r t   di s e a s e   pr e di c t i on,”   I nt e r nat i onal   J our nal   of   I nf or m at i on  T e c hnol ogy vol 14,   no.  4,   pp.  1763 1769,     J un. 2022, doi :  10.1007/ s 41870 - 022 - 00868 - 2.   [ 43]   J . J . S a l a z a r , L . G a r l a nd, J . O c hoa , a nd  M . J . P yr c z ,  “ F a i r  t r a i n - t e s t  s pl i t  i n m a c hi ne  l e a r ni ng:  m i t i ga t i ng s pa t i a l   a ut oc or r e l a t i on f or   i m pr ove pr e di c t i on  a c c ur a c y,”   J our nal   of   P e t r ol e um   Sc i e nc e   and  E ngi ne e r i ng vol 209,  F e b.  2022,     doi :  10.1016/ j .pe t r ol .2021.109885.   Evaluation Warning : The document was created with Spire.PDF for Python.