I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol .   14 , N o.   3 J une   2025 , pp.  2246 ~ 2257   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 14 .i 3 .pp 2246 - 2257          2246     Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   R ob u st  t w o - st age  ob j e c t  d e t e c t i on  u si n g Y O L O v5   f or  e n h an c i n t om at o l e af  d i se ase  d e t e c t i on       E n d an g S u r yaw at i 1 , S yi f a A u li yah  H as an ah 2 , R a d e n  S an d r a Y u w an a 1 , Ji m m y A b d e K ad ar 1   H il m an  F e r d in an d u s  P ar d e d e 1   1 R e s e a r c C e nt e r  f or   A r t i f i c i a l  I nt e l l i ge nc e  a nd C ybe r  S e c ur i t y, N a t i ona l  R e s e a r c h a nd I nnova t i on A ge nc y, B a ndung, I ndone s i a   2 D e pa r t m e nt  of  S t a t i s t i c s ,   F a c ul t y of  M a t he m a t i c s  a nd  N a t ur a l  S c i e nc e s , P a dj a d j a r a n U ni ve r s i t y, S um e da ng, I ndone s i a       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e A ug   13 2024   R e vi s e F e b   10 2025   A c c e pt e M a r   15 2025       Deep  learning  facilitates   human   activities  across   various  sectors,  inc luding  agricult ure.  Early  disease  detection   in  plants,   such  as  tomato  plant  t hat  are  susceptible  to  diseases,  is  critical  because  it  h elps  farmers  reduce  loss es  and  control  the  disease  spread  more  effectively However,  the  abilit of   m achine  to  recognize  diseased  leaf  objects  is   also  influenced  by   the  quality  o data.  Data  collected  directly  from  the  field  typically  yields  lower  accuracy  due  to  challenges   faced  in  ma chine  interpret ation.  To  address  this   challen ge we  propose  two - stage   detection  architecture   for  identifying   infected  t omato  plant  classes,  leveraging  YOLOv5  to  detect  objects  within  the  images  obtained  from  the  field.  We  use   Inception - V3  for  classifying  objec ts   into   known  classes.  Additionally,  w employ  a   combination  of  two   d ataset:  PlantDoc which  repre sent  field  data,  and  PlantVill age  datase which  serve as  cleaner  dataset.   Our  experimental  results   indicate  that   the  use  of   YOLOv5  in  handling  data  under  actual  field  conditions  can  enhance  model  performance, a lthough the accuracy value  is moderate (62.50 %).   K e y w o r d s :   C onvolut io na ne ur a ne twor k   D e e p l e a r ni ng   P la nt  di s e a s e  d e te c ti on   T w o - s ta ge  obj e c de te c ti on   Y O L O   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   E nda ng S ur ya w a ti   R e s e a r c C e nt e r  f or  A r ti f ic ia I nt e ll ig e nc e  a nd  C ybe r  S e c ur it y, N a ti ona R e s e a r c h a nd I nnova ti on A ge nc y   S a ngkur ia ng  S t. , K S T  S a m a un S a m a di kun, B a ndung, I ndone s ia   E m a il e nda 029@ br in .go.i d       1.   I N T R O D U C T I O N   E a r ly  di s e a s e  de te c ti on i n pl a nt s  e na bl e s  f a r m e r s  t o m in im iz e  l os s e s  a nd mor e  e f f e c ti ve ly  c ont r ol  t he   s pr e a of   di s e a s e   [ 1] C e r ta in   pl a nt s pa r ti c ul a r ly   to m a to e s a r e   vul ne r a bl e   to   a   va r ie ty   of   d is e a s e s   th a c a r e duc e   c r op  pr oduc ti vi ty   a nd  f r u it   qua li ty .   B a c te r ia s pot la te   b li ght le a f   m ol d,   s e pt or ia   le a f   s pot ,   a nd  s pi de r   m it e s   a r e   a m ong  th e   di s e a s e s   th a t   a f f e c to m a to   pl a nt s .   C ons e que nt ly e a r ly   de te c ti on  of   di s e a s e s   in   to m a to   pl a nt s  i s  c r uc ia to  m in im iz in g l os s e s   [ 2] .   E xi s ti ng  r e s e a r c in di c a te s   s ig ni f ic a nt   a dva nc e m e nt s   in   de v e lo pi ng  s ys te m s   f or   id e nt if yi ng  a n d   c la s s if yi ng  pl a nt   di s e a s e s   us in g   m a c hi ne   le a r ni ng  m e th ods   th a ut il iz e   im a ge s   of   in f e c te d   le a ve s I ni ti a ll y,  th e s e   m e th ods   r e li e on  m a nua f e a tu r e   e xt r a c ti on,  de m a ndi ng  e xpe r knowle dge   a nd  li m it in th e   qua li ty   a nd  r e le va nc e   of   f e a tu r e s A lg or it hm s   s uc a s  s uppor ve c to r   m a c hi ne s de c is io tr e e s k - ne a r e s ne ig hbor s na ïv e   B a ye s ,   a nd  r a ndom  f or e s t s   ha ve   de m ons tr a te d   th e   pot e nt ia o f   tr a di ti ona m a c hi ne   le a r ni ng  in   a gr ic ul tu r a a ppl ic a ti ons   [ 3] [ 4] T he   a dve nt   of   de e p   le a r ni ng  ha s   r e vol ut io ni z e tr a di ti ona m a c hi ne   le a r ni ng  th r ough  a ut om a ti c   f e a tu r e   e xt r a c ti on  [ 5] gr e a tl y   im pr ovi ng  c la s s if ic a ti on  a c c ur a c y.   D e e p   le a r ni ng,  f ir s in tr oduc e in   1943  [ 6] c ont in ue s   to   e vol ve   a nd  i s   w id e ly   a ppl ie a c r os s   va r io us   dom a in s in c lu di ng  te xt   r e c ogni ti on  [ 7] [ 8] s pe e c r e c ogni ti on  [ 9] [ 10] a nd  im a ge   r e c ogni ti on  [ 11 ] ,   [ 12] O ne   of   th e   de e le a r ni ng  a r c hi te c tu r e s   c om m onl us e f or   im a ge   c la s s if ic a ti on  is   th e   c onvolut io na l   ne ur a ne twor ( C N N ) .   C N N   le ve r a ge s   th e   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       R obus tw o - s ta ge  obj e c de te c ti on us in g Y O L O v 5 f o r  e nhanc in g  t om at o l e af     ( E ndang Sur y aw at i )   2247   m ove m e nt   of   c onvolut io ke r ne ls   to   c la s s if obj e c ts   ba s e on  vi s ua f e a tu r e s   s u c a s   c ol or te xt ur e a nd  le a f   e dge s T hi s   a ppr oa c de li ve r e s upe r io r   pe r f or m a nc e   f or   v a r io us   im a ge   da ta   ta s ks   w hi le   pr ogr e s s iv e ly   s upe r s e di ng  tr a di ti ona m a c hi ne   le a r ni ng  m e th ods   [ 11] .   H ow e ve r f or   s m a ll   da ta s e us e   c a s e s th e   tr a di ti ona l   m a c hi ne  l e a r ni ng s ti ll  out pe r f or m s   [ 13] .   I a gr ic ul tu r e   a nd  pl a nt a ti on   a ppl ic a ti ons e xi s ti ng  r e s e a r c in di c a te s   th a C N N s   a r e   c a p a bl e   of   im pr ovi ng  c la s s if ic a ti on  a c c ur a c th r ough  va r io us   popula r   a r c hi te c tu r e s D if f e r e nt   C N N   a r c hi te c tu r e s   ha ve   be e n w id e ly  us e d t o i de nt if y pl a nt s  or  c la s s if y pl a nt  di s e a s e s . A le xN e t,  G oogl e N e t,  a nd V G G - 16 e a c h pos s e s s   di s ti nc c ha r a c te r is ti c s   f or   id e nt if yi ng  a nd  c la s s if yi ng  di s e a s e le a ve s   [ 14] T h e   I nc e pt io a r c hi te c tu r e   ha s   be e a ppl ie f or   c la s s if yi ng  f r ui pl a nt s   [ 15] lu ng  c a nc e r   [ 16] a nd  pl a nt   di s e a s e s   [ 17] [ 20] C N N   a r c hi te c tu r e s   c a te gor iz e a s   s ki c onne c ti on  a r c hi te c tu r e s ha v e   a ls be e us e f or   c la s s if yi ng  pl a nt   di s e a s e s   s uc a s   R e s N e t   [ 19] [ 21] [ 23] a nd  D e ns e N e t   [ 19] [ 21] [ 24] a nd  a ls o   D e ns e N e f or   de te c ti ng   pl a nt   nut r ie nt   de f ic ie nc ie s   [ 25] O th e r   C N N   a r c hi te c tu r e s de ve lo p e f or   im pr ove pe r f or m a nc e   a nd  e f f ic ie nc y,  in c lu de   C om N e [ 26] E f f ic ie nt N e [ 19] [ 21] [ 24 ] M obi le N e [ 20] [ 2 2] [ 27] a nd  I nc e pt io nR e s N e [ 21] [ 22] I it s   de ve lo pm e nt s om e   r e s e a r c h e r s   ha ve   pr opos e m ode ls   c a te go r iz e unde r   th e   de te c to r   f a m il y,  na m e ly   one - s ta ge   a nd  two - s ta ge   obj e c de te c ti on.  Y O L O   is   r e c ogni z e a s   a   popula r   one - s ta ge   obj e c de te c ti on  m ode l,   w hi le   th e   r e gi on - ba s e C N N   f a m il f a ll s   in to   two - s ta ge   obj e c t   de te c ti on.  W u   e al [ 28]   a ppl ie s   two   le a r ni ng  m ode ls , Y O L O v5 a nd E f f ic ie nt N e tV2, to c la s s if y t om a to  l e a f  d is e a s e s .   N e ve r th e le s s ,   m a ny  s tu di e s   on   pl a nt   di s e a s e   c la s s if ic a ti on  r e ly   he a vi ly   on  c l e a da t a s e t s w hi c h   e na bl e   m ode ls   to   a c hi e ve   hi gh  a c c ur a c y.   H ow e ve r m o s da ta s e ts   f ound  in   r e a l - w or ld   e nvi r onm e nt s   a r e   c a pt ur e unde r   unc ont r ol le d,  r e a l - w or ld   c ondi ti ons ,   unl ik e   la b or a to r da ta s e ts .   W e   r e f e r   to   s uc h   da ta s e ts   a s   " di r ty   da ta s e ts ,"   r e pr e s e nt in r e a l - w or ld   c ondi ti ons O f te n,  m o de ls   s tr uggl e   to   pe r f or m   w e ll   w he te s te on   di r ty   da ta s e ts .   T hi s   s it ua ti on   pr e s e nt s   a   c ha ll e ngi ng  t a s f or   m a c hi ne s w hi c m us t   r e c ogni z e   a nd  c la s s if obj e c ts  f r om  r e a l - c ondi ti on da ta  i nt o pr e de f in e d c a te gor ie s   B a s e d on thi s  ba c kgr ound, our  r e s e a r c h f oc us e s  on i m pr ovi ng  m ode pe r f or m a nc e , pa r ti c ul a r ly  w he n   te s te w it r e a l - w or ld   ( di r ty )   da ta s e ts to   de ve lo a   r obus m o de f or   c la s s if yi ng  to m a to   pl a nt   le a f   di s e a s e s .   T he r e   a r e   s e ve r a c r uc ia f a c to r s   to   c ons id e r   to   a ddr e s s   th is   r e s e a r c que s ti on.  F ir s t,   w e   e m pl oy  a obj e c de te c to r   a nd  a   c la s s if ie r   to   pr opos e   a   two - s ta ge   obj e c de te c ti o a r c hi te c tu r e S e c ond,  w e   le ve r a ge   Y O L O v5   to   be   in te gr a te in to   th e   a r c hi te c tu r e   a s   a obj e c de te c to r pe r f or m in pr e - p r oc e s s in ta s k s   be f or e   th e   da ta   e nt e r s   th e   c la s s if ie r F or   th e   pr e li m in a r r e s e a r c of   our   pr opos e a r c hi te c tu r e w e   c ons id e r   ut il iz in g   Y O L O v5,  w hi c of f e r s   ba la nc e pe r f or m a nc e s p e e d,  a   li g ht w e ig ht   m ode l,   a nd  a da pt a bi li ty   f or   f ut ur e   r e qui r e m e nt s   w hi le   a ls a c c ount in f or   th e   c ons tr a in ts   of   our   c ur r e nt   ha r dw a r e   [ 27] [ 29 ] W e   ut il iz e   I nc e pt io n - V to   c la s s if de te c te obj e c t s   f r om   Y O L O v5  in to   k now to m a to   di s e a s e  c la s s e s . T he   ju s ti f ic a ti on   f or   c hoos in I nc e pt io n - V a s   our   ba s e li ne  c la s s if ie r   is   th a it   is  qui te   e f f ic ie nt   in   te r m s   of   c om put a ti ona c os t,   ha s   a   s im pl e   de s ig m ode l,   a nd  is   s tr a ig ht f or w a r d   to   s tu dy   [ 3 0] M a ny  s tu di e s   us e   th is   m ode a s   a   ba s e li ne   a nd  a c hi e v e   good   pe r f or m a nc e T hi r d,  w e   ut il iz e   th e   P la nt D oc s   d a ta s e t   to   r e pr e s e nt   th e   c ha ll e nge s   of     r e a l - w or ld   c ondi ti ons   ( di r ty   da ta s e ts ) M e a nw hi le th e   P la nt V il la ge   da ta s e is   u s e to   v a li da te   th e   f in di ngs   of   m a ny  s tu di e s   th a r e ly   on  c le a da ta s e ts P la nt D oc s   a nd  P la nt V il la ge   w il be   a lt e r na te ly   us e a s   tr a in in a nd  te s ti ng  da ta H ow e ve r w e   a s s um e   th a th e   r ol e   of   Y O L O v5  i pr e - pr oc e s s in ta s ks   w il be   m or e   e f f e c ti ve   w he th e   m ode l   is   tr a in e d   a nd  t e s te d   us in th e   P la nt D oc s   da ta s e t.   F our th w e   a im   to   a s s e s s   w h e th e r   Y O L O v5  a s   a   pr e - pr oc e s s or   c a im pr ove   c la s s if ie r   pe r f or m a nc e T he   c la s s if ie r   w il be   e va lu a t e w it a nd   w it hout   Y O L O v5 pr e - pr oc e s s in g.       2.   M E T H O D   2.1.  I n c e p t io n - V3   I nc e pt io n - V is   a   de e le a r ni ng  a r c hi te c tu r e   th a ha s   a c hi e ve a a c c ur a c of   m or e   th a 78.1%   on   c la s s if ic a ti on  ta s ks   in vol vi ng  1000  c la s s e s   on  th e   I m a ge N e d a ta s e [ 31] T hi s   l e ve of   a c c ur a c y   r e nde r s   it   s ui ta bl e   f or   va r io us   im a ge   r e c ogni ti on  ta s ks S e ve r a s tu di e s   ha ve   be e c onduc te to   c la s s if 28  f lo w e r   s pe c ie s  u s in g t he  I nc e pt io n - V 3 a r c hi te c tu r e  a nd t r a ns f e r  l e a r ni n g t o e nha nc e  a c c ur a c y by r e tr a in in g t he  f lo w e r   c a te gor c ol le c ti on.  B a s e on  th e   e xpe r im e nt   r e s ul ts f r om   th e   two  da ta s e ts   us e d,  th e   O xf or d - 17  a nd     O xf or d - 102  f lo w e r   da ta s e ts th e   r e s ul ti ng  a c c ur a c is   95% T hi s   in di c a te s   th a I nc e pt io n - V pe r f or m s   w e ll   in   im a ge  c la s s if ic a ti on t a s ks , e v e n w it h da ta s e ts  c ont a in in g nume r ous  c la s s  c a te gor ie s   [ 32] .   A ddi ti ona ll y,  I nc e pt io is   de s ig ne to   de li ve r   hi gh  pe r f or m a nc e   r e s ul ts   w it a   lo w e r   c om put a ti ona lo a c om pa r e to   ot he r   a r c hi te c tu r e s T hi s   i s   a c hi e va bl e   du e   t th e   f e w e r   pa r a m e te r s   in   I nc e pt io c om pa r e to  ot he r  a r c hi te c tu r e s . I nc e pt io n - V 3 i s  a n a dva nc e m e nt  of  t he  e a r li e r  a r c hi te c tu r e , I nc e pt io n - V 1, i nt r oduc e d i n   2014  a s   G oog L e N e [ 33] .   S e ve r a m odi f ic a ti ons   ha ve   be e im pl e m e nt e in   th is   a r c hi te c tu r e   c om pa r e to   it s   pr e de c e s s or in c lu di ng  f a c to r iz a ti on  in to   s m a ll e r   c onvolut io ns s pa ti a f a c to r iz a ti on  in to   a s ym m e tr ic   c onvolut io ns ut il iz a ti on  of   a uxi li a r c la s s if ie r s a nd  e f f ic ie nt   g r id   r e duc ti on.  F ig u r e   s how   th e   I nc e pt io n - V 3   a r c hi te c tu r e   ge ne r a ll y.  O ve r a ll th e   I nc e pt io n - V a r c hi te c tu r e   c om pr is e s   th ir te e m odul e s one   s te m   m odul e te in c e pt io m odul e s two  r e duc ti on  m odul e s a nd  one   a uxi li a r c la s s if ie r   m odul e T hi s   c om bi na ti on  of   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  3 J une   20 25 2246 - 2257   2248   m odul e s   a ll ow s   I nc e pt io n - V to   pr oc e s s   im a g e s   e f f ic ie nt ly c a pt ur in a   w id e   r a nge   of   f e a tu r e s   a m ul ti pl e   s c a le s   w hi le  m a in ta in in g a  ba la nc e  be twe e c om put a ti ona c os a nd pe r f or m a nc e .           F ig ur e  1. T he  i nc e pt io n - V 3 a r c hi te c tu r e       2.2.  YOL O v5   T he   a r c hi te c tu r e   of   C N N   i s   e xc e ll e nt   f or   c la s s if ic a ti on.  N e ve r t he le s s obj e c de te c ti on  c a b e   a   good  s ol ut io in   c e r ta in   c a s e s   to   e ns ur e   th a th e   c la s s if ie im a ge s   do   not   c ont a in   noi s e   or   ot he r   im a ge s   out s id e   th e   in te nde d obje c t.  Y O L O v5 i s  a  m e th od s ui ta bl e  f or  obj e c de te c ti on. YO L O v5 i s  t he  e vol ut io n of   th e  f a m il y o f   Y O L O W id e ly   us e d,  th is   obj e c de te c ti on  m e th od  b a la nc e s   s pe e a nd  de te c ti on  pe r f or m a nc e a nd   a ls of f e r s   a   s m a ll e r   m ode w e ig ht   [ 27] ,   e na bl in e f f e c ti ve   m ul t i - s c a le   obj e c de te c ti on  [ 29] Y O L O v5   a ls be c om e s   a   s ui ta bl e  a nd e a s y m e th od t o be  m odi f ie f or  e nha nc e m e nt s  i n f ur th e r  de ve lo pm e nt  ne e ds   [ 27] [ 29] . Y O L O v5   c a de te c a nd   c la s s if m ul ti pl e   obj e c ts   in c lu di ng  hum a ns ,   a ni m a ls a nd   ve hi c le s in   a im a ge   or   vi de o.   F ig ur e  2 i s  a  de pi c ti on of  Y O L O v5 a r c hi te c tu r e .           F ig ur e  2. T he  Y O L O v5 ne twor k a r c hi te c tu r e   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       R obus tw o - s ta ge  obj e c de te c ti on us in g Y O L O v 5 f o r  e nhanc in g  t om at o l e af     ( E ndang Sur y aw at i )   2249   Y O L O v5  is   a va il a bl e   in   f iv e   di f f e r e nt   s iz e s ba s e on  th e   num be r   of   la ye r s   a nd  pa r a m e te r s   it   pos s e s s e s T hi s   a r c hi te c tu r e   c om pr is e s   th r e e   m a in   pa r ts th e   ba c kbone ne c k,  a nd  he a d.  T he   ba c kbon e   is   r e s pons ib le  f or  f or m in f e a tu r e s  i n t he  i m a ge , l e ve r a gi ng t he  C S P D a r kne t5 3 a r c hi te c tu r e , w hi c h i s  a  m odi f ie d   ve r s io n of  D a r kne t.  T he  c r os s - s ta ge  pa r ti a ( C S P )  s tr uc tu r e  he lp s  ove r c om e  gr a di e nt  pr obl e m s  by s pl it ti ng  t he   f lo w   of   gr a di e nt s   [ 34] r e duc in th e   num be r   of   pa r a m e te r s a nd  c om put in th e   lo a d.  I ot he r   w or ds th e   B ot tl e ne c kC S P   c a h a ndl e   th e   f e a tu r e   m a e xt r a c ti on  a nd  r e duc e   gr a di e nt   in f or m a ti on  dupl ic a ti on  in   th e   C N N   opt im iz a ti on  pr oc e s s M e a nw hi le th e   s pa ti a pyr a m id   po ol in ( S P P )   m odul e   e nha nc e s   th e   de te c ti on  of   ta r ge ts   a di f f e r e nt   s c a le s   by  a ggr e ga ti ng  f e a tu r e s   f r om   m ul ti pl e   la ye r s T he   ne c is   th e   pa r th a c onne c ts   th e   ba c kbone   w it th e   he a d,  r e s pon s ib le   f or   m e r gi ng  f e a tu r e s   f r o m   di f f e r e nt   s c a le s T he   he a is   r e s pon s ib le   f or   de te c ti ng  obj e c ts S im il a r   to   ot he r   Y O L O   a r c hi te c tu r e s it   us e s   Y O L O   la ye r s   to   bui ld   th is   pa r t.   T he   out put   o f   th is  pa r in c lu de s  bounding boxes   a nd c la s s  pr oba bi li ti e s .     2.3.  YOL O v5 as  p r e - p r oc e s s in g m e t h od  f o r  t w o - s t age s  ob j e c t  d e t e c t io n  ar c h it e c t u r e   A s   w e   ha ve   e xpl a in e d   in   th e   in tr oduc ti on  s e c ti on,   w e   ut il iz e   Y O L O v5  to   s uppor th e   pr e - pr oc e s s in g   s ta ge in c lu di ng  lo c a li z in a nd   de te c ti ng  obj e c ts   w it hi a im a ge T hi s   s ta g e   is   th e   f ir s s te in   th e   two - s ta ge   obj e c de te c ti on  pr oc e s s T h e   r e s e a r c c om m e nc e w it th e   pr e pr oc e s s in s ta g e w he r e   w e   a ppl ie Y O L O v5  to  t w o da ta s e ts  f or  obj e c de te c ti on. W e  a ppl y t hi s  pr oc e s s  t o t he  s e le c te d da t a s e t s , f oc us in g t he  i m a ge s  on t he   im por ta nt  a r e a s  f or  e a s ie r  a nd mor e  a c c ur a te   c la s s if ic a ti on.   T he   f ir s s te in   th e   obj e c de te c ti on  pr oc e s s   in   Y O L O v5  in vol ve s   e xt r a c ti ng  f e a tu r e s   f r om   e a c h   da ta s e t,   us in a   r e s ol ut io of   768 × 768 × f r om   th e   or ig in a ba c kbone T hi s   pa r s pl it s   e a c im a ge   in to   f e a tu r e   m a ps e a c r e pr e s e nt in th e   im a ge   a di f f e r e nt   le ve ls   of   a bs tr a c ti on.  T he   ne c pa r th e c onc a te na te s   th e s e   f e a tu r e   m a ps   to   a ggr e ga te   in f or m a ti on  f r om   va r io us   s c a le s A f te r   c onc a te na ti on,  a   c onvolut io pr oc e s s   w it 32  ke r ne ls   tr a n s f or m s   th e   c on c a te na te d   f e a tu r e   m a p s   in to   a   3 20 × 320 × 32  f e a tu r e   m a p.  T he   h e a pa r th e lo c a li z e s   a nd  de te c ts   obj e c t s   f r om   th e s e   va r io us   s c a le s   of   f e a t ur e   m a ps ul ti m a te ly   pr oduc in g   c la s s if ic a ti on  r e s ul ts   a nd  obj e c c oor di na te s F ig ur e   il lu s tr a te s   th e   a r c hi te c tu r e   of   a   two - s ta ge   obj e c de te c ti on  s ys te m w he r e  t he  Y O L O v5 obje c de te c ti on pr oc e s s  f or m s  a n i nt e gr a pa r of  t he  e nt ir e  s ys te m .           F ig ur e  3. T he  pr opos e d a r c hi te c tu r e  of  t w o - s ta ge s  obj e c de te c ti on       D ur in obj e c de te c ti on,  w e   tr a in   th e   Y O L O v5  m ode u s in t he   or ig in a da ta s e t   to   ge ne r a te   a   ne w   da ta s e t.   T hi s   ne w   d a ta s e c on s is ts   of   c la s s if ie le a f   obj e c ts   r e s ul ti ng  f r om   th e   de te c ti on  pr oc e s s ,   s pe c if ic a ll to m a to   le a f   im a ge s   c la s s if ie a s   e it he r   di s e a s e or   he a lt hy.  T he   or ig in a da ta s e c om pr is e s   to m a to   le a f   im a ge s bot di s e a s e a nd  he a lt hy,  obt a in e f r om   th e   P la nt D oc s   a nd  P la nt V il la ge   da ta s e t s A f te r   obj e c de te c ti on,  w e   pr oc e e to   th e   c la s s if ic a ti on  s ta ge I th is   s ta g e ,   w e   tr a in   th e   I nc e pt io n - V m ode to   c la s s if y   to m a to  l e a f  di s e a s e s  us in g t he  n e w  da ta s e t.   I nt e r e s ti ngl y,  th is   s tu dy  s how s   ho w   Y O L O v5,  w hi c is   a n   obj e c de te c to r c ont r ib ut e s   to   th e     pr e - pr oc e s s in s ta g e   to   s uppor th e   I nc e pt io n - V c la s s if ie r   in   id e nt if yi ng  di s e a s e to m a to   le a ve s U s in a   da ta s e th a a c c ur a te ly   r e f le c t s   r e a l - w or ld   c ondi ti ons s uc a s   t he   P la nt D oc s   d a ta s e in   F ig ur e   4,  s ig ni f ic a nt ly   e nha nc e s   it s   e f f e c ti ve ne s s T hi s   f ig ur e   il lu s tr a te s   a   s a m pl e   im a ge   f r om   P la nt D oc s   ta ke in   f ie ld   c ondi ti ons T hr ough  th e   obj e c de te c ti on  pr oc e s s Y O L O v5  lo c a li z e s   a nd  de te c ts   th r e e   di s e a s e le a f   obj e c ts th e c r ops   th e s e   le a ve s   f r om   th e   or ig in a im a ge ,   r e s ul ti ng  in   th r e e   s e pa r a t e   di s e a s e d   le a f   im a ge s a s   s how on   th e   r ig ht   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  3 J une   20 25 2246 - 2257   2250   s id e   of   th e   a r r ow   in   F ig ur e   4.   T he   I nc e pt io n - V c la s s if ie r   f in d s   it   e a s ie r   to   r e c ogni z e   a nd  c la s s if th e   le a ve s   us in g t he s e  t hr e e  i ndi vi dua le a f  i m a ge s , a s  oppo s e d t o us in g t h e  or ig in a im a ge  on t he  l e f s id e .           F ig ur e  4. O bj e c de te c ti on by YO L O v5 on P la nt D oc s  s a m pl e  i m a ge       W e  e xc lu s iv e ly  pr e s e nt  t he  P la nt D oc s  s a m pl e  i m a ge  f or  t he  obj e c de te c ti on pr oc e s s , a s  i s how c a s e s   th e   a bi li ty   to   de te c a nd  c r op  m ul ti pl e   le a f   obj e c ts   w it hi a im a ge   in to   s e pa r a te   obj e c im a ge s H ow e ve r w e   a ppl ie th e   s a m e   pr e - pr oc e s s in us in Y O L O v5  to   th e   P l a nt V il la ge   da ta s e in   our   s tu dy,  de s pi te   it s   c la s s if ic a ti on  a s   a   c l e a da ta s e t.   P la nt V il la ge   im a ge s   a r e   w e ll - or ga ni z e to m a to   le a f   im a ge s   a r r a nge in   la bor a to r y s e tt in gs  w it h unif or m  c ol or  ba c kgr ounds .     2.4.  Dat as e t  p r e p ar at io n   P r e pa r in th e   da ta   be f o r e   us in th e   da ta s e ts   to   tr a in   th e   m ode l   is   a not he r   s te in   th e   p r e - pr oc e s s in s ta ge D a ta   pr e pa r a ti on   is   e s s e nt ia f or   a c hi e vi ng  e x c e ll e nt   m ode pe r f or m a nc e I our   s tu dy,  Y O L O v5' s   obj e c de te c ti on  pr oc e s s   pr oduc e s   th e   pr e p a r e da ta w hi c w e   r e f e r   to   a s   th e   ne w   da ta s e t,   a s   il lu s tr a te in   F ig ur e   4.  A s   pr e vi ous ly   e xpl a in e d,  w e   us e   two  di f f e r e nt   da ta s e ts th e   P la nt V il la ge   da ta s e a nd  th e   P la nt D o c s   da ta s e t.   T he   P la nt V il la ge   da t a s e t   c ons i s ts   of   38  c la s s   c a te gor ie s   ba s e on   di s e a s e   ty pe s   f or   va r io us   pl a nt   s pe c ie s ,   to ta li ng  54,303  im a g e s   a c r os s   a ll   c l a s s e s .   T he   P la nt D oc s   da t a s e c ons is t s   of   2,598   im a ge s   f r om     13  pl a nt   s pe c ie s w it a   to ta of   17   c la s s   c a te gor ie s   ba s e on  di s e a s e   ty pe s P la nt D oc s   a nd  P la nt V il la ge   a r e   publ ic   da ta s e ts   th a a r e   w id e ly   us e f or   de ve lo pi ng  a nd  te s ti ng  pl a nt   di s e a s e   de te c ti on  m ode ls   a nd  c a be   a c c e s s e f r e e ly E a c of   th e m   ha s   th e ir   ow uni que   c h a r a c t e r is ti c s I m a ge s   s a m pl e s   f or   th e   P la nt V il la ge   da ta s e a r e   s how n i n F ig ur e  5, a nd F ig ur e  6 i ll us tr a te  s a m pl e  of  t he  i m a ge s  f or  t he  P la nt D oc s  da ta s e t.           F ig ur e  5. P la nt V il la ge  s a m pl e  i m a ge   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       R obus tw o - s ta ge  obj e c de te c ti on us in g Y O L O v 5 f o r  e nhanc in g  t om at o l e af     ( E ndang Sur y aw at i )   2251       F ig ur e  6. P la nt D oc s  s a m pl e  i m a ge       B ot f ig ur e s   hi ghl ig ht   th e   di f f e r e nc e s   in   im a ge   c ondi ti o ns   be twe e th e   two  da ta s e ts T he   P la nt V il la ge  da ta s e e xhi bi ts  a  r e la ti ve ly  c le a n c ondi ti on due  t th e  pr oc e s s  of  c a pt ur in g i m a ge s  t a ke s  pl a c e  i a   c ont r ol le e nvi r onm e nt   s e tt in g.  M e a nw hi l e th e   P la nt D oc s   da ta s e c ont a in s   im a g e s   th a m a c ont a in   m ul ti pl e   le a ve s e a c w it va r yi ng  ba c kgr ounds   a nd  li ght in c ondi ti ons F or   our   s tu dy,  w e   us e   onl to m a to   pl a nt s   f r om   e a c da ta s e t,   f oc u s in on  a   s ubs e t   of   di s e a s e   c la s s e s na m e ly   b a c te r ia s pot l a te   bl ig ht le a f   m ol d, s e pt or ia  l e a f  s pot , m os a ic  vi r us , ye ll ow  l e a f  c ur vi r us , a nd 1 he a lt hy c la s s .   T a bl e   s how s   th e   da ta   di s tr ib ut io of   th e   or ig in a da ta s e ts   us e a s   in put   f or   th e   obj e c de te c ti on   pr oc e s s T he r e   a r e   12,357  im a ge s   f r om   th e   P la nt V il la ge   da ta s e a nd  648  im a ge s   f r om   th e   P la nt D oc s   da ta s e t.   S in c e   Y O L O v5  c a de te c m ul ti pl e   c la s s e s   in   a   s in gl e   im a ge ,   th e   num be r   of   in s ta nc e s   in   e a c c la s s   in   th e   P la nt D oc s   da ta s e h a s   c ha nge d,   a s   s ho w in   T a bl e   2.  T hi s   c ha nge   onl y   oc c ur s   in   th e   P la nt D oc s   da ta s e be c a us e  t h e  P la nt V il la ge  da ta s e c ons i s ts  of  s in gl e - le a f  i m a ge s .       T a bl e  1.  T he  da ta   di s tr ib ut io n f or  t w o or ig in a da ta s e ts   D i s e a s e   c l a s s   P l a nt V i l l a ge   P l a nt D oc s   B a c t e r i a l   s pot   1914   107   L a t e   bl i ght   1689   111   L e a f   m ol d   857   91   S e pt or i a   l e a f  s pot   1582   148   M os a i c   vi r us   307   54   Y e l l ow   l e a f  c ur l  vi r us   4671   75   H e a l t hy   1337   62       T a bl e  2.  T he  da ta   di s tr ib ut io n f or  t he  P la nt D oc s  da ta s e t   D i s e a s e   c l a s s   O r i gi na l   da t a s e t   N e w   da t a s e t   B a c t e r i a l   s pot   107   265   L a t e   bl i ght   111   141   L e a f   m ol d   91   368   S e pt or i a   l e a f  s pot   148   195   M os a i c   vi r us   54   482   Y e l l ow   l e a f  c ur l  vi r us   75   1095   H e a l t hy   62   582       2.5.  E xp e r im e n t al  s e t u p   W e   di vi de   e a c da ta s e in to   80%   tr a in in da ta   a nd  20%   te s ti ng  da ta r e s pe c ti ve ly T h e   da ta s e ts   w e   us e c ont a in   im a ge s   w it va r io us   pi xe s iz e s T he r e f or e s om e   pi xe tr a ns f or m a ti ons   o r   a dj us tm e nt s   a r e   r e qui r e to   a da pt   to   th e   m ode a r c hi te c tu r e W e   s ta nda r di z e a ll   da ta   s iz e s   to   128 × 128  to   e ns ur e   uni f or m it y.   W e   s c a le   th e   pi xe va lu e s   f r om   0 - 255  to   0 - 1,  s pe e di ng  up  th e   m ode l' s   tr a in in a nd  hom oge ni z in th e   va lu e s   in   th e   da ta W e   a ls us e   da ta   a ugm e nt a ti on  to   di ve r s if th e   a v a il a bl e   da ta a ll ow in th e   m ode to   le a r n   f r o m   a ddi ti ona da ta   dur in th e   tr a in in p r oc e s s T hi s   c a le a to   be tt e r   r e s ul ts   by  c a pt ur in g   ta r ge te d   c ha r a c te r is ti c s . A ugm e nt a ti on t e c hni que s  u s e d i nc lu de   s hi f t,  r ot a ti on, s he a r , z oom , a nd f li p.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  3 J une   20 25 2246 - 2257   2252   T he   im a ge s   pr e pa r e in   th e   pr e - pr oc e s s in s ta g e   a r e   th e in put   in to   th e   I nc e pt io n - V c la s s if ie r .     W e   us e   th e s e   im a ge s   to   tr a in   th e   m ode l   f or   opt im a pe r f o r m a nc e   in   c la s s if yi ng  di s e a s e s   in   to m a to   pl a nt s   A s   out li ne in   our   pr opos a l,   th is   s tu dy  e m pha s iz e s   le ve r a gi n Y O L O v5  to   de te c obj e c t s   w it hi im a ge s ,   e nha nc in th e   pr e - pr oc e s s in s ta ge   in   a   two - s ta ge   obj e c de te c ti on  a r c hi te c tu r e O ur   hope   is   to   im pr ove   I nc e pt io n - V 3 m ode pe r f or m a nc e  i n de te c ti ng t om a to  l e a f  di s e a s e s  by i nc or por a ti ng Y O L O v5.   T te s our   pr opos a l,   w e   tr a in   a nd  te s th e   I nc e pt io n - V m ode l   us in a   c om bi na ti on  of   two   da ta s e ts ,   a ll ow in th e   m ode to   le a r f r om   di ve r s e   da ta   ty pe s W e   a lt e r na te ly   us e   th e s e   two  da ta s e ts   a s   tr a in in a nd  te s ti ng  da ta A ddi ti ona ll y,  w e   tr a in   th e   I nc e pt io n - V m ode l   w it hout   us in Y O L O v5  in   th e   pr e - pr oc e s s in s ta ge w hi c h   w e   de f in e a s   our   b a s e li ne   a r c hi te c tu r e I n   th e   b a s e li ne   a r c hi te c tu r e w e   di r e c tl tr a in   a nd   te s t   th e   I nc e pt io n - V m ode us in th e   two   or ig in a da ta s e ts by  pa s s in th e   Y O L O v5  pr e - pr oc e s s in s ta ge   T s uppor th e   tr a in in g   a nd  te s ti ng  of   th e   m ode l,   w e   us e   th e   f ol lo w in hype r pa r a m e te r   s e tt in gs A da m   opt im iz e r  w it h a  l e a r ni ng r a te  of  1× 10⁻ ⁴, a  ba tc s iz e  of  32, a nd  30 e poc hs  pe r  e xpe r im e nt .       3.   R E S U L T S  A N D  D I S C U S S I O N   W e   di vi de th e   m ode l   pe r f or m a nc e   r e s ul ts   in to   two   s ub s e c ti o ns th e   f ir s s e c ti on,  w he th e   m ode us e s   P la nt V il la ge   a s   tr a in in da ta a nd  th e   s e c ond  s e c ti on,  w h e th e   m ode us e s   P la nt D oc s   a s   tr a in in da ta in c lu di ng  c om pa r is ons   be twe e th e   be s pr opos e a nd  it s   ba s e li ne T hi s   c om pa r is on  il lu s tr a te s   th e   e f f e c of   us in Y O L O v5  in   th e   p r e - pr oc e s s in s ta ge   on  m ode pe r f o r m a nc e T c la r if th e   te r m in ol ogy,   " pr opos e d"   r e f e r s  t o t he  p r e - pr oc e s s in g m e th od t ha us e s  Y O L O v5, while  " ba s e li ne "  r e f e r s  t o t he  s ta nda r d p r e - pr oc e s s in m e th od  th a doe s   not   u s e   Y O L O v5.   W e   a ls u s e   th e   te r m   " P V "   to   r e f e r   to   th e   P la nt V il la ge   da ta s e a nd   " P D "   to  r e f e r  t o t he  P la nt D oc s  da ta s e t.     3.1.   P e r f or m an c e   m od e b as e d  on  P la n t V il la ge  as  t h e  t r ai n i n g d at a   T a bl e   3   de m ons tr a te s   th a t   th e   I nc e pt io n - V m ode l,   tr a in e a n te s te d   on  th e   P la nt V il la g e   da ta s e t,   a c hi e ve a a c c ur a c va lu e   of   98.28%   f or   bot h   our   ba s e li ne   a nd  th e   pr opos e m ode l.   C onve r s e ly te s ti ng  th e   m ode w it th e   P la nt D oc   d a ta s e t   r e s ul ts   in   a   d e c r e a s e   in   it s   pe r f or m a nc e H ow e ve r a s   m e nt io ne in   th e   in tr oduc ti on,  th is   out c om e   is   not   s ur pr is in g,  gi ve th a m a ny  c la s s if ic a ti ons   a c hi e ve   hi gh  a c c ur a c w he us in c le a d a ta s e t s pa r ti c ul a r ly   f or   to m a to   pl a nt   di s e a s e s   [ 14] W e   a ls o   obs e r ve   th a in   th is   c a s e th e   us e   of   Y O L O v5 doe s  not  s ig ni f ic a nt ly  i nf lu e nc e  pe r f or m a nc e  i m pr ove m e nt .       T a bl e  3. M od e pe r f or m a nc e  w he n t r a in e d by  P la nt V il la ge   da ta s e t   T e s t i ng da t a   A c c ur a c y ( % )   A r c hi t e c t ur e   P l a nt V i l l a ge   98.32   ba s e l i ne   P l a nt V i l l a ge   98.32   P r opos e d   P l a nt D oc s   21.54   ba s a e l i ne   P l a nt D oc s   15.28   P r opos e d       3.2.   P e r f or m an c e   m od e b as e d  on  t h e  P la n t D oc s  as  t h e  t r ai n in g d at a   B a s e on  th e   a c c ur a c c ur ve s   pr e s e nt e in   F ig ur e s   a nd  8,   w e   c a obs e r ve   th a th e   m ode ove r f i ts   w it a   hi gh  a c c ur a c dur in tr a in in g,  but   th e   va li da ti on  pr oc e s s   r e ve a ls   a   de c li ne   in   th e   m ode l' s   pe r f or m a nc e .   I oc c ur s   w he th e   m ode le a r ns   th e   tr a in in da ta   to o   pr e c is e ly in c lu di ng  noi s e w hi c ne ga ti ve ly   im pa c ts   it s   pe r f or m a nc e   on  te s ti ng   da ta .   I F ig ur e   8,  w e   c a n s e e   our   m ode l   pe r f or m a nc e   th r ough  s om e   of   th e   c ur ve s   w it di f f e r e nt   le ve ls   of   f lu c tu a ti on.  W e   obs e r ve   th a th e   pr opo s e c u r ve   w it a   hi ghe r   f lu c tu a ti on  in di c a te s   th a th e   m ode ha s   m or e   di f f ic ul ty   in   ge ne r a li z in th e   le a r ne f e a tu r e s   f r om   th e   di r ty   P la nt D oc s   da ta s e to   th e   c le a n e r   P la nt V il la ge  da ta s e t.  O ve r a ll , t he  us e  of  t he  P la nt D oc  da ta s e te nds  t o de c r e a s e  m ode pe r f or m a nc e , bot h w it h   th e  ba s e li ne  a nd t he  pr opo s e d m ode l.     N e ve r th e le s s th e r e   is   s om e th in in tr ig ui ng  to   no te   in   th e   r e s ul ts   pr e s e nt e in   T a bl e   4.  W he th e   m ode is   tr a in e on  th e   P la nt D oc s   da ta s e a nd  te s te on  th e   P la nt V il la ge   da ta s e t,   it   s how s   a   s li ght   in c r e a s e   in   a c c ur a c of   13.9% S im il a r ly tr a in in a nd  te s ti ng  th e   m ode l   on  th e   P la nt D oc   da ta s e r e s ul ts   in   a   gr e a te r   a c c ur a c in c r e a s e   of   27.08% w hi c c a us e s   th e   m ode l' s   pe r f or m a nc e   to   a c hi e ve   a a c c ur a c of   62.50% T hi s   de m ons tr a te s   th a u s in Y O L O v5  c a a s s is in   im pr ovi ng  a c c u r a c y,  e ve th ough  th e   r e s ul ts   obt a in e a r e   not   ve r y hi gh.   W he tr a in e a nd  t e s te on   th e   f ie ld   da ta s e ( P la nt D oc s   da ta s e t ) our   pr opos e a r c hi te c tu r e   a c hi e ve 62.50%   a c c ur a c y.   W hi le   th is   va lu e   is n' ve r y   hi gh,  it   hi ghl ig ht s  Y O L O v5' s   s tr e ngt in   obj e c d e te c ti on  dur in pr e - pr oc e s s in g,  w hi c i s   ke y   f or   id e nt if yi ng  to m a to   pl a nt   le a f   di s e a s e s .   T hi s   unde r s c or e s   th e   im por ta nc e   of   us in r e a l - c ondi ti on  da ta s e ts   to   bui ld   r obus m ode ls H ow e ve r it   is   ne c e s s a r to   be   a tt e nt iv e   to   pr e pa r in th e   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       R obus tw o - s ta ge  obj e c de te c ti on us in g Y O L O v 5 f o r  e nhanc in g  t om at o l e af     ( E ndang Sur y aw at i )   2253   da ta s e w e ll w hi c ne e ds   s ys t e m a ti c   a na ly s is   of   f ie ld - s pe c if ic   da ta   va r ia ti ons   a nd  th e ir   in f lu e nc e   on  th e   m ode l' s  e r r or  r a te s .           F ig ur e  7. T r a in in g a c c ur a c y           F ig ur e  8. V a li da ti on  a c c ur a c y       T a bl e  4. M od e pe r f or m a nc e  w he n t r a in e d by  P la nt D oc s   d a ta s e t   T e s t i ng da t a   A c c ur a c y ( % )   A r c hi t e c t ur e   P l a nt V i l l a ge   12.59   ba s e l i ne   P l a nt V i l l a ge   26.49   pr opos e d   P l a nt D oc s   35.42   ba s a e l i ne   P l a nt D oc s   62.50   P r opos e d       M a ny  r e s e a r c he r s   in   th e   pr e vi ous   s tu dy  f oc us   on  a c hi e vi ng  hi gh  a c c ur a c us in c le a da ta s e ts   w it va r io us   C N N   a r c hi te c tu r e s but   our   r e s ul t s   s ugge s th a popula r   C N N s   s tr uggl e   w it r e a l - c ondi ti on  da ta s e t s T ve r if th is w e   te s te s e ve r a C N N s   on  th e   P la nt D oc s   da ta s e t,   s how in a   dr op  in   pe r f or m a nc e a s   de ta il e in   T a bl e   5.  T he   P D   da ta s e e nc om pa s s e s   im a ge s   of   di s e a s e s   a nd  unw a nt e obj e c ts boa s t s   a   w id e   r a nge   of   im a ge   s iz e s a nd   m a in c lu de   m ul ti pl e   le a ve s   w it a   va r ie ty   of   ba c kgr ounds   a nd  li ght in c ondi ti on s T h e   c onvolut io na la ye r s   f in it   c ha ll e ngi ng  to   e xt r a c f e a tu r e s   f r om   th e   P D   da ta s e t,   w hi c f r e que nt ly   c ont a in s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  3 J une   20 25 2246 - 2257   2254   ir r e le va nt   ba c kgr ound  or   noi s e T he r e f or e th e   m ode ha s   di f f ic ul ty   di s ti ngui s hi ng  di s e a s e  s pot s   or   noi s e I is   ne c e s s a r to   a ppl a   r obus pr e - pr oc e s s in te c hni que   to   he lp   lo c a li z e   th e   de s ir e di s e a s e   s pot s   a nd  s e p a r a te   th e m   f r om   th e   noi s e   obj e c ts T im pr ove   th e   qua li ty   of   th e   noi s e   a nd  in c r e a s e   th e   a m ount   of   a r ti f ic ia da ta ,   w e  ne e d t o a ppl y t he  a ugm e nt a ti on t e c hni que . T hi s  w il a ll ow  u s  t o a da pt  t he  m ode to  doma in s  w it h di f f e r e n t   le ve ls   of   va r ia bi li ty   [ 35] F ur th e r w e   c a be ne f it   f r om   Y O L O v5' s   c a pa bi li ty   in   va r io us   a ugm e nt a ti on  te c hni que s  due  t o i ts   e a s e  of  m odi f ic a ti on.       T a bl e  5. C om pa r is on of  pe r f or m a nc e  be twe e n our  pr opos e d a nd  ot he r  C N N   a r c hi te c tu r e s   A r c hi t e c t ur e   A c c ur a c y ( % )   R e s ne t - 50   41.07   D e ns e N e t - 121   43.57   M obi l e N e t - V3   33.13   E f f i c i e nt N e t - V2   43.48   I nc e pt i onR e s N e t - V2   32.71   I nc e pt i on - V3   35.42   O ur  pr opos e d   62.50       T de ve lo a   r obus c la s s if ic a ti on  m ode l,   w e   ne e to   tr a in   a nd  te s th e   m ode us in a   f ie ld   da ta s e t   w it hi gh  va r ia bi li ty   th a r e pr e s e nt s   th e   r e a e nvi r onm e nt in c lu di ng  va r io us   im a ge   ba c kgr ounds   a nd  noi s e   [ 36] W e   ut il iz e th e   h ig hl va r ia bl e   P la nt D oc s   da ta s e f or   our   pr opos e a r c hi te c tu r e s   [ 37] but   T a bl e   2   r e ve a ls   a im ba la nc e   in   th e   num be r   of   s a m pl e s   f or   e a c di s e a s e   ty pe C la s s   im ba la nc e   a r is e s   w he one   di s e a s e   c la s s   dom in a te s   th e   da ta s e t,   le a vi ng  ot he r   di s e a s e s   unde r r e pr e s e nt e d.  T hi s   im ba la nc e   m a k e s   th e   m ode di f f ic ul to   ge ne r a li z e   im por ta nt   f e a tu r e s   to   ne w   da ta a s   it   le a r ns   ove r ly   s pe c if ic   pa tt e r ns   a nd  ig nor e s   m or e  ge ne r a one s .   F or   f ut ur e   w or k,  it   is   ne c e s s a r to   in c r e a s e   th e   a m ount   of   da ta   t e ns ur e   a   ba la n c e num be r   f or   e a c c la s s   w hi le   a l s e ns ur in ba la nc e va r ia bi li ty   [ 38] [ 39] W e   a ls c ons id e r e c om bi ni ng  th e   di r ty   a nd  c le a da ta s e ts  t o a im  a a  ba la nc e d va r ia bi li ty  o f  t he  da ta s e t.  T he  us e  of  Y O L O  s ti ll  pr ovi de s  c onf id e nc e  a s  a  r obus t   pr e - pr oc e s s or Y O L O v5  s ig ni f ic a nt ly   a id s   th e   m ode in   f oc us i ng  on  th e   e xt r a c te f e a tu r e s H ow e ve r th e   us e   of   ba c kgr ound  r e m ova te c hni que s   ne e d s   to   be   in vol ve d   to   im pr ove   da ta   qua li ty W it hout   r obus   pr e - pr oc e s s in g,  th e   m ode ha s   di f f ic ul ty   e xt r a c ti ng  f oc u s e f e a tu r e s r e s ul ti ng  in   de c r e a s e d a c c ur a c y   [ 36] F or   im pr ovi ng  th e   m ode l' s   a bi li ty   to   ge n e r a li z e   f e a tu r e s   be tw e e dom a in s   w it di f f e r e nt   va r ia bi li ty it   is   ne c e s s a r y t o s e le c th e  r ig ht  doma in  a da pt a ti on t e c hni que  a nd r e gul a r iz a ti on t e c hni que . F ur th e r m or e , w e  m us t   e nha nc e   th e   hype r pa r a m e te r   v a lu e   s e tt in gs   f or   m ode tr a in in g,   in c lu di ng  le a r ni ng  r a te opt im iz e r ,   a nd  ba t c s iz e , w hi le  a l s o i m pl e m e nt in g s ui ta bl e  r e gul a r iz a ti on t e c hni que s .       4.   C O N C L U S I O N   I th is   s tu dy,  w e   pr opos e   a   two - s ta ge   de te c ti on  a r c hi te c tu r e   f or   id e nt if yi ng   c la s s e s   of   in f e c te to m a to   pl a nt s I th e   pr e - pr oc e s s in s ta ge w e   ut il iz e   Y O L O v5  to   de te c obj e c ts   w it hi th e   im a ge s T h e   de te c te obj e c ts   f r om   th e   P la nt D oc s   a nd  P la nt V il la ge   da ta s e t   a r e   th e c la s s if ie in to   known  c la s s e s   us in I nc e pt io n - V 3 m ode l.  O ur  e va lu a ti on of  t w o da ta s e ts  c onf ir m s  t ha our  pr opos e d a r c hi te c tu r e  i s   m or e  e f f e c ti ve   f or   di s e a s e to m a to   pl a nt   de te c ti on,  s pe c if ic a ll w he n   th e   c l a s s if ie r   m ode is   tr a in e a nd  te s te us in th e   P la nt D oc s   da ta s e t.   I th i s   c a s e ,   Y O L O v5  s uppor our   a r c hi te c t ur e   f or   de te c ti ng  r e gi ons   of   in te r e s ( R O I )   a nd  di s ti ngui s hi ng  im por ta nt   f e a tu r e s   f r om   th e   noi s e   w hi c a r e   pr e s e nt   in   th e   P la nt D oc s   d a ta s e t.   A lt hough  th e   e xpe r im e nt a r e s ul ts   s how   a   m ode r a te   a c c ur a c va lu e   ( 62.50  % ) th is   r e s e a r c ha s   th e   pot e nt ia f or   f ut ur e   im pr ove m e nt W e   ne e to   pr e pa r e   th e   da ta s e w it ba la nc e v a r ia bi li ty   to   a c hi e ve a   m or e   r obus m ode f o r   de te c ti ng  di s e a s e to m a to   le a ve s O ur   hope   is   to   de ve lo a   m or e   a c c ur a te   m ode by  us in a   ba la nc e da ta s e t,   a   s ophi s ti c a te pr e - pr oc e s s or   li ke   Y O L O v5,  th e   a ppr opr ia te   r e gul a r iz a ti on  te c hni que s a nd   th e   s ui ta bl e   dom a in  a da pt a ti on t e c hni que .       F U N D I N G  I N F O R M A T I O N   T hi s   r e s e a r c h   w a s   f unde by   R um a h   P r ogr a m   A r ti f ic ia I nt e ll ig e nc e B ig   D a ta ,   da n   T e knol ogi   K om put a s unt uk  B io di ve r s it a s   da n   C it r a   S a te li t - E le c tr oni c s   a nd   I nf or m a ti c s   R e s e a r c O r ga ni z a ti on    ( O R E I ) - N a ti ona R e s e a r c a nd   I nnova ti on  A ge nc ( B R I N ) C o nt r a c N um be r 83/ I I I .6.4/ H K /2 023,  M a r c 3,  2023,  in   c ol la bor a ti on  w it D e pa r tm e nt   of   S ta ti s ti c s F a c ul ty   of   M a th e m a ti c s   a nd  N a tu r a S c ie nc e s   a t   P a dj a dj a r a n U ni ve r s it y.     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       R obus tw o - s ta ge  obj e c de te c ti on us in g Y O L O v 5 f o r  e nhanc in g  t om at o l e af     ( E ndang Sur y aw at i )   2255   A U T H O R  C O N T R I B U T I O N S  S T A T E M E N T   T hi s   jo ur na us e s   th e   C ont r ib ut or   R ol e s   T a xonomy  ( C R e di T )   to   r e c ogni z e   in di vi dua l   a ut hor   c ont r ib ut io ns , r e duc e  a ut hor s hi p di s put e s a nd f a c il it a te  c ol la bo r a ti on.     N am e  o f  A u t h or   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   E nda ng  S ur ya w a ti                                   S yi f a  A ul iy a h H a s a na h                                 R a de n S a ndr a  Y uw a na                                   J im m y A bde K a da r                                 H il m a n F e r di na ndus  P a r de de                                   C     C onc e pt ua l i z a t i on   M     M e t hodol ogy   So     So f t w a r e   Va     Va l i da t i on   Fo     Fo r m a l  a na l ys i s   I     I nve s t i ga t i on   R     R e s our c e s   D   :   D a t a  C ur a t i on   O   :   W r i t i ng  -   O r i gi na l  D r a f t   E   :   W r i t i ng  -   R e vi e w  &   E di t i ng   Vi     Vi s ua l i z a t i on   Su     Su pe r vi s i on   P     P r oj e c t   a dm i ni s t r a t i on   Fu     Fu ndi ng a c qui s i t i on         C O N F L I C T  O F  I N T E R E S T  S T A T E M E N T   A ut hor s  s ta te  no c onf li c of  i nt e r e s t.       D A T A  A V A I L A B I L I T Y   T he   da ta s e ts   us e in   th is   s tu dy  a r e   publ ic ly   a c c e s s ib le   a n w e r e   obt a in e f r om   ope n - s our c e   r e pos it or ie s s pe c if ic a ll y:   -   T he   da ta   th a s uppor th e   f in di ngs   of   th is   s tu dy,  in   c onne c ti on  w it th e   c le a d a ta s e a r e   ope nl a v a il a bl e   in  [ P la nt V il la ge  da ta s e t]  a ht tp s :/ /g it hub.c om /s pM oha nt y/ P la nt V il la ge - D a ta s e   -   T he   da ta   th a s uppor th e   f in di ngs   of   th is   s tu dy   th a r e la te t th e   di r ty   da ta s e a r e   ope nl a va il a bl e   in   [ P la nt D oc ]  a ht tp s :/ /g it hub.c om /p r a ti kka ya l/ P la nt D oc - D a ta s e       R E F E R E N C E S   [ 1]   A A bba s   e t   al . D r one s   i pl a nt   di s e a s e   a s s e s s m e nt e f f i c i e nt   m oni t or i ng,  a nd  de t e c t i on:   a   w a y   f or w a r t s m a r t   a gr i c ul t ur e ,”   A gr onom y , vol . 13, no. 6, pp. 1 26, 2023, doi :  10.3390/ a gr onom y13061524.   [ 2]   M B ha nda r i T B S ha hi A N e upa ne a nd  K B W a l s h,  B ot a ni c X - a i :   i de nt i f i c a t i on  of   t om a t l e a f   di s e a s e s   us i ng  a n   e xpl a na t i on - dr i ve n de e p - l e a r ni ng m ode l ,”   J our nal  of  I m agi ng , vol . 9, no. 2, 2023, doi :  10.3390/ j i m a gi ng9020053.   [ 3]   B S N a w a l e   a nd  H D G a da de A   s ys t e m a t i c   r e vi e w :   de t e c t i ng  pl a nt   di s e a s e s   us i ng  m a c hi ne   l e a r ni ng  t e c hni que s ,”   i 2023  11t I nt e r nat i onal   C onf e r e nc e   on  E m e r gi ng  T r e nd s   i E ngi ne e r i ng  &   T e c hnol ogy - S i gnal   and  I nf or m at i on  P r oc e s s i ng  ( I C E T E T   -   S I P ) I E E E , 2023, pp. 1 5 , doi :  10.1109/ I C E T E T - S I P 58143.2023.10151590.   [ 4]   T S X i a a nd  R .   N ga di r a n,  P l a nt   di s e a s e s   c l a s s i f i c a t i on  us i ng  m a c hi ne   l e a r ni ng,”   J our nal   of   P hy s i c s :   C onf e r e n c e   Se r i e s   vol . 1962, no. 1, 2021, doi :  10.1088/ 1742 - 6596/ 1962/ 1/ 012024.   [ 5]   M W u,  J Z hou,  Y P e ng,  S W a ng,  a nd  Y Z ha ng,  D e e l e a r ni ng  f o r   i m a ge   c l a s s i f i c a t i on:   a   r e vi e w ,”   i P r oc e e di ngs   of   202 3   I nt e r nat i onal   C onf e r e nc e   on  M e di c al   I m agi ng  and   C om put e r - A i de D i agnos i s   ( M I C A D   2023 ) 2024,  pp.   352 362   doi :  10.1007/ 978 - 981 - 97 - 1335 - 6_31.   [ 6]   W S M c C ul l oc a nd  W P i t t s A   l ogi c a l   c a l c ul us   of   t he   i de a s   i m m a ne nt   i ne r vous   a c t i vi t y,”   T he   B ul l e t i of   M at he m at i c al   B i ophy s i c s , vol . 5, no. 4, pp.  115 133, 1943, doi :  10.1007/ B F 02478259.   [ 7]   M E l t a y,  A Z i dour i ,   a nd  I .   A hm a d,  E xpl o r i ng  de e l e a r ni ng   a ppr oa c he s   t r e c ogni z e   ha ndw r i t t e a r a bi c   t e xt s ,”   I E E E   A c c e s s vol . 8, pp. 89882 89898, 2020, doi :  10.1109/ A C C E S S .2020.2994248.   [ 8]   Z Z ha ng  e t   al . D e ns e   r e s i dua l   ne t w or k:   e nha nc i ng  gl oba l   de ns e   f e a t ur e   f l ow   f or   c ha r a c t e r   r e c ogni t i on,”   N e ur al   N e t w or k s   vol . 139, pp. 77 85, 2021, doi :  10.1016/ j .ne une t .2021.02.005.   [ 9]   K . N oda , Y . Y a m a guc hi K . N a ka da i , H .  G . O kuno, a nd T . O ga t a A udi o - vi s u a l  s pe e c h r e c ogni t i on u s i ng de e p l e a r ni ng,”   A ppl i e d   I nt e l l i ge nc e , vol . 42, no. 4, pp. 722 737, 2015, doi :  10.1007/ s 10489 - 014 - 0629 - 7.   [ 10]   A B N a s s i f I S ha hi n,  I A t t i l i M A z z e h,  a nd  K S ha a l a n,  S pe e c r e c ogni t i on  us i ng  de e ne ur a l   ne t w or ks :   a   s ys t e m a t i c   r e vi e w ,”   I E E E   A c c e s s , vol . 7, pp. 19143 19165, 2019, doi :  10.1109/ A C C E S S .2019.2896880.   [ 11]   X Z ha o,  L W a ng,  Y Z ha ng,  X H a n,  M D e ve c i a nd  M P a r m a r ,   A   r e vi e w   of   c onvol ut i ona l   ne ur a l   ne t w or ks   i n   c om put e r   vi s i on,”   A r t i f i c i al  I nt e l l i ge nc e  R e v i e w , vol . 57, no. 4, 2024, doi :  10.1007/ s 10462 - 024 - 10721 - 6.   [ 12]   Y L i R e s e a r c a nd  a ppl i c a t i on  of   de e l e a r ni ng  i i m a ge   r e c ogni t i on,”   i 2 022  I E E E   2nd  I nt e r nat i onal   C onf e r e nc e   on  P ow e r ,   E l e c t r oni c s  and C om put e r  A ppl i c at i ons  ( I C P E C A ) I E E E , 2022, pp. 994 999 , d oi :  10.1109/ I C P E C A 53709.2022.9718847.   [ 13]   P W a ng,  E .   F a n,  a nd  P .   W a ng,  C om pa r a t i ve   a na l ys i s   of   i m a ge   c l a s s i f i c a t i on  a l gor i t hm s   ba s e on  t r a di t i ona l   m a c hi ne   l e a r ni ng   a nd de e p l e a r ni ng,”   P at t e r n R e c ogni t i on L e t t e r s , vol . 141, pp. 61 67, 2021, doi :  10.1016/ j .pa t r e c .2020.07.042.   [ 14]   E . S ur ya w a t i , R . S us t i ka , R .  S . Y uw a n a , A . S ube kt i a nd H . F . P a r de d e , “ D e e s t r uc t ur e d c onvol ut i ona l  ne ur a l  ne t w or k f or  t om a t o   di s e a s e s  de t e c t i on,”  i 2018 I nt e r nat i onal  C onf e r e nc e  on A dv anc e C om put e r   Sc i e nc e  and I nf or m at i on Sy s t e m s  ( I C A C SI S) , I E E E 2018, pp. 385 390 , doi :  10.1109/ I C A C S I S .2018.8618169.   [ 15]   P S um a r i A M K a s s i m S Q .   O ng,  G .   N a i r A D .   R a gh e e d,  a nd   N F A m i nuddi n,  C l a s s i f i c a t i on  of   j a c kf r ui t   a nd  c e m pe da k   us i ng  c onvol ut i ona l   ne ur a l   ne t w or k   a nd  t r a ns f e r   l e a r ni ng,”   I A E S   I nt e r nat i ona l   J our nal   of   A r t i f i c i al   I nt e l l i ge nc e vol 11,  no.   4,    pp. 1353 1361, 2022, doi :  10.11591/ i j a i .v11.i 4.pp1353 - 1361.   Evaluation Warning : The document was created with Spire.PDF for Python.