I AE S In t er na t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 ,   p p .   4 0 9 0 ~ 4 1 0 0   I SS N:  2 2 5 2 - 8 9 3 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijai.v 14 .i 5 . p p 4 0 9 0 - 4 1 0 0          4090     J o ur na l ho m ep a g e h ttp : //ij a i . ia esco r e. co m   An impro v ed r ea l t ime  dete ction  tr a nsfo rmer met ho d f o r re tail  pro duct  d etec tion       Andi   Wa hy M a ula na 1, 2 ,   Su ry o   Adhi   Wibo wo 1, 2   1 S c h o o l   o f   E l e c t r i c a l   E n g i n e e r i n g ,   T e l k o m   U n i v e r si t y ,   B a n d u n g ,   I n d o n e si a   2 C e n t e r   o f   E x c e l l e n c e   A r t i f i c i a l   I n t e l l i g e n c e   f o r   Le a r n i n g   a n d   O p t i mi z a t i o n   ( C o E   A I LO ) ,   Te l k o m   U n i v e r si t y ,   B a n d u n g ,   I n d o n e s i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   J u l 9 ,   2 0 2 4   R ev is ed   J u l 1 4 ,   2 0 2 5   Acc ep ted   Au g   6 ,   2 0 2 5       Th e   m a in   p r o b lem   in   re tail  p ro d u c d e tec ti o n   is  i n tra - c las v a riatio n ,   a so m e   p ro d u c ts  h a v e   sim il a b u d isti n c c h a ra c teristics .   Th e   p rima ry   g o a o th i s   stu d y   is  to   a d d re ss   th e   p ro b lem   o o b jec d e tec ti o n   o n   in tra - c las v a riatio n   i n   re tail  e n v iro n m e n ts.  As   a   re su lt ,   a   n e a p p r o a c h   fo o b jec d e tec ti o n   o re tail   p ro d u c ts  wa d e v e lo p e d   b y   m o d ify in g   t h e   re a t ime   d e tec ti o n   tr a n sfo rm e r   (RT - DETR)  m o d e l .   T o   m a n a g e   i n tra - c las v a riatio n   m o re   su c c e ss fu ll y ,   t h e   RT - DETR  m o d e is  u p d a ted   b y   m o d if y i n g   it a rc h it e c t u re .   T h e re   a re   tw o   c o n v o lu ti o n in   th e   c o n tex t u a c ro ss - fe a tu re   m o d u le  (CCF M fu s io n   b lo c k   se c ti o n ,   w h ich   is  a d j u ste d   b y   a d d in g   o n e   c o n v o l u ti o n   lay e t o   e a c h   CCF M   fu sio n   b l o c k .   c u st o m ize d   d a ta se wa m e ti c u lo u sly   c o n str u c ted   to   re flec t   th e   wid e   ra n g e   o p ro d u c ts  fr e q u e n tl y   se e n   i n   re tail   o u tl e ts.   F o r   th e   c o n stru c ted   d a tas e ts,  tes ts  we re   ru n   u sin g   t h e   m e a n   a v e ra g e   p re c is io n   (m AP)   m e tri c ,   wh ich   h a d   a   m AP @ 0 . 5   o 9 9 . 5 %   a n d   a   m AP @ 0 . 5 : 0 . 9 5   o 8 8 . 2 % .   Th e   u p d a ted   m o d e is s u p e rio c o m p a re d   to   o rig in a m o d e l.   T h e   d if fe re n c e   in   m AP @ 0 . 5 : 0 . 9 5   wa 2 . 5 % ,   wh i l e   p re c isio n   in c re a se d   b y   1 . 3 %   a n d   re c a ll   in c re a se d   b y   0 . 1 % .   Alth o u g h   th e   m AP0 . 5   re su lt sta y   u n c h a n g e d ,   th e   g a in s   in   th e   o t h e m e tri c su g g e st  th a th e   RT - DETR  m o d e m o d ifi c a ti o n c a n   imp ro v e   o b jec d e tec ti o n   sk il ls,  p a rti c u larly   wh e n   d e a li n g   wit h   i n tra - c las v a riatio n   in   re tail  m e rc h a n d ise .   K ey w o r d s :   Dete ctio n   tr an s f o r m er   Fu s io n   b lo ck   I n tr a - class   v ar iatio n   Ob ject  d etec tio n   R etail  p r o d u ct   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Su r y o   Ad h i Wi b o wo   Sch o o l o f   E lectr ical  E n g in ee r in g ,   T elk o m   Un iv e r s ity   B an d u n g ,   I n d o n esia   E m ail: su r y o ad h iwib o wo @ telk o m u n i v er s ity . ac . id       1.   I NT RO D UCT I O N   I n   th er o f   g lo b aliza tio n   an d   tech n o lo g ical  in n o v atio n ,   th r etail  in d u s tr y   h as u n d er g o n s ig n if ican t   tr an s f o r m atio n ,   d r i v en   b y   ch a n g in g   c o n s u m er   b eh a v io r s   an d   in ten s if y in g   m ar k et   co m p eti tio n .   Dee p   lear n in g   ap p r o ac h es  f o r   p r o d u ct  item   d etec tio n   h av em e r g ed   as  cr itical  tech n o lo g ical  s o lu tio n   [ 1 ] ,   ad d r ess in g   th e   co m p lex   c h allen g es  o f   m o d e r n   r etail  en v ir o n m en ts .   Ob je ct  d etec tio n ,   f u n d am en tal  b r an ch   o f   c o m p u ter   v is io n ,   aim s   to   id en tify   an d   lo ca lize  s p ec if ic  o b jects  with in   im ag es  o r   v id eo s   [ 2 ] ,   b ec o m in g   in cr ea s in g l y   cr u cial  f o r   u n d e r s tan d in g   c o n s u m er   in ter ac tio n s ,   o p tim izin g   s h o p p in g   ex p er ie n ce s ,   an d   m a n ag in g   i n v en to r y .   T h r etail  s ec to r   co n tin u o u s ly   ev o lv es  [ 3 ]   t o   m ee d y n am ic  m ar k et  d em an d s ,   with   tech n o lo g ical   ef f icien cy   em er g i n g   as  k ey   d if f er en tiato r .   Sm ar ca r tech n o lo g ies  r ep r esen p r o m is in g   f r o n tier   in   th is   tech n o lo g ical  r e v o lu tio n ,   o f f e r in g   s o lu tio n s   to   s tr ea m lin t h s h o p p i n g   ex p er ien ce   b y   le v er ag in g   ad v a n ce d   o b ject  r ec o g n itio n   ca p a b ilit ies  [ 4 ] .   T h ese  i n tellig en s y s tem s   ca n   a u to m atica lly   i d en tif y   p r o d u cts,  r ed u ce   ch ec k o u tim es,  m i n im ize  p r icin g   er r o r s ,   a n d   p r o v id e   r ea l - tim p r o d u ct  in f o r m at io n ,   f u n d am e n tally   tr an s f o r m in g   tr ad itio n al  r etail  in ter ac tio n s   [ 5 ] .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A n   imp r o ve d   r ea l time   d etec tio n   tr a n s fo r mer m eth o d   fo r   r eta il p r o d u ct  d etec ti on   ( A n d i Wa h yu   Ma u l a n a )   4091   Ob ject  d etec tio n   in   s m ar ca r ts   p r o v id es  n u m b er   o f   cr u cial  b en ef its .   First  o f   all,   it   in cr ea s es  s h o p p in g   s p ee d   b y   s h o r ten in g   th ch ec k - o u p r o ce s s   [ 6 ] .   Se co n d ,   it  r ed u ce s   th e   p o s s ib ilit y   o f   i n ac cu r ac ies  in   r eg is ter in g   p r o d u cts  an d   p r ici n g .   T h ir d ,   it   allo ws  b u s in ess es  to   im m ed iately   p r o v i d p r o m o tio n al  m ater ial  o r   p r o d u ct  r ec o m m e n d atio n s   to   co n s u m er s .   I n   th f ield   o f   r e tail  s h o p p in g ,   th av ailab ilit y   an d   ac cu r ac y   o f   p r o d u ct  in f o r m atio n   is   cr u cia l.  W h en   c u s to m er   u s es  s m ar ca r to   s h o p ,   an   o b jec d etec tio n   s y s tem   r ec o g n izes  an d   r ec o r d s   th e   p r o d u cts  th at  a r in s er ted   o r   ta k en   o u t   f r o m   th e   ca r t.  W h ile  p l en ty   o f   r esear ch   h as   b ee n   d o n in   th s u b ject  o f   item   d etec tio n ,   s p ec if ic  p r o b lem s   o cc u r   in   th s ettin g   o f   d y n am ic  r etail  en v ir o n m en ts ,   wh er v ar iatio n s   in   p r o d u ct  f o r m s ,   co lo r s ,   a n d   g r o u p in g s   ca n   b ch allen g in g .   I n   c o m p a r i s o n   w i t h   p r i o r   r e s e a r c h ,   S a n t r a   e t   a l . ' s   s t u d y   [ 7 ]   u s e d   a   r e c o n s t r u c t i o n - c l a s s i f i c a t i o n   n e t w o r k   ( R C - N e t )   a p p r o a c h ,   w h i c h   c o m b i n e s   c l a s s i f i c a t i o n   a n d   r e c o n s t r u c t i o n   t a s k s   t o   e n h a n c e   c l a s s i f i c a t i o n   a c c u r a c y .   T h e   r e c o n s t r u c t i o n   s t e p   f o c u s e s   o n   r e d u c i n g   n o i s e   a n d   e n h a n c i n g   i m a g e   q u a l i t y ,   w h i l e   c l a s s i f i c a t i o n   a i m s   f o r   p r e c i s e   r e c o g n i t i o n   o f   o b j e c t s .   R C - N e t   h a s   p r o v e n   e f f e c t i v e   i n   h a n d l i n g   i m a g e   q u a l i t y   v a r i a t i o n s   a n d   e n h a n c i n g   o v e r a l l   c l a s s i f i c a t i o n   p e r f o r m a n c e .   O n   t h e   e v a l u a t e d   d a t a s e t s ,   t h e   m e t h o d ' s   a c c u r a c y   r a t e   w a s   a p p r o x i m a t e l y   9 0 % ;   h o w e v e r ,   i t   s t i l l   r e q u i r e s   i m p r o v e m e n t   t o   c o n t i n u o u s l y   e x c e e d   8 0 %   a c c u r a c y   i n   a l l   c i r c u m s t a n c e s .   C o n v e r s e l y ,   H s i a   e t   a l [ 8 ]   u s e d   d a t a   a u g m e n t a t i o n   i n   c o n j u n c t i o n   w i t h   t h e   f a s t e r   r e g i o n - b a s e d   c o n v o l u t i o n a l   n e u r a l   n e t w o r k   (R - C N N )   t e c h n i q u e   i n   t h e i r   e x p e r i m e n t .   T o   i n c r e a s e   t h e   m o d e l ' s   e f f i c i e n c y ,   t h e y   u s e d   t e c h n i q u e s   i n c l u d i n g   r o t a t i o n ,   f l i p p i n g ,   a n d   s c a l i n g   t o   d i v e r s i f y   t h e   d a t a s e t .   T h e i r   f i n d i n g s   c o n f i r m e d   t h a t   t h e s e   a u g m e n t a t i o n   m e t h o d s   s i g n i f i c a n t l y   b o o s t e d   t h e   m o d e l ' s   a c c u r a c y   a n d   m a d e   i t   m o r e   r o b u s t   a g a i n s t   i n p u t   v a r i a t i o n s .   B e c a u s e   o f   t h e   s m a l l   q u a n t i t y   o f   t h e   d a t a s e t ,   t h e   m o d e l   h a d   t r o u b l e   i d e n t i f y i n g   v e r y   t i n y   p r o d u c t   d i f f e r e n c e s ,   e v e n   t h o u g h   i t   a c h i e v e d   a   h i g h   m e a n   a v e r a g e   p r e c i s i o n   ( m A P )   a c c u r a c y   o f   9 9 . 2 7 % .   L e e   e t   a l [ 9 ]   s t a t e d ,   f o r   r e t a i l   p r o d u c t   d e t e c t i o n ,   t h e y   u s e d   t h e   m o b i l e   n e u r a l   n e t w o r k   v e r s i o n   3   ( M o b i l e N e t   V 3 )   a r c h i t e c t u r e   i n   c o n j u n c t i o n   w i t h   t h e   y o u   o n l y   l o o k   o n c e   v e r s i o n   5   ( Y O L O v 5 )   m o d e l .   T h e y   e m p l o y e d   m e t h o d s   l i k e   r o t a t i o n ,   f l i p p i n g ,   a n d   s c a l i n g   t o   d i v e r s i f y   t h e   d a t a s e t ,   b o o s t i n g   t h e   m o d e l ' s   e f f e c t i v e n e s s .   F i n d i n g s   d e m o n s t r a t e d   t h a t   d a t a   a u g m e n t a t i o n   n o t a b l y   e n h a n c e d   b o t h   a c c u r a c y   a n d   r e s i l i e n c e   o f   t h e   m o d e l   t o   d i v e r s e   i n p u t   v a r i a t i o n s .   D e s p i t e   a c h i e v i n g   a   h i g h   m A P   a c c u r a c y   o f   9 9 . 2 7 % ,   t h e   m o d e l   e n c o u n t e r e d   c h a l l e n g e s   i n   d i s t i n g u i s h i n g   e x t r e m e l y   s u b t l e   p r o d u c t   d i f f e r e n c e s ,   p r i m a r i l y   d u e   t o   t h e   d a t a s e t ' s   l i m i t e d   s i z e .   L e e   e t   a l .   [ 9 ]   u t i l i z e d   t h e   Y O L O v 5   m o d e l   c o m b i n e d   w i t h   t h e   M o b i l e N e t   V 3   a r c h i t e c t u r e   f o r   r e t a i l   p r o d u c t   d e t e c t i o n .   T h e   g o a l   o f   t h i s   c o m b i n a t i o n   w a s   t o   m a x i m i z e   d e t e c t i o n   e f f i c i e n c y   a n d   s p e e d   w i t h o u t   s a c r i f i c i n g   a c c u r a c y .   A c c o r d i n g   t o   e x p e r i m e n t a l   r e s u l t s ,   t h i s   m o d e l   i s   p e r f e c t   f o r   r e a l - t i m e   r e t a i l   a p p l i c a t i o n s   s i n c e   i t   c a n   r e l i a b l y   a n d   s w i f t l y   r e c o g n i z e   r e t a i l   p r o d u c t s .   T h e   s t u d y   h a d   c o n s t r a i n t s   b e c a u s e   o f   t h e   r e l a t i v e l y   m o d e s t   s c a l e   o f   t h e   d a t a s e t s   e m p l o y e d ,   e v e n   t h o u g h   i t   a c h i e v e d   a   9 8 . 5 %   m A P   a c c u r a c y .   B ased   o n   p r io r   r esear ch   f i n d i n g s ,   th is   s tu d y   will  p r esen m o d if ied   r ea tim d etec tio n   t r an s f o r m er   ( R T - DE T R )   m o d el  to   im p r o v m AP  [ 1 0 ]   ac c u r ac y   u tili zin g   s elf - p r o ce s s ed   d ataset  b ase d   o n   r etail  p r o d u cts  in   th e   I n d o n esian   p r o d u ct   b u s in ess   in   r ea l   tim e.   I n   a d d itio n   to   t h s elf - g en er ated   d ataset,   th m o d el   will  b e   test ed   with   th r ee   o th e r   d atasets th g r o ce r y   d ataset  [ 1 1 ] ,   wh ich   f o c u s es  o n   p r o d u cts   with   d if f er en t   u n it   s izes;  th r etail  p r o d u ct  ch ec k o u ( R P C ) - d ataset  [ 1 2 ] ,   wh ich   c h a llen g es  p r o d u cts  with   s im ilar   ch ar ac ter is tics an d   th d en s ely   s eg m en ted   s u p e r m ar k et  ( D2 S) - d ataset  [ 1 3 ] ,   wh ich   test s   d etec tio n   u n d e r   d if f er en t   lig h tin g   co n d itio n s   an d   p r o d u ct   s tack s .   T h p r o p o s ed   ap p r o ac h   f o c u s es  o n   ex am in in g   p r o d u ct  v ar iatio n s   ac r o s s   s ize,   co lo r ,   an d   ty p e ,   with   p r im ar y   o b jectiv o f   ac h iev i n g   m AP a cc u r ac y   ex ce e d in g   9 0 %.   T h k ey   c o n tr ib u tio n s   o f   th is   s tu d y   in clu d e:  i )   n o v el  ar ch itectu r al  ad ap tatio n   o f   th e   R T - DE T R   m o d el  [ 1 4 ] ,   ii)   d ev elo p m en t o f   co m p r eh en s iv s ix - class   d a taset  r ep r esen tin g   I n d o n esian   r etail  p r o d u cts,  an d   iii)  r o b u s m eth o d o lo g y   f o r   d etec tin g   p r o d u cts   with   h i g h ly   s im ilar   attr ib u tes   ac r o s s   d i f f er en t   ca teg o r ies.   T h is   r esear ch   ad v an ce s   r ea l - ti m p r o d u ct  d etec tio n   ca p a b ilit ies.  I s ee k s   to   p r o v id s o p h is ticated   s o lu tio n   th at  ca n   s ig n if ican tly   e n h an ce   r etail  tech n o lo g y ' s   p r ec is io n   an d   ef f ec tiv e n ess .       2.   M E T H O D   R etail  p r o d u ct  d etec tio n   is   u s ed   to   id en tify   an d   class if y   p r o d u cts  f r o m   im ag es.  T h is   p r o ce s s   is   u s ef u l   f o r   a p p licatio n s   s u c h   as  s m ar ca r ts   an d   in v e n to r y   m a n ag e m en s y s tem s .   W p r o p o s a   m eth o d   b ased   o n   a   m o d if ied   R T - DE T R   m o d el.   T h m ain   p r o ce d u r es  in   th is   r esear ch   in clu d e   d ata  c o llectio n   u s in g   tu r n tab le   s etu p   an d   Fu jifilm   X - T 2 0   ca m er a,   d ata  au g m e n tatio n   to   en h an ce   d ataset  d iv er s ity ,   an d   m o d el  tr ain in g   with   cu s to m ized   R T - DE T R   lay er s   to   im p r o v e   d etec tio n   ac cu r ac y .   T h e   f in al   o u t p u is   r eliab le   p r o d u ct   d etec tio n   s y s tem .   T h m ain   p r o ce d u r es  ar s h o wn   in   Fig u r 1 .     2 . 1 .     Da t a   c o llect io n   T h d ataset  f o r   I n d o n esian   r e tail  p r o d u cts  was  co llected   u s in g   a   Fu jifilm   X - T 2 0   ca m er a,   with   th e   im ag in g   p r o ce s s   f ac ilit ated   b y   tu r n tab le  with   p a p er   o n   it ,   allo win g   f o r   th r o tatio n   o f   p r o d u cts  to   ca p tu r e   im ag es  f r o m   m u ltip le  an g les.   T h is   m eth o d   e n s u r es  co m p r eh en s iv v is u al  d ata  r e p r esen tatio n   f r o m   v ar io u s   p er s p ec tiv es.  T h d ataset  co n s is ts   o f   6   p r o d u ct  class es:  B u av ita  Gu av a,   C h itato   L ite  Sea we ed ,   Or eo   Or ig in al,   R ed   B u ll  Dr in k ,   C h o co late  W h ea E s s en ce ,   an d   Selai  Ol ai  Stra wb er r y ,   with   ea ch   clas s   h av in g   6 5   im ag es   tak en   f r o m   d if f er e n an g les.   T h ca m er s ettin g s   wer o p tim ized   f o r   p r o d u ct  p h o to g r ap h y ,   in clu d i n g   a   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 4 0 9 0 - 4 1 0 0   4092   m ed iu m   ap er t u r f o r   d ep t h   o f   f ield   an d   s h ar p n ess ,   an   ad ju s ted   s h u tter   s p ee d   to   av o id   m o ti o n   b lu r ,   an d   l o w   in ter n atio n al  o r g a n izatio n   f o r   s tan d ar d izatio n   ( I SO)   to   m i n im ize  n o is e.   Pro p er   lig h tin g   was  en s u r ed   u s in g   d if f u s ed   lig h s o u r ce s   to   av o i d   h ar s h   s h ad o ws  an d   r ef lectio n s ,   with   b r ig h tn ess   an d   ex p o s u r ca lib r ated   f o r   n atu r al  co l o r s   an d   ad e q u ate   c o n tr ast.  T h e   tu r n tab le  allo wed   f o r   s y s tem atic  an d   co n t r o lled   r o tatio n ,   ty p ically   s et  to   f ix ed   d eg r ee   in cr e m e n t,  en s u r in g   co n s is ten an g les  an d   in te r v als  f o r   ea ch   p r o d u c t.  T h im ag es  wer e   co m p o s ed   to   k ee p   th e   p r o d u ct   ce n ter ed   an d   at   a   co n s is ten d is tan ce   f r o m   th e   ca m er a,   with   p lain   b ac k g r o u n d s   to   av o id   d is tr ac tio n s .   T h is   ap p r o ac h   r esu lted   in   h ig h - q u ality ,   co n s is ten d ataset  s u itab le  f o r   v ar i o u s   ap p licatio n s   in   co m p u ter   v is io n   an d   d ee p   lear n in g .   T h r esu l ts   ca n   b s ee n   in   Fig u r e   2 .           Fig u r 1 .   T h p r o p o s ed   m eth o d o lo g y           Fig u r 2 .   T h r esu lts   o f   th e   d a taset im ag ca p tu r e       2 . 2 .     Da t a   a ug m ent a t io n   I m ag au g m en tatio n   p lay s   a   cr u cial  r o le  i n   en h an cin g   d ataset  b y   p r o v id in g   wid er   v ar iety   o f   ex am p les .   T h ese  ex am p les h el p   m o d el   g en er alize   b etter ,   esp ec ially   wh en   d ea lin g   with   in t r a - class   v ar iatio n s .   B y   ar tific ially   en lar g in g   th d ataset,   th m o d el  b ec o m es  m o r r o b u s an d   ca p ab le  o f   h an d lin g   d i v er s e   s ce n ar io s ,   th u s   r ed u ci n g   th r i s k   o f   o v e r f itti n g   a n d   im p r o v in g   o v er all  p er f o r m an ce .   I n   th is   p r o ject,   s ev er al  au g m en tatio n   tech n iq u es  wer ap p lied   to   ad d r ess   co m m o n   ch allen g es   en co u n ter e d   in   r etail  p r o d u ct  d atasets ,   f o r   th au g m en tatio n   s ettin g s   ca n   b s ee n   in   T ab le  1 .   Au to   o r ien tatio n   en s u r es  th at  all  im ag es  ar p r o p er ly   alig n e d ,   wh ich   is   ess en tial  f o r   co n s is ten tr ain in g .   R esizin g   th im ag es  to   640 × 6 4 0   p ix els  s tan d ar d ize   d im en s io n s ,   m ak in g   th d ata s et  u n if o r m   a n d   r ed u cin g   c o m p u tatio n al  l o ad .   Fli p p in g   im ag es  h o r izo n tally   an d   v e r tically   in tr o d u ce s   v ar i atio n s   in   p r o d u ct  o r ien tatio n ,   h elp in g   th e   m o d el  r ec o g n ize  item s   r e g ar d less   o f   th eir   p lace m en t.   C r o p p in g   with   m in im u m   zo o m   o f   0 an d   m ax im u m   zo o m   o f   7 0 s im u lates  d if f er e n d i s tan ce s   an d   p e r s p ec tiv es,  en h an cin g   th e   m o d el' s   ab ilit y   to   d etec p r o d u cts  at   v ar io u s   zo o m   lev els.        T ab le  1 .   Pre - p r o ce s s in g   an d   a u g m en tatio n   Ty p e   P r o c e ss   S e t u p   Pre - p r o c e ssi n g   A u t o   o r i e n t e d   A p p l i e d   Pre - p r o c e ssi n g   R e si z e   S t r e t c h   t o   6 4 0 × 6 4 0   A u g m e n t a t i o n   F l i p   H o r i z o n t a l ,   v e r t i c a l   A u g m e n t a t i o n   C r o p   0 mi n i m u z o o m ,   7 0 m a x i m u z o o m   A u g m e n t a t i o n   R o t a t i o n   B e t w e e n   - 4 5 °   a n d   + 4 5 °   A u g m e n t a t i o n   S h e a r   ± 1 5 °   h o r i z o n t a l ,   ± 1 5 °   v e r t i c a l   A u g m e n t a t i o n   B r i g h t n e ss   B e t w e e n   - 3 0 a n d   + 3 0 %   A u g m e n t a t i o n   B l u r   U p   t o   2 . 5   px   A u g m e n t a t i o n   C u t o u t   2 0   b o x e s w i t h   1 0 s i z e   e a c h   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A n   imp r o ve d   r ea l time   d etec tio n   tr a n s fo r mer m eth o d   fo r   r eta il p r o d u ct  d etec ti on   ( A n d i Wa h yu   Ma u l a n a )   4093   R o tatio n   b etwe en   - 45 °   a n d   +4 5 °  ac co u n ts   f o r   r o tatio n al  d if f er en ce s ,   en s u r in g   th m o d el  c an   id en tify   p r o d u cts  f r o m   v a r io u s   a n g les.   Sh ea r in g   b o th   h o r izo n tally   a n d   v er tically   b y   ± 1 5 °  d is to r ts   th im a g s lig h tly ,   m im ick in g   r ea l - w o r ld   d is to r t io n s   an d   im p r o v in g   r o b u s tn e s s .   B r ig h tn ess   ad ju s tm en ts   b etwe en   - 3 0 an d   +3 0 allo t h m o d el  t o   p e r f o r m   well  u n d er   v ar y in g   illu m in atio n   c o n d itio n s .   B lu r   u p   to   2 . 5   p ix els  a d d s   s lig h b lu r r in g   to   s im u late  m o tio n   o r   f o cu s   v ar iatio n s ,   m a k in g   t h m o d el  r esil ien to   s u ch   is s u es.  Fin ally ,   cu to u with   2 0   b o x es  ea ch   s ized   at  1 0 co v er s   r an d o m   p a r ts   o f   th im ag to   s im u late  o cc lu s io n ,   tr ain in g   th e   m o d el  to   r ec o g n ize  p r o d u cts e v en   if   p a r tially   o b s cu r e d .   T h au g m en tatio n   p r o ce s s   was  ca r r ied   o u u s in g   R o b o f lo w   [ 1 5 ] ,   p latf o r m   th at  s im p lifie s   d ataset  m o d if icatio n .   T h is   co m p r eh e n s iv au g m e n tatio n   s tr ateg y   r esu lted   in   tr ain i n g   d ataset  o f   7 8 0   p h o to s   an d   a   v alid atio n   d ataset  o f   7 5   im ag es.  Ad d itio n ally ,   test in g   d ataset  o f   3 8   im ag es  was  g en er ated ,   to talin g     8 9 3   im a g es.      2 . 3 .     P ub lic  d a t a s et s   T h s tu d y   em p lo y s   th r ee   p u b lic  d atasets   to   co m p r eh e n s iv ely   v alid ate  th e   R T - DE T R   m o d el' s   p er f o r m an ce   in   a d d r ess in g   in tr a - class   v ar iatio n   ch all en g es.  T h g r o ce r y   d atase [ 1 1 ] ,   co m p r is in g     3 3 , 9 1 9   im a g es  with   n ea r ly   id en tical  p r o d u ct  f ea tu r es,  p r o v id es  r ig o r o u s   test   f o r   d etec t in g   s u b tle   p r o d u ct  v ar iatio n s .   T h R PC - d ataset  [ 1 2 ] ,   with   its   ex p a n s iv 2 0 0   p r o d u ct  class es  an d   8 3 , 6 9 9   im a g es,  o f f er s   lar g e - s ca le  ch allen g in   r etail  p r o d u ct  d etec tio n ,   wh ile  th D2 S - d ataset  [ 1 3 ] ,   th o u g h   s m aller   with   3 , 7 2 9   im ag es,   in tr o d u ce s   co m p le x   d etec tio n   s ce n ar io s   th r o u g h   v a r ied   l ig h tin g   co n d itio n s   an d   p r o d u ct  s tack in g .   T h es e   d atasets   co llectiv ely   r ep r esen t   co m p r eh e n s iv ev alu atio n   f r am ewo r k ,   en a b lin g   a   r o b u s ass ess m en o f   th e   m o d el' s   ca p ab ilit y   to   ac cu r ate ly   r ec o g n ize  an d   d is tin g u is h   p r o d u cts  with   h ig h ly   s im ilar   ch ar ac ter is tics   ac r o s s   d if f er en co n tex ts .   T h d ataset   p ar titi o n in g   f o llo ws  s tan d ar d   m ac h in lear n in g   ap p r o ac h : th g r o ce r y   d ataset   is   s p lit   8 5 f o r   tr ain in g ,   1 0 %   f o r   v alid atio n ,   an d   5 f o r   te s tin g th R P C - Data s et  u s es   a   7 0 /2 0 /1 0   s p lit;   an d   th D2 S - d ataset  m ain tain s   th s am 7 0 /2 0 /1 0   d is tr ib u tio n .   T h is   s tr ateg ic  s elec tio n   an d   p ar t itio n in g   o f   d atasets   en s u r a   co m p r eh en s iv e   v ali d atio n   o f   t h p r o p o s ed   R T - D E T R   m o d el,   ad d r ess in g   k ey   ch allen g es  in   r etail  p r o d u ct  d etec tio n   s u c h   as in tr a - class   v ar iatio n ,   p r o d u ct  s im ilar ity ,   an d   v ar iatio n s   in   im a g ca p tu r co n d itio n s .     2 . 4 .     Rea l - t im det ec t io n t ra ns f o rm er   T h R T - DE T R   [ 1 4 ]   is   r ea l - tim v is io n   t r an s f o r m e r   ( ViT )   [ 1 6 ]   m o d el  m a d u p   o f   t h r ee   c o r co m p o n en ts b ac k b o n e,   h y b r id   en c o d er ,   an d   d ec o d er   tr an s f o r m er   th at  also   in clu d es  an   ex tr p r e d ictio n   h ea d .   Fig u r e   3   s h o ws  th s y s tem 's  s tr u ctu r e.   T h is   m o d el  u s es  th o u tp u f ea tu r es  f r o m   th f in al  th r ee   b ac k b o n s tag es  ( S3 ,   S4 ,   an d   S5 )   as  in p u f o r   th e n co d e r   [ 1 4 ] .   T h r o u g h   in tr a - s ca le  i n ter ac tio n   [ 1 7 ]   an d   in ter - s ca le  f u s io n   [ 1 8 ] ,   th e   h y b r id   en co d er   [ 1 9 ]   c o n v er ts   m u lti - s ca le  f ea tu r es  [ 2 0 ]   in to   s e r ies  o f   im a g e - lev el   f ea tu r es  [ 2 1 ] .   T h e n ,   a n   in te r s ec tio n   o f   u n io n   ( I o U) - awa r e   q u er y   s elec tio n   m et h o d   [ 2 2 ]   i s   ap p lied   t o   e x tr ac f ea tu r es  f r o m   th e n co d e r ' s   o u tp u as   th i n itial  o b ject   q u e r y   f o r   th d ec o d er   [ 2 3 ] .   T h d ec o d er   th en   r e f in es   th ese  q u er ies  s tep   b y   s tep   to   p r o d u ce   b o u n d in g   b o x es  an d   co n f i d en ce   s co r es.  T o   b o o s b o th   ac cu r ac y   a n d   ef f icien cy ,   th e   m o d el  u s es  atten tio n - b ased   i n tr ascale  f ea tu r in ter ac tio n   ( AI FI )   [ 2 4 ]   a n d   C NN - b ased   cr o s s - s ca le  f ea tu r f u s io n   ( C C F M)   [ 2 5 ] .   AI FI  h elp s   cu d o wn   r ed u n d a n cy   at  s tag S5   wh ile   s till   ca p tu r in g   th r elatio n s h ip s   b etwe en   h i g h - le v el  s em an tic  f ea tu r es,  wh ic h   s u p p o r ts   o b ject  d etec tio n .   T h m o d el  also   s k ip s   lo w - lev el  in tr a - s ca le  in ter ac tio n s   b ec au s th ey   lack   s em an tic  m ea n in g   an d   ca n   ca u s d u p l icatio n   is s u es  [ 2 6 ] RT - DE T R   al s o   tack les  in co n s is ten cies  b etwe en   cla s s if icat io n   s co r es  an d   I o co n f id en ce   d is tr ib u tio n s   [ 2 7 ] Du r in g   tr ain in g ,   th m o d el  is   d esig n ed   to   lin k   h ig h   I o s co r es  to   h ig h   class if icatio n   s co r es,  wh ich   h elp s   p r ev en in ac cu r ate  p r ed ictio n s   an d   av o id s   s elec tin g   b o x es  th at  h av lo I o s co r es  ev en   if   th ey   h av h ig h   class if icatio n   s co r es  [ 1 4 ] .   T h is   o p tim izatio n   im p r o v es  p er f o r m an ce   b y   alig n in g   class if icatio n   an d   lo ca tio n   co n f id en ce   ef f ec tiv ely .   T h d e tecto r   o p tim izatio n   g o al  ca n   b r ep h r ased   i n   ( 1 ) .     ( ̂ , ) =  ( ̂ , ) + ( ̂ , ̂ , , ) =  ( ̂ , ) + ( ̂ , ,  )     ( 1 )     W h er ̂   an d     d e n o te  p r ed ictio n   an d   g r o u n d   tr u th ,   ̂ ={  ̂ an d   ={ ̂ ̂ },     an d     r ep r esen ca teg o r i es  an d   b o u n d in g   b o x es,   r esp ec tiv el y   [ 1 4 ] .     2 . 5 .     Rea l - t im det ec t io n t ra ns f o rm er   m o difica t io n   Fig u r 4   illu s tr ates  th f u s io n   b lo ck   em p lo y ed   in   th C FF f r am ewo r k ,   wh ich   is   s p ec if ically   d esig n ed   to   en h a n ce   f ea tu r i n ter ac tio n s   an d   im p r o v o v e r all  m o d el  p er f o r m an ce .   As  s h o wn   in   Fig u r 4 ( a) ,   th er is   f u s io n   b lo ck   th at  ai m s   to   co m b in ad jace n f ea tu r es  in to   n ew  f ea tu r es.  T h is   f u s i o n   b lo ck   co n tain s   n   r ep b lo ck s   [ 1 4 ]   an d   th o u t p u t s   o f   two   p ath s   ar f u s ed   th r o u g h   s eq u en tial  ad d itio n   o f   elem en ts .   T h im p r o v ed   f u s io n   b lo ck   is   d ep icted   in   Fig u r 4 ( b ) ,   ea ch   f u s io n   b lo ck   g ai n s   o n e   m o r co n v o l u tio n   lay er   to   im p r o v im a g o b ject  d etec tio n   ac cu r ac y .   C o n v o lu tio n   lay er s   ar u s ed   in   i m ag p r o ce s s in g   to   r ec o g n ize  lo ca p atter n s   an d   allo th m o d el  to   u n d er s ta n d   in cr ea s in g ly   co m p licated   f ea tu r h ier ar c h ies.  T h co n v o lu tio n   lay er   ca n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 4 0 9 0 - 4 1 0 0   4094   ex tr ac s ig n if ican im ag elem en ts   in clu d in g   ed g es,  tex tu r es,  an d   o th er   v is u al  p atter n s   [ 2 8 ] T h is   ass is t s   th e   m o d el  in   co m p r eh en d in g   th d is tin ct  q u alities   o f   th o b ject  b ein g   r ec o g n ized .   T h is   im p r o v em en is   lik ely   to   aid   in   o b ject  d etec tio n ,   p a r ticu lar ly   f o r   t h in g s   with   co m p ar ab le  b u t d is tin ct  v ar iatio n s .           Fig u r 3 .   T h R T - DE T R   ar ch i tectu r e           ( a)   ( b )     Fig u r 4 .   T h f u s io n   b lo ck   in   t h C C FM,   wh ich   is   d esig n ed   to   en h a n ce   f ea tu r e   in ter ac tio n   f o r   im p r o v ed   m o d el  p er f o r m a n ce   co n s is ts   o f   two   co m p o n en ts : ( a)   o r ig in al   f u s io n   b lo c k   an d   ( b )   m o d if ica tio n   f u s io n   b lo ck       2 . 6 .     P er f o r m a nce  pa ra m et e r   Pre cisi o n ,   r ec all,   an d   m AP  ar s o m f r eq u e n tly   u s ed   m etr ics  in   ass e s s in g   th ef f ec tiv en ess   o f   m ac h in lear n in g   m o d els,  esp ec ially   in   th co n tex o f   o b j ec d etec tio n .   T h ese  p a r am et er s   h elp   u n d er s tan d   h o well  th m o d el  d etec ts   an d   r ec o g n izes  th d esire d   o b jects.  T h r atio   o f   tr u p o s itiv es,  o r   ac cu r ate   f o r ec asts   o f   r ea o b jects,  to   all  p o s itiv p r ed ictio n s ,   in c lu d in g   in ac c u r ate  o n es,  is   k n o wn   as  p r ec is io n .   Pre cisi o n   g au g es  h o w   ac cu r at th m o d el   is   at  m ak in g   p r ed ictio n s th at  is ,   wh at  p r o p o r tio n   o f   all  th e   m o d el' s   p o s itiv p r ed ictio n s   ar e   tr u in   ( 2 ) .       =       (  )         (  ) +        (  )     ( 2 )     R ec all  is   th r atio   o f   t h n u m b er   o f   tr u e   p o s itiv es  to   th e   to t al  n u m b e r   o f   ac tu al  o b jects  ( t h s u m   o f   tr u p o s itiv es  an d   f alse  n e g ativ es).   R ec all  m ea s u r es  th m o d el’ s   ab ilit y   to   f in d   all  i n s tan ce s   o f   th o b ject,   a s   d ep icted   in   ( 3 ) .      =       (  )         (  ) +       (  )   ( 3 )     T h av er a g o f   th e   av er a g p r ec is io n   ( AP)   o v e r   all  class es  is   k n o wn   as  m ea n   a v er ag e   p r e cisi o n ,   o r   m AP.  Fo r   ev er y   class ,   AP  is   th ar ea   u n d er   t h p r ec is io n - r ec all  cu r v e.   T o   g iv th o r o u g h   p ictu r o f   th e   m o d el' s   ef f ec tiv en ess   in   id en ti f y in g   o b jects  f r o m   all  test ed   cl ass es,  m A in teg r ates  ac cu r ac y   an d   r ec all.   AP  is   ca lcu lated   f o r   ea c h   class   an d   t h en   av er a g ed   as p a r t o f   t h co m p u tatio n   p r o ce d u r e.   T h m A P f o r m u la  in   ( 4 ) .      = 1  = 1     ( 4 )     W h er   is   th n u m b e r   o f   clas s es a n d      is   th AP f o r   class   .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A n   imp r o ve d   r ea l time   d etec tio n   tr a n s fo r mer m eth o d   fo r   r eta il p r o d u ct  d etec ti on   ( A n d i Wa h yu   Ma u l a n a )   4095   3.   RE SU L T S AN D I SCU SS I O N   3 . 1 .     E x perim ent   prepa ra t i o n   B ef o r tr ain in g ,   n u m e r o u s   s e ttin g s   in   th R T - DE T R   m o d el  co n f ig u r atio n   s ec tio n   m u s b m ad e.   T h ese  p ar am eter s   will  th en   b e   ch ec k ed   o n   all  d atasets .   T ab le  2   d is p lay s   th p ar am eter   s ett in g s .   T h NVI DI DGX  A1 0 0   d ev ice  is   u s ed   f o r   tr ain in g   in   th is   test .       T ab le  2 .   T r ai n in g   p ar am eter   s etu p   P a r a me t e r s   V a l u e   Ep o c h s   1 5 0   B a t c h   si z e   16   O p t i mi z e r   A u t o   I n i t i a l   l e a r n i n g   r a t e   1 × 10 2       3 . 2 .     O ur  da t a s et   re s ult  a nd   dis cu s s io n   T h is   s tu d y   ad d r ess es  g ap s   i d en tifie d   in   p r ev i o u s   r esear ch ,   s u ch   as  th o s b y   San tr et  a l .   [ 7 ] ,     Hsi et  a l .   [ 8 ] ,   an d   L ee   et  a l .   [ 9 ] ,   w h o   u tili ze d   v a r io u s   ar ch itectu r es  lik R C - Net,   Fas ter   R - C NN,   an d   YOL Ov 5   f o r   r etail  p r o d u ct  d e tectio n .   W h ile  th ese  m eth o d s   im p r o v e d   o b ject  d etec tio n   ac c u r ac y ,   th ey   d id   n o t   f u lly   ad d r ess   ch allen g es  r elate d   to   in tr a - class   v ar iatio n ,   s u ch   as  d is tin g u is h in g   s u b tle  d if f er en ce s   b etwe en   s im ilar   p r o d u cts.  T h is   r esear c h   f o cu s es  o n   m o d if y in g   t h R T - DE T R   m o d el  to   b etter   h an d le  th ese  ch allen g es,   p ar ticu lar ly   in   e n h an ci n g   o b je ct  d etec tio n   ac cu r ac y   b y   ac co u n tin g   f o r   in tr a - class   v ar iatio n s .   T h d ataset  was  tr ain ed   o n   t h m o d if ied   R T - DE T R   m o d e f o r   1 5 0   ep o c h s .   Fig u r e   5   p r esen ts   th p er f o r m an ce   e v alu atio n   g r a p h s   o f   th p r o p o s ed   m o d el,   illu s tr atin g   its   ef f ec tiv in ess   ac r o s s   d if f er en m etr ics.   Sp ec ially ,   Fig u r 5 ( a )   illu s tr ate  class if icatio n   lo s s   an d   L 1   lo s s .   C la s s if icat io n   lo s s   esti m ate s   th co r r ec o b ject  ca teg o r y   in   th b o u n d in g   b o x ,   wh ile  L 1   lo s s   ca lcu lates  th ab s o lu te  d if f er en ce   b etwe en   e x p ec ted   a n d   tar g et   v alu es.  T h e   lo s s   r esu lts   f o r   c lass if icatio n   an d   L 1   ar e   s tab le  d u r i n g   tr ai n in g   b u t   u n s tab l d u r i n g   v alid atio n ,   s tab ilizin g   af ter   1 0 0   ep o c h s .   T h d ataset  u s ed   is   s elf - g en er ated ,   an d   au g m en tatio n   ca u s e d   s o m in s tab ilit y ,   p ar ticu lar ly   in   g en er alizin g   d ata  u n s ee n   d u r in g   tr ain i n g .   A cc u r ac y   r esu lts   o f   th u p d ate d   R T - DE T R   m o d el,   in clu d in g   p r ec is io n ,   r ec all,   m AP@ 0 . 5 ,   an d   m AP@ 0 . 5 :0 . 9 5 ,   ar s h o wn   in   Fig u r 5 ( b ) .   T h ese  r esu lts   ar g o o d ,   b u lear n in g   iter atio n   s tab ilit y   im p r o v es  af ter   1 0 0   e p o ch s   d u to   th e   d ataset' s   cu to u t,  allo win g   b etter   r ec o g n itio n   o f   p r o d u cts  an d   h an d lin g   o f   in tr a - class   v ar iatio n .   T ab le  3   d is p lay s   th r esu lt s   o f   tr ain in g   th r ee   m o d els:   YOL Ov 8 ,   R T - DE T R ,   an d   th m o d if ied   R T - DE T R .   T h r esu lts   s h o th at  wh en   th d ataset  is   r u n   with   th YOL Ov 8   m o d el,   p r e cisi o n   ac cu r ac y   r ea ch es  9 1 . 1 %,  r ec all  is   ap p r o x im ately   9 4 . 0 7 %,  m AP@ 0 . 5   is   h ig h   at  9 8 . 7 %,  b u t   m AP@ 0 . 5 :0 . 9 5   is   r elativ el y   lo at   7 7 . 4 %.  T h R T - DE T R   m o d el   o u t p er f o r m s   YOL Ov 8   with   p r ec is io n   o f   9 7 . 4 %,  r ec all  o f   9 9 . 5 %,  m AP@ 0 . 5   o f   9 9 . 5 %,  an d   m AP@ 0 . 5 :0 . 9 5   o f   8 5 . 7 %.  T h h i g h est  p er f o r m an ce   is   ac h iev e d   b y   t h m o d i f ied   R T - DE T R   m o d el,   wh ich   h as   p r ec is io n   o f   9 8 . 7 %,  r ec all  o f   9 9 . 6 ( 0 . 1 im p r o v em e n o v e r   R T - DE T R ) ,   m AP@ 0 . 5   o f   9 9 . 5 ( m atch in g   th o r ig in al   R T - DE T R ) ,   an d   m AP@ 0 . 5 :0 . 9 5   o f   8 8 . 2 %,  s u r p ass in g   th o r ig in al  R T - DE T R   m o d el.           ( a)   ( b )     Fig u r 5 .   Per f o r m an c ev alu at io n   g r a p h s   o f   t h p r o p o s ed   m o d el:  ( a)   class if icatio n   an d   L 1   l o s s   g r ap h   f o r   tr ain   an d   v alid atio n   an d   ( b )   ac cu r ac y   g r ap h   o f   p r ec is io n ,   r ec all,   m AP @ 0 . 5   an d   m AP @ 0 . 5 :0 . 9 5   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 4 0 9 0 - 4 1 0 0   4096   T ab le  3 .   R esu lt a n d   co m p ar is o n   in   o u r   d ataset   M e t h o d   P r e c i ss i o n   ( %)   R e c a l l   ( %)   mA P @ 0 . 5   ( %)   mA P @ 0 . 5 : 0 . 9 5   ( %)   Y O LO v 8   [ 2 9 ]   9 1 . 1   9 4 . 0 7   98 . 7   7 7 . 4   RT - D ET R   [ 2 9 ]   9 7 . 4   9 9 . 5   9 9 . 5   8 5 . 7   RT - D ET R   M o d   9 8 . 7   9 9 . 6   9 9 . 5   8 8 . 2       T h m o d if ied   R T - DE T R   m o d el  p r o v es  th at  it  ca n   o u tp er f o r m   th o r ig i n al  m o d el  in   th f ield   o f   o b ject  d etec tio n   th at   p ay s   atten tio n   to   th e   in tr a - class   v a r iatio n   p ar t.   Fig u r e   6   s h o ws  th e   v alid atio n   r esu lts   o f   th m o d if ied   R T - DE T R   m o d el.   T h v alid atio n   r esu lts   ar s h o wn   in   Fig u r 6 ( a) .   T h er ar s ix   class   o b jects   f o u n d ,   an d   th p r e d ictio n s   ar all  co r r ec t.  T h co m p ar is o n   f in d in g s   o f   ea ch   class   f r o m   th d ataset  ar e   d is p lay ed   in   T ab le  4 .   I n   ter m s   o f   m AP @ 0 . 5   ac cu r ac y ,   it  ap p ea r s   to   b 9 9 . 5 ac r o s s   all  class e s .   clea r er   co m p ar is o n   ca n   b s ee n   in   th e   ac cu r ac y   o f   m AP @ 0 . 5 :0 . 9 5 ,   in   wh ich   ea ch   class   is   ex ce ed ed   b y   t h m o d if ied   RT - DE T R   m o d el.   I is   a p p ar e n th at  th e   im p r o v ed   R T - DE T R   m o d el  p r o d u ce s   b etter   r esu lts   th an   th o r ig in a l   m o d el,   an d   th is   m o d if icatio n   h as  p r o v e n   th at  t h ef f ec t   o f   ad d in g   c o n v o lu tio n   lay er s   to   th C C FM  f u s io n   b lo ck   ca n   in cr ea s m o d el  p er f o r m an ce   ac c u r ac y .       T ab le  4 .   C o m p a r is o n   o f   th r e s u lts   f o r   ea ch   class   f o r   th R T - DE T R   an d   m o d if ie d   R T - DE T R   m o d els   C l a s s   RT - D ET R   RT - D ET R   m o d i f i e d     mA P @ 0 . 5   ( %)   mA P @ 0 . 5 : 0 . 9 5   ( %)   mA P @ 0 . 5   ( %)   mA P @ 0 . 5 : 0 . 9 5   ( %)   B u a v i t a   Ja mb u   9 9 . 5   7 4 . 4   9 9 . 5   7 9 . 4   C h i t a t o   L i t e   R u m p u t   La u t   9 9 . 5   9 0 . 3   9 9 . 5   9 2 . 4   O r e o   O r i g i n a l   9 9 . 5   8 8 . 3   9 9 . 5   9 1 . 3   R e d   B u l l   D r i n k   9 9 . 5   8 8 . 2   9 9 . 5   9 0 . 6   S a r i   G a n d u m   C o k e l a t   9 9 . 5   8 6 . 1   9 9 . 5   8 6 . 6   S l a i   O l a i   S t r o b e r i   9 9 . 5   8 6 . 9   9 9 . 5   8 9 . 1       3 . 3 .     O t her  da t a s et   re s ult  a n d dis cu s s io n   3. 3 . 1 .   G ro ce r y   da t a s et   re s ult   a nd   dis cu s s io n   T ab le  5   p r esen ts   th e   r esu lts   o f   tr ain in g   YOL Ov 8 ,   R T - DE T R   an d   m o d if ied   R T - DE T R   m o d els.  T h e   d ataset  is   r u n   with   th YOL Ov 8   m o d el  th r esu lt  o f   p r ec is io n   ac cu r ac y   is   9 9 . 8 %,  th r es u lt  o f   r ec all  r ea ch es  ar o u n d   9 9 . 8 %,  m AP@ 0 . 5   is   9 9 . 4 an d   f o r   m AP@ 0 . 5 :0 . 9 5   is   8 2 . 1 %.  T h e n   th e   R T - DE T R   m o d el  p r o d u ce s   a   p r ec is io n   v alu o f   9 9 . 8 th e   s am as  th YOL O v 8   m o d el,   th r ec all  v alu r ea c h es  9 9 . 9 %,  th m AP@ 0 . 5   v alu r ea ch es  9 9 . 5 an d   m A P@ 0 . 5 :0 . 9 5   r ea ch es  8 3 . 7 in d icatin g   th at  th R T - DE T R   m o d el  is   s u p er io r   to   th YOL Ov 8   m o d el.   T h h ig h est  p er f o r m an ce   is   ac h iev ed   b y   th m o d if ied   R T - DE T R   m o d el,   wh ich   h as  p r ec is io n   o f   9 9 . 9 ( 0 . 1 %   im p r o v em en o v er   t h o r i g in al  R T - DE T R ) ,   r ec all  o f   9 9 . 9 ( m atch in g   th e   o r ig in al  R T - DE T R ) ,   m AP@ 0 . 5   o f   9 9 . 5 ( th s am as  th o r ig in al  R T - DE T R ) ,   an d   m AP@ 0 . 5 :0 . 9 5   o f   8 4 . 2 %,  s u r p ass in g   th o r ig in al  m o d el.   T h m o d if ie d   R T - DE T R   m o d el  p r o v es  th at  it  ca n   o u tp er f o r m   th e   o r ig in al  m o d el  in   th f ield   o f   d etec tio n   o b jects  th at  p ay   at ten tio n   to   th in tr a - class   v ar i atio n   p ar t.   Fo r   t h v alid atio n   r esu lts   ca n   b s ee n   in   Fig u r 6 ( b ) .     3. 3 . 2 .   R et a il pro du ct   chec k o ut   da t a s et   re s ult  a nd   dis cu s s i o n   T ab le  6   p r esen ts   th e   r esu lts   o f   tr ain in g   YOL Ov 8 ,   R T - DE T R   an d   m o d if ied   R T - DE T R   m o d els.  T h e   d ataset  is   r u n   with   th YOL Ov 8   m o d el  th r esu lt  o f   p r ec is io n   ac cu r ac y   is   9 9 . 8 %,  th r es u lt  o f   r ec all  r ea ch es  ar o u n d   9 9 . 8 %,  m AP@ 0 . 5   is   9 9 . 2 an d   f o r   m AP@ 0 . 5 :0 . 9 5   is   8 6 . 4 %.  T h e n   th e   R T - DE T R   m o d el  p r o d u ce s   a   p r ec is io n   v alu o f   9 9 . 8 th s am as  th YOL OV8   m o d el ,   th r ec all  v alu e   r ea ch es  9 9 . 8 %,  th m AP@ 0 . 5   v alu r ea ch es  9 9 . 4 an d   m AP@ 0 . 5 :0 . 9 5   r ea ch es  8 8 . 0 3 with   th is   s tatin g   th at  th R T - DE T R   m o d el  i s   s u p er io r   t o   th e   YOL Ov 8   m o d el.   T h e   h ig h est  p er f o r m a n ce   is   ac h iev ed   b y   th e   m o d if ied   R T - DE T R   m o d el,   wh ich   h as  a   p r ec is io n   o f   9 9 . 9 ( 0 . 1 im p r o v e m en o v er   b o th   t h o r ig in al  R T - DE T R   an d   YOL Ov 8   m o d els),   r ec all  o f   9 9 . 8 ( th s am as  th o r ig in al  R T - D E T R   an d   YOL Ov 8 ) ,   m AP@ 0 . 5   o f   9 9 . 5 %,  an d   m AP@ 0 . 5 :0 . 9 5   o f   8 8 . 2 %,  s u r p ass in g   th o r ig in al   R T - DE T R   m o d el.   T h e   m o d i f ied   R T - D E T R   m o d el   p r o v es  th at  it  ca n   o u tp er f o r m   th o r i g in al  m o d el  in   th f ield   o f   d et ec tio n   o b jects  th at  p ay   atten tio n   to   th in tr a - class   v ar iatio n   p a r t.  Fo r   th v alid ati o n   r esu lts   ca n   b s ee n   in   Fig u r 6 ( c) .       T ab le  5 .   R esu lt a n d   co m p ar is o n   in   Gr o ce r y   d ataset   M e t h o d   P r e c i ss i o n   ( %)   R e c a l l   ( %)   mA P @ 0 . 5   ( %)   mA P @ 0 . 5 : 0 . 9 5   ( %)   Y O LO v 8   [ 2 9 ]   9 9 . 8   9 9 . 8   99 . 4   8 2 . 1   RT - D ET R   [ 2 9 ]   9 9 . 8   9 9 . 9   9 9 . 5   8 3 . 7   RT - D ET R   M o d   9 9 . 9   9 9 . 9   9 9 . 5   8 4 . 2   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A n   imp r o ve d   r ea l time   d etec tio n   tr a n s fo r mer m eth o d   fo r   r eta il p r o d u ct  d etec ti on   ( A n d i Wa h yu   Ma u l a n a )   4097   T ab le  6 .   R esu lt a n d   co m p ar is o n   in   R PC   d ataset   M e t h o d   P r e c i ss i o n   ( %)   R e c a l l   ( %)   mA P @ 0 . 5   ( %)   mA P @ 0 . 5 : 0 . 9 5   ( %)   Y O LO v 8   [ 2 9 ]   9 9 . 8   9 9 . 8   99 . 2   8 6 . 4   RT - D ET R   [ 2 9 ]   9 9 . 8   9 9 . 8   9 9 . 4   8 8 . 0 3   RT - D ET R   M o d   9 9 . 9   9 9 . 8   9 9 . 5   8 8 . 2       3. 3 . 3 .   D ens ely   s eg m ent ed  s u perm a rk et   da t a s et   re s ult  a n d dis cu s s io n   T ab le  7   p r esen ts   th e   r esu lts   o f   tr ain in g   YOL Ov 8 ,   R T - DE T R   an d   m o d if ied   R T - DE T R   m o d els.  T h e   d ataset  is   r u n   with   th YOL Ov 8   m o d el  th r esu lt  o f   p r ec is io n   ac cu r ac y   is   9 1 . 8 %,  th r es u lt  o f   r ec all  r ea ch es  ar o u n d   9 0 . 9 %,  m AP@ 0 . 5   is   8 1 . 9 an d   f o r   m AP@ 0 . 5 :0 . 9 5   is   5 8 . 2 %.  T h e n   th e   R T - DE T R   m o d el  p r o d u ce s   a   p r ec is io n   v alu o f   9 3 . 9 %,  t h r ec all  v alu r ea ch es  8 4 . 0 5 %,  th m AP@ 0 . 5   v alu e   r ea ch es  9 1 . 8 an d   m AP@ 0 . 5 :0 . 9 5   r ea ch es 7 2 . 0 3 % with   th is   s tatin g   th at  th R T - DE T R   m o d el  is   s u p er io r   to   th YOL Ov 8   m o d el.   T h h ig h est  p er f o r m a n ce   is   ac h iev ed   b y   th m o d if ied   R T - DE T R   m o d el,   wh ich   h as  p r ec is io n   o f   9 4 . 1 ( 0 . 2 h i g h er   th an   th o r ig in al  R T - DE T R ) ,   r ec all  o f   8 5 . 5 %,  m AP@ 0 . 5   o f   9 2 . 2 %,  an d   m AP@ 0 . 5 :0 . 9 5   o f   7 0 . 6 %.  Alth o u g h   t h m AP@ 0 . 5 :0 . 9 5   is   s lig h tly   lo wer   th an   th o r ig in al  m o d el,   th m o d if ied   R T - DE T R   o u tp er f o r m s   th o r ig in al  R T - DE T R   in   p r ec is io n ,   r ec all,   an d   m AP@ 0 . 5 ,   m ak in g   it  th s u p er io r   m o d el  o v er all.   T h s lig h tly   lo wer   ac cu r ac y   in   th is   d ataset  co m p ar ed   to   p r ev io u s   test s   is   d u to   th d ataset  co n tain in g   p r o d u cts  with   v ar iatio n s   in   li g h tin g ,   wh ich   af f ec te d   th tr ain in g   p r o ce s s .   T h m o d if ie d   R T - DE T R   m o d el   p r o v es  th at  it  ca n   o u tp er f o r m   th o r ig in al  m o d el  in   th f ie ld   o f   d etec tio n   o b jects  th at  p ay   atten tio n   to   th e   in tr a - class   v ar iatio n   p ar t.  T h v alid atio n   r esu lts   ca n   b s ee n   in   Fig u r 6 ( d ) .       T ab le  7 .   R esu lt a n d   co m p ar is o n   in   D 2S   d ataset   M e t h o d   P r e c i ss i o n   ( %)   R e c a l l   ( %)   mA P @ 0 . 5   ( %)   mA P @ 0 . 5 : 0 . 9 5   ( %)   Y O LO v 8   [ 2 9 ]   9 1 . 8   9 0 . 9   8 1 . 9   5 8 . 2   RT - D ET R   [ 2 9 ]   9 3 . 9   8 4 . 0 5   9 1 . 8   7 2 . 0 3   RT - D ET R   M o d   9 4 . 1   8 5 . 5   9 2 . 2   7 0 . 6           ( a)   ( b )           ( c)   ( d )     Fig u r 6 .   Valid atio n   r esu lts   o f   th R T - DE T R   m o d if icatio n   m o d el  o n   ( a)   o u r   d ataset,   ( b )   Gr o ce r y   d ataset,     ( c)   R PC - d ataset,   an d   ( d )   D2 S - d ataset   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 4 0 9 0 - 4 1 0 0   4098   4.   CO NCLU SI O   B a s e d   o n   t h e   r e s u l t s   o f   t h i s   s t u d y ,   i t   i s   p o s s i b l e   to   c o n c lu d e   th a t   t h e   R T - DE T R   m o d e l   c a n   b e   a d j u s t ed   to   in c r ea s e   th e   m o d el s   p er f o r m a n c a cc u r a c y .   W e   a d d ed   co n v o lu t i o n   l ay e r   to   e ac h   f u s i o n   b lo ck   i n   t h e   C C F M   f u s i o n   b lo ck   t o   i m p r o v e   th e   a cc u r a c y   o f   im ag e   o b j e c t   d e t e c t io n .   C o n v o l u ti o n   l ay e r s   ar e   u s ed   i n   i m ag e   p r o ce s s i n g   to   r ec o g n i z e   lo c a l   p a t t e r n s   a n d   a l l o w   t h e   m o d e l   to   u n d er s t a n d   in c r e a s i n g l y   c o m p l i c a t ed   f e at u r e   h i er a r c h ie s .   C o n v o l u t io n   l a y e r s   c an   ex t r a c t   s i g n i f i c an t   in f o r m a t i o n   f r o m   im a g e s   l i k e   a s   e d g e s ,   t ex t u r e s ,   an d   o th er   v i s u a l   p a t t er n s ,   a s s i s t i n g   t h e   m o d e l   i n   u n d e r s t a n d i n g   t h e   d i s t in c t   q u a l i t i e s   o f   th e   i t e m   b e in g   r e co g n i z ed .   T e s t in g   o u r   o wn   d a t a s e t   a s   w e l a s   t h r ee   o th e r   d a ta s e t s   d e m o n s t r a te d   th a t   o u r   m o d if i e d   R T - D E T R   m o d e l   m a y   i n c r e a s e   th e   ac c u r a c y   o f   p r o d u c t   o b j ec t   d e te c t i o n   an d   ai d   i n   th e   d e t e c t io n   o f   p r o d u c t   v ar i a t i o n s .   T h i m p r o v ed   r e s u l t s   o f   m A P @ 0 . 5   f o r   th s e l f - p r o v id e d   d at a s e t   r e a c h ed   9 9 . 5 %   an d   m A P @ 0 . 5 : 0 . 9 5   r e a c h e d   8 8 . 2 %   a s   a   r e s u l t   o f   o u r   m o d if i ed   R T - D E T R   m o d e l ,   w h i ch   al s o   a p p l i e s   to   t h o t h er   t h r e e   t y p e s   o f   d a t a s e ts   t h a t   o u tp e r f o r m ed   t h e   o r ig i n a l   m o d e l   an d   Y O L Ov 8 .   H o w e v er ,   t h e r e   ar l i m i t a t i o n s   t o   t h i s   s t u d y .   T h e   i m p r o v e m e n t s   o b s e r v e d   i n   t h e   m o d if i e d   R T - D E T R   m o d e l   m a y   n o t   b e   c o n s i s t e n a cr o s s   a l ty p e s   o f   d a t a s e t s ,   p a r t i cu l a r ly   th o s e   w i t h   m o r co m p le x   i n tr a - c l a s s   v ar i a t i o n s   o r   e x t r em l i g h t i n g   c o n d i t io n s .   F u r t h er m o r e,   th m o d e l 's   p e r f o r m a n c e   c o u l d   b e   c o n s t r a i n e d   b y   th s i z a n d   d i v er s i t y   o f   t h e   d a t a s e t   u s e d   f o r   t r a i n in g .   Fo r   f u tu r e   wo r k ,   w e   s u g g e s t   e x p l o r in g   a d d i t i o n a l   m o d i f ic a t i o n s   t o   t h e   R T - D E T R   a r ch i t e c tu r e   b ey o n d   t h e   f u s i o n   b lo ck ,   s u ch   as   i n c o r p o r a t i n g   a d v a n c e d   a t ten t i o n   m e ch a n i s m s   o r   ex p er i m en t i n g   w i t h   o t h er   ty p e s   o f   co n v o lu t i o n a l   l a y e r s .   A d d i t io n a l ly ,   ex p an d in g   th e   d a t a s e t   w i t h   m o r d i v er s e   p r o d u c t   c a te g o r i e s   a n d   c h a l le n g i n g   en v ir o n m en t s   c o u l d   h el p   f u r t h er   e n h a n c e   th m o d e l 's   r o b u s t n e s s   a n d   a cc u r a c y .   I n v e s t i g a t i n g   t h e   im p ac t   o f   d i f f er e n t   au g m e n t at i o n   s t r a t eg i e s   a n d   o p t im i z i n g   t h e   t r a i n in g   p r o c e s s   co u ld   a l s o   l ea d   to   b e t t e r   g en e r a l iz a t i o n   a cr o s s   v a r io u s   r e t a i s c e n ar i o s .       ACK NO WL E DG E M E NT S   T h is   wo r k   was su p p o r ted   b y   T elk o m   Un iv er s ity .       F UNDING   I NF O R M A T I O N   T h is   wo r k   was  f u n d ed   b y   t h R I I B atch   3   p r o g r am   g r an f r o m   L PDP,  Min is tr y   o f   Fin an ce ,   R ep u b lic  o f   I n d o n esia,  an d   B R I ( No .   8 1 /I V/KS/0 5 /2 0 2 3 ) .       AUTHO CO NT RI B UT I O NS ST A T E M E N T   T h is   jo u r n al  u s es  th C o n tr ib u to r   R o les  T ax o n o m y   ( C R ed iT )   to   r ec o g n ize  in d iv id u al  au th o r   co n tr ib u tio n s ,   r ed u ce   au th o r s h ip   d is p u tes,  an d   f ac ilit ate  co llab o r atio n .       Na m o f   Aut ho r   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   An d i Wah y u   Ma u lan a                                 Su r y o   Ad h i Wi b o wo                                   C     C o n c e p t u a l i z a t i o n   M     M e t h o d o l o g y   So     So f t w a r e   Va     Va l i d a t i o n   Fo     Fo r mal   a n a l y s i s   I     I n v e s t i g a t i o n   R     R e so u r c e s   D   :   D a t a   C u r a t i o n   O   :   W r i t i n g   -   O r i g i n a l   D r a f t   E   :   W r i t i n g   -   R e v i e w   &   E d i t i n g   Vi     Vi su a l i z a t i o n   Su     Su p e r v i s i o n   P     P r o j e c t   a d mi n i st r a t i o n   Fu     Fu n d i n g   a c q u i si t i o n         CO NF L I C T   O F   I N T E R E S T   ST A T E M E NT   T h au t h o r s   d ec lar e   th at  th e y   h av n o   k n o wn   c o m p etin g   f in an cial  in ter ests   o r   p er s o n al  r el atio n s h ip s   th at  co u ld   h av ap p ea r ed   t o   in f lu en ce   th wo r k   r e p o r te d   in   t h is   p ap er .       I NF O RM E CO NS E N T   W h av o b tain ed   in f o r m ed   c o n s en t f r o m   all  in d iv id u als in c lu d ed   in   t h is   s tu d y .         E T H I CAL AP P RO V AL   No t a p p licab le.     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A n   imp r o ve d   r ea l time   d etec tio n   tr a n s fo r mer m eth o d   fo r   r eta il p r o d u ct  d etec ti on   ( A n d i Wa h yu   Ma u l a n a )   4099   DATA AV AI L AB I L I T Y   T h d ata  th at  s u p p o r t th e   f in d i n g s   o f   th is   s tu d y   a r o p en ly   a v ailab le  in :     R o b o f lo w   at  h ttp s ://u n iv er s e. r o b o f lo w. c o m /n ew - wo r k s p ac e - wf zw3 /g r o ce r y - d ataset - q 9 f j2       R P C   Data s et  Gi th u b   at  h ttp s ://rp c - d ataset. g ith u b . io /     Mv tec  So f twar at  h ttp s ://www. m v tec. co m /co m p an y /r esear ch /d atasets /m v tec - d2s       RE F E R E NC E S   [ 1 ]   J .   Th ø g e r sen ,   C o n su me r   b e h a v i o r   a n d   c l i ma t e   c h a n g e :   c o n su me r n e e d   c o n si d e r a b l e   a s s i s t a n c e ,   C u rr e n t   O p i n i o n   i n   B e h a v i o ra l   S c i e n c e s ,   v o l .   4 2 ,   p p .   9 1 4 ,   D e c .   2 0 2 1 ,   d o i :   1 0 . 1 0 1 6 / j . c o b e h a . 2 0 2 1 . 0 2 . 0 0 8 .   [ 2 ]   Y .   A mi t ,   P .   F e l z e n sz w a l b ,   a n d   R .   G i r sh i c k ,   O b j e c t   d e t e c t i o n ,   i n   C o m p u t e Vi si o n ,   v o l .   5 ,   n o .   1 ,   C h a m:   S p r i n g e r   I n t e r n a t i o n a l   P u b l i sh i n g ,   2 0 2 0 ,   p p .   1 9 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 3 - 030 - 0 3 2 4 3 - 2 _ 6 6 0 - 1.   [ 3 ]   W .   M .   Li m,  S .   K u ma r ,   N .   P a n d e y ,   D .   V e r ma ,   a n d   D .   K u m a r ,   E v o l u t i o n   a n d   t r e n d i n   c o n su me r   b e h a v i o u r :   i n si g h t f r o m   j o u r n a l   o f   c o n su m e r   b e h a v i o u r ,   J o u rn a l   o f   C o n s u m e B e h a v i o u r ,   v o l .   2 2 ,   n o .   1 ,   p p .   2 1 7 2 3 2 ,   J a n .   2 0 2 3 ,   d o i :   1 0 . 1 0 0 2 / c b . 2 1 1 8 .   [ 4 ]   D .   G r e w a l ,   S .   B e n o i t ,   S .   M .   N o b l e ,   A .   G u h a ,   C .   P .   A h l b o m,   a n d   J .   N o r d f ä l t ,   Le v e r a g i n g   i n - st o r e   t e c h n o l o g y   a n d   A I :   i n c r e a si n g   c u st o m e r   a n d   e mp l o y e e   e f f i c i e n c y   a n d   e n h a n c i n g   t h e i r   e x p e r i e n c e s ,   J o u rn a l   o f   Re t a i l i n g ,   v o l .   9 9 ,   n o .   4 ,   p p .   4 8 7 5 0 4 ,   D e c .   2 0 2 3 ,   d o i :   1 0 . 1 0 1 6 / j . j r e t a i . 2 0 2 3 . 1 0 . 0 0 2 .   [ 5 ]   H .   B . - S a l a u ,   A .   J.   O n u man y i ,   D .   M i c h a e l ,   R .   I s a ,   C .   O .   A l e n o g h e n a ,   a n d   H .   O h i z e ,   A   n e w   a u t o m a t e d   s ma r t   c a r t   sy s t e f o r   m o d e r n   sh o p p i n g   c e n t r e s,   Bu l l e t i n   o f   El e c t ri c a l   En g i n e e ri n g   a n d   I n f o r m a t i c s ,   v o l .   1 0 ,   n o .   4 ,   p p .   2 0 2 8 2 0 3 6 ,   A u g .   2 0 2 1 ,     d o i :   1 0 . 1 1 5 9 1 / E E I . V 1 0 I 4 . 2 7 6 2 .   [ 6 ]   N .   X .   Ji e   a n d   I .   F .   B .   K a m si n ,   S e l f -   c h e c k o u t   se r v i c e   w i t h   R F I D   t e c h n o l o g y   i n   su p e r m a r k e t ,   i n   P ro c e e d i n g o f   t h e   3 rd   I n t e rn a t i o n a l   C o n f e ren c e   o n   I n t e g r a t e d   I n t e l l i g e n t   C o m p u t i n g   C o m m u n i c a t i o n   &   S e c u ri t y   ( I C I I C   2 0 2 1 ) ,   2 0 2 1 ,   v o l .   4 ,     d o i :   1 0 . 2 9 9 1 / a h i s . k . 2 1 0 9 1 3 . 0 6 2 .   [ 7 ]   B .   S a n t r a ,   A .   K .   S h a w ,   a n d   D .   P .   M u k h e r j e e ,   P a r t - b a s e d   a n n o t a t i o n - f r e e   f i n e - g r a i n e d   c l a ss i f i c a t i o n   o f   i ma g e o f   r e t a i l   p r o d u c t s ,   Pa t t e r n   Re c o g n i t i o n ,   v o l .   1 2 1 ,   J a n .   2 0 2 2 ,   d o i :   1 0 . 1 0 1 6 / j . p a t c o g . 2 0 2 1 . 1 0 8 2 5 7 .   [ 8 ]   C .   H .   H si a ,   T.   H .   W .   C h a n g ,   C .   Y .   C h i a n g ,   a n d   H .   T.   C h a n ,   M a sk   R - C N N   w i t h   n e w   d a t a   a u g men t a t i o n   f e a t u r e f o r   s ma r t   d e t e c t i o n   o f   r e t a i l   p r o d u c t s,   Ap p l i e d   S c i e n c e s ,   v o l .   1 2 ,   n o .   6 ,   M a r .   2 0 2 2 ,   d o i :   1 0 . 3 3 9 0 / a p p 1 2 0 6 2 9 0 2 .   [ 9 ]   R .   Y .   L e e ,   S .   Y .   C h u a ,   Y .   L .   La i ,   T.   Y .   C h a i ,   S .   Y .   W a i ,   a n d   S .   C .   H a w ,   C a sh i e r l e s c h e c k o u t   v i si o n   sy s t e m   f o r   s ma r t   r e t a i l   u si n g   d e e p   l e a r n i n g ,   J o u rn a l   o f   S y st e m   a n d   Ma n a g e m e n t   S c i e n c e s ,   v o l .   1 2 ,   n o .   4 ,   p p .   2 3 2 2 5 0 ,   A u g .   2 0 2 2 ,     d o i :   1 0 . 3 3 1 6 8 / J S M S . 2 0 2 2 . 0 4 1 5 .   [ 1 0 ]   Z .   Q .   Zh a o ,   P .   Zh e n g ,   S .   T .   X u ,   a n d   X .   W u ,   O b j e c t   d e t e c t i o n   w i t h   d e e p   l e a r n i n g :   a   r e v i e w ,   I E EE   T ra n s a c t i o n s   o n   N e u ra l   N e t w o r k s a n d   L e a r n i n g   S y st e m s ,   v o l .   3 0 ,   n o .   1 1 ,   p p .   3 2 1 2 3 2 3 2 ,   N o v .   2 0 1 9 ,   d o i :   1 0 . 1 1 0 9 / T N N L S . 2 0 1 8 . 2 8 7 6 8 6 5 .   [ 1 1 ]   n e w - w o r k sp a c e - w f z w 3 ,   G r o c e r y   d a t a se t   c o mp u t e r   v i si o n   mo d e l ,   Ro b o f l o w   U n i v e rs e ,   2 0 2 2 .   A c c e s sed :   F e b .   7 ,   2 0 2 4 .   [ O n l i n e ] .   A v a i l a b l e :   h t t p s: / / u n i v e r s e . r o b o f l o w . c o m/ n e w - w o r k sp a c e - w f z w 3 / g r o c e r y - d a t a s e t - q 9 f j 2   [ 1 2 ]   X. - S .   W e i ,   Q .   C u i ,   L .   Y a n g ,   P .   W a n g ,   a n d   L .   L i u ,   R P C :   a   l a r g e - s c a l e   r e t a i l   p r o d u c t   c h e c k o u t   d a t a s e t ,   a rX i v - C o m p u t e r   S c i e n c e 2 0 1 9 ,   [ O n l i n e ] .   A v a i l a b l e :   h t t p : / / a r x i v . o r g / a b s/ 1 9 0 1 . 0 7 2 4 9   [ 1 3 ]   P .   F o l l m a n n ,   T .   B ö t t g e r ,   P .   H ä r t i n g e r ,   R .   K ö n i g ,   a n d   M .   U l r i c h ,   M V Te c   D 2 S :   d e n s e l y   s e g men t e d   su p e r ma r k e t   d a t a se t ,   i n   L e c t u r e   N o t e i n   C o m p u t e r   S c i e n c e   ( i n c l u d i n g   su b s e ri e s   L e c t u re  N o t e s   i n   A rt i f i c i a l   I n t e l l i g e n c e   a n d   L e c t u r e   N o t e i n   B i o i n f o r m a t i c s ) ,   v o l .   1 1 2 1 4   L N C S ,   2 0 1 8 ,   p p .   5 8 1 5 9 7 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 3 - 0 3 0 - 0 1 2 4 9 - 6 _ 3 5 .   [ 1 4 ]   Y .   Zh a o   e t   a l . ,   D ETR b e a t   Y O L O s   o n   r e a l - t i me   o b j e c t   d e t e c t i o n ,   P ro c e e d i n g o f   t h e   I EE C o m p u t e S o c i e t y   C o n f e r e n c e   o n   C o m p u t e r   V i s i o n   a n d   Pa t t e rn   Re c o g n i t i o n ,   p p .   1 6 9 6 5 1 6 9 7 4 ,   2 0 2 4 ,   d o i :   1 0 . 1 1 0 9 / C V P R 5 2 7 3 3 . 2 0 2 4 . 0 1 6 0 5 .   [ 1 5 ]   Q .   Li n ,   G .   Y e ,   J .   W a n g ,   a n d   H .   L i u ,   R o b o F l o w :   a   d a t a - c e n t r i c   w o r k f l o w   m a n a g e men t   sy st e f o r   d e v e l o p i n g   A I - e n h a n c e d   r o b o t s,   Pr o c e e d i n g s o f   M a c h i n e   L e a rn i n g   Re s e a r c h ,   v o l .   1 6 4 ,   p p .   1 7 8 9 1 7 9 4 ,   2 0 2 1 .   [ 1 6 ]   K .   I s l a m,   R e c e n t   a d v a n c e s   i n   v i si o n   t r a n s f o r m e r :   a   su r v e y   a n d   o u t l o o k   o f   r e c e n t   w o r k ,   a r Xi v - C o m p u t e r   S c i e n c e ,   2 0 2 3 .   [ O n l i n e ] .   A v a i l a b l e :   h t t p s: / / a r x i v . o r g / a b s/ 2 2 0 3 . 0 1 5 3 6   [ 1 7 ]   J .   Li n ,   X .   M a o ,   Y .   C h e n ,   L.   X u ,   Y .   H e ,   a n d   H .   X u e ,   D ^ 2 E TR :   d e c o d e r - o n l y   D E TR   w i t h   c o mp u t a t i o n a l l y   e f f i c i e n t   c r o s s - sc a l e   a t t e n t i o n ,   a r Xi v - C o m p u t e S c i e n c e 2 0 2 2 .   [ O n l i n e ] .   A v a i l a b l e :   h t t p s: / / a r x i v . o r g / a b s/ 2 2 0 3 . 0 0 8 6 0   [ 1 8 ]   C .   W a n g ,   X .   X i n g ,   Y .   W u ,   Z .   S u ,   a n d   J .   C h e n ,   D C S F N :   d e e p   c r o s s - s c a l e   f u s i o n   n e t w o r k   f o r   si n g l e   i mag e   r a i n   r e m o v a l ,   i n   M 2 0 2 0 - P ro c e e d i n g o f   t h e   2 8 t h   AC M   I n t e rn a t i o n a l   C o n f e ren c e   o n   Mu l t i m e d i a ,   O c t .   2 0 2 0 ,   p p .   1 6 4 3 1 6 5 1 ,     d o i :   1 0 . 1 1 4 5 / 3 3 9 4 1 7 1 . 3 4 1 3 8 2 0 .   [ 1 9 ]   L .   A n ,   L.   W a n g ,   a n d   Y .   Li ,   H E A - N e t :   a t t e n t i o n   a n d   M L P   h y b r i d   e n c o d e r   a r c h i t e c t u r e   f o r   m e d i c a l   i m a g e   s e g men t a t i o n ,   S e n so r s ,   v o l .   2 2 ,   n o .   1 8 ,   S e p .   2 0 2 2 ,   d o i :   1 0 . 3 3 9 0 / s2 2 1 8 7 0 2 4 .   [ 2 0 ]   L .   A .   Li m   a n d   H .   Y .   K e l e s,   L e a r n i n g   mu l t i - sc a l e   f e a t u r e s   f o r   f o r e g r o u n d   s e g m e n t a t i o n ,   Pa t t e r n   An a l y si s   a n d   Ap p l i c a t i o n s   v o l .   2 3 ,   n o .   3 ,   p p .   1 3 6 9 1 3 8 0 ,   2 0 2 0 ,   d o i :   1 0 . 1 0 0 7 / s1 0 0 4 4 - 0 1 9 - 0 0 8 4 5 - 9.   [ 2 1 ]   S .   Zh e n g   e t   a l . ,   R e t h i n k i n g   se man t i c   s e g men t a t i o n   f r o a   s e q u e n c e - to - se q u e n c e   p e r sp e c t i v e   w i t h   t r a n s f o r mer s ,   P ro c e e d i n g o f   t h e   I E EE  C o m p u t e S o c i e t y   C o n f e r e n c e   o n   C o m p u t e Vi s i o n   a n d   Pa t t e rn   Re c o g n i t i o n ,   p p .   6 8 7 7 6 8 8 6 ,   2 0 2 1 ,     d o i :   1 0 . 1 1 0 9 / C V P R 4 6 4 3 7 . 2 0 2 1 . 0 0 6 8 1 .   [ 2 2 ]   H .   R e z a t o f i g h i ,   N .   T so i ,   J.  G w a k ,   A .   S a d e g h i a n ,   I .   R e i d ,   a n d   S .   S a v a r e s e ,   G e n e r a l i z e d   i n t e r s e c t i o n   o v e r   u n i o n :   a   me t r i c   a n d   l o s s   f o r   b o u n d i n g   b o x   r e g r e ss i o n ,   P r o c e e d i n g s   o f   t h e   I E EE   C o m p u t e r   S o c i e t y   C o n f e r e n c e   o n   C o m p u t e r   Vi s i o n   a n d   Pa t t e rn   R e c o g n i t i o n ,   p p .   6 5 8 6 6 6 ,   2 0 1 9 ,   d o i :   1 0 . 1 1 0 9 / C V P R . 2 0 1 9 . 0 0 0 7 5 .   [ 2 3 ]   Z .   Y a o ,   J.   A i ,   B .   Li ,   a n d   C .   Zh a n g ,   E f f i c i e n t   D E TR :   i mp r o v i n g   e n d - to - e n d   o b j e c t   d e t e c t o r   w i t h   d e n s e   p r i o r ,   a rX i v - C o m p u t e S c i e n c e 2 0 2 1 .   h t t p s: / / a r x i v . o r g / a b s/ 2 1 0 4 . 0 1 3 1 8 .   [ 2 4 ]   Y .   F e n g ,   H .   X u ,   J.   Ji a n g ,   H .   L i u ,   a n d   J.   Zh e n g ,   I C I F - N e t :   i n t r a - sc a l e   c r o s s - i n t e r a c t i o n   a n d   i n t e r - sca l e   f e a t u r e   f u s i o n   n e t w o r k   f o r   b i t e mp o r a l   r e m o t e   se n s i n g   i m a g e s   c h a n g e   d e t e c t i o n ,   I EE E   T r a n sa c t i o n s   o n   G e o sci e n c e   a n d   Re m o t e   S e n si n g ,   v o l .   6 0 ,   p p .   1 1 3 ,   2 0 2 2 ,   d o i :   1 0 . 1 1 0 9 / T G R S . 2 0 2 2 . 3 1 6 8 3 3 1 .   [ 2 5 ]   W .   H u a n g ,   G .   L i ,   Q .   C h e n ,   M .   J u ,   a n d   J .   Q u ,   C F 2 P N a   c r o s s - sc a l e   f e a t u r e   f u si o n   p y r a mi d   n e t w o r k   b a sed   r e mo t e   sen s i n g   t a r g e t   d e t e c t i o n ,   R e m o t e   S e n si n g ,   v o l .   1 3 ,   n o .   5 ,   p p .   1 2 3 ,   F e b .   2 0 2 1 ,   d o i :   1 0 . 3 3 9 0 / r s1 3 0 5 0 8 4 7 .   [ 2 6 ]   Y .   H u a n g ,   Q .   W u ,   C .   S o n g ,   a n d   L .   W a n g ,   L e a r n i n g   se man t i c   c o n c e p t a n d   o r d e r   f o r   i m a g e   a n d   s e n t e n c e   ma t c h i n g ,   P r o c e e d i n g o f   t h e   I EE C o m p u t e S o c i e t y   C o n f e ren c e   o n   C o m p u t e V i s i o n   a n d   Pa t t e rn   R e c o g n i t i o n ,   p p .   6 1 6 3 6 1 7 1 ,   2 0 1 8 ,     d o i :   1 0 . 1 1 0 9 / C V P R . 2 0 1 8 . 0 0 6 4 5 .       Evaluation Warning : The document was created with Spire.PDF for Python.