I A E S  I n t e r n at io n al  Jou r n al  of   A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol .   14 , N o.   4 A ugus t   2025 , pp.  2991 ~ 3002   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 14 .i 4 .pp 2991 - 3002          2991     Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   O p t i m i z i n g t r af f i c  l i gh t s at  u n b al an c e d  i n t e r se c t i on s u si n d e e p   r e i n f or c e m e n t  l e ar n i n g       D u m an  C ar e  K h r is n e 1 , 2 , M ad e  S u d ar m a 2 , I d a A yu  D w G ir i an t ar i 2 , D e w a M ad e  Wi h ar t a 2   1 D oc t or a l  P r ogr a m  of   E ngi ne e r i ng S c i e nc e , F a c ul t y of   E ngi ne e r i ng, U da ya na  U ni ve r s i t y, B a l i , I ndone s i a   2 D e pa r t m e nt  of  E l e c t r i c a l  E ngi ne e r i ng,  F a c ul t y of  E ngi ne e r i ng, U da ya na  U ni ve r s i t y, B a l i , I ndone s i a       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e J a n   23 2025   R e vi s e J un   10 2025   A c c e pt e J ul   10 2025       Unbalanced  intersectional  traffic  flow   increases  vehicle  delays fuel   consumpt ion,  and  pollut ion.  This   study  investi gates   the  applicati on  o deep   reinforcement  learni ng  (DRL)  to  optimize   traffic  signal   timing  at  the  Pamelisa interse ction  in  Denpa sar,  Indone sia.  Real - world   traffic  dat were  incorpora ted  into  SUMO  microsimulation  environmen to   train   DRL  agents  using  the  deep  Q - network  (DQN)  algorithm.  Experimental  results  show  that  DRL - based  optimization  reduced  the  average   vehicle  waitin time  from  594.4 seconds  (static  control)  to  169.44  seconds  and  173.10  s econds  for  agents  trained  without  and  with  noise,  respectively.   The  average  vehicle  speed  remained  stable  at  5.6 5.97   m/s  across  all   scenarios,  ind icating  enhanced  traffic  efficiency  without   adverse  effects.  The  finding und erscore  the effe ctiveness a nd adapta bility of DRL in  addressin g traffic  ineffici encies,  optimizing  them,  and  offering  a   robust  solution  for   dynamic   traffic  manageme nt at unbala nced tra ffic inter sections in ur ban are as.   K e y w o r d s :   D e e p r e in f or c e m e nt  l e a r ni ng   O pt im iz e   S im ul a ti on   T r a f f ic  s ig na l   U nba la nc e d t r a f f ic   W a it in g t im e   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   D um a n C a r e  K hr is ne   D oc to r a P r ogr a m  of  E ng in e e r in g S c ie nc e , F a c ul ty  of  E ngi ne e r i ng, Uda ya na  U ni ve r s it y   B a li I ndone s ia   E m a il dum a n@ unud.a c .i d       1.   I N T R O D U C T I O N   T r a ns por ta ti on  pr obl e m s   a r e   s ti ll   of te c a us e by  tr a f f ic   c onge s ti on,  w hi c ha s   a im pa c on  tr a f f ic   a c c id e nt s pol lu ti on,  a nd  e c onomi c   lo s s e s   [ 1] [ 2] P r e vi ous   r e s e a r c ha s   s uc c e e de in   s um m a r iz in s e v e r a te c hni que s   th a c a be   us e to   s ol ve   tr a f f ic   pr obl e m s P r e vi ous   r e s e a r c ha s   s uc c e e de in   s um m a r iz in s e ve r a te c hni que s   f or   s ol vi ng  tr a f f ic   pr obl e m s   ba s e on  th e ir   c om pl e ti on  ti m e   [ 3] T he s e   te c hni que s   a r e   gr oupe in to   lo ng - te r m m e di um - te r m a nd  s hor t - te r m   s ol ut io ns O ne   of   th e   s hor t - te r m   or   r e a l - ti m e   te c hni que s   is   c a r r ie out   th r ough  good  m a na ge m e nt   of   tr a f f ic   f lo w   a in te r s e c ti ons   [ 4] [ 5] A   tr a f f ic   li ght   s ys te m   c a m a na ge   s hor t - te r m   tr a f f ic   f lo w   a in te r s e c ti ons   [ 5] [ 6] A da pt iv e   s ig na c ont r ol   m e th ods s uc a s   s pl it c yc le   a nd  of f s e opt im iz a ti on   te c hni que   ( S C O O T )   [ 7]   a n S ydne c oor di na te a da pt iv e   tr a f f ic   ( S C A T )   [ 8]   a r e   w id e ly   us e in   tr a f f ic   li ght   m a na ge m e nt   s ys te m s T h e m os tl r e ly   on  m a nua ll s c h e dul e s ig na l   pha s e s   a nd  w or w e ll   w he tr a f f ic   f lo w   is   ne a r ly   e qua in   a ll   di r e c ti ons T hi s   s c h e dul e   c ha nge s   dyna m ic a ll y   by  lo oki ng  onl a tr a f f ic   vol um e   us in in duc ti on   lo op  s e ns or s A s   a   r e s ul t,   s ig n a ls   c a nnot   s e e   a nd  r e a c to   c ha nge s   in   tr a f f ic   pa tt e r ns   in   r e a ti m e a nd  tr a ns por ta ti on  ope r a to r s   of te ha ve   to   m a nua ll c ha nge   s ig na l   pha s e s   to   ke e up  w it tr a f f ic   c ondi ti ons   [ 9 ] F u r th e r m or e it   is   of te pos s ib le   to   f in m or e   tr a f f ic   in   on e   di r e c ti on t ha n t he  ot he r  ( unba la nc e d t r a f f ic  f lo w ) .   T he   tr a di ti o na s ys te m   l a c k s   in t e ll ig e nt   m a n a ge m e nt w hi c r e s ul t s   in   pe opl e   w a it in g,  r e g a r dl e s s   of   th e   a bs e nc e   of   v e hi c le s   f r om   th e   op pos i te   di r e c ti on.  T hi s   in e vi ta bl e   w a it in ti m e   s om e ti m e s   m a ke s   p e opl e   r e s tl e s s , of t e n e ndi ng  in  vi ol a ti on  of  r ul e s  a nd a c c i de nt s   [ 10] .  F u r th e r m or e , t hi s   le a ds  t o m or e  f ue c on s um pt i on  Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 ,   A ugus t   20 25 2991 - 3002   2992   a nd  po ll ut e s   t he   s ur r oun di ng  e nvi r o nm e nt T he r e f or e i nt e ll i ge nt   or   dyn a m i c   tr a f f ic   li ght   c on tr ol   n e e d s   to   be   c ont in u ous ly   im pr ove d,  e s pe c i a ll y   w h e lo oki n a ot he r   f a c t or s s u c a s   w a it in g   ti m e   a in t e r s e c ti ons   a nd  t he   tr a f f ic   vo lu m e   f a c to r w hi c h   i s   c ur r e nt ly   w id e ly   us e d.  A r ti f ic ia in t e ll ig e nc e w hi c h a s   de ve lo p e in   th is   de c a de ,   pr ovi de s   ho pe   f or   th e  e m e r g e nc e   of   s y s t e m s   w it h   hi g i nt e ll ig e nc e  a nd a d a pt a ti on. R e s e a r c h   [ 11] [ 1 5]   us e s   r e in f or c e m e nt   l e a r ni n ( R L )   a nd  d e e r e in f or c e m e nt   le a r n in g   ( D R L )   a p pr oa c he s   to   pr ov id e   s ol ut i ons   t ove r c om e  t r a f f i c  c onge s ti o n.  T he   R L  m od e di r e c tl y t r ie s  t a da pt  t o s ol ve  t he   pr obl e m s  i m po s e on t h e  m od e l,   in c lu di ng  tr a f f ic   c o nge s ti on   pr ob le m s .   D e s pi t e  i ts   s uc c e s s , R L  s t il h a s   s hor tc o m in g s . W h e n de a li ng   w it h  s ta t e - a c ti on  s p a c e s  t ha a r e  t oo  l a r g e , R L   a lg or it hm s  of t e n r e q ui r e  m a nua di v is io n of  s pa c e  i nt o s m a ll e r   a nd  s e p a r a t e   pa r ts   t r e pr e s e nt   di f f e r e nt   s ta te s   ( s t a te - a c ti o s pa c e   di s c r e ti z a ti on) D i s c r e ti z a ti on  of   th e   a c ti on - s t a te   s p a c e   c a u s e s  t h e  c om pl e xi ty  of   th e   pr obl e m s   R L  c a s ol v e  t be  l im it e d a nd  ti m e - c on s um in [ 16] .   D R L   c om e s   a s   a   de ve lo pm e nt   of   c onve nt io na R L   by  a ddi ng  a   de e ne ur a l   ne twor ( D N N )   to   R L D R L   ha s   s uc c e e de d   in   ove r c om in s e ve r a w e a kne s s e s   of   c on ve nt io na R L O ne   of   th e   m a in   r e a s on s   is   th a D R L   us e s   D N N w hi c c a ove r c om e   hi ghe r   pr obl e m   c om pl e xi ty   a nd  r e pr e s e nt   m or e   c om pl e va lu e   f unc ti ons   or   pol ic ie s   [ 17] T hus D R L   c a a ddr e s s   pr obl e m s   w it la r ge r   di m e ns io ns   a nd  m or e   c om pl e x   e nvi r onm e nt s w hi c a r e   di f f ic ul to   ha ndl e   by  c onve nt io na R L I a ddi ti on,  D N N   in   D R L   c a a ut om a ti c a ll le a r m or e   m e a ni ngf ul   f e a tu r e   r e p r e s e nt a ti ons   f r om   in put   da ta a ll ow in a ge nt s   to   r e c ogni z e   m or e   c om pl e x   pa tt e r ns   a nd  m a ke   be tt e r   de c is io ns   [ 18] [ 20] D R L w hi c h a s   th e   a dva nt a ge   of   ha ndl in la r ge - s c a le   a nd   hi gh - c om pl e xi ty   pr obl e m s m a ke s   it   a a tt r a c ti ve   c hoi c e   f o r   c o ve r in th e   w e a kne s s e s   of   c onve nt io na R L   in   r e s e a r c h t o buil d a  m or e  a da pt iv e  t r a f f ic  l ig ht  c ont r ol  s ys te m .   A   tr a f f ic   s im ul a to r   is   of te us e to   e va lu a te   tr a f f ic   c ont r ol   s tr a te gi e s   [ 21] e m pha s iz in s us ta in a bi li ty , s a f e ty a nd   tr a f f ic   e f f ic ie nc p e r f or m a nc e   in di c a t or s R e s e a r c he r s   ha ve   us e two   m a in   m e th od s   to  t e s tr a f f ic  s im ul a to r s m a c r os c opi c  a nd mi c r os c opi c . S e ve r a s tu di e s  ha ve  us e d m a c r os c opi c  s im ul a ti on s  t m im ic   r e a l - w or ld   tr a f f ic   dyna m ic s   [ 22] [ 23] H ow e ve r m or e   a nd  m or e   s tu di e s   a r e   tu r ni ng  to   m ic r os c opi c   s im ul a ti ons s uc a s   S U M O V I S S I M a nd  A I M S U N w hi c of f e r   a   m or e   c om pr e he ns iv e   de pi c ti on  of   c om pl e x t r a f f ic  dyna m ic s , i nc lu di ng t he  s to c ha s ti c  c ha r a c te r  of  dr iv in g a nd r out e  c hoi c e s   [ 21] . S U M O , a s  one   of   th e   m ic r os c opi c   s im ul a to r s is   w id e ly   us e to   e va lu a te   tr a f f ic   c ont r ol   s tr a te gi e s H ow e ve r to   th e   a ut hor s '   knowle dge , no S U M O  s im ul a ti on ha s  be e n buil us in g  a c tu a tr a f f ic  f lo w  da ta  ( a nd r e a l - w o r ld  r oa d  ne twor ks )   to  de m ons tr a te  t he  unba la nc e d t r a f f ic  f lo w  s ta te .   F ur th e r m or e a c c or di ng  to   T a e al .   [ 18 ] m os D R L   w o r is   s ti ll   not   r e a dy  f or   d ir e c a ppl ic a ti on  in   r e a l - w or ld   tr a f f ic   be c a us e unt il   now th e   D R L   a ge nt   is   a s s u m e to   ha ve   p e r f e c knowle dge   of   th e   tr a f f ic   e nvi r onm e nt I r e a li ty a   c onge s ti on  d e te c ti on  or   pr e di c ti on   s ys te m   i s   hi ghl de s ir e to   e s ti m a te   tr a f f ic   c ondi ti ons   w it s ig ni f ic a nt   di s tu r ba nc e s one   of   w hi c is   unba l a nc e tr a f f ic   f lo w .   T he r e f or e in   th is   s tu dy,   a n   a da pt iv e   tr a f f ic   c ont r ol   s y s te m   w a s   bui lt   u s in de e Q - ne twor ( D Q N )   [ 24] T hi s   D R L   a lg or it hm   is   us e d   to   opt im iz e   ve hi c le   w a it in ti m e   a s ig na li z e in te r s e c ti ons   by  opt im iz in c ha nge s   in   tr a f f ic   l ig ht   ti m e s T he   D Q N   in   th is   s tu dy  w a s   tr a in e us in S U M O   m ic r os c opi c   s im u la ti on  da ta   w it c ha r a c te r is ti c s   of   unba la nc e tr a f f ic  f lo w  a nd  pe r tu r ba ti on   o f  que ue  l e ngt h.       2.   M E T H O D   T hi s   r e s e a r c is   bui lt   w it f our   m a in   s te p s F ir s t,   th e   num be r   of   ve hi c le s   pa s s in th r ough  one   la n e   a t   a in te r s e c ti on  w a s   c a lc ul a te us in Y O L O v8.  N e xt a in te r s e c ti on  s im ul a ti on  w il be   bui lt   us in g   th e   pr e vi ous   c a lc ul a ti on  da ta   us in S U M O   m ic r os im ul a ti on,  w hi c w il be   c ont in ue by   tr a in in g   D R L   a ge nt s   us in S U M O  s im ul a ti on  a s   in put F in a ll y,  th e   opt im iz a ti on  th a t   th e   D R L   a ge nt   di d w il be   a na ly z e d.  F ig ur e   s how s  us  t h e  r e s e a r c h f lo w  di a gr a m .       CCT V   F o o t a g e   o f   Pa m e l i s a n   I n t e r s e c t i o n D e n p a s a r Co u n t i n g   Ve h i c l e s   i n   e a c h   l a n e   u s i n g   Y O L O v 8 B u i l d i n g   a   S U M O   s i m u l a t i o n   f o t h e   p a m e l i s a n   i n t e rs e c t i o n L e v e ra g i n g   t h e   S U M O - R L   a n d   SB l i b ra ri e s   t o   t ra i n   R L   a ge n t s   w i t h   t h e   D Q N   ( D e e p   Q - N e t w o r k a l go ri t h m T ra i n e d   R L   A g e n t s   f o I n t e rs e c t i o n   O p t i m i z a t i o n ( SP P A M E L I S A N ) E va l u a t i o n     F ig ur e  1. R e s e a r c h s t a ge s  f lo w   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       O pt imi z in g t r af fi c  l ig ht s  at  unbalanc e d i nt e r s e c ti ons  u s in g de e p  r e in fo r c e m e nt     ( D um an C a r e  K h r is ne )   2993   2 .1.   C al c u la t in g ve h ic le  f lo w   T he   da ta   us e to   bui ld   th e   in te r s e c ti on  s im ul a ti on  w it unba la nc e tr a f f ic   f lo w   w a s   ta ke f r om   th e   D in a s   P e r hubunga P r ovi ns B a li   or   B a li   P r ovi nc ia T r a n s p or ta ti on  A ge nc y w hi c ut il iz e s ur ve il la nc e   c a m e r a s   in s t a ll e a th e   P a m e li s a in te r s e c ti on.  T he   da ta   obt a in e is   a   vi de r e c or di ng  of   th e   s ur ve il la nc e   c a m e r a T he   vi de is   us e a s   in put   to   c a lc ul a te   ve hi c le s   pa s s in th r ough  th e   la ne s   a th e   P a m e li s a n   in te r s e c ti on.  T he   c onf ig ur a ti on  of   th e   pos it io of   th e   v e hi c le   f l ow   c ount e r - poi nt   on  th e   la ne   a th e   P a m e li s a in te r s e c ti on  is   s how in   F ig ur e   2.  F ig ur e   2   s how s   th a s ix   c oun te r - poi nt s   w e r e   us e d   to   c a lc ul a t e   ve hi c le   f lo w   in  e a c h l a ne  a th e  i nt e r s e c ti on. T a bl e  1 pr e s e nt s  a  m or e  c onc is e  r e la ti ons hi p be twe e n t he  pos it io n of  t he  po in t   a nd  th e   di r e c ti on  of   ve hi c le   f lo w   c a lc ul a te d   a e a c c ount e r - poi nt T c ount   ve hi c le s w e   u s e   th e   Y O L O v8   obj e c de te c ti on   a lg or it hm   [ 25] Y O L O v8  is   u s e d   to   de te c ve hi c le s   p a s s in g   th r ough  a   l a ne A f te r   th a t,   w e   us e   a obj e c tr a c ki ng  a nd  c ount in a lg or it hm   m a de   e xpl ic it ly   f or   tr a c ki ng  obj e c ts   f r om   th e   r e s ul ts   of   Y O L O v8  de te c ti on t o c ount  t he  t r a f f ic  f lo w . T he  f lo w c ha r of  t he  t r a c ki ng a nd c ount in g a lg or it hm  i s  s how n i n F ig ur e  3.           F ig ur e  2. C onf ig ur a ti on of  t he  ve hi c le  f lo w  c ount e r  poi nt       T a bl e  1. S um m a r y of  ve hi c le  f lo w  di r e c ti on a e a c h c ount in g po in t   L a be l   C ount i ng  poi nt   V e hi c l e  f l ow  di r e c t i on     N gur a h R a i  1   B ypa s s   N gur a h R a i  → P a m e l i s a n ( E a s t - N or t h) ;   B ypa s  N gur a h R a i  → B ypa s s  N gur a h R a i  ( E a s t - W e s t )     N gur a h R a i  2   B ypa s s   N gur a h R a i  → B ypa s s  N gur a R a i  ( E a s t - W e s t ) ;   B ypa s   N gu r a h R a i   →  P a m e l i s a n  ( E a s t - S ou t h )   &  B y pa s s   N gu r a h R a i   → B ypa s s  N gu r a h  R a i  ( E a s t - E a s t / U - t ur n )     N gur a h R a i  3   B ypa s s   N gur a h R a i  → B ypa s s  N gur a R a i  ( W e s t - E a s t ) ;   B yp a s  N gu r a h  R a i  →   P a m e l i s a ( W e s t - N o r t h )   &  B y pa s s  N g u r a h R a i   →  B y pa s s   N g u r a h  R a i   ( W e s t - W e s t / U - t u r n )     N gur a h R a i  4   B ypa s s   N gur a h R a i  → P a m e l i s a n ( W e s t - S out h)  &  B ypa s  N gur a h R a i  → B yp a s s  N gur a h R a i  ( W e s t - E a s t )     P a m e l i s a n 1   P a m e l i s a n → B a ypa s s  N gur a R a i  ( S out h - E a s t ) , P a m e l i s a n → B a ypa s s  N gur a h  R a i  ( S out h - W e s t )   P a m e l i s a n →  P a m e l i s a n ( S out h - N or t h)     P a m e l i s a n 2   P a m e l i s a n → B a ypa s s  N gur a R a i  ( N or t h - E a s t ) , P a m e l i s a n → B a ypa s s  N gur a h R a i  ( N or t h - W e s t )   P a m e l i s a n → P a m e l i s a n ( N or t - S out h)       2 .2.   B u il d in g a S U M O   s im u la t io n   A f te r   obt a in in th e   ve hi c le   f lo w   da ta   th a pa s s e s   th r ough   e a c r oa la ne   a th e   P a m e li s a in te r s e c ti on,  th e   ne xt  s te is   tr a ns la ti ng  th e   v e hi c le   f lo w   in to   th e   S U M O   m ic r os im ul a ti on  [ 26] I S U M O th e   ve hi c le   f lo w   is   c onve r te in to   a   ve hi c le   e m e r ge nc e   s im ul a ti on  us in th e   r out e s   f unc ti on S U M O   is   a   w e ll - known  ope n - s our c e   tr a f f ic   s im ul a to r   th a p r ovi de s   pr a c ti c a gr a phi c a us e r   in te r f a c e s   ( G U I s )   a nd  a ppl ic a ti on   pr ogr a m m in in te r f a c e s   ( A P I s )   f or   e f f ic ie nt ly   m a na gi ng  a nd   m ode li ng  r oa ne twor ks .   I of f e r s   a   vi s ua l   gr a phi c a in te r f a c e  f or  c r e a ti ng dif f e r e nt  r oa d ne twor k a r c hi te c t ur e s  i n m a ny gr id  f or m a ts  a nd a ll ow s  dyna m ic   r out in [ 16] A ddi ti ona ll y,  S U M O   s uppor ts   O pe nS tr e e tM a p   ( O S M ) A   f ul s c e na r io   m a y   be   c r e a te qui c kl y   a nd  e a s il w it th e   he lp   of   th e   O S M   s c r ip t.   T yp e m a ps   a nd  s e t ti ngs   a ppr opr ia te   f or   th e   c hos e n   tr a f f ic   m ode s   w il be   im por te d   in to   th e   ne twor k.  F ur th e r m or e S U M O   c a c ont r ol   e a c in te r s e c ti on' s   tr a f f ic   li ght s   us in us e r - de f in e pol ic ie s S U M O   m a ke s   it   pos s ib le   to   ta ke   pi c tu r e s   a e ve r s im ul a ti on  s ta ge ,   gi vi ng  us   th e   s ta te   da ta   f or   our   s tu dy.  S U M O   s im ul a ti on  f or   th e   P a m e li s a in te r s e c ti on  w a s   bui lt   w it d a ta   c a lc ul a te f r om   th e   a c tu a tr a f f ic   f lo w   obt a in e in   th e   pr e vi ous   s te p.  U s in th is   da ta w e   bui ld   a   s im ul a t e e nvi r onm e nt   th a t   im it a te s   r e a l - w or ld   tr a f f ic   f lo w   a th e   P a m e li s a in te r s e c ti on,  w hi c ha s   a unba la nc e tr a f f ic   f lo w   a nd  s ta ti c   tr a f f ic  l ig ht  pha s e .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 ,   A ugus t   20 25 2991 - 3002   2994   S t a r t I n it ia liz a t io n O b j e c t   ( Y O L O v 8 ) C e n t e r P o in t   {} I D C o u n t   0 o b j e c t B B I =   [] A ll  O b j e c t s   ( Y O L O v 8 c h e c k e d ? C a l c u la t e   O b j e c t   C e n t e r N e w   o b j e c t   d e t e c t e d ? A p p e n d   t o   C e n t e r P o in t C r e a t e   a   N e w   I D   a d d   it   t o   o b j e c t B B I D No T h e   la s t   o b j e c t   in   C e n t e r P o in t ? Y e s C a l c u la t e   Dis t a n c e   fr o m   T r a c k e d   O b j e c t   P o s it io n   t o   p o in t   in   C e n t e r P o in t Dis t a n c e   35 ? No U p d a t e   T r a c k e d O b j e c t   p o s it io n   t o   C e n t e r P o in t A d d   o b j e c t   p o s it i o n   ( b y   ID t o   o b j e c t B B I D R e t u r n   V a lu e   o b j e c t B B I D Y e s St o p Y e s No     F ig ur e  3. F lo w c ha r of  t r a c ki ng obje c a lg or it hm       2 . 3 .   D e e p  r e in f or c e m e n t  l e ar n in g age n t  t r ai n in g   I th is   s tu dy,  th e   D R L   a ge nt   w a s   bui lt   us in th e   S U M O - R L   li br a r [ 27 ] S U M O - R L   pr ovi de s   a   s im pl e   in te r f a c e   to   c r e a te   a  R L   e nvi r onm e nt   w it S U M O   f or   tr a f f ic   s ig na c ont r ol T he   D R L   a ge nt   bui lt   is   a a ge nt   th a us e s   th e   D Q N   a lg or it hm   f or   th e   t r a in in pr oc e s s   to   opt im iz e   ve hi c le   w a it in ti m e   a th e   P a m e li s a n   in te r s e c ti on. DQ N  i n S U M O - R L  w a s  bui lt  us in g t h e   s ta bl e  b a s e li ne s 3 ( S B 3)  l ib r a r [ 28] .   D Q N   gi ve in put   a s   a   s im ul a ti on   ge ne r a te in   th e   p r e vi ous   s ta ge   a s   a e nvi r onm e nt     ( S U M O   e nvi r onm e nt ) B e c a us e   th is   s tu dy  onl opt im iz e s   one   t r a f f ic   li ght   ( P a m e li s a in te r s e c ti on) th e   D R L   a ge nt   us e is   one   ( s in gl e   a ge nt ) T he   a ge nt   pe r f or m s   opt im iz a ti on  us in th e   M a r kov  de c is io pr oc e s s   ( M D P )   m ode w it h t hr e e  c om pone nt s obs e r va ti on, a c ti on, a nd r e w a r d .   F or   o bs e r va ti on  s pa c e D Q N   us e s   D N N w hi c h   ha s   15  in put s   ge ne r a te f r om   obs e r va ti ons   in   th e   e nvi r onm e nt na m e ly   two  gr e e pha s e s   ( nor th - s out a nd  e a s t - w e s gr e e li ght s ) one   tr a ns it io pha s e     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       O pt imi z in g t r af fi c  l ig ht s  at  unbalanc e d i nt e r s e c ti ons  u s in g de e p  r e in fo r c e m e nt     ( D um an C a r e  K h r is ne )   2995   ( ye ll ow  l ig ht ) , a nd de ns it y a nd que ue  va lu e s  on s ix  l a ne s  of  t he   r oa d a th e  P a m e li s a n i nt e r s e c ti on ( 12 i nput s ) .   I a ddi ti on  to   s ta nda r d   obs e r va ti ons   in   tr a in in g,  obs e r va ti ons   w it noi s e   w e r e   m a de ,   w hi c w e r e   c a r r ie out   by  c ha ngi ng  th e   que ue   le ngt va lu e T hi s   is   a   w a to   r e pr e s e nt   r e a l - w or ld   c ondi ti ons   w he r e   la r ge   ve hi c le s   s om e ti m e s   bl oc k   s ur ve il la nc e   c a m e r a s w hi c h   c a u s e s   c ha ng e s   in   th e   que ue   l e ngt va lu e   a in te r s e c ti ons A c ti on   s p a c e   g e ne r a te d   a s   out put   f r om  D N N . T he r e   a r e   a c ti on   s p a c e s   i th i s  s tu dy a s   il l us tr a te d   in   F ig ur e   4 .   O ne   f or   N gur a R a r oa ( E a s t - W e s t) de pi c te in   F ig ur e   4( a ) , a nd  one   f or   th e   gr e e pha s e   a P a m e li s a r oa ( N or th - S out h ) de pi c te in   F ig ur e   4( b ) T he   r e w a r f unc ti o is   c a lc ul a te d   us in c ha nge s   in   c um ul a ti ve   ve hi c le   de la y.  I ot he r   w or ds th e   r e w a r is   how   m uc th e   to ta de la ( th e   s um   of   th e   w a it in ti m e s   of   a ll   a ppr oa c hi ng ve hi c le s )  c ha ng e s  c on c e r ni ng t he  pr e vi ous  t im e  s te p.           ( a )   ( b)     F ig ur e  4. P a m e li s a n i nt e r s e c ti on i n S U M O  w it h ( a )  N gur a h R a gr e e n pha s e  a nd ( b)  P a m e li s a n gr e e ph a s e       2 .4.  E val u at io n   T he   f in a s ta ge   of   th is   r e s e a r c is   th e   e va lu a ti on  pr oc e s s   c a r r ie out   on  th e   D R L   m ode l,   w hi c w a s   tr a in e in   th e   pr e vi ous   s ta ge .   T w o   e va lu a ti on   m e tr ic s   w e r e   us e to   m e a s ur e   th e   a ge nt ' s   opt im iz a ti on   a bi li ty th e   a c c um ul a te w a it in ti m e   a th e   in te r s e c ti on  ( f or   a ll   r oa la ne s )   a nd  th e   a ve r a ge   v e hi c le   s p e e a th e   in te r s e c ti on.  V e hi c le   w a it in ti m e   is   de f in e a s   th e   ti m e   ( in   s e c onds )   s pe nt   be lo w   0.1  m /s   s in c e   th e   la s ti m e   th e   ve hi c le   tr a ve l e f a s t e r   th a 0.1  m / s ( T h e   ve hi c le   w a it in ti m e   is   r e s e to   0   e ve r ti m e   th e   ve hi c le   m ove s ) I n ( 1)  c a lc ul a te s  t he  t ot a ve hi c le  w a it in g t im e  a a n i nt e r s e c ti on .     _ =    = 1 = 1   ( 1)     W h e r e   to ta l _W   i s  t h e  t ot a w a it i ng  ti m e   in   a ll  l a n e s  of  t h e  r oa d i th e  i n te r s e c ti o n,   L   i s   th e  n um b e r   of   la ne s   of  t he   r oa d i n t he  i n te r s e c ti on,   V i   is  t he  nu m b e r   of  v e h ic le s  i n  l a n e   i   a nd   W ij   i s   th e   w a it i ng  ti m e   of   ve hi c le   j   in  l a n e   i   T he   a ve r a ge   ve hi c le   s pe e a a in te r s e c ti on  is   c a lc ul a te by  f in di ng  th e   a ve r a ge   s pe e of   th e   ve hi c le s   a th e   in te r s e c ti on,  nor m a li z e by  th e   m a xi m um   s pe e a ll ow e f or   e a c ve hi c le I f   th e r e   a r e   no   ve hi c le s   a th e   in te r s e c ti on,  th is   f unc ti on  r e tu r ns   1.  In   ( 2 )   c a lc ul a te s   th e   nor m a li z e a ve r a ge   ve hi c l e   s pe e a a n i nt e r s e c ti on.     _ =   1  , = 1   ( 2)     W he r e   av g_s pe e d   is   th e   nor m a li z e a ve r a ge   s pe e f or   a ll   ve hi c le s   a th e   in te r s e c ti on,  N   is   th e   num be r   o f   ve hi c le s   a th e   in te r s e c ti on,  S i   is   th e   s pe e of   ve hi c le   i   a th e   ti m e   of   obs e r va ti on ,   a nd  S m ax , i   is   th e   m a xi m um   s pe e d pe r m it te d f or  ve hi c le   i   ( in  t he  s im ul a ti on e a c h t ype  of  ve h ic le  i s  s e to  a  m a xi m um  pe r m it te d s pe e d) .   T e va lu a te   th e   a ge nt ' s   opt im iz a ti on  c a pa bi li ty e a c a ve r a ge   w a it in ti m e   a nd   a ve r a ge   s pe e pr oduc e d a f te r  t r a in in r e s ul ts  a r e  c om pa r e d w it h t he  i ni ti a s im ul a ti on da ta ' s  a ve r a ge  w a it in g t im e  a nd s pe e d.  S in c e   th e   in it ia s im ul a ti on  da ta   us e is   s ta ti c   tr a f f ic   li ght s c om pa r in th e   a ve r a ge   w a it in ti m e   a nd  s pe e be f or e  a nd a f te r  t r a in in g c a n s how  t he  c ha nge s  i n t he  a ve r a ge  w a it in g t im e  a nd s pe e d a th e  i nt e r s e c ti on w he n   us in s ta ti c   ti m e   a nd  th e   D R L   a ge nt .   W e   a ls di a not he r   e va lu a ti on  to   s e e   w he th e r   D R L   a ge nt s   ha ve   s om e   di f f e r e nt   r e s ul ts   w he f a c e w it tr a in in w it noi s e . T hi s  e va l ua ti on  w il c om pa r e   D R L   a ge nt s   tr a in e u s in noi s y da ta  ( p e r tu r ba ti on)  t o a ge nt s  t ha do not e xpe r ie nc e  noi s e   in  t he ir  t r a in in g.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 ,   A ugus t   20 25 2991 - 3002   2996   3.   R E S U L T S  A N D  D I S C U S S I O N   3.1.   V e h ic le  f lo w  c ou n t in g r e s u lt   V id e d a ta   ob ta in e f r om   B a l P r ov in c ia T r a ns p or ta ti on  A ge nc y ,   p r od uc e f r om   s u r ve il la nc e   c a m e r a s   a t   th e   P a m e li s a n   i nt e r s e c ti on.   B e c a us e   th e r e   a r e   no   s ur ve i ll a nc e   c a m e r a s   w i th   a   w id e   v ie w   a th e   P a m e li s a in t e r s e c t io n a n o nl pa n - ti lt - z oo m   ( P T Z )   c a m e r a s   a r e   a va i la b le da ta   f o r   th e   e n ti r e   la ne   c a nn ot   be   t a ke n   a t   o nc e .   T he   vi de w a s   ta ke f o r   d a ys   f r o m   J a n u a r y   7 th ,   2 024   t J a n ua r 11 th 2 024 to   ob ta i n   vi de r e c o r d in gs   o f   ve hi c le s   p a s s in t h r ou gh  e a c la ne   a t he   P a m e li s a in t e r s e c t io in   D e n pa s a r o ne   r oa d   a r m   f o r   o ne   da y   o f   r e c o r d in g.   F o r   4   da ys ,   r e c or di ngs   w e r e   o bt a in e f r o m   e a c r oa d   a r m   a nd   e a c h   l a ne   o f   th e   r o a c ou ld   be   c a lc u la te d.   I th is   s tu dy t r e p r e s e nt   th e   c ond it io ns   a n a ve r a ge   de ns it o f   e a c la n e ,   vi de r e c o r di n gs   w e r e   s e le c te d   f or   7, 20 s e c o nds   ( 1 20  m i nut e s )   a th e   s a m e   ti m e   o d i f f e r e nt   da ys   ( r e c o r d in gs   o f   one   a r m   a nd   t he   ot he r   w e r e   on   d if f e r e n da ys ) .   T he   s e le c te d   vi de o   t im e   w a s   13 .0 to   15. 00   W I T A .   T he   obt a in e vi de c a lc ul a te ve hi c le   f lo w   us in Y O L O v8  by  c a lc ul a ti ng  ve hi c le s   pa s s in th r ough  th e  pe r im e te r  box c onf ig u r e d a s  i n F ig u r e  2. T he  ve hi c le  c la s s e s  t ha a r e  s e to  be  r e c ogni z e d by YO L O v8  a r e   c a r s bus e s , a nd  tr uc ks I th i s   s tu dy,   w e   di not   c a lc ul a te   th e   f l ow   of   2 - w he e le ve hi c l e s   ( m ot or c yc le s ) A s  a   r e s ul t,   1,504  ve hi c le s   pa s s e th r ough  N gur a R a a nd  N gur a R a la ne s 1,013  ve hi c le s   pa s s e th r ough  N gur a R a a nd  N gur a R a la ne s 1,017  ve hi c le s   pa s s e th r ough  P a m e li s a a nd  236  ve hi c le s   pa s s e d   th r ough  P a m e li s a la ne s . T a bl e   pr e s e nt s   th e   num be r   of   ve h ic le   f lo w s   ( ba s e on  ob s e r va ti on  pos it io n)   a nd  th e   de s ti na ti on  of   ve hi c le s   pa s s in th r ough  th e   P a m e li s a in te r s e c ti on.  I s houl be   not e th a ob s e r va ti ons   w e r e   not   c a r r ie out   a on c e , s f or   N gur a R a 1   a nd  N gur a h R a obs e r va ti ons   w e r e   c a r r ie out   on  th e   f ir s t   da y,  N gur a R a i   a nd  N gur a h   R a 4   on  th e   s e c ond   da y,  P a m e li s a on  th e   th ir da a nd  th e   f our th   da f or   P a m e li s a n 2.       T a bl e  2. V e hi c l e  f lo w  c ount in g r e s ul t   D e pa r t  l a ne   A r r i va l  l a ne   V e hi c l e  c ount   T ot a l   P a m e l i s a n 1 ( S out h)   N gur a h R a i  1 ( E a s t )   48   236   N gur a h R a i  2 ( E a s t )   44   N gur a h R a i  4 ( W e s t )   77   P a m e l i s a n 1 ( N or t h)   67   P a m e l i s a n 2 ( N or t h)   N gur a h R a i  1 ( E a s t )   234   1017   N gur a h R a i  1 ( E a s t ) #   2   N gur a h R a i  3 ( W e s t )   687   N gur a h R a i  3 ( W e s t ) #   23   P a m e l i s a n 2 ( S out h)   71   N gur a h R a i  3 ( E a s t ) *   N gur a h R a i  3 ( W e s t )   39   289   P a m e l i s a n 1  ( N or t h)   250   N gur a h R a i  4 ( E a s t ) *   N gur a h R a i  4 ( W e s t )   652   724   P a m e l i s a n 2 ( S out h)   72   N gur a h R a i  2 ( W e s t ) *   N gur a h R a i  2 ( E a s t )   247   324   P a m e l i s a n 2 ( S out h)   77   N gur a h R a i  1 ( W e s t ) *   N gur a h R a i  1 ( E a s t )   418   1180   P a m e l i s a n 1 ( N or t h)   762   # L a ne   c ha ngi ng oc c ur   * A s  t he  pos i s i t i on of  de pa r t i ng i s  c l o s e  t oge t he r , w e  a s s um e  t he  de p a r t i ng poi nt  f r om  a r r i va l   l a ne       3.2.   S U M O  s im u la t io n   T hi s   pa p e r   pr e s e nt s   a   c a s e   s tu dy  of   r e a l - w or ld   tr a f f ic   a P a m e li s a i nt e r s e c ti on,  th e   in te r s e c ti on  of   P a m e li s a R oa a nd  N gur a R a R oa in   D e npa s a r   C it y.  W e   s im ul a te th e   P a m e li s a in te r s e c ti on  us in th e   S U M O   s im ul a to r T he   in te r s e c ti on  la yout   in   S U M O   is   de pi c te in   F ig ur e   4.  P a m e li s a in te r s e c ti on  f e a tu r e s   f our   di r e c ti ons a nd  N gur a R a R oa d   ha s   two  la ne s T he   le f t m os la ne   in   N gur a R a is   de s ig na t e f or   le f t   tu r ns   a nd  goi ng  s tr a ig ht ,   a nd  th e   r ig ht m os la ne   is   r e s e r ve d   f or   r ig ht   tu r ns goi ng   s tr a ig ht a nd  u - tu r n.   P a m e li s a n R oa d ha s  one  l a ne  w it h no de s ig na te d ve hi c le  t ur ns  ( f r e e  f or  a ll  t u r ns ) . I n  a ddi ti on t o  bui ld in g  r oa d   la ne s , S U M O   s im ul a ti on a ls o s im ul a te s  ve hi c le  f lo w s a s  de s c r i be d i n T a bl e  2.   T he   P a m e li s a in te r s e c ti on  th a w e   s im ul a te u s in S U M O   ha s   two  gr e e li ght   pha s e s   a nd  two   tr a ns it io pha s e s .   O ne   gr e e n   li ght   pha s e   is   f or   N gur a R a i   R oa d,  de pi c t e in   F ig ur e   4( a ) a nd  one   f or   P a m e li s a R oa d,  de pi c te in   F ig ur e   4( b) T he s e   two  gr e e pha s e s   a l s w or a s   a c ti on  s ta te   f or   D Q N E a c h   pha s e   ha s   a   tr a ns it io pha s e   ( ye ll ow   li ght )   th a c yc le   be twe e gr e e a nd  ye ll ow   ph a s e .   T he s e   gr e e a nd   ye ll ow   pha s e s   ha ve   th e ir   dur a ti on  a nd  a r e   c a ll e s ig na pha s e   dur a ti on.  F or   th e   P a m e li s a in te r s e c ti on,  th e   s ta nda r d ( f ix - ti m e d)  s ig na pha s e  dur a ti on i s  s how n i n T a bl e  3.     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       O pt imi z in g t r af fi c  l ig ht s  at  unbalanc e d i nt e r s e c ti ons  u s in g de e p  r e in fo r c e m e nt     ( D um an C a r e  K h r is ne )   2997   T a bl e  3. P a m e li s a n i nt e r s e c ti on f ix - ti m e d s ig na pha s e  dur a ti on   P ha s e   D ur a t i on ( s e c ond)   C yc l e  l e ngt h ( s e c ond)   N gur a h R a i   gr e e n pha s e   39   90   N gur a h R a i   ye l l ow  pha s e   6   P a m e l i s a gr e e n pha se   39   P a m e l i s a ye l l ow  pha s e   6       3. 3 .   A ge n t   t r ai n in g   W e   pe r f or m   a ge nt   tr a in in us in m ul ti - la ye r   pe r c e pt r on  ( M LP )   p ol ic f r om   S B 3,  hype r pa r a m e te r s   f or   th e   m ode c a be   s e e in   T a bl e   4.  W e   pe r f or m   tr a in in us in 72,000  ti m e s te ps   on  two   obs e r va ti on  m ode   s e tt in gs T he   f ir s s e tt in is   us in obs e r va ti ons   w it hout   noi s e   a nd  th e   s e c ond  s e tt in is   us in obs e r va ti ons   w it noi s e T h e   s e tt in w it hout   noi s e   unde r ta ke s   th e   ve hi c l e   f lo w   va lu e   in   T a bl e   2   w it hout   c ha nge s T h e   s e tt in w it noi s e   pe r tu r ba ti on  is   c a r r ie out   by  in s e r ti ng  noi s e   in to   th e   l e ngt of   th e   ve hi c le   que ue   a th e   in te r s e c ti on  s th a t   th e r e   is   a   c ha ng e   in   th e   ob s e r va ti on.  T he   i ns e r te noi s e   is   ge n e r a te r a ndoml us in th e   r a ndom G a us s ia n f unc ti on, with m e a n = 0 a nd s ta nd a r d de vi a ti on = 1.       T a bl e  4. H ype r pa r a m e te r  va lu e  f or  D Q N  m ode l   P a r a m e t e r   V a l ue   L e a r ni ng  r a t e   1e - 3   L e a r ni ng  s t a r t   5   T r a i ni ng  f r e que nc y   4   G a m m a   0.9   E xpl or a t i on  f r a c t i on   0.1   E xpl or a t i on  f i na l  e pi s ode   0.05   T a r ge t   upda t e  i nt e r va l   500   R e pl a buf f e r  s i z e   50000       A f te r   tr a in in f or   50  e pi s ode s th e   a ve r a g e   r e w a r obt a in e by   th e   a ge nt   pe r   e pi s ode   is   s um m a r iz e d   in   F ig ur e   5.  F ig ur e   5( a )   s how s   th e   a ve r a ge   r e w a r obt a in e d   b th e   a ge nt   w he tr a in e in   a   s e tt in w it hout   noi s e a th e   be gi nni ng  of   tr a in in th e   r e w a r obt a in e is   r e la ti ve ly   s m a ll   but   a s   th e   tr a in in e pi s ode s   in c r e a s e hi ghe r   r e w a r ds   a r e   obt a in e a nd  te nd  to   be   s ta bl e F i gur e   5( b )   s how s   th e   a ve r a ge   r e w a r obt a in e by t he  a ge nt  t hr ough tr a in in g w it h a  s e tt in g a ddi ng nois e . S in c e  t he  be gi nni ng of  t r a in in g, t he  r e w a r d obta in e d   by  th e   a ge nt   is   m or e   s ta bl e   in   th is   s e tt in g.  S ta bl e   a ge nt   r e w a r dur in a ge nt   tr a in in w it noi s e   be c a us e   th e   a ge nt   le a r ns   not   to   m oni to r   th e   que ue   le ngt in   th e   e nvi r on m e nt   to m uc a th e   be gi nni ng   of   t r a in in g.   A lt hough  th e r e   is   a   di f f e r e nc e   in it ia ll y,  bot a ge nt s   ge s ta bl e   r e w a r ds   a th e   e nd  of   tr a in in g.  T hi s   r e w a r d   s how s   th a th e   a ge nt   ha s   le a r ne how   to   opt im iz e   a th is   in te r s e c ti on  ( w it a unba la nc e tr a f f ic   f lo w ) .   E vi de nc e   f or   th is   s ta te m e nt   c a be   s e e in   F ig ur e   6,  w hi c h   s how s   th a th e   a ve r a ge   w a it in ti m e   a th e   in te r s e c ti on be twe e n a g e nt s  l ooks   c lo s e  t oge th e r .           ( a )   ( b)     F ig ur e  5. A ge nt  r e w a r d w hi le  t r a in in g ( a )  w it hout  noi s e  pe r tu r b a ti on a nd ( b)  w it h pe r tu r ba ti on     - 1 6 0 - 1 4 0 - 1 2 0 - 1 0 0 - 8 0 - 6 0 - 4 0 - 2 0 0 4 8 12 16 20 24 28 32 36 40 44 48 50 M ea n   a gen t   r ew a r d N u m b er   o f   ep i s o d es M e a n   a g e n t   r e w a r d du r i n g   t r a i n i n g   w i t h ou t   p e r t u r b a t i o n - 2 0 - 1 8 - 1 6 - 1 4 - 1 2 - 1 0 -8 -6 -4 -2 0 4 8 12 16 20 24 28 32 36 40 44 48 50 M ea n   a gen t   r ew a r d N u m b er   o f   ep i s o d es M e a n   a g e n t   r e wa r d du r i n g   t r a i n i n g   wi t h   pe r t u r ba t i on Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 ,   A ugus t   20 25 2991 - 3002   2998       F i g u r e   6 .   I n t e r s e c t i o n   a v e r a g e   w a i t i n g   t i m e   d u r i n g   t r a i n i n g   w i t h o u t  n o i s e   p e r t u r b a t i o n   a n d   t r a i n i n g   w i t h   p e r t u r b a t i o n       T r a in in g hi s to r y i n F ig ur e  6  a ls o s how s  t ha th e  a ge nt  t r a in e d w it hout  us in g nois e  a th e  be gi nni ng of   tr a in in g ha s  di f f ic ul ty  f in d in g a  ge ne r a li z a ti on pa tt e r n  of  w a it in g t im e  t o  que ue  l e ngt h. T hi s  di f f ic ul ty  c a us in th e   a ge nt   to   e xpl or e   a th e   be gi nni ng  of   tr a in in g.  A f te r   ge tt in th e   e xpl or a ti on  pa tt e r n,  th e   a ge nt   s how s   qui te   good  e xpl oi ta ti on,  s th a a th e   e nd   of   t r a in in th e   w a it in ti m e   a th e   in te r s e c ti on  is   e ve be tt e r   th a th e   a ge nt  t r a in e d us in g nois e . O n t he  ot he r  ha nd, t he  a ge nt  t r a in e us in g nois e  ha s  a  m uc h s m a ll e r  w a it in g t im e  a t   th e   be gi nni ng  of   tr a in in g,  but   a s   tr a in in p r ogr e s s e s th e   w a it in ti m e   va lu e   te nds   to   r e m a in   th e   s a m e T hi s   s how s  t ha if  w e  w a nt  f a s te r  e xpl oi ta ti on, we  c a n us e  t r a in in g w it h nois e , but  i f  w e  w a nt  a  hi ghe r  w a it in g t im e   r e w a r d, w e  c a n us e  t r a in in g w it hout  noi s e .     3.4.  E val u at in g op t im i z at io n   r e s u lt   E va lu a ti on  of   th e   opt im iz a ti on  pe r f or m e by   th e   D R L   a ge nt   a th e   P a m e li s a in te r s e c ti on  is   m e a s ur e us in S U M O   s im ul a ti on  a nd  bui lt   us in a unba la n c e tr a f f ic   f lo w .   F ur th e r m or e th e   s im ul a ti on   r e s ul ts   of   th e   in te r s e c ti on  opt im iz e u s in th e   D R L   a ge nt   w e r e   c om pa r e w it th os e   of   th e   in te r s e c ti on   s im ul a ti on  w it hout   opt im iz a ti on.  T e s ti ng  w a s   a ls c onduc te d   us in a   s im ul a ti on  c ont a in in noi s e   to   s e e   w he th e r   th e   a ge nt   c oul ove r c om e   noi s e   a th e   in te r s e c ti on.   T he   noi s e   u s e dur in th e   e va lu a ti on  w a s   ge ne r a te d i n t he  s a m e  w a y a s  dur in g t r a in in g.   A ge nt s   w e r e   e va lu a te d   on  one   s im ul a ti on  e pi s ode   w it h   noi s e   a nd  one   w it hout   noi s e   ( bot w it im ba la nc e f lo w s ) T hi s   s im ul a ti on  w a s   in tr oduc e to   a ge nt s   tr a in e w it noi s e   a nd  a g e nt s   tr a in e w it hout   noi s e F ig ur e   7   s how s   th e   e va lu a ti on  r e s ul ts   of   e a c h   a ge nt   f or   opt im iz a ti on  w it w a it in ti m e  a s   th e   m e a s ur e d   pa r a m e te r . F ig ur e  7( a )  de pi c ts  t he  w a it in g t im e  va lu e  be f or e  a g e nt  opt im iz a ti on, with a n a ve r a ge  w a it in g t im e   of   594.49  s e c ond s   a t   e a c h   in te r s e c ti on.  W he opt im iz in a   s i m ul a ti on  w it noi s e F ig ur e   7( b)   de pi c t s   th e   opt im iz a ti on  out c om e s   obt a in e by   a a g e nt   tr a in e w it hout   noi s e   dur in it s   tr a in in pe r io d.  F ig ur e   7( c )   de pi c ts   th e   opt im iz a ti on  r e s ul ts   a c hi e ve by  a a ge nt   tr a in e on  noi s da ta   dur in it s   tr a in in pha s e W he n   opt im iz a ti on i s  pe r f or m e d on a  noi s e - f r e e  s im ul a ti on, F ig ur e  7( d)  di s pl a ys  t he  opt im iz a ti on r e s ul ts  of  a n a ge nt   tr a in e w it hout   noi s e   dur in it s   t r a in in pe r io d.  F ig ur e   7( e )   di s pl a ys   th e   opt im iz a ti on  out c om e s   of   a a ge nt   tr a in e d w it h nois y da ta  dur in g i ts  t r a in in g pe r io d.   A c c or di ng  to   F ig ur e   7,  th e   a ve r a ge   w a it in ti m e   a th e   in te r s e c ti on  is   lo w e r   f or   F i gur e s   7( b)   to   7( e ) ,   ( 248.5,  173.1,  169.4,  a nd  186.5  s e c onds   r e s pe c ti ve ly )   th a f or   th e   in te r s e c ti on  w it hout   opt im iz a ti on     F ig ur e   7( a ) F ur th e r m or e w e   c a c om pa r e   F ig ur e s   7( b)   a nd  7( c )   to   s e e   th e   a ge nt ' s   opt im iz a ti on  a bi li ty   w he n   f a c e w it a   s im ul a ti on  w it noi s e   on  th e   que ue   l e ngt h.  F r om   th e s e   two  im a g e s w e   c a s e e   th a th e   a g e nt   tr a in e w it noi s e   on  th e   tr a in in da ta   in   F ig ur e   7( c ) c a be c om e   a c c us to m e to   opt im iz in a th e   in te r s e c ti on  e a r li e r A lt hough   th e   a g e nt   in   F ig ur e   7( b)   w a s   s im il a r ly   s uc c e s s f ul   in   opt im iz in g,  it   is   c le a r   th a th e r e   w e r e   m ul ti pl e   in s t a nc e s   w he r e   th e   a g e nt   be c a m e   c onf us e by  th e   noi s e   th a a r os e in c r e a s in th e   a ve r a ge   w a it in ti m e F ig ur e s   7( d)   a nd  7 ( e )   de m ons tr a te   th e   a ge nt ' s   e va lu a ti on  in   th e   s im ul a ti on  w it no   noi s e   on  qu e ue   le ngt h.   I f   th e   a ge nt   ha di f f ic ul ty   de a li ng  w it noi s e   in   th e   pr e vi ous   e va lu a ti on,  th e r e   w a s   no  noi s e   in   th e   s im ul a ti on   th is   ti m e ,   s o   th e   a g e nt   tr a in e w it hout   noi s e   F ig ur e   7 ( d)   a nd  w it noi s e   F ig ur e   7 ( e )   ha no  di f f ic ul ty   opt im iz in g;   it ' s   ju s th a th e   a ge nt   in   e va lu a ti on  F ig ur e   7 ( d)   a ppe a r e to   opt im iz e   be tt e r   w he m e a s ur e d   by  it s   a v e r a ge   w a it in ti m e M e a nw hi le ,   if   w e   lo ok  a it F ig ur e   7 ( e )   is   not   m uc h   di f f e r e nt   f r om   F ig ur e   7 ( d ) a nd  th e   opt im iz a ti on  is   not   m uc di f f e r e nt it ' s   ju s th a be c a u s e   it   is   tr a in e d   us in tr a in in da ta   c ont a in in noi s e th e   a g e nt   is   m or e   c a r e f ul   a nd  ha s   di f f ic ul ti e s   a th e   b e gi nni ng  of   th e   e pi s ode but   be c om e s  m or e  a c c us to m e d a th e   e nd of  t he  e va lu a ti on e pi s od e .   1 4 5 9 .9 0 50 100 150 200 250 0 100 200 300 400 500 600 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 W a i t i n t i m w i t h   n o i s ( s ) W a i t i n t i m w i t h o u t   n o i s ( s ) E p i s o d es A v erage  wai ti n ti m du ri n trai n in g A v er a g o f   WT   Wi t h o u t   N o i se   T r a i n i n g A v er a g o f   WT   Wi t h   N o i se   T r a i n i n g Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       O pt imi z in g t r af fi c  l ig ht s  at  unbalanc e d i nt e r s e c ti ons  u s in g de e p  r e in fo r c e m e nt     ( D um an C a r e  K h r is ne )   2999       ( a )   ( b)         ( c )   ( d )       ( e )     F ig ur e  7. W a it in ti m e  a P a m e li s a n i nt e r s e c ti on  unde r   di f f e r e nt  s tr a te gi e s :   ( a )   w it hout  opt im iz a ti on   ( b)  us in g D R L   a ge nt  t r a in e d w it hout  noi s e  pe r tu r ba ti on , ( c )  us in g D R L   a ge nt  t r a in e d w it h nois e  pe r tu r ba ti on ,   ( d)  us in g D R L  a ge nt  t r a in e d w it hout  noi s e  pe r tu r ba ti on i n non nois y t r a f f ic , a nd  ( e )  us in g D R L  a ge nt  t r a in e w it h nois e  pe r tu r ba ti on i n non nois y t r a f f ic       A pa r f r om   w a it in ti m e e va lu a ti on  is   a ls done   by  c on s id e r in th e   a ve r a ge   s p e e of   ve hi c le s   a th e   in te r s e c ti on.  F ig ur e   s how s   th e   a ve r a ge   s pe e d   of   ve hi c le s   w he th e   e va lu a ti on  s im ul a ti on  is   c a r r ie out   F or   th is   s c e na r io F ig ur e   8( a )   s ho w s   w he th e   in te r s e c ti on  i s   not   opt im iz e d   us in g   a a ge nt F ig ur e   8( b)     s how s   th e   a ve r a ge   s pe e of   ve hi c le s   w he th e   in te r s e c ti on  is   opt im iz e us in a a ge nt   tr a in e w it hout   noi s e ,   th e   in te r s e c ti on  s im ul a ti on  is   not   a f f e c te by  noi s e   in   th e   qu e ue F ig ur e   8( c )   s how s   th e   a ve r a ge   s p e e of   ve hi c le s   a t   a in te r s e c ti on  opt im iz e u s in a a ge nt   tr a in e u s in noi s e   in   th e   que u e   le ngt h,  th e   e va lu a ti on   M e a n   :   594.4913901 0 200 400 600 800 1000 1200 1400 1600 0 515 1030 1545 2060 2575 3090 3605 4120 4635 5150 5665 6180 6695 W a i t i n g   t i m e   ( s ) S i m u l a t i on   t i m e   s t e ( s ) W a i t i n g   t i m e   on   s t a t i c   t r a f f i c   l i g h t   t i m e   ( w i t h ou t   a g e n t   opt i m i z a t i on ) M e a n   :   248.5905621 0 500 1000 1500 2000 2500 3000 3500 0 455 910 1365 1820 2275 2730 3185 3640 4095 4550 5005 5460 5915 6370 6825 W a i t i n g   t i m e   ( s ) S i m u l a t i on   t i m e   s t e ( s ) W a i t i n g   t i m e   on   t r a f f i c   l i g h t   u s i n g   a g e n t   t r a i n e w i t h ou t   n oi s e   pe r t u r ba r t i on   i n   n oi s y   t r a f f i c M e a n   :   173.1006246 0 100 200 300 400 500 600 700 800 900 0 485 970 1455 1940 2425 2910 3395 3880 4365 4850 5335 5820 6305 6790 W a i t i n g   t i m e   ( s ) S i m u l a t i on   t i m e   s t e ( s ) W ai ti n ti m on   traffi l i ght  u si n agen trai n ed  wi th  n oi se  pertu rb arti on   i n    n oi sy   traff i c M e a n   :   169.4420541 0 100 200 300 400 500 600 700 800 900 1000 0 455 910 1365 1820 2275 2730 3185 3640 4095 4550 5005 5460 5915 6370 6825 W a i t i n g   t i m e   ( s ) S i m u l a t i on   t i m e   s t e ( s ) W a i t i n g   t i m e   on   t r a f f i c   l i g h t   u s i n g   a g e n t   t r a i n e w i t h ou t   n oi s e   pe r t u r ba r t i on   i n   n on   n oi s y   t r a f f i c M e a n   :   186.5052047 0 200 400 600 800 1000 1200 10 490 970 1450 1930 2410 2890 3370 3850 4330 4810 5290 5770 6250 6730 W a i t i n g   t i m e   ( s ) S i m u l a t i on   t i m e   s t e ( s ) W a it in g   ti m e   on   tr a f f ic   li g h u s in g   a g e n tr a in e w i t h   n oi s e   pe r t u r ba r t i on   i n  n on   n oi s y   t r a f f i c Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 ,   A ugus t   20 25 2991 - 3002   3000   in te r s e c ti on  s im ul a ti on  is   a ls a f f e c te by  th e   s a m e   noi s e   a s   th e   noi s e   dur in tr a in in g.   T he   a ve r a ge   s pe e of   c a r s   tr a ve li ng  th r ough  th e   in te r s e c ti ons w h e th e r   opt im iz e or   not is   not   s ig ni f ic a nt ly   di f f e r e nt a s   s how n   in   F ig ur e s   8( a )   to   8( c )   ( 5.6 - 5.9  m /s   or   20.16 - 21.24  km /h ) G iv e n   th e   de c r e a s e s   in   a v e r a ge   w a it in ti m e   a th e   in te r s e c ti on,  it   in di c a te s   th a t   opt im iz a ti on  ha s   s u c c e e d e in   in c r e a s in th e   f lo w   of   ve hi c le s   pa s s in g   th r ough  th e   in te r s e c ti on  w it hout   r e qui r in a in c r e a s e   in   a ve r a ge   ve hi c l e   s pe e d.  T hi s   s ugge s ts   th a th e   a v e r a ge   s pe e a th e  i nt e r s e c ti on doe s  not  c h a nge  m uc h, e v e n w it h opti m iz a ti on a ge nt s  pr e s e nt  or  not .           ( a )   ( b)       ( c )     F ig ur e  8. A ve r a ge   s pe e d a in te r s e c ti on w it h di f f e r e nt  s tr a te gy,  ( a )   w it hout  opt im iz a ti on,  ( b)   us in g D R L  a ge nt   tr a in e d w it hout  noi s e  pe r tu r ba ti on, a nd  ( c )   us in g D R L  a ge nt  t r a in e d w it h nois e  pe r tu r ba ti on       4.   C O N C L U S I O N   T hi s   s tu dy  e f f e c ti ve ly   us e th e   D Q N   a lg or it hm   in   c onj unc ti on   w it D R L   to   opt im iz e   tr a f f ic   s ig na l   ti m e   a th e   P a m e li s a in te r s e c ti on  w it unba la nc e d   tr a f f ic   f lo w V e hi c le   w a it in ti m e   w a s   s ig ni f ic a nt ly   r e duc e d,  a c c or di ng  to   e xpe r im e nt a d a ta W it th e   D R L  a ge nt   t r a in e w it hout   noi s e ,   th e   a v e r a ge   w a it in ti m e   dr oppe f r om   594.49  s e c onds   in   th e   ba s e li ne   s ta ti c   tr a f f ic   s ig na s ys te m   to   a s   lo w   a s   169.44  s e c ond s a nd   w it th e   D R L   a ge nt   tr a in e w it noi s e it   dr oppe to   173. 10  s e c ond s T h e s e   e nha nc e m e nt s   s how   th a t   in te r s e c ti on  e f f ic ie nc is   e f f ic ie nt ly   opt im iz e by  bot noi s e - tr a in e a nd  noi s e - f r e e   D R L   a ge nt s w it th e   noi s e - tr a in e a ge nt   de m ons tr a ti ng  s upe r io r   r obus tn e s s   in   noi s e nvi r onm e nt s F ur th e r m o r e th e   a ve r a ge   ve hi c le   s p e e ( a bout   5.6 5.97   m /s )   s ta ye c ons ta nt   a c r os s   s i tu a ti ons de m ons tr a ti ng  th a t   th e   opt im iz a ti on   e nha nc e tr a f f ic   f lo w   w it hout   s a c r if ic in s m oot hne s s   or   s a f e ty .   T he s e   f in di ngs   de m ons tr a te   how   D R L - ba s e s ys te m s   h a ve   th e   a bi li ty   to   c om pl e te ly   tr a ns f or m   a da pt iv e   t r a f f ic   c ont r ol   in   in tr ic a te   a nd  e ve r - c ha ngi ng  m e tr opol it a s e tt in gs B us in D R L - ba s e D Q N th e   in te r s e c ti on  e f f ic ie nc is   s ig ni f ic a nt ly   im pr ove d,  de m ons tr a ti ng t he  pot e nt ia f or  i m pl e m e nt a ti on i n r e a l - w or ld  s c e na r io s .       F U N D I N G  I N F O R M A T I O N   T he   F a c ul ty   of   E ngi ne e r in a U da ya na   U ni ve r s it a nd  th e   I n s ti tu te   f or   R e s e a r c a nd  C om m uni ty   S e r vi c e  U da ya na  U ni ve r s it y f undi ng t hi s  w or k w it h gr a nt  numbe r  B /2 55.3/UN14.4.A /P T .01.03/2024.   M e a n   :   5.629757273 0 2 4 6 8 10 12 14 16 18 0 481 962 1443 1924 2405 2886 3367 3848 4329 4810 5291 5772 6253 6734 A v e r a g e   s pe e ( m /s ) S i m u l a t i on   t i m e   s t e ( s ) A v e r a g e   s pe e on   s t a t i c   t r a f f i c   l i g h t   ( w i t h ou t   a g e n t   opt i m i z a t i on ) M e a n   :   5.649423594 0 2 4 6 8 10 12 0 485 970 1455 1940 2425 2910 3395 3880 4365 4850 5335 5820 6305 6790 A v e r a g e   s pe e ( m / s ) S i m u l a t i on   t i m e   s t e ( s ) A v e r a g e   s pe e on   t r a f f i c   l i g h t   u s i n g   a g e n t   t r a i n e w i t h ou t   n oi s e   pe r t u r ba r t i on M ea n   :   5 .9 7 0 6 9 8 2 3 9 0 2 4 6 8 10 12 14 0 555 1 1 1 0 1 6 6 5 2 2 2 0 2 7 7 5 3 3 3 0 3 8 8 5 4 4 4 0 4 9 9 5 5 5 5 0 6 1 0 5 6 6 6 0 A v er a ge  s p ee d   ( m / s ) S i m u l a t i o n   t i m s t ep   ( s ) A v er a ge  s p ee d   o n   t r a f f i c   l i gh t   u s i n a gen t   t r a i n ed   w i t h   n o i s p er t u r b a r t i o n Evaluation Warning : The document was created with Spire.PDF for Python.