I AE S In t er na t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.  1 5 ,   No .   1 ,   Feb r u ar y   2 0 2 6 ,   p p .   766 ~ 779   I SS N:  2 2 5 2 - 8 9 3 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijai.v 15 .i 1 . p p 7 6 6 - 7 7 9           766       J o ur na l ho m ep a g e h ttp : //ij a i . ia esco r e. co m   Im pro v ing  ef ficie ncy  of autism   det ection ba sed o n  f a cia l ima g la ndma rks       Ng uy en  T ro ng   T un g 1, 2 ,   Ng o   Duc  Vinh 3 ,   H a   M a n h T o a n 4 ,   Do   Na ng   T o a n 4   1 F a c u l t y   o f   I n f o r m a t i o n   T e c h n o l o g y ,   H o   C h i   M i n h   C i t y   O p e n   U n i v e r si t y ,   H o   C h i   M i n h   C i t y ,   V i e t n a m   2 F a c u l t y   o f   I n f o r m a t i o n   T e c h n o l o g y ,   D o n g   A   U n i v e r s i t y ,   D a   N a n g   C i t y ,   V i e t n a m   3 F a c u l t y   o f   I n f o r m a t i o n   T e c h n o l o g y ,   H a n o i   U n i v e r s i t y   o f   I n d u st r y ,   H a n o i ,   V i e t n a m   4 I n st i t u t e   o f   I n f o r ma t i o n   Te c h n o l o g y ,   V i e t n a m   A c a d e my   o f   S c i e n c e   a n d   Te c h n o l o g y ,   H a n o i ,   V i e t n a m       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   J u n   1 1 ,   2 0 2 5   R ev is ed   No v   4 ,   2 0 2 5   Acc ep ted   J an   1 0 ,   2 0 2 6       Au ti sm   is  a   se rio u m e n tal  h e a lt h   p r o b lem   with   lo n g - term   e ffe c ts  o n   li fe .   Th e re fo re ,   e a rly   d iag n o sis  is  a   to p ica iss u e   fo r   e ffe c ti v e   trea tme n t.   T h is   stu d y   p r o p o se s   a   n o v e fa c i a lan d m a rk   tran sf o rm a ti o n - b a se d   d a ta   a u g m e n tatio n   m e th o d   th a a ll o ws   fo th e   g e n e ra ti o n   o g e o m e tri c   tran sfo rm a ti o n re late d   to   fa c ial  g e o m e try .   Th is  m e th o d   in c re a se th e   g e n e ra li z a b il it y   a n d   p r o v i d e a   p e rsp e c ti v e   o n   t h e   ro le  o fa c ial  r e g io n in   a u ti sm   d e tec ti o n .   T h e   p r o p o se d   a u g m e n tati o n   m e th o d   e n su re t h e   g e n e ra ti o n   o v a rian ts  t h a a re   c o n siste n wit h   th e   fa c ial  ima g e   stru c tu re   a n d   t h e   n a tu re   o t h e   fa c ial  ima g e .   Ne x t ,   c o n d u c a   c o m p re h e n siv e   a n d   c o m p a ra ti v e   st u d y   with   Eff icie n tNe t - B0 ,   Eff icie n tN e t - B4 ,   Re sN e t - 1 8 ,   Re sN e t - 5 0 ,   Re sN e t - 1 0 1 ,   M o b i leN e t - V2 ,   De n se Ne t - 1 2 1   a n d   De n se Ne t - 2 0 1 .   A lso   a n a l y z e   th e   m o d e l' s   a tt e n ti o n   o v e t h e   m a in   re g io n o t h e   fa c e   th a t   a re   re late d   to   fa c ial  lan d m a rk s.  T h e   re su lt c lea rly   sh o th a t h e   m o d e ls  train e d   with   th e   p ro p o se d   m e th o d   o u t p e rfo rm   t h e   d e fa u lt   a u g m e n tati o n   m e th o d .   S p e c ifi c a ll y ,   wh e n   a v e ra g in g   t h e   m e a su re a c ro ss   th e   tes ted   m o d e ls,  t h e   re su lt a re   0 . 9 0 5 4 1 7   fo a c c u ra c y ,   0 . 9 6 2 1 3 3   fo a re a   u n d e t h e   c u rv e   ( AUC ) ,   0 . 9 1 9 8   fo r   p re c isio n ,   0 . 8 8 8 3 3 3   fo r   re c a ll ,   a n d   0 . 9 0 3 6 7 8   f o F 1 - sc o re .   F u r th e rm o re ,   wh e n   a n a ly z i n g   t h e   g ra d ien t - w e ig h ted   c las a c ti v a ti o n   m a p p i n g   (G ra d - CAM)   h e a tma p s,  th e   h i g h - v a lu e   r e g io n s a re   c lea rly   c o n c e n trate d   o n   th e   m a in   a re a s o th e   fa c e .   S o u rc e   c o d e   is  p u b li s h e d   o n   G it L a b   p latfo rm .   K ey w o r d s :   Au tis m   d etec tio n   Dee p   lear n in g   Facial  au g m en tatio n   Facial  ch ild   im ag e   Facial  lan d m ar k   Hea tm ap   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Do   Nan g   T o a n   I n s titu te  o f   I n f o r m atio n   T ec h n o lo g y ,   Vietn a m   Aca d em y   o f   S cien ce   an d   T ec h n o lo g y   Han o i,  Vietn am     E m ail:  d n to an @ io it.a c. v n       1.   I NT RO D UCT I O N   On o f   th im p o r tan t   p r o b le m s   af f ec tin g   n eu r o d ev el o p m e n is   au tis m   s p ec tr u m   d is o r d er   ( ASD) ,   wh ich   is   r elate d   to   ab n o r m al ities   in   th d ev elo p m en o f   t h b r ain   an d   h as  v is u al  i m p ac o n   p h y s ical   ch ar ac ter is tics   an d   f ac ial  ex p r ess io n s   [ 1 ] .   Sig n s   o f   au tis m   ca n   ap p ea r   i n   m an y   d if f e r en t sit u atio n s   in   th life   o f   th af f ec ted   p er s o n .   Au tis m   is   o f ten   ex p r ess ed   in   m an y   d if f er en ch ar ac ter is tics ,   s u ch   as  r ep etitiv b eh av io r s   an d   a   lack   o f   s o cial   co m m u n i ca tio n   [ 2 ] .   T h is   p h e n o m e n o n ,   wh en   ap p ea r in g   f o r   a   lo n g   tim e,   will  h av e   s er io u s   im p ac ts   o n   th liv es o f   au tis tic  p eo p le  as we ll a s   th o s ar o u n d   th em .   Su lk es  [ 3 ]   h as  s h o wn   th at  th r is k   o f   h av in g   a n o th er   c h ild   with   au tis m   is   ab o u 3 - 1 0 f o r   p ar en t s   wh o   alr ea d y   h av e   c h ild   wit h   au tis m .   I n   th e   Un ited   States ,   it  is   esti m ated   t h at  1   in   5 9   c h ild r en   ag ed   8   an d   o ld er   h as  au tis m   [ 4 ] .   I n   ad d i tio n ,   th W o r ld   Hea lth   Or g a n izatio n   h as  p u b lis h ed   alar m in g   f ig u r es  o n   th e   p r ev alen ce   o f   au tis m .   Sp ec if ically ,   ac co r d in g   to   r ep o r [ 5 ] ,   wh en   co n d u ctin g   s tatis tics   o n   1 6 o f   c h ild r e n   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       I mp r o vin g   efficien cy   o a u tis d etec tio n   b a s ed   o n   f a cia l ima g la n d ma r ks   ( N g u ye n   Tr o n g   Tu n g )   767   g lo b ally ,   0 . 6 7 o f   th e m   h a v e   au tis m .   T h Vietn am ese  g o v er n m en a n d   c o m m u n ity   h a v e   b ee n   c o n tr ib u tin g   s ev er al  attem p ts   to   d ea with   au tis m .   On ca s is   th ef f o r r elatin g   to   w o r ld   a u tis m   awa r en ess   d ay   o f   t h e   Min is tr y   o f   L ab o r ,   I n v alid s   an d   So cial  Af f air s   [ 6 ] .   T h is   ac tiv ity   h elp s   th co m m u n ity   u n d er s tan d   an d   s u p p o r t   au tis tic  ch ild r en .   T o   d etec a u tis m   in   ch ild r en ,   an   ef f ec tiv e   ap p r o ac h   is   to   u s d ee p   lear n i n g   m o d els.  On   t h o n h a n d ,   tr a d itio n al  d iag n o s is   with   b eh av io r al  ass ess m en is   tim e - co n s u m in g   an d   r eq u i r es  ca r ef u l   o b s er v atio n   b y   ex p e r ts .   E f f ec t iv ass es s m en ts   will  r eq u ir ex p er ts   with   m an y   y ea r s   o f   ex p er ien ce   an d   en o u g h   tim to   o b s er v e   ch ild r e n ,   n o t   t o   m en ti o n   t h at  s u ch   ev al u atio n s   will  b s u b jectiv e.   O n   th e   o th er   h an d ,   th e   u s o f   d ee p   lear n in g   ap p r o ac h es  h as  b ee n   d em o n s tr ated   in   m an y   s tu d ies  an d   im p lem e n tatio n s   f o r   im ag e   r ec o g n itio n   p r o b lem s   in   th m ed ical  f ield .   I n   p r ac tice,   th a p p licatio n   o f   d ee p   lear n in g   m et h o d s   will  b way   to   s cr ee n   q u ic k ly ,   o b jectiv ely ,   an d   ea s ily   ex p a n d .   R ec o g n izin g   a u tis m   f r o m   f ac i al  im ag es  is   co m p lex   p atter n   r ec o g n itio n   task   in v o lv in g   s u b tle  f ac ial   cu es.  T h at  is   b ec au s th f ac i al  ex p r ess io n s   o f   au tis tic  ch il d r en   ar n o alwa y s   o b v io u s .   T h ey   ca n   ap p ea r   in   s m all  ch an g es in   ey g az e,   f ac ial  ex p r ess io n ,   o r   th co r r elati o n   b etwe en   f ac ial  f ea tu r es.  T h is   r eq u ir es a r tific ial   in tellig en ce   m o d els  to   b ab le  to   ex p lo it  d ee p   f ea tu r es  in s tead   o f   r ely in g   s o lely   o n   s u r f ac v is u al  cu es.  I n   ad d itio n ,   ar tific ial  in tellig en ce   m o d els  n ee d   to   m ee s ev er al  im p o r tan r eq u ir em e n ts   in   th m ed ical  co n tex t.   T h f ir s is   g e n er aliza b ilit y .   Acc o r d in g ly ,   th e   m o d el   m u s t   n o o n ly   p er f o r m   well  o n   tr ain in g   d ata   b u t   also   m ain tain   ac ce p tab le  p er f o r m an ce   wh en   ap p lied   to   n ew   d ata  f r o m   d if f er e n s o u r ce s .   T h s ec o n d   i s   in ter p r etab ilit y .   Sp ec if ically ,   p r ed ictio n s   m u s b ac co m p a n ied   b y   clea r   e x p lan atio n s ,   s u ch   as  h ea m ap s   d ep ictin g   atten tio n   to   h el p   d o cto r s   u n d er s tan d   wh ich   r eg io n s   o f   th im ag th m o d el  f o c u s es  o n .   T h th ir d   is   d ata - ef f icien cy .   Sin ce   m ed ical   d ata,   esp ec ially   d ata  o n   ch ild r en   with   au tis m ,   ar o f ten   s ca r ce   an d   d if f icu lt  to   co llect,   th m o d el   m u s lear n   well  ev en   with   lim ited   n u m b er   o f   tr ai n in g   s am p les.  T h is   ca n   b e   d o n t h r o u g h   tr an s f er   lear n in g ,   au g m en tatio n ,   o r   s em i - s u p e r v is ed   lear n i n g .   T o   ex tr ac t   r ich e r   f ea t u r es  f r o m   lim ited   d ata,   o t h er   a p p r o ac h es  b esid es  tr ad itio n al   tr an s f e r   lear n in g   ca n   also   h elp   ex p lo it  th lim ited   d ata  m o r e f f ec tiv ely   in   m ed ical  ap p licatio n s .   On ex am p le  is   m u lti - lay e r   f in e - tu n in g ,   wh ic h   h elp s   c o n v o lu tio n al  n e u r al  n etwo r k   ( C NN)   m o d els  lear n   f ea tu r es  t h at  ar m o r e   s u ited   to   s u b tle  f ac ial  cu es.  An o th er   e x am p le  is   m u lti - task   lear n in g ,   wh ich   allo ws  th e   co m b i n atio n   o f   r elate d   task s ,   s u ch   as  lan d m ar k   l o ca lizatio n   o r   e m o tio n   p r ed ictio n ,   t o   s h ar co m m o n   r ep r esen tatio n .   I n   a d d itio n ,     s elf - s u p er v is ed   lear n in g   lev e r ag es  u n lab eled   d ata  to   lear n   f ac ial  s tr u ctu r es  b ef o r cl ass if icatio n .   T h ese   s tr ateg ies p r o m is to   p r o v id m o r ef f ec tiv e   f ea tu r es f o r   au t is m   r ec o g n itio n .   T h to p ic  o f   a u tis m   d iag n o s is   h as  attr ac ted   th atten tio n   o f   m an y   r esear ch e r s   in   th f ield   o f   ar tific ial   in tellig en ce .   I n   2 0 2 2 ,   s tu d y   ev alu atin g   ey b eh av io r s   was p er f o r m ed   in   [ 7 ]   f o r   au tis m   d i ag n o s is .   T h s tu d ies   wer p er f o r m ed   with   th e   co n s tr u ctio n   o f   v ar io u s   task s ,   with   p ath   co m p u tatio n   a n d   r ec o g n itio n   m o d el  d esig n .   Var io u s   tech n iq u es  wer e   test ed   s u ch   as  R es N et1 8   an d   i n ce p tio n   C NN   as  well  as  im ag tr an s f o r m atio n   tech n iq u es  with   g r a y   lev el   co - o cc u r r e n ce   m atr i x   a n d   lo ca b in ar y   p atter n   ( L B P) .   A   s tu d y   o n   a u tis m   d etec tio n   on  m a g n etic  r eso n an ce   im ag i n g   ( MRI )   d ata   was  p r esen ted   by  Hein s f eld   et  a l.   [ 8 ] .   T h e   a u th o r s   p r esen ted   an   ar ch itectu r co n s is tin g   o f   two   co n v o lu tio n al  e n co d e r s   an d   t ested   it  m u ltip le  tim es  u s in g   cr o s s - v alid atio n .   I n   2 0 2 3 ,   Far o o q   et  a l .   [ 9 ]   p u b lis h ed   th eir   wo r k   ab o u au tis tic  d iag n o s is   with   f ed er ated   lear n in g   m eth o d .   T h e y   co m b in ed   s u p p o r v ec to r   m a ch in ( SVM)   an d   lo g is tic  r e g r ess io n   ( L R )   to   ex p er im en o n   tab u la r   d ata  an d   r ea ch ed   0 . 9 8   ac c u r ac y .   An   au t is tic  class if ica tio n   s tu d y   was  p u b lis h ed   [ 1 0 ] .   T h e   au t h o r s   u s ed   f r am ewo r k   f o r   ev alu atin g   8   m ac h in e   lear n in g   alg o r ith m s .   T h r esu lts   wer p er f o r m ed   o n   f o u r   au tis tic  d atasets ,   in clu d in g   to d d ler s ,   ad o lescen ts ,   ch ild r e n ,   an d   ad u lts ,   an d   ev alu ate d   with   v ar i o u s   s tatis tical  ev alu atio n   m ea s u r es.  I n   2 0 2 2 ,   Kar r i   et   a l .   [ 1 1 ]   p r esen ted   wo r k   u s in g   f ac ial  im a g es.  T h eir   wo r k   u s ed   Den s e Net  f o r   id en tif y in g   ASD   an d   was  test ed   o n   a   f ac d ata s et  o n   th e   Kag g le  p latf o r m .   T h ey   also   b u ilt  a   s im p le  web   to o to   s u p p o r t h m ed ical  f ac ilit ies .   I n   2 0 2 3 ,   G h az al  et  a l.   [ 1 2 ]   p r esen ted   r esear ch   o n   d esig n in g   C NN   th at  was  in s p ir ed   b y   Alex N et  ar ch itectu r e.   T h ey   u s ed   in p u as  f ac ial  im ag d ata  a n d   tr ied   to   ex tr ac f ac ial  f ea tu r es  ef f ec tiv ely .   T h au th o r s   ac h iev e d   8 7 . 6 % v alid a tio n   s en s itiv ity ,   8 7 . 6 % v alid ati o n   s p ec if icity ,   an d   8 7 . 7 % v ali d atio n   ac cu r ac y .     I n   2 0 2 3 ,   L et  a l .   [ 1 3 ]   co n d u c ted   s tu d y   u s in g   Mo b ileNetv 3 - L ar g an d   Mo b ileNet - V2   to   d iag n o s e   au tis m   b ased   o n   f ac ial  c h ild   im ag es.  T h a u th o r s   d esi g n ed   f r am ewo r k   u s in g   t r a n s f er   lear n in g   an d   in teg r atin g   d if f er e n class if ier s .   I n   r esu lts ,   th eir   wo r k   ac h ie v ed   8 7 . 6 7 ac cu r ac y   e v alu atin g   Mo b ileNet - V3 - L ar g an d   8 8 . 3 3 ac c u r ac y   e v alu atin g   Mo b ileNet - V2 .   I n   2 0 2 4 ,   A h m ad   et  a l.   [ 1 4 ]   p r esen ted   s tu d y   t o   d etec t   au tis m   f r o m   f ac ial  im a g es  u s in g   m an y   m o d els  as  v is u al  g eo m etr y   g r o u p   ( VGG ) 1 6 ,   VGG1 9 ,   Mo b ileNet - V2 ,   Alex N et,   R esNe t - 3 4 ,   an d   R esNet5 0 .   T h ey   u s ed   ap p r o x im at ely   2   h o u r s   f o r   tr ain in g   a n d   n ea r ly   3   m in u tes  f o r   test in g .   T h ey   e v alu ated   s ev er a r eso lu tio n s   o f   th i n p u im a g an d   ac h iev ed   th h ig h est  ac c u r ac y   o f   0 . 8 6   with   2 4 8 ×2 4 8 .   I n   2 0 2 4 ,   R ed d y   a n d   An d r ew   [ 1 5 ]   c o n d u cted   a   d ee p   lear n in g   s tu d y   to   class if y   au tis m .   W ith   tr an s f er   lear n in g   ap p r o ac h ,   th r ee   p r et r ain ed   m o d els,   in clu d in g   E f f icien t N etB 0 ,   VGG1 6 ,   an d   VGG1 9 ,   wer e   ex p er im en ted   with .   I n   th e   r esu lts ,   th au th o r s   r ea ch e d   th h ig h est  ac cu r ac y   is   0 . 8 7 9   f o r   th E f f icien t N etB 0   m o d el  i n   th eir   ex p er im en t.   A   co m p a r ativ tab le   s u m m a r izin g   e x is tin g   m eth o d s ,   d at asets ,   au g m en tatio n   s tr ateg ies,  an d   p er f o r m an ce   m etr ics  is   p r esen ted   in   T ab le  1 .       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J  Ar tif   I n tell Vo l.  1 5 ,   No .   1 ,   Feb r u ar y   2 0 2 6 :   766 - 7 7 9   768   T ab le  1 .   T h co m p ar ativ tab l s u m m ar izin g   e x is tin g   s tu d ies   S t u d y   M e t h o d / t e c h n i q u e   D a t a s e t s   A u g m e n t a t i o n   P e r f o r ma n c e   me t r i c s   A h me d   e t   a l .   [ 7 ] 2 0 2 2   LB P ,   g r e y   l e v e l   c o - o c c u r r e n c e   m a t r i x ,   S V M ,   G o o g l e - N e t ,   R e sN e t - 18   F i g s h a r e   d a t a   ( e y e - t r a c k i n g   sc a n   p a t h s)   F l i p p i n g ,   mu l t i - a n g l e   r o t a t i o n ,   d i s p l a c e me n t ,   a n d   s h e a r i n g   M o s t   o f   t h e   a c c u r a c y ,   p r e c i si o n ,   s e n s i t i v i t y ,   sp e c i f i c i t y ,   a n d   A U C   a r e   mo r e   t h a n   0 . 9 3   H e i n s f e l d   e t   a l .   [ 8 ] 2 0 1 8   Tw o   s t a c k e d   d e n o i s i n g   a u t o e n c o d e r s ,   m u l t i l a y e r   p e r c e p t r o n   A u t i sm  b r a i n   i ma g i n g   d a t a   e x c h a n g e   ( A B I D E )   N o t   s p e c i f i e d   A c c u r a c y ,   s e n s i t i v i t y ,   a n d   s p e c i f i c i t y   a r e   a r o u n d   0 . 7   F a r o o q   e t   a l .   [ 9 ] 2 0 2 3   F e d e r a t e d   l e a r n i n g ,   LR S V M   F o u r   d a t a s e t s   a c c o r d i n g   t o   t h e   q u a n t i t a t i v e   c h e c k l i s t   f o r   a u t i sm  i n   c h i l d r e n   N o t   s p e c i f i e d   A c c u r a c y   f o r   c h i l d r e n   i a r o u n d   0 . 9 8 ,   a n d   a c c u r a c y   f o r   a d u l t i a r o u n d   0 . 8   H a san   e t   a l [ 1 0 ] 2 0 2 3   A d a B o o st ,   r a n d o m   f o r e st ,   d e c i si o n   t r e e ,   k - n e a r e st   n e i g h b o r s,  g a u ssi a n   n a i v e   B a y e s,  LR S V M ,   a n d   l i n e a r   d i s c r i mi n a n t   a n a l y si s   F o u r   d a t a s e t s   f r o K a g g l e   a n d   U C I   M LA   N o t   s p e c i f i e d   M o s t   o f   t h e   a c c u r a c y ,   p r e c i s i o n ,   r e c a l l ,   F 1 - s c o r e ,   a n d   A U C   a r e   m o r e   t h a n   0 . 9 6   Li   e t   a l .   [ 1 3 ] 2 0 2 3   M o b i l e N e t V 2   a n d   M o b i l e N e t v 3 - La r g e   A   d a t a s e t   f r o K a g g l e   N o t   s p e c i f i e d   M o s t   o f   t h e   a c c u r a c y ,   sen s i t i v i t y ,   sp e c i f i c i t y ,   a n d   A U C   a r e   mo r e   t h a n   0 . 9 0   A h m a d   e t   a l .   [ 1 4 ] 2 0 2 4   R e sN e t 3 4 ,   R e sN e t 5 0 ,   A l e x N e t ,   M o b i l e N e t V 2 ,   V G G 1 6 ,   a n d   V G G 1 9   A   d a t a s e t   f r o K a g g l e   F l i p p i n g   B e st   a c c u r a c y   i 0 . 9 2   i n   t h e   c a se  o f   R e sN e t 5 0   R e d d y   a n d   A n d r e w   [ 1 5 ] 2 0 2 4   V G G 1 6 ,   V G G 1 9   a n d ,   Ef f i c i e n t N e t B 0   A   d a t a s e t   f r o K a g g l e   R o t a t i n g ,   h o r i z o n t a l   f l i p p i n g ,   z o o m i n g ,   a n d   h e i g h t   a n d   w i d t h   s h i f t i n g   A c c u r a c i e a r e   a r o u n d   0 . 8 7 ,   a n d   A U C s   a r e   a r o u n d   0 . 9 3       Ou r   r esear ch   is   a b o u t   d iag n o s in g   au tis m   in   c h ild r en   with   d ee p   lear n in g   ap p r o ac h .   T h is   wo r k   a r e   in ter ested   in   u s in g   c h ild r en ' s   f ac ial  im ag d ata  b y   ex p lo itin g   f ac ial  ex p r ess io n   c h ar ac ter is tics .   I is   k n o wn   t h at   o n o f   th e   ch ar ac ter is tics   o f   au tis m   is   ab n o r m al   f ac ial  ex p r ess io n s   in   ch ild r e n ,   s u c h   as   ab n o r m al  s ig n s   o f   f ac ial  asy m m etr y   o r   ab n o r m a f ac ial  d e v elo p m e n d u t o   t h in f l u en ce   o f   n eu r o lo g ical   d ev elo p m e n t.  B ased   o n   th ese  o b s er v atio n s ,   th is   s tu d y   f o cu s es   o n   u s in g   an d   a n aly zin g   la n d m ar k s   o n   ch ild r en ' s   f ac es  in   o u r   r esear ch   u s in g   d ee p   lear n i n g   m o d els f o r   d iag n o s in g   au tis m .   M o r e   s p e ci f i c al l y ,   t o   e n h a n c e   th e   d i v e r s it y   o f   d at a   as   w e l l a s   th e   p e r f o r m a n c e   o f   d e e p   l e a r n i n g   m o d e l s ,   a n   a u g m e n t a t i o n   t e c h n i q u e   u s i n g   f a c i a l   la n d m a r k s   is   p r o p o s e d .   O u r   a u g m e n t a t i o n   d i f f er s   f r o m   g e o m e t r i c   t r a n s f o r m a t i o n s   i n   s e m a n t i cs   in   t h i s   p r o b l e m .   W h i le   c o n v e n ti o n a l   g e o m e t r ic   t r a n s f o r m a t i o n s ,   s u c h   as   r o t at i o n ,   t r a n s l at i o n ,   s c a l i n g ,   o r   a f f i n e ,   o n l y   g l o b a l l y   a f f e ct   t h e   e n t ir e   f a c e   a n d   p r e s e r v e   t h e   o v er a l l   m o r p h o l o g i c a s t r u c t u r e ,   o u r   a u g m e n t a t i o n   f o c u s e s   o n   l o c a l l y   s h i f t i n g   l a n d m a r k s   o n   t h e   f a c e   a n d   w a r p i n g   t h e   i m a g e .   T h i s   a p p r o a c h   a l l o w s   f o r   m o r e   s o p h i s t ic a t e d   d e f o r m a t i o n s   t h a t   a cc o m m o d a t e   s m a ll   c h a n g e s   i n   f a c i a l   e x p r es s i o n   a n d   g e o m e t r i c   s t r u c t u r e .   As   a   r es u l t ,   t h e   m o d e l   ca n   l e a r n   f e a t u r e s   m o r e   e f f e c ti v e l y   t h an   g l o b a l   g e o m e t r i c   t r a n s f o r m a t i o n s   i n   t h e   p r o b l e m   o f   a u t i s m   r e c o g n i t i o n   f r o m   f a c i a l   i m a g es .   I n   p r e v i o u s   s t u d i es ,   f a c i a l   l a n d m a r k s   h a v e   a l s o   b e e n   a p p l i e d   t o   e x p r e s s i o n   a n a l y s is   o r   t o   s u p p o r t   m o r p h o l o g i c a l   m o d e l i n g ,   s u c h   a s   i n   [ 1 6 ]   f o r   d i s e n t a n g li n g   e x p r e s s i o n   a n d   id e n t i t y ,   o r   [ 1 7 ]   f o r   d i a g n o s i n g   m a n d i b u l a r   d e f o r m i t y .   H o w e v e r ,   i n   t e r m s   o f   i m a g a u g m e n t a t i o n ,   c o n v e n t i o n a l   i m a g e   a u g m e n t a t i o n   m et h o d s   s u ch   a s   r o t at i o n ,   f l i p ,   a n d   a f f i n e   t r a n s f o r m a t i o n   h a r d l y   u t i l i z e   l a n d m a r k s ,   l e a d i n g   t o   a   l a c k   o f   c o n n e c t i o n   w i t h   t h e   b io l o g i c a l   s t r u c t u r e   o f   t h e   f a c e .   T h i s   e m p h a s i z e s   t h n o v e l t y   o f   o u r   s t u d y   i n   e x p l o i t i n g   l a n d m a r k   d i s p l a c e m e n t   a s   a n   a u g m e n t a t i o n   t e c h n i q u e ,   w h i c h   b o t h   g e n e r a t e s   d i v e r s e   d a t a   a n d   p r es e r v e s   t h e   s e m a n t ic s   o f   f a c ia l   s t r u c t u r es   r e l a t e d   t o   e x p r es s i o n s   i n   a u ti s ti c h i l d r e n .   I n   ad d itio n ,   to   o b tain   an   o b j ec tiv an d   co m p r eh e n s iv ev alu atio n ,   co m p ar ativ ex p er i m en ts   ar co n d u cte d   b etwe en   d if f er e n t w ell - k n o wn   m o d els.  T h ese  ex p er im en ts   an aly ze   th ac cu r ac y   as we ll a s   ev alu ate   th ab ilit y   to   d ep l o y   a n d   e x p a n d .   An o th er   is s u o f   c o n ce r n   i s   to   ev alu ate  t h r e g io n s   o f   in t er est  o f   th e   m o d els  o n   th i n p u im a g u s in g   th g r ad ien t - weig h ted   class   ac tiv atio n   m ap p i n g   ( Gr ad - C AM )   te ch n iq u i n   r elatio n   to   m ea n in g f u l   r eg i o n s   o n   th e   f ac ial  im ag e.   T h is   way   ca n   ex p lo it  th e   r elatio n s h ip   b etwe en   th m o d el' s   au tis m   r ec o g n itio n   an d   th f ea tu r lo ca tio n s   o n   th f ac ial  im ag e.   T h is   will  b c lear   ev id en ce   o f   th r o le  o f   f ac ial  ex p r ess io n   f ea tu r es  in   au tis m   r ec o g n itio n   an d   will  b an   i m p o r tan b asis   f o r   f u r th e r   r esear ch .   I n   d etail,   o u r   m ain   co n tr ib u tio n s   in clu d e:    i)   Pro p o s n o v el  f ac ial  im ag au g m en tatio n   tec h n iq u b ased   o n   d is p lacin g   f ac ial  lan d m ar k s   to   im p r o v e   th p er f o r m an ce   o f   d ee p   lear n i n g   m o d els.   ii)   C o m p r eh en s iv ely   e v alu ate  a n d   clar if y   o u r   h y p o th esis   b y   co n d u ctin g   c o m p ar ativ e   s tu d y   with   E f f icien tNet - B 0 ,   E f f icien tNet - B 4 ,   R esNet - 1 8 ,   R e s Net - 5 0 ,   R esNet - 1 0 1 ,   Mo b ileNet - V2 ,   Den s eNe t - 1 2 1 ,   an d   Den s eNe t - 2 0 1 .   iii)   An aly ze   th in ter p r etab ilit y   o f   m o d els b y   v is u alizin g   m o d el  atten tio n   with   Gr ad - C AM .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       I mp r o vin g   efficien cy   o a u tis d etec tio n   b a s ed   o n   f a cia l ima g la n d ma r ks   ( N g u ye n   Tr o n g   Tu n g )   769   2.   M E T H O D   T h is   s ec tio n   will  p r esen th e   s p ec if ic  co n te n ts   p r o p o s ed   in   o u r   r esear ch .   B asically ,   f ac ial  i m ag d ata   will  b au g m e n ted   with   a   f o cu s   o n   f ac ial  im ag e   au g m en tatio n   tech n iq u es  b ased   o n   f ac ial  lan d m ar k   d is p lace m en an d   f ac ial  im a g war p i n g .   B esid es,  th f a m o u s   d ee p   lear n in g   m o d els  ar e   p r esen ted   f o r   co m p r eh e n s iv a n d   co m p a r ativ test in g .   T o   clar if y   th eir   ef f ec tiv en ess ,   ex p er im en ts   w ith   th r ee   d if f e r en t   au g m en tatio n   s tr ateg ies  ar p r o p o s ed ,   a n d   th p r ed ictio n   r esu lts   ar an aly ze d   in   r elatio n   to   f ac ial  r eg io n s   u s in g   th Gr ad - C AM   tech n iq u [ 1 8 ] .     2 . 1 .     Aut is m   s pect rum   dis o rder   det ec t io n da t a s et   T h is   s tu d y   co n d u cts   ex p er im e n ts   u s in g   ch ild   f ac im a g d ataset  p u b lis h ed   o n   th Ka g g l p latf o r m   at  h ttp s ://www. k ag g le. co m .   T h er ar to tal  o f   2 , 9 3 6   ch ild   f a ce   im ag es in   th is   d ataset  an d   th ey   ar d iv i d ed   in to   two   g r o u p s ,   in clu d in g   au tis tic  an d   n o n - au tis tic.   Mo r s p ec if i ca lly ,   th n u m b er   o f   im ag es o f   au tis tic  ch ild r en   is   1 , 4 6 8   im a g es  an d   th n u m b er   o f   im ag es  o f   n o n - au tis tic  ch ild r en   is   1 , 4 6 8   im a g es.  T h is   d ataset  was   alr ea d y   s p lit  in to   th r ee   s u b s ets  a s   th e   tr ain   s et,   th v alid atio n   s et,   an d   th test   s et.   I n   d etail,   th e   tr ain   s et  in clu d es    1 , 2 6 8   im a g es  o f   n o n - au tis tic  ch ild r en   an d   1 , 2 6 8   im ag es  o f   au tis tic  ch ild r en .   T h v alid atio n   s et  in clu d es  5 0   im ag es  o f   n o n - au tis tic  ch ild r e n   an d   5 0   im ag es  o f   au tis tic  ch ild r en .   T h test   s et  in clu d es  1 5 0   im ag es  o f   n o n - au tis tic  ch ild r en   an d   1 5 0   im ag es o f   au tis tic  ch ild r en .       2 . 2 .     P r o po s ed  f a cia l ima g a ug m ent a t io n   Fo r   tr ain in g   d ee p   lear n in g   m o d els,  d ata   au g m en tatio n   p lay s   an   im p o r tan t   r o le   in   d ea lin g   with   d at a   s ca r city .   Def au lt  im a g au g m en tatio n   m et h o d s   o f ten   in c lu d o p er atio n s   s u c h   as  f lip p in g ,   r o tatin g ,   an d   r an d o m   cr o p p i n g .   T h ese  tech n iq u es  p lay   an   im p o r tan r o le  in   en h an cin g   th g en e r aliza tio n   ab ilit y   o f   d ee p   lear n in g   m o d els.  Ho wev e r ,   f o r   f ac ial  im a g d ata,   d ef a u lt  m eth o d s   d o   n o tak a d v an ta g o f   th s tr u ctu r al   f ea tu r es  o f   th e   f ac e.   T h is   s tu d y   p r o p o s es   to   au g m en t   f a cial  im ag d ata  b ased   o n   m an ip u latin g   f ac ial  lan d m ar k s   an d ,   o n   th at  b asis ,   g en er ate  n ew  f ac ial  im ag d ata,   wh ich   is   d escr ib ed   in   Alg o r ith m   1 .   T h is   m eth o d   h elp s   to   cr ea te   f ac ial  im ag e   v ar iatio n s   b ased   o n   th e   s tr u ctu r o f   f ac ial  im ag e   d ata.   T h u s ,   it  cr ea tes  n ew  d at a   s am p les th at  ar co n s is ten t w ith   th n atu r o f   f ac ial  im ag es.     Alg o r ith m   1 .   T h lan d m ar k   d i s p lace m en t a u g m en tatio n   I n p u t: f ac e   im ag I   Ou tp u t: a u g m e n ted   im ag e   I '   Pro ce s s :   1 :   F=d etec t_ f ac e_ b b o x ( I )   2:   L =d etec t_ lan d m ar k s ( F,  I )   3:   W =c alcu late_ f ac e_ with ( F)   4:   L ' =d is p lace _ lan d m ar k s ( L ,   W ,   I ,   MA X_ SHI FT_ R AT I O)   5:   tr is =d elau n ay _ tr ian g u latio n ( L )   6 :   f o r   ea ch   t in   tr is :   7:   p 1 =g et_ v er tices(L ,   t)   8:   p 2 =g et_ v er tices(L ' ,   t)   9:   T =c o m p u te_ t r an s f o r m ( p 1 ,   p 2 )   10:   war p _ tr ian g u lar _ r e g io n ( I ,   I ' ,   p 1 ,   p 2 ,   T )     T h p r o ce s s   is   d escr ib ed   in   Fig u r 1 .   W ith   th in p u b ein g   f ac im ag e,   t h f ir s s tep   i s   to   d etec f ac ial  lan d m ar k s .   T h ese  ar th p o in ts   th at  p lay   an   im p o r tan r o le  in   f ac ial  m o r p h o lo g y   s u ch   as  ey co r n er s   an d   n o s p o in ts .   T h is   wo r k   u s es   s et   o f   6 8   f ac ial  p o in ts   s u p p o r ted   in   t h Dlib   lib r ar y   at  h ttp s ://d lib . n et/.   T h ese  lan d m ar k s   a r th b asi s   f o r   war p in g   f ac ial  im ag es.  Fo r   th war p in g   to   b p er f o r m ed ,   th s et  o f   f ac ial   lan d m ar k s   is   tr ian g u lated   u s in g   th e   Dela u n ay   tr ian g u latio n   tech n iq u e   [ 1 9 ] .   T h u s ,   th war p in g   will  b e   p er f o r m ed   b y   in ter p o latin g   t h p ix el   v alu es  in   ea ch   s u b - tr ian g le  o f   th e   r esu ltin g   im ag b ased   o n   th e   co r r esp o n d in g   p o s itio n s   f o r   th th r ee   v er tices  o f   th tr ian g le.   T h is   ex p er im en ts   also   h av th o p tio n   to   p r e - ca lcu late  th tr ian g u latio n   s et  to   u s f o r   th im ag es with o u t h av in g   to   r ec alcu late  ea ch   tim e.   T h lan d m ar k   d is p lace m en t   a u g m en tatio n   m eth o d   is   p er f o r m ed   b y   d etec tin g   6 8   f ac ial   lan d m ar k s   u s in g   th Dlib   lib r ar y .   T h ese   p o in ts   ar t h en   r an d o m ly   d is p lace d   with in   a   lim ited   r an g e   b ased   o n   th f ac wid th   an d   th e   MA X_ SHI FT_ R AT I s ca le  v alu e.   T h e   d is p lace m en r atio   p ar a m eter   is   r an d o m ly   g e n er ated   with   an   u p p e r   b o u n d   o f   MA X _ SHI FT_ R AT I O,   an d   s p ec if ic ally   in   t h ex p er im en t   MA X_ SHI FT_ R AT I is   s et  to   0 . 2 .   MA X_ SHI FT_ R A T I co n s tr ain s   th m ax im u m   d is p lace m en o f   lan d m ar k   p o i n ts   o n   th e   f ac e.   Her e   th d is p lace m en t   o f   th e   lan d m ar k   is   ca lc u lated   p r o p o r tio n ally   to   t h wid th   o f   th e   f ac e,   to   e n s u r t h at  th e   d ef o r m atio n   is   alwa y s   p r o p o r t io n al  to   th s ize  o f   th f ac e,   a v o id in g   ab n o r m al   d ef o r m atio n   o f   th f ac lead in g   to   u n r ea lis tic  r esu lts .   Nex t,  t h f ac ial  r eg io n   in   th o r ig i n al  im ag e   is   d iv id ed   in to   s m all  tr ian g les  u s in g   Dela u n ay   tr ian g u latio n .   All  tr ian g les  ar iter ated   th r o u g h   an d   ea ch   tr ian g le   is   co m p u ted   b y   a n   af f in e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J  Ar tif   I n tell Vo l.  1 5 ,   No .   1 ,   Feb r u ar y   2 0 2 6 :   766 - 7 7 9   770   tr an s f o r m atio n   f r o m   th o r ig i n al  lan d m ar k   lo ca tio n   to   th d is p lace d   lan d m ar k .   B ased   o n   th at,   th r esu ltin g   im ag is   g en er ated   b y   war p in g   ea ch   s u b - r eg io n   in   t h o r ig in al  im ag ac co r d in g   to   th ca lcu lated   af f in e   tr an s f o r m atio n .   T h e   p ar a m et er s   in   o u r   a u g m en tatio n   p r o ce s s   ar cu r r en tly   s et  b ased   o n   in tu itio n   an d   ex p er ien ce .   I n   th f u tu r e,   als o   co n s id er   ex p er ev alu atio n .   I n   th is   way ,   ex p er ev al u atio n   ca n   v alid ate  th e   r ea lis m   o f   au g m e n ted   im a g es f o r   th a u tis m   ass ess m en t ta s k .           Fig u r 1 .   Pro p o s ed   lan d m ar k   d is p lace m en t - b ased   au g m en ta tio n   p r o ce s s       Du r in g   th e   d ata  au g m en tatio n   iter atio n   f o r   ea ch   f ac im ag e,   th lan d m ar k s   ar e   tr an s f o r m ed   b y   r an d o m l y   s h if tin g   th em   in   n eig h b o r h o o d   o f   th eir   o r ig in al  p o s itio n s .   T h d is p lace m en r an g is   s et   p r o p o r tio n al  t o   th h o r iz o n tal  len g th   o f   th e   f ac a n d   is   s m all  en o u g h   t h at  th d is p lace m en t w ill  n o d is r u p t h e   s tr u ctu r o f   t h f ac in   th im ag e.   On ce   th f ac ial  lan d m a r k s   h av b ee n   t r an s f o r m e d ,   th e   n ew  f ac im ag is   war p ed   b y   in ter p o latin g   ea ch   r eg io n   o f   th id en tifie d   tr ian g l es.  T h r esu ltin g   im ag is   f ed   in to   th d ataset  f o r   m o d el  tr ain in g .   So m e x am p le   r esu lts   wer d escr ib ed   in   Fig u r 2 .   Af ter   th tr an s f o r m atio n   u s in g   lan d m ar k s   d is p lace m en t,  th im ag es  ar f u r th er   d iv er s if ie d   u s in g   th d ef au lt  au g m e n tatio n   m eth o d .   T h d ef au lt  au g m en tatio n   m et h o d   is   d esig n ed   to   ac co m m o d ate  wid r an g o f   in p u im ag es,   n o j u s f ac es.  First,  th im ag es  ar r esized   t o   ch o s en   s tan d ar d   s ize.   T h is   m ak es  im ag es  o f   d if f er en t sizes co m p atib le  with   d ee p   lear n in g   m o d els.  T h is   ca s will b r in g   th em   to   2 2 4 ×2 2 4 .   Nex t,  th im a g es   ar r an d o m ly   h o r izo n tally   f li p p ed   with   s p ec if ied   p r o b ab ilit y ,   in   th is   ca s 5 0 %.  T h is   tr an s f o r m atio n   is   a   p o p u lar   ch o ice  to   h elp   m o d e ls   lear n   r ef lectio n   v a r iatio n s ,   an d   it  is   also   s u itab le  f o r   f ac es  b ec au s o f   its   s y m m etr y .   Nex t,  th im ag es  ar r an d o m ly   r o tated   clo c k wis o r   co u n ter clo c k wis with i n   s p ec if ied   an g le   r an g e,   in   th is   ca s 1 0   d e g r ee s .   Nex t,  r an d o m ly   tr an s f o r m   th p ix el  v alu es  in   te r m s   o f   b r ig h tn ess ,   co n tr ast,   s atu r atio n ,   an d   h u e,   m a k in g   th d ataset  r ich er   in   ter m s   o f   lig h tin g   c o n d itio n s .   Fin a lly ,   th im ag es  ar e   g eo m etr ically   tr a n s f o r m e d   af f in ely   with   s m all  o f f s ets.  I n   th im p lem e n tatio n ,   th d e f au lt  au g m en tatio n   tech n iq u es we r p e r f o r m ed   wi th   th s u p p o r t o f   th Ko r n ia  lib r ar y   [ 2 0 ] .   T h u s ,   o u r   au g m en tatio n   m et h o d   im p r o v es  d ata  ef f icie n c y ,   wh ich   is   a   m ajo r   A I   ch a llen g e,   b y   g en er atin g   m o r r ea lis tic  f ac ial  v ar ian ts   f r o m   th e   o r ig i n al  d ata.   T h is   is   esp ec ially   tr u e   wh en   wo r k in g   with   lim ited   f ac ial  im ag d atasets .   I n s tead   o f   r ely in g   o n   s im p le   g eo m etr ic  t r an s f o r m atio n s ,   t h is   m eth o d   d ir ec tly   ex p lo its   th f ac ial  s tr u ctu r e,   th er eb y   lear n in g   m o r s em an t ically   r elev an f ea tu r es.  I n   ad d itio n ,   f ac ial  d ata   o f ten   h as  p o ten tial  b iases   in   ter m s   o f   eth n icity ,   a g e,   o r   g en d e r .   Ou r   lan d m ar k   d is p lace m en t m eth o d   allo ws  f o r   alg o r ith m ically   c o n s is ten g e n er atio n   o f   m o d els  with   r a n d o m   d is p lace m en ts   b ased   o n   c o m m o n   f ac ial   lan d m ar k s .   Du to   th ese  ch ar ac ter is tics ,   o u r   m eth o d   is   ab le  to   co n tr ib u te  to   r e d u cin g   th im p ac o f   p o ten tial   b iases   in   ter m s   o f   id ea s .   As a  r esu lt,  th m o d el  is   ex p ec te d   to   g en er alize   b etter   a n d   b f air er .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       I mp r o vin g   efficien cy   o a u tis d etec tio n   b a s ed   o n   f a cia l ima g la n d ma r ks   ( N g u ye n   Tr o n g   Tu n g )   771       Fig u r 2 .   So m e   r esu lts   o f   th p r o p o s ed   lan d m a r k   d is p lace m en t - b ased   au g m en tatio n   p r o ce s s       2 . 3 .     Dee p lea rning   mo dels   E f f i ci en t Ne [ 2 1 ]   i s   f am ily   o f   C N N   ar ch i te ctu r e s   th at  s u p p o r t s   t h a b i li ty   t o   a llo t h m o d e t o   s c al ev en ly   ac r o s s   m u l tip l d im en s io n s   s u ch   a s   r e s o l u tio n ,   wi d th ,   an d   d ep th .   T h o p ti m a u s o f   E f f i ci en t Ne ca n   h elp   th p r o g r am   s t il ac h ie v h ig h   p er f o r m an c wh il b e in g   ab le  to   u s f ew er   r e s o u r ce s   co m p ar ed   to   s o m o th er   C N N   m o d e l s .   I n   g en er al ,   E f f ic ie n tN et  ca n   wo r k   ef f ec t iv e ly   w ith   co m p lex   im ag e   d ata   an d   p r o v id e s   g en er a li za t io n   ca p a b i li ti e s .   T h i s   ar ch i te c tu r e   i s   cu s t o m i ze d   w it h   m an y   d if f er e n t   v er s io n s   d ep en d in g   o n   th s ca le  o f   t h e   m o d e l.  T h i s   s tu d y   ch o s e   t wo   v er s i o n s   f o r   o u r   ex p e r im en t   as   E f f icien tNet - B 0   an d   E f f icien tNet - B 4 .   R esNet  [ 2 2 ]   is   well - k n o wn   d ee p   n etwo r k   ar c h itectu r in   v ar io u s   d ee p   lear n in g   p r o b le m s   with   a   r esid u al  co n n ec tio n s   m ec h an is m   th at  h elp s   to   m in im ize  th p h en o m e n o n   o f   g r a d ien t v an is h in g   as th d ep th   o f   th n etwo r k   in cr ea s es.  T h is   m ec h an is m   is   s p ec ial  in   t h at  it  allo ws  r esear ch er s   to   tr ai n   v er y   d ee p   n etwo r k s   wh ile  m ain tain in g   s tab ilit y .   T h an k s   to   th at,   th m o d el  is   ca p ab le  o f   g en e r alizin g   m a n y   c o m p lex   f ea tu r es  in   im ag es.  Sp ec if ic  v er s io n s   o f   R esNet  ar o f ten   n am ed   ac co r d in g   to   th d e p th   o f   th a r ch itectu r e.   T h is   s tu d y   ch o o s es   3   v er s io n s : Res Net - 1 8 ,   R esNet - 5 0 ,   an d   R esNet - 1 0 1   f o r   ev alu atin g   th e   p r o p o s ed   m eth o d .   Mo b ileNet  [ 2 3 ]   is   C NN   ar c h itectu r d esig n e d   f o r   u s in   r eso u r ce - co n s tr ain ed   s ce n a r io s ,   s u ch   as  m o b ile  d e v ices.  I is   b u ilt  wit h   d ep t h   wis s ep ar ab le  c o n v o lu tio n s   to   m i n im ize  th n u m b e r   o f   p ar am eter s   a n d   th co m p u tatio n al  b u r d en   w h ile  s till   p r o v id in g   s ig n if ica n p er f o r m an ce   g ain s   in   im ag class if icatio n   p r o b lem s .   T h is   s tu d y   u s e s   Mo b ileNet - V2   f o r   e x p er im e n ts .   Similar   to   R esNet,   Den s eNe is   also   a   C NN   ar ch itectu r e   d esig n ed   t o   im p r o v th e   p r o p ag atio n   o f   g r ad ien s ig n als.  I n   De n s eNe t,  ea ch   lay e r   is   co n n ec ted   to   all  p r ev i o u s   lay er s .   T h is   n o t   o n ly   h elp s   in   th e   p r o p a g atio n   o f   g r ad ie n ts   b u t a ls o   co n tr ib u tes to   th r eu s o f   in ter m ed iate  f ea tu r es c o m p u te d   at  d if f er en t le v els   o f   ab s tr ac tio n .   T h is   s tu d y   u s e s   Den s eNe t - 1 2 1   an d   Den s eNe t - 201.   C o m p ar ed   t o   n ewe r   ap p r o ac h es  s u ch   as  v is io n   tr a n s f o r m er s ,   s win   tr an s f o r m er s ,   o r   h y b r id   C NN - r ec u r r en t   n eu r al   n etwo r k   ( R NN m o d els,  v is io n   t r an s f o r m er s   h av th e   ad v a n tag o f   m o d elin g   g lo b al   r elatio n s h ip s   b etwe en   f ac ial  r eg io n s ,   b u o f ten   r eq u ir lar g e   d atasets   f o r   ef f ec tiv tr ain in g ,   wh ich   is   d if f icu lt   to   m ee in   th co n tex o f   lim ited   p ed iatr ic  au tis m   d ata.   Swin   t r an s f o r m er   h as  th ad v an ta g o f   in co r p o r atin g   h ier ar ch ical  s tr u ctu r an d   lo c al  atten tio n ,   b u co m es  with   h ig h er   co m p u tatio n al  co s t.  I n   ad d itio n ,   h y b r id   C NN - R N m o d els  ar m ain ly   s u itab le  f o r   v id eo   d ata  wh en   an aly zin g   f ac ial  m o tio n s ,   wh ile  th cu r r en s tu d y   f o cu s es  o n   s till   im ag es.  T h e r ef o r e,   t h is   wo r k   u s e s   well - k n o wn   C NN  m o d els  s u ch   a s   E f f icien tNet - B 0 ,   E f f icien tNet - B 4 ,   R esNet - 1 8 ,   R esNet - 5 0 ,   R es Net - 1 0 1 ,   Mo b ileNet - V2 ,   Den s eNe t - 121 ,   a n d   Den s eNe t - 2 0 1 ,   wh ich   h av b ee n   p r o v en   ef f ec tiv in   ex tr ac tin g   lo ca f ea tu r e s   f r o m   f ac ial  im ag es.  T h is   is   co n s is ten with   o u r   p r o p o s ed   co n tr i b u tio n   r eg ar d in g   th u tili za tio n   o f   f ac ial  lan d m ar k s .   T o   tr ain   m o d els  ef f icien tly   an d   to   r e d u ce   o v er f itti n g ,   s o m s tr ateg ies  co m m o n ly   u s ed   in   d ee p   lear n in g   m o d el   tr ain in g   a r c o n s id er ed .   O n e x am p le   is   ea r l y   s to p p i n g ,   wh er e   th e   tr ain in g   p r o ce s s   s to p s   wh en   th ev alu atio n   m etr ic  o n   th v alid atio n   s et  n o   lo n g er   im p r o v es.  Oth er s   ar d r o p o u t,  o r   r e g u lar izatio n ,   w h ich   h elp   im p r o v th g en er aliza tio n   o f   m o d els.     2 . 4 .     Vis ua lizing   m o del a t t ent io n wit h G ra d - CAM   Gr ad - C AM   p lay s   an   im p o r tan r o le  in   in d icatin g   th f o cu s   o f   C NN  n etwo r k s   in   im ag r e co g n itio n   ap p licatio n s .   C o n v o l u tio n al  la y er s   d is co v er   an d   r ec o r d   s p ati al  f ea tu r es  co m p u ted   f r o m   an   in p u im ag e.   Fo r   tr ain ed   C NN  m o d el,   th f ir s t   co n v o l u tio n al  lay er s   will  p lay   th r o le  o f   an aly zin g   th b asic  f ea tu r es  o f   th e   im ag wh ile   th last   c o n v o lu tio n al  lay e r s   will  m o d el  th e   s e m an tic  f ea tu r es.  T h u s ,   th e   last   lay er s   will  p r o v id e   in f o r m atio n   th at  ca n   b v is u ally   m ap p ed   to   th lo ca tio n   o f   an   o b ject  in   th i n p u im ag e.   I n   t h is   s tu d y ,     Gr ad - C AM   is   u s ed   to   in ter p r et   an d   v alid ate  t h r o le  o f   f ac ial  f ea tu r r eg i o n s   in   au tis m   class if icatio n .   R eg io n s   in   f ac ial  im ag es  ar e   in tu itiv ely   u n d er s to o d   as  r e g io n s   ass o ciate d   with   f ac ial  lan d m ar k s .   Giv en   an   in p u f ac ial  im ag e,   Gr ad - C AM   will  a llo th g en er atio n   o f   h ea tm ap s   with   d if f e r en tr ain ed   m o d els.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J  Ar tif   I n tell Vo l.  1 5 ,   No .   1 ,   Feb r u ar y   2 0 2 6 :   766 - 7 7 9   772   B y   an aly zin g   th e   v is u al  lo ca t io n   o f   th h ea tm a p s   r elativ t o   r eg io n s   in   th f ac ial  im a g e,   it  ca n   b e   a n aly ze   wh eth er   th e   m o d els  p ay   atten tio n   to   r eg i o n s   im p o r tan f o r   f ac ial  e x p r ess io n .   T h is   wi ll  also   n ee d   to   b co n s id er ed   i n   r elatio n   to   th ac cu r ac y   o f   t h r esu ltin g   m o d els.  T h is   is   ev id en ce   th at  s u g g ests   co r r elatio n   b etwe en   im p o r ta n t f ac ial  lo ca t io n s   an d   au tis m   class if icatio n .     2 . 5 .     P r o po s ed  t ra ini ng   a nd   ev a lua t io n wo r k f lo w   Fig u r 3   p r esen ts   th p r o p o s ed   wo r k f lo in   o u r   s tu d y ,   in clu d in g   b o t h   th tr ain in g   p h a s an d   th ev alu atio n   p h ase.   T h p r o p o s e d   wo r k f l o was  d esig n ed   to   a n aly ze   th ef f ec o f   f ac ial  lan d m ar k s   o n   t h way   d ee p   lear n i n g   m o d els  class if y   im ag es  to   d iag n o s a u tis m .   E x p er im en ts   wer s et  u p   f o r   s tr ateg ies  in   b o th   th e   tr ain in g   p h ase  an d   th e   ev alu ati o n   p h ase.             Fig u r 3 .   P r o p o s ed   tr ain i n g   an d   ev alu atio n   wo r k f lo w       I n   th tr ain in g   p h ase,   d if f er en tr ain in g   s tr ateg ies  ar s et  u p   f o r   all  th d ee p   lear n in g   m o d els  in   th ex p er im en t.  Sp ec i f ically ,   th e r ar 2   s tr ateg ies:   d ef au lt   au g m en tatio n   an d   th p r o p o s ed   f ac ial  im ag e   au g m en tatio n   m eth o d .   I n   th i s   way ,   th in f l u en ce   o f   f ac i al  lan d m ar k s ,   w h ich   r e p r ese n f ac ial  ex p r ess io n   f ea tu r es,  o n   th tr ain i n g   p er f o r m an ce   o f   d ee p   lear n in g   m o d els.  T h u s ,   in   th e   ev alu atio n   p h ase,   th ex p ec ted   r esu lt  is   th at  th p r o p o s ed   f ac ial  im ag au g m en tatio n   s tr ateg y   will  y ield   th h ig h est  p er f o r m an ce ,   an d   th e r eb y   also   clar if y   th ef f ec ti v en ess   o f   th is   tech n iq u e.   T h tr ain in g   s tr ateg ies  will  b test ed   with   v ar io u s   p o p u lar   C NN   m o d els,  n am ely   E f f ici en tNet - B 0 ,   E f f icien tNet - B 4 ,   R esNet - 1 8 ,   R esNet - 5 0 ,   R es Net - 1 0 1 ,   Mo b ileNet - V2 ,   Den s eNe t - 1 2 1 ,   a n d   Den s eNe t - 2 0 1 .   T h co m p r eh en s iv a n d   co m p ar ativ ev alu atio n   with   v ar io u s   m o d els  h elp s   to   co n f ir m   th e   co r r ec tn ess   o f   th e   p r o p o s ed   h y p o th esis .   T h eo r eti ca lly ,   th p r o p o s ed   f ac ial  im a g au g m e n tatio n   s tr ateg y   will  ac h iev th h i g h est  p er f o r m an ce   o n   m o s o f   t h t ested   C NN   m o d els.  T h is   e x p er im en also   p r o v id es  p er s p ec tiv o n   h o th e   m o d els co m p a r with   ea ch   o th er   in   ter m s   o f   th im ag d ata  c h ar ac ter is tics   o f   th p r o b lem .   I n   ex p er im e n ts ,   im ag es  ar n o r m alize d   b y   tr a n s f o r m i n g   th p ix el  v alu es  b ef o r b ein g   f ed   in to   th e   d ee p   lear n in g   m o d el.   T h is   is   im p o r tan b ec au s it  h elp s   to   s tab ilize  th r an g o f   weig h ts   o f   d ee p   lear n in g   m o d els  d u r in g   tr ain i n g .   First,  th im ag es  ar co n v er ted   to   3 2 - b it  f lo atin g   p o in f o r m at  with   th p ix el  v alu e   r an g o f   [ 0 ,   1 ] .   T h en ,   th p ix el  v alu es  ar n o r m alize d   b ase d   o n   th ex p ec te d   v alu an d   s tan d ar d   d ev iatio n   v alu ca lcu lated   o n   th I m ag eNe s et.   T h is   h elp s   to   k ee p   th d is tr ib u tio n   o f   p ix el   v alu es  co n s is ten b ef o r e   f ee d in g   in t o   th d ee p   lear n i n g   m o d el.   I n   th ev alu atio n   p h ase,   th e   tr ain ed   C NN   m o d els  will  b ev alu ated   o n   th test   d ata.   First,   class if icatio n   s co r es  wi ll  b c alcu lated   an d   u s ed   as  cr iter io n   f o r   c o m p ar is o n   b etwe en   test in g   s tr ateg ies  as   well  as b etwe en   s p ec if ic  m o d els to   co n f ir m   th h y p o th eses .   Seco n d ,   h ea tm ap   r esu lts   will b ca lcu lated   f o r   th e   tr ain ed   m o d els co r r esp o n d in g   to   th in p u t im ag es.  T h ese  h ea tm ap   r esu lts   will  in d icate   th atten tio n   r eg io n s   o f   ea ch   tr ain ed   m o d el  f o r   s p ec if ic  in p u im ag e.   T h ese  at ten tio n   r eg io n s   will  b d is cu s s ed   b ased   o n   th co m p ar is o n   with   th l o ca tio n s   o f   im p o r tan r eg io n s   in   t h im ag e,   s p ec if ically   th f a cial  r eg io n s   ar o u n d   lan d m ar k s - ar ea s   co n s id er ed   to   r ep r esen t th e x p r ess iv f ea tu r es o f   h u m an   f ac es.   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       I mp r o vin g   efficien cy   o a u tis d etec tio n   b a s ed   o n   f a cia l ima g la n d ma r ks   ( N g u ye n   Tr o n g   Tu n g )   773   3.   E XP E R I M E N T   AND  R E SU L T S   T h is   s ec tio n   p r esen ts   th d etails  o f   th e   ex p er im en t   as  well  as   th a n aly s is   o f   th e   ex p e r im en t al  r esu lts .   First,  p r esen th ex p er im en ta s etu p .   Seco n d ,   p r esen th e   im p ac o f   th p r o p o s ed   m et h o d .   T h ir d ,   a n aly ze   th e   Gr ad - C AM   h ea tm ap s   in   r elati o n   to   f ac ial  lan d m ar k s   an d   d is cu s s   th r elate d   d etails.     3 . 1 .     E x perim ent a l set up   I n   th e x p er im e n ts ,   th m o d el s   wo u ld   b e   tr ain ed   u s in g   th e   Ad am   alg o r ith m   [ 2 4 ] .   B y   u s in g   tr an s f e r   lear n in g   ap p r o ac h ,   th o s m o d els  wo u ld   b f in e - tu n e d   f r o m   p r e - tr ain ed   m o d els  p r o v id ed   b y   th Py T o r ch   d ee p   lear n in g   lib r a r y   at  h ttp s ://p y to r ch . o r g .   T o   en s u r th p er f o r m an ce   ac h iev ed   f o r   t r ain in g   th m o d els,  th e   ef f icien t u s o f   o p tim izer s ,   lea r n in g   r ate  s ch ed u ler s ,   an d   b atc h   s izes  will b ex p lo ited   in   th ex p er im en ts .   T h is   will  ef f ec tiv ely   c o n tr o l   th e   u p d ate  r ate   o f   th e   m o d el  weig h ts ,   th e   tr ain in g   tim e,   an d   th e   g e n er aliza tio n   a b ilit y .   I n   d etail,   two   s tep s   o f   ch a n g i n g   th f r o ze n   s tate  o f   th e   p ar am eter s   ar p er f o r m e d   to   o p ti m ize  th u p d ate  o f   p ar ts   o f   th m o d el  d u r in g   th ex p er im en t.  Fu r t h er m o r e,   th cy clica lear n in g   r ates  m ec h an is m   is   u s ed   [ 2 5 ]   to   h elp   th m o d el  tr ain   f aster   w h ile  en s u r in g   co n v er g en ce   b y   allo win g   th lear n in g   r ates  to   g r o w.   B esid es,  th e   b atch   s ize  v alu es  ar also   ch o s en   ap p r o p r iately   to   o p tim ize  th m em o r y   o f   th GPU  h ar d war e.   So u r ce   co d is   p u b lis h ed   o n   Git L ab   p latf o r m   [ 2 6 ] .   E x p er im e n ts   wer p er f o r m ed   o n   th Kag g le  p latf o r m   with   an   NVI DI T esla  P1 0 0   GPU  with   1 6   GB   VR AM .   Kag g le  is   p o p u lar   p latf o r m   th at   is   o p tim ized   f o r   d ee p   lear n i n g   task s .   T h class if icatio n   s co r es u s ed   in clu d ac cu r ac y ,   p r ec is io n ,   r e ca ll,  AUC,  F1 - s co r e.     3 . 2 .     T he  im pa ct   o f   t he  pro p o s ed  a ug m ent a t io m et ho d   Fig u r 4   clea r ly   s h o ws  th at  th m o d els  tr ain ed   with   th p r o p o s ed   f ac ial  im ag au g m en tati o n   m eth o d   d ata  h av s ig n if ican tly   s u p er io r   p er f o r m an ce   o n   all  m etr i cs.  Sp ec if ically ,   th av er ag ac cu r ac y   v alu is   0 . 9 0 5 4 1 7 ,   th e   av er a g AUC  v alu is   0 . 9 6 2 1 3 3 ,   th e   av er ag e   p r ec is io n   v al u is   0 . 9 1 9 8 ,   th av er ag r ec all  v alu e   is   0 . 8 8 8 3 3 3 ,   a n d   th a v er ag F1 - s co r v alu is   0 . 9 0 3 6 7 8 .   Ad d itio n ally ,   th m etr ics  o f   th ca s u s in g   d ef au l t   au g m en tatio n   ar lo we r   at  all  m etr ic  ty p es.  I n   d etail,   with   av er ag p r ec is io n ,   th is   ca s ac h iev es  0 . 8 7 1 2 5 ,   wh ich   is   0 . 0 3 4 1 6 7   lo wer   th a n   th p r o p o s ed   tech n iq u e.   Similar ly ,   with   av er ag AUC,  th is   ca s ac h iev es  0 . 9 5 0 5 6 1   an d   is   0 . 0 1 1 5 7 2   l o wer .   W ith   av e r ag e   p r ec is io n ,   th i s   ca s ac h iev es  0 . 9 1 5 6 7 8   an d   is   0 . 0 0 4 1 2 2   lo wer .   W ith   av er ag r ec all ,   th is   ca s e   ac h iev es  0 . 8 1 9 1 6 7   a n d   is   0 . 0 6 9 1 6 6   lo wer .   W ith   av er ag F1 - s co r e,   th is   ca s ac h iev es  0 . 8 6 3 2 0 9   an d   is   0 . 0 4 0 4 6 9   lo wer .   T h er ef o r e,   t h ey   r ef lect  th at  ap p l y in g   t h p r o p o s ed   f ac ial  im ag e   au g m en tatio n   m eth o d   m ak es a   s ig n if ican t d if f er e n ce .           Fig u r 4 .   Av e r ag m etr ics f o r   th d ef au lt a u g m en tatio n   s tr ateg y   an d   th p r o p o s ed   au g m en t atio n   s tr ateg y       W h en   th ex p er im en tal  r esu lts   ar ar r an g ed   b y   th ac cu r ac y   s ca le,   th d is tr ib u tio n   o f   th lo ca tio n s   o f   th m o d els  tr ain ed   with   th th r ee   au g m en tatio n   s tr ateg ies  ca n   b s ee n   clea r ly I n   T ab le  2 ,   th s ce n ar io s   tr ain ed   u s in g   th p r o p o s ed   f a cial  im ag au g m en tatio n   m et h o d   d em o n s tr ated   h ig h   d iag n o s tic  ac cu r ac y .   Mo r s p ec if ically ,   am o n g   th 8   h i g h est - ac cu r ac y   tr ai n in g   s ce n a r io s ,   6   wer m o d els  tr ain ed   u s in g   th p r o p o s ed   f ac ial  im ag au g m en tatio n   m e th o d ,   ac co u n tin g   f o r   7 5 %.  T h at  m ea n s   th s ce n ar io s   wh er t h m o d el  is   tr ain ed   with   d ef au lt a u g m en tatio n   o n l y   ac co u n t f o r   2 5 % o f   th 8   b est ca s es in   ter m s   o f   ac cu r ac y .     Mo r im p o r ta n tl y ,   t h ca s es  t h at   d o   n o u s e   t h p r o p o s e d   tec h n i q u n o o n ly   ac c o u n t   f o r   s m al l   p r o p o r ti o n   b u als o   r an k   v e r y   l o w   i n   th to p   8   ca s es  i n   t er m s   o f   ac c u r a cy ,   n am el y   5 th   p lac e   wit h   D e n s eN et - 201  Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J  Ar tif   I n tell Vo l.  1 5 ,   No .   1 ,   Feb r u ar y   2 0 2 6 :   766 - 7 7 9   774   an d   7 th   p l ac e   wi th   E f f i ci en tNe t - B 4 .   I n   d etai l,   7 th   p la ce   an d   6 th   p la ce   h av e   t h e   s am e   a cc u r ac y ,   b u t   7 th   p l ac e   h as   cle ar l y   s m a lle r   A UC .   T h is   c lea r l y   s h o ws  t h d is a d v a n ta g o f   t h d e f a u lt   a u g m e n t ati o n   c o m p a r e d   t o   t h e   p r o p o s e d   te ch n i q u e .       T ab le  2 .   T h to p   8   ca s es so r ted   in   ter m s   o f   ac cu r ac y   S t r a t e g y   M o d e l   A c c u r a c y   AUC   P r e c i s i o n   R e c a l l   F1 - sc o r e   P r o p o se d   a u g me n t a t i o n   Ef f i c i e n t N e t - B4   0 . 9 2 6 6 6 7   0 . 9 6 7 9 3 3   0 . 9 2 6 6 6 7   0 . 9 2 6 6 6 7   0 . 9 2 6 6 6 7   P r o p o se d   a u g me n t a t i o n   R e sN e t - 18   0 . 9 1 6 6 6 7   0 . 9 6 8 6 8 9   0 . 9 2 5 1 7   0 . 9 0 6 6 6 7   0 . 9 1 5 8 2 5   P r o p o se d   a u g me n t a t i o n   Ef f i c i e n t N e t - B0   0 . 9 1 6 6 6 7   0 . 9 7 4 0 8 9   0 . 9 3 1 0 3 4   0 . 9   0 . 9 1 5 2 5 4   P r o p o se d   a u g me n t a t i o n   M o b i l e N e t - V2   0 . 9 1 3 3 3 3   0 . 9 7 6 0 2 2   0 . 9 3 0 5 5 6   0 . 8 9 3 3 3 3   0 . 9 1 1 5 6 5   D e f a u l t   a u g m e n t a t i o n   D e n seN e t - 2 0 1   0 . 9   0 . 9 7 3 3 3 3   0 . 8 8 9 6 1 0   0 . 9 1 3 3 3 3   0 . 9 0 1 3 1 6   P r o p o se d   a u g me n t a t i o n   D e n seN e t - 2 0 1   0 . 8 9 6 6 6 7   0 . 9 7 1 4 2 2   0 . 9 2 8 0 5 8   0 . 8 6   0 . 8 9 2 7 3 3   D e f a u l t   a u g m e n t a t i o n   Ef f i c i e n t N e t - B4   0 . 8 9 6 6 6 7   0 . 9 6 5 1 1 1   0 , 9 2 8 0 5 8   0 . 8 6   0 . 8 9 2 7 3 4   P r o p o se d   a u g me n t a t i o n   D e n seN e t - 1 2 1   0 . 8 9 3 3 3 3   0 . 9 5 2 7 5 6   0 . 8 9 8 6 4 9   0 . 8 8 6 6 6 7   0 . 8 9 2 6 1 7       Fu r th e r   e v id en ce   is   s h o w n   in   T a b le   3   w it h   t h 8   wo r s t   p er f o r m in g   ca s es  s o r te d   b y   ac c u r ac y   m e asu r e.   Am o n g   t h e m ,   t h ca s u s i n g   t h e   p r o p o s ed   t ec h n iq u o c cu p i es  o n ly   2   p o s iti o n s ,   e q u i v al e n t   to   2 5 %   o f   t h e   t o tal     8   p o s iti o n s .   T h ese  tw o   p o s iti o n s   b e lo n g   t o   t h R esNe t - 5 0   m o d el   wi th   a n   ac cu r a c y   o f   0 . 8 9 3 3 3 3   a n d   R es Net - 1 0 1   wit h   an   a cc u r ac y   o f   0 . 8 8 6 6 6 7 ,   b o t h   o f   w h ic h   a r e   as y m p to tic all y   cl o s e   t o   0 . 9 .   Fu r t h er m o r e,   b o t h   o f   t h es ca s es   ar e   i n   t h e   u p p er   h a lf   o f   t h e   t a b le ,   w h i ch   m e a n s   t h at   th ey   a r in   th e   h i g h - a cc u r a cy   r e g i o n   o f   th e   t ab le .   I n   o t h e r   wo r d s ,   t h e   ca s es   th at   d o   n o t   u s th e   p r o p o s ed   tec h n i q u e   o c c u p y   7 5 %   o f   t h e   t a b le   an d   a r also   m o s tl y   i n   t h e   lo w er - s c o r i n g   r e g i o n .   T h is   is   a ls o   a   cl ea r   d em o n s t r at io n   o f   o u r   h y p o t h esis   in   t h is   p a p e r .       T ab le  3 .   T h b o tto m   8   ca s es so r ted   in   ter m s   o f   ac cu r ac y   S t r a t e g y   M o d e l   A c c u r a c y   AUC   P r e c i s i o n   R e c a l l   F1 - sc o r e   P r o p o se d   a u g me n t a t i o n   R e sN e t - 50   0 . 8 9 3 3 3 3   0 . 9 4 1 9 1 1   0 . 9 1 5 4 9 3   0 . 8 6 6 6 6 7   0 . 8 9 0 4 1 1   D e f a u l t   a u g m e n t a t i o n   D e n seN e t - 1 2 1   0 . 8 9   0 . 9 5 2   0 . 9 3 9 8 5 0   0 . 8 3 3 3 3 3   0 . 8 8 3 3 9 2   P r o p o se d   a u g me n t a t i o n   R e sN e t - 101   0 . 8 8 6 6 6 7   0 . 9 4 4 2 4 4   0 . 9 0 2 7 7 8   0 . 8 6 6 6 6 7   0 . 8 8 4 3 5 4   D e f a u l t   a u g m e n t a t i o n   M o b i l e N e t - V2   0 . 8 8 6 6 6 7   0 . 9 5 7 4 2 2   0 . 8 8 6 6 6 7   0 . 8 8 6 6 6 7   0 . 8 8 6 6 6 7   D e f a u l t   a u g m e n t a t i o n   R e sN e t - 18   0 . 8 6 3 3 3 3   0 . 9 5 9 2 4 4   0 . 9 5 0 4 1 3   0 . 7 6 6 6 6 7   0 . 8 4 8 7 0 8   D e f a u l t   a u g m e n t a t i o n   Ef f i c i e n t N e t - B0   0 . 8 5   0 . 9 4 8 1 3 3   0 . 9 2   0 . 7 6 6 6 6 7   0 . 8 3 6 3 6 4   D e f a u l t   a u g m e n t a t i o n   R e sN e t - 50   0 . 8 4 6 6 6 7   0 . 9 3 1 4 2 2   0 . 9 1 9 3 5 5   0 . 7 6   0 . 8 3 2 1 1 7   D e f a u l t   a u g m e n t a t i o n   R e sN e t - 101   0 . 8 3 6 6 6 7   0 . 9 1 7 8 2 2   0 . 8 9 1 4 7 3   0 . 7 6 6 6 6 7   0 . 8 2 4 3 7 3       Nex t,  s tatis tical  te s ts   u s in g   p air ed   t - test   b etwe en   p air s   o f   m o d els  o n   t h s am test   s et  ar also   in clu d ed   t o   v alid ate   im p r o v e m en ts T h r esu lts   s h o th at  t h m ajo r ity   o f   m o d els  s h o c lear   an d   s tatis tically   s ig n if ican d if f er e n ce s ,   with   5   o u o f   8   m o d els  ac h iev in g   p - v alu e   less   th an   0 . 0 5 .   Sp ec if ically ,   R esNet - 18  r esu lts   with   t - s tat  o f   6 . 0 9 7 8 4 7   a n d   p - v alu less   th an   0 . 0 0 0 0 0 1 ,   in d icatin g   th at  th e r is   s tati s tical ly   s ig n if ican t d if f er en ce   b etwe en   th p air ed   g r o u p s .   Similar ly ,   E f f icien tNet - B 0   h as a   t - s tat  o f   - 3 . 2 7 4 0 0 6 ,   p - v alu o f   0 . 0 0 1 1 8 5 ,   an d   E f f icien tNet - B 4   h as  t - s tat  o f   - 2 . 9 6 0 9 3 6 ,   p - v al u o f   0 . 0 0 3 3 1 3 ,   a ls o   d em o n s tr atin g   s ig n if ican im p r o v em en ts .   I n   ad d itio n ,   R esNet - 1 0 1   with   p - v alu o f   0 . 0 0 4 8 5 7   a n d   De n s eNe t - 2 0 1   with   p - v alu e   o f   0 . 0 0 2 3 2 8   ar also   s tr o n g   ev id en ce   ag ain s th n u ll  h y p o th esis .   I n   co n tr ast,  Mo b ileNet - V2   m o d el  with     p - v alu e   o f   0 . 2 1 2 3 3 5   d o es  n o t   r ea ch   s ig n if ican ce .   T h ese  r e s u lts   co n f ir m   th at   th er e   is   s tatis tically   r eliab le   im p r o v em e n t in   m o s t o f   th te s t m o d els.  T h is   also   p r o v es o u r   r esear ch   h y p o t h esis   f o r   th p r o p o s ed   m et h o d .   Ad d itio n ally ,   f o r   th ca s es  ap p ly in g   th d ata  au g m e n tatio n ,   th m o d el  ca lib r atio n   is   ev al u ated   u s in g   th ex p ec ted   ca lib r atio n   er r o r   ( E C E )   i n d ex .   T h r esu lts   o b tain ed   f o r   m o s m o d els  ar r elativ ely     well - ca lib r ated   with   q u ite  s m all  E C E   v alu es.  T h m o d el  with   th h ig h est  E C E   is   R esNe t - 1 0 1   with   E C E   o f   0 . 1 0 0 2 9 5 .   T h e   r em ain i n g   m o d els  all  h av E C E   less   th an   0 . 1 .   Acc o r d in g ly ,   th R esNet - 5 0   m o d el  ac h iev ed   E C E   o f   0 . 0 8 9 2 9 1 ,   th Den s e Net - 2 0 1   m o d el  ac h iev ed   E C E   o f   0 . 0 8 4 4 7 0 ,   th Den s eNe t - 1 2 1   m o d el  ac h ie v ed   E C E   o f   0 . 0 8 1 2 3 0 ,   th E f f icien tNet - B 0   m o d el  ac h iev ed   E C E   o f   0 . 0 7 5 3 1 3 ,   th Mo b ileNet - V 2   m o d el  ac h iev e d   E C E   o f   0 . 0 7 4 8 5 3 ,   th e   R esNet - 1 8   m o d el  ac h iev ed   E C E   o f   0 . 0 6 9 9 4 3 ,   th E f f icien tNet - B 4   m o d el  ac h iev ed   E C E   o f   0 . 0 6 4 4 0 9 .   T h is   also   co n tr ib u tes  to   d em o n s tr atin g   th ef f ec tiv en ess   o f   d ata  au g m e n tatio n   wh en   in   th e   ex p er im en t,  th ar c h itectu r es  n o o n ly   ac h iev ed   h i g h   ac cu r ac y   b u also   p r o v id ed   r e liab le  p r o b ab ilit y   esti m ates,  wh ich   is   im p o r tan t in   th m ed ical  c o n tex t.   I n   ad d itio n ,   s o m e   in f o r m atio n   ab o u th c o m p u tatio n al  ti m e,   m em o r y   u s ag e,   an d   tr ain in g   tim e   is   also   p r o v id ed .   T h e   ex p er im en was  p er f o r m ed   with   th Ka g g le  s er v er ,   s o   th m em o r y   is   a llo ca ted   with in   th e   r an g allo wed   b y   th Ka g g le  s er v er .   W also   p r o v id e   m o r e   d etails  ab o u th e   co m p u tatio n al  tim an d   t r ain in g   tim f o r   ea ch   ep o c h   in   T a b le  4 .     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       I mp r o vin g   efficien cy   o a u tis d etec tio n   b a s ed   o n   f a cia l ima g la n d ma r ks   ( N g u ye n   Tr o n g   Tu n g )   775   T ab le  4 .   Av e r ag p r ed icted   ti m es p er   s am p le  an d   av er a g tr ain in g   tim es p er   e p o ch   M o d e l   A v e r a g e   p r e d i c t e d   t i me   p e r   sam p l e   ( s e c o n d s)   A v e r a g e   t r a i n i n g   t i me  p e r   e p o c h   ( sec o n d s)   Ef f i c i e n t N e t - B0   0 . 0 0 0 1 4 9   7 0 . 7 9 0 7 4 7   Ef f i c i e n t N e t - B4   0 . 0 0 0 6 1 0   1 1 6 . 3 7 9 6 8 6   R e sN e t - 18   0 . 0 0 0 0 1 4   5 8 . 8 9 3 4 2 0   R e sN e t - 50   0 . 0 0 0 1 1 0   8 8 . 7 9 8 2 0 5   R e sN e t - 101   0 . 0 0 0 2 0 7   1 2 8 . 1 6 4 9 6 7   M o b i l e N e t - V2   0 . 0 0 0 1 0 5   6 9 . 0 1 1 8 7 5   D e n seN e t - 1 2 1   0 . 0 0 0 5 8 8   7 6 . 9 5 1 4 9 5   D e n seN e t - 2 0 1   0 . 0 0 1 0 1 8   1 1 1 . 6 7 9 6 5 4       3 . 3 .     Ana ly s is   o f   G r a d - CAM   hea t m a ps   in re la t io n t o   f a cia l la nd m a rk s   I n   t h is   s ec t io n ,   t h e   r ela ti o n s h i p   b et we en   t h m o d el' s   at te n ti o n ,   r ep r ese n te d   b y   G r a d - C AM   h e atm a p s ,   an d   k e y   r eg io n s   i n   t h e   f a cia i m a g e   s   a n a ly ze d .   T h is   wi ll   c o n t r i b u te   t o   r e v ea li n g   th e   r ela ti o n s h i p   b e twe en   t h q u ali ty   o f   au tis m   d i a g n o s is   f r o m   f ac i al  i m a g es   a n d   t h i m ag r e g i o n s   th at  t h m o d e f o c u s es  o n .   I n   o t h e r   wo r d s ,   d o es  th e   m o d el' s   at te n ti o n   t o   k ey   r e g i o n s ,   w h i ch   ar r e lat e d   to   f a cia la n d m ar k s ,   af f e ct   t h e   f i n al   d ia g n o s ti p e r f o r m a n ce ?   W e   s ta r w it h   t h Gr a d - C A M   h e at m a p s   o f   t h tw o   b est - p e r f o r m i n g   ca s es ,   E f f i cie n tN et - B 4   m o d el   a n d   R esNet - 1 8   m o d e l,  b o t h   o f   w h i c h   h a v e   b ee n   tr ai n e d   w it h   p r o p o s e d   au g m e n t ati o n   tec h n i q u e.   T h e   s p e cif ic   r es u lts   a r e   s h o w n   i n   Fi g u r e   5 .   F o r   ea ch   m o d el   c ase ,   t h e   r es u lts   ar e   p l o tt ed   in   tw o   r o ws T h f i r s t   r o w   s h o ws  1 0   b es t - p e r f o r m in g   c ases ,   an d   s ec o n d   r o s h o ws t h 1 0   w o r s t - p e r f o r m in g   ca s es.   Fig u r 5   s h o ws  s tr ik in g   d em o n s tr atio n   o f   o u r   p r e d ictio n   h y p o t h esis ,   with   s o m G r ad - C AM   h ea tm ap s   o f   t h E f f icien tNet - B 4   m o d el  in   Fig u r 5 ( a)   a n d   th R esNet - 1 8   m o d el  in   Fi g u r 5 ( b )   u s in g   th e   p r o p o s ed   au g m en tatio n   s tr ateg y .   I n   t h f i r s r o o f   two   ca s es,  it  is   ea s y   to   s ee   th at   th e   m o d els'   atten tio n   is   clea r ly   f o cu s ed   o n   im p o r tan f ac ial  r eg io n s   in   th e   co r r ec p r ed ictio n   ca s es.  Sp ec if ically ,   r eg io n s   s u ch   as  th e   ey es  an d   n o s ar also   im p o r t an r eg io n s   m ar k e d   b y   lan d m a r k s   co m m o n ly   s ee n   in   f ac ial  e x p r ess io n   an aly s is .   T h is   r ef lects  th at  th e   m o d els  h av ef f ec tiv el y   lear n ed   f ac ial  ex p r ess io n   f ea t u r es  to   b a b le  to   r ec o g n ize  a u tis m   well.   T h eo r etica lly ,   au tis m   h a s   aty p ical  f ac ial   ex p r ess io n s ,   s o   th e   f ac t   th at  Gr a d - C AM   h ea tm ap s   ar s tr o n g ly   ass o ciate d   with   r eg io n s   ass o ciate d   with   f ac ial  lan d m ar k s   s u g g ests   th at  th m o d els  ca p tu r m ea n in g f u l   f ea tu r es in   f ac ial  im ag es f o r   a u tis m   d iag n o s is .   Op p o s itely ,   in   th s ec o n d   r o w   o f   two   ca s es,  th e   im ag es  o f   t h wr o n g   r esu lts   s h o th at  t h h ea tm ap s   ar o f ten   n o f o cu s ed   o n   im p o r tan ar ea s   o f   th f ac e,   wh ich   ar u s u ally   d eter m in ed   b y   lan d m ar k s .   T h r esu lts   ar o f ten   s ca tter ed   ac r o s s   m an y   ar ea s   o f   t h f ac e,   e v en   o u ts id th f ac e.   T h is   s u g g ests   th at  th m o d els  ar e   ca p tu r in g   f ea tu r es  th at  ar ir r e lev an o r   h a v litt le  to   d o   with   f ac ial  ex p r ess io n   f ea tu r es  th at  ar im p o r tan f o r   au tis m .   T h is   co u ld   th e r ef o r e   b an   ex p la n atio n   f o r   wh y   th r esu lts   ar p o o r   o r   u n s tab le.   I n   Fig u r 6 ,   Gr ad - C AM   h ea tm ap s   o f   th two   wo r s t - p er f o r m in g   ca s es   ar p r esen ted ,   th R esNe t - 50  m o d el  in   Fig u r 6 ( a)   an d   th R esNet - 1 0 1   m o d el  in   Fig u r 6 ( b ) ,   b o th   o f   wh ich   h av b ee n   tr ain ed   with   d ef au lt  au g m en tatio n   tec h n iq u es.  Sim ilar ly ,   f o r   ea ch   m o d el  ca s e,   r e s u lts   ar p lo tted   in   two   r o ws.   T h f ir s r o s h o ws  th 1 0   b est - p er f o r m in g   ca s es,  an d   th s ec o n d   r o s h o ws th 1 0   wo r s t - p er f o r m i n g   ca s es.     Fig u r 6   also   s h o ws  ev i d en ce   f o r   o u r   p r ed ictio n   h y p o th esis .   I n   ea ch   ca s e,   t h f ir s r o wit h   th b est   r esu lts   co n s is ten tly   ex h ib its   s tr o n g er   f o cu s   o n   im p o r tan f ac ial  r eg io n s   th an   th s ec o n d   r o with   th wo r s t   r esu lts .   T h is   also   h elp s   an s we r   th q u esti o n   o f   th r elatio n s h ip   b etwe en   th a u tis m   d iag n o s is   p er f o r m an ce   o f   th d ee p   lear n in g   m o d el  an d   th m o d el' s   f o cu s   o n   im p o r tan f ac ial  r eg io n s ,   wh ich   ar r eg io n s   th at  ar u n d er s to o d   to   b e   m ar k e d   b y   la n d m ar k s   co m m o n ly   u s ed   in   f a cial  ex p r ess io n   s tu d ies.         ( a)       ( b )     Fig u r 5 .   So m e   Gr ad - C AM   h e atm ap s   u s in g   th p r o p o s ed   au g m en tatio n   s tr ateg y   f o r   ( a)   th e   E f f icien tNet - B 4   m o d el  an d   ( b )   th R esNet - 1 8   m o d el   Evaluation Warning : The document was created with Spire.PDF for Python.