I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m pu t er   E ng ineering   ( I J E CE )   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 ,   p p .   395 ~ 403   I SS N:  2088 - 8 7 0 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijece. v 1 6 i 1 . pp 3 9 5 - 4 0 3           395       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m   Facia l emo tion re co g nition under  f a ce mas k occlus io n using   v isio n t ra nsfo rme rs       Ash ra f   Yuni s   M a g ha ri,   Am ee M .   T elba ni   F a c u l t y   o f   I n f o r ma t i o n   T e c h n o l o g y ,   I sl a m i c   U n i v e r s i t y   o f   G a z a ,   G a z a ,   P a l e st i n e       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   J u n   2 2 ,   2 0 2 5   R ev is ed   Sep   2 4 ,   2 0 2 5   Acc ep ted   No v   2 3 ,   2 0 2 5       F a c ial  e m o ti o n   re c o g n it i o n   ( F ER sy ste m fa c e   sig n ifi c a n c h a ll e n g e wh e n   in d i v id u a ls  we a fa c e   m a sk s,  a s   c rit ica fa c ial  re g io n s   a re   o c c l u d e d .   Th is   p a p e a d d re ss e th is   li m it a ti o n   b y   e m p lo y in g   v isi o n   tran sf o rm e rs  (ViT) ,   wh ich   o ffe a   p ro m isin g   a lt e r n a ti v e   with   re d u c e d   c o m p u tatio n a c o m p lex it y   c o m p a re d   to   trad it io n a d e e p   le a rn in g   m e th o d s.  We   p r o p o se   a   ViT - b a se d   F ER  fra m e wo rk   th a fi n e - tu n e a   p re - train e d   ViT  a rc h it e c tu re   t o   e n h a n c e   e m o ti o n   re c o g n it i o n   u n d e m a sk - in d u c e d   o c c lu sio n .   T h e   m o d e is  fin e - tu n e d   a n d   e v a lu a ted   o n   t h e   Affe c tNe t   d a tas e t,   wh ich   o rig in a ll y   re p re se n ts  e ig h t   e m o ti o n   c a teg o r ies .   Th e se   c a te g o ries   a re   re stru c tu re d   in to   fi v e   b ro a d e r   c las se to   m it ig a te   th e   imp a c o f   o c c lu d e d   fe a tu re s.  Th e   m o d e l’s   p e rfo rm a n c e   is  a ss e ss e d   u si n g   sta n d a r d   m e tri c s,  i n c lu d in g   a c c u ra c y ,   p re c isio n ,   re c a ll ,   a n d   F 1   sc o re .   Ex p e rime n tal  re su lt d e m o n stra t e   th a t h e   p ro p o se d   fra m e wo rk   a c h iev e a n   a c c u ra c y   o f   8 1 % ,   o u t p e rfo rm i n g   se v e ra l   sta te - of - th e - a rt  a p p ro a c h e s.   Th e s e   fin d in g h ig h li g h t   t h e   p o ten t ial  o f   v isi o n   tran sfo rm e r in   re c o g n izin g   e m o t io n u n d e m a sk e d   c o n d it i o n a n d   su p p o rt   th e   d e v e l o p m e n o m o re   r o b u st  F ER  sy ste m fo re a l - wo rl d   a p p li c a ti o n in   h e a lt h c a re ,   su rv e il lan c e ,   a n d   h u m a n c o m p u ter  i n tera c ti o n .   Th is  wo rk   in tro d u c e a   sc a lab le  a n d   e ffe c ti v e   a p p ro a c h   t h a in teg ra tes   se lf - a tt e n ti o n ,   sy n th e ti c   m a sk   a u g m e n tati o n ,   a n d   e m o t io n   c las re stru c tu ri n g   t o   imp r o v e   e m o ti o n   re c o g n it io n   u n d e fa c ial  o c c lu sio n .   K ey w o r d s :   Dee p   lear n in g   E m o tio n   r ec o g n itio n   Face   m ask   Occ lu s io n   h an d lin g   Vis io n   tr an s f o r m er s   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Ash r af   Yu n is   Ma g h ar i   Facu lty   o f   I n f o r m atio n   T ec h n o lo g y ,   I s lam ic  Un iv er s ity   o f   G az a   P.O.   B o x   1 0 8 ,   Gaz a,   Palest in e   E m ail: a m ag h ar i@ iu g az a. ed u . p s       1.   I NT RO D UCT I O N   Facial  ex p r ess io n s   ar f u n d a m en tal  to   h u m an   c o m m u n ic atio n   an d   em o tio n   u n d er s tan d in g   [ 1 ] R ec en ad v an ce s   in   co m p u ter   v is io n   h av in teg r ated   f ac ial  ex p r ess io n s   in to   m an y   ap p licatio n s   lik v ir tu al   r ea lity   ( VR )   an d   au g m en ted   r e ality   ( AR ) ,   s ec u r ity   s y s tem s ,   an d   h u m an - c o m p u ter   in ter ac tio n   ( HC I )   [ 2 ] .   Facial   ex p r ess io n   r ec o g n itio n   ( FER )   s y s tem s   clas s if y   em o tio n s   s u ch   as  h ap p in ess ,   s ad n ess ,   an g er ,   f ea r ,   s u r p r is e,   an d   d is g u s f r o m   s tatic  im ag es  an d   v id eo   s tr ea m s   [ 3 ] .   FER  m o d els  ar tr ain ed   o n   n u m er o u s   im ag es  co n v ey in g   em o tio n s   lik h ap p in ess ,   s ad n ess ,   an g er ,   f ea r ,   s u r p r is e,   an d   d is g u s t.  Ho wev er ,   em o tio n   e x p r ess io n   v ar ies  d u to   ag e,   cu ltu r e,   an d   g en d er   [ 4 ] ,   r aisi n g   ac cu r ac y   ch allen g es a n d   eth ical  co n ce r n s .   T h i s   s t u d y   a i m s   t o   e n h a n c e   FE R   u n d e r   m a s k - i n d u c e d   o c c l u s i o n ,   u s i n g   a   v i s i o n   t r a n s f o r m e r s   ( V i T )   b a s e d   m o d e l   t r a i n e d   o n   s y n t h et i c a ll y   m a s k e d   d a t a .   T r a d i t i o n a l   F E R   r el i es   o n   m a n u a f e a t u r e   e n g i n e e r i n g   w it h   p r e p r o c e s s i n g ,   f ea t u r e   e x t r ac t i o n ,   a n d   cl a s s i f ic a t i o n   [ 2 ] ,   w h i l d e e p   l ea r n i n g   a p p r o a c h e s   s u c h   a s     d e e p   b e l i e f   n e t w o r k s   ( DB Ns ) ,   l o n g   s h o r t - t e r m   m e m o r y   n e t w o r k s   ( L S T Ms ) ,   g e n e r a t i v e   ad v e r s a r i a l   n e tw o r k s   ( G A Ns ) ,   a n d   c o n v o l u t i o n a l   n e u r a l   n e t w o r k s   ( C NN s )   h a v e   i m p r o v e d   p e r f o r m a n c e   [ 5 ] .   T r a n s f e r   l e a r n i n g   f u r t h e r   i n c r e a s e d   a cc u r a c y   u s i n g   p r e t r a i n e d   m o d e l s   s u c h   a s   R es N et5 0 ,   M o b i l e N e t ,   a n d   VG G 1 9   [ 6 ] [ 7 ] .   F a c e   m a s k s ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 :   3 9 5 - 403   396   w i d e l y   u s e d   d u r i n g   C O V I D - 1 9 ,   o b s c u r e   k e y   r e g i o n s   l i k t h e   m o u t h ,   m a k i n g   e m o t i o n   r e co g n i t i o n   h a r d e r   [ 8 ] R es e a r c h e r s   h a v e   a p p l i e d   at t e n t i o n   h e a t m a p s   [ 9 ] ,   c r o p p e d   e y e   r e g i o n s   [ 1 0 ] ,   o r   r e t a i n e d   f u ll   im a g e s   [ 1 1 ] [ 1 2 ]   t o   a d d r e s s   o c cl u s i o n .   S i n c e   n o   e m o t i o n - l a b e l e d   m as k e d   d a t as e ts   e x i s t ,   s y n t h e ti c   a p p r o a c h e s   a r u s e d .   T h r o u g h   s e l f - a t t e n t i o n ,   V i T   m o d e ls   c a p t u r g l o b a l   d e p e n d e n c i e s   a n d   c o n t e x t   f r o m   i m a g e   p a t c h es ,   w h ic h   a l l o ws   V i T s   t o   e x t r a c t   c o n t e x t u al   f e at u r e s   f r o m   p a r t i a l l y   o cc l u d e d   f a c es .   T h i s   w o r k   p r o p o s es   a   Vi T - b a s e d   F E R   f r a m e w o r k   u s i n g   a   s y n t h e t i c al l y   m a s k e d   A f f e c t N et   d a t a s e t   a n d   r e s t r u c tu r e d   e m o t i o n   c l a s s es .   F o ll o w in g   M a g h e r i n i   e t   a l .   [ 1 1 ] ,   o u r   a p p r o a c h   d e m o n s t r a t es   i m p r o v e d   r e c o g n i t i o n   p e r f o r m a n c e   u n d e r   o c c l u s i o n .   T h r e m ain d er   o f   th is   p ap er   is   o r g an ize d   as  f o llo ws:   s ec tio n   2   r ev iews  r elate d   s tu d ies.  Sectio n   3   d escr ib es th ViT - b ased   FER m o d el.   Sectio n   4   p r esen ts   r esu lts   an d   d is cu s s io n .   Sectio n   5   c o n clu d es th p ap er .       2.   RE L AT E WO RK   T h e   v i s i o n   t r a n s f o r m e r   ( Vi T )   [ 1 3 ]   h a s   s h o w n   p r o m i s i n g   r e s u l ts   i n   v a r i o u s   c o m p u t e r   v is i o n   t as k s ,   i n c l u d i n g   F E R   [ 1 4 ] .   I t   i s   b u il o n   t r a n s f o r m e r   a r c h i t e ct u r e   w h i c h   i s   i n i ti a l l y   d es i g n e d   f o r   N L P .   Vi T   e m p l o y s   m u l t i - h e a d   s e l f - a t te n t i o n   a n d   im a g e   p a t c h   p r o c e s s i n g .   H u a n g   e t   a l .   [ 1 5 ]   u t i li z e d   V iT   w it h   a   St a r G A f r a m e w o r k   f o r   d a t a   a u g m e n t a t i o n   i n   F E R .   S q u e e z e   Vi T   wa s   p r o p o s e d   t o   c o m b i n e   g l o b a l   a n d   l o ca l   f e a t u r e s   w i t h   f ew e r   d i m e n s i o n s   [ 1 6 ] .   Fa t i m a   et   a l .   [ 1 7 ]   d e m o n s t r a t e d   t h e   v a l u e   o f   s e l f - a t t e n ti o n   i n   V i T   f o r   e m o ti o n   r e c o g n i t i o n .   Stu d ies  h av also   ad d r ess ed   FER  u n d er   p a r tial  o cc lu s io n .   T ec h n iq u es  lik Gab o r   wav elet  tex tu r e   an aly s is ,   DNM d ec o m p o s itio n ,   an d   lan d m a r k - b ased   s h ap an aly s is   h av b ee n   a p p lied   t o   s ep ar ate  o cc lu d e d   ar ea s   an d   ex tr ac d is cr im in an t   f ea tu r es  [ 1 8 ] .   Oth er   s tu d ies  co n s id er ed   clo th in g - b ased   o cc l u s io n ,   s u ch   as  h ijab   d etec tio n   u s in g   tr an s f er   lear n i n g   [ 1 9 ] ,   wh ich   also   d em o n s tr ates  th im p ac o f   p ar tial  co v e r in g   o n   r ec o g n itio n   p er f o r m an ce .   I n   ad d itio n   to   o cc lu s io n   h an d lin g ,   o th er   wo r k s   f o cu s ed   o n   im p r o v in g   d ata  q u ality   an d   m o d el   r o b u s tn ess .   Fen g   an d   Sh ao   [ 2 0 ]   e n h an ce d   d ata  q u ality   u s in g   p r ep r o ce s s in g   ( e. g . ,   h is to g r am   e q u aliza tio n ,   af f in tr an s f o r m s )   an d   u s ed   I n ce p tio n - v 3   with   tr a n s f er   lear n in g   to   ac h iev h i g h   ac c u r ac y   o n   C K+   an d   J af f e   d atasets .   Oth er   m eth o d s   ex p an d ed   class ic  C NNs,  s u ch   as  L eNe t - [ 2 1 ] ,   b y   d ee p e n in g   co n v o lu tio n   an d   p o o lin g   lay er s   to   im p r o v p er f o r m an ce   u n d er   o cc lu s io n .   C h en   et  a l.   [ 2 2 ]   p r o p o s ed   e f f ic ien atten tio n - b ased   E R FNet  en h an ce m en ts   u s in g   g r o u p   co n v o lu tio n s   an d   r esid u al  m o d u les.  Ma s k - awa r FE R   ap p r o ac h es  h a v em er g ed   r ec en tly .   On s tu d y   u s ed   C NNs  o n   s y n th etica lly   m a s k ed   Af f ec tNet  d ata,   m er g in g   em o tio n   class es  to   ad d r ess   o cc lu s io n   a n d   ac h iev ed   9 6 tr ai n in g   ac c u r ac y   an d   7 0 v alid atio n   ac cu r ac y   [ 1 1 ] .   AC NN  [ 2 3 ]   was   in tr o d u ce d   to   ass ig n   ad ap tiv e   weig h ts   to   f ac ial  r eg io n   o f   i n ter est s   ( R OI s ) ,   with   v ar ian ts   lik p AC NN  an d   g AC NN  in teg r atin g   lo ca l a n d   g lo b al  f ea tu r es.  R ec en t w o r k   c o m b in ed   f ac p ar s in g   with   ViT - b ased   class if ier   u s in g   cr o s s - atten tio n   to   d if f e r en tiate  m ask ed   an d   v is ib le  r e g io n s ,   o u tp e r f o r m in g   o th e r   m eth o d s   o n   d atasets   lik M - L FW - FER  an d   M - F E R - 2013  [ 2 4 ] .   Ou r   p a p er   u tili ze s   th ca p ab ilit ies  o f   ViT s   s elf - atten tio n   to   im p r o v FER  u n d er   m ask   o c clu s io n ,   u s in g   s y n th etica lly   m ask ed   Af f ec tNet  d ata  an d   c lass   r ec ateg o r izatio n   f o llo win g   Ma g h er in et  a l.   [ 1 1 ] .       3.   ViT - B A SE F E F RA M E WO RK   Fig u r 1   illu s tr ates  th o v e r all  f r am ewo r k   o f   th e   p r o p o s ed   ViT - b ased   FER  m o d el  f o r   m a s k ed   f ac ial  im ag es.  T h f r am ewo r k   i n clu d es  d ata  c o llectio n   f r o m   t h Af f ec tNet  d ataset,   p r ep r o ce s s in g   u s in g   t h   m ask - th e - f ac ( MT F)  to o l,  f i n e - tu n in g   o f   th p r e - tr ai n ed   ViT   m o d el,   an d   f in al  ev alu at io n   u s in g   s tan d ar d   m etr ics ( p r ec is io n ,   r ec all,   ac c u r ac y ,   an d   F1   s co r e) .           Fig u r 1 .   W o r k f lo o f   t h p r o p o s ed   FER f r am ewo r k   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         F a cia l e mo tio n   r ec o g n itio n   u n d er fa ce   ma s o cc lu s io n   u s in g   visi o n     ( A s h r a f Yu n is   Ma g h a r i )   397   3 . 1 .     Da t a   c o llect io n   Af f ec tNet   co n tain s   o v er   o n m illi o n   f ac ial  im ag es  co llected   f r o m   th I n ter n et  b y   q u er y in g   th r ee   s ea r ch   en g in es.  Ab o u h al f   o f   th r etr iev e d   im ag es,  a r o u n d   4 5 0   th o u s an d s   wer m a n u ally   an n o tated   f o r   elev en   ca teg o r ies;   n eu tr al,   h a p p y ,   s ad ,   s u r p r is e,   f ea r ,   an g e r ,   d is g u s t,  co n tem p t,  n o n e,   u n c er tain ,   an d   n o n - f ac ( h No n ( No n o f   th ei g h t e m o tio n s )   [ 2 5 ] .   T h ese  ca teg o r ie s   ar s h o wn   in   Fig u r e   2   Af f ec tNet  is   wid ely   u s ed   in   f ac ial  ex p r ess io n   r ec o g n itio n   d u to   its   s ca le  an d   d iv er s it y ,   o f f er in g   ar o u n d   4 5 0 im ag es  [ 2 5 ]   f ilt er ed   f r o m   1 2 0 GB   o f   d ata.   W ith   f ac m ask s   o cc lu d in g   k e y   f ea tu r es,  em o tio n   class if icatio n   b ec o m es  d if f icu lt.  T h er ef o r e ,   f iv class es  ( An g er - Dis g u s t,  Fear - Su r p r is e,   H ap p in ess ,   Sad n ess ,   an d   Neu tr al)   wer cr ea ted   b y   m er g in g   s im ilar   ex p r ess io n s ,   as  s h o wn   in   Fig u r 3 .   T h is   r ec lass if icatio n   im p r o v es  r ec o g n itio n   u n d e r   m ask   o cc lu s io n .   T h e   f in al  d is tr ib u tio n   o f   th ese  f iv e   class es  is   s h o wn   in   T ab le  1 an d   s tr atif ied   s am p lin g   e n s u r ed   b alan ce   ac r o s s   tr ain in g ,   v a lid atio n ,   an d   test   s ets.    I is   w o r th   n o tin g   th at,   i n   ad d itio n   to   Af f ec tNet,   o th er   d atasets   lik FER2 0 1 3 ,   J AFF E ,   an d   C K+   ca n   also   b co n s id er ed   f o r   em o tio n   r ec o g n itio n .   T h ese  d atasets   m ay   b e   u s ed   al o n o r   c o m b in e d   with   Af f ec tNet  to   im p r o v e   m o d el  p e r f o r m an ce .   I n   th is   s tu d y ,   Af f ec tNet  was  ch o s en   d u to   its   s ig n if ican tly   l ar g er   n u m b e r   o f   f ac ial  im ag es ,   m o r d iv er s an d   f in e - g r ain e d   em o tio n   lab els  ( s ev en   em o tio n s an g er ,   d is g u s t,  f ea r ,   h a p p in ess ,   s ad n ess ,   s u r p r is e,   an d   n e u tr al) ,   an d   r ea l - wo r ld   im ag co n d iti o n s .   T h ese  ad v an tag es  m ak it  m o r s u itab le  f o r   b u ild in g   r o b u s an d   s ca lab le  FER s y s tem s .           Fig u r e   2 .   Sam p le  im a g es f r o m   th Af f ec tNet  d ataset  [ 2 5 ]           Fig u r e   3 .   R eo r g an ized   em o tio n   class es: An g er +D is g u s t a n d   Fear +Su r p r is e       T ab le   1 .   Sam p les p er   class   af ter   m er g in g   Af f ec tNet  ca teg o r ies   Ex p r e ssi o n   C a t e g o r y   N u mb e r   N e u t r a l   8 0 2 7 6   H a p p y   1 4 6 1 9 8   S a d   2 9 4 8 7   F e a r - S u r p r i se   2 4 4 7 9   A n g e r - D i sg u st   3 3 3 9 4   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 :   3 9 5 - 403   398   3 . 2 .     Da t a   p re pro ce s s ing   T h p r ep r o ce s s in g   s tep   f o c u s es  o n   s im u latin g   r ea l - wo r ld   m a s k   s ce n ar io s   b y   m ask in g   th e   f ac im ag es  in   th d ataset.   T h is   s tep   i s   cr u cial  f o r   ad ap tin g   th m o d el  to   em o tio n   r ec o g n itio n   u n d er   p a r tial f ac ial  o cc lu s io n   ca u s ed   b y   m ask   u s ag e.   On c o m m o n ly   u s ed   to o l is th "m as k   th f ac e"   ( MT F)  to o [ 2 6 ] ,   d ep icted   in   Fig u r 4 .           Fig u r e   4 .   W o r k f lo o f   th “M ask   th FAC E ”  ( MT F)  to o l       3 . 3 .     ViT   m o del  f inet un ing   I n   th is   s tep ,   p r e - tr ain e d   ViT   m o d el  is   f in e - tu n e d   u s in g   th au g m en te d   Af f ec tNet  d at aset  with   s y n th etic  m ask s .   Fin e - tu n in g   in v o lv es f u r th e r   tr ain in g   t h m o d el  o n   th e   m ask ed   im ag es  to   r ef in its   ca p a b ilit y   to   th m ask ed   em o tio n   r ec o g n itio n   task .     3 . 3 . 1 Vis io t ra ns f o rm er   a r chit ec t ure   T h v is io n   tr an s f o r m e r   ( ViT )   is   d ee p   lear n in g   m o d el  th at  h as  s h o wn   s tate - of - th e - ar p er f o r m an ce   in   class if icatio n   ta s k s   [ 1 3 ] .   Or ig in ally   d ev elo p ed   f o r   NL P,   ViT   later   p r o v ed   ef f icien in   v is io n   task s   [ 1 4 ] [ 2 7 ] .   I co n s is ts   o f   p atch   em b ed d in g   m o d u le  th at  s p lits   th im ag in to   p atc h es  an d   f latte n s   th em   in to   to k e n s ,   f o llo wed   b y   tr a n s f o r m e r   e n c o d er   co m p o s ed   o f   m u lti - h ea d   s elf - atten tio n   an d   f ee d f o r war d   lay er s .   E ac h   p atch   is   lin ea r ly   p r o jecte d ,   an d   t h a tten tio n   m ec h an is m   c o m p u tes  weig h ted   s u m   ac r o s s   p atch es.   On k ey   ad v an tag o f   ViT   is   lear n in g   d ir ec tly   f r o m   d ata  with o u m an u al  f ea tu r e n g in ee r in g .   I h as   d em o n s tr ated   s tr o n g   p er f o r m an ce   o n   d atasets   lik I m ag eNe [ 2 8 ] ,   m a k in g   it  co m p e titi v alter n ativ to   tr ad itio n al  d ee p   lear n in g   m o d els.  Fo r   FER,  th s elf - atten tio n   m ec h an is m   is   b en ef icial  in   ca p tu r in g   f ea tu r es   f r o m   p ar tially   o cc lu d ed   f ac ial  im ag es,  s u ch   as th o s with   f ac m ask s .     3 . 3 . 2 F ine - t un ing   s t eps   p r e - tr ai n ed   ViT   m o d el  was  f in e - tu n ed   u s in g   th m ask ed   Af f ec tNet  d ataset  to   r ec o g n iz em o tio n s   u n d er   o cc lu s io n .   T h s tep s   in c lu d e:     Mo d el  s elec tio n : A   p r e - tr ain e d   ViT   m o d el  was c h o s en   b ased   o n   a r ch itectu r a n d   p r io r   p er f o r m an ce .     I n itializatio n T h m o d el' s   p ar am eter s ,   lear n ed   f r o m   lar g d atasets   lik I m ag eNe t,  wer u s ed   as  s tar tin g   p o in t.     Hy p er p ar a m eter   tu n in g : L ea r n in g   r ate,   b atc h   s ize,   an d   r eg u la r izatio n   wer ad ju s ted   e x p er i m en tally .     F i n e - t u n i n g :   T h e   m o d e l   w a s   t r a i n e d   o n   t h e   m a s k e d   d a t a s e t   u s i n g   b a c k p r o p a g a t i o n   t o   o p t i m i z e   c l a s s i f i ca t i o n   a c c u r a c y .   T h i s   p r o c e s s   h e l p s   t h e   V i T   m o d e l   l e a r n   t h e   l i n k   b e t w e e n   m a s k e d   f a c i a l   f e a t u r e s   a n d   t h e   r e c a t e g o r i z e d   e m o t i o n s .   An   ex am p le   o f   f ea t u r e x tr ac tio n   b y   th e   f in e - tu n e d   ViT   m o d el   is   s h o wn   in   Fig u r 5 .   T h is   atten tio n   m ap   was  ex tr ac ted   f r o m   th f i n al  s elf - atten tio n   lay er   o f   th ViT   m o d el  u s in g   v is u aliza tio n   to o ls   p r o v id ed   b y   th h u g g in g   f ac tr a n s f o r m er s   lib r ar y ,   an d   it  h ig h lig h ts   th f ac ial  r eg io n s   ( p r im ar ily   th e y ar ea )   t h at  m o s t   in f lu en ce   th m o d el’ s   d ec is io n - m ak in g   p r o ce s s .     3 . 4 .     E v a lua t i o n   T h ev alu atio n   p r o ce s s   ty p ically   co m p r is es th f o llo win g   k e y   co m p o n en t:     T est d ataset: I n clu d es d iv er s f ac ial  ex p r ess io n s   with   m ask s ,   s im u latin g   r ea l - wo r ld   s ce n ar i o s .     Pre d ictio n s : T h m o d el  o u tp u ts   p r o b ab ilit y   d is tr ib u tio n s   o v e r   em o tio n   class es.     Me tr ics:   Pre cisi o n ,   R ec all,   Ac cu r ac y ,   a n d   F1   Sco r e .     Mo d el   co m p ar is o n :   T h e   ViT - b ased   FER  m o d el  is   co m p ar e d   with   b aselin an d   s tate - of - th e - ar m eth o d s   to   v alid ate  im p r o v em en ts .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         F a cia l e mo tio n   r ec o g n itio n   u n d er fa ce   ma s o cc lu s io n   u s in g   visi o n     ( A s h r a f Yu n is   Ma g h a r i )   399   Usi n g   th ese  ev alu atio n   m etr ics  ca n   q u an titativ ely   m ea s u r th ac cu r ac y   an d   ef f ec tiv e n ess   o f   th f in e - tu n ed   ViT   m o d el  in   r ec o g n izin g   em o tio n s   u n d e r   f ac m ask .           Fig u r e   5 .   Atten tio n   m ap   f r o m   th f in al  lay er   o f   th ViT   m o d el,   h ig h lig h tin g   f ac ial  r e g io n s   ( m ain ly   th e y es)  th at  g u id ed   th p r e d ictio n .   Vis u alize d   u s in g   Hu g g in g   Face   to o ls       3 . 5 .   E x perim ent a env ir o nm ent   s et up   T h p r o p o s ed   f r am ewo r k   was  im p lem en ted   in   th Go o g le   C o lab   Pro   en v ir o n m en wit h   g r ap h ics  p r o ce s s in g   u n it  ( GPU)   ac ce l er atio n   ( T esla  T 4 ) .   A n   o v er v iew  o f   th e   co m p u tatio n al  s et u p   is   illu s tr ated   in   Fig u r 6 ,   wh ile  th e   d etailed   d e s cr ip tio n   o f   th e   ex p e r im en tal  e n v ir o n m en t is p r o v id ed   i n   s ec tio n   4 . 1 .             Fig u r e   6 .   E x p er im e n tal  en v ir o n m en t setu p th in te g r atio n   o f   Go o g le  C o lab   Pro ,   GPU  r eso u r ce s ,   an d   t h k ey   lib r ar ies u s ed   to   tr ain   a n d   ev al u ate  th ViT - b ased   FER m o d e l       4.   RE SU L T S AN D I SCU SS I O N   4 . 1 .     E x perim ent s   env iro nm e nt   T h ex p er im en ts   wer im p le m en ted   in   th Go o g le  C o lab   Pro   en v ir o n m e n with   GPU  a cc eler atio n   ( T esla  T 4 ) .   C o lab   Pro   p r o v id es  h ig h - p er f o r m an ce   r eso u r ce s   with   p r e - in s talled   f r am ewo r k s   s u ch   as  Py T o r ch   an d   T en s o r Flo w,   alo n g   with   s u p p o r tin g   lib r ar ies  f o r   p r ep r o ce s s in g   an d   v is u aliza tio n .   T h is   s etu p   en s u r ed   ef f icien t tr ain in g   an d   r ep r o d u c ib ilit y   o f   th ex p er im en tal  r esu lts .     4 . 2 .     E x perim ent   d a t a s et   T o   ad d r ess   th f ea tu r lo s s   f r o m   f ac m ask s ,   th o r ig in al  eig h em o tio n   class es  in   Af f ec tNet  wer e   r estru ctu r ed   in to   f iv e   ( an g er - d is g u s t,  f ea r - s u r p r is e,   h ap p in ess ,   s ad n ess ,   an d   n eu tr al ) ,   as   s h o wn   in   Fig u r 7 Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 :   3 9 5 - 403   400   T h is   r ec ateg o r izatio n   e n s u r ed   r ec o g n itio n   o f   k ey   em o tio n s   d esp ite  o cc lu s io n .   T h d ataset  ( 3 2 0 im a g es)   was sp lit to   8 5 % f o r   tr ain in g ,   an d   1 5 % f o r   v alid atio n .     4 . 3 .     I m ple m ent a t io d et a ils   I n   th is   s ec tio n ,   th im p lem en tatio n   s ettin g s   u s ed   d u r in g   th f in e - tu n in g   p r o ce s s   o f   th ViT   m o d el  ar d etailed .   T h e   p r o p o s ed   m o d el   was  im p lem en ted   u s in g   Py T o r ch   L ig h tn in g   an d   f i n e - tu n e d   i n   th G o o g le   C o lab   Pro   en v ir o n m en t w ith   ac ce s s   to   T esla T 4   GPU.   W u s ed   th p r etr ain ed   ViT - lar g e - p atch 1 6 - 2 2 4 - in 2 1 k   m o d el  f r o m   Hu g g in g   Face   an d   tr ain ed   it  o n   th m ask ed   Af f ec tNet  d ataset  ca teg o r ized   in to   f i v em o tio n   class es.  T r ain in g   was  co n d u cted   f o r   3   ep o ch s   with   lear n i n g   r at o f   2 e - 5 ,   u s in g   th e   Ad am   o p tim izer   an d   m ix e d   p r ec is io n   ( 1 6 - b it).   T h d atas et  was  s p lit  in to   8 5 f o r   tr ain in g   a n d   1 5 f o r   v alid ati o n ,   u s in g   s tr atif ied   s am p lin g .   E v alu atio n   m etr ics  in clu d ed   ac c u r ac y ,   p r ec is io n ,   r ec all,   an d   F1   s co r e ,   co m p u ted   u s in g   m ac r o - av er ag in g   to   en s u r e   f air   co m p ar is o n   ac r o s s   all  class es.           Fig u r e   7 .   T h o r i g in al  Af f ec t Net  class e s   wer m er g ed ,   b ased   o n   v is u al  s im ilar ity ,   in to   f iv ca teg o r ies:   an g er - d is g u s t,  f ea r - s u r p r is e,   h ap p i n e s s ,   s ad n ess ,   an d   n eu tr al       4 . 4 .     Cho o s ing   t he  bes t   ViT   pret ra ined m o del   T h f ir s ex p er im en ev alu ated   s ev er al  p r e - tr ain ed   Vi T   ar ch itectu r es  f o r   m ask ed   em o tio n   r ec o g n itio n .   E ac h   m o d el  was  f in e - tu n e d   o n   t h d ataset  to   a d ap to   o cc l u s io n   ef f ec ts .   T h e   g o o g le/ViT - lar g e - p atch 1 6 - 224 - in 2 1 k   m o d el  ac h i ev ed   th h ig h est ac cu r ac y   o f   8 0 . 8 %.     4 . 5 .     Co m pa riso n wit h a   s t a t e - of - t he - a rt   CNN  mo del   T h is   ex p er im en co m p a r ed   th b est  ViT   m o d el  id en tifie d   i n   th p r ev io u s   ex p e r im en with   R esNet - 5 0 .   B o th   m o d els  wer e   f in e - tu n ed   o n   th s am e   m ask ed   f ac i al  d ataset  an d   ev al u ated   u s in g   p r ec is io n ,   r e ca ll,   ac cu r ac y ,   a n d   F1   s co r e.   As  s h o wn   in   T a b le  2 ,   th ViT   m o d el  o u tp e r f o r m s   R esNet - 5 0   in   all  m etr ics.  T h is   r esu lt c o n f ir m s   th ViT   s u p e r i o r ity   f o r   ac cu r ately   class if y in g   em o tio n s   in   th p r esen ce   o f   f a ce   m ask s .       T ab le   2 .   Per f o r m an ce   co m p a r is o n   o f   ViT   an d   R esNet - 50   M o d e l   /   M e tr i c   A c c u ra c y   P r e c i si o n   R e c a l l   F1   s co re   V i T - la r g e - p at c h 16 - 22 4 - i n 2 1 k   0 . 81   0 . 77   0 . 77   0 . 75   Res N et - 50   0 . 6 1   0 . 4 9   0 . 5 1   0 . 4 7       4 . 6 .     Co m pa riso n wit h   o t her  s t a t o f   t he  a rt   wo r k s   T o   f u r th e r   v alid ate  th e f f ec t iv en ess   o f   th p r o p o s ed   ViT   m o d el  f o r   FER  in   th p r esen ce   o f   f ac m ask s ,   we  co n d u cted   c o m p a r ativ an aly s is   with   o th er   s tate - of - th e - ar ap p r o ac h es.  T h e   co m p ar is o n   i n clu d es   C NNs  an d   ViT - b ased   ar ch it ec tu r es.  As  s h o wn   in   T a b le   3 ,   o u r   ViT - b ased   m o d el  ac h iev ed   th e   h ig h est  ac cu r ac y   ( 8 1 %)  am o n g   o th e r   co m p ar ed   m eth o d s .   T h is   u n d er s co r es  th ef f ec tiv en ess   o f   o u r   ap p r o ac h   in   ad d r ess in g   th ch allen g es o f   f ac ial  ex p r ess io n   r ec o g n itio n   ta s k s   u n d er   co n d itio n   o f   f ac ial  o cc lu s io n .       T ab le  3 .   C o m p a r is o n   to   o th er   s tate - of - th e - ar t w o r k s   W o r k   M o d e l   D a t a s e t   Y e a r   A c c u r a c y   O c c l u si o n   a w a r e   f a c i a l   e x p r e ssi o n   r e c o g n i t i o n   u si n g   C N N   w i t h   a t t e n t i o n   mec h a n i sm   [ 2 3 ]   C N N   F ED - RO   2 0 1 8   6 6 . 5 0 %   F a c e - ma sk - a w a r e   f a c i a l   e x p r e ssi o n   r e c o g n i t i o n   b a se d   o n   f a c e   p a r si n g   a n d   v i s i o n   t r a n sf o r m e r   [ 2 9 ]   V i T   M - F ER   2 0 1 3   a n d   M C K +   2 0 2 2   6 6 . 5 3 %   M a s k e d   f a c e   e m o t i o n   r e c o g n i t i o n   b a s e d   o n   f a c i a l   l a n d mar k s a n d   d e e p   l e a r n i n g   a p p r o a c h e s f o r   v i s u a l l y   i m p a i r e d   p e o p l e   [ 3 0 ]   C N N   A f f e c t N e t   2 0 2 3   6 9 . 3 %   Emo t i o n   r e c o g n i t i o n   i n   t h e   t i mes   o f   C O V I D 1 9 :   C o p i n g   w i t h   f a c e   mas k [ 1 1 ]   R e sN e t   A f f e c t N e t   2 0 2 2   7 0 %   Th e   p r o p o s e d   V i T - b a s e d   mo d e l   V i T   A f f e c t N e t   2 0 2 4   8 1 %   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         F a cia l e mo tio n   r ec o g n itio n   u n d er fa ce   ma s o cc lu s io n   u s in g   visi o n     ( A s h r a f Yu n is   Ma g h a r i )   401     4 . 7 .     Dis cus s io n   T h ex p er im e n tal  r esu lts   r ev ea led   th at  th v is io n   tr an s f o r m er   ( ViT )   m o d el  o u t p er f o r m ed   s tate - of - th e - ar im ag class if icatio n   m eth o d s ,   v alid atin g   th clai m s   m ad b y   Do s o v its k iy   et  a l.   [ 1 3 ] .   T h eir   g r o u n d b r ea k in g   wo r k   d e m o n s tr ated   th e   ef f ec tiv en ess   o f   Vi T   m o d els  i n   ca p t u r in g   s p atial  r elatio n s h ip s   a n d   g lo b al  co n te x t,  lead in g   to   s u p er io r   p er f o r m a n ce   in   task s   s u ch   as  em o tio n   r ec o g n itio n .   M o r eo v er ,   o u r   f in d in g s   s h o wed   th at  th ViT   m o d el  a ch iev ed   co m p ar ab le  r esu lts   to   th m eth o d   p r o p o s ed   b y   Ma g h er in et  a l.   [ 1 1 ] d esp ite  o f   u s in g   o n ly   s m alle r   s u b s et  o f   Af f ec tNet  d ataset.   T h is   f in d in g   h ig h lig h ts   th Vi T   m o d el  ef f icie n cy   in   u tili zin g   d ata  r eso u r ce s   to   p r o d u ce   co m p etitiv p er f o r m a n ce   co m p a r ed   to   R esNet - 5 0   wh ich   r eq u ir es  v ast  am o u n o f   d ata  a n d   ex te n s iv co m p u tin g   tim e.   F u r t h e r m o r e ,   b a s e d   o n   t h e   t r a i n i n g   e n v i r o n m e n t   u s e d   i n   t h i s   s t u d y   ( G o o g l e   C o l a b   P r o   w i th   T e s l a   T 4   G P U ) ,   t h e   e s t i m a te d   i n f e r e n c e   t i m e   p e r   i m a g e   f o r   t h e   f i n e - t u n e d   V i T - l a r g e - p a t c h 1 6 - 224 - i n 2 1 k   m o d e l   i s   a p p r o x i m a t e l y   1 8 2 2   m i l l is e co n d s .   T h i s   p e r f o r m a n c e   i n d i ca t e s   t h a t   t h e   m o d el   is   c a p a b le   o f   n e a r   r e a l - t i m e m o t i o n   r e c o g n i t i o n ,   m a k i n g   it   s u it a b l e   f o r   d e p l o y m e n i n   p r a c t i c al   a p p l i ca t i o n s .    T h e   p a tch - b a s e d   p r o c e s s i n g   a n d   s e l f - a tt e n t i o n   m e c h a n is m   em p l o y e d   b y   t h e   v i s i o n   t r a n s f o r m e r   c o n t r i b u t e   n o t   o n l y   t o   it s   ac c u r a c y ,   b u t   a l s o   t o   i t s   c o m p u t a ti o n a l   e f f i c i e n c y .   T h e s e   a d v a n t a g e s   m a k e   t h e   m o d e l   w e l l - s u i t e d   f o r   e n v i r o n m e n t s   w i t h   l i m i t e d   r e s o u r c e s ,   s u c h   a s   m o b il e   d e v ic e s   o r   e m b e d d e d   s y s t e m s ,   w h er e   b o t h   s p e e d   a n d   p e r f o r m a n c e   a r e   c r i t i ca l .   On o f   th ad v an tag es  o f   th ViT   m o d el  th at  b ec am ev id en d u r i n g   o u r   ex p er im e n ts   was   it s   r elativ ely   f aster   ex ec u tio n   ti m co m p ar e d   to   tr ad itio n al  C NN   ar ch itectu r es.  Mo r eo v e r ,   th s elf - atten tio n   m ec h an is m   allo ws  it  t o   ca p tu r l o n g - r an g e   d e p en d e n c ies  in   th e   im ag e,   elim in ati n g   th e   n ee d   f o r   co m p u tatio n ally   ex p en s iv c o n v o lu ti o n al  o p er atio n s .   T h i s   ad v an tag e   n o t   o n l y   ac ce le r ates  tr ain in g   a n d   in f er en ce   b u also   m ak es  Vi T   m o d els  m o r s ca lab le  t o   l ar g er   d atasets   an d   co m p u tati o n ally   co n s tr ain ed   en v ir o n m en ts .   Ad d itio n ally ,   th ViT   m o d el' s   ab ilit y   to   o u tp er f o r m   ex is tin g   s tate - of - t h e - ar m eth o d s   an d   ac h iev b etter   p er f o r m a n ce   with   r ed u ce d   d atab ase  s ize  d em o n s tr ates  its   p o ten tial  as   p o wer f u im ag e   class if icatio n   to o l.  As  we  co n tin u to   e x p lo r e   an d   r ef in th ViT   ar ch itectu r e,   we  ca n   an ticip ate  f u r th e r   im p r o v em e n ts   in   ac cu r ac y ,   g e n er aliza tio n ,   an d   ef f icien c y ,   o p en in g   u p   n ew  p o s s ib ilit ies  in   v ar io u s   co m p u te r   v is io n   task s .       5.   CO NCLU SI O N   I n   th is   p ap e r ,   we  em p lo y ed   ViT   f o r   f ac ial  e m o tio n   r ec o g n itio n   u n d er   m ask   o cc lu s io n .   T r ad itio n al  f ac ial  em o tio n   r ec o g n itio n   h as   b ee n   p r im ar ily   b ased   o n   v is ib ilit y   o f   th f ac e .   T o   co n d u ct  o u r   ex p er im en ts ,   th e   Af f ec tNet  d ataset,   wh ich   c o n tain s   lar g e   co llectio n   o f   em o tio n al  f ac ial   im ag es,  h as  b ee n   u s ed .   n ew   ap p r o ac h   is   u s ed   to   s im u late  r ea l - wo r ld   co n d itio n s   o f   wea r i n g   f ac m ask s .   W au g m en te d   th im ag es  in   th e   Af f ec tNet  d ataset  b y   ad d in g   f ac m ask s   u s in g   cu s to m   s cr i p t.  T h is   au g m e n tatio n   was  ess en tial  to   en s u r th at  o u r   ViT - b ased   FER  m o d el  w o u ld   b e   ex p o s ed   to   th e   ch allen g es  p o s ed   b y   p a r tially   o cc lu d e d   f ac es,  r e p licatin g   th co n d itio n s   we  en co u n ter   in   o u r   d aily   liv es.   Su b s eq u en tly ,   we  f in etu n e d   an d   ev alu ated   o u r   ViT - b ased   m o d el  o n   th is   au g m en ted   d ataset.   T h r esu lts   o f   o u r   ex p er im e n ts   wer q u ite  p r o m is in g ,   as  o u r   p r o p o s ed   m eth o d   ac h iev e d   an   ac cu r ac y   o f   8 1 %.  T h is   f in d in g   d em o n s tr ates  th r e m ar k ab le  ca p ab ilit y   o f   ViT   m o d els  to   ac cu r ately   r ec o g n ize   e m o tio n s   ev e n   wh e n   th f ac is   p ar tially   o cc lu d ed   b y   m ask .   T h is   is   p ar ticu lar l y   s ig n if ican in   th e   co n tex o f   o u r   c u r r en tim es,   wh er m ask - wea r in g   is   p r ev al en t a n d   ess en tial f o r   p u b lic  h e alth .   I n   o r d er   to   ev alu ate  o u r   p r o p o s ed   m o d el,   we   e m p lo y e d   v ar io u s   ev alu atio n   m etr ic s ,   s u ch   as  ac cu r ac y ,   F1 - s co r e,   an d   r ec all .   T h ese  m etr ics  g av u s   m o r q u alitativ in f o r m atio n   o n   th e   m o d el’ s   a b ilit y   to   p r ed ict   p o s itiv em o tio n s ,   as  well  a s   o n   th d is tr ib u tio n   o f   th em o tio n s   in   th d ataset.   Mo r eo v er ,   we  co m p ar t h ef f icien cy   o f   o u r   p r o p o s ed   ViT - b ased   m o d el   with   o th er   s tate - of - th e - a r m eth o d s   f o r   m ask ed   f ac ial  em o tio n   r ec o g n itio n .   T h r esu lts   s h o wed   th at   th e   ViT - b ased   m o d el   o u tp e r f o r m ed   o th er   tec h n iq u es   in   th f ield   o f   FER  ap p licatio n .   Fo r   f u tu r wo r k ,   th FER  s y s t em   ca n   b im p r o v ed   b y   o p tim izin g   th ViT   m o d el   f o r   m ask ed   f ac es,  u s in g   lar g e r   an d   m o r d iv er s d atasets   to   im p r o v e   g en e r aliza tio n ,   a n d   ex p lo r in g   h o w   th e   tr ain ed   ViT   m o d el  ca n   b e   ad a p ted   to   o t h er   task s   lik f ac ial  e x p r ess io n   an aly s is .       F UNDING   I NF O R M A T I O N   T h is   p ap er   is   p a r tially   s u p p o r ted   b y   th d ea n   o f   h ig h er   s t u d ies  an d   s cien tific   r esear ch   at  I s lam ic   Un iv er s ity   o f   Gaz a.       AUTHO CO NT RI B UT I O NS ST A T E M E N T   T h is   jo u r n al  u s es  th C o n tr ib u to r   R o les  T ax o n o m y   ( C R ed iT)   to   r ec o g n ize  in d iv id u al  au th o r   co n tr ib u tio n s ,   r ed u ce   au th o r s h ip   d is p u tes,  an d   f ac ilit ate  co llab o r atio n .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 :   3 9 5 - 403   402   Na m o f   Aut ho r   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   Ash r af   Yu n is   Ma g h ar i                               Am ee r   M.   T elb an i                                 C     C o n c e p t u a l i z a t i o n   M     M e t h o d o l o g y   So     So f t w a r e   Va     Va l i d a t i o n   Fo     Fo r mal   a n a l y s i s   I     I n v e s t i g a t i o n   R     R e so u r c e s   D   :   D a t a   C u r a t i o n   O   :   W r i t i n g   -   O r i g i n a l   D r a f t   E   :   W r i t i n g   -   R e v i e w   &   E d i t i n g   Vi     Vi su a l i z a t i o n   Su     Su p e r v i s i o n   P     P r o j e c t   a d mi n i st r a t i o n   Fu     Fu n d i n g   a c q u i si t i o n         CO NF L I C T   O F   I N T E R E S T   ST A T E M E NT   T h au th o r s   d ec lar th at  th e y   h av n o   co n f lict o f   in ter est.       DATA AV AI L AB I L I T   D a t a   a v a il a b i li t y   is   n o t   a p p l i ca b l e   t o   t h is   p a p e r   a s   n o   n e w   d at w e r e   c r e a t e d   o r   a n al y z e d   i n   t h is   s t u d y .       RE F E R E NC E S   [ 1 ]   Y .   L.   Ti a n ,   T.   K a n a d e ,   a n d   J .   F .   C o n n ,   R e c o g n i z i n g   a c t i o n   u n i t f o r   f a c i a l   e x p r e ss i o n   a n a l y si s ,   I EEE  T r a n sa c t i o n o n   Pa t t e rn   An a l y si a n d   M a c h i n e   I n t e l l i g e n c e ,   v o l .   2 3 ,   n o .   2 ,   p p .   9 7 1 1 5 ,   2 0 0 1 ,   d o i :   1 0 . 1 1 0 9 / 3 4 . 9 0 8 9 6 2 .   [ 2 ]   Y .   H u a n g ,   F .   C h e n ,   S .   Lv ,   a n d   X .   W a n g ,   F a c i a l   e x p r e ssi o n   r e c o g n i t i o n :   a   su r v e y ,   S y m m e t r y ,   v o l .   1 1 ,   n o .   1 0 ,   p .   1 1 8 9 ,   S e p .   2 0 1 9 ,   d o i :   1 0 . 3 3 9 0 / s y m 1 1 1 0 1 1 8 9 .   [ 3 ]   S .   D u ,   Y .   Ta o ,   a n d   A .   M .   M a r t i n e z ,   C o m p o u n d   f a c i a l   e x p r e ssi o n s o f   e mo t i o n ,   Pr o c e e d i n g o f   t h e   N a t i o n a l   A c a d e m y   o f   S c i e n c e s   o f   t h e   U n i t e d   S t a t e o f   Am e r i c a ,   v o l .   1 1 1 ,   n o .   1 5 ,   p p .   E 1 4 5 4 E 1 4 6 2 ,   2 0 1 4 ,   d o i :   1 0 . 1 0 7 3 / p n a s. 1 3 2 2 3 5 5 1 1 1 .   [ 4 ]   S .   Li   a n d   W .   D e n g ,   D e e p   f a c i a l   e x p r e ssi o n   r e c o g n i t i o n :   A   su r v e y ,   I EE E   T ra n sa c t i o n o n   A f f e c t i v e   C o m p u t i n g ,   v o l .   1 3 ,   n o .   3 ,   p p .   1 1 9 5 1 2 1 5 ,   2 0 2 2 ,   d o i :   1 0 . 1 1 0 9 / T A F F C . 2 0 2 0 . 2 9 8 1 4 4 6 .   [ 5 ]   W .   M e l l o u k   a n d   W .   H a n d o u z i ,   F a c i a l   e m o t i o n   r e c o g n i t i o n   u si n g   d e e p   l e a r n i n g :   r e v i e w   a n d   i n s i g h t s ,   Pro c e d i a   C o m p u t e r   S c i e n c e ,   v o l .   1 7 5 ,   p p .   6 8 9 6 9 4 ,   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . p r o c s. 2 0 2 0 . 0 7 . 1 0 1 .   [ 6 ]   H .   P .   W e i ,   Y .   Y .   D e n g ,   F .   T a n g ,   X .   J.  P a n ,   a n d   W .   M .   D o n g ,   A   c o m p a r a t i v e   s t u d y   o f   C N N - a n d   t r a n sf o r mer - b a s e d   v i s u a l   st y l e   t r a n sf e r ,   J o u r n a l   o f   C o m p u t e r   S c i e n c e   a n d   T e c h n o l o g y ,   v o l .   3 7 ,   n o .   3 ,   p p .   6 0 1 6 1 4 ,   2 0 2 2 ,   d o i :   1 0 . 1 0 0 7 / s 1 1 3 9 0 - 0 2 2 - 2 1 4 0 - 7.   [ 7 ]   K .   F e n g   a n d   T.   C h a s p a r i ,   A   r e v i e w   o f   g e n e r a l i z a b l e   t r a n sf e r   l e a r n i n g   i n   a u t o ma t i c   e mo t i o n   r e c o g n i t i o n ,   Fro n t i e rs  i n   C o m p u t e r   S c i e n c e ,   v o l .   2 ,   n o .   9 ,   F e b .   2 0 2 0 ,   d o i :   1 0 . 3 3 8 9 / f c o mp . 2 0 2 0 . 0 0 0 0 9 .   [ 8 ]   L.   Zh a n g ,   B .   V e r ma ,   D .   Tj o n d r o n e g o r o ,   a n d   V .   C h a n d r a n ,   F a c i a l   e x p r e ss i o n   a n a l y s i s   u n d e r   p a r t i a l   o c c l u si o n :   A   su r v e y ,   AC M   C o m p u t i n g   S u r v e y s ,   v o l .   5 1 ,   n o .   2 ,   p p .   1 4 9 ,   2 0 1 9 ,   d o i :   1 0 . 1 1 4 5 / 3 1 5 8 3 6 9 .   [ 9 ]   B .   Y a n g ,   J.   W u ,   a n d   G .   H a t t o r i ,   F a c i a l   e x p r e s si o n   r e c o g n i t i o n   w i t h   t h e   a d v e n t   o f   f a c e   mas k s,   i n   A C M   I n t e r n a t i o n a l   C o n f e r e n c e   Pro c e e d i n g   S e r i e s ,   2 0 2 0 ,   p p .   3 3 5 3 3 7 ,   d o i :   1 0 . 1 1 4 5 / 3 4 2 8 3 6 1 . 3 4 3 2 0 7 5 .   [ 1 0 ]   G .   C a st e l l a n o ,   B .   D e   C a r o l i s,  a n d   N .   M a c c h i a r u l o ,   A u t o ma t i c   f a c i a l   e m o t i o n   r e c o g n i t i o n   a t   t h e   C O V I D - 1 9   p a n d e mi c   t i m e ,   Mu l t i m e d i a   T o o l a n d   Ap p l i c a t i o n s ,   v o l .   8 2 ,   n o .   9 ,   p p .   1 2 7 5 1 1 2 7 6 9 ,   2 0 2 3 ,   d o i :   1 0 . 1 0 0 7 / s 1 1 0 4 2 - 022 - 1 4 0 5 0 - 0.   [ 1 1 ]   R .   M a g h e r i n i ,   E.   M u ssi ,   M .   S e r v i ,   a n d   Y .   V o l p e ,   Em o t i o n   r e c o g n i t i o n   i n   t h e   t i m e o f   C O V I D 1 9 :   C o p i n g   w i t h   f a c e   mas k s,”   I n t e l l i g e n t   S y s t e m s   w i t h   A p p l i c a t i o n s ,   v o l .   1 5 ,   p .   2 0 0 0 9 4 ,   2 0 2 2 ,   d o i :   1 0 . 1 0 1 6 / j . i sw a . 2 0 2 2 . 2 0 0 0 9 4 .   [ 1 2 ]   Q .   Y a n g ,   Y .   Zh a n g ,   W .   D a i ,   a n d   S .   J .   P a n ,   T ra n sf e l e a r n i n g .   C a m b r i d g e   U n i v e r s i t y   P r e ss ,   2 0 2 0 .   [ 1 3 ]   A .   D o so v i t s k i y   e t   a l . ,   A n   i m a g e   i s   w o r t h   1 6 x 1 6   w o r d s:   t r a n sf o r m e r f o r   i ma g e   r e c o g n i t i o n   a t   sc a l e ,   a rX i v   p re p ri n t   a rXi v : 2 0 1 0 . 1 1 9 2 9 ,   2 0 2 0 .   [ 1 4 ]   A .   F .   A l n a b i h   a n d   A .   Y .   M a g h a r i ,   A r a b i c   s i g n   l a n g u a g e   l e t t e r r e c o g n i t i o n   u s i n g   v i si o n   t r a n sf o r mer,   Mu l t i m e d i a   T o o l s   a n d   Ap p l i c a t i o n s ,   v o l .   8 3 ,   n o .   3 4 ,   p p .   8 1 7 2 5 8 1 7 3 9 ,   2 0 2 4 ,   d o i :   1 0 . 1 0 0 7 / s 1 1 0 4 2 - 0 2 4 - 1 8 6 8 1 - 3.   [ 1 5 ]   Z.   H u a n g ,   Y .   Y u ,   a n d   C .   G o u ,   D r i v e r   f a c i a l   e x p r e ssi o n   r e c o g n i t i o n   b a s e d   o n   V i a n d   S t a r G A N ,   i n   Pr o c e e d i n g 2 0 2 1   I EEE  1 s t   I n t e r n a t i o n a l   C o n f e r e n c e   o n   D i g i t a l   T w i n s   a n d   P a r a l l e l   I n t e l l i g e n c e ,   D T PI   2 0 2 1 ,   2 0 2 1 ,   p p .   2 5 4 2 5 7 ,     d o i :   1 0 . 1 1 0 9 / D TPI 5 2 9 6 7 . 2 0 2 1 . 9 5 4 0 0 7 1 .   [ 1 6 ]   X .   F u ,   F a c i a l   e x p r e ss i o n   r e c o g n i t i o n   b a se d   o n   s q u e e z e   v i s i o n   t r a n sf o r mer ,   i n   Pr o c e e d i n g -   2 0 2 2   I n t e rn a t i o n a l   S y m p o s i u m   o n   Ad v a n c e i n   I n f o rm a t i c s ,   E l e c t r o n i c s   a n d   E d u c a t i o n ,   I S AI EE  2 0 2 2 ,   2 0 2 2 ,   v o l .   2 2 ,   n o .   1 0 ,   p p .   1 6 4 1 6 7 ,     d o i :   1 0 . 1 1 0 9 / I S A I EE5 7 4 2 0 . 2 0 2 2 . 0 0 0 4 2 .   [ 1 7 ]   N .   S .   F a t i ma   e t   a l . ,   E n h a n c e d   f a c i a l   e m o t i o n   r e c o g n i t i o n   u s i n g   v i si o n   t r a n sf o r m e r   m o d e l s ,   J o u r n a l   o f   El e c t r i c a l   E n g i n e e ri n g   a n d   T e c h n o l o g y ,   v o l .   2 0 ,   n o .   2 ,   p p .   1 1 4 3 1 1 5 2 ,   2 0 2 5 ,   d o i :   1 0 . 1 0 0 7 / s 4 2 8 3 5 - 0 2 4 - 0 2 1 1 8 - w.   [ 1 8 ]   I .   K o t s i a ,   I .   B u c i u ,   a n d   I .   P i t a s ,   A n   a n a l y si o f   f a c i a l   e x p r e ss i o n   r e c o g n i t i o n   u n d e r   p a r t i a l   f a c i a l   i ma g e   o c c l u si o n ,   I m a g e   a n d   Vi si o n   C o m p u t i n g ,   v o l .   2 6 ,   n o .   7 ,   p p .   1 0 5 2 1 0 6 7 ,   2 0 0 8 .   [ 1 9 ]   H .   A l a b si ,   A .   M .   A l a s h q a r ,   a n d   A .   M a g h a r i ,   W o ma n   h i j a b   d e t e c t i o n   u s i n g   t r a n sf e r   l e a r n i n g ,   J o u r n a l   o f   I n f o rm a t i o n   S y st e m s a n d   D i g i t a l   T e c h n o l o g i e s ,   v o l .   7 ,   n o .   1 ,   p p .   1 4 5 1 5 6 ,   2 0 2 5 .   [ 2 0 ]   H .   F e n g   a n d   J.  S h a o ,   F a c i a l   e x p r e ss i o n   r e c o g n i t i o n   b a s e d   o n   l o c a l   f e a t u r e o f   t r a n sf e r   l e a r n i n g ,   i n   Pr o c e e d i n g o f   2 0 2 0   I EEE   4 t h   I n f o rm a t i o n   T e c h n o l o g y ,   N e t w o rk i n g ,   El e c t r o n i c   a n d   A u t o m a t i o n   C o n t ro l   C o n f e r e n c e ,   I T N E C   2 0 2 0 ,   2 0 2 0 ,   v o l .   1 ,   p p .   7 1 7 6 ,   d o i :   1 0 . 1 1 0 9 / I TN EC 4 8 6 2 3 . 2 0 2 0 . 9 0 8 4 7 9 4 .   [ 2 1 ]   G .   W a n g   a n d   J.  G o n g ,   F a c i a l   e x p r e s si o n   r e c o g n i t i o n   b a se d   o n   i mp r o v e d   Le N e t - 5   C N N ,   i n   2 0 1 9   C h i n e se  C o n t ro l   A n d   D e c i si o n   C o n f e re n c e   ( C C D C ) ,   Ju n .   2 0 1 9 ,   p p .   5 6 5 5 5 6 6 0 ,   d o i :   1 0 . 1 1 0 9 / C C D C . 2 0 1 9 . 8 8 3 2 5 3 5 .   [ 2 2 ]   M .   C h e n ,   J.   C h e n g ,   Z .   Z h a n g ,   Y .   Li ,   a n d   Y .   Zh a n g ,   F a c i a l   e x p r e ss i o n   r e c o g n i t i o n   me t h o d   c o m b i n e d   w i t h   a t t e n t i o n   mec h a n i sm,   Mo b i l e   I n f o rm a t i o n   S y s t e m s ,   v o l .   2 0 2 1 ,   p p .   1 1 0 ,   S e p .   2 0 2 1 ,   d o i :   1 0 . 1 1 5 5 / 2 0 2 1 / 5 6 0 8 3 4 0 .   [ 2 3 ]   Y .   Li ,   J.   Z e n g ,   S .   S h a n ,   a n d   X .   C h e n ,   O c c l u si o n   a w a r e   f a c i a l   e x p r e ssi o n   r e c o g n i t i o n   u si n g   C N N   w i t h   a t t e n t i o n   m e c h a n i s m,”   I EEE  T r a n s a c t i o n o n   I m a g e   Pro c e ss i n g ,   v o l .   2 8 ,   n o .   5 ,   p p .   2 4 3 9 2 4 5 0 ,   M a y   2 0 1 9 ,   d o i :   1 0 . 1 1 0 9 / TI P . 2 0 1 8 . 2 8 8 6 7 6 7 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         F a cia l e mo tio n   r ec o g n itio n   u n d er fa ce   ma s o cc lu s io n   u s in g   visi o n     ( A s h r a f Yu n is   Ma g h a r i )   403   [ 2 4 ]   B .   Y a n g   e t   a l . ,   F a c e - mas k - a w a r e   f a c i a l   e x p r e ss i o n   r e c o g n i t i o n   b a s e d   o n   f a c e   p a r si n g   a n d   v i si o n   t r a n s f o r mer,”   Pa t t e r n   Re c o g n i t i o n   L e t t e rs ,   v o l .   1 6 4 ,   p p .   1 7 3 1 8 2 ,   2 0 2 2 ,   d o i :   1 0 . 1 0 1 6 / j . p a t r e c . 2 0 2 2 . 1 1 . 0 0 4 .   [ 2 5 ]   A .   M o l l a h o sse i n i ,   B .   H a sa n i ,   a n d   M .   H .   M a h o o r ,   A f f e c t N e t :   a   d a t a b a s e   f o r   f a c i a l   e x p r e ssi o n ,   v a l e n c e ,   a n d   a r o u sal   c o mp u t i n g   i t h e   w i l d ,   I E EE  T r a n sa c t i o n o n   A f f e c t i v e   C o m p u t i n g ,   v o l .   1 0 ,   n o .   1 ,   p p .   1 8 3 1 ,   J a n .   2 0 1 9 ,   d o i :   1 0 . 1 1 0 9 / TA F F C . 2 0 1 7 . 2 7 4 0 9 2 3 .   [ 2 6 ]   A .   A n w a r   a n d   A .   R a y c h o w d h u r y ,   M a sk e d   f a c e   r e c o g n i t i o n   f o r   s e c u r e   a u t h e n t i c a t i o n ,   a rX i v   p r e p r i n t   a rX i v : 2 0 0 8 . 1 1 1 0 4 ,   2 0 2 0 .   [ 2 7 ]   A .   V a sw a n i   e t   a l . ,   A t t e n t i o n   i s   a l l   y o u   n e e d ,   A d v a n c e i n   n e u r a l   i n f o rm a t i o n   p r o c e ssi n g   s y st e m s ,   2 0 1 7 .   [ 2 8 ]   J.  D e n g ,   W .   D o n g ,   R .   S o c h e r ,   L. - J.   Li ,   K a i   Li ,   a n d   Li   F e i - F e i ,   I mag e N e t :   A   l a r g e - s c a l e   h i e r a r c h i c a l   i ma g e   d a t a b a s e ,   i n   2 0 0 9   I EEE  C o n f e re n c e   o n   C o m p u t e Vi s i o n   a n d   P a t t e r n   R e c o g n i t i o n ,   Ju n .   2 0 0 9 ,   p p .   2 4 8 2 5 5 ,   d o i :   1 0 . 1 1 0 9 / C V P R . 2 0 0 9 . 5 2 0 6 8 4 8 .   [ 2 9 ]   B .   Y a n g ,   W .   J i a n mi n g ,   a n d   G .   H a t t o r i ,   F a c e   ma sk   a w a r e   r o b u s t   f a c i a l   e x p r e ssi o n   r e c o g n i t i o n   d u r i n g   t h e   C O V I D - 1 9   p a n d e m i c ,   i n   Pr o c e e d i n g -   I n t e r n a t i o n a l   C o n f e re n c e   o n   I m a g e   P ro c e ss i n g ,   I C I P ,   2 0 2 1 ,   v o l .   2 0 2 1 - S e p t e ,   p p .   2 4 0 2 4 4 ,     d o i :   1 0 . 1 1 0 9 / I C I P 4 2 9 2 8 . 2 0 2 1 . 9 5 0 6 0 4 7 .   [ 3 0 ]   M .   M u k h i d d i n o v ,   O .   D j u r a e v ,   F .   A k h me d o v ,   A .   M u k h a ma d i y e v ,   a n d   J.  C h o ,   M a s k e d   f a c e   e m o t i o n   r e c o g n i t i o n   b a se d   o n   f a c i a l   l a n d m a r k s   a n d   d e e p   l e a r n i n g   a p p r o a c h e s   f o r   v i s u a l l y   i mp a i r e d   p e o p l e ,   S e n s o rs ,   v o l .   2 3 ,   n o .   3 ,   p .   1 0 8 0 ,   2 0 2 3 ,     d o i :   1 0 . 3 3 9 0 / s 2 3 0 3 1 0 8 0 .       B I O G RAP H I E S O F   AUTH O RS       As h r a Yun is  M a g h a r i           is  a n   a ss o c iate   p ro fe ss o o c o m p u ter  sc ien c e   a th e   Isla m ic  Un iv e rsity   o G a z a   (IUG ) .   He   h o ld s   a   P h . D.  in   c o m p u ter  v isio n   a n d   ima g e   p r o c e ss in g   fro m   Un i v e rsiti   S a i n M a lay sia   (USM ).   He   h a e x ten si v e   re se a rc h   e x p e rien c e   i n   c o m p u ter   sc ien c e   field su c h   a d a ta  m in in g ,   ima g e   p ro c e ss in g ,   c o m p u ter  v i sio n ,   a n d   d e e p   lea rn i n g .   He   c a n   b e   c o n tac ted   a e m a il a m a g h a ri@i u g a z a . e d u . p s .         Am e e r   M.  Te lb a n         wa a   lec tu re in   th e   M u lt ime d ia  De p a rtme n a th e   Isla m ic   Un iv e rsity   o G a z a   (IUG ).   He   h e ld   a   M a ste r’s  d e g re e   in   i n fo rm a ti o n   tec h n o l o g y   fro m   IUG .   He   h a d   a c a d e m ic  e x p e rien c e   in   m u lt ime d ia  tec h n o l o g y   d isc ip li n e su c h   a ima g e   p ro c e ss in g ,   3 D   m o d e li n g ,   a n d   a n ima ti o n .   His   re se a rc h   in tere sts  in c lu d e d   c o m p u ter  v isi o n ,   m u lt ime d ia   a p p li c a ti o n s,  a n d   d e e p   lea rn i n g .   T h is  a rti c le  is  b a se d   o n   h is  m a ste r’ th e sis  wo rk .   He   trag ica ll y   p a ss e d   a wa y   d u rin g   th e   wa in   Ga z a   b e fo re   th e   c o m p letio n   o f   th is  re se a rc h .   He   c a n   b e   c o n tac ted   a e m a il m y a sh ra f2 @ g m a il . c o m .       Evaluation Warning : The document was created with Spire.PDF for Python.