I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m pu t er   E ng ineering   ( I J E CE )   Vo l.   15 ,   No .   4 A u g u s t   20 25 ,   p p .   3 7 6 9 ~ 3 7 7 8   I SS N:  2088 - 8 7 0 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijece. v 15 i 4 . pp 3 7 6 9 - 3 7 7 8           3769       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m   Indo nesia n speec h emo tion re co g nition: f ea ture  extr a ction a nd  neura l net wo rk a ppro a ches       I zz a   Nur  Af if a h 1 ,   T ri  B u di S a nto s o 2 ,   T it o n Dut o no 3   1 D e p a r t me n t   o f   I n f o r mat i c s   a n d   C o m p u t e r   En g i n e e r i n g ,   P o l i t e k n i k   El e k t r o n i k a   N e g e r i   S u r a b a y a ,   S u r a b a y a ,   I n d o n e s i a   2 D e p a r t me n t   o f   C r e a t i v e   M u l t i me d i a   Te c h n o l o g y ,   P o l i t e k n i k   El e k t r o n i k a   N e g e r i   S u r a b a y a ,   S u r a b a y a ,   I n d o n e s i a   3 D e p a r t me n t   o f   El e c t r i c a l   En g i n e e r i n g ,   P o l i t e k n i k   E l e k t r o n i k a   N e g e r i   S u r a b a y a ,   S u r a b a y a ,   I n d o n e si a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Au g   3 1 ,   2 0 2 4   R ev is ed   Ma r   2 6 ,   2 0 2 5   Acc ep ted   Ma y   2 4 ,   2 0 2 5       Th is  stu d y   e x p lo re d   th e   c h a ll e n g e o e m o ti o n   re c o g n it i o n   in   I n d o n e sia n   sp e e c h   u sin g   d e e p   lea rn i n g   tec h n iq u e s,  a d d re ss in g   th e   c o m p lex   n u a n c e o f   e m o ti o n a e x p re ss io n   i n   sp o k e n   lan g u a g e   th a p o se d   sig n ifi c a n d iffi c u lt ies   fo a u to m a ti c   re c o g n it io n   sy ste m s.  Th e   re se a rc h   fo c u se d   o n   th e   a p p li c a ti o n   o fe a tu re   e x trac ti o n   m e th o d a n d   th e   imp lem e n tatio n   o c o n v o l u ti o n a l   n e u ra n e two rk s   (CNN a n d   a   h y b ri d   c o n v o l u ti o n a l   n e u ra l   n e tw o rk s - l o n g   sh o rt - term   m e m o ry   (CNN - L S T M m o d e l   to   id e n ti fy   e m o ti o n a sta tes   fro m   sp e e c h   d a ta.  B y   a n a ly z in g   k e y   fe a tu re o s p e e c h   sig n a ls,  in c lu d in g   m e l   fre q u e n c y   c e p stra c o e fficie n (M F CC) z e ro   c ro ss in g   ra te  (ZCR),   ro o m e a n   sq u a re   e n e rg y   (RM S E) ,   p it c h ,   a n d   sp e c tral  c e n tr o id ,   t h e   stu d y   e v a lu a ted   t h e   m o d e ls’  a b il it y   to   c a p tu re   b o th   sp a ti a a n d   tem p o ra l   p a tt e r n i n   th e   d a ta.  Tes ti n g   wa c o n d u c ted   u sin g   a n   I n d o n e sia n   d a tas e c o m p risi n g   2 0 0   sa m p les .   Th e   CNN   m o d e l,   u ti li z in g   fo u f e a tu re (M F CC,  ZCR,   RM S E ,   a n d   p it c h ),   a n d   th e   CNN - L S TM   m o d e l,   wh i c h   u se d   t h re e   fe a tu re (M F CC,   ZCR,   a n d   RM S E),   b o th   a c h ie v e d   a n   e m o ti o n   c las sifica ti o n   a c c u ra c y   o a p p ro x ima tely   8 8 % .   T h e   re su l sh o we d   th a t   th e   CNN - LS TM   m o d e l   a c h iev e d   c o m p a ra b le  p e rfo rm a n c e   with   a   sim p ler  fe a t u re   se c o m p a re d   to   th e   CNN   m o d e l.   T h is   h ig h li g h ted   th e   sig n ifi c a n c e   o f   c h o o si n g   th e   a p p ro p riate   tec h n iq u e in   fe a tu re   e x trac ti o n   a n d   c las sifica ti o n   t o   e n h a n c e   th e   a c c u ra c y   o f   i d e n ti f y in g   e m o ti o n s fr o m   sp e e c h   d a ta w h il e   a lso   m a n a g in g   c o m p u tatio n a c o m p lex it y .   K ey w o r d s :   C o h en s   Kap p a   C o n v o lu tio n al  n eu r al  n etwo r k s   L o n g   s h o r t - ter m   m e m o r y   Mel - f r eq u e n cy   c ep s tr al  co ef f icien ts   Sp ee ch   em o tio n   r ec o g n itio n   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   T r i Bu d i San to s o   Dep ar tm en t o f   C r ea tiv Mu ltime d ia  T ec h n o lo g y ,   Po litek n ik   E lek tr o n ik a   Neg er i Su r a b ay a   J alan   R ay I T S,  Kep u tih ,   Su k o lilo ,   Su r ab ay a ,   E ast  Ja v 6 0 1 1 1 ,   I n d o n esia   E m ail: tr ib u d i@ p en s . ac . id       1.   I NT RO D UCT I O N   Sp ee ch   co m m u n icatio n   s er v e s   as  th s im p lest   an d   ef f ec tiv ap p r o ac h   th at  p e o p le  h a v i n   o r d e r   to   co m m u n icate   in f o r m atio n .   T h im p o r tan ce   o f   s p ee ch   b e co m es  ev id en wh en   alter n at iv co m m u n icatio n   m eth o d s ,   s u ch   as  tex m ess ag es  o r   em ails ,   ar co m m o n ly   u s ed   b u t   ca n   ea s ily   b m is in t er p r eted .   W h en   we   attem p to   ex p r ess   em o tio n s   in   wr itin g ,   em o jis   o f te n   b ec o m n ec ess ar y   aid s   in   tex m e s s ag in g   [ 1 ] .   T h u s ,   s p ee ch   is   th m o s ef f ec tiv m eth o d   to   c o m m u n icate   in   h u m an   life ,   as  it  ca r r ies  wea lth   o f   in f o r m atio n   th r o u g h   b o th   lin g u is tic  an d   p a r alin g u is tic  elem en ts   [ 2 ] .   T h ad v an ce m en t   o f   in f o r m at io n   an d   co m m u n icatio n   tech n o lo g y   ( I C T )   tech n o lo g y   h as  o p en ed   u p   n ew  p o s s ib ilit ies  f o r   h o h u m an s   in ter ac with   co m p u ter s .   Giv en   th at  u n d e r s tan d in g   em o tio n al  s tates  en h an ce s   in ter p e r s o n al  co m p r eh en s io n ,   th e r is   n ee d   to   in teg r ate  th is   co n c ep in t o   co m p u ter   s y s tem s .   T h is   id ea   in s p ir ed   th estab lis h m e n o f   s p ee ch   em o tio n   r ec o g n itio n   ( SER),   f ield   f o cu s ed   o n   id e n tify in g   an d   in ter p r etin g   em o tio n al  s tates  co n v ey e d   th r o u g h   s p ee c h .   Ma n y   s tu d ies  h av b ee n   co n d u ct ed   to   ex p lo r SER,   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   4 Au g u s t   20 25 :   3 7 6 9 - 3778   3770   b u th to p ic  s t ill  p r esen ts   s i g n if ican ch allen g es.  SER  tech n o lo g y   h as  p o ten tial  u s es  ac r o s s   s ev er al  f ield s ,   in clu d in g   h ea lth ca r e,   ca ll  ce n ter s ,   an d   ed u ca tio n   [ 3 ] [ 5 ] .   I n   h ea lth ca r e,   it  ca n   h elp   i n   th d iag n o s is   o f   p s y ch o lo g ica p r o b lem s   lik d ep r ess io n ,   au tis m ,   an d   o th er   m en tal  d is o r d er s .   I n   ca ll  ce n te r s ,   it  h elp s   m ea s u r e   cu s to m er   s atis f ac tio n .   I n   ed u c atio n ,   p ar ticu la r ly   in   d is tan ce   lear n in g ,   it  ca n   en h an ce   th e   le ar n in g   e x p er ien ce .   Desp ite  its   s ig n if ican p o ten ti al,   ch allen g es  r em ain ,   s u ch   a s   th lack   o f   d iv er s d atasets ,   ch o o s in g   th e   r ig h t   f ea tu r es,  an d   t h ch o ice  o f   ef f ec tiv in tellig en t r ec o g n itio n   t ec h n iq u es  [ 6 ] [ 8 ] .   T h m ajo r ity   o f   SER  r esear c h   h as  f o cu s ed   o n   lan g u ag es   with   ab u n d an t   r eso u r ce s   a n d   wid esp r ea d   u s e,   s u ch   as  E n g lis h   o r   Ger m an   [ 9 ] [ 1 1 ] .   Alth o u g h   th es s tu d ies  h av d ee p en ed   o u r   u n d er s tan d in g   o f   d etec tin g   em o tio n s   in   s p ee ch ,   th er r em ain s   co n s id er ab le  g a p   in   ex p lo r i n g   r eso u r ce - lim ited   lan g u ag es  lik I n d o n esian .   I n   r ec en y ea r s ,   r esear ch   o n   em o tio n   d etec tio n   in   I n d o n esian   s p ee ch   h as  b eg u n   to   em er g e,   co v er in g   ar ea s   s u ch   as  em o ti o n   d etec tio n   i n   f ilm s   [ 1 2 ] ,   r ec o g n itio n   u s in g   ac o u s tic  an d   lex ical  f ea tu r es  [ 1 3 ] an d   au to m atic  em o tio n   r ec o g n itio n   [ 1 4 ] .   Desp ite  I n d o n e s ian   b ein g   s p o k e n   b y   o v er   2 0 0   m illi o n   p eo p le,   r esear ch   atten tio n   in   SER  r e m ain s   lim ited .   T h s ca r city   o f   co r p o r a   an d   s tan d a r d ized   d a tab ases   h am p er s   th e   p r o g r ess   o f   SER  r esear ch   i n   I n d o n esian .   C r o s s - lin g u al  e m o t io n   r ec o g n iti o n   e x p er im e n ts   h av b ee n   c o n d u cted   d u to   th ese  lim itatio n s   [ 1 5 ] .   I n   s im p le  te r m s ,   SER  co n s is ts   o f   two   p r im ar y   c o m p o n en ts f ea tu r ex tr ac tio n   a n d   class if ic atio n   [ 1 6 ] [ 1 7 ] .   Featu r ex tr ac tio n   in v o l v es  id en tify in g   ch ar ac ter is tics   r elate d   to   em o tio n   with in   s p ee ch   s ig n als  [ 1 8 ] T h g o al   is   to   ex t r ac em o tio n al  in f o r m atio n   f r o m   s p o k en   la n g u ag e   b y   co n v er tin g   th r aw  s p ee ch   s ig n als  in to   r elev an f ea tu r s ets.  SER  f r am ewo r k s   d iv id e   ch ar ac ter is tic s   in to   f o u r   ca teg o r ies:   p r o s o d i f ea tu r es,  s p ec tr al   f ea tu r es,  v o ice  q u ality   f ea tu r e s ,   an d   T ea g er   en e r g y   o p er ato r   ( T E O) - b ased   f ea tu r es  [ 2 ] .   T h ch allen g lies   in   ch o o s in g   th m o s es s en tial  f ea tu r es  th at  ar ab le  to   d if f er en tiate  b etwe en   d if f e r en e m o tio n s   [ 1 9 ] .   Me l - f r eq u e n cy   ce p s tr al  co e f f icien t s   ( MFC C )   is   ef f ec tiv in   ca p tu r in g   im p o r tan s p ec tr al  c h ar a cter is tics   b ased   o n   h u m an   p e r ce p tio n   o f   f r eq u en c y ,   m ak in g   it  r elev an f o r   d etec tin g   s p ec t r u m   ch an g es  ass o ciate d   with   em o tio n s .   ze r o   cr o s s in g   r ate  m ea s u r es  h o f r eq u en tly   th e   v alu e   o f   t h e   au d io   s ig n al  ch an g es  f r o m   ab o v to   b elo ze r o ,   p r o v id i n g   in f o r m atio n   ab o u t h tem p o r al  asp ec ts   th at  m ay   ch an g with   em o tio n .   R o o m ea n   s q u ar e   en er g y   ( R MSE )   m ea s u r es  th a v er ag en er g y   o f   th s p ee c h   s ig n al,   wh ich   ca n   r ef lect  v a r y in g   s o u n d   in ten s ity   lev els   ass o ciate d   with   em o tio n s .   Pit ch   m ea s u r es  th f u n d am e n tal  f r eq u e n cy   o f   th s p ee ch ,   wh e r ch an g es  in   p itch   ar o f te n   lin k ed   to   e m o tio n al   v ar iatio n .   Sp ec tr al  C en tr o id   m ea s u r es  th av e r ag e   f r e q u en c y   lo ca tio n   with in   t h s p ec tr u m ,   r ef lectin g   th b r i g h t n ess   o f   th s o u n d ,   wh ich   m ay   ch an g with   d if f er e n en er g y   d is tr ib u tio n s   d u to   em o tio n s   [ 2 0 ] [ 2 4 ] .   C las s if icatio n   is   th s ec o n d   cr u cial  s tep   in   SER.  I in v o lv es a p p ly in g   m ac h in lear n in g   m o d els  to   th ex tr ac ted   f ea tu r es  to   id e n tify   th em o tio n s   ex p r ess ed   in   s p ee ch .   T h e r ar two   m ain   a p p r o ac h es  to   SER   class if icatio n co n v en tio n al  c lass if ier s   an d   d ee p   lear n in g   class if ier s .   R ec en d ev elo p m en ts   in d icate   th at   p r o b lem s   in   SER  ar b ein g   ad d r ess ed   with   m o r em p h asis   o n   m ac h in lear n in g   tech n iq u es,   esp ec ially   d ee p   lear n in g   ap p r o ac h es.  Dee p   l ea r n in g   m et h o d s   h a v d em o n s tr ated   s ig n if ican im p r o v e m en ts   in   em o tio n   r ec o g n itio n ,   o f f er in g   ad v a n tag es  s u ch   as  s ca lab ilit y ,   p ar a m eter   tu n in g ,   an d   cu s to m iza b le  f u n ctio n s   [ 2 ] .   Sev er al  r esear ch er s   h av ex p l o r ed   v a r i o u s   n e u r al  n etwo r k   m eth o d o l o g ies,  in clu d i n g   ar tif icial  n eu r al  n etwo r k s   ( ANN) ,   co n v o lu tio n al  n e u r al   n etwo r k s   ( C NN) ,   d ee p   n eu r al  n etwo r k s   ( DNN) ,   r ec u r r en n eu r al  n etwo r k s   ( R NN) ,   an d   lo n g   s h o r t - ter m   m em o r y   ( L STM )   [ 2 5 ] [ 2 8 ] .   C NN  an d   L STM   a r in c r ea s in g ly   r ec o g n ized   f o r   SER task s   b ec au s th ey   ef f ec tiv ely   ca p tu r e   tem p o r al  d ep e n d en cies a n d   s p atial  p atter n s   in   s eq u en tial d ata.   B ased   o n   th ch allen g es  f ac e d   in   SER  r esear ch   f o r   th e   I n d o n esian   lan g u ag e,   th is   s tu d y   aim s   to   ad d r ess   th g a p   b y   p r o v id in g   co m p r eh e n s iv co m p ar is o n   o f   s p ee ch   e m o tio n   r ec o g n itio n   s y s tem s   f o r   d eter m in in g   em o tio n al  s tates.  I ev alu ated   th c o n s is ten cy   a n d   r eliab ilit y   o f   em o tio n   lab el in g   u s in g   C o h en s   k ap p a,   ap p lied   s ev er al  f ea t u r e   ex tr ac tio n   ap p r o ac h es  in cl u d in g   m el  f r eq u en cy   ce p s tr al  co ef f icien ( MFC C ) ,   ze r o   cr o s s in g   r ate  ( Z C R ) ,   r o o m ea n   s q u ar en er g y   ( R MSE ) p itch ,   an d   s p ec tr al  ce n tr o id ,   a n d   co m b in e d   th ese  f ea tu r es  with   class if icatio n   tech n iq u es  th at  u s ed   C NN   an d   L STM .   T h s tr u ctu r e   o f   th is   p ap er   is   as  f o llo ws:   T h s tu d y   ch r o n o lo g y ,   as  well  as  th r esear ch   d esig n ,   m e th o d o lo g y ,   d ataset  co llectio n ,   f ea tu r ex tr ac tio n   s tr ateg ies,  an d   class if icatio n   alg o r ith m s ,   a r c o v er ed   in   s ec t io n   2 .   T h r esear c h   r esu lts   ap p ea r   in   s ec tio n   3   alo n g   with   c o m p r e h en s iv d i s cu s s io n ,   wh ile  s ec tio n   4   p r o v id es th co n clu s io n .       2.   M E T H O D   I n   th is   r esear ch ,   th p r o ce s s   o f   r ec o g n izin g   em o tio n s   in   s p ee ch   was o r g an ized   i n to   th r ee   m ain   s tag es:  d ata  co llectio n ,   f ea tu r ex t r a ctio n ,   an d   class if icatio n .   Du r in g   d ata  co llectio n   s tag e,   a   d ataset  o f   s p ee ch   s am p les  r ep r esen tin g   v ar io u s   em o tio n al  s tates  was  g ath er ed ,   an d   in ter - r ater   r eliab ilit y   was  em p lo y ed   to   en s u r co n s is ten em o tio n   la b elin g   ac r o s s   d if f er e n ev alu ato r s .   On ce   th d ataset  was   p r ep ar ed ,   f ea tu r e   ex tr ac tio n   was  ca r r ied   o u to   id en tify   an d   p r o ce s s   k ey   ch ar ac ter is tics   o f   s p ee ch   s ig n al.   T h ese  ex tr ac ted   f ea tu r es  wer th en   u s ed   in   th class if icat io n   s tag to   ac cu r ately   ca teg o r ize  th em o tio n al   s tates   co n v ey ed   i th s p ee ch .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         I n d o n esia n   s p ee ch   em o tio n   r e co g n itio n :   fea tu r ex tr a ctio n   a n d   n eu r a l   …  ( I z z a   N u r   A fifa h )   3771   2 . 1 .     Da t a   c o llect io n   T h au d io   d ataset  f o r   th is   r esear ch   co n s is ts   o f   s p ee ch   r ec o r d in g s   in   I n d o n esian .   T h d ig ital  au d io   d ata  was  s to r ed   i n   W AV  f i le  f o r m at.   T h e   d ataset  in clu d es  r ec o r d in g s   f r o m   1 0   m al an d   1 0   f em ale   p ar ticip an ts ,   ag e d   2 0   to   2 2   y ea r s .   E ac h   au d i o   r ec o r d in g   last s   b etwe en   o n e   to   th r ee   s ec o n d s ,   with   ea ch   p ar ticip an t c o n tr i b u tin g   f o u r   r ec o r d in g s   p e r   em o tio n .   No t a ll r ec o r d in g s ,   h o wev er ,   wer s u itab le  o r   u s ab le  d u e   to   f ac to r s   s u ch   as  p o o r   au d i o   q u ality   o r   in co n s is ten cy   in   th em o tio n al  ex p r ess io n .   to t al  o f   5 0   au d io   f iles   wer u s ed   to   r ep r esen f o u r   em o tio n al  e x p r ess io n s   ( an g r y ,   h a p p y ,   n e u tr al,   an d   s ad   [ 1 2 ] ) ,   r esu ltin g   in   ap p r o x im ately   2 0 0   au d io   f iles   in   t o tal.   T h d ataset  co n tain e d   r ec o r d in g s   with   s am p lin g   r a tes  th at  v ar ie d   f r o m   4 4 . 1   to   4 8   k Hz.   T o   en s u r c o n s is ten cy   f o r   au d io   an aly s is ,   all  f iles   wer r esam p led   to   4 8   k Hz,   p r eser v in g   h ig h   au d io   q u ality .   T o   ev alu ate  t h co n s is ten cy   an d   r eliab ilit y   o f   em o tio n   lab elin g ,   C o h en ' s   Kap p an aly s is   was   co n d u cte d   [ 2 9 ] .   T h is   s tatis tical  m eth o d   p r o v id es  d ee p er   in s ig h in to   th e   ag r ee m e n lev els  b etwe en   an n o tato r s ,   u s in g   s ca le  f r o m   - 1   to   1 .   A   v alu o f   - 1   r ep r esen ts   co m p l ete  d is ag r ee m en t,  0   in d icate s   r an d o m   ag r ee m en t,   an d   1   r ef lects p er f ec t a g r ee m e n [ 3 0 ] .   T ab le  1   co n tain s   C o h e n ' s   Kap p v alu es a n d   ass o ciate d   in ter p r etatio n s .       T ab le  1 .   I n ter p r etatio n   o f   C o h en s   Kap p a   C o h e n K a p p a   S t a t i s t i c   S t r e n g t h   o f   a g r e e me n t   <   0 . 0 0   P o o r   0 . 0 0     0 . 2 0   S l i g h t   0 . 2 1     0 . 4 0   F a i r   0 . 4 1     0 . 6 0   M o d e r a t e   0 . 6 1     0 . 8 0   S u b s t a n t i a l   0 . 8 1     1 . 0 0   A l mo s t   P e r f e c t       2 . 2 .     F e a t ure  ex t r a ct io n   On o f   th m o s im p o r tan s tep s   in   p r o ce s s in g   s p ee ch   d a ta  f o r   em o tio n   class if icatio n   is   f ea tu r ex tr ac tio n .   T h is   p r o ce s s   in v o lv es  tr an s f o r m in g   r aw  au d io   s ig n als  in to   r elev an f ea tu r es   f o r   a n aly s is .   T h tech n iq u es e m p lo y ed   in   t h is   s tu d y   wer c h o s en   to   c o lle ct  b o t h   tem p o r al  a n d   s p ec tr al  ch a r ac ter is tics   o f   s p ee ch .   T h tech n iq u es u s ed   in   th is   s tu d y   f o r   ex tr ac tin g   f ea t u r es f r o m   s p ee ch   in clu d MFC C ,   Z C R ,   R M SE ,   p itch ,   an d   s p ec tr al  ce n tr o id .   T h f ea tu r es we r ex tr ac ted   a n d   ca lcu lated   in d iv id u ally   f r o m   ea ch   a u d io .     2 . 2 . 1 .   M el  f re qu ency   ce ps t ra l c o ef f icient     T h f ir s f ea tu r ex tr ac tio n   m eth o d   em p lo y ed   was  MFC C .   MFC C   i s   in s p ir ed   b y   th way   th h u m an   ea r   p r o ce s s es  s o u n d   [ 3 1 ] [ 3 2 ] .   T h ese  co ef f icien ts   f o cu s   o n   th m o s im p o r tan asp ec ts   o f   s o u n d ,   s u ch   as  th e   s h ap o f   v o ca l   f o r m an ts   an d   o th er   c h ar ac ter is tics ,   wh ich   ar ess en tial  f o r   task s   lik e   em o t io n   r ec o g n itio n   an d   s p ee ch   an aly s is   [ 3 3 ] .   B y   em p h asizin g   f r eq u en cies  th at  ar m o s im p o r tan f o r   h o h u m an s   h ea r ,   MFC C s   p r o v id e   clea r   r e p r esen tatio n   o f   s p ee ch   s ig n als.  Fig u r e   1   illu s tr ates th MFC C   f ea tu r ex tr ac t io n   p r o ce s s .   T h ex tr ac tio n   o f   MFC C   f ea t u r es  f r o m   s p ee ch   d ata  b eg an   with   p r e - em p h asis ,   wh ich   b o o s ted   th e   h ig h er   f r eq u en cies  to   en h a n ce   clar ity .   Ne x t,  th e   au d i o   s ig n al   Nex t,  th e   au d io   s ig n al   was  s eg m en ted   in to   s m all   f r am es  o f   2 5 m s ,   with   5 0 o v er lap .   E ac h   f r am was  th en   p r o ce s s ed   u s in g   Ham m in g   win d o to   m in im ize   ed g e f f ec ts   b ef o r u n d e r g o i n g   f ast  Fo u r ier   tr a n s f o r m   ( FF T ) ,   wh ich   tr an s f o r m ed   th a u d io   d ata  f r o m   th e   tim d o m ain   in to   th f r eq u en cy   d o m ain   u s in g   an   NFFT  s ize  o f   5 1 2 .   Af ter   th at,   Me l - f ilter   b an k   was  ap p lied ,   co n s is tin g   o f   4 0   f ilter s   s p ac ed   ac co r d in g   to   th Me s ca le  to   m im ic  th h u m an   ea r s   f r eq u en cy   r esp o n s e.   T o   m an ag th e   wid r a n g o f   v al u es,  lo g   c o m p r ess io n   was  ap p lied ,   co m p r ess in g   th v al u es  b etwe en   0   an d   1 .   I n   th f in al  s tep ,   th d is cr ete  co s in tr an s f o r m   ( DC T )   was u s ed   o n   th lo g - co m p r ess ed   s ig n al  t o   d er iv e d   MFC C s .           Fig u r 1 .   MFC C   f lo wch ar t       2 . 2 . 2 .   Z er o   cr o s s ing   ra t   T h s ec o n d   f ea tu r em p l o y ed   was  th Z C R ,   wh ich   was  ca l cu lated   s ep ar ately .   Z C R   was  d er iv ed   b y   ass es s in g   th f r eq u en cy   o f   ze r o - cr o s s in g s   in   th s ig n al  ac r o s s   f r am e.   T h p r o ce s s   in v o lv ed   co u n tin g   ea ch   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   4 Au g u s t   20 25 :   3 7 6 9 - 3778   3772   in s tan ce   wh er th a u d io   s ig n al  s h if ts   f r o m   ab o v ze r o   to   b elo ze r o   o r   th r ev er s with i n   f r a m e.   Z C R   is   d ef in ed   as sh o wn   in   ( 1 ) :      = 1 1 1 ( [ ] [ 1 ] < 0 ) 1 = 1   ( 1 )     wh er   r ep r esen ts   th e   to tal  s a m p le  co u n with in   th f r am e,   an d   1 ( [ ] [ 1 ] < 0 )   r ep r esen ts   a   f u n ctio n   th at  o u tp u ts   1   w h en   th e r is   s ig n   ch an g b etwe en   [ ]   an d   [ 1 ] ,   an d   0   o th er wis e .   Z C R   r ef lecte d   th r ate  o f   ch a n g in   th e   s ig n al,   w h ich   ca n   b in d icativ e   o f   em o tio n al  s ta tes.  Hig h er   Z C R   v alu es  ar ass o ciate d   with   m o r ten s o r   ag itated   e m o t io n al  s tates,  s u ch   as  a n g r y   o r   h ap p y ,   wh er e   r a p id   ch an g es  in   p itch   o r   to n o cc u r .   C o n v e r s ely ,   lo wer   Z C R   v al u es  in d icate   ca lm e r   em o tio n s ,   s u ch   as   n eu tr al   o r   s ad ,   wh er th s p ee ch   is   m o r s tead y   an d   less   v ar iab le  [ 3 4 ] .     2 . 2 . 3 .   Ro o t   m ea n sq ua re   ener g y     T h th ir d   f ea t u r em p l o y ed   w as  th R MSE ,   o r   th r o o m e an   s q u ar v alu o f   s ig n al,   wh ich   was  d er iv ed   b y   co m p u ti n g   th s q u ar r o o o f   th m ea n   v alu o f   t h s q u ar ed   s am p les.  Fo r   ea ch   s am p le  [ ]   in   th e   au d io   s ig n al  ,   th s q u a r was  ca lcu lated   as:  [ ] 2 T h a v er ag e   o f   all  r esu ltin g   s q u ar ed   v alu es  was  th en   ca lcu lated ,   an d   t h s q u ar r o o t   o f   th is   av er a g was u s ed   to   d e ter m in th R MSE ,   as sh o wn   in   ( 2 ) :      = 1 [ ] 2 = 1   ( 2 )     wh er [ ]   is   th s ig n al  v alu at  in d ex   ,   an d     is   th to tal  n u m b e r   o f   s i g n al  s am p les.   R MSE   r ef lecte d   th in te n s ity   o r   v o lu m o f   th e   s p ee ch   s ig n al.   E m o tio n s   s u ch   as  an g r y   o r   h ap p y   in v o lv ed   h ig h er   en e r g y   lev el s   d u to   l o u d er   an d   m o r f o r ce f u s p ee ch ,   r esu ltin g   in   h ig h er   R MSE   v alu es.  C o n v er s ely ,   em o tio n s   lik s ad   wer ex p r ess ed   w ith   s o f ter ,   lo wer - en er g y   s p ee c h ,   lead in g   to   lo wer   R MSE   v alu es.     2 . 2 . 4 .   P it ch   T h f o u r th   f ea tu r a n aly ze d   was  p itch .   Pit ch   esti m atio n   f r o m   an   a u d io   s ig n al  in v o lv es  s ev er al  k ey   s tep s   to   ac cu r ately   d eter m in e   th f u n d am e n tal  f r eq u en cy   o r   p itch .   T h is   p r o ce s s   in clu d es  s p ec tr al  an aly s is   u s in g   tech n iq u es  s u ch   as  th e   f ast  Fo u r ier   t r an s f o r m   ( FF T ) - b ased   m eth o d s   lik au to co r r elatio n   o r   ce p s tr al   an aly s is .   Pit ch   was c alcu lated   as sh o wn   in   ( 3 ) :      =                 ( 3 )     E m o tio n al  s tates  ex p r ess ed   th r o u g h   v a r iatio n s   in   th e   p itch   o f   th e   v o ice.   E m o tio n s   s u c h   as  an g r y   o r   h a p p y   ten d ed   to   p r o d u ce   h ig h er   p itc h   v ar iatio n s ,   wh er th v o ice  r ea ch ed   elev ated   f r e q u en cies,  ad d in g   an   en e r g etic  o r   in ten s q u ality   to   th s p ee c h .   I n   co n tr ast,  s ad   o r   n eu t r al  in v o lv e d   lo wer ,   m o r s tab le  p itch ,   co n v ey in g   a   ca lm er   o r   m o r s u b d u ed   to n an d   s ig n alin g   r ed u ce d   em o tio n al  ar o u s al.     2 . 2 . 5 .   Sp ec t ra l c ent ro id   T h f if th   f ea tu r ca lcu late d   w as  th s p ec tr al  ce n tr o id ,   wh ic h   r ep r esen t s   th ce n ter   o f   g r a v ity   o f   th e   au d io   s ig n al’ s   f r eq u e n cy   s p e ctr u m ,   p r o v id i n g   an   av er a g e   f r eq u e n cy   weig h ted   b y   th am p litu d o f   ea ch   s p ec tr al  co m p o n e n t.  I is   co m m o n ly   u s ed   to   d escr ib h o en er g y   is   d is tr ib u ted   ac r o s s   th f r eq u e n cy   r a n g e,   o f f er in g   in s ig h t in to   th b r i g h t n ess   o r   s h ar p n ess   o f   s o u n d .   Sp ec tr al  ce n tr o id   was c alcu lat ed   u s in g   ( 4 ) :           = ( ) | ( ) |  1 = 0 | ( ) |  1 = 0   ( 4 )     wh er ( )   is   th f r eq u en c y   at  in d e x   ,   an d   | ( ) |   is   th m ag n itu d o f   th s p ec tr u m   at  in d e x   .   Sp ec tr al  ce n tr o id   d is tin g u is h e d   em o tio n al  s tates  in   s p ee ch   b y   r ef lectin g   th b r ig h tn ess   o r   s h ar p n ess   o f   th v o ice.   Hig h e r   s p ec tr al  ce n tr o id   v alu es,  lin k ed   to   a n g r y   o r   h ap p y ,   in d icate d   e n e r g y   co n ce n tr ated   in   h ig h er   f r eq u en cies.  Me a n wh ile,   lo wer   v alu es,  ass o ciate d   w ith   n eu tr al   o r   s ad ,   s u g g ested   s o f ter   a n d   m o r e   s u b d u ed   t o n e .   On ce   ea ch   f ea tu r was  ex tr ac t ed   f r o m   ea ch   a u d io ,   f ea tu r v ec to r   was  f o r m ed   to   r ep r esen th k e y   ac o u s tic  ch ar ac ter is tics   o f   th s o u n d .   T h is   v ec to r   ca p t u r ed   th m o s s ig n if ican ch ar ac t er is tics   o f   th au d io ,   wh ich   wer ess en tial  in   d is tin g u is h in g   v ar io u s   em o tio n al  s t ates.  T h ese  v alu es  wer th e n   u s ed   as  in p u t   in   th e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         I n d o n esia n   s p ee ch   em o tio n   r e co g n itio n :   fea tu r ex tr a ctio n   a n d   n eu r a l   …  ( I z z a   N u r   A fifa h )   3773   class if icatio n   p r o ce s s ,   wh er th ey   h elp ed   t h m o d el  r ec o g n ize  an d   d is tin g u is h   b etwe en   v ar io u s   ty p es  o f   em o tio n al  ex p r ess io n s .     2 . 3 .     Cla s s if ica t io n   T h ex tr ac ted   f ea tu r es  wer u s ed   as  in p u ts   f o r   em o tio n   r e co g n itio n   t h r o u g h   v ar io u s   cla s s if icatio n   tech n iq u es.  I n   t h is   s tu d y ,   b o th   C NN   an d   C NN L STM   m o d els  wer ap p lied   to   c o m p ar in   e m o tio n   r ec o g n itio n .   T h ese  m o d els  we r ass ess ed   to   m ea s u r th eir   ac cu r ac y   in   em o tio n   class if icatio n   u s in g   f ea tu r es   ex tr ac ted   f r o m   th s p ee ch   d at a.   T h ex p er im en ts   wer co n d u cted   with   d ata  d iv id ed   in to   7 5 f o r   tr ain in g ,   2 0 % f o r   test in g ,   an d   5 % f o r   v alid atio n .   T h m o d els we r im p lem en ted   an d   test ed   in   Go o g l e   C o lab .     2 . 3 . 1 .   Co nv o lutio na l neura net wo rk s   T h C NN  m o d el  u s ed   was  1 C NN  d esig n ed   to   class if y   in p u d ata  with   1 d im en s io n s ,   s u ch   as   tim s er ies  o r   s en s o r   d ata,   wh er th o r d er   o r   r elativ p o s itio n   o f   th d ata  is   im p o r tan t.  T h is   m o d el  p r o ce s s ed   th in p u d ata  th r o u g h   m u ltip le  co n v o l u tio n al  lay er s ,   ex t r ac tin g   s p atial  f ea tu r es  th at  h elp ed   in   em o tio n   class if icatio n   b ased   o n   th s p e ec h   d ata.   Fig u r e   2   d e p icts   th ar ch itectu r o f   o n e - d im en s io n al  C NN  m o d el.   T h 1 C NN  ar ch itectu r b eg an   with   an   i n p u lay e r   o f   s ize  ( 2 3 ,   3 2 ) ,   f o llo wed   b y   s ev er al  co n v o l u tio n al  lay er s   with   f ilter s   o f   3 2 ,   6 4 ,   an d   1 2 8 ,   ea ch   ac co m p an ied   b y   b atch   n o r m a lizatio n ,   ac tiv atio n   f u n ctio n s ,   an d   p o o lin g   lay er s   to   r ed u ce   d ata  d im e n s io n ality .   d r o p o u lay er   was  th en   ap p lied   to   p r e v en t   o v er f itti n g .   T h o u tp u f r o m   t h last   co n v o lu tio n al  lay e r   wa s   f latten ed   an d   p ass ed   to   d en s lay er s   in   o r d er   to   g et  th f in al  o u tp u t,  w h ich   wa s   u s ed   to   ca teg o r ize  th e   f o u r   e m o tio n s .           Fig u r 2 .   C NN1 ar ch itectu r e       2 . 3 . 2 .   Co nv o lutio na l neura ne t wo rk s - lo ng   s ho rt - t er m   mem o ry   T h C NN  m o d el  f o llo wed   b y   L STM   n etwo r k ,   o f ten   r ef er r ed   to   as  C NN - L STM   m o d el,   is   ty p ically   u s ed   f o r   p r o ce s s in g   h ig h - d im e n s io n al  d ata  s u ch   a s   au d io   o r   v id eo .   I n   th is   m o d el,   C NN  r etr iev ed   s p atial  ch ar ac ter is tics   f r o m   t h in p u t,  an d   L STM   ca p tu r e d   th tem p o r al  d e p en d e n cies  am o n g   th d e r iv ed   f ea tu r es.  Fig u r 3   d ep icts   th a r ch itectu r o f   th C NN - L STM   m o d el.           Fig u r 3 .   C NN - L STM   ar ch ite ctu r e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   4 Au g u s t   20 25 :   3 7 6 9 - 3778   3774   T h C NN - L STM   ar ch itectu r e   was  s im ilar   to   th 1 C NN   ar ch itectu r e.   I n   th is   m o d el,   t h o u tp u f r o m   th co n v o lu tio n al  lay er s   was  s en in to   an   L STM   lay e r ,   wh ich   ca p tu r ed   lo n g - ter m   d ep en d en cies  in   th e   d ata.   T h e   o u t p u f r o m   th L S T lay er   was  f latten e d   an d   tr an s f er r ed   t o   a   d en s lay e r   th a h ad   f o u r   n e u r o n s ,   ea ch   o f   wh ich   r ep r esen ted   o n o f   th f o u r   em o tio n al  ca teg o r ies.  T h is   f in al   d e n s lay er   s er v ed   as   th o u tp u t,   p r o v id i n g   th p r ed icted   em o ti o n   b ased   o n   th e x tr ac ted   f ea t u r es.       3.   RE SU L T S AN D I SCU SS I O N   T h is   s ec tio n   p r o v id es  th ess en tial  r esu lts   o f   th r esear ch   an d   d is cu s s io n   o n   th eir   s ig n if ica n ce .   I t   ex p lo r es  asp ec ts   s u ch   as  in ter - r ater   r eliab ilit y   an d   c o m p ar es  th f ea tu r ex tr ac tio n   m eth o d s   an d   class if icatio n   tech n iq u es  u s ed .   T h ese  r esu lts   p r o v id i n s ig h in to   th ef f ec t iv en ess   o f   em o tio n   r ec o g n itio n   f r o m   s p ee c h   an d   h ig h lig h t im p o r tan t tr e n d s   o b s er v ed   th r o u g h o u t   th an aly s is .     3 . 1 .     I nte r - ra t er   re lia bil it y   re s ults   T h s tu d y   f o u n d   th at  th an n o tato r s   h ad   th h ig h est  ag r ee m en wh en   lab elin g   s eg m en t s   with   th em o tio n   "a n g r y , ac h iev i n g   s co r o f   0 . 8 3 .   T h is   s u g g ests   th at  "a n g r y was  d is tin ct  an d   ea s ily   r ec o g n izab le   em o tio n ,   lead in g   to   m o r co n s is ten lab elin g   am o n g   th a n n o tato r s .   T h em o tio n s   "h a p p y an d   "sad h ad   ag r ee m en lev els  o f   0 . 7 8   an d   0 . 7 4 ,   r esp ec tiv el y .   I n   co n tr ast,  "n eu tr al"  h ad   th lo west  ag r e em en lev el,   with   s co r o f   0 . 7 2 .   T h is   in d icate d   t h at  th ab s en ce   o f   em o tio n   o r   n eu tr al  s tate  is   m o r s u b jec tiv an d   h a r d er   t o   lab el  co n s is ten tly .   T h am b ig u ity   an d   s u b tlety   in   n e u tr a ex p r ess io n s   lik ely   co n tr ib u ted   to   th is   lo wer   ag r ee m en t le v el.   T h o v er all  C o h en s   Kap p r esu lts   ar illu s tr ate d   in   Fig u r 4 .   T h o v e r all  ag r ee m e n ac r o s s   all  em o tio n s   in   th e   co r p u s   was  0 . 6 9 ,   w h ich   f ell  in t o   th "su b s tan tial"  ag r ee m en ca teg o r y .   T h is   o v e r all  Kap p v alu h i g h lig h ted   th v ar iab ilit y   an d   s u b jectiv ity   in   h o th two   an n o tato r s   p er ce iv ed   an d   lab e led   em o tio n s .   T h r esu lts   o f   t h d ataset  ca lcu latio n s   u s in g   I B SP S s o f twar e   wer s u m m ar ized   in   T ab le  2 .   T h Kap p v alu o f   0 . 6 9 8   i n d icate d   s u b s tan tial  lev el  o f   ag r ee m en b etwe en   th e   a n n o tato r s ,   s u g g esti n g   th at  th ey   o f ten   lab eled   em o tio n s   co n s is ten tly .   T h T - v alu o f   1 7 . 0 3 8   an d   s ig n if ican ce   lev el  o f   less   th an   0 . 0 0 1   co n f ir m ed   th a th f in d in g s   wer s tatis ticall y   s ig n if ican t,  m ea n in g   t h at  th o b s er v ed   r esu lts   wer u n lik ely   to   h a v o cc u r r ed   b y   ch an c e.   T h is   in d icate d   th r eliab ilit y   o f   th e   m e asu r em en p r o ce s s .   Ho wev er ,   th ese  r esu lts   also   h ig h lig h ted   th at  w h ile  an n o t ato r s   g en er ally   ag r ee ,   ce r tai n   em o tio n s   led   t o   in co n s is ten cies in   lab elin g .           Fig u r 4 .   C o h e n s   Kap p r esu lts       T ab le  2 .   C o h e n s   Kap p r esu lt s   f r o m   I B SP SS   V a l u e   A sy mp t o t i c   s t a n d a r d   e r r o r a   A p p r o x i ma t e   T b   A p p r o x i ma t e   si g n i f i c a n c e   0 . 6 9 8   0 . 0 3 9   1 7 . 0 3 8   < 0 . 0 0 1       3 . 2 .     F e a t ure  ex t r a ct io n a nd   cla s s if ica t io n c o m pa riso n   E x p er im en ts   wer c o n d u cted   u s in g   C NN   an d   C NN - L STM   m eth o d s   with   in p u d ata   d er iv ed   f r o m   f ea tu r ex tr ac tio n   o f   s p ee ch   s ig n als.  T h f ea tu r es  ex tr ac ted   f r o m   th s p ee ch   s ig n als  in clu d ed   MFC C ,   Z C R ,   R MSE ,   p itch ,   an d   s p ec tr al  ce n tr o id .   T h ese  f ea tu r es  wer an aly ze d   to   ass ess   its   im p ac in   im p r o v in g   e m o tio n   class if icatio n   ac cu r ac y .   0 , 6 5 0 , 7 0 , 7 5 0 , 8 0 , 8 5 Ne u tral S a d Ha p p y An g ry Ag r e e m e n Le v e l Em o tio n s Ag r e e m e n lev e fo r   e a c h   e m o tio n Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         I n d o n esia n   s p ee ch   em o tio n   r e co g n itio n :   fea tu r ex tr a ctio n   a n d   n eu r a l   …  ( I z z a   N u r   A fifa h )   3775   3 . 2 . 1 .   Co nv o lutio na l neura net wo rk s   I n   th e   C NN  m eth o d ,   v ar io u s   f ea tu r co m b in atio n s   wer test ed   to   ac h iev e   th e   b est  r esu lts   i n   em o tio n   class if icatio n .   T h ese  r esu lts   h i g h lig h ted   th s ig n if ica n ce   o f   ea ch   f ea tu r in   h el p in g   th m o d el  to   d if f e r en tiate   em o tio n al  s tates.  T ab le  3   p r esen ts   th ac cu r ac y   o f   test in g   u s in g   C NN   with   d if f er en t f ea t u r co m b in atio n s .       T ab le  3 .   Acc u r ac y   co m p ar is o n   u s in g   C NN   F e a t u r e s   A c c u r a c y   M F C C   8 1 %   M F C C   +   Z C R   8 1 %   M F C C   +   Z C R   +   R M S E   8 3 %   M F C C   +   Z C R   +   R M S +   P i t c h   8 8 %   M F C C   +   Z C R   +   R M S +   P i t c h   +   S p e c t r a l   C e n t r o i d   8 5 %       T h u s o f   MFC C   alo n r esu lted   in   an   ac cu r ac y   o f   8 1 %.  M FC C   is   ef f ec tiv in   ca p tu r in g   im p o r tan t   s p ec tr al  in f o r m atio n ,   h o wev er   u s in g   MFC C   alo n m ay   n o f u lly   ca p tu r th e   tem p o r al  d i m en s io n s   in   s p ee c h   th at  co r r esp o n d   to   em o tio n al  s tates.  Ad d in g   th Z C R   to   MFC C   d id   n o t   s ig n i f ican tly   im p r o v ac c u r ac y .   Z C R   d eter m in es  h o f r e q u en tly   t h s ig n al  cr o s s es  th ze r o - am p litu d lin with in   s p ec if ic  tim f r am e,   b u its   co n tr ib u tio n   to   em o tio n   class if icatio n   s ee m ed   less   s ig n if ica n co m p a r ed   t o   o t h er   f ea tu r es.   W h en   R MSE   was   ad d ed   to   th c o m b in atio n   o f   MFC C   an d   Z C R ,   ac cu r ac y   in cr ea s ed   to   8 3 %.  R MSE ,   wh ich   m ea s u r es th en er g y   o f   th s p ee ch   s ig n al,   en r ich es  th r ep r esen tatio n   o f   th tem p o r al  an d   s tr en g th   asp ec ts   o f   th s ig n al  th at  ar r elev an f o r   em o tio n   d etec tio n .   T h in c r ea s in   ac cu r ac y   s u g g ested   th at  s ig n al  e n er g y   in f o r m atio n   p lay ed   an   im p o r tan t   r o le   in   d if f er e n tiatin g   em o tio n al  e x p r ess io n s .   Ad d i n g   p itch   t o   th e   co m b in atio n   o f   MFC C ,   Z C R ,   an d   R MSE   led   to   s ig n if ican in cr ea s in   ac cu r ac y   to   8 8 %.  Pit ch   p r o v id es  in f o r m atio n   ab o u v o ice  in t o n atio n ,   wh ich   is   cr u cial  in   em o tio n   r e co g n itio n   b ec a u s v ar iatio n s   i n   in to n atio n   ca n   r ef lect  d ee p   em o tio n al  c h an g es.  T h s u b s tan tial  co n tr ib u tio n   o f   p itch   u n d er s co r ed   th im p o r tan ce   o f   in to n atio n   in   d is tin g u is h in g   e m o tio n al   ex p r ess io n s .   Ho wev er ,   a d d in g   Sp ec tr al   C en tr o id   to   t h c o m b in atio n   o f   MFC C ,   Z C R ,   R MSE ,   an d   p itch   s lig h tly   d ec r ea s ed   ac cu r ac y   t o   8 5 %.  Sp ec tr al  C en tr o id ,   w h ich   d escr ib es  th ce n te r   o f   m ass   o f   th s p ec tr al  s ig n al,   d id   n o s ee m   t o   p r o v i d s ig n if ican ad d itio n al  v alu in   th co n te x o f   em o tio n   class if icatio n ,   o r   it  m ig h t e v en   co m p licate  th m o d el  with o u t a d d in g   in f o r m ativ v alu e.     3 . 2 . 2 .   Co nv o lutio na l neura net wo rk s - lo ng   s ho rt - t er m   mem o ry   T h C NN - L STM   m eth o d   al s o   d em o n s tr ated   s tr o n g   p er f o r m an ce   in   em o tio n   class if icatio n .   B y   co m b in in g   th e   f ea tu r e   ex tr ac t io n   ca p a b ilit ies  with   th s eq u en tial  m o d elin g   p o wer   o f   L S T M,   th is   ap p r o ac h   ca p tu r ed   b o th   th r elev an f e atu r es  f r o m   th e   s p ee ch   s ig n a an d   th s eq u e n tial  d ep en d e n cies  in   th d ata.     T ab le  4   s h o ws th ac cu r ac y   o f   test in g   u s in g   C NN - L STM   wit h   v ar io u s   f ea tu r c o m b in atio n s .       T ab le  4 .   Acc u r ac y   co m p ar is o n   u s in g   C NN - L STM   F e a t u r e s   A c c u r a c y   M F C C   8 1 %   M F C C   +   Z C R   7 7 %   M F C C   +   Z C R   +   R M S E   8 8 %   M F C C   +   Z C R   +   R M S +   P i t c h   8 3 %   M F C C   +   Z C R   +   R M S +   P i t c h   +   S p e c t r a l   C e n t r o i d   8 3 %       Usi n g   MFC C   alo n r esu lted   in   an   ac cu r ac y   o f   8 1 %.  MFC C   is   k n o wn   to   b e   ef f ec tiv e   in   ex tr ac tin g   s p ec tr al  in f o r m atio n   f r o m   au d io   s ig n als,  b u th is   ac cu r ac y   s u g g ested   t h at  th i n f o r m a tio n   o b tain e d   f r o m   MFC C   alo n s til h ad   lim itati o n s   in   f u lly   d etec tin g   em o tio n al  v ar iati o n s .   Ad d in g   th Z C R   to   MFC C   ac tu all y   r ed u ce d   ac cu r ac y   to   7 7 %.  T h is   r ed u ctio n   m ig h h av e   b ee n   d u t o   Z C R   in tr o d u cin g   n o i s o r   less   r elev an t   in f o r m atio n ,   th e r eb y   d is r u p tin g   th m o d el’ s   a b ilit y   to   class i f y   em o tio n s   ac cu r ately .   Ho w ev er ,   wh e n   R MSE   was  ad d ed   to   t h co m b in atio n   o f   MFC C   an d   Z C R ,   ac cu r ac y   s ig n if ican tly   in cr ea s ed   to   8 8 %.  R MSE   p r o v id es  ad d itio n al  in f o r m atio n   ab o u th in ten s ity   o f   t h s p ee ch   s ig n al,   wh ich   is   cr u cial  f o r   d is tin g u is h in g   em o tio n s .   T h is   in cr ea s in   ac cu r ac y   in d icate d   th at  R MSE   ad d ed   cr u ci al  in f o r m ativ e   v alu f o r   em o tio n   d etec tio n .   Ad d in g   Pit ch   to   th co m b in at io n   o f   MFC C ,   Z C R ,   an d   R M SE  in cr ea s ed   ac cu r ac y   to   8 3 %.  Alth o u g h   Pit ch   s h o u ld   p r o v id ad d itio n al  in f o r m atio n   ab o u th f u n d am en tal  f r eq u en cy   o f   th v o ice  r el ev an f o r   em o tio n   class if icat io n ,   th is   in cr ea s in   ac cu r ac y   was  n o as  s ig n if ic an as  in   th p r ev io u s   co m b i n atio n .   T h is   m ig h t   h av b ee n   b ec au s th in f o r m atio n   p r o v id ed   b y   Pit ch   d i d   n o ad d   en o u g h   v alu to   th e   m o d el  o r   th er was   r ed u n d an cy   with   ex is tin g   f ea t u r es.  Ad d in g   s p ec tr al  ce n tr o i d   to   th co m b in atio n   o f   MFC C ,   Z C R ,   R MSE ,   an d   Pit ch   d id   n o t f u r th er   in cr ea s ac cu r ac y ,   wh ich   r em ai n ed   at  8 3 %.  Sp ec tr al  ce n tr o id ,   wh ich   d escr ib ed   th ce n ter   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   4 Au g u s t   20 25 :   3 7 6 9 - 3778   3776   o f   m ass   o f   th e   s o u n d   s p ec tr u m ,   d id   n o s ee m   to   p r o v id e   s u f f icien tly   d if f er en tiatin g   in f o r m atio n   co m p ar ed   to   th o th er   f ea tu r es o r   m ig h t h a v h ad   a n   ex ce s s iv o v e r lap   o f   in f o r m atio n .     3 . 2 . 3 .   Co m pa riso n   T h test in g   r esu lts   f o r   v ar io u s   f ea tu r ex tr ac tio n s   an d   class if icatio n   m eth o d s   s h o th at  R MSE   h ad   s ig n if ican im p ac in   im p r o v in g   ac cu r ac y   f o r   b o th   t h C NN  an d   C NN - L STM   m o d els.  I n   t h C NN  m o d el,   th e   co m b in atio n   o f   f o u r   f ea t u r es:  MFC C   Z C R   R MSE   +   Pit ch   led   to   th h ig h est  ac cu r ac y   o f   8 8 %.  Similar ly ,   th C NN - L STM   m o d el  r ea ch ed   th s am ac cu r ac y   with   ju s th r ee   f ea tu r es:  MFC C ,   Z C R ,   an d   R MSE .   T h ese  r esu lts   em p h asized   th s ig n if ican ce   o f   s elec tin g   th r ig h f e atu r es  p r o v id in g   th m o s v al u ab le  co n tr ib u tio n s ,   wh ile  also   h ig h lig h ted   an   im p o r tan tr ad e - o f f   b etwe en   co m p u tatio n al  ef f icien cy ,   as  f ewe r   f ea tu r es  r ed u ce   th e   co m p u tatio n al  c o s t o f   f ea t u r ex tr ac tio n .       4.   CO NCLU SI O N   T h is   s tu d y   ex p lo r e d   m eth o d s   to   en h a n ce   em o tio n   r ec o g n itio n   f r o m   I n d o n esian   s p ee c h   u s in g   f ea tu r ex tr ac tio n   tech n iq u es  an d   m a ch in lear n in g   class if icatio n   m o d els.  T h ex p er im e n ts   wer co n d u cted   o n   an   I n d o n esian   lan g u a g d ataset  co n s is tin g   o f   2 0 0   s am p les.  T o   ass ess   in ter - r ater   r eliab ilit y ,   C o h en ' s   k ap p an aly s is   was  co n d u cted ,   wh i ch   r ev ea led   s u b s tan tial  ag r ee m en lev el  ( =   0 . 6 9 8 )   b etwe en   an n o tato r s ,   h ig h lig h tin g   th co n s is ten cy   o f   em o tio n   lab elin g .   T h class if icatio n   ex p er im en ts   co m p ar ed   C NN  an d     C NN - L STM   m o d els.  B o th   th C NN  m o d el,   wh ich   u s ed   f o u r   f ea tu r es  ( MFC C ,   Z C R ,   R MSE ,   an d   Pit ch ) ,   an d   th C NN - L STM   m o d el,   wh ich   u s ed   th r ee   f ea tu r es  ( MFC C ,   Z C R ,   an d   R MSE ) ,   ac h iev ed   an   em o tio n   class if icatio n   ac cu r ac y   o f   ap p r o x im ately   8 8 %.  T h e   d if f e r en ce   in   th n u m b e r   o f   f ea tu r es  s u g g ests   th at  wh ile  th C NN  m o d el  in v o lv ed   m o r co m p u tatio n al  task s   d u t o   th ad d itio n al  f ea tu r e,   t h C NN - L STM   m o d el   m an ag ed   t o   ac h iev s im ilar   p e r f o r m a n ce   with   f ewe r   f ea tu r es ,   p o ten tially   o f f er in g   m o r ef f icien t a p p r o ac h .   Ov er all,   th f in d in g s   d em o n s tr ate  th at  in co r p o r atin g   d iv er s f ea tu r ex tr ac tio n   tech n iq u es  ca n   en h an ce   em o tio n   r ec o g n itio n   p er f o r m an ce ,   p a r ticu l ar ly   in   I n d o n esian   SER.  Ho wev er ,   ca r ef u co n s id er atio n   is   n ee d ed   t o   b alan ce   co m p u tatio n al  ef f icien c y   an d   f ea tu r c o m p lex ity ,   as  ad d in g   m o r f e atu r es  ca n   im p r o v e   ac cu r ac y   b u m ay   also   in cr e ase   co m p u tatio n al  co s t.  Fu tu r r esear ch   co u ld   ex p l o r th u s o f   ad v an ce d   o p tim izatio n   tech n iq u es  o r   f e atu r s elec tio n   m eth o d s   to   f u r th er   r ef in e   m o d el  p er f o r m a n c wh ile  m in im izin g   co m p u tatio n al  o v er h ea d .       ACK NO WL E DG M E N T S   T h au th o r s   wo u ld   lik e   to   t h an k   PENS  m a n ag em e n f o r   all  s u p p o r in   th f o r m   o f   lab o r ato r y   f ac ilit ies a n d   all  th eq u ip m e n t p r o v id e d ,   s o   th at  we  ca n   ca r r y   o u t th is   r esear ch   well.       F UNDING   I NF O R M A T I O N   T h is   r esear ch   h as  b ee n   s u p p o r ted   b y   th Min is tr y   o f   E d u ca t io n ,   C u ltu r e,   R esear ch ,   an d   T ec h n o lo g y   o f   th R ep u b lic  o f   I n d o n esia  with   th s ch em o f   P en elitia n   Te s is   Ma g is te r   f o r   th f is ca y ea r   2 0 2 4 ,   with   th co n tr ac t n u m b er   o f   5 2 4 /PL1 4 / PT. 0 1 . 0 5 /I I I /2 0 2 4 .       AUTHO CO NT RI B UT I O NS ST A T E M E N T   T h is   jo u r n al  u s es  th C o n tr ib u to r   R o les  T ax o n o m y   ( C R ed iT)   to   r ec o g n ize  in d iv id u al  au th o r   co n tr ib u tio n s ,   r ed u ce   au th o r s h ip   d is p u t es,  an d   f ac ilit ate  co llab o r atio n .     Na m o f   Aut ho r   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   I zz Nu r   Af if ah                               T r i Bu d i San to s o                               T ito n   Du to n o                                 C     C o n c e p t u a l i z a t i o n   M     M e t h o d o l o g y   So     So f t w a r e   Va     Va l i d a t i o n   Fo     Fo r mal   a n a l y s i s   I     I n v e s t i g a t i o n   R     R e so u r c e s   D   :   D a t a   C u r a t i o n   O   :   W r i t i n g   -   O r i g i n a l   D r a f t   E   :   W r i t i n g   -   R e v i e w   &   E d i t i n g   Vi     Vi su a l i z a t i o n   Su     Su p e r v i s i o n   P     P r o j e c t   a d mi n i st r a t i o n   Fu     Fu n d i n g   a c q u i si t i o n         Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         I n d o n esia n   s p ee ch   em o tio n   r e co g n itio n :   fea tu r ex tr a ctio n   a n d   n eu r a l   …  ( I z z a   N u r   A fifa h )   3777   CO NF L I C T   O F   I N T E R E S T   ST A T E M E NT   Au th o r s   s tate  n o   co n f lict o f   in t er est.       I NF O RM E CO NS E N T   W h av o b tain ed   in f o r m ed   c o n s en t f r o m   all  in d iv id u als in c lu d ed   in   t h is   s tu d y .       DATA AV AI L AB I L I T Y   T h d ata  th at  s u p p o r th f in d in g s   o f   th is   s tu d y   ar av ailab l f r o m   th co r r esp o n d in g   a u t h o r s ,   I NA  an d   T B S,  u p o n   r ea s o n a b le  r eq u est.       RE F E R E NC E S   [ 1 ]   M .   B .   A k ç a y   a n d   K .   O ğ u z ,   S p e e c h   e m o t i o n   r e c o g n i t i o n :   E m o t i o n a l   m o d e l s ,   d a t a b a s e s ,   f e a t u r e s ,   p r e p r o c e s s i n g   m e t h o d s ,   s u p p o r t i n g   m o d a l i t i e s ,   a n d   c l a s s i f i e r s ,   S p e e c h   C o m m u n i c a t i o n ,   v o l .   1 1 6 ,   p p .   5 6 7 6 ,   J a n .   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . s p e c o m . 2 0 1 9 . 1 2 . 0 0 1 .   [ 2 ]   T.   M .   W a n i ,   T .   S .   G u n a w a n ,   S .   A .   A .   Q a d r i ,   M .   K a r t i w i ,   a n d   E.   A mb i k a i r a j a h ,   A   c o m p r e h e n si v e   r e v i e w   o f   s p e e c h   e mo t i o n   re c o g n i t i o n   sy s t e m s,”   I EEE   Ac c e ss ,   v o l .   9 ,   p p .   4 7 7 9 5 4 7 8 1 4 ,   2 0 2 1 ,   d o i :   1 0 . 1 1 0 9 / a c c e ss. 2 0 2 1 . 3 0 6 8 0 4 5 .   [ 3 ]   M .   B o j a n i ć ,   V .   D e l i ć ,   a n d   A .   K a r p o v ,   C a l l   r e d i s t r i b u t i o n   f o r   a   c a l l   c e n t e r   b a se d   o n   sp e e c h   e mo t i o n   r e c o g n i t i o n ,   A p p l i e d   S c i e n c e s ,   v o l .   1 0 ,   n o .   1 3 ,   p .   4 6 5 3 ,   J u l .   2 0 2 0 ,   d o i :   1 0 . 3 3 9 0 / a p p 1 0 1 3 4 6 5 3 .   [ 4 ]   V .   M .   K o t i ,   K .   M u r t h y ,   M .   S u g a n y a ,   M .   S .   S a r ma ,   G .   V .   S .   S .   S e s h u   K u mar,   a n d   B .   N ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   u si n g   e x t r e me   ma c h i n e   l e a r n i n g ,   EAI  En d o rsed   T ra n s a c t i o n s   o n   I n t e rn e t   o f   T h i n g s ,   v o l .   1 0 ,   N o v .   2 0 2 3 ,   d o i :   1 0 . 4 1 0 8 / e e t i o t . 4 4 8 5 .   [ 5 ]   S .   La t i f ,   J.   Q a d i r ,   A .   Q a y y u m,   M .   U s a ma,   a n d   S .   Y o u n i s,   S p e e c h   t e c h n o l o g y   f o r   h e a l t h c a r e :   o p p o r t u n i t i e s ,   c h a l l e n g e s,   a n d   s t a t e   o f   t h e   a r t ,   I EEE  Re v i e w i n   Bi o m e d i c a l   En g i n e e r i n g ,   v o l .   1 4 ,   p p .   3 4 2 3 5 6 ,   2 0 2 1 ,   d o i :   1 0 . 1 1 0 9 / r b m e . 2 0 2 0 . 3 0 0 6 8 6 0 .   [ 6 ]   H .   H .   M u s t a f a ,   N .   R .   D a r w i s h ,   a n d   H .   A .   H e f n y ,   A u t o ma t i c   s p e e c h   e mo t i o n   r e c o g n i t i o n :   a   s y st e ma t i c   l i t e r a t u r e   r e v i e w ,   I n t e r n a t i o n a l   J o u r n a l   o f   S p e e c h   T e c h n o l o g y ,   v o l .   2 7 ,   n o .   1 ,   p p .   2 6 7 2 8 5 ,   M a r .   2 0 2 4 ,   d o i :   1 0 . 1 0 0 7 / s 1 0 7 7 2 - 0 2 4 - 1 0 0 9 6 - 7.   [ 7 ]   S .   La n g a r i ,   H .   M a r v i ,   a n d   M .   Za h e d i ,   Ef f i c i e n t   s p e e c h   e m o t i o n   r e c o g n i t i o n   u s i n g   mo d i f i e d   f e a t u r e   e x t r a c t i o n ,   I n f o rm a t i c s   i n   Me d i c i n e   U n l o c k e d ,   v o l .   2 0 ,   p .   1 0 0 4 2 4 ,   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . i m u . 2 0 2 0 . 1 0 0 4 2 4 .   [ 8 ]   A .   H a s h e m ,   M .   A r i f ,   a n d   M .   A l g h a m d i ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   a p p r o a c h e s:   A   s y s t e m a t i c   r e v i e w ,   S p e e c h   C o m m u n i c a t i o n v o l .   1 5 4 ,   p .   1 0 2 9 7 4 ,   O c t .   2 0 2 3 ,   d o i :   1 0 . 1 0 1 6 / j . s p e c o m . 2 0 2 3 . 1 0 2 9 7 4 .   [ 9 ]   M .   L i u ,   E n g l i sh   sp e e c h   e mo t i o n   r e c o g n i t i o n   me t h o d   b a se d   o n   s p e e c h   r e c o g n i t i o n ,   I n t e r n a t i o n a l   J o u r n a l   o f   S p e e c h   T e c h n o l o g y v o l .   2 5 ,   n o .   2 ,   p p .   3 9 1 3 9 8 ,   F e b .   2 0 2 2 ,   d o i :   1 0 . 1 0 0 7 / s 1 0 7 7 2 - 0 2 1 - 0 9 9 5 5 - 4.   [ 1 0 ]   M .   H .   P h a m ,   F .   M .   N o o r i ,   a n d   J.  T o r r e sen ,   E mo t i o n   r e c o g n i t i o n   u si n g   sp e e c h   d a t a   w i t h   c o n v o l u t i o n a l   n e u r a l   n e t w o r k ,   i n   2 0 2 1   I EEE  2 n d   I n t e r n a t i o n a l   C o n f e re n c e   o n   S i g n a l ,   C o n t ro l   a n d   C o m m u n i c a t i o n   ( S C C ) ,   D e c .   2 0 2 1 ,   p p .   1 8 2 187 ,   d o i :   1 0 . 1 1 0 9 / sc c 5 3 7 6 9 . 2 0 2 1 . 9 7 6 8 3 7 2 .   [ 1 1 ]   D .   I ssa,   M .   F a t i h   D e m i r c i ,   a n d   A .   Y a z i c i ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   w i t h   d e e p   c o n v o l u t i o n a l   n e u r a l   n e t w o r k s ,   B i o m e d i c a l   S i g n a l   Pr o c e ssi n g   a n d   C o n t ro l ,   v o l .   5 9 ,   p .   1 0 1 8 9 4 ,   M a y   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . b s p c . 2 0 2 0 . 1 0 1 8 9 4 .   [ 1 2 ]   F .   F a h mi ,   M .   A .   J i w a n g g i ,   a n d   M .   A d r i a n i ,   S p e e c h - e m o t i o n   d e t e c t i o n   i n   a n   I n d o n e s i a n   m o v i e ,   i n   Pro c e e d i n g o f   t h e   1 st   J o i n t   Wo r k sh o p   o n   S p o k e n   L a n g u a g e   T e c h n o l o g i e f o U n d e r - res o u r c e d   l a n g u a g e s   ( S L T U )   a n d   C o l l a b o r a t i o n   a n d   C o m p u t i n g   f o r   U n d e r - Re s o u rce d   L a n g u a g e s (C C U R L ) ,   2 0 2 0 ,   p p .   1 8 5 19 3.   [ 1 3 ]   P .   K u r n i a w a t i ,   D .   P .   Le s t a r i ,   a n d   M .   L.   K h o d r a ,   S p e e c h   e mo t i o n   r e c o g n i t i o n   f r o I n d o n e si a n   sp o k e n   l a n g u a g e   u s i n g   a c o u s t i c   a n d   l e x i c a l   f e a t u r e s,   i n   2 0 1 7   2 0 t h   C o n f e r e n c e   o f   t h e   O ri e n t a l   C h a p t e o f   t h e   I n t e rn a t i o n a l   C o o r d i n a t i n g   C o m m i t t e e   o n   S p e e c h   D a t a b a se s a n d   S p e e c h   I / O   S y s t e m a n d   Ass e ssm e n t   ( O - C O C O S D A) ,   N o v .   2 0 1 7 ,   p p .   1 7 ,   d o i :   1 0 . 1 1 0 9 / i c sd a . 2 0 1 7 . 8 3 8 4 4 6 7 .   [ 1 4 ]   N .   B .   W u n a r so   a n d   Y .   E .   S o e l i s t i o ,   T o w a r d I n d o n e s i a n   sp e e c h - e mo t i o n   a u t o ma t i c   r e c o g n i t i o n   ( I - S p EA R ) ,   i n   2 0 1 7   4 t h   I n t e r n a t i o n a l   C o n f e r e n c e   o n   N e w   M e d i a   S t u d i e s (CO N ME D I A) ,   N o v .   2 0 1 7 ,   p p .   9 8 101 ,   d o i :   1 0 . 1 1 0 9 / c o n me d i a . 2 0 1 7 . 8 2 6 6 0 3 8 .   [ 1 5 ]   O .   U .   K u m a l a   a n d   A .   Za h r a ,   I n d o n e si a n   s p e e c h   e m o t i o n   r e c o g n i t i o n   u s i n g   c r o ss - c o r p u s   me t h o d   w i t h   t h e   c o m b i n a t i o n   o f   M F C C   a n d   Te a g e r   e n e r g y   f e a t u r e s,”   I n t e rn a t i o n a l   J o u r n a l   o f   A d v a n c e d   C o m p u t e S c i e n c e   a n d   A p p l i c a t i o n s ,   v o l .   1 2 ,   n o .   4 ,   2 0 2 1 ,   d o i :   1 0 . 1 4 5 6 9 / i j a c s a . 2 0 2 1 . 0 1 2 0 4 2 2 .   [ 1 6 ]   T.   L i u   a n d   X .   Y u a n ,   P a r a l i n g u i st i c   a n d   s p e c t r a l   f e a t u r e   e x t r a c t i o n   f o r   sp e e c h   e m o t i o n   c l a ss i f i c a t i o n   u s i n g   mac h i n e   l e a r n i n g   t e c h n i q u e s,   EU RA S I J o u rn a l   o n   A u d i o ,   S p e e c h ,   a n d   M u s i c   Pr o c e ssi n g ,   v o l .   2 0 2 3 ,   n o .   1 ,   M a y   2 0 2 3 ,   d o i :   1 0 . 1 1 8 6 / s1 3 6 3 6 - 023 - 0 0 2 9 0 - x.   [ 1 7 ]   A .   A g g a r w a l   e t   a l . ,   Tw o - w a y   f e a t u r e   e x t r a c t i o n   f o r   sp e e c h   e mo t i o n   r e c o g n i t i o n   u s i n g   d e e p   l e a r n i n g ,   S e n so rs ,   v o l .   2 2 ,   n o .   6 ,   p .   2 3 7 8 ,   M a r .   2 0 2 2 ,   d o i :   1 0 . 3 3 9 0 / s2 2 0 6 2 3 7 8 .   [ 1 8 ]   S .   S e k k a t e ,   M .   K h a l i l ,   a n d   A .   A d i b ,   A   st a t i st i c a l   f e a t u r e   e x t r a c t i o n   f o r   d e e p   s p e e c h   e m o t i o n   r e c o g n i t i o n   i n   a   b i l i n g u a l   s c e n a r i o ,   Mu l t i m e d i a   T o o l a n d   Ap p l i c a t i o n s ,   v o l .   8 2 ,   n o .   8 ,   p p .   1 1 4 4 3 1 1 4 6 0 ,   O c t .   2 0 2 2 ,   d o i :   1 0 . 1 0 0 7 / s 1 1 0 4 2 - 0 2 2 - 1 4 0 5 1 - z.   [ 1 9 ]   R .   Ja h a n g i r ,   Y .   W .   Te h ,   F .   H a n i f ,   a n d   G .   M u j t a b a ,   D e e p   l e a r n i n g   a p p r o a c h e f o r   sp e e c h   e m o t i o n   r e c o g n i t i o n :   s t a t e   o f   t h e   a r t   a n d   r e sea r c h   c h a l l e n g e s ,   M u l t i m e d i a   T o o l a n d   A p p l i c a t i o n s ,   v o l .   8 0 ,   n o .   1 6 ,   p p .   2 3 7 4 5 2 3 8 1 2 ,   Ja n .   2 0 2 1 ,   d o i :   1 0 . 1 0 0 7 / s1 1 0 4 2 - 020 - 0 9 8 7 4 - 7.   [ 2 0 ]   S .   Jai n   a n d   B .   K i s h o r e ,   C o mp a r a t i v e   st u d y   o f   v o i c e   p r i n t   B a s e d   a c o u st i c   f e a t u r e s :   M F C C   a n d   LP C C ,   I n t e rn a t i o n a l   J o u r n a l   o f   Ad v a n c e d   e n g i n e e r i n g ,   M a n a g e m e n t   a n d   S c i e n c e ,   v o l .   3 ,   n o .   4 ,   p p .   3 1 3 3 1 5 ,   2 0 1 7 ,   d o i :   1 0 . 2 4 0 0 1 / i j a e ms. 3 . 4 . 5 .   [ 2 1 ]   S .   J o o ,   J.   C h o i ,   N .   K i m ,   a n d   M .   C .   Le e ,   Ze r o - c r o s si n g   r a t e   me t h o d   a s   a n   e f f i c i e n t   t o o l   f o r   c o m b u st i o n   i n st a b i l i t y   d i a g n o si s,   Ex p e ri m e n t a l   T h e rm a l   a n d   F l u i d   S c i e n c e ,   v o l .   1 2 3 ,   p .   1 1 0 3 4 0 ,   M a y   2 0 2 1 ,   d o i :   1 0 . 1 0 1 6 / j . e x p t h e r mf l u sc i . 2 0 2 0 . 1 1 0 3 4 0 .   [ 2 2 ]   S .   C u n n i n g h a m ,   H .   R i d l e y ,   J .   W e i n e l ,   a n d   R .   P i c k i n g ,   S u p e r v i se d   mac h i n e   l e a r n i n g   f o r   a u d i o   e mo t i o n   r e c o g n i t i o n :   E n h a n c i n g   f i l s o u n d   d e si g n   u si n g   a u d i o   f e a t u r e s,  r e g r e ss i o n   mo d e l a n d   a r t i f i c i a l   n e u r a l   n e t w o r k s,”   P e rso n a l   a n d   U b i q u i t o u s   C o m p u t i n g v o l .   2 5 ,   n o .   4 ,   p p .   6 3 7 6 5 0 ,   A p r .   2 0 2 0 ,   d o i :   1 0 . 1 0 0 7 / s 0 0 7 7 9 - 0 2 0 - 0 1 3 8 9 - 0.   [ 2 3 ]   R. - A .   K n i g h t   a n d   J .   S e t t e r ,   T h e   C a m b r i d g e   h a n d b o o k   o f   p h o n e t i c s .   C a m b r i d g e   U n i v e r s i t y   P r e s s ,   2 0 2 1 ,   d o i :   1 0 . 1 0 1 7 / 9 7 8 1 1 0 8 6 4 4 1 9 8 .   [ 2 4 ]   J.  M .   K .   K u a ,   T.   Th i r u v a r a n ,   M .   N o s r a t i g h o d s,   E.   A mb i k a i r a j a h ,   a n d   J.   E p p s ,   I n v e s t i g a t i o n   o f   sp e c t r a l   c e n t r o i d   m a g n i t u d e   a n d   fr e q u e n c y   f o r   s p e a k e r   r e c o g n i t i o n ,   i n   O d y ss e y   2 0 1 0 :   S p e a k e a n d   L a n g u a g e   Re c o g n i t i o n   W o rk sh o p ,   2 0 1 0 ,   p p .   3 4 3 9 .   [ 2 5 ]   Z.   H u a n g ,   M .   D o n g ,   Q .   M a o ,   a n d   Y .   Zh a n ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   u s i n g   C N N ,   i n   Pr o c e e d i n g o f   t h e   2 2 n d   AC i n t e r n a t i o n a l   c o n f e re n c e   o n   M u l t i m e d i a ,   N o v .   2 0 1 4 ,   p p .   8 0 1 804 ,   d o i :   1 0 . 1 1 4 5 / 2 6 4 7 8 6 8 . 2 6 5 4 9 8 4 .   [ 2 6 ]   J.  L e e   a n d   I .   Ta s h e v ,   H i g h - l e v e l   f e a t u r e   r e p r e se n t a t i o n   u s i n g   r e c u r r e n t   n e u r a l   n e t w o r k   f o r   sp e e c h   e m o t i o n   r e c o g n i t i o n ,   i n   I n t e rs p e e c h   2 0 1 5 ,   S e p .   2 0 1 5 ,   d o i :   1 0 . 2 1 4 3 7 / i n t e r sp e e c h . 2 0 1 5 - 33 6.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   4 Au g u s t   20 25 :   3 7 6 9 - 3778   3778   [ 2 7 ]   T.   A n v a r j o n ,   M u st a q e e m ,   a n d   S .   K w o n ,   D e e p - N e t :   a   l i g h t w e i g h t   C N N - b a se d   s p e e c h   e mo t i o n   r e c o g n i t i o n   s y st e u si n g   d e e p   f r e q u e n c y   f e a t u r e s,   S e n so rs ,   v o l .   2 0 ,   n o .   1 8 ,   p .   5 2 1 2 ,   S e p .   2 0 2 0 ,   d o i :   1 0 . 3 3 9 0 / s 2 0 1 8 5 2 1 2 .   [ 2 8 ]   A .   A f t a b ,   A .   M o r sa l i ,   S .   G h a e mm a g h a mi ,   a n d   B .   C h a m p a g n e ,   LI G H T - S ER N ET :   a   l i g h t w e i g h t   f u l l y   c o n v o l u t i o n a l   n e u r a l   n e t w o r k   f o r   s p e e c h   e m o t i o n   r e c o g n i t i o n ,   i n   I C A S S P   2 0 2 2   -   2 0 2 2   I EE E   I n t e r n a t i o n a l   C o n f e r e n c e   o n   Ac o u s t i c s,   S p e e c h   a n d   S i g n a l   Pr o c e ssi n g   ( I C A S S P) ,   M a y   2 0 2 2 ,   p p .   6 9 1 2 6 9 1 6 ,   d o i :   1 0 . 1 1 0 9 / i c a ss p 4 3 9 2 2 . 2 0 2 2 . 9 7 4 6 6 7 9 .   [ 2 9 ]   C .   V o g e l   a n d   K .   A h m a d ,   A g r e e m e n t   a n d   d i sa g r e e me n t   b e t w e e n   m a j o r   e m o t i o n   r e c o g n i t i o n   s y st e ms,   K n o w l e d g e - Ba s e d   S y s t e m s v o l .   2 7 6 ,   p .   1 1 0 7 5 9 ,   S e p .   2 0 2 3 ,   d o i :   1 0 . 1 0 1 6 / j . k n o s y s. 2 0 2 3 . 1 1 0 7 5 9 .   [ 3 0 ]   M .   L.   M c H u g h ,   I n t e r r a t e r   r e l i a b i l i t y :   t h e   K a p p a   st a t i s t i c ,   B i o c h e m i a   Me d i c a ,   p p .   2 7 6 2 8 2 ,   2 0 1 2 ,   d o i :   1 0 . 1 1 6 1 3 / b m. 2 0 1 2 . 0 3 1 .   [ 3 1 ]   D .   M .   N o g u e i r a ,   C .   A .   F e r r e i r a ,   E.   F .   G o m e s,  a n d   A .   M .   J o r g e ,   C l a ss i f y i n g   h e a r t   s o u n d u s i n g   i ma g e o f   m o t i f s,  M F C C   a n d   t e m p o r a l   f e a t u r e s ,   J o u r n a l   o f   M e d i c a l   S y st e m s ,   v o l .   4 3 ,   n o .   6 ,   M a y   2 0 1 9 ,   d o i :   1 0 . 1 0 0 7 / s1 0 9 1 6 - 0 1 9 - 1 2 8 6 - 5.   [ 3 2 ]   S .   D .   W a g h mare ,   R .   R .   D e s h mu k h ,   P .   P .   S h r i s h r i ma l ,   V .   B .   W a g h m a r e ,   a n d   G .   B .   Ja n v a l e ,   S t u t t e r e d   i s o l a t e d   s p o k e n   M a r a t h i   sp e e c h   r e c o g n i t i o n   b y   u s i n g   M F C C   a n d   LPC ,   I n t e r n a t i o n a l   J o u rn a l   o f   I n n o v a t i o n s i n   E n g i n e e ri n g   a n d   T e c h n o l o g y ,   v o l .   8 ,   n o .   3 ,   2 0 1 7 ,   d o i :   1 0 . 2 1 1 7 2 / i j i e t . 8 3 . 0 1 8 .   [ 3 3 ]   M .   M .   R e z a p o u r   M a s h h a d i   a n d   K .   O sei - B o n s u ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   u si n g   m a c h i n e   l e a r n i n g   t e c h n i q u e s:   F e a t u r e   e x t r a c t i o n   a n d   c o mp a r i s o n   o f   c o n v o l u t i o n a l   n e u r a l   n e t w o r k   a n d   r a n d o f o r e st ,   PLO S   O N E ,   v o l .   1 8 ,   n o .   1 1 ,   p .   e 0 2 9 1 5 0 0 ,   N o v .   2 0 2 3 ,   d o i :   1 0 . 1 3 7 1 / j o u r n a l . p o n e . 0 2 9 1 5 0 0 .   [ 3 4 ]   H .   K .   P a l o ,   T h e   e f f e c t   o f   a g e ,   g e n d e r ,   a n d   a r o u s a l   l e v e l   o n   c a t e g o r i z i n g   h u ma n   a f f e c t i v e   s t a t e s,   i n   Em o t i o n   a n d   I n f o rm a t i o n   Pro c e ssi n g ,   S p r i n g e r   I n t e r n a t i o n a l   P u b l i sh i n g ,   2 0 2 0 ,   p p .   9 7 1 2 4 ,   doi :   1 0 . 1 0 0 7 / 9 7 8 - 3 - 0 3 0 - 4 8 8 4 9 - 9 _ 7 .       B I O G RAP H I E S O F   AUTH O RS       Iz z a   Nur  Afifa h           re c e iv e d   h e Ba c h e lo r   o f   Ap p li e d   S c ien c e   d e g re e   in   tele c o m m u n ica ti o n   e n g i n e e rin g   f ro m   P o l it e k n ik   El e k tr o n i k a   Ne g e ri  S u ra b a y a ,   In d o n e sia ,   in   2 0 2 2 .   C u rre n tl y ,   sh e   is  p u rsu in g   a   M a ste o Ap p l ied   S c ien c e   d e g re e   in   c o m p u ter  a n d   in fo rm a ti c e n g in e e ri n g   a th e   sa m e   in stit u ti o n .   He re se a rc h   i n ter e sts  d u ri n g   h e st u d y   i n c lu d e   sp e e c h   e m o ti o n   re c o g n it io n   a n d   m a c h in e   lea r n i n g .   S h e   c a n   b e   c o n tac ted   a e m a il izz a n u ra fifah @g m a il . c o m .         Tr Bu d i   S a n to s o           re c e iv e d   h is  B. E n g .   d e g re e   in   e n g in e e rin g   p h y sic s ,   h is  M . T.   d e g re e   in   e lec tri c a e n g in e e rin g ,   a n d   h is  Dr.  d e g re e   fro m   th e   In stit u Tek n o lo g S e p u l u h   No p e m b e r,   S u ra b a y a ,   In d o n e sia ,   in   1 9 9 4 ,   1 9 9 9 ,   a n d   2 0 1 6 ,   re sp e c ti v e ly ,   wit h   re se a rc h   fo c u se d   o n   sig n a p ro c e ss in g .   He   h a b e e n   with   t h e   De p a rtme n t   o f   El e c tri c a En g i n e e rin g   a t   th e   El e c tro n ic  En g in e e rin g   P o ly tec h n ic  In stit u te  o S u ra b a y a   (P ENS sin c e   1 9 9 5 .   His  re se a rc h   in tere sts  in c lu d e   tele c o m m u n ica ti o n a n d   a c o u stic  sig n a p r o c e ss in g .   He   c a n   b e   c o n tac ted   a e m a il tri b u d i@p e n s.a c . i d .         Tito n   Duto n o           wa b o rn   in   S u ra b a y a ,   I n d o n e sia ,   in   1 9 6 0 .   H e   re c e iv e d   a   B. S .   d e g re e   in   tele c o m m u n ica ti o n   e n g in e e rin g   fro m   S e p u l u h   No p e m b e In stit u te  o Tec h n o l o g y ,   S u ra b a y a ,   I n d o n e sia ,   i n   1 9 8 5 ,   a n d   b o t h   h is  M a ste r’s  a n d   Do c to o En g i n e e rin g   d e g re e in   e lec tri c a e n g in e e rin g   a n d   c o m p u ter  sc ien c e   fro m   Ku m a m o to   Un iv e rsity ,   Ku m a m o t o ,   Ja p a n ,   in   1 9 9 4   a n d   1 9 9 7 ,   re sp e c ti v e ly .   F ro m   2 0 0 2   t o   2 0 0 8 ,   h e   se rv e d   a th e   P ri n c ip a o th e   El e c tro n ics   En g in e e ri n g   P o ly tec h n ic  In st it u te  o S u ra b a y a   (P EN S ).   F ro m   2 0 0 8   t o   2 0 1 6 ,   h e   wa a p p o i n ted   De p u t y   Dire c to r - G e n e r a fo S p e c tru m   P o li c y   a n d   P lan n in g   a th e   M in istr y   o f   Co m m u n ica ti o n   a n d   In f o rm a ti o n   Tec h n o l o g y ,   Re p u b li c   o f   In d o n e sia .   He   wa a lso   in   c h a rg e   o f   lea d in g   th e   In d o n e sia n   d e leg a ti o n   d u rin g   ITU   re g u lato ry   m e e ti n g in   G e n e v a   a n d   o th e r   v e n u e s.  S in c e   2 0 1 7 ,   h e   h a re t u rn e d   t o   c a m p u a a n   a ss o c iate   p ro fe ss o i n   t h e   El e c tri c a En g i n e e rin g   De p a rtme n o EE P IS .   His  re se a rc h   in tere sts  in c lu d e   sig n a p r o c e ss in g ,   ra d io   c o m m u n ica ti o n ,   tele c o m m u n ica ti o n   re g u latio n ,   a n d   tea c h in g   m e th o d o lo g y .   He   c a n   b e   c o n tac ted   a e m a il ti t o n @ p e n s.a c . id .     Evaluation Warning : The document was created with Spire.PDF for Python.