I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol .   14 , N o.   4 A ugus t   2025 , pp.  3366 ~ 3374   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 14 .i 4 .pp 3366 - 3374          3366       Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   E val u at i n g t h e  i n f l u e n c e  of  f e at u r e   se l e c t i on - b ase d   d i m e n s i on al i t y r e d u c t i on  on   se n t i m e n t  an al ysi s       G ow r av   R am e s h  B ab u   K is h or e B u k ah al ly  S om as h e k ar  H a r is h C h al u ve gow d a K an ak al ak s h m R oop a   D e pa r t m e nt  of  I nf or m a t i on  S c i e nc e  a nd  E ngi ne e r i ng, J S S   S c i e nc e  a nd T e c hnol ogy U ni ve r s i t y, M ys ur u, I ndi a       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e A pr  2, 2024   R e vi s e M a r  21, 2025   A c c e pt e J un 8, 2025       As  social  media  has  become   an  integral  part   of  digital   medium,  the  us age  of   the same h as incre ased multi - fold in recent  years. With  increase in us a ge, the   sentiment  analysis  of  such  data  has  emerged  as  one  of  the  most   sought  research  domains At  the  same  time,  social  media  texts  are  known  t pose   variety  of  challenges  during   the  analysis,   thus  making   pre - processing  one  of   the importan t steps. The  aim of  this work is  to perfor m sentiment a nal ysis on   social media text, w hile  handling the  noise effec tively  in  the  data. Thi s study   is  performed  on  multi - class  twitter  sentiment  dataset.  Firstly,  we  apply  several  text  cleaning  techniques  in  order  to   eliminate  noise  and  redu ndancy  in  the  data.  In   addition,  we  examine   the  influence   of  regularized  l ocality  preserving  indexing  (RLPI)  technique  combined  with  the  well - known  word  weighting  methods.  The  findings  obtained  from  experiment  indicat that,   RLPI  outperforms  other  algorithms  in  feature  selection  and  when  paired  with  long  short - term   memory  (LSTM),  the  combination   outperform other  classifi cation m odels t hat are di scussed.   K e y w o r d s :   S e nt im e nt  a na ly s is   P r e - pr oc e s s in g   D im e ns io na li ty  r e duc ti on   F e a tu r e  s e le c ti on   C la s s if ic a ti on   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   C ha lu ve gow da  K a n a ka la ks hm R oopa   D e pa r tm e nt  of  I nf or m a ti on S c ie nc e  a nd E ngi ne e r in g, J S S  S c ie n c e  a nd  T e c hnol ogy Unive r s it y   M ys ur u, 570006, Ka r na ta ka , I ndi a   E m a il c kr @ js s s tu ni v.i n       1.   I N T R O D U C T I O N   N ow - a - da ys   s oc ia m e di a   ha s   ga r ne r e a   lo of   a tt e nt io n.  I is   a   m ul ti m e di a   pl a tf or m   w he r e   pe opl e   c a s ha r e   or   c ons um e   in f or m a ti on  in   a ny  f or m a th a th e w a n t,   be   it   im a ge vi de o,  a udi o ,   or   te xt T ha nks   to   it s   in s ta nt a ne ous   gl ob a a c c e s s ib il it y,  it   ha s   b e c om e   a   vi ta p a r of   di gi ta m e di a A s   pe opl e   s ta r te us in g   s oc ia m e di a   in   la r ge   num be r s th e   ne e to   a na ly z e   th e   s a m e   be c a m e   ne c e s s a r y.  T he   a n a ly s is   s ta r te ta ki ng   pl a c e   on  a ll   pos s ib le   a s pe c t s I f   one   s e c ti on   of   r e s e a r c c om m u ni ty   f oc us e on   th e   opt im a u s e   of   c om put in r e s our c e s , t he  ot he r  s e c ti on f oc us e d on the   e f f e c ti ve  i nf or m a ti on r e tr ie va te c hni que s  f or  t he  s a m e .   O ne   of   th e   t r e ndi ng  a r e a s   in   in f o r m a ti on  r e t r ie va is   s e nt im e nt   a na ly s is w he r e   th e   gi ve da ta   is   a na ly z e d   in   or de r   to   obt a in   th e   in te nde opi ni on  or   e m ot io n.  T he r e   a r e   m a ny  w a y s   to   e xpr e s s   s e nt im e nt s   T he  m os popula r  m e th ods  t o c a te gor iz e  t he m  i s  e it he r  ba s e d on pola r it y or  ba s e d on e m ot io n. W he n i c om e s   to   pol a r it y,  th e   s e nt im e nt s   m ig ht   be   one   a m ong  pos it iv e ne g a ti ve or   ne ut r a l.   S uc la be ll in is   be s s ui te d   w he th e  a im   of   th e   a na ly s i s   is   to   g e th e   in f e r e nc e   onl y a hi gh e r   le ve l.   O n   th e   ot he r   ha nd,   f or   e m ot io n,  th e r e   is   w id e   r a nge   of   te r m s   to   e xpr e s s s u c a s   ha ppy, s a d,  s a r c a s ti c ir oni c a nd  m e ta phor ic a l ;   a nd  s uc s e nt im e nt   la be ll in g w or ks  be s w he n t he   a na ly s is   c a ll s  f or  t he  i nf e r e nc e  of  pa r ti c ul a r  opi ni on.   I r e c e nt   ye a r s s e nt im e nt   a na ly s is   on  th e   s oc ia m e di a   te xt   ha s   ga in e a   lo of   m om e nt um W he th e r   it   is   a na ly z in g   a m a z on  r e vi e w s   f or   m a r ke r e s e a r c h,  or   a na ly z in g   twe e ts   to   ga uge   a udi e nc e   s e nt im e nt th e   r e s e a r c is   be in c ondu c te on  a ll   c onc e iv a bl e   f r ont s A lt ho ugh  s oc ia m e di a   is   w id e ly   r e c ogni z e d   a s   a   va lu a bl e   da ta   s our c e th e   te xt   da ta   c ol le c te f r om   th e s e   pl a tf or m s   c a ha ve   a   num be r   of   is s ue s I s s ue s   li ke   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       E v al uat in g t he  i nf lu e nc e  of  f e at ur e  s e le c ti on bas e d di m e n s io nal it y     ( G ow r av  R am e s h B abu K is hor e )   3367   e m oj is ha s ht a g s e m oj i s m im ic ki ng  s pok e w or pr ol ong a ti ons m is s p e ll in gs a nd   s pe c ia c ha r a c te r s   oc c a s io na ll c a u s e   noi s e   in   th e   da ta th us   m a ki ng  it   di f f ic ul to   pr oc e s s   it   di r e c tl y.  P r oc e s s in a nd  a na ly z in g   s oc ia m e di a   te xt s   c a n   a ls o   be   di f f ic ul be c a us e   of   th e ir   non - u ni f or m   na tu r e a s   th e y   don' a lw a ys   a dhe r e   to   li ngui s ti c   nor m s U s ua ll y,  s uc i s s ue s   a r e   not   e nc ount e r e in   ot he r   s ta nda r s our c e s s uc a s   ne w s pa pe r s   or     e - books a s   th e a dhe r e   to   la ngua ge   s ta nda r ds T he r e f or e pr e - pr oc e s s in s te ps   s uc a s   te xt   c le a ni ng  or   di m e ns io na li ty   r e duc ti on  be c om e s   ne c e s s a r y,  in   or de r   to   ha ndl e   s upe r f lu ous   or   hi gh - di m e ns io na s oc ia l   m e di a   te xt   da ta   [ 1] A ddi ti ona ll y,  it   is   c r it ic a th a th e   m ode b e   a bl e   to   unde r s ta nd  th e   c ont e xt   a nd  s e nt im e nt   f r om  s hor t - te xt s , a s  s oc ia m e di a  pl a tf or m s  a ls o i m pos e  l im it s  o n t he  numbe r  of  w or ds .   P r e - pr oc e s s in of   a   te xt   in vol ve s   s e ve r a im por ta nt   s te ps w he r e   w it e a c s te th e   le a s im por ta nt   pa r of   th e   da ta   is   dr oppe d.   S om e ti m e s m or e   th a th e   a na ly s is pr e - pr oc e s s in it s e lf   ta ke s   m or e   ti m e   [ 2]   T he   r e m ova of   s pe c ia s ym bol s   a nd  s to p - w or ds   r e duc e s   th e   di m e ns io na li ty   in   th e   te r m   s pa c e   [ 3] H ow e ve r ,   c e r ta in   c le a ni ng  pr oc e dur e s   do  not   r e qui r e   th e   c om pl e te   r e m ova of   th e   te r m   f r o m   th e   da ta a s   f or   e xa m pl e le m m a ti z a ti on  a nd  s te m m in m e r e ly   r e qui r e   th e   te r m   to   be   r e duc e to   it s   ba s ic   f or m s I a ls gr e a tl a id s   i n   r e m ovi ng  r e dunda nc a nd  noi s e s th a onl th e   m os im por ta nt   c om pone nt s   a r e   le f f or   f ur th e r   a na ly s is O f te n,  e ve a f te r   c le a ni ng  th e   in put   te xt th e   f in a c or pus   s iz e   w il s ur pa s s   th e   pr oc e s s in c a pa bi li ty   of   th e   s ys te m S o,   in   or de r   to   r e duc e   th e   di m e ns io na li ty   of   in put   f u r th e r m or e f e a tu r e   e ngi ne e r in is   pe r f or m e d.   F e a tu r e   e ngi ne e r in te c hni que s   a r e   us e m a in ly   to   e xt r a c or   s e le c m os r e le va nt   s e of   f e a tu r e s I c a s e   of   te xt , t he  f ir s a nd f or e m os ta s k i s  f e a tu r e s   e xt r a c ti on, whe r e  t he  t e xt  i s  r e pr e s e nt e d i n m a c hi ne  unde r s ta nda bl e   num e r ic a f or m S ubs e que nt ly f e a tu r e   s e le c ti on   is   e m pl oy e t is ol a te   th e   m os s ig ni f ic a nt   f e a tu r e s ,   w hos e   c ont r ib ut io n i s  m or e  dur in g t he  c la s s if ic a ti on.   F ig ur e   s how s   th e   c a te gor ie s   of   di m e ns io na li ty   r e duc ti o te c hni que s G e ne r a ll y,   in   f e a tu r e   e xt r a c ti on,  th e   or ig in a s e of   f e a tu r e s   is   tr a ns f or m e to   ge t   a   le s s e r   num be r   of   m e a ni ngf ul   a nd  r e le va nt   f e a tu r e   s e t.   S om e   of   th e   w e ll - known   a lg or it hm s   a r e   pr in c ip a l   c om pone nt   a na ly s is   ( P C A )   a nd  t - di s tr ib ut e d   s to c ha s ti c   ne ig hbor   e m be ddi ng  (t - S N E ) . I n  f e a tu r e  s e le c ti on, s ubs e ts  of  f e a tu r e s  a r e  s e le c te d f r om  t he  or ig in a l   s e of   f e a tu r e s   by  e li m in a ti ng  th e   r e dunda nt   or   ir r e le va nt   on e s S om e   w e ll - known  m e th ods   a r e   r e c ur s iv e   f e a tu r e  e li m in a ti on   ( R F E ) , c or r e la ti on a nd mut ua in f or m a ti on - ba s e d a lg or it hm s .           F ig ur e  1. C a te gor ie s  of  di m e ns io na li ty  r e duc ti on t e c hni que s       I th is   pa pe r w e   e va lu a te   th e   pe r f o r m a nc e   of   f e a tu r e   s e le c ti on  te c hni que s   w he pa ir e w it h   r e gul a r iz e lo c a li ty   pr e s e r vi ng  in de xi n ( R L P I )   a lg or it hm A ls o,  e xa m in e   th e   be ha vi or   of   th e   s e le c te s e of   f e a tu r e s   w it va r io us   ne ur a ne twor k - ba s e d   c la s s if ic a ti on  m ode ls T he   pur pos e   of   th is   s tu dy  is   to   ga in   a   de e pe r   unde r s ta ndi ng  on  us in va r io us   pr e - pr oc e s s in te c hni que s   in   c om bi na ti on  w it R L P I   di m e ns io na li ty   r e duc ti on t e c hni que  t ha a f f e c th e  pe r f or m a nc e  s e nt im e nt  c la s s if ic a ti on. T he  pr im a r f oc us  of  t hi s   r e s e a r c h i s   on  f e a tu r e   s e le c ti on  a ppr oa c he s   a nd  th e ir   e f f e c on   s e nt im e nt   t e xt   c la s s if ic a ti on  pe r f or m a nc e T he   f ol lo w in di s c us s io pr ovi de s   s om e   in it ia in s ig ht s   on  th e   pr om in e nt   f e a tu r e   s e le c ti on  te c hni qu e s   a nd   th e ir   im pa c on  s e nt im e nt  c la s s if ic a ti on.   T e r m   f r e que nc y - in ve r s e   doc um e nt   f r e que n c ( TF - I D F )   is   one   of   th e   w e ll - known  f e a tu r e   e xt r a c ti on  m e th ods w he r e   it   i s   ge ne r a ll u s e f or   e xt r a c ti ng  num e r i c a f e a tu r e s   out   of   t e xt   da ta   [ 4] H ow e v e r   P a ti a nd  A ti que   [ 5]   s how s   how   f e a tu r e   s e le c ti on  c a be   im pl e m e nt e w it T F - I D F by  a ddi ng  th r e s hol pa r a m e te r s   to   th e   te r m s   in   or de r   to   s e le c th e   ke y   te r m s W hi l e   Q e al .   [ 6]   pr opos e a im pr ove T F - I D F   a ppr oa c by  in c lu di ng  doc um e nt s   r e la ti on  w it m ul ti - c la s s   in f or m a ti on,  a nd  ba s e on  th e   w e ig ht s   obt a in e d,  th e   to K   voc a bul a r te r m s   f or   e a c h   doc um e nt   a r e   id e nt if ie d.  L e al .   [ 7]   a ppl ie r e gul a r iz e le a s s qu a r e s - m ul ti   a ngl e   r e gr e s s io a nd  s hr in ka ge   ( R L S - M A R S )   m ode l   to   de te r m in e   th e   le a s s ig ni f ic a nt   f e a tu r e s   T he   pr opos e m e th od  a s s ig ns   le s s   w e ig ht   to   th e   le a s s ig ni f ic a n f e a tu r e s A c c or di ng  to   W a ng   a nd  Z ha ng   [ 8] a   f e a tu r e   s e le c ti on  m e th od  i s   pr e s e nt e ba s e on  T F - I D F   by  c om bi ni ng  it   w it K ul lb a c k L e ib le r   ( KL )   di ve r ge nc e w he r e by  c on s id e r in th e   m ut ua in f or m a ti on  a s   th e   c r it e r io n,  th e   a ut hor s   pr opos e a im pr ove c la s s if ic a ti on  a ppr oa c h.  S ong  e al .   [ 9]   in t r oduc e a e nt r opy   in de a lo ng  w it T F - I D F   in   or de r   to   ge th e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 A ugus 2025 3366 - 3374   3368   e nt r opy  in f or m a ti on   of   a   te r m   w it h - in   a nd  a m ong   th e   c la s s e s w hi c w il th e be   us e f or   te xt   f e a tu r e   s e le c ti on.  N a f is   a nd  A w a ng   [ 10]   pr opos e s   a   two  s ta ge   f e a tu r e   s e le c ti on  a ppr oa c h.  W he r e   in   f ir s s ta ge th e   va r ia nc e   obt a in e f or   e nt ir e   T F - I D F   m a tr ix   is   us e a s   th r e s hol to   s e le c th e   f e a tu r e s T he in   s e c ond  s ta ge th e   s uppor ve c to r  m a c hi ne  ( S V M ) - R F E  i s  a ppl ie d on the  ne w  f e a tu r e  s e to   re - e va lu a te  t he  f e a tu r e s .   T he   a ut hor s   in   [ 11]   pr opos e a   f e a tu r e   s e l e c ti on  m e th od  ba s e on  th e   c om bi na ti on  of   in f or m a ti on   ga in   a nd  di ve r ge nc e   f or   te xt   c a te gor iz a ti on  m ode ls   b a s e d   on  s t a ti s ti c s w h e r e   it   c hoo s e s   e ve r f e a tu r e   b a s e d   on  a   c om bi na ti on  of   in f or m a ti on  ga in   a nd   nove lt c r it e r ia   r e s ul ti ng  in   r e duc e r e dunda n c a m ong  th e   s e le c te f e a tu r e s T he   b e ha vi or   of   th e   in f or m a ti on  ga in - ba s e f e a tu r e   s e le c ti on  m e th od  c om bi ne w it th e   ge ne ti c   a lg or it hm   is   de m on s tr a te in   [ 12] de m ons tr a ti ng  th e   m e th od  th a lo w e r s   th e   te xt   ve c to r ' s   di m e ns io n.  S ha ng  e al [ 13]   pr opos e a   m a xi m iz in gl oba in f or m a ti on  g a in   a ppr oa c h,  w hi c h   is   a e nha n c e ve r s io of   in f or m a ti on  ga in   a lg or it hm .   A lo ng  w it a voi di ng   th e   r e dunda nc in   th e   f e a tu r e s gl oba in f or m a ti on  ga i n   m e tr ic   is   s a id   to   be   m or e   in f or m a ti ve di s ti nc ti ve   a nd  a l s pe r f or m   f a s te r   w he c om pa r e to   th e   tr a di ti ona in f or m a ti on  ga in P e r e ir a   e al .   [ 14]   di s c us s e s   th e   p e r f or m a nc e   of   in f or m a ti on  ga in   ba s e f e a tu r e   s e le c ti on,  a nd  c om pa r e s   th e   s a m e   a ga in s ot he r   m ul ti - la be f e a tu r e   s e le c ti on  m e th ods O m uya   e al [ 15]   p r opos e s   a   hybr id   di m e ns io na li ty   r e duc ti on  te c hni que   th a us e s   in f or m a ti o ga in   a nd  P C A   to   e xt r a c t   a nd c hoos e   r e le va nt   f e a tu r e s T h e   a ppr oa c h' s  e f f e c ti ve ne s s   w a s  a s s e s s e d a ga in s th e   n a iv e   B a y e s   m ode l,   w he r e   th e   tr a in in ti m e   is   s hor te ne d w hi le  e nha nc in g pe r f or m a nc e .   T he   c hi - s qu a r e   te s t   is   on e   of   th e   w id e ly   us e d   s ta ti s ti c a f unc ti ons   a nd  th e   w or in   [ 4]   de m ons tr a te s   th e   us e   of   c hi - s qua r e   te s f or   f e a tu r e   s e le c ti on,  a lo ng  w it K - ne a r e s ne ig hbor   ( K N N )   a s   th e   c la s s if ic a ti on  a lg or it hm O th e   ot he r   ha nd,  Z ha e al .   [ 16 ]   s how s   it s   a bi li ty   to   e f f e c ti ve ly   s e le c th e   be tt e r   pe r f or m in s e of   f e a tu r e s   th a th e   in f or m a ti on  ga in   a lg or it hm J in   e al .   [ 17 ]   pr opos e s   a e nha nc e ve r s io of   c hi - s qua r e   s ta ti s ti c s   a ppr oa c h   c a ll e d   a s   te r m   f r e que nc y   a nd  di s tr ib ut io ba s e d   C H I   f or   f e a tu r e   s e le c ti on  in   or de r   to   a ddr e s s   th e   in a bi li ty   of   th e   or ig in a a ppr oa c to   c on s id e r   a nd   id e nt if th e   te r m   di s tr ib ut io in   e a c c la s s .     Li   [ 18 ]   pr opos e a e nha nc e ve r s io of   c hi - s qua r e   a ppr oa c ba s e on  C hi - s qua r e   r a nk  c or r e la ti on   f a c to r iz a ti on  w he r e   it   is   c la im e th a th e   a lg or it hm   doe s   n ot   ne e a ny  pr io r   knowle dge   a nd  c a of f e r   ge ne r a li z e te xt   c a te gor iz a ti on.  H a r ya nt e al [ 19]   s how   th e   be ha vi or   of   S V M   c la s s if ie r   upon  f e e di ng  th e   in put s  w hi c h a r e   nor m a li z e d   a nd f e a tu r e s   a r e  s e le c te d us in g t he   c hi - s qua r e  a ppr oa c h.   S e e al .   [ 20]   pr e s e nt s   th e   f e a tu r e   s e le c ti on  m e th od,  w hi c h   is   pe r f or m e ba s e on  th e   m ut ua in f or m a ti on,  th us   s how in th e   e f f e c ti ve ne s s   of   th e   a ppr oa c h   in   im pr ovi ng  th e   c l a s s if ic a ti on   pe r f or m a nc e   de s pi te   of   dr a s ti c   r e duc ti on  in   th e   num be r   o f   f e a tu r e s L iu   e al .   [ 21]   pr opos e s   a   dyna m ic   m ut ua in f o r m a ti on   a lg or it hm   by  in tr oduc in a   ge ne r a c r it e r io f unc ti on  f or   f e a tu r e   s e le c ti on,  w hi c is   e xpe c te to   g e m os in f or m a ti on  m e a s ur e m e nt s   in   pr e vi ou s   a lg or it hm s   to ge th e r   a nd  w a s   e va lu a t e a ga in s va r io us   e xi s ti ng  m e th ods A gni hot r e al .   [ 22]   de m ons tr a te   us e   of   th e   m ut ua in f or m a ti on  to   obt a in   th e   s a m pl e   va r ia nc e   in   or de r  t o m e a s ur e  t he  va r ia ti ons  i n t e r m  di s tr ib ut io n a nd t o s e le c th e  f e a tu r e s . M e a nw hi le D in g a nd  T a ng  [ 23]   pr e s e nt s   a e nha nc e m ut ua in f or m a ti on  m e th od  by   in tr od uc in th e   f e a tu r e   f r e que nc in   c la s s   a nd  th e   di s pe r s io of   f e a tu r e   in   c la s s le a di ng  to   a e f f ic ie nt   a nd  im pr ove te xt   c a te gor iz a ti on.   W hi le     D a r s ha e t   al [ 24]   s how s   th e   a bi li ty   of   R L P I   to   e f f e c ti ve ly   e xt r a c th e   di s c r im in a ti ve   f e a tu r e s w hi c h   in   tu r r e duc e s   th e   c om pl e xi ty   dur in th e   r e pr e s e nt a ti on  th us   by   r e duc in th e   to ta num be r   of   f in a f e a tu r e   s e t.   R e va na s id d a ppa   e al .   [ 25]   pr opos e d a  f r a m e w or k ba s e d on  m e ta - c ogni ti ve  ne ur a ne twor c ons ti tu ti ng R L P I ,   w he r e  R L P I  i s  us e d a lo ng w it te r m  doc um e nt  m a t r ix   ( T D M )  a s  f e a tu r e  s e le c ti on a ppr oa c h i n or de r  t r e duc e   th e  di m e ns io na li ty .   T he   r e s of   th e   pa pe r   is   or ga ni z e a s   f ol lo w s i s e c ti on  3,  de t a il s   r e ga r di ng  th e   da ta s e c on s id e r e f or   th e   e xpe r im e nt te xt   c le a ni ng  a nd  f e a tu r e   s e le c ti on  te c hni que s   th a a r e   e m pl oye dur in th e     pr e - pr oc e s s in s ta ge d e ta il s   on  th e   c la s s if ic a ti on  m ode ls   u s e d,  f ol lo w e by  th e   w or ki ng  pr in c ip le   of   th e   e xpe r im e nt S e c ti on  4   pr e s e nt s   th e   e xpe r im e nt   r e s ul t s   a lo ng   w i th   di s c us s io n.  F in a ll y,  s e c ti on  5   c onc lu d e s   th e   w or k a lo ng w it h f ut ur e  s c ope .       2.   M E T H O D   S in c e   th e   s tu dy   f oc us e s   on  t e xt - ba s e s e nt im e nt   a n a ly s is ,   th e r e   a r e   s te p s   in   th e   pr oc e s s   th a m us b e   c om pl e te in   or de r   to   c le a th e   da ta r e duc e   it s   di m e ns io na li ty a nd  ge it   r e a dy  f o r   tr a in in g.  T hi s   s e c ti on   c ove r s  t he  s pe c if ic s  of  t he  da ta s e th a w a s  u s e d, a s  w e ll  a s  t he   a ppr oa c he s  e m pl oye d f or  e a c s ta ge .     2.1.   D at as e t   F or   th is   s tu dy  w e   us e   a   twi tt e r   da ta s e t,   w hi c h   is   c r e a te by   c o m bi ni ng  da ta s e t s   w hi c h   w e r e   e a r li e r   s e pa r a te O r ig in a ll y,  th e   di f f e r e nt ia ti ng  f a c to r   be twe e th e   two  da ta s e ts   w a s   th e ir   la be ll in g.  O ne   da t a s e w it h   1.6  m il li on  s a m pl e s   w e r e   la be ll e ba s e on  pol a r it y,  w hi le   th e   ot he r   da ta s e w it a bout   98 , 000  twe e s a m pl e s   w e r e   la be ll e b a s e d   on  f e e li ngs   s uc h   a s   s a r c a s m f ig ur a ti ve ir ony ,   a nd  r e gul a r T he   f in a da t a s e c ons is t s   of   97 , 000  s a m pl e s ,   w he r e   th e a r e   c a te gor iz e d   a m ong  s e nt im e nt   c la s s e s   na m e ly   pos it iv e ne g a ti ve ne ut r a l,   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       E v al uat in g t he  i nf lu e nc e  of  f e at ur e  s e le c ti on bas e d di m e n s io nal it y     ( G ow r av  R am e s h B abu K is hor e )   3369   s a r c a s m ,   a nd  f ig ur a ti ve W hi le   c r e a ti ng  th e   f in a da ta s e t,   s a m pl e s   w e r e   r a ndoml s e le c te s uc th a e a c c a te gor y c ont a in s  s a m pl e s  r a ngi ng f r om  15 , 000 to 20 , 000 twe e ts .     2.2.   T e xt  c le an in g m e t h od s   T hi s   i s   a   c r uc ia a nd  w id e ly   e m pl oye s ta ge   in   te xt - ba s e d   r e s e a r c h,  s in c e   it   f a c il it a te s   th e   e xt r a c ti on   of   us e f ul   in f or m a ti on   f r om   te xt ua da ta I th is   s tu dy  w e   e m pl oye m a ny  te xt   c le a ni ng  pr oc e dur e s a nd  th e a r e  a s  f ol lo w s :     T e xt   c a s in g:   t he   s a m e   w or c a b e   pe r c e iv e a s   a   s in gl e   to ke by  c ha ngi ng  it s   c a s e   w hi c w il ot h e r w is e   be   c ons id e r e a s   a   di f f e r e nt   to ke n,  s uc s ta nda r di z a ti on  of   c a s e   he lp s   pr e ve nt   r e dunda nc in   th e   o r ig in a l   c or pus T he   m a jo r it of   th e   ti m e th e   te xt   is   c ha nge to   lo w e r   c a s e   a nd  th e   s a m e   is   f ol lo w e dur in th is   s tu dy a s  w e ll .     R e m ovi ng  punc tu a ti on:   d e pe ndi ng  on  th e   de s ig a nd  f in a goa of   th e   m ode l,   punc tu a ti ons   th a a r e   of te n   us e to   in di c a te   s e pa r a te   s e nt e nc e s   or   th e   e nd  of   s e nt e nc e s   s uc a s   c om m a s pe r io ds a nd  s e m ic ol ons   a r e   pr e s e r ve d or  dr oppe d. S in c e  w e  a r e  c onc e nt r a ti ng mor e  on t he  t oke ns  i n t hi s  i ns ta nc e , t h e  punc tu a ti ons  a r e   dr oppe d.     R e m ovi ng  s pe c ia s ym bol s s in c e   th e   s tu dy   is   pr im a r il f oc us e on  pr e s e r vi ng  onl y   th e   im por ta nt   to ke n s ,   a s   pr e vi ous ly   not e d,  a ny   c ha r a c te r s   ot he r   th a n   a lp ha num e r i c   s uc h   a s   a m pe r s a nd,   dol la r pi pe a nd  pe r c e nt a ge . t ha a r e  known to be  of te n us e d i n T w it te r  pos t s , a r e  e xc lu de d.     R e m ovi ng  s to w or ds f r om   a   non - li ngui s ti c   poi nt   of   vi e w s to p - w or ds   don’ c a r r m uc in f o r m a ti on  [ 5 ]   he nc e   r e m ovi ng  th e m   w il not   onl h e lp   in   r e duc in g   th e   noi s e but   it   a ls h e lp s   in   s a vi ng   s pa c e .     S to p - w or ds  c a n be  i de nt if ie d a nd dr oppe d us in g both m a nua a n d a ut om a ti c  a ppr oa c h.     S te m m in or   L e m m a ti z a ti on:   t hi s   is   th e   pr oc e s s e s   of   r e duc in g   th e   w or ds   to   th e ir   r oot   f or m I w a s   not ic e d   th a le m m a ti z a ti on  he lp s   be tt e r   w he c om pa r e to   s te m m i ng  in   gi vi ng  th e   m e a ni ngf ul   r oot   f o r m .   E xa m pl e w hi le   s te m m in r e du c e s   s tu di e s   is   r e du c e s tu d i l e m m a ti z a ti on  r e duc e s   th e   s a m e   to   s tu dy’ ,   a nd he nc e  i n t he  w or k l e m m a ti z a ti on i s   a ppl ie d on the  t e xt  s a m pl e s .     H a ndl in e m oj is e m oj is   c a b e   ha ndl e in   a   num be r   of   w a y s e it he r   by  r e m ovi ng  th e m   c om pl e te ly   or   s ubs ti tu ti ng t he m  w it h t he ir  t e xt  e qui va le nt . I n t hi s  s tu dy, e m ot ic ons  a r e  om it te d.     H a ndl in w or c ont r a c ti ons i th is   a c ti on,  w e   c onve r th e   c o m bi ne s hor f or m s   of   w or ds   ba c to   th e ir   or ig in a f or m s E xa m pl e don’ t’   is   c onve r te to   do  not T hi s   c a a l s be   a c hi e ve in   bot m a nua a nd   a ut om a te d w a ys     S pe ll   c he c ki ng:   c he c ki ng  th e   s pe ll in of   th e   to ke n   is   e qua ll im por ta nt   a s   le m m a ti z a ti on,   it   he lp s   i n   a voi di ng unne c e s s a r y a ddi ti ona to ke ns  t ha m a y b e  pr e s e nt  due  t o s om e  w r ong s pe ll in gs .     2.3.   F e at u r e  s e le c t io n  m e t h od s   A s   c onve ye d   in   th e   be gi nni ng,  s in c e   th is   w or i s   m a in ly   f oc us e on  th e   f e a tu r e   s e le c ti on  a ppr oa c h   f or  di m e ns io na li ty  r e duc ti on, i is  ve r y i m por ta nt  t o know mo r e  a bout  t he  a ppr oa c he s  t ha a r e  t he r e  f or  f e a tu r e   s e le c ti on.  I is   m a in ly   c la s s if ie in to   3   ty pe s   na m e ly f i lt e r   m e t hod,  w r a ppe r   m e th od  a nd   e m be dde m e th od.   I n t hi s  s tu dy, we  r e s tr ic th e  e xpe r im e nt  t o f il te r  a nd w r a ppe r  m e th ods .   I f il te r   m e th od,  th e   f e a tu r e s   a r e   s e le c te us in s ta ti s ti c a te s ts  i or de r   to   ge th e   c or r e la ti on  s c or e s .   T he y a r e  known to be  i ne xp e ns iv e  a nd f a s a nd s om e  of  t he  t e c hni que s  us e d unde r  t hi s  m e th od a r e :     TF - I D F a   w a of   c a lc ul a ti ng  a   w or d' s   w e ig ht   w it hi a   c ol le c t io of   doc um e nt s ta ki ng  in to   a c c ount   th e   f a c th a s om e  t e r m s  a r e  m or e  c om m on t ha n ot he r s T he  w e ig ht   is  c a lc ul a te d u s in g ( 1)     , =  , × (  )   ( 1)     W he r e    ,   is   f r e que nc y   of   in   y,      is   N um be r   of   doc um e nt s   c ont a i ni ng  a nd N   is   th e   to ta l   num be r   of   doc um e nt s .     C hi - s qua r e   te s t:   t hi s   m e a s ur e   [ 21]   is   us e to   id e nt if th e   d e gr e e   of   in de pe nde nc e   be twe e th e   te r m     t a nd c la s s  C k , a nd i is  gi ve n i n ( 2)     2 =       ( ) ( + ) ( + ) ( + ) ( + )   ( 2)     W he r e   a   i s   th e   num be r   of   doc um e nt s   in   th e   pos it iv e   c a te gor th a c ont a in   th is   te r m   ( t i ) is   th e   num be r   of   doc um e nt s   in   th e   po s it iv e   c a te gor th a do  not   c ont a in   th is   te r m   ( t i ) c   is   th e   num be r   of   doc um e nt s   in   th e   ne ga ti ve   c a te gor th a c ont a in   th is   te r m   ( t i ) ;   a nd  is   th e   num be r   of   doc um e nt s   in   th e   ne ga ti ve   c a te gor th a do not c ont a in  t hi s  t e r m  ( t i ) ;   a nd N  i s  t he  t ot a num be r  of  d oc um e nt s .     I nf or m a ti on  ga in th e   in f or m a ti on  ga in   [ 26]   pr ovi de s   th e   de pe nde nc be twe e a   te r m   a nd   a   c la s s   a nd   is   gi ve n a s  ( 3) . W he r e  a , b, c , d ,   a nd N  m e a n t he  s a m e  a s  i n ( 2) .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 A ugus 2025 3366 - 3374   3370    =   ( + ) ( + )   +   ( + ) ( + )   +   ( + ) ( + )   +   ( + ) ( + )   ( 3)       M ut ua in f or m a ti on:   it   is   a   m a xi m um   c la s s - ba s e d   s c or e   f or   th e   te r m   t i   w hi c is   hi ghl in f lu e nc e by  th e   m a r gi na pr oba bi li ti e s th a a s s ig n s   hi ghe r   w e ig ht   f or   th e   r a r e   te r m s   a s   c om p a r e to   th e   c om m onl y   oc c ur r in te r m T he   m e tr ic   he lp s   in   m e a s ur in th e   in f or m a ti on  c ont a in e by   th e   te r m   t i   to   r e pr e s e nt   th e   c la s s     a nd i is  gi ve n a s   [ 22] .      ( ) =   m a x   ( , ) ( )   ( )   ( 4)     W he r e   ( )   is   th e   pr oba bi li ty   of   th e   w or   w hi c is   ( + ) / ( )   is   th e   pr oba bi li ty   of   c la s s   gi ve n   as   ( + ) /   a nd  ( , )   is  t he  pr oba bi li ty  of  t he  w or   f or  be in g i n c la s s     w hi c h i s  gi ve n by a /N.      R L P I is   a   m ul ti s te a lg or it hm   a ppl ie in   o r de r   to   ge th e   m e a ni ngf ul   s e of   f e a tu r e s w hi c in vol ve s   a dj a c e nc gr a ph  c on s tr uc ti on,  E ig e de c om pos it io a nd  r e g ul a r iz e le a s s qua r e R L P I   e m be ddi ng  is   gi ve n a s   [ 27] .       =   ( 5)     W he r e  z  i s  a   d - di m e ns io na r e pr e s e nt a ti on of  t he  doc um e nt  x a n is  t he  t r a ns f or m a ti on ma tr ix     W or e m be ddi ngs w or e m be ddi ng  is   a   r e pr e s e nt a ti on  m e th o d,  w he r e   a   pa r ti c ul a r   te r m   is   r e pr e s e nt e in   th e   f or m   of   a   num e r ic a ve c to r I th is   s tu dy  R L P I   is   in c or po r a te w it s om e   of   th e   w e ll - known  w or e m be ddi ng me th ods  f or   f e a tu r e  s e le c ti on i n a n a tt e m pt  t r e duc e  t he  di m e ns io na li ty  of  t he  or ig in a l  f e a tu r e   ve c to r s .   I th e   w r a ppe r   m e th od,  th e   m ode i s   tr a in e us in g   a   s ubs e o f   f e a tu r e s a nd  f e a tu r e   a ddi ti ons   a nd   de le ti ons   a r e   de te r m in e by  th e   c onc lu s io ns   de r iv e f r om   th e   r e s ul ts   obt a in e d.  O ne   s uc te c hni que   c ons id e r e f or   th e   s tu dy  is R F E I is   one   of   th e   c om put a ti o na ll e xpe ns iv e   te c hni qu e s due   to   it s   gr e e dy  a ppr oa c h.  I th is   t e c hni que th e   m ode i s   tr a in e it e r a ti ve ly   w it a   s ub s e of   f e a tu r e s   unt il   a ll   th e   f e a tu r e s   a r e   e xha us te d, ul ti m a te ly  i de nt if yi ng t he  be s pe r f or m in g s e of  f e a tu r e s .     2.4.  Clas s if i c at io n   m e t h od s     I th is   s tu dy,  s e nt im e nt   c l a s s if ic a ti on  i s   pe r f or m e w it s om e   of   th e   w id e ly   known  ne ur a ne twor k - ba s e d   m ode l s W e   a s s e s s   th e   c l a s s if ic a ti on  p e r f or m a nc e   of   bot ba s ic   a nd   r e c ur r e nt   ne ur a ne twor ks   ( R N N )   ba s e m od e ls F ir s tl y,  th e   c la s s if ic a ti on  p e r f or m a nc e   of   ba s ic   f e e f or w a r ne ur a ne twor ( F N N )   m ode l   is   a s s e s s e d.  B e c a u s e   of   th e ir   non - c yc li c   in f or m a ti on   f lo w ,   F N N s   a r e   hi ghl s tr a ig ht f o r w a r a nd  e a s ie r   to   ve r if y   [ 28] T he n,  th e   be h a vi or   of   r a di a ba s i s   f unc ti on  ne twor ( R B F N )   is   e va lu a t e a ga in s th e   s e le c te d   s e t   of   f e a tu r e s I is   w id e ly   us e d   f or   c om m on  a ppr oxi m a ti on  pr obl e m s w he r e   hi dde n   la ye r   w il u s e   th e   r a di a ba s is   f unc ti on.  I is   m uc f a s te r   w he c om pa r e to   ba c pr opa ga ti on  ne twor k,  a nd  c a e ve out pe r f or m   th e   c la s s if ic a ti on pe r f or m a nc e  i f  t he  pr ope r  s e of  f e a tu r e s  a r e  s e le c te [ 29] .   W e   th e e xa m in e   th e   c la s s if ic a ti on  pe r f or m a nc e   of   m ode ls   th a a r e   de s ig ne f or   s e que nt i a or   ti m e   s e r ie s   d a ta F ir s tl y,  th e   c la s s if ic a ti on  p e r f or m a nc e   of   R N N   is   e va lu a te d.  T hough  it   is   bi t   s lo w e r   th a ba s ic   F N N s it s   a bi li ty   to   r e ta in   in f or m a ti on  a bout   a   s e que nc e   in   hi dde la ye r s   m a ke s   it   m os s ui ta bl e   f or   pr oc e s s in s e que nt ia da t a   s uc h   a s   te xt H ow e ve r th e   va ni s hi ng  gr a di e nt   is s ue   in   th e ir   m e m or s ta te   li m it s   th e ir   a bi li ty   to   r e ta in   onl s hor w in dow   of   th e   pr io r   in pu ts I or de r   to   ha ndl e   th is   is s ue lo ng  s hor t - te r m   m e m or ( L S T M )   w a s   in tr oduc e d.  O ne   bi a dva nt a ge   of   L S T M   is   it s   r e la ti ve   in s e ns it iv it to   ga le ngt h,  s o   th e  c la s s if ic a ti on pe r f or m a nc e  of  L S T M  i s  a ls o e v a lu a te d a ga in s th e  s e le c te d f e a tu r e   s e t.  F in a ll y, w e  e va lu a te   th e   pe r f or m a nc e   of   ga te r e c ur r e nt   uni ts   ( G R U ) I is   a ls a R N N   ba s e ne twor a nd  a a lt e r na ti ve   to   L S T M B ut   G R U ' s   f unda m e nt a p r in c ip le   is   to   upda te   th e   ne t w or k' s   hi dde s ta te   onl on  a   c hos e s ubs e of   ti m e  s te ps , by me a n s  of  ga ti ng me th ods . I is  s im pl e r  i n s tr uc tu r e  a nd e a s i e r  t o t r a in  t ha n L S T M .     2.5.  E xp e r im e n t at io n   T he   e xpe r im e nt   s e t - up  s ta r ts   w it tw it te r   s e n ti m e n da ta   b e in c ons id e r e a s   a in p ut   to   th e   c la s s i f ic a t io s ys te m w hi c w i ll   f ir s und e r go  th e   p r e - p r oc e s s in g   w i th   t he   m e t hods   t ha t   a r e   d is c us s e in   th e  s e c t io 2.2 F i gu r e  2  p r e s e n ts   th e   f lo w   di a gr a m ,  w he r e   th e  i n pu da ta   f i r s t  u nde r g oe s   c le a ni ng,   f o ll o w e d   by  th e   di m e ns io na l it r e d uc ti o n.   F or   d im e ns i ona li ty   r e duc ti on f i r s in   o r de r   to   o bt a in   lo c a l it i n f o r m a ti on ,   th e   R L P I   is   a p pl ie d   on   t he   s a m p le s ,   w h ic h   is   th e c ou pl e w it t he   f e a tu r e   s e le c ti on  te c hni que s   c o ve r e in   s e c ti on  2 .3  o f   th is   w o r k . T he   r e s ul ti ng  s e t  o f  r e le va n f e a tu r e s   f r om   th e  r e s pe c ti ve  c o m b in a ti on  i s  t he n  us e d   f o r   t r a i ni ng   th e   m od e l F o r   c la s s if ic a ti on,   m os t   c o m m on ly   k n ow n   ne ur a l   ne two r k   ba s e d   m o de ls   v iz .,  F N N ,   R N N ,   R B F N ,   L S T M ,   a nd   G R U   a r e   us e d.   U p on   ob ta in in g   t he   c la s s i f ic a ti o r e s ul ts ,   t he   e f f e c ti ve ne s s   o f   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       E v al uat in g t he  i nf lu e nc e  of  f e at ur e  s e le c ti on bas e d di m e n s io nal it y     ( G ow r av  R am e s h B abu K is hor e )   3371   e a c of   th e   d im e ns i ona li ty   r e duc ti on  te c hn iq u e s   a n c la s s if ic a ti o p e r f o r m a nc e   o f   th e   m o de ls   a r e   e va l ua te d a nd   a na ly z e d .           F ig ur e  2. W or kf lo w  of   te xt - ba s e d   s e nt im e nt  a na ly s is       3.   R E S U L T S  A N D  D I S C U S S I O N   D ur in g t he  di m e ns io na li ty  r e duc ti on s ta ge  of  t he  e xpe r im e nt , t he  f e a tu r e  s e le c ti on w a s  pe r f or m e d f or   s e ve r a it e r a ti ons   a s   s e e in   T a bl e   1.  D ur in th is   s tu dy,  th e   uppe r   a nd  lo w e r   li m it s   w e r e   de f in e to   obt a in   th e   m os r e le va nt   s e of   f e a tu r e s W it m in im um   of   300  a nd  m a xi m um   of   700  be in th e   e m pi r ic a ll de f in e s ta nda r th r e s hol d s   f or   th e   num be r   of   f e a tu r e s ,   th e   e xpe r im e nt s   w e r e   c a r r ie out   f or   e a c h   c om bi na ti on  of   f e a tu r e   s e le c ti on  m e th ods T a bl e   1   s how s   th e   out c om e s   of   e a c tr ia l.   I c a be   obs e r ve f r om   th e   t a bl e th a t   th e   R L P I   ha s   s e le c te a in te r e s ti ngl le s s   num be r   of   f e a tu r e s   i e a c tr ia w he c om pa r e to   ot he r   m e th ods F ig ur e   is   s how in th e   r a nge   of   f e a tu r e s   by  us in m a xi m um   a nd  m in im um   c ount   a s   th e   e xt r e m e s   to   in di c a te   th e  c ount  of  f e a tu r e s  s e le c t e d by e a c h of  t he  a ppr oa c he s  m e nt io ne d i n T a bl e  1.        T a bl e  1 .   N um be r  of  f e a tu r e s  s e le c te d by va r io us   s e le c ti on me th ods   F e a t ur e  s e l e c t i on m e t hods   N um be r  of  f e a t ur e s  s e l e c t e d   T r i a l  1   T r i a l  2   T r i a l  3   T r i a l  4   T r i a l  5   T r i a l  6   TF - I D F   575   538   357   399   412   419   C hi - s qua r e   600   562   552   457   547   552   I nf or m a t i on  ga i n   549   552   656   453   479   490   M ut ua l   i nf or m a t i on   427   477   479   360   380   411   W or d2V e c   340   342   341   353   361   379   G l ove   435   415   426   421   405   445   R F E   494   412   485   433   530   540   R L P I   69   58   49   93   100   210           F ig ur e  3. M a x a nd mi n numbe r  of  f e a tu r e s  s e le c te d by  e a c h m e t hod     0 100 200 300 400 500 600 700 N u m b e r   of    f e at u r e s F e at u r e  s e l e c t i on  m e t h od hi gh l ow Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 A ugus 2025 3366 - 3374   3372   U pon  s e le c ti ng  th e   m in im um   s e of   f e a tu r e s   a m ong  each   tr ia of   e a c f e a tu r e   s e le c ti on  m e th ods ,     th e   s e le c te f e a tu r e s   s e ts   a r e   th e c on s id e r e a s   in put s   to   th e   c la s s if ic a ti on  m ode ls   th a a r e   di s c us s e in   s e c ti on  2.4.  T a bl e   pr e s e nt s   th e   c la s s if ic a ti on  r e s ul ts   of   v a r io us   f e a tu r e   s e le c ti on  m e th ods   a nd  ne ur a ne twor k - ba s e d   c la s s if ie r s T he   r e s ul ts   a r e   ta bul a te f or   th e   da ta s e di vi de w it 50: 50  r a ti os   f or   t r a in in a nd   te s ti ng  r e s pe c ti ve ly .   T a bl e   pr e s e nt s   th e   r e s ul ts   e xpe r im e nt e on  s a m e   s e of   f e a tu r e   s e le c ti on  a nd  c la s s if ic a ti on  m ode l s   w hi le   th e   r e s ul t s   a r e   t a bul a te f or   th e   d a t a s e di vi de d   w it 60: 40  r a ti f or   tr a in in a nd  te s ti ng r e s pe c ti ve ly .       T a bl e  2 .   C la s s if ic a ti on pe r f or m a nc e  f or  50: 50 r a ti o of  da ta s e pa r ti ti on   C l a s s i f i c a t i on  m e t hod   F e a t ur e  s e l e c t i on m e t hods  a nd t he i r  f e a t ur e  c ount   TF - I D F   357  f e a t ur e s   C hi - s qua r e   457 f e a t ur e s   IG   453 f e a t ur e s   MI   360 f e a t ur e s   W 2V   340 f e a t ur e s   G l ove   405 f e a t ur e s   R F E   412 f e a t ur e s   R L P I   49   f e a t ur e s   F N N   83.42   84.92   84.18   84.96   86.23   85.85   85.42   86.98   R N N   84.62   84.45   84.06   85.28   86.66   85.31   85.25   87.58   RBF - NN   83.62   83.28   84.94   85.46   86.10   86.26   85.16   86.72   G R U   86.03   85.69   85.85   87.17   86.86   86.80   86.50   87.17   L S T M   87.43   86.40   87.24   86.00   88.26   87.99   87.93   88.89       T a bl e  3 .   C la s s if ic a ti on pe r f or m a nc e  f or  60: 40 r a ti o of  da ta s e pa r ti ti on   C l a s s i f i c a t i on  m e t hod   F e a t ur e  s e l e c t i on m e t hods  a nd t he i r  f e a t ur e  c ount   TF - I D F   357 f e a t ur e s   C hi - s qua r e   457 f e a t ur e s   IG   453 f e a t ur e s   MI   360 f e a t ur e s   W 2V   340 f e a t ur e s   G l ove   405  f e a t ur e s   R F E   412 f e a t ur e s   R L P I   49   f e a t ur e s   F N N   85.85   85.13   86.28   86.19   87.61   87.28   86.31   88.74   R N N   86.12   86.38   86.46   87.11   88.66   87.53   86.99   88.93   RBF - NN   85.25   86.57   84.62   84.12   87.94   87.16   86.77   88.59   G R U   86.48   88.30   86.81   88.65   90.31   89.36   88.06   90.91   L S T M   88.22   91.06   90.78   90.17   91.97   91.92   91.81   92.43       F ir s tl y,  th e   obs e r va ti ons   in   T a bl e s   a nd  s how   th e   be ha vi or   of   e a c c la s s if ic a ti on  m ode l   w it va r io us   s e of   f e a tu r e s   f r om   di f f e r e nt   f e a tu r e   s e le c ti on  m e th ods I c a be   s e e th a th e   pe r f or m a nc e   of   th e   c la s s if ic a ti on  m ode ls   is   be tt e r   w he pa ir e w it R L P I de s pi t e   s e le c ti ng  le a s num be r   of   f e a tu r e s   in   a   s e t.     I de m ons tr a te s   th a th e   R L P I   c a c hoo s e   th e   m os di s ti nc ti ve   a nd  pe r ti ne nt   f e a tu r e s w hi le   k e e pi ng  th e   f e a tu r e  c ount  l ow   I c a a ls be   s e e f r om   th e   a bove   obs e r va ti ons   th a ir r e s pe c ti ve   of   num be r   of   f e a tu r e s L S T M   is   c ons is te nt ly   pe r f or m in be tt e r   th a ot he r   c la s s if ic a ti on  m ode ls F in a ll y,   f r o m   th e   obs e r va ti on,  it   c a be   not e d   th a th e   R L P I   a nd  L S T M   c om bi na ti on  is   out pe r f or m in g   ot he r   c om bi na ti ons   ir r e s pe c ti ve   of   tr a in - te s s pl it   r a ti os T he   r e s ul ts   a l s c onf ir m   th e   f a c th a in   or de r   to   ha ndl e   s e que nt ia da ta   s uc a s   te xt   a s   in   th is   c a s e L S T M  i s  be s s ui te d opti on.       4.   C O N C L U S I O N     I n   t hi s   w or k,   w e   a na l yz e   t he   in f lu e nc e   o f   p r e - p r oc e s s in te c h ni q ue s .   M a in ly ,   th e   f e a t ur e   s e le c ti on   s ta ge   w hi c is   in te nde d   f or   r e duc in th e   d im e ns i ona li ty on  t he   ov e r a ll   c la s s if ic a ti on  pe r f or m a nc e D ur in g   th e   e xpe r i m e nt ,   R L P I   w a s   in c o r po r a te a l ong  w i th   va r io us   f e a tu r e   s e le c ti on  te c h ni que s   in   or de r   t ob ta in   th e   le a s nu m be r   o f   m os r e le va nt   a n di s ti nc t iv e   s e o f   f e a t ur e s T he   c la s s i f ic a t io pe r f or m a n c e s   of   ne u r a l   ne tw or k - ba s e d   m ode ls   a r e   e va l ua t e a ga i ns m i ni m u m   f e a tu r e   s e ts w h ic a r e   ob ta i ne d   by   di f f e r e n f e a tu r e   s e le c t io m e th ods R e s u lt s   s h ow   th a t he   c o m b in a ti on  of   R L P I   i i ts   s i m p le s f o r m   a nd  L S T M   o ut p e r f o r m   a ll   th e   ot he r   c o m b in a ti ons   in   bo th   f e a tu r e   s e le c ti on  a nd  s e nt im e nt   c la s s if ic a ti o r e s pe c t iv e ly .   T he   r e s u lt s   onc e  a g a in  a f f i r m   th e   f a c th a t  t h e   L S T M   is  one  a m o ng  t he  be s s ui te d  m ode ls  f or  h a nd li ng  s e q ue n ti a l  da ta .   I w a s   o bs e r ve t ha t t he   va r ia n c e   b e twe e m i ni m u m   a n m a xi m um   nu m be r   of   f e a tu r e s   w a s   a lm os s a m e   in   e a c f e a tu r e   s e le c ti on  a pp r oa c he s S e n ti m e n c la s s i f ic a t io n   w o ul be ne f i m or e   f r om   a e nha nc e d   m e t hod   f o r   ob ta i ni ng   t he   id e a l   nu m be r   o f   f e a tu r e s   w h i le   ke e p in g   th e   m os t   r e le va n te r m s .   A   be tt e r   di m e ns i ona li ty   r e duc ti on  m e t ho is   a ls ne e de d w h ic h   c a n   lo w e r   th e   f in a d im e ns i ona li ty   of   f e a t ur e s   w hi le   m a i nt a in in g c on te x t.       F U N D I N G  I N F O R M A T I O N   T hi s   r e s e a r c r e c e iv e no  s pe c if ic   gr a nt   f r om   a ny  f undi ng  a ge nc in   th e   publ ic ,   c om m e r c ia l,   or     not - f or - p r of it  s e c to r s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       E v al uat in g t he  i nf lu e nc e  of  f e at ur e  s e le c ti on bas e d di m e n s io nal it y     ( G ow r av  R am e s h B abu K is hor e )   3373   A U T H O R  C O N T R I B U T I O N S  S T A T E M E N T   T hi s   jo ur na us e s   th e   C ont r ib ut or   R ol e s   T a xonomy  ( C R e di T )   to   r e c ogni z e   in di vi dua l   a ut hor   c ont r ib ut io ns , r e duc e  a ut hor s hi p di s put e s ,   a nd f a c il it a te  c ol la bo r a ti on.      N am e  o f  A u t h or   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   G ow r a R a m e s B a bu   K is hor e                               B uka ha ll S om a s he ka r   H a r is h                               C ha lu ve gow da   K a na ka la ks hm R oopa                                 C     C onc e pt ua l i z a t i on   M     M e t hodol ogy   So     So f t w a r e   Va     Va l i da t i on   Fo     Fo r m a l  a na l ys i s   I     I nve s t i ga t i on   R     R e s our c e s   D   :   D a t a  C ur a t i on   O   :   W r i t i ng  -   O r i gi na l  D r a f t   E   :   W r i t i ng  -   R e vi e w  &   E di t i ng   Vi     Vi s ua l i z a t i on   Su     Su pe r vi s i on   P     P r oj e c t  a dm i ni s t r a t i on   Fu     Fu ndi ng a c qui s i t i on         C O N F L I C T  O F  I N T E R E S T  S T A T E M E N T   A ll  a ut hor s  de c la r e  t ha th e y ha ve  no  c onf li c ts  of  i nt e r e s t.       D A T A  A V A I L A B I L I T Y   D a ta  s ha r in g i s  not  a ppl ic a bl e  t o t hi s  a r ti c le  a s  no n e w  da ta  w e r e   c r e a te d i n t hi s  s tu dy.       RE F E R E N C E S   [ 1]   V D ogr a A S i ngh,  S V e r m a K a vi t a N Z J ha nj hi a nd  M N T a l i b,  U nde r s t a ndi ng  of   da t a   pr e pr oc e s s i ng  f or   di m e ns i ona l i t y   r e duc t i on  us i ng  f e a t ur e   s e l e c t i on  t e c hni que s   i t e xt   c l a s s i f i c a t i on,”   i I nt e l l i ge nt   C om put i ng  and  I nnov at i on  on  D at Sc i e nc e S i nga por e :  S pr i nge r , 2021, pp. 455 464 , doi :  10.1007/ 978 - 981 - 16 - 3153 - 5_48.   [ 2]   M A na nda r a j a n,  C H i l l a nd  T N ol a n,  P r ac t i c al   t e x t   anal y t i c s :   m ax i m i z i ng  t he   v al ue   of   t e x t   dat a C ha m :   S pr i nge r 2019 doi 10.1007/ 978 - 3 - 319 - 95663 - 3.   [ 3]   S V i j a ya r a ni J I l a m a t hi a nd  N i t hya ,   P r e pr oc e s s i ng  t e c hni que s   f or   t e xt   m i ni ng - a ove r vi e w ,”   I nt e r nat i onal   J our nal   of   C om put e r  Sc i e n c e   &  C om m uni c at i on N e t w or k s , vol . 5, no. 1, pp. 7 16, 2015.   [ 4]   Y D K i r a na   a nd  S .   A l   F a r a by,  S e nt i m e nt   a na l ys i s   of   be a ut pr oduc t   r e vi e w s   us i ng  t he   K - ne a r e s t   ne i ghbor   ( K N N )   a nd  T F - I D F   m e t hods   w i t c hi - s qua r e   f e a t ur e   s e l e c t i on,”   J ou r nal   of   D at Sc i e nc e   and  I t s   A ppl i c at i ons vol 4,  no.  1,  pp.  31 42,  2021,  doi :   10.34818/ J D S A .2021.4.71.   [ 5]   L H P a t i l   a nd  M A t i que A   nove l   a ppr oa c f or   f e a t ur e   s e l e c t i on  m e t hod  T F - I D F   i n   doc um e nt   c l us t e r i ng,”   i 2013  3r I E E E   I nt e r nat i onal  A dv anc e  C om put i ng C onf e r e n c e  ( I A C C ) , 2013, pp. 858 862 , doi :  10.1109/ I A dC C .2013.6514339.   [ 6]   S Q u,  S W a ng,  a nd  Y Z ou,  I m pr ove m e nt   of   t e xt   f e a t ur e   s e l e c t i on  m e t hod  ba s e on  T F I D F ,”   i 2008  I nt e r nat i onal   Se m i nar   on   F ut ur e  I nf or m at i on T e c hnol ogy  and M anage m e nt  E ngi ne e r i ng , 2008, pp. 79 81 , doi :  10.1109/ F I T M E .2008.25.   [ 7]   X L i H D a i a nd  M W a ng,  T w o - s t a ge   f e a t ur e   s e l e c t i on  m e t hod  f or   t e xt   c l a s s i f i c a t i on,”   i 2009  I nt e r nat i onal   C onf e r e nc e   on   M ul t i m e di a I nf or m at i on N e t w or k i ng and Se c u r i t y , 2009, pp. 234 238 , doi :  10.1109/ M I N E S .2009.127.   [ 8]   B W a ng  a nd  S Z ha ng,  A   nove l   f e a t ur e   s e l e c t i on  a l gor i t hm   f o r   t e xt   c l a s s i f i c a t i on  ba s e on  T F I D F - w e i ght   a nd  K L - di ve r ge nc e ,”   i P r oc e e di ngs  of  t he  11t h J oi nt  I nt e r nat i onal  C om put e r  C onf e r e nc e , 2005, pp.  438 441 , doi :  10.1142/ 9789812701534_0099.   [ 9]   J S ong,   M X u,  a nd  C F a n,  A   t e xt   f e a t ur e   s e l e c t i on  m e t hod  us i ng  T F I D F   ba s e on  e nt r opy,”   i C om put at i onal   I nt e l l i ge nc e 2010, pp. 962 967 , doi :  10.1142/ 9789814324700_0147.   [ 10]   N . S . M . N a f i s  a nd S . A w a ng,  “ A n e nh a nc e d hybr i d f e a t ur e   s e l e c t i on t e c hni que  us i ng t e r m  f r e que nc y - i nve r s e  doc um e nt  f r e que nc y   a nd  s uppor t   ve c t or   m a c hi ne - r e c ur s i ve   f e a t ur e   e l i m i na t i on  f o r   s e nt i m e nt   c l a s s i f i c a t i on,”   I E E E   A c c e s s vol 9,  pp.  52177 52192,   2021, doi :  10.1109/ A C C E S S .2021.3069001.   [ 11]   C L e e   a nd   G G .   L e e I nf or m a t i on  ga i a nd   di ve r ge nc e - ba s e f e a t ur e   s e l e c t i on  f or   m a c hi ne   l e a r ni ng - ba s e d   t e xt   c a t e gor i z a t i on,”   I nf or m at i on P r oc e s s i ng and M anage m e nt , vol . 42, no. 1, pp. 155 165, 2006, do i :  10.1016/ j .i pm .2004.08.006.   [ 12]   S L e i A   f e a t ur e   s e l e c t i on  m e t hod  b a s e d   on  i nf or m a t i on  ga i a nd  ge n e t i c   a l gor i t hm ,”   i 2012  I nt e r nat i onal   C onf e r e nc e   on   C om put e r  Sc i e n c e  and E l e c t r oni c s  E ngi ne e r i ng , 2012, pp. 355 358 , doi :  10.1109/ I C C S E E .2012.97.   [ 13]   C S ha ng,  M L i S F e ng,  Q J i a ng,  a nd  J F a n,  F e a t ur e   s e l e c t i on  vi a   m a xi m i z i ng  gl oba l   i nf or m a t i on   ga i f or  t e xt   c l a s s i f i c a t i on,”   K now l e dge - B as e d Sy s t e m s , vol . 54, pp. 298 309, 2013, doi :  10.1016/ j .knos y s .2 013.09.019.   [ 14]   R B P e r e i r a A P l a s t i no,  B Z a dr oz ny,  a nd  L H C M e r s c hm a nn,  I n f or m a t i on  ga i f e a t ur e   s e l e c t i on  f or   m ul t i - l a be l   c l a s s i f i c a t i on,”   J ou r nal  of  I nf or m at i on and D at a M anage m e nt , vol . 6, no. 1, pp. 48 48, 2015.   [ 15]   E O O m uya G .   O O ke yo,   a nd  M W K i m w e l e ,   F e a t ur e   s e l e c t i on  f or   c l a s s i f i c a t i on  us i ng  pr i nc i pa l   c om pone nt   a na l y s i s   a nd   i nf or m a t i on ga i n,”   E x pe r t  Sy s t e m s  w i t h A ppl i c at i ons , vol . 174, 2021, doi :  10.10 16/ j .e s w a .2021.114765.   [ 16]   Y Z ha i W S ong,  X L i u,  L L i u,  a nd  X Z ha o,  A   c hi - s qua r e   s t a t i s t i c s   b a s e d   f e a t ur e   s e l e c t i on  m e t hod  i t e xt   c l a s s i f i c a t i on,”   i n   2018  I E E E   9t I nt e r nat i onal   C onf e r e nc e   on   Sof t w ar e   E ngi ne e r i ng  and  Se r v i c e   Sc i e nc e   ( I C SE SS) 2018,  pp.  160 163 doi 10.1109/ I C S E S S .2018.8663882.   [ 17]   C J i e t   al . C hi - s qua r e   s t a t i s t i c s   f e a t ur e   s e l e c t i on  ba s e on  t e r m   f r e que n c a nd  di s t r i but i on  f o r   t e xt   c a t e gor i z a t i on,”   I E T E   J our nal  of  R e s e ar c h , vol . 61, no. 4, pp. 351 362, 2015, doi :  10.1080/ 03772063.2015.1021385.     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  4 A ugus 2025 3366 - 3374   3374   [ 18]   Y H L i T e xt   f e a t ur e   s e l e c t i on  a l gor i t hm   ba s e on   c hi - s qua r e   r a nk   c or r e l a t i on  f a c t or i z a t i on,”   J our nal   of   I nt e r di s c i pl i nar y   M at he m at i c s , vol . 20, no. 1, pp. 153 160, 2017, doi :  10.1080/ 09720502.2016.1259769.   [ 19]   A W H a r ya nt o,  E K .   M a w a r di a nd  M ul j ono,  I nf l ue nc e   of   w or no r m a l i z a t i on  a nd  c hi - s qua r e f e a t ur e   s e l e c t i on  on  s uppor t   ve c t or   m a c hi ne   ( S V M )   t e xt   c l a s s i f i c a t i on,”   i 2018  I nt e r nat i onal   Se m i nar   o A ppl i c at i on  f or   T e c hnol ogy   of   I nf or m at i on  and   C om m uni c at i on , 2018, pp. 229 233 , doi :  10.1109/ I S E M A N T I C .2018.8549748.   [ 20]   İ S e l A K a r c i a nd  D .   H a nba y,   F e a t ur e   s e l e c t i on  f or   t e xt   c l a s s i f i c a t i on  us i ng  m ut ua l   i nf or m a t i on,”   i 2019  I nt e r nat i onal   A r t i f i c i al  I nt e l l i ge nc e  and D at a P r oc e s s i ng Sy m po s i um  ( I D A P ) , 2019, pp. 1 4 doi :  10.1109/ I D A P .2019.8875927.   [ 21]   H L i u,  J S un,  L L i u,  a nd  H Z ha ng,  F e a t ur e   s e l e c t i on  w i t dyna m i c   m ut ua l   i nf or m a t i on,”   P at t e r R e c ogni t i on vol 42,  no.   7,  pp. 1330 1339, 2009, doi :  10.1016/ j .pa t c og.2008.10.028.   [ 22]   D A gni hot r i K .   V e r m a a nd P T r i pa t hi M ut ua l   i n f or m a t i on   us i ng  s a m pl e   va r i a nc e   f or  t e xt   f e a t ur e   s e l e c t i on,”   i P r oc e e di ngs   of   t he   3r I nt e r nat i onal   C onf e r e n c e   on  C om m uni c at i on  and  I nf or m at i on  P r oc e s s i ng ,   2017,  pp.  39 44 doi 10.1145/ 3162957.3163054.   [ 23]   X D i ng  a nd  Y T a ng,  I m pr ove m ut ua l   i nf or m a t i on  m e t hod  f or   t e xt   f e a t ur e   s e l e c t i on,”   i 2013  8t I nt e r nat i onal   C onf e r e nc e   o n   C om put e r  Sc i e n c e   &  E duc at i on , 2013, pp. 163 166 , doi :  10.1109/ I C C S E .2013. 6553903.   [ 24]   H K D a r s ha n,   A R .   S ha nka r B S H a r i s h,  a nd  K .   H M .   K um a r E xpl oi t i ng  R L P I   f or   s e nt i m e nt   a na l y s i s   on   m ovi e   r e vi e w s ,   J our nal  of  A dv anc e s  i n I nf or m at i on T e c hnol ogy , vol . 10, no. 1, pp. 14 19, 2019 , doi :  10.12720/ j a i t .10.1.14 - 19.   [ 25]   M B R e va na s i dda ppa B S H a r i s h,  a nd  S V A K um a r M e t a - c ogni t i ve   ne ur a l   ne t w or ba s e s e que nt i a l   l e a r ni ng  f r a m e w or f or  t e xt  c a t e gor i z a t i on,”   P r oc e di a C om put e r  Sc i e n c e , vol . 132, pp. 1503 1511,  2018, doi :  10.1016/ j .pr oc s .2018.05.104.   [ 26]   M . L a n, C .  L .  T a n, J . S u, a nd Y .  L u,  “ S upe r vi s e a nd t r a di t i ona l  t e r m  w e i ght i n g m e t hods  f or  a ut om a t i c  t e xt  c a t e gor i z a t i on,”   I E E E   T r ans ac t i ons  on P at t e r n A nal y s i s  and M ac hi ne  I nt e l l i ge nc e , vol . 31, no. 4, pp. 721 735, 2009, doi :  10.1109/ T P A M I .2008.110.   [ 27]   D C a i X H e W V Z ha ng,   a nd  J .   H a n,  R e gul a r i z e l oc a l i t pr e s e r vi ng  i nde xi ng  vi a   s pe c t r a l   r e gr e s s i on,”   i P r oc e e di ngs   of   t he   s i x t e e nt A C M   c onf e r e nc e   on  C onf e r e n c e   on  i nf or m at i on  and  k now l e dge   m anage m e nt 2007,  pp.  741 750 doi 10.1145/ 1321440.1321544.   [ 28]   I M okr i š   a nd  L S kova j s ová F e e d - f or w a r a nd  s e l f - or ga ni z i ng  ne ur a l   ne t w or ks   f or   t e xt   doc um e nt   r e t r i e va l ,”   A c t a   E l e c t r ot e c hni c a e t  I nf or m at i c a , vol . 8, no. 2, pp. 3 10, 2008.   [ 29]   Z W a ng,  Y H e a nd   M .   J i a ng,  A   c om pa r i s on  a m ong  t hr e e   n e ur a l   ne t w or ks   f or   t e xt   c l a s s i f i c a t i on,”   i n   2006  8t i nt e r nat i onal   C onf e r e nc e  on Si gnal  P r oc e s s i ng , 2006 , doi :  10.1109/ I C O S P .2006.345923.       B I O G R A P H I E S  O F  A U T H O R S       Gowrav  Ramesh  Babu  Kishore          received  his  B.E .   degree  in  infor mation  science   and engin eering  from Maharaja Ins titute o f Technology,  Mys uru , India. and M.Tech .   degree in   data  scienc from  the   Department  of  Information   Science  and   Engin eering,  JSS  Science  an d   Technology  University,  India.  Presently  he   is  r esearch  scholar   in  the  Department  of   Information  Science  and   Engineering,  JSS  Science  and  Technology  University,  India.  He  can  be contacted at email: kkishorkumar12@gmail.com or kishore_gr@ jssstuniv.in.         Bukahally  Somashekar   Harish           obtained  his  Ph.D.  in  computer   scien ce  from   University  of  Mysore,  India.   Presently  he   is  working   as  a   Professo in  the  Department   of  Information  Science  and   Engineering,   JSS  Science   and  Technology  U niversity,  India.  He  wa s   visiting  researcher   at  DIBRIS   -   Department  of  Informatics,   Bio  En gineering,  Robotics  and   System  Engineering,  University  of   Genova,  Italy.  He   has  been  invited   as  resource   person  to   deliver  various  technical  talks   on  data   mining,  image   processing,  patt ern  recognition,  and  soft   computi ng He  is  serving  as  reviewer  for   internatio nal  conferenc es  and  journals He  has   published  articles  in  more  than  100+   i nternational  reputed  peer   reviewed  journals  and   conferences  proceedings He  successful ly  executed  AICTE - RPS  project,  which  was  sanctioned  by  AICTE,  Government  of  India.  His  area  of  interest  inc ludes  machine  learning,  text  mining,  and  computational  intelligence He  can   be   contacted  at  email:  bsharish@ jssstuniv.in.         Chaluvegowd Kanakala kshmi  Roopa           received  her  B.E .   degree   in  information   science  and  engineering  and  M.Tech .   degree  in  computer  engineer ing  from  Visvesvaraya   Technological  University,  Belagavi,  Karnataka,   India.  She  com pleted  her  Ph.D.  from   University  of  Mysore,  India.  She   is  currently  working as  an  associate  professor  at  JSS  Science   and Technol ogy Uni versity.  She is  serving  as reviewer  for many  conferences an d journal s. She   is  lifetime  member  of  ISTE  and  CSI.  Her  area  of  research  includes  medical  image  analysis,  biometrics, and text mining . She can be contacted a t email: ckr@ jssstuniv.in.     Evaluation Warning : The document was created with Spire.PDF for Python.