T E L K O M NIKA   T elec o mm un ica t io n Co m pu t i ng   E lect ro nics   a nd   Co ntr o l   Vo l.  2 3 ,   No .   2 ,   A p r il 2 0 2 5 ,   p p .   3 8 2 ~ 3 9 2   I SS N:  1 6 9 3 - 6 9 3 0 ,   DOI : 1 0 . 1 2 9 2 8 / T E L KOM NI K A . v 2 3 i2 . 2 6 5 1 0          382     J o ur na l ho m ep a g e :   h ttp : //telko mn ika . u a d . a c. i d   O v ersa m pling   v s.  undersa m pling   in   TF - ID v a ria ti o ns   for   i m ba la nced   Indo nesia sho rt  t ex ts   cla ss ificatio n       I   Ny o m a n P ra y a na   T risn a ,   Ni  Wa y a n E mm y   Ro s ia na   D ew i,  M uh a mm a d Ala m   P a s ir ull o h   D e p a r t me n t   o f   I n f o r mat i o n   T e c h n o l o g y ,   F a c u l t y   o f   En g i n e e r i n g ,   U d a y a n a   U n i v e r si t y ,   B a l i ,   I n d o n e si a       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   J u l 2 9 2024   R ev i s ed   Oct   25,   2 0 2 4   A cc ep ted   Dec   26 2 0 2 4       Ev e n   th o u g h   it   is  c o n si d e re d   a   m o re   trad it io n a m e th o d   c o m p a re d   to   m o re   m o d e rn   a lg o rit h m s,  term   f re q u e n c y   in v e rse d   d o c u m e n f re q u e n c y   (T F - IDF)  n e v e rth e les p ro d u c e g o o d   re su lt in   a   ra n g e   o f   tex m in in g   tas k s.  T h is   stu d y   a ss e s se th e   e ff e c ti v e n e ss   o f   se v e r a T F - IDF  m o d if ica ti o n f o sh o r t   tex c las si f ica ti o n .   Im b a lan c e d   d a tas e ts  a re   a n o th e issu e   th a is  a d d re ss e d   in   th is  re se a rc h .   T o   re c ti fy   th e   i m b a lan c e d   issu e ,   w e   in teg r a te  sta n d a rd ,   l o g - sc a led ,   a n d   b o o lea n   T F - IDF  in   sh o rt  tex c las sif ic a ti o n   w it h   u n d e r sa m p li n g   a n d   o v e rsa m p li n g   m e th o d s.   P re c isio n ,   re c a ll ,   a n d   f - m e a su re   m e tri c a re   u se d   to   e v a lu a te  e a c h   e x p e ri m e n t.   T h e   b e st  re su lt   is  o b tain e d   w h e n   a p p ly in g   b o o lea n   T F - IDF  w it h   th e   o v e r sa m p li n g   m e th o d .   Ov e rsa m p li n g   m e th o d o u t p e rf o rm   th e   u n d e rsa m p li n g   m e th o d i n   e v e r y   e x p e ri m e n t,   a lt h o u g h   th e re   a re   so m e   c a se w h e re   e x p e ri m e n ts  w it h   u n d e rsa m p li n g   m e th o d a re   c o n sid e ra b le.   A d d it i o n a ll y ,   o u r   c o n d u c ted   stu d y   re v e a ls  th a e m p lo y in g   m o d if ied   T F - IDF,   su c h   a b o o lea n   o l o g - sc a led   v e rsio n s,  p r o v id e g re a ter   a d v a n tag e to   c las sif ic a ti o n   p e rf o r m a n c e ,   p a rti c u larly   in   h a n d li n g   im b a lan c e d   d a tas e ts,  w h e n   c o m p a re d   to   so lely   re ly in g   o n   th e   sta n d a rd   T F - IDF  a p p r o a c h .   K ey w o r d s :   B ah asa  I n d o n es ia   I m b alan ce d   d ataset   Ov er s a m p lin g   m et h o d   Sh o r t - tex t c la s s i f icat io n   T er m   f r eq u e n c y   i n v er s ed   d o cu m en t f r eq u e n c y   Un d er s a m p li n g   m e th o d   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   I   Ny o m a n   P r ay a n T r is n a   Dep ar t m en t o f   I n f o r m atio n   T e ch n o lo g y ,   Fac u lt y   o f   E n g i n ee r in g ,   Ud a y an U n i v er s it y   St .   Ka m p u s   B u k it J i m b ar an ,   K u ta  Selata n ,   B ad u n g ,   B ali,   I n d o n esia   E m ail: p r a y a n a. tr is n a@ u n u d . ac . id       1.   I NT RO D UCT I O N   Fo r   y ea r s ,   m a n y   m et h o d o lo g ies  w er co n d u cted   f o r   th b es r esu lt  in   te x m i n i n g   f o r   tex d o cu m en t,  s p ec if icall y   in   m ac h in e   lear n i n g   ap p r o ac h .   A s   u n s tr u ct u r ed   d ata,   d o cu m e n n ee d s   to   b v ec to r ized   to   u n d er g o   in to   m ac h i n lear n i n g   m et h o d o lo g ies.  T h co m b i n at io n   o f   t er m   f r eq u e n c y   ( T F)  alo n g   w it h   in v er s d o cu m en t   f r eq u en c y   ( I DF)   is   s till   p r o m i n en t   v ec to r izatio n   f o r   tex t   m i n i n g .   T h is   m et h o d   is   al s o   k n o w n   as   ter m   f r eq u en c y   i n v er s ed   d o cu m e n t   f r eq u en c y   ( TF - I DF ) .   Ko w s ar et  a l.   [ 1 ]   s tates  alth o u g h   TF - I DF     o r   T al o n e   f ailed   to   ca p tu r s y n tactic  a n d   s e m an tic  ch ar ac ter is tic  o f   te x t ,   th co m p u tatio n   o f   v ec to r izat io n   is   q u ite  s i m p le   an d   m an a g ea b le  w it h   lo w - r es o u r ce   co m p u t in g .   C o m p ar ed   to   s tate - of - th e - ar d o cu m e n v e cto r izatio n   s u ch   as   w o r d - e m b ed d in g   [ 2 ] ,   f astT ex t   b y   Fac eb o o k   [ 3 ] ,   o r   ev en   tr an s f o r m er - b ased   lan g u a g m o d el  lik B E R T   [ 4 ]   TF - I DF  s till   y ield s   d ec e n p er f o r m a n ce   f o r   m u ltip le  tex m in in g   tas k .   T h is   is   al s o   p r o v en   b y   p r io r   r esear ch   b y   Ma r cin cz u k   et   a l.   [ 5 ] ,   w h o   at te m p ts   to   co m p ar m o d er n   ap p r o ac h es  s u c h   a s   w o r d 2 v ec   a n d   B E R T   w it h   T F - I DF  as  clas s ical  o n e”   in   f o u r   ty p es  o f   d atasets .   T h ex p er i m e n s h o w s   t h at  T F - I DF  r an k s   as  1 st   p lace   in   2   d atasets   an d   2 nd   in   1   d ataset  with   s i g n i f ican tl y   f as ter   co m p u t atio n   ti m e.   Do cu m e n t   cla s s i f icat io n   i s   o n o f   p o p u lar   tex m i n i n g   t a s k .   T h is   is   d o n b y   g r o u p i n g   t h d o cu m en ts   in to   m u ltip le  clas s   w ith   lab el.   Ko w s ar et  a l.   [ 1 ]   s p ec if ies  th er ar f o u r   t y p es  o f   d o cu m en s co p es  in   tex class i f icatio n d o cu m en lev e l,  p ar ag r ap h   lev el,   s en te n ce   l ev el,   an d   s u b - s e n te n ce   lev e l,  alth o u g h   m o s o f   d o cu m en class i f icatio n   is   f o c u s ed   o n   s en te n ce   an d /o r   d o cu m en lev el  [ 6 ] .   T h is   lev el  o f   s co p also   d ef in es  Evaluation Warning : The document was created with Spire.PDF for Python.
383   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l         Ove r s a mp lin g   vs.  u n d ers a mp lin g   in   TF - I DF   v a r ia tio n s   fo r   imb a la n ce d   …  ( I   N yo ma n   P r a y a n a   Tr is n a )   len g th   o f   t h cla s s i f ied   te x t.  C o m p ar ed   to   d o cu m e n le v el   s co p lik n e w s   ar ticles  [ 7 ]   o r   p ar ag r ap h   lev el  d o cu m en lik ab s tr ac [ 8 ] ,   s e n ten ce   le v el  d o cu m e n t s   h av s ig n i f ica n d if f er en ce s .   T h m ain   d if f er en ce   is   t h n u m b er   o f   te x ts   in   t h d o cu m en t,  w h er d o cu m e n o r   p ar ag r ap h   lev el  d o cu m e n h av lo n g er   te x t h an   s en te n ce   lev el  d o cu m e n t.  Sh o r ter   d o cu m e n m ea n s   t h r eso u r ce   f o r   d o cu m en ta s k s   ar s ca r ce r   an d   n o is ier   co m p ar ed   to   lo n g er   tex t.  T h s ca r cit y   o f   tex r eso u r ce   in   s e n ten ce   le v el  d o cu m e n class i f i ca tio n   w il b s ee n   as sp ar s v ec to r   [ 9 ] .   A lo n g s id th s p ar s v ec to r   w h ich   is   r es u lted   f r o m   s h o r ter   t ex t,  th co m m o n   p r o b lem   f o r   d o cu m en class i f icat io n   is   t h i m b alan ce d   d is tr ib u tio n   o f   cla s s e s .   I is   u s u all y   r ep h r ased   as  i m b a lan ce d   d ataset.   I m b alan ce d   d ataset   co u ld   lead   to   in ad eq u ate  p er f o r m a n ce   o f   th class if ier   m o d el.   T h is   is   b ec au s m aj o r it y   o f   class i f icatio n   m o d els  r eq u ir e   b alan ce d   class es  to   o b t ain   o p tim al  p er f o r m a n ce   [ 1 0 ] .   T h p r o b lem   o f   i m b alan ce d   d atase b ec o m es  m o r u n ce r tain   a n d   p r o b lem a t ic  if   t h d ataset  is   i m b ala n ce d   to   th ex tr e m e.   T h ex tr e m i m b ala n ce d   d ataset  m ea n s   t h er ar m aj o r ity   a n d   m in o r it y   c lass e s ,   w h er t h p r esen ce   o f   th m i n o r it y   clas s es i s   o n l y   r ep r esen ted   w ith   l ittl to   n ea r l y   n o n e   in s ta n ce s   co m p ar ed   to   m aj o r ity   clas s es [ 1 1 ] .   Ho w e v er ,   f o r   th p ast  y ea r s   m eth o d o lo g ie s   f o r   s o lv i n g   i m b ala n ce d   d ataset  ar d ev elo p ed .   E x p er i m e n tal  r ev ie w   d o n b y   T an h et  a l.   [ 1 2 ]   r ev ea ls   f o u r   m et h o d s   to   h an d le  i m b alan ce d   d ataset:  d ata - lev el  m et h o d ,   alg o r ith m - lev el  m et h o d ,   h y b r id - m et h o d ,   an d   b o o s tin g - m et h o d .   T h d ata - lev e m et h o d s   w o r k   b y   r esa m p li n g   t h n u m b er   o f   t h e   in s ta n ce s   i n   th d ataset  [ 1 3 ] .   T h r esam p li n g   p r o ce s s   is   ca lled   u n d er s a m p l in g   w h e n   t h i n s ta n ce s   w it h   m aj o r it y   clas s   ar s a m p led   d o w n   s o   th at  t h o s i n s tan ce s   ar b ala n ce d   w it h   m i n o r it y   in s ta n ce s .   O n   th co n tr ar y ,   w h en   th m i n o r it y   i n s ta n ce s   ar s y n t h e s ized   s o   th m in o r it y   cla s s es  h a v th s a m e   d is tr ib u tio n   as  m aj o r ity   cla s s es,  it  is   ca ll ed   o v er s a m p li n g   [ 1 3 ] .   B o t h   o f   u n d e r s am p l in g   a n d   o v e r s am p l in g   t e c h n i q u a r e   v a s t ly   a p p l ie d   in   r e c en r e s ea r c h e r s .   Fu r th e r m o r e ,   t h es e   te ch n i q u e s   a r f u r t h e r ly   d ev el o p e d   i n t o   s ev e r a l   alg o r i th m s   f o r   m u l t i p le  c a s es ,   lik e   a d a p t iv s y n th et i c   ( A DA S Y N )   [ 1 4 ] ,   s y n t h e t i m in o r i ty   o v e r s am p l in g   t e c h n i q u e   ( S MO T E )   [ 1 5 ] ,   r a n d o m - b a s e d   u n d e r s am p l in g   [ 1 6 ] ,   a n d   n e ig h b o r - b as e d   u n d e r s am p l i n g   [ 1 7 ] .   Ou r   r esear ch   ex p er i m en ts   t h e   d ata - lev el  i m b alan ce d   h an d li n g   m et h o d   b y   co m p ar i n g   o v e r s a m p li n g   tech n iq u a n d   u n d er s a m p li n g   tech n iq u f o r   s h o r te x clas s i f icatio n .   T h ex p er i m e n ts   ar d o n s p ec if ica ll y   in   B ah asa  I n d o n esia s   d ataset.   Alth o u g h   it  is   s p o k en   r o u g h l y   b y   h u n d r ed s   o f   m illi o n   s p ea k er s   w o r ld w id [ 1 8 ] ,   th r eso u r ce s   f o r   B ah asa  I n d o n esia  tex m in in g   tas k   ar l i m ited   [ 1 9 ] .   Fu r th er m o r e ,   o u r   r esear ch   em p lo y s   tr ad itio n al  T F - I DF v ec to r izer   ev en   s o   b ec au s its   s i m p l icit y   an d   th b en e f icial  to   t h co m p u tatio n a l ti m e.       2.   RE L AT E WO RK   T h f o llo w i n g   p ar ag r ap h s   w ill   d is cu s s   ab o u th r elate d   w o r k s   t h at  in s p ir th r esear ch .   T h r elate d   w o r k s   f o c u s   o n   th v ec to r izer   m et h o d ,   i m b alan ce d   d ataset  h an d lin g s ,   m ac h i n lear n i n g   m eth o d s ,   an d   t h tex class i f icatio n   p r o b lem s .   Z h u   e a l.   [ 2 0 ]   u tili ze s   T F - I DF  m et h o d   f o r   h o to p ic  d etec tio n   i n   n e w s   ar tic les.  T h is   r esear ch   r ef i n es   T F - I DF  v ec t o r izer   to   ad ap to   t im e - d is tr ib u ted   in f o r m a tio n   a n d   u s er   att en tio n .   T h r ef in ed   v ec to r   is   t h e n   clu s ter ed   w it h   c lu s ter i n g   m eth o d   to   ex tr ac th h o to p ics  o f   th n e w s   n e t wo r k .   Si m ilar   s u b j ec t   o f   h o to p ic  d etec tio n   is   also   co n d u cted   b y   B o k   et  a l.   [ 2 1 ]   w h o   m o d if ie s   T F - I DF  to   ca r r y   o u th te m p o r al  in f o r m atio n   o f   d o cu m e n f r eq u en cie s .   I n   ad d itio n   to   m o d if i ed   d o cu m en f r eq u en c y ,   B o k   et  a l.   [ 2 1 ]   s ca les  t h e   ter m   f r eq u en c y   o f   t h w o r d s   i n to   lo g ar it h m ic  s ca le.   T h lo g ar ith m ic  s ca l in g   o f   ter m   f r eq u en c y   is   al s o   d o n i n   th co m p ar ativ r esear ch   b y   P is k o r s k an d   J ac q u et  [ 2 2 ] .   T h co m p ar is o n   is   co n d u c ted   b et w ee n   lo g - s ca led   TF - I DF  ch ar ac ter   N - g r a m s   an d   w o r d   em b ed d in g   f o r   f in e - g r ain ed   class i f ica tio n   tas k   s h o w s   t h at  lo g - s ca led   TF - I DF a p p r o ac h   o u tp er f o r m   w o r d   e m b ed d in g   ap p r o ac h   in   m o s t ta s k s .   I m b alan ce d   d ataset   h a n d li n g s   ar d o n in   s e v er al  p r ev io u s   r esear ch es.  I s h aq   et   a l.   [ 1 5 ]   co m b in e   o v er s a m p li n g   tec h n iq u w i th   s ev er al  d ata  m i n i n g   tec h n iq u e s   to   i m p r o v t h p r ed ictio n   o f   h ea r f ail u r ca s e.   T h is   r esear ch   e m p lo y s   SMOT E   to   o v er s a m p le  th m i n o r it y   class   w h ich   is   t h m o r talit y   c ase.   T h co n d u cted   r esear ch   also   s h o w s   t h at  r a n d o m   f o r est  clas s if ier   y ield s   th m o s p r o m is i n g   r es u lts   b ased   o n   s ev er al   ev alu a tio n s .   I n   n et w o r k   attac k ,   Z u ec h   et  a l.   [ 1 6 ]   ex p lo r e s   th s a m p l in g   m et h o d s   b y   u n d er s a m p li n g   t h m aj o r ity   c lass .   T h i s   r esear ch   also   s h o w s   t h at  r an d o m   f o r es class i f ier   o u tp er f o r m s   m o s t   o f   th c lass if ier s .   An o th er   r esear ch   b y   Os k o u ei  an d   B ig h a m   [ 2 3 ]   ex p er im e n t s   o v er s a m p lin g   an d   u n d er s a m p lin g   tech n iq u es  i n   ex tr e m e l y   i m b ala n ce d   d ataset .   T h ex p lo r ed   d ataset s   co n s is o f   1 3   s tan d ar d   r ea d atasets   f r o m   o p en - s o u r ce   r ep o s ito r y .   T h r esear ch   s h o w s   t h at  in   i m b ala n ce d   p r o b l e m   r esa m p li n g   m eth o d   is   cr u cial,   an d   is   m o r e   p r ef er r ed   th an   e x p lo r in g   t h e   in f l u en ce   o f   t h cla s s i f ier .   T h r esear ch   also   co n cl u d es   th at  o v er s a m p l in g   m et h o d s   o u tp er f o r m   i n   all  ca s es c o m p ar ed   to   u n d er s a m p li n g   m eth o d s .   As  s tated   in   p r ev io u s   p ar ag r ap h ,   r an d o m   f o r est  class if ier   y ie ld s   s u f f icie n tl y   w ell  p er f o r m a n ce   in   class i f icatio n ,   in cl u d in g   t h p r o b lem   w it h   i m b ala n ce d   d ataset  [ 1 5 ] ,   [ 1 6 ] .   T r iay u d a n d   Fit r [ 2 4 ]   ex p lo r es   v ar io u s   m eth o d   o f   class i f icati o n s   in   ed u ca tio n a d ata  m i n i n g .   E v en   th o u g h   it  is   n o th p er f ec r esu lt,  r an d o m   f o r est  clas s i f ier   p er f o r m s   w e ll  in   m aj o r ity   tas k ,   esp ec iall y   in   m o d elli n g   w it h o u a n y   f ea t u r s elec tio n s .     I n   an o th er   i m b ala n ce d   ca s e,   Mo h a m m ed   et  a l [ 2 5 ]   ex p er im e n t s   s e v er al  m o d els  o f   clas s i f icatio n   i n   tr an s ac tio n s   d ata.   T h d ata  co n tain s   i m m en s n u m b er   o f   co lu m n s   an d   r o w s .   R an d o m   f o r est  clas s i f ier   o u tp er f o r m s   all  o th er   m o d els  in   o v er s a m p li n g   tech n iq u e ,   an d   f alls   in to   2 nd   p o s i tio n   in   u n d er s a m p lin g   Evaluation Warning : The document was created with Spire.PDF for Python.
384                           I SS N:  1 6 9 3 - 6930   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l ,   Vo l.  2 3 ,   No .   2 ,   A p r il 2 0 2 5 : 3 8 2 - 392   tech n iq u e.   T h ese  p r io r   r esear ch es  [ 1 5 ] ,   [ 1 6 ] ,   [ 2 5 ]   c o n clu d es  th at  r an d o m   f o r est  cla s s i f i er   is   b ef itti n g   f o r   class i f icatio n   p r o b lem   w i th   i m b alan ce d   p r o b lem .   T h er h av b ee n   s ev er al  s tu d ies  d o n o n   s h o r tex m i n i n g .   B er n ar d   et   a l.   [ 2 6 ]   ex p lo r th clu s ter in g   m et h o d   f o r   tr ac k in g   n e w s   s to r ies  in   s h o r m es s ag in g   i n   C o v id - 1 9   ar ea .   T h is   r esear ch   u til izes  th s p ar s T F - I DF  co m b in ed   w it h   T r an s f o r m er   as  t h v ec to r izatio n   m et h o d s .   P r ev io u s   m et h o d   b y   Mir an d et  a l.   [ 2 7 ]   w as  u s ed   i n   t h is   r esear c h   [ 2 6 ] ,   w h ich   u s es  s u p er v is ed   cl u s ter i n g   f r o m   m o n o li n g u al   an d   cr o s s l in g u al  ap p r o ac h es.   B esid es  th at,   u n s u p er v is ed   K - m ea n s   w as  a ls o   u tili ze d   an d   co m b in ed   w it h   p r io r   r esear ch   [ 2 7 ] .   T h r esu lt   s h o w s   th a t T F - I DF i s   s till   r o b u s f o r   d o in g   m u ltip le  s h o r t te x m i n i n g ,   e v e n   w h en   is   co m b in ed   w it h   o t h er   t y p e   o f   v ec to r izatio n .   I n   an o t h er   r esear ch   b y   Ma r i v ate  a n d   Sef ar [ 2 8 ]   co n d u cted   tex clas s i f icatio n   in   m u ltip le   task s .   T h r esear ch   u tili ze s   g lo b al  au g m e n tatio n   m et h o d   w h ich   u s es  s y n o n y m   a u g m en tatio n ,   s e m a n tic   s i m ilar i t y   a u g m e n tatio n ,   an d   r o u n d - tr ip   tr an s latio n .   A l th o u g h   th lo s s   i s   r ed u ce d   w h en   t h g lo b al  au g m e n tatio n   is   e m p lo y ed ,   t h r esu lt  s h o w s   t h at  t h r ed u ctio n   o f   lo s s   w it h   g lo b al  au g m e n tatio n   is   n o s ig n i f ica n t.  Mo r eo v er ,   th is   r e s ea r ch   e x p lo r es  t h m et h o d   in   E n g l is h   w h ic h   h as  lar g r es o u r ce s   an d   co r p o r a.   T h p r o p o s ed   m eth o d   o f   t h is   r esear ch   m a y   n o t n ec es s ar il y   b ap p licab le  in   o th er   lan g u a g e s .     I n   B ah asa  I n d o n esia  te x t,  S etiab u d i   et  a l.   [ 29 ]   ex p lo r es  th e f f ec m is s p elled   w o r d   in   B ah a s a   I n d o n esia s   te x class if icatio n .   L ev e n s h tei n   d is ta n ce   is   e m p l o y ed   to   f i x   th m is s p elled   w o r d .   T h m i s s p elled   co r r ec tio n   its el f   i s   co n d u cted   b ef o r th m o d el  p er f o r m s   a s   p r ep r o ce s s in g .   T h r esu l s h o w s   t h at  w it h   t h e   m is s p elled   co r r ec tio n   w it h   t h Naïv e   B a y es  m o d el  o u tp er f o r m   th e   b aseli n m o d el   b y   8 . 2 %.  Ho w e v er ,   t h is   r esear ch   also   s h o w s   t h at  th e   ad d itio n   o f   th is   p r ep r o ce s s in g   ad d s   th co m p le x it y   a n d   elap s ed   ti m o f   th e   m o d el.   San to s o   et  a l.   [ 30 ]   wo r k   w it h   s e n ti m e n a n al y s i s   a n d   h o a x   cla s s i f icatio n   i n   B ah asa  I n d o n e s ia.   T h s tu d y   s u g g est s   u s i n g   p ar ticle  s w ar m   o p ti m izatio n   ( P SO)   to   in cr ea s Naï v B a y es   ac cu r a c y .   B o th   r esear ch es  b y   Se tiab u d i   et  a l.   [ 2 9 ]   an d   San to s o   et  a l.   [ 3 0 ]   f u r th er   p r o v th at  B ah asa  I n d o n e s ia s   r eso u r ce s   f o r   tex t   m i n in g   a n d   class i f icatio n   ar lack in g .       3.   M E T H O D   T h is   s ec tio n   i s   d iv id ed   in t o   s ev er al  s u b s ec tio n s r esea r ch   m et h o d o lo g y ,   d ataset,   s ce n ar io   o f   ex p er i m e n t,  an d   ev a lu atio n   m etr ics.  E ac h   s u b s ec tio n   w i ll b ex p lain ed   f u r t h er .     3 . 1 .     Resea rc m et ho do lo g y   T h f lo w ch ar in   Fi g u r 1   b r i ef l y   d escr ib es  h o w   th i s   r esear ch   is   ac co m p li s h ed .   T h r esear ch   b eg in s   w it h   th co llected   d ataset.   T h d ataset  w il b ex p lain ed   f u r th er   in   s u b s ec tio n   3 . 2 .   B ef o r u n d er g o   an y   p r o ce s s ,   th d ataset  is   th e n   p r ep r o ce s s ed   u s i n g   u s u al  s tan d ar d   p r ep o ce s s   f o r   tex m i n in g ,   w h ic h   ar e   t o k en izat io n ,   ca s e - f o ld in g ,   an d   s tem m i n g   [ 3 1 ] .   T h d ata  t h en   is   s p litt ed   in to   t w o   p ar ts tr ain in g   d ata  an d   test i n g   d ata.   T h tr ain i n g   d ata   w ill  b t h b ase  o f   t h T F - I DF  v ec to r izatio n ,   a n d   r esu lt s   in   b ag - of - w o r d s .   T h b ag - of - w o r d s   is   u s ed   as  v ec t o r izer   to   t r an s f o r m   b o th   tr ai n in g   d ata  an d   tes tin g   d ata.   On ce   all  t h d ata  is   tr an s f o r m ed   in to   v ec to r   u s i n g   b ag - of - w o r d s ,   th tr ai n in g   d ata  is   ap p lied   in to   th m o d el.   I n s p ir ed   b y   p r io r   r esear ch es  [ 1 5 ] [ 1 6 ] [ 2 5 ] ,   th r an d o m   f o r est  al g o r ith m   is   e m p lo y ed   to   y ield   t h b etter   r esu lt.  T h te s ti n g   p r o ce s s   is   d o n af ter   th r an d o m   f o r est  m o d el  is   b u ild ,   en g ag in g   th tes tin g   d ata  as  th b en ch m ar k   f o r   th e   p r ed ictio n   r esu lt.   T h ev alu atio n   m etr ic s   w ill b e   u s ed   to   co m p ar th p er f o r m a n ce   o f   ea c h   ex p er i m en t.  I n   Fi g u r 1 ,   th bol d ed   b lo ck s   ar th p r o ce s s es  t h at  w il b ex p er i m en ted   w it h   m u ltip le  s ce n ar io .   T h d etail  o f   e x p er i m e n s ce n ar io s   a n d   th ev a lu at io n   m etr ics ar r esp ec ti v el y   el u cid ated   in   s u b s ec tio n s   3 . 3   an d   3 . 4 .     3 . 2 .     Da t a s et   T h d ataset   u s ed   is   th titl o f   th f in al  as s i g n m en o f   I n f o r m atio n   T ec h n o lo g y   s t u d en t s   at   Un i v er s ita s   Ud a y a n a .   T h class i f ied   class   o f   ea ch   as s i g n m e n is   t h to p ic  o f   co r r esp o n d in g   ass i g n m en t.  T h is   d ataset  is   d escr ib ed   s i m p l y   in   T ab le  1 .   T h is   d ataset   is   u s ed   b ec au s o f   th f o llo w i n g   r ea s o n s :     T h d ataset  is   p r esen ted   in   f o r m al  I n d o n e s ian   la n g u a g e .     T h d ataset  titl o f   ea c h   as s ig n m en t,  co n tai n s   r elati v el y   s h o r n u m b er   o f   w o r d s   co m p ar ed   to   p ar ag r ap h s   o r   ab s tr ac ts   o f   th ass i g n m e n ts .   T h is   s u p p o r ts   th e   s en te n ce   lev e l c lass if ica tio n .     T h d ataset  h a s   m an y   c lass e s ,   b u t h er ar s o m cla s s es   t h at  h av e   v er y   s m all  n u m b e r   o f   i n s ta n ce s   co m p ar ed   to   o th er   class e s .         Evaluation Warning : The document was created with Spire.PDF for Python.
385   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l         Ove r s a mp lin g   vs.  u n d ers a mp lin g   in   TF - I DF   v a r ia tio n s   fo r   imb a la n ce d   …  ( I   N yo ma n   P r a y a n a   Tr is n a )       Fig u r 1 .   T h r esear ch   m e th o d   ex p lain ed   in   f lo w c h ar t       T ab le  1 .   Su m m ar y   o f   t h d atas et   T o p i c   C o d e   N u mb e r   o f   a ss i g n me n t s   D i g i t a l   B a l i   t o u r i sm   D B T   10   D i g i t a l   i mag i n g   sy st e m   D I S   12   D a t a   sci e n c e   DS   52   D i g i t a l   e c o n o my   ED   14   I n t e r n e t   o f   t h i n g   I O T   18   I n f o r mat i o n   sy st e m   IS   74   N e t w o r k   a n d   c l o u d   c o mp u t i n g   N C C   11   I g o v e r n a n c e   T K T I   9   T o t a l   2 0 0       3 . 3 .     Scena rio   o f   ex peri m e nt   As  p ictu r ed   in   Fig u r 1 ,   th b o ld e d   b l o ck s   ar th p r o ce s s   w h ic h   w ill  b ex p er i m e n t ed   in   th is   r esear ch .   T h u s ,   t h T F - I DF   v ec to r izatio n   m et h o d s   an d   t h s a m p li n g   m e th o d s   ar t h e   p ar am eter s   o f   t h ex p er i m e n t.  T ab le  2   ex p lain s   th p ar a m eter s   a n d   th h o w   t h o s p ar am e ter s   co n tr ib u te  in   ea ch   ex p er i m en t.     Evaluation Warning : The document was created with Spire.PDF for Python.
386                           I SS N:  1 6 9 3 - 6930   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l ,   Vo l.  2 3 ,   No .   2 ,   A p r il 2 0 2 5 : 3 8 2 - 392   T ab le  2 .   E x p er im e n ted   s ce n ar i o s   S c e n a r i o   TF - I D F   u se d   S a mp l i n g   me t h o d   S c e n a r i o   0   S t a n d a r d   T F - I D F   N o   samp l i n g   S c e n a r i o   1   S t a n d a r d   T F - I D F   O v e r samp l i n g   S c e n a r i o   2   L o g - sca l e d   TF - I D F   O v e r samp l i n g   S c e n a r i o   3   B o o l e a n   TF - I D F   O v e r samp l i n g   S c e n a r i o   4   S t a n d a r d   T F - I D F   U n d e r sam p l i n g   S c e n a r i o   5   L o g - s c a l e d   TF - I D F   U n d e r sam p l i n g   S c e n a r i o   6   B o o l e a n   TF - I D F   U n d e r sam p l i n g       Scen ar io   0   in   T ab le  2   is   u s ed   as  b aselin f o r   th m o d el.   I n   th ese  s ce n ar io s ,   lo g - s ca led   a n d   b o o lean   m o d i f icat io n   o f   T F - I DF  ar e   in tr o d u ce d   [ 3 2 ] .   T h s tan d ar d   T F - I DF   is   d ef i n ed   i n   ( 1 ) ,   w h er e   th lo g - s ca led   T F - I DF is f o r m u la ted   in   ( 2 ) ,   an d   b o o lean   T F - I DF is in   ( 3 ) .       , =  , ×  (  )   ( 1 )        , = ( 1 +  (  , ) ) ×  (  )   ( 2 )          , = {  (  ) ,   , > 0 0 ,     ( 3 )     tf t, d   its elf   r ep r esen t s   th f r eq u en c y   o f   ter m   t   i n   d o cu m e n d ,   an d   df t   r ep r esen ts   n u m b er   o f   d o cu m en ts   th a co n tain   ter m   t .   T h to tal  d o cu m en i n   t h co llect io n   i s   s y m b o lized   w it h   N .   I n   s u ch ,   tfid f t, d   r ep r esen ts   th e   T F - I DF v al u o f   ter m   t   i n   d o cu m e n d .   C o m b i n ed   w i th   T F - I DF  m o d if icatio n s ,   s a m p li n g   m et h o d s   ar also   ex p er im e n ted .   B o th   o f   o v er s a m p li n g   an d   u n d er s a m p l in g   ar co n d u c ted   in   d if f er en t   s ce n ar io s .   T h o v er s a m p li n g   m eth o d   is   ca r r ied   o u b y   ad d i n g   n e w   i n s ta n ce s   to   m i n o r it y   class e s   s o   th at  th o s class es  h a v th s a m n u m b er   o f   in s tan ce s   w it h   th m aj o r it y   clas s .   I n   co n tr a s t,  u n d er s a m p li n g   m et h o d   cu ts   th n u m b er   o f   i n s ta n ce s   i n   m aj o r it y   clas s es,   r esu lti n g   th m aj o r it y   an d   m i n o r ity   cla s s e s   h a v th s a m to tal  o f   in s tan ce s   [ 3 3 ].     3 . 4 .     E v a lua t i o m et rics   T h ev alu atio n   w il b co n clu d ed   in   ea ch   s ce n ar io   in   T ab le   2 .   P r ec is io n ,   r ec all,   an d   f - m e asu r ar u s ed   to   ev alu ate  t h ex p er i m en ts .   P r ec is io n   an d   r ec all  ar e   m o r f a v o r ab le  in   i m b alan c ed   d ataset  f o r   th eir   ab ilit ies  to   elab o r ate  t h m o d el  p er f o r m a n ce   i n   s p ec i f ic  c lass ,   r ath er   t h an   o v er all  d ata s et  w i th   all   clas s es.  T h i s   is   th o p p o s ite  o f   ac c u r ac y   m ea s u r e,   w h ic h   e v alu a te  th o v er all  p er f o r m an ce   o f   m o d el .   A cc u r ac y   te n d s   to   m ea s u r th p er f o r m an ce   o f   t h m o d el  b y   t h m aj o r ity   cla s s   [ 3 4 ].   P r ec is io n   is   d ef i n ed   as  r atio   o f   co r r ec p r ed ictio n   w it h   to t al  p r ed ictio n ,   w h er ea s   r ec all  is   r atio   o f   co r r ec p r ed ictio n   w it h   to tal  o f   ac tu al  clas s es.  B o th   p r ec is io n   an d   r ec all  ar m ea s u r ed   in   s p ec if ic  class e s ,     f - m ea s u r co m b i n es  b o th   o f   p r ec is io n   an d   r ec all,   an d   is   u s e d   to   m ea s u r in   s p ec i f ic  clas s es  as  w e ll.  T h ey   ar d if f er e n w i th   ac cu r ac y   w h ic h   m ea s u r es   i n   o v er all   clas s es.  In   ( 4 )   to   ( 6 )   s h o w   th e   f o r m u la   o f   p r ec is io n ,   r ec all,   an d   f - m ea s u r r esp ec tiv el y ,   wh er c   r ep r esen ts   s p ec i f ic  clas s   in   th ca s e.     =            ( 4 )     =           ( 5 )     1  = 2 × × +   ( 6 )     A ll  o f   th m etr ics  i n   ( 4 )   to   ( 6 )   w i ll  b s u m m ar ized   in   w e ig h ted   av er ag e.   T h w ei g h te d   av er ag a cc o u n t s   th n u m b er   o f   clas s e s   in   t h test i n g   d ata.   In   ( 7 )   ex p lain s   t h ca lc u latio n   o f   w ei g h t ed   av er ag f u r th er .      ( ) = × = 1 = 1   ( 7 )     W A ( m)   r e p r es en ts   th e   w e ig h t ed   a v e r ag e   o f   m et r i m .   M et r i c   m   c an   b e   ei th e r   p r e c is i o n ,   r e ca l l ,   o f   f - m e a s u r e .   m c   r e p r e s en t s   th e   m e asu r em en t   o f   m e t r i c   m   i n   c l as s   c ,   a n d   s c   r e p r e s en ts   t o t al   m em b e r   o f   c l as s   c   in   t es ti n g   d at a .     Evaluation Warning : The document was created with Spire.PDF for Python.
387   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l         Ove r s a mp lin g   vs.  u n d ers a mp lin g   in   TF - I DF   v a r ia tio n s   fo r   imb a la n ce d   …  ( I   N yo ma n   P r a y a n a   Tr is n a )   4.   RE SU L T   AND  DI SCUS SI O N   Ou r   ex p er i m e n t s   w ith   v ar io u s   p ar am eter s   as  i n   T ab le  2   y iel d   co m p li y in g   r es u lts .   T ab le  3   illu s tr ates  in   b r ief   ab o u th e   r esu lts   o f   o u r   ex p er i m en t s .   T h n u m b er s   in   T ab le  3   ar th w e ig h ted   a v er ag a s   ex p lai n ed   in   ( 7 ) .   T h d etailed   r esu lt  o f   ea ch   ex p er i m en p r o j ec ted   in   th co n f u s io n   m atr i x .   T ab l e s   4   to   6   s h o w   th co n f u s io n   m atr i x   f o r   ea ch   s ce n ar io .   Fro m   t h T ab le  3 ,   it  ca n   b co n clu d ed   th a s ce n ar io   3   w i th   o v er s a m p led   lo g - s ca led   T F - I DF  r esu lts   th b est   s co r es  o f   all   m e tr ics.   T h b aselin e   m o d el  i n   s ce n a r io   0   u s in g   s ta n d ar d   T F - I DF  w ith   n o   s a m p lin g ,   alr ea d y   s h o w s   e x ce lle n p er f o r m an ce .   I ts   a v er ag p r ec is io n ,   r ec all,   an d   f - m ea s u r ar ex c ee d in g   8 0 %.  A ll  o f   th s ce n ar io s   w ith   t h o v er s a m p lin g   m eth o d   ( s ce n ar io   1 - 3 )   p r o v id b etter   o u tco m e s   th a n   b aselin s ce n ar io .   On   th o t h er   h an d ,   s ce n ar io   4 - 6 ,   w h ic h   e m p lo y   t h u n d er s a m p lin g   s tr ate g y ,   co n s id er ab l y   u n d er p er f o r m   th b aselin m o d el  i n   all  cr iter ia.       T ab le  3 .   R esu lt o f   ea c h   s ce n ar io s   in   s u m m ar y   S c e n a r i o   A v g .   p r e c i si o n   ( %)   A v g .   r e c a l l   ( %)   A v g .   f - me a su r e   ( %)   S c e n a r i o   0   8 0 . 9 6 5   8 5 . 0 0 0   8 1 . 9 0 0   S c e n a r i o   1   8 1 . 9 4 3   8 7 . 5 0 0   8 3 . 9 5 5   S c e n a r i o   2   8 2 . 5 0 0   8 7 . 5 0 0   8 4 . 1 5 2   S c e n a r i o   3   9 1 . 3 7 3   9 0 . 0 0 0   8 8 . 7 6 4   S c e n a r i o   4   6 7 . 9 0 5   5 7 . 5 0 0   5 3 . 5 8 3   S c e n a r i o   5   6 9 . 7 5 0   6 0 . 0 0 0   5 6 . 4 5 5   S c e n a r i o   6   6 6 . 7 6 6   5 7 . 5 0 0   5 3 . 0 2 1       T ab le  4 .   C o n f u s io n   m atr i x   f o r   b aselin s ce n ar io       P r e d i c t e d   l a b e l       D B T   D I S   DS   ED   I O T   IS   N C C   TK TI   T r u e   l a b e l   ( b a se l i n e   sce n a r i o )   D B T   2   0   0   0   0   0   0   0   D I S   0   2   0   0   0   0   0   0   DS   0   0   9   0   0   1   0   0   ED   0   0   0   0   0   3   0   0   I O T   0   0   0   0   4   0   0   0   IS   1   0   0   0   0   14   0   0   N C C   0   0   0   0   0   0   2   0   TK TI   0   0   0   0   0   1   0   1       T ab le  5 .   C o n f u s io n   m atr i x es  f o r   s ce n ar io s   w ith   o v er s a m p li n g       P r e d i c t e d   l a b e l       D B T   D I S   DS   ED   I O T   IS   N C C   TK TI   T r u e   l a b e l   ( sce n a r i o   1 )   D B T   2   0   0   0   0   0   0   0   D I S   0   2   0   0   0   0   0   0   DS   0   0   10   0   0   0   0   0   ED   0   0   1   0   0   2   0   0   I O T   0   0   0   0   4   0   0   0   IS   1   0   0   0   0   14   0   0   N C C   0   0   0   0   0   0   2   0   TK TI   0   0   0   0   0   1   0   1   T r u e   l a b e l   ( sce n a r i o   2 )   D B T   2   0   0   0   0   0   0   0   D I S   0   2   0   0   0   0   0   0   DS   0   0   10   0   0   0   0   0   ED   0   0   0   0   0   3   0   0   I O T   0   0   0   0   4   0   0   0   IS   1   0   0   0   0   14   0   0   N C C   0   0   0   0   0   0   2   0   TK TI   0   0   0   0   0   1   0   1   T r u e   l a b e l   ( sce n a r i o   3 )   D B T   2   0   0   0   0   0   0   0   D I S   0   2   0   0   0   0   0   0   DS   0   0   10   0   0   0   0   0   ED   0   0   1   1   0   1   0   0   I O T   0   0   0   0   4   0   0   0   IS   1   0   0   0   0   14   0   0   N C C   0   0   0   0   0   0   2   0   TK TI   0   0   0   0   0   1   0   1           Evaluation Warning : The document was created with Spire.PDF for Python.
388                           I SS N:  1 6 9 3 - 6930   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l ,   Vo l.  2 3 ,   No .   2 ,   A p r il 2 0 2 5 : 3 8 2 - 392   T ab le  6 .   C o n f u s io n   m atr i x es  f o r   s ce n ar io s   w ith   u n d er s a m p li n g       P r e d i c t e d   l a b e l       D B T   D I S   DS   ED   I O T   IS   N C C   TK TI   T r u e   l a b e l   ( sce n a r i o   4 )   D B T   2   0   0   0   0   0   0   0   D I S   0   2   0   0   0   0   0   0   DS   0   0   9   0   0   1   0   0   ED   1   0   0   2   0   0   0   0   I O T   0   0   0   0   4   0   0   0   IS   6   1   4   1   0   2   0   1   N C C   0   0   1   0   0   0   1   0   TK TI   1   0   0   0   0   1   0   1   T r u e   l a b e l   ( sce n a r i o   5 )   D B T   2   0   0   0   0   0   0   0   D I S   0   2   0   0   0   0   0   0   DS   0   0   9   0   0   1   0   0   ED   1   0   0   2   0   0   0   0   I O T   0   0   0   0   4   0   0   0   IS   6   1   3   1   0   2   0   2   N C C   0   0   0   0   0   0   2   0   TK TI   1   0   0   0   0   1   0   1   T r u e   l a b e l   ( sce n a r i o   6 )   D B T   2   0   0   0   0   0   0   0   D I S   0   2   0   0   0   0   0   0   DS   0   0   9   0   0   1   0   0   ED   1   0   0   2   0   0   0   0   I O T   0   0   0   0   4   0   0   0   IS   6   1   4   1   0   2   0   1   N C C   0   0   1   0   0   0   1   0   TK TI   1   0   0   1   0   1   0   1       T h o u tco m o f   r eso l v i n g   t h u n b ala n ce d   d ataset  is s u i s   d is p la y ed   in   T ab le  3 .   B ased   o n   o u r   co m p leted   s it u atio n s ,   th o v er s a m p li n g   m et h o d s   g r ea tl y   o u t p er f o r m   t h u n d er s a m p li n g   m eth o d s   in   s h o r tex class i f icatio n .   C o m p ar i n g   s h o r tex clas s i f icatio n   to   lo n g   te x clas s i f icatio n ,   t h co m p lete d   b ag - of - w o r d s   h a s   s ig n i f ica n tl y   f e w er   te x t r eso u r ce s .   A cc o r d in g   to   De  B o o m   et  a l.   [ 9 ] ,   s p ar s v ec to r s   ar p r o d u ce d   w h e n   te x r eso u r ce s   f o r   s h o r tex t   class i f icatio n   ar lim ited .   Un d er s a m p li n g   m ak e s   th alr ea d y   li m ited   r eso u r ce s   ev e n   m o r s o .   Scar ce   r eso u r ce s   p r o d u ce   j u m b le  o f   w o r d s   t h at  ar u n ab le  to   d is tin g u is h   b et w ee n   clas s i f icatio n   cla s s e s .   On   th o t h er   h a n d ,   th class if ier   m o d el  m a y   m o r ea s il y   id en ti f y   th cla s s es  b y   cr ea ti n g   s y n t h esi s   v ec to r   w it h   o v er s a m p li n g   s in ce   th e   b ag - of - w o r d s   v ec t o r   h as  lar g er   d i m e n s io n s .   W ith   t h li m ited   d ata s et  i n   th i s   r esear c h ,   th e   u n d er s a m p li n g   ap p r o ac h   is   m o r lik el y   to   p r o d u ce   s p ar s v ec to r ,   th u s   r es u lti n g   p o o r   r esu lt  co m p ar ed   to   t h o v er s a m p li n g   ap p r o ac h   w it h   s y n t h etic  v ec to r .   Desp ite  p r o d u cin g   p o o r   p er f o r m a n ce ,   t h is   r esear ch   d e m o n s tr ates  th at   u n d er s a m p l in g   ca n   b ea b aselin m o d els,  e v en   o v er s a m p li n g   m eth o d s ,   esp ec iall y   i n   m i n o r it y   cla s s es.  C lass   E D   w ill  b u s ed   as  an   illu s tr atio n .   C la s s   E is   co n s is ten tl y   m is s p r ed icted   in   th b aselin m o d el  f r o m   T ab le  4 ,   an d   n o   ad d itio n al  class es   ar p r o j ec ted   to   b E D,   th u s   m a k i n g   t h p r ec is io n   an d   r ec all  r es u lt s   f o r   E ar ze r o .   T h is   is s u p er s is ts   ev e n   in   ca s es  o f   o v er s a m p li n g ,   w it h   o n l y   o n ca s o f   class   E is   ac cu r atel y   p r ed icted   b y   s ce n ar io   3   ( b est  s ce n ar io ) .   T h u n d er s a m p lin g   ap p r o ac h   p r ev en ts   t h i s .   B ased   o n   T ab le  6 ,   tw o   o f   t h th r ee   in s ta n ce s   o f   class   E i n   t h te s ti n g   d ata  a r co r r ec tly   cla s s i f ied   b y   t h s ce n ar io   u s i n g   th u n d er s a m p lin g   m eth o d .   B etter   r ec all  f o r   class   E in   t h u n d e r s a m p li n g   ap p r o ac h   is   t h o u tc o m o f   th is .   C las s   E h as  th f i f t h - lo w est   n u m b er   o f   in s tan ce s th o th er   class es  w i th   les s   in s tan ce s   th an   cla s s   E ar DB T ,   DI S,  NC C ,   an d   T K T I .   R ec alcu lati n g   th f 1 - m ea s u r e,   p r ec is io n ,   an d   r ec all  f o r   th ese  f i v clas s es   y ield s   t h f o llo w i n g   r esu lt s   f o r   ea ch   s ce n ar io T ab le  7 .   B as ed   o n   T ab le  7 ,   s ce n ar io s   4 - 6   w it h   u n d er s a m p li n g   d em o n s tr ate s   t h s a m e,   i f   n o s u p er io r ,   r ec all  f o r   m in o r it y   class   cla s s i f icatio n ,   ev e n   t h o u g h   s ce n ar io   3   s till   p er f o r m s   b est i n   av er ag p r ec i s io n   an d   f - m ea s u r f o r   m i n o r ity   clas s es.       T ab le  7 .   R esu lt o f   ea c h   s ce n ar io s   ( DB T ,   DI S,  E D,   NC C ,   an d   T K T I   o n l y )   S c e n a r i o   A v g .   p r e c i si o n   ( %)   A v g .   r e c a l l   ( %)   A v g .   f - me a su r e   ( %)   S c e n a r i o   0   6 6 . 6 6 7   6 3 . 6 3 6   6 3 . 0 3 0   S c e n a r i o   1   6 6 . 6 6 7   6 3 . 6 3 6   6 3 . 0 3 0   S c e n a r i o   2   6 6 . 6 6 7   6 3 . 6 3 6   6 3 . 0 3 0   S c e n a r i o   3   9 3 . 9 3 9   7 2 . 7 2 7   7 6 . 6 6 7   S c e n a r i o   4   6 1 . 2 1 2   7 2 . 7 2 7   6 0 . 0 0 0   S c e n a r i o   5   5 8 . 1 8 2   8 1 . 8 1 8   6 4 . 2 4 2   S c e n a r i o   6   5 7 . 0 7 1   7 2 . 7 2 7   5 7 . 9 5 4     Evaluation Warning : The document was created with Spire.PDF for Python.
389   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l         Ove r s a mp lin g   vs.  u n d ers a mp lin g   in   TF - I DF   v a r ia tio n s   fo r   imb a la n ce d   …  ( I   N yo ma n   P r a y a n a   Tr is n a )   A cc o u n ti n g   o n l y   m i n o r it y   cla s s es  a s   s h o w n   i n   T ab le  7   in d icate s   t h at  t h u n d er s a m p li n g   m et h o d   ca n   s till   p er f o r m   w ell  i n   m in o r it y   class es  d e s p ite  o v er all  p er f o r m an ce   r e s u l ts   t h at  ar d r o p p in g ,   p ar ticu lar l y   w h e n   w co n s id er   co v er ag o f   tr u p r ed ictio n   as  th p r i m ar y   f ac t o r .   Ho w e v er ,   th tr ad e - o f f   o f   th is   ap p r o ac h   w it h   u n d er s a m p li n g   m et h o d   is   th d ec lin p er f o r m a n ce   o f   m aj o r ity   class e s .   As  s tated   in   T a b le  6 ,   w i th   t h escalatio n   i n   th p er f o r m a n c o f   m in o r it y   cla s s e s   s u c h   a s   class   E D,   th u n d er s a m p li n g   m et h o d   ten d s   to   n eg lec t h m aj o r ity   s u ch   a s   cl ass   I S.  As  i n d icate d   i n   T ab le  3 ,   th is   r e s u l ts   i n   d ec li n i n   t h o v er all   o u tco m e s   f o r   u n d er s a m p li n g   m et h o d .   T h ex p er i m en r es u lt s   i n   T a b le s   3   an d   7   y ie ld   f u r th er   q u e s tio n w h ic h   T F - I DF  m o d i f ic atio n   is   t h e   b est  f o r   eit h er   o v er s a m p li n g   a n d   u n d er s a m p li n g   m et h o d ?   W n o w   s i m p l y   p a y   at ten t io n   to   th o v er s a m p li n g   m et h o d s   o u tp u t,   w h ich   is   s h o w n   i n   T ab le  5 .   Scen ar io s   1 - 3 s   co n f u s io n   m atr ices   ar es s en tia ll y   t h s a m e.   Scen ar io s   1 - 3   a r id en tical   b u t   f o r   th e   clas s   E D.   C lass   E i s   o n l y   ac c u r atel y   clas s i f ied   i n   S ce n ar io   3 ,   an d   th a is   o n l y   in   o n o u o f   th r ee   in s tan ce s .   Fo r   th i s   r ea s o n ,   ev e n   t h o u g h   th er e   is n m u c h   o f   d if f er en ce   b et w ee n   s ce n ar io s   1 - 3 ,   s ce n ar io   3   w ith   B o o lean   T F - I DF  is   th b e s s c en ar io   o u o f   all  th T F - I DF  m o d i f icat io n s   in   th e   o v er s a m p li n g   m et h o d .   I n   s h o r tex d o cu m e n li k titl e,   o n w o r d   t y p icall y   o cc u r s   i n   f e w   o cc u r e n ce ,   s o m et i m es   ev e n   al m o s o n ce .   As  r es u lt,  t h r eg u lar   T F - I DF  ( as  i n   s ce n ar io   1 )   w ill  p r o d u ce   v ec to r   th at  is   al m o s t   ex clu s i v el y   1   an d   0   if   th ter m s   d o   n o o cc u r .   A   v ec to r   t h at  co n tain s   o n l y   1   a n d   0   is   r ef er r ed   to   b b o o lean   v ec to r .   Scen ar io   3   is   ex ec u te d   u s i n g   th e   w o r d s   b o o lean   f ea tu r e;  i f   t h ter m   ex is t s ,   its   o cc u r r en ce   w ill  b co n s id er ed   as  T r u e   ( o r   1 )   an d   v ice  v er s a .   T h is   i s   w h y   th s c en a r i o s   1 - 3   h av e   s im il a r   r esu l as   s t a te d   in   T a b l e   5 ,   w it h   s ce n ar io   3   h a s   s li g h s u p er io r ity .   Desp ite  B o o lean   T F - I DF  v ec to r izatio n   w it h   u n d er s a m p li n g   m et h o d   s h o w s   d o m i n an ce   i n   p er f o r m an ce ,   th b est  u n d er s a m p lin g   m e t h o d   d o esn s h ar th s i m ilar   v ec to r izatio n .   A cc o r d in g   to   T ab le s   3   an d   7 ,   s ce n ar io   5   w h ic h   m ak e s   u s e   o f   lo g - s ca led   T F - I DF,  p r o d u ce s   th b est  r esu lts   w h e n   u s in g   t h u n d er s a m p li n g   m eth o d .   I n   u n d er s a m p li n g   m et h o d ,   th b ag - of - w o r d   d i m en s io n   i s   m u ch   le s s   t h a n   in   t h n o n - s a m p l in g   m et h o d .   I n   co m p ar is o n   to   s t an d ar d   b ag - of - w o r d s   f r o m   n o n - s a m p li n g   ap p r o ac h ,   th s m aller   b ag - of - w o r d s   f r o m   u n d er s a m p li n g   m eth o d   r etu r n s   e v en   m o r s p ar s v ec t o r .   L o g - s ca led   T F - I DF  ca n   b u s ed   to   s o lv t h s p ar s v ec to r   p r o b lem .   T h is   is   d u e   to   th f ac th at  lo g - s ca led   T F - I DF  al w a y s   y ie ld s   n o n - ze r o   T b ased   o n   ( 2 ) T h o cc u r in g   ter m s   w ill  b v alu ed   g r ea ter   th a n   1   d ep en d i n g   o n   t h lo g   v alu o f   th f r eq u en c y ,   w h ile  t h e   n o n - o cc u r r in g   ter m s   w il b v alu ed   at  1   ( n o 0 ) .   T h ab s en c o f   0   i n   t h v e cto r   r es u lts   t h e   less   s p ar s v ec to r .   C o m p ar ed   to   s tan d ar d   T F - I DF  o r   b o o lean   T F - I DF,  w h e r n o n - o cc u r r in g   ter m s   ar v alu ed   at  0 ,   th is   i s   s ig n i f ica n tl y   d if f er en b ec au s th e y   w o u ld   cr ea te  t h m o r s p ar s v ec to r .   A p p ar en tl y ,   b y   m a k i n g   l i m ited   r eso u r ce s   ev e n   le s s   w it h   u n d er s a m p li n g   m et h o d ,   th les s   s p a r s ed   v ec to r   is   n ee d ed .   Fro m   th p r io r   d is cu s s io n ,   th e   ex p er i m en also   f in d   th at  cla s s   E is   th m o s m is c lass if ie d   class   in   m o s s ce n ar io s ,   w h er cla s s   E is   p r i m ar i l y   m i s clas s i f ied   as   class   I S.  Me an w h ile  in   u n d er s a m p li n g   ap p r o ac h   m o s clas s es  ar m i s clas s i f ie d   as  I S.  T h is   ca n   b s h o w n   f r o m   s ce n ar io   0   as  in   T ab le  4 ,   s ce n ar io s   w ith   a n   o v er s a m p li n g   m et h o d   as in   T ab le  5 ,   an d   s ce n ar io s   w i th   u n d e r s a m p li n g   a s   in   T ab le  6 .   T h last   ass i g n m e n to p ic,   d i g ital  ec o n o m y   ( E D)   in   T ab le  1   h as  n u m er o u s   in ter s ec tio n s   w it h   o t h er   to p ics  p ar ticu lar l y   in f o r m a tio n   s y s te m   ( I S).   T h is   is   d u to   t h f ac t h at  titl es   p er tain i n g   to   t h d ig ital  ec o n o m y   t y p icall y   u s th w o r d s   bangun ”  ( b u ild in g ) ,   imp leme n ta s i ”  ( i m p le m e n ti n g ) ,   o r   r a n ca n g "   ( d esig n i n g ) ,   e v en   s is tem  in fo r ma s i ”  ( i n f o r m ati o n   s y s te m ) ,   w h ich   ar ter m s   t h at  ca n   b u s ed   to   r ef er   to   in f o r m atio n   s y s te m s .   As  s h o w n   i n   T ab le  8   ( in   A p p en d i x ) ,   w ca n   o b s er v t h at  s e v er al  p h r ases   f r o m   clas s   E ar also   w id el y   u s ed   in   class   I S b y   s e lectin g   f i v e x a m p les  f r o m   t h en tire   d ataset  f o r   ea ch   E an d   I S.       5.   CO NCLU SI O N   TF - I DF,  h o w e v er   r eg ar d ed   a s   tr ad itio n al  ap p r o ac h   in   c o m p ar is o n   to   co n te m p o r ar y   a lg o r ith m s ,   co n tin u es  to   y ield   ex ce lle n r e s u lt s   i n   v ar iet y   o f   te x m in i n g   ta s k s .   I n   t h is   s tu d y ,   th u s o f   s ev er al  T F - I DF   m o d i f icat io n   f o r   s h o r tex ca teg o r is atio n   is   ev al u ated .   An o t h er   p r o b lem   is   i m b alan ce d   d atasets   ar c o m m o n   is s u i n   tex m in i n g   j o b s .   I n   o r d er   to   ad d r ess   th i m b alan ce d   p r o b lem ,   w co m b i n eit h er   o v er s a m p li n g   an d   u n d er s a m p li n g   m et h o d s   w it h   s tan d ar d ,   lo g - s ca led ,   an d   b o o lean   T F - I DF  in   s h o r tex class i f icatio n .   E ac h   ex p er i m e n t is a s s es s ed   u s in g   m ea s u r e m e n t s   o f   p r ec is io n ,   r e ca ll,  an d   f - m ea s u r e.   A cc o r d in g   to   th r esu lts ,   w f in d   th at  th u n d er s a m p li n g   m eth o d   p er f o r m s   b ad l y   w h e n   co m p ar ed   to   t h s ta n d ar d   ap p r o ac h ,   w h er ea s   th o v er s a m p l in g   m et h o d   p er f o r m s   s i g n i f ica n tl y   b etter   th an   t h s ta n d ar d   ap p r o ac h   in   s e v er al  T F - I DF   m o d if ica tio n .   O n   t h o t h er   h an d ,   t h u n d er s a m p li n g   tec h n iq u co v er s   tr u e   p r ed ictio n   b etter   th an   th s ta n d ar d   an d   o v er s am p li n g   m e th o d   if   o n l y   m i n o r it y   cla s s e s   ar m ea s u r ed ,   lead in g   to   b etter   r ec all  m ea s u r e m e n t.  Ou r   e x p er i m e n al s o   f in d   t h at   b o o lean   T F - I DF  is   s li g h tl y   b e tter   u til ized   th a n   th s tan d ar d   T F - I DF  if   co m b i n ed   w it h   o v er s a m p li n g   m et h o d .   Desp ite  o f   p o o r   p er f o r m an ce   f o r   u n d er s a m p li n g   m et h o d ,   o u r   ex p er i m e n t   s h o w s   t h at  lo g - s ca led   T F - I DF  i s   b etter   s u ited ,   b ec au s its   ab il it y   to   h an d le  s p ar s v ec to r .   W ith   t h ese  f i n d in g s ,   we  b eliev t h at  u tili zi n g   o v er s am p lin g   ap p r o ac h   co m b i n ed   w i th   b o o lean   T F - I DF   v ec to r izatio n   is   b es s u ited   f o r   i m b alan ce d   s h o r tex clas s i f icatio n ,   esp ec iall y   in   I n d o n esi an   lan g u ag w h ic h   Evaluation Warning : The document was created with Spire.PDF for Python.
390                           I SS N:  1 6 9 3 - 6930   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l ,   Vo l.  2 3 ,   No .   2 ,   A p r il 2 0 2 5 : 3 8 2 - 392   h as  l i m ited   r eso u r ce s .   A d d it io n al  r esear ch   o n   T F - I D m o d i f icat io n   ca n   b co n d u c ted   in   t h f u tu r e,   p ar ticu lar l y   w h en   co m p ar ed   to   th m o s ad v an ce d   w o r d 2 v ec   an d   lar g e - lan g u ag m o d ell in g   ( L L M)   tech n iq u es.  I is   also   f ea s ib l to   ex p lo r in   f u tu r r esear ch   u s i n g   th h y b r id   tech n iq u b y   ad j u s tin g   th o v er s a m p li n g   an d   u n d er s a m p l in g .       AP P E NDI X     T ab le  8 .   Sam p le  titl e s   f o r   clas s   E an d   I S       ACK NO WL E D G E M E NT S   T h au th o r s   w o u ld   lik to   ex p r ess   th eir   s in ce r g r atit u d to   Ud ay an U n i v er s it y   f o r   th e   g en er o u s   f i n an cia s u p p o r p r o v id ed   t h r o u g h   t h S tu d y   P r o g r a m   P r ef er r ed   R esear ch   Gr an w i th   co n tr ac n u m b er   B /2 5 5 . 3 0 /UN1 4 . 4 . A /P T . 0 1 . 0 3 /2 0 2 4 .   T h is   r esear ch   w o u ld   n o t h av b ee n   p o s s ib le  w ith o u t t h eir   co m m it m e n t.       RE F E R E NC E S   [ 1 ]   K .   K o w sari ,   K .   J.  M e i ma n d i ,   M .   H e i d a r y safa,   S .   M e n d u ,   L .   B a r n e s,  a n d   D .   B r o w n ,   T e x t   c l a ssi f i c a t i o n   a l g o r i t h ms:   A   su r v e y ,   I n f o rm a t i o n ,   v o l .   1 0 ,   n o .   4 ,   p p .   1 6 8 ,   A p r .   2 0 1 9 ,   d o i :   1 0 . 3 3 9 0 / i n f o 1 0 0 4 0 1 5 0 .   [ 2 ]   T .   M i k o l o v ,   K .   C h e n ,   G .   C o r r a d o ,   a n d   J .   D e a n ,   D i st r i b u t e d   R e p r e se n t a t i o n o f   W o r d a n d   P h r a se a n d   t h e i r   C o mp o si t i o n a l i t y ,   Ad v a n c e s i n   N e u r a l   I n f o rm a t i o n   Pro c e ssi n g   S y st e m s ,   v o l .   2 6 ,   p p .   3 1 1 1 3 1 1 9 ,   2 0 1 3 .   [ 3 ]   A .   Jo u l i n ,   E .   G r a v e ,   P .   B o j a n o w sk i ,   a n d   T .   M i k o l o v ,   B a g   o f   t r i c k f o r   e f f i c i e n t   t e x t   c l a ssi f i c a t i o n ,   a rX i v   p r e p r i n t a r X i v : 1 6 0 7 . 0 1 7 5 9 ,   2 0 1 6 .   [ 4 ]   J.  D e v l i n ,   M . - W .   C h a n g ,   K .   L e e ,   a n d   K .   T o u t a n o v a ,   B E R T :   P r e - t r a i n i n g   o f   d e e p   b i d i r e c t i o n a l   t r a n sf o r me r f o r   l a n g u a g e   u n d e r st a n d i n g ,   a rX i v   p r e p r i n t ,   a r X i v : 1 8 1 0 . 0 4 8 0 5 ,   2 0 1 8 .   [ 5 ]   M .   M a r c i n c z u k ,   M .   G n i e w k o w sk i ,   T .   W a l k o w i a k ,   a n d   M .   B e d k o w sk i ,   T e x t   d o c u me n t   c l u st e r i n g :   W o r d n e t   v s.  TF - I D F   v s.  w o r d   e mb e d d i n g s,   Pr o c e e d i n g o f   t h e   1 1 t h   G l o b a l   W o rd n e t   C o n f e re n c e ,   p p .   2 0 7 2 1 4 ,   2 0 2 1 .   [ 6 ]   O .   A r a n d j e l o v i ć ,   T a r g e t e d   A d a p t a b l e   S a mp l e   f o r   A c c u r a t e   a n d   Ef f i c i e n t   Q u a n t i l e   Est i mat i o n   i n   N o n - S t a t i o n a r y   D a t a   S t r e a ms,”   Ma c h i n e   L e a r n i n g   a n d   K n o w l e d g e   Ex t ra c t i o n ,   v o l .   1 ,   n o .   3 ,   p p .   8 4 8 8 7 0 ,   J u l .   2 0 1 9 ,   d o i :   1 0 . 3 3 9 0 / ma k e 1 0 3 0 0 4 9 .   [ 7 ]   G .   X i a o n i n g ,   T .   D e   Z h e r n ,   S .   W .   K i n g ,   T .   Y .   F e i ,   a n d   L .   H .   S h u a n ,   N e w r e l i a b i l i t y   e v a l u a t i o n   u s i n g   L a t e n t   S e man t i c   A n a l y si s ,”  T e l k o m n i k a   ( T e l e c o m m u n i c a t i o n   C o m p u t i n g   E l e c t r o n i c s   a n d   C o n t r o l ) ,   v o l .   1 6 ,   n o .   4 ,   p p .   1 7 0 4 1 7 1 1 ,   2 0 1 8 ,   d o i :   1 0 . 1 2 9 2 8 / T EL K O M N I K A . v 1 6 i 4 . 9 0 6 2 .   [ 8 ]   I .   N .   P .   T r i sn a   a n d   A .   N u r w i d y a n t o r o ,   S i n g l e   d o c u me n t   k e y w o r d e x t r a c t i o n   i n   B a h a sa  I n d o n e si a   u si n g   p h r a se   c h u n k i n g ,   T e l k o m n i k a   ( T e l e c o m m u n i c a t i o n   C o m p u t i n g   E l e c t r o n i c s   a n d   C o n t r o l ) ,   v o l .   1 8 ,   n o .   4 ,   p p .   1 9 1 7 1 9 2 5 ,   2 0 2 0 ,   d o i :   1 0 . 1 2 9 2 8 / T EL K O M N I K A . V 1 8 I 4 . 1 4 3 8 9 .   [ 9 ]   C .   D e   B o o m,   S .   V a n   C a n n e y t ,   T .   D e me e st e r ,   a n d   B .   D h o e d t ,   R e p r e se n t a t i o n   l e a r n i n g   f o r   v e r y   sh o r t   t e x t s   u s i n g   w e i g h t e d   w o r d   e mb e d d i n g   a g g r e g a t i o n ,   Pa t t e rn   Re c o g n i t i o n   L e t t e rs ,   v o l .   8 0 ,   p p .   1 5 0 1 5 6 ,   2 0 1 6 ,   d o i :   1 0 . 1 0 1 6 / j . p a t r e c . 2 0 1 6 . 0 6 . 0 1 2 .   [ 1 0 ]   H .   S .   A l - A sh ,   M .   F .   P u t r i ,   P .   M u r san t o ,   a n d   A .   B u st a mam ,   E n se mb l e   L e a r n i n g   A p p r o a c h   o n   I n d o n e si a n   F a k e   N e w s   C l a ssi f i c a t i o n ,   i n   2 0 1 9   3 r d   I n t e rn a t i o n a l   C o n f e r e n c e   o n   I n f o rm a t i c a n d   C o m p u t a t i o n a l   S c i e n c e ( I C I C o S ) ,   2 0 1 9 ,   p p .   1 6 ,   d o i :   S a mp l e   t i t l e s l a b e l l e d   a s E D   S a mp l e   t i t l e s l a b e l l e d   a s I S   An a l i si b i sn i p ro s e d a n   i m p l e m e n t a si   e n t e r p r i se  r e so u r c e   p l a n n i n g   ( E RP)  p a d a   B a t i k   S r i k a n d i   Ba n y u w a n g i   ( En g l i sh :   B u s i n e ss  P r o c e ss  A n a l y si a n d   I mp l e m e n t a t i o n   o f   ER P   i n   B a t i k   S r i k a n d i   B a n y u w a n g i )     Pe ra n c a n g a n   s i st e m   i n f o rm a si   p e n g e m b a n g a n   k a ri u n t u k   m a h a si s w a   t e k n o l o g i   i n f o rm a s i   b e r b a si s w e b si t e   ( En g l i sh :   W e b - b a se d   I n f o r mat i o n   S y st e o f   C a r e e r   D e v e l o p me n t   f o r   S t u d e n t   o f   I n f o r mat i o n   T e c h n o l o g y   D e p a r t me n t )   Ra n c a n g   b a n g u n   c u s t o m e rel a t i o n s h i p   m a n a j e m e n t   p a d a   si st e m   i n f o rm a s i   p e n j u a l a n   j a s a   w a h a n a   w a t e rs p o rt   b e r b a si s   w e b si t e   ( En g l i sh :   D e si g n i n g   a n d   I mp l e men t a t i o n   o f   W e b - b a se d   C R M   o n   W a h a n a   W a t e r sp o r t   S e r v i c e )     Ra n c a n g   b a n g u n   a p l i k a si   p e n g e n a l a n   b i o t a   l a u t   m e l a l u i   b u k u   b e r g a m b a d e n g a n   a u g m e n t e d   re a l i t y   ( En g l i sh :   D e si g n i n g   a n d   I mp l e men t a t i o n   o f   M a r i n e   B i o t a   I d e n t i f i c a t i o n   t h r o u g h   A u g me n t e d   R e a l i t y - b a se d   D r a w i n g   B o o k )   Ra n c a n g   k n o w l e d g e   b a se  s y st e m   d a n   C RM   p a d a   t o k o   b a t i k   n y o m a n   b e r b a si s   w e b s i t e   ( En g l i sh :   D e si g n i n g   W e b - b a se d   K n o w l e d g e   B a se   S y st e m   a n d   C R M   o f   N y o man   B a t i k   S h o p )     An a l i si s i st e m   m e n g g u n a k a n   m e t o d e   syst e m   u s a b i l i t y   s c a l e   ( s u s)   d a n   c o n c u rr e n t   t h i n k   a l o u d   ( c t a )   t e r h a d a p   k e p u a s a n   p e n g g u n a   ( En g l i sh :   S y st e A n a l y si o n   C u s t o me r   S a t i sf a c t i o n s   U si n g   S y st e m U sab i l i t y   S c a l e   a n d   C o n c u r r e n t   T h i n k   A l o u d )   Pe n e ra p a n   e l e c t r o n i c - c u s t o m e re l a t i o n s h i p   m a n a g e m e n t   (E - C RM )   b e r b a si s   w e b s i t e   p a d a   PT  P a n c a   N i a g a   B a l i   ( En g l i sh :   I mp l e m e n t a t i o n   o f   W e b - b a se d   El e c t r o n i c   C R M   i n   P a n c a   N i a g a   B a l i   L t d . )   Pe n e ra p a n   b u si n e ss  i n t e l l i g e n c e   u n t u k   m e n e n t u k a n   st ra t e g i   m a rke t i n g   p a d a   k r i sn a   o l e h     o l e h   b a l i   m e n g g u n a k a n   m i c r o so f t   p o w e r   BI   ( En g l i sh :   I mp l e me n t a t i o n   o f   B u s i n e ss   I n t e l l i g e n c e   f o r   M a r k e t i n g   S t r a t e g y   o n   K r i sn a   O l e h - O l e h   B a l i   U si n g   M i c r o so f t   P o w e r   B I )     I m p l e m e n t a s i   e n t e rp r i se   r e so u rc e   p l a n n i n g   ( ER P)   p a d a   C V .   C i p t a   A n u g e r a h   Ba k t i   Ma n d i r i   ( W e b - b a se d   E R P   I mp l e me n t a t i o n   o n   C V .   C i p t a   A n u g e r a h   B a k t i   M a n d i r i )   Ra n c a n g   b a n g u n   s i st e m   i n f o rm a si   m a n a j e m e n   d a n   p e n g a w a s a n   p ro y e k   k o n t r u k si   k o l a m   r e n a n g   b e r b a s i s   w e b s i t e   p a d a   m i m b a   p o o l   ( En g l i sh :   D e si g n i n g   a n d   I mp l e m e n t a t i o n   o f   I n f o r mat i o n   S y st e f o r   W e b - b a se d   M a n a g e me n t   a n d   M o n i t o r i n g   P o o l   C o n st r u c t i o n   i n   M i mb a   P o o l   C o mp a n y )   Evaluation Warning : The document was created with Spire.PDF for Python.
391   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l         Ove r s a mp lin g   vs.  u n d ers a mp lin g   in   TF - I DF   v a r ia tio n s   fo r   imb a la n ce d   …  ( I   N yo ma n   P r a y a n a   Tr is n a )   1 0 . 1 1 0 9 / I C I C o S 4 8 1 1 9 . 2 0 1 9 . 8 9 8 2 4 0 9 .   [ 1 1 ]   H .   H e   a n d   E.   A .   G a r c i a ,   L e a r n i n g   f r o i mb a l a n c e d   d a t a ,   I EEE   T ra n s a c t i o n o n   K n o w l e d g e   a n d   D a t a   E n g i n e e ri n g ,   v o l .   2 1 ,   n o .   9 ,   p p .   1 2 6 3 1 2 8 4 ,   S e p .   2 0 0 9 ,   d o i :   1 0 . 1 1 0 9 / T K D E. 2 0 0 8 . 2 3 9 .   [ 1 2 ]   J.  T a n h a ,   Y .   A b d i ,   N .   S a m a d i ,   N .   R a z z a g h i ,   a n d   M .   A sad p o u r ,   B o o s t i n g   me t h o d s   f o r   mu l t i - c l a ss   i m b a l a n c e d   d a t a   c l a ss i f i c a t i o n :   a n   e x p e r i me n t a l   r e v i e w ,   J o u r n a l   o f   B i g   D a t a ,   v o l .   7 ,   n o .   1 ,   p p .   1 4 7 ,   2 0 2 0 ,   d o i :   1 0 . 1 1 8 6 / s 4 0 5 3 7 - 020 - 0 0 3 4 9 - y.   [ 1 3 ]   G .   L e ma,   F .   N o g u e i r a ,   a n d   C .   K .   A r i d a s,   I mb a l a n c e d - l e a r n :   A   P y t h o n   T o o l b o x   t o   T a c k l e   t h e   C u r se   o f   I mb a l a n c e d   D a t a se t s   i n   M a c h i n e   L e a r n i n g ,   J o u r n a l   o f   M a c h i n e   L e a r n i n g   Re se a r c h ,   v o l .   1 8 ,   n o .   1 7 ,   p p .   1 5 ,   2 0 1 7 .   [ 1 4 ]   A .   A l h u d h a i f ,   A   N o v e l   M u l t i - c l a s I mb a l a n c e d   E EG   S i g n a l C l a ssi f i c a t i o n   B a se d   o n   t h e   A d a p t i v e   S y n t h e t i c   S a m p l i n g   ( A D A S Y N )   a p p r o a c h ,   P e e rJ   C o m p u t e S c i e n c e ,   v o l .   7 ,   p p .   1 1 5 ,   2 0 2 1 ,   d o i :   1 0 . 7 7 1 7 / P E ER J - C S . 5 2 3 .   [ 1 5 ]   A .   I sh a q   e t   a l . ,   I mp r o v i n g   t h e   P r e d i c t i o n   o f   H e a r t   F a i l u r e   P a t i e n t s   S u r v i v a l   U si n g   S M O T a n d   Ef f e c t i v e   D a t a   M i n i n g   T e c h n i q u e s,”   I EEE   Ac c e ss ,   v o l .   9 ,   p p .   3 9 7 0 7 3 9 7 1 6 ,   2 0 2 1 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 1 . 3 0 6 4 0 8 4 .   [ 1 6 ]   R .   Z u e c h ,   J.  H a n c o c k ,   a n d   T .   M .   K h o sh g o f t a a r ,   D e t e c t i n g   w e b   a t t a c k u si n g   r a n d o u n d e r samp l i n g   a n d   e n se mb l e   l e a r n e r s,”   J o u rn a l   o f   Bi g   D a t a ,   v o l .   8 ,   n o .   1 ,   p p .   1 2 0 ,   2 0 2 1 ,   d o i :   1 0 . 1 1 8 6 / s 4 0 5 3 7 - 0 2 1 - 0 0 4 6 0 - 8.   [ 1 7 ]   P .   V u t t i p i t t a y a mo n g k o l   a n d   E.   El y a n ,   N e i g h b o u r h o o d - b a se d   u n d e r sam p l i n g   a p p r o a c h   f o r   h a n d l i n g   i mb a l a n c e d   a n d   o v e r l a p p e d   d a t a ,   I n f o rm a t i o n   S c i e n c e s ,   v o l .   5 0 9 ,   p p .   4 7 7 0 ,   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . i n s. 2 0 1 9 . 0 8 . 0 6 2 .   [ 1 8 ]   A .   A .   N u g r a h a ,   A .   A r i f i a n t o ,   a n d   S u y a n t o ,   G e n e r a t i n g   i mag e   d e scri p t i o n   o n   I n d o n e si a n   l a n g u a g e   u si n g   c o n v o l u t i o n a l   n e u r a l   n e t w o r k   a n d   g a t e d   r e c u r r e n t   u n i t ,   i n   2 0 1 9   7 t h   I n t e r n a t i o n a l   C o n f e re n c e   o n   I n f o rm a t i o n   a n d   C o m m u n i c a t i o n   T e c h n o l o g y ,   I C o I C T   2 0 1 9 ,   2 0 1 9 ,   p p .   1 6 ,   d o i :   1 0 . 1 1 0 9 / I C o I C T . 2 0 1 9 . 8 8 3 5 3 7 0 .   [ 1 9 ]   D .   M u n a n d a r ,   A .   F .   R o z i e ,   a n d   A .   A r i sal ,   A   mu l t i   d o mai n s h o r t   me ssag e   se n t i me n t   c l a ss i f i c a t i o n   u si n g   h y b r i d   n e u r a l   n e t w o r k   a r c h i t e c t u r e ,   B u l l e t i n   o f   El e c t ri c a l   E n g i n e e ri n g   a n d   I n f o rm a t i c s ,   v o l .   1 0 ,   n o .   4 ,   p p .   2 1 8 1 2 1 9 1 ,   2 0 2 1 ,   d o i :   1 0 . 1 1 5 9 1 / E EI . V 1 0 I 4 . 2 7 9 0 .   [ 2 0 ]   Z .   Z h u ,   J .   L i a n g ,   D .   L i ,   H .   Y u ,   a n d   G .   L i u ,   H o t   T o p i c   D e t e c t i o n   B a se d   o n   a   R e f i n e d   T F - I D F   A l g o r i t h m,   I E EE  A c c e ss ,   v o l .   7 ,   p p .   2 6 9 9 6 2 7 0 0 7 ,   2 0 1 9 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 1 9 . 2 8 9 3 9 8 0 .   [ 2 1 ]   K .   B o k ,   Y .   N o h ,   J .   L i m,  a n d   J.  Y o o ,   H o t   t o p i c   p r e d i c t i o n   c o n si d e r i n g   i n f l u e n c e   a n d   e x p e r t i se   i n   so c i a l   m e d i a ,   E l e c t r o n i c   C o m m e r c e   Re s e a r c h ,   v o l .   2 1 ,   n o .   3 ,   p p .   6 7 1 6 8 7 ,   2 0 2 1 ,   d o i :   1 0 . 1 0 0 7 / s 1 0 6 6 0 - 0 1 8 - 0 9 3 2 7 - 2.   [ 2 2 ]   J.  P i sk o r sk i   a n d   G .   Ja c q u e t ,   TF - I D F   C h a r a c t e r   N - g r a ms  v e r su s   W o r d   Emb e d d i n g - b a se d   M o d e l f o r   F i n e - g r a i n e d   Ev e n t   C l a ssi f i c a t i o n :   A   P r e l i mi n a r y   S t u d y ,   i n   Pr o c e e d i n g o f   t h e   W o rks h o p   o n   Au t o m a t e d   E x t r a c t i o n   o f   S o c i o - p o l i t i c a l   E v e n t f ro m   N e w 2 0 2 0 ,   2 0 2 0 ,   p p .   2 6 3 4 .   [ 2 3 ]   R .   J .   O sk o u e i   a n d   B .   S .   B i g h a m ,   O v e r - samp l i n g   v i a   u n d e r - samp l i n g   i n   st r o n g l y   i mb a l a n c e d   d a t a ,   I n t e r n a t i o n a l   J o u r n a l   o f   Ad v a n c e d   I n t e l l i g e n c e   P a r a d i g m s ,   v o l .   9 ,   n o .   1 ,   p p .   5 8 6 6 ,   2 0 1 7 ,   d o i :   1 0 . 1 5 0 4 / i j a i p . 2 0 1 7 . 1 0 0 0 2 0 2 6 .   [ 2 4 ]   A .   Tr i a y u d i   a n d   I .   F i t r i ,   C o mp a r i so n   O f   T h e   F e a t u r e   S e l e c t i o n   A l g o r i t h I n   Ed u c a t i o n a l   D a t a   M i n i n g ,   T e l k o m n i k a   ( T e l e c o m m u n i c a t i o n   C o m p u t i n g   El e c t r o n i c s   a n d   C o n t r o l ) ,   v o l .   1 9 ,   n o .   6 ,   p p .   1 8 6 5 1 8 7 1 ,   2 0 2 1 ,   d o i :   1 0 . 1 2 9 2 8 / T EL K O M N I K A . v 1 9 i 6 . 2 1 5 9 4 .   [ 2 5 ]   R .   M o h a mm e d ,   J .   R a w a sh d e h ,   a n d   M .   A b d u l l a h ,   M a c h i n e   L e a r n i n g   w i t h   O v e r samp l i n g   a n d   U n d e r sam p l i n g   T e c h n i q u e s:   O v e r v i e w   S t u d y   a n d   Ex p e r i me n t a l   R e su l t s,”   i n   2 0 2 0   1 1 t h   I n t e rn a t i o n a l   C o n f e r e n c e   o n   I n f o rm a t i o n   a n d   C o m m u n i c a t i o n   S y s t e m s,   I C I C S   2 0 2 0 ,   2 0 2 0 ,   p p .   2 4 3 2 4 8 ,   d o i :   1 0 . 1 1 0 9 / I C I C S 4 9 4 6 9 . 2 0 2 0 . 2 3 9 5 5 6 .   [ 2 6 ]   G .   B e r n a r d ,   C .   S u i r e ,   C .   F a u c h e r ,   A .   D o u c e t ,   a n d   P .   R o sso ,   T r a c k i n g   N e w S t o r i e i n   S h o r t   M e ssag e i n   t h e   Er a   o f   I n f o d e mi c ,   L e c t u re  N o t e i n   C o m p u t e S c i e n c e   ( i n c l u d i n g   su b ser i e L e c t u r e   N o t e i n   Ar t i f i c i a l   I n t e l l i g e n c e   a n d   L e c t u re  N o t e i n   Bi o i n f o rm a t i c s) ,   p p .   1 8 3 2 ,   2 0 2 2 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 3 - 0 3 1 - 1 3 6 4 3 - 6 _ 2 .   [ 2 7 ]   S .   M i r a n d a ,   A .   Z n o t i n š ,   S .   B .   C o h e n ,   a n d   G .   B a r z d i n s,  M u l t i l i n g u a l   c l u s t e r i n g   o f   st r e a mi n g   n e w s,”   a rX i v   p re p ri n t a r X i v : 1 8 0 9 . 0 0 5 4 0 ,   2 0 1 8 .   [ 2 8 ]   V .   M a r i v a t e   a n d   T .   S e f a r a ,   " I mp r o v i n g   S h o r t   T e x t   C l a ss i f i c a t i o n   T h r o u g h   G l o b a l   A u g me n t a t i o n   M e t h o d s ,"   I n   C D - MA K 2 0 2 0 :   Ma c h i n e   L e a r n i n g   a n d   K n o w l e d g e   Ex t ra c t i o n ,   p p .   3 8 5 - 3 9 9 ,   2 0 2 0 ,   d o i :   1 0 . 4 8 5 5 0 / a r X i v . 1 9 0 7 . 0 3 7 5 2 .   [2 9 ]   R .   S e t i a b u d i ,   N .   M .   S .   I s w a r i ,   a n d   A .   R u sl i ,   En h a n c i n g   t e x t   c l a ss i f i c a t i o n   p e r f o r man c e   b y   p r e p r o c e ssi n g   m i ssp e l l e d   w o r d i n   I n d o n e si a n   l a n g u a g e ,   T e l k o m n i k a   ( T e l e c o m m u n i c a t i o n   C o m p u t i n g   El e c t ro n i c s   a n d   C o n t r o l ) ,   v o l .   1 9 ,   n o .   4 ,   p p .   1 2 3 4 1 2 4 1 ,   2 0 2 1 ,   d o i :   1 0 . 1 2 9 2 8 / T EL K O M N I K A . v 1 9 i 4 . 2 0 3 6 9 .   [ 30 ]   H .   A .   S a n t o so ,   E.   H .   R a c h maw a n t o ,   A .   N u g r a h a ,   A .   A .   N u g r o h o ,   D .   R .   I .   M .   S e t i a d i ,   a n d   R .   S .   B a s u k i ,   H o a x   c l a ssi f i c a t i o n   a n d   se n t i me n t   a n a l y si o f   I n d o n e si a n   n e w u si n g   N a i v e   B a y e o p t i mi z a t i o n ,   T e l k o m n i k a   ( T e l e c o m m u n i c a t i o n   C o m p u t i n g   E l e c t r o n i c s   a n d   C o n t ro l ) ,   v o l .   1 8 ,   n o .   2 ,   p p .   7 9 9 8 0 6 ,   2 0 2 0 ,   d o i :   1 0 . 1 2 9 2 8 / T EL K O M N I K A . V 1 8 I 2 . 1 4 7 4 4 .   [3 1 ]   R .   A .   R a ma d a n i ,   I .   K .   G .   D .   P u t r a ,   M .   S u d a r ma ,   a n d   I .   A .   D .   G i r i a n t a r i ,   A   n e w   t e c h n o l o g y   o n   t r a n sl a t i n g   I n d o n e si a n   s p o k e n   l a n g u a g e   i n t o   I n d o n e si a n   si g n   l a n g u a g e   s y st e m,”   I n t e r n a t i o n a l   J o u r n a l   o f   El e c t r i c a l   a n d   C o m p u t e En g i n e e ri n g ,   v o l .   1 1 ,   n o .   4 ,   p p .   3 3 3 8 3 3 4 6 ,   2 0 2 1 ,   d o i :   1 0 . 1 1 5 9 1 / i j e c e . v 1 1 i 4 . p p 3 3 3 8 - 3 3 4 6 .   [3 2 ]   C .   D .   M a n n i n g ,   I n t ro d u c t i o n   t o   I n f o r m a t i o n   R e t r i e v a l .   C a mb r i d g e   U n i v e r si t y   P r e ss,  2 0 0 8 .   d o i :   1 0 . 1 0 1 7 / c b o 9 7 8 0 5 1 1 8 0 9 0 7 1 .   [3 3 ]   T .   W o n g v o r a c h a n ,   S .   H e ,   a n d   O .   B u l u t ,   A   C o mp a r i so n   o f   U n d e r samp l i n g ,   O v e r samp l i n g ,   a n d   S M O T M e t h o d f o r   D e a l i n g   w i t h   I mb a l a n c e d   C l a ssi f i c a t i o n   i n   Ed u c a t i o n a l   D a t a   M i n i n g ,   I n f o rm a t i o n ,   v o l .   1 4 ,   n o .   1 ,   p p .   1 1 5 ,   2 0 2 3 ,   d o i :   1 0 . 3 3 9 0 / i n f o 1 4 0 1 0 0 5 4 .   [3 4 ]   R .   S o l e y man i ,   E.   G r a n g e r ,   a n d   G .   F u me r a ,   F - me a su r e   c u r v e s:   A   t o o l   t o   v i s u a l i z e   c l a ssi f i e r   p e r f o r man c e   u n d e r   i mb a l a n c e ,   Pa t t e r n   Re c o g n i t i o n ,   v o l .   1 0 0 ,   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . p a t c o g . 2 0 1 9 . 1 0 7 1 4 6 .       B I O G RAP H I E S O F   AUTH O RS       Ny o m a n   Pra y a n a   Tr is n a           re c e iv e d   th e   B a c h e lo r a n d   M a ste r d e g r e e   in   Co m p u ter  S c ien c e   a n d   El e c tro n ics   f ro m   th e   Un iv e rsitas   Ga d jah   M a d a ,   Yo g y a k a rta,  In d o n e sia ,   in   2 0 1 7   a n d   2 0 2 0   re sp e c ti v e ly .   He   is  c u rre n tl y   a n   A ss istan P ro f e ss o in   th e   In f o rm a ti o n   T e c h n o lo g y   S tu d y   P ro g ra m ,   F a c u lt y   o f   En g in e e rin g ,   Ud a y a n a   Un i v e rs it y ,   Ba li ,   In d o n e sia .   H i s   c u r r e n t   r e se a rc h   i n t e r e s ts   i n c l u d e   m a c h i n e   l e a r n i n g ,   e v o l u t i o n a ry   c o m p u t a t i o n ,   n a t u r a l   l a n g u a g e   m o d e l l i n g ,   a n d   t e x t   m i n i n g .   H e   c a n   b e   c o n t a c t e d   a t   e m a i l :   p r a y a n a . t ri s n a @ u n u d . a c . i d .   Evaluation Warning : The document was created with Spire.PDF for Python.