I n d on e s ian   Jou r n al   o f   E lec t r ica l   E n gin e e r in a n d   Com p u t e r   S c ience   Vo l .   3 8 ,   N o .   3 J un e   20 2 5 ,   pp.   1 722 ~ 1 734   I S S N:  2 502 - 4 7 52 ,   DO I 10 . 11591/i j e e cs .v 3 8 . i 3 . pp 1 722 - 1 734             1722     Jou r n al  h o m e page ht tp: // ij e e cs . iaes c or e . c om   P la gi ar is m  d e t e c t io n  u si n g t e xt - r e p r e s e n t in g c e n t r oi d t e c h n iq u e s       S u r e e p o r n   Nual n i m 1 ,   M al e e r at   M al iyaem 1 ,   Her wig  Unger 2   1 D e pa r tm e nt   of   S c ie n c e  a nd  T e c hn o l o g y K in g M o ngkut U ni ve r s it y   of   T e c hn o l o g y  N o r th  B a ngk o k B a ngko k,  T ha il a nd   2 D e pa r tm e nt   of  C o m muni c a ti o n N e tw o r ks , U ni ve r s it y   of   H a ge n , H a ge n,  G e r ma n y       Ar t ic l e   I n f o     AB S T RA CT   A r ti c le  h is tor y :   R e c e i ve J u l   3 ,   202 4   R e vi s e No v   19 ,   202 4   A c c e pt e N o v   24 ,   202 4       T h i s   s t u d y   a d d r e s s e s   t h e   l i mi t at i o n s   o t rad i t i o n a l   p l ag i ari s m   d e t ec t i o n   me t h o d s   b y   i n t ro d u ci n g   t h e   t e x t - re p re s en t i n g   ce n t ro i d   (T RC)  t e ch n i q u e .   T RC  i s   d e s i g n e d   t o   i m p ro v e   t h e   a ccu ra cy   o d e t ec t i n g   s e m a n t i c   s i m i l ari t i e s   an d   s o p h i s t i c at ed   f o r m s   o f   p l ag i ari s m .   I t   u t i l i z e s   a   c o - o ccu rr e n ce  g rap h   t o   i d e n t i f y   cen t ro i d   t e r m s   t h at   re p r e s en t   t h e   co r e   me an i n g   o t e x t   d o c u men t s ,   e ff ec t i v el y   c ap t u ri n g   t h e   co n t e x t u al   as s o c i at i o n s   b e t w ee n   t e r m s .   E x t e n s i v e   e x p e ri men t s   w e r e   c o n d u c t ed   o n   d at as e t   o ac ad emi c   p ap e rs   t o   as s e s T RC s   p e rfo r m an ce  ag a i n s t   t rad i t i o n a l   t ech n i q u e s   a c ro s s   v ari o u s   c at eg o r i e s   o p l ag i ari s m ,   i n c l u d i n g   n e ar - c o p y ,   mo d i fi ed - c o p y ,   an d   p arap h ras i n g .     T h e   r e s u l t s   d em o n s t rat e   t h e   e ffec t i v e n e s s   o t h e   T RC  t e ch n i q u e ,   a c h i e v i n g   an   av e ra g e   p r e ci s i o n   o 0 . 9 6   an d   r ec al l   o 0 . 7 1 .   T h i s   p erfo rm a n ce   s u rp as s e s   me t h o d s   s u c h   as   J acc ar d   an d   Co s i n e   s i mi l ar i t y   i n   a cc u r at e l y   d e t e c t i n g   m o r e ,   c o m p l e x   fo r m s   o p l ag i ari s m .   T h e s e   f i n d i n g s   h i g h l i g h t   T RC s   p o t e n t i al   as   ro b u s t   t o o l   fo r   b o t h   a c a d em i an d   i n d u s t r y   ap p l i c at i o n s ,   h e l p i n g   t o   e n s u r i n t eg ri t y   i n   t e x t u al   co n t e n t   t h ro u g h   p reci s e   a n d   co m p re h en s i v e   p l a g i ar i s d e t ec t i o n .   K e y w o r d s :   Co - o c c ur r e n c e   gr a ph   P l a g i a r i s m   d e t e c t i o n   T e x t   r e pr e s e n t i n c e n t r o i d   T e x t   s i mi l a r i t y   T e x t - b a s e r e pr e s e n t a t i o n   Th i s   i s   a n   o p en   a c ces s   a r t i c l u n d e r   t h CC  B Y - SA   l i cen s e.     C or r e s pon din A u th or :   S ur e e por n   Nua l nim   De pa r t m e n t   o f   S c i e n c e   a n T e c hn o l o g y ,   F a c u l t y   o f   I nf o r m a t i o n   T e c hn o l o g y   a n D i g i t a l   I nn o v a t i o n   Ki ng  M o n gkut s   U ni ve r s i t y   o f   T e c hn o l o g y   No r t h   B a n gko k   1518  P r a c h a r a t   1   R o a d ,   W o n gs a wa n g,   B a n g s ue ,   B a n gko k   E m a i l S ur e e po r n . n@m a il . r m ut k. a c . t h       1.   I NT RODU C T I ON   I n   t o da y s   d i g i t a l   a ge ,   t e c hn o l o g y   a n t h e   i n t e r n e t   h a v e   s i g ni f i c a n t l y   t r a ns f o r m e h o i nf o r m a t i o n   i s   c r e a t e d,   s h a r e d,   a n c o n s u m e [ 1] .   T h e   r i s e   o f   o n li ne   publi c a t i o n s   h a s   m a d e   p l a g i a r i s m   a   pr e v a l e n t   i s s ue   i a c a de mi c s   a n ot h e r   f i e l ds .   P l a g i a r i s m   i nv o l ve s   us i ng  s o m e o n e   e l s e s   i de a s ,   r e s u l t s ,   or   w o r ds   wi t h o ut  gi vi ng   t h e m   c r e d i t .   T hi s   i n c l ud e s   c o p y i ng  t e x t   wi t h o ut   p r o pe r   c i t a t i o n   a n c l a im i ng  i t   a s   o n e s   wo r k   [ 2 ] - [ 4] .   T hi s   un e t hi c a l   pr a c t i c e   i s   w i d e s pr e a i n   a c a de mi a ,   wh e r e   t h e   i n t e gr i t y   o f   s c h o l a r l y   wo r i s   hi g hly   v a l u e d.   P l a g i a r i s m   c a n   t a ke   s e v e r a l   f o r m s ,   i t   c a n   o c c ur   a s   v e r b a t i m   c o p y i ng,   w h e r e   c o n t e n t   i s   d i r e c t l y   r e p r o duc e d   w i t h o ut  gi vi ng  c r e d i t   to   t h e   or i g i na l   s o ur c e .   An o th e r   f o r m   i s   pa r a ph r a s i ng  w i t h o ut   c i t a t i o n ,   wh e r e   idea s   a r e   r e ph r a s e w i t h o ut  a c kn o w l e dg m e n t .   A dd i t i o n a ll y ,   t h e r e   i s   m o s a i c   p l a g i a r i s m ,   w hi c h   i nv o l v e s   bl e n d i ng   e l e m e n t s   f r o m   m u l t i p l e   s o ur c e s ,   a n s e l f - p l a g i a r i s m ,   w h e r e   a n   i nd i v i dua l   r e us e s   t h e i r   o wn   pr e vi o us   wo r k.   F i na ll y ,   c i t a t i o n   e r r o r s   o c c ur   wh e n   r e f e r e n c e s   a r e   i n c o m p l e t e   o r   m i s l e a d i ng  [ 1] .   F ur t h e r m o r e ,   pl a g i a r i s m   a l s o   b e   c l a s s i f i e a s   l i t e r a l   p l a g i a r i s m   a n i n t e l li ge nt  pl a g i a r i s m   [ 5] - [ 7] .   L i t e r a l   p l a g i a r i s m   i nv o l ve s   di r e c t l c o py i ng  t e x t   w i t h   m i n im a l   c h a n ge s ,   wh e r e a s   i n t e l li ge n t   p l a g i a r i s m   i nc l ud e s   t e c hni que s   l i ke   pa r a ph r a s i ng,   s u m m a r i z i ng,   t r a n s l a t i n g,   o r   a da p t i n i de a s   to   r e t a i n   t h e   o r i g i na l   m e a ni ng  w hil e   a l t e r i n t h e   f o r m   [ 5] ,   [ 7] [ 8] .   T h e   i s s ue   o f   p l a gi a r i s m   h a s   w or s e n e d   d ue   to  th e   i n c r e a s i n n um b e r   o f   o n l i n e   publ i c a t i o n s   i n   r e c e n de c a de s   [ 9 ] .   T h e r e   i s   n o a   v a s t   a m o un t   o f   un s t r uc t ur e d   t e x t   a v a i l a bl e   o n   t h e   we b   a n i n   l a r ge - s c a l e   r e po s i t o r i e s ,   m uc h   o f   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:   2 5 0 2 - 4 7 52       P lagi ar is de tec ti on  us ing  tex t - r e pr e s e nti ng  c e ntr oids   tec hniques   ( Sur e e por N ualni m )   1723   whi c h   i s   r e pe t i t i ve .   T hi s   r e pe t i t i o n   m a ke s   i t   e a s i e r   f o r   pe o pl e   to  e n ga ge   i n   p l a g i a r i s m   a n m o r e   c h a ll e n g i ng   f o r   o r i g i na l   wo r to   b e   r e c o gn i z e d.   T h e r e f o r e ,   p l a g i a r i s m   de t e c t i o n   h a s   b e c o m e   c r uc i a l   i v a r i o u s   f i e l ds ,   i nc l ud i ng  publi s h i ng,   j o ur n a li s m ,   pa t e n t   v e r i f i c a t i o n ,   a n a c a de mi a ,   to   e n s ur e   t h e   uni que ne s s   o f   t e x t s ,   m a t e r i a l s ,   a n r e s o ur c e s   [ 10] .   P l a g i a r i s m   h a s   b e c o m e   a   s i g ni f i c a n t   i s s ue ,   r a i s i ng  c o n c e r n s   a b o ut  a c a de m ic   i n t e gr i t y   a n t h e   qua l i t y   o f   e duc a t i o n a l   c o n t e n t   a nd  r e s e a r c h   [ 11] I i s   e s s e n t i a l   t h a v e   e f f e c t i v e   p l a g i a r i s de t e c t i o n   t uph o l s t a n da r ds   o f   i n t e l l e c t ua l   h o n e s t y   a n e ns ur e   pr o pe r   c r e di t   i s   g i v e n .   T r a di t i o n a l   a ppr o a c he s   t o   pl a g i a r i s m   de t e c t i o n ,   s u c h   a s   t h e   v e c t o r   s pa c e   m o de l   ( VSM )   a n b a g - of - wo r d s   ( B OW ) ,   r e pr e s e n t   d o c um e n t s   a s   n u m e r i c a l   v e c t or s   wh e r e   e a c h   c o m po n e n t   r e f l e c t s   t h e   we i g h t   o f   i nd i v i dua l   wo r ds ,   a s s u m i ng  e a c h   wo r i s   t r e a t e i n de pe n de n t l y   [ 12] .   T h e s e   m e t h o ds   t y p i c a ll y   c a l c u l a t e   s i mi l a r i t y   us i ng  E uc l i de a n   o r   c o s i n e   d i s t a n c e   w i t hi n   t hi s   v e c t o r   s pa c e   [ 7 ] .   H o we v e r ,   t h e y   h a v e   s igni f i c a n li mi t a t i o ns .   F i r s t l y ,   t h e y   c a nn o e f f e c t i v e ly   h a n d l e   s y n o nym   s u b s t i t ut i o n ,   a s   t h e y   l a c s e m a n t i c   un de r s t a n d i ng.   F o r   i ns t a n c e ,   r e p l a c i ng  ha pp y   w i t h   j o yf u l   i n   a   pl a g i a r i z e t e x t   w o ul go  un de t e c t e d.   S e c o n d l y ,   VSM   a n B OW   m e t h o ds   s t r uggl e   to  c a pt ur e   t h e   m e a ni ng  a n s t r uc t u r e   o f   t h e   t e x t,   i g n o r i n wo r d   o r de r   a n r e l a t i o n s hi p s ,   l e a d i ng  t di f f i c u l t i e s   i c o m pa r i n pa r a p h r a s e do c u m e n t s   [ 13] .   S t u d i e s   by     C ha n g   e al.   [ 12]   a n d   Hu y nh   e al.   [ 14]   de m o n s t r a t e t h e   i n a de qua c y   o f   VSM   a n B O W   i n   ha n d l in wo r s e m a n t i c s ,   o f t e n   r e s u l t i ng  i n   mi s s e de t e c t i o n s   w he n   s y n o nym s   o r   s e m a n t i c a l ly   s i mi l a r   wo r ds   a r e   us e d.   T h e s e   m e t h o ds   f a i l   t c a p t ur e   s e m a n t i c   r e l a t i o n s hi ps   a n s t r uc t u r a l   i nf o r m a t i o n   w i t hi t h e   t e x t.   Gi ve n   t h e s e   li mi t a t i o ns ,   K u b e a n U n ge r   [ 15]   i n t r o duc e t e x t - r e pr e s e n t i n c e n t r o i d s   ( T R C ) ,   a   t e c hni que   f o r   c l a s s i f yi n g   a n gr o up i n t e x t s   b a s e o n   s e m a n t i c   c o n t e n t .   T R C   i de n t i f i e s   c o r e   t e r m s ,   o r   c e n t r o i ds ,   r e pr e s e n t i n t h e   m a i n   t he m e s   o f   a   do c um e n t .   I n s p i r e by   t h e   c o n c e pt  o f   a   c e n t e r   o f   m a s s ,   t h e s e   c e n t r o i ds   s e r v e   a s   f o c a l   po i n t s   f o r   un de r s t a n d i ng  a n c o m pa r i ng  t e x t   c o n t e n t .   U nli ke   t r a di t i o n a l   B O W   m o de l s ,   w hi c h   r e l y   s o l e l y   o n   wor f r e qu e n c y ,   T R C   l e v e r a ge s   c o - o c c ur r e n c e   gr a phs   to   c a p t ur e   s e m a n t i c   r e l a t i o ns hi ps .   T hi s   e n a bl e s   T R C   to  e f f e c t i v e ly   h a n d l e   s h o r t e x t s   a n pr o vi de   a   de e pe r   un de r s t a n d i n o f   do c um e n t   c o n t e n t .   M o r e o v e r ,   T R C   i s   l a n gua ge - i nde pe n d e n t ,   o f f e r i ng  a n   a d v a n t a ge   ov e r   B O W   m e t h o ds   t h a t   o f t e n   r e qu i r e   l a n gu a ge - s pe c i f i c   pr e pr o c e s s i ng.   De s p i t e   a dv a n c e m e n t s   i n   n a t ur a l   l a n gua ge   pr o c e s s i ng   ( NL P ) ,   tr a di t i o n a l   p l a g i a r i s m   d e t e c t i o m e t h o ds   f a c e   c h a ll e n g e s   i n   a c c ur a t e l y   i de n t i f yin s o phi s t i c a t e pl a g i a r i s m   t e c hni que s .   T h e   i n a bil i t y   t e f f e c t i v e ly   h a n d l e   s e m a n t i c   v a r i a t i o n s ,   pa r a ph r a s in g,   a n s t r uc t u r a l   m o d i f i c a t i o ns   hi nde r s   t h e   pr e v e n t i o n   o f   a c a de mi c   d i s h o n e s t y .   T a ddr e s s   t h e s e   c h a l l e nge s ,   t hi s   pa pe r   e x p l o r e s   t h e   a pp l i c a t i o n   o f   T R C   i n   p l a g i a r i s m   de t e c t i o n .     T h e   s t ud y   a im s   t o   a s s e s s   t he   e f f e c t i v e ne s s   o f   T R C   i n   de t e c t i n p l a g i a r i s m ,   pa r t i c u l a r l y   i t s   a bil i t y   to  d i f f e r e n t i a t e   b e t we e n   ne a r - v e r b a t i m   c o p y i ng  a n m o r e   s o phi s t i c a t e f o r m s   o f   p l a g i a r i s m ,   s uc h   a s   m o d i f i e d   c o py i ng  a n pa r a ph r a s i ng.   A pp l yi ng  t h e   T R C   t e c h ni que ,   t hi s   r e s e a r c h   e nh a n c e s   t r a di t i o n a l   s i mi l a r i t y   m e a s ur e s   by   c a pt ur i n do c um e n t   s e m a n t i c   r e l a t i o n s hi p s   a n i d e n t i f yi ng  s e n t e n c e   c e n t r a l i t y   c o n d i t i o n s .     T h e   hy po t h e s i s   i s   t h a t   t h e   T R C   t e c h ni que   w il l   d e m o ns t r a t e   s i g nif i c a n t l y   hi g h e r   a c c ur a c y   a n pr e c i s i o n   in  i de n t i f y i ng  n ua n c e c a s e s   o f   p l a g i a r i s m ,   pa r t i c u l a r ly   i s c e n a r i o s   i nv o l vi ng  pa r a p h r a s i ng  a n m o d i f i e c o py i ng,   c o m pa r e t t r a di t i o n a l   m e t h o ds   s uc h   a s   J a c c a r a n C o s i n e   s im i l a r i t y .   T h e   m a i c o n t r i b ut i o ns   o f   t hi s   wo r a r e   a s   f o l l o w s :   -   W e   pr e s e n t   t h e   T R C   t e c h ni qu e ,   whi c h   e nh a n c e s   pl a g i a r i s m   de t e c t i o n   by   m o r e   a c c ur a t e l y   c a pt ur i n g   s e m a n t i c   r e l a t i o n s hi p s   w i t hi t e x t s .   -   W e   de m o n s t r a t e   t h a t   T R C   e f f e c t i v e ly   i de n t i f i e s   va r i o us   f o r m s   o f   p l a g i a r i s m ,   s uc h   a s   n e a r - c o pi e s ,   m o d i f i e c o pi e s ,   a n pa r a ph r a s e s ,   t h e r e by   i nc r e a s in t h e   a c c ur a c y   o f   p l a g i a r i s m   de t e c t i o n .   -   W e   pr o vi de   e m p i r i c a l   e vi de nc e   t h r o ugh   c o m pr e he ns i ve   e v a l ua t i o n   us i ng  s t a n da r pe r f o r m a nc e   m e t r i c s ,   s uppo r t i n t h e   e f f e c t i v e n e s s   o f   t h e   T R C   m e t h o d.   T h e   s t r uc t ur e   o f   t h e   pa pe r   i s   a s   f o l l o w s s e c t i o de s c r i b e s   t h e   pr o p o s e m e t h o do l o g y ,   f o l l o we by   t h e   e x pe r im e n t s   a n r e s u l t s   i n   s e c t i o n   3.   S e c t i o n   c o n c l ude s   t h e   pa pe r   a n o f f e r s   s u gge s t i o n s   f o r   f ut ur e   wo r k .       2.   M E T HO D   T h e   T R C   t e c h ni que   [ 15]   i s   a   m e t h o f o r   de t e r m ini ng  t h e   c e n t r o i t e r m s   o f   t e x t   d o c um e n t s ,   whi c e f f e c t i v e ly   r e pr e s e n t   t h o s e   do c um e n t s .   C e n t r o i t e r m s   c a n   h e l m e a s ur e   t h e   s e m a n t i c   d i s t a nc e   a n s im il a r i t y   b e t we e n   d i f f e r e n t   d o c um e n t s ,   e v e n   w h e n   t h e y   u s e   d i f f e r e n t   v o c a b u l a r y   t o   de s c r i b e   s im il a r   to pi c s .   T h e s e   c e n t r o i t e r m s   a r e   o b t a i ne f r o m   a   c o - o c c ur r e n c e   gr a ph   c r e a t e d   f r o m   a   c o l l e c t i o n   o f   t e x d o c u m e n t s .     Co - o c c ur r e n c e   gr a ph s   c a pt ur e   t h e   r e l a t i o ns hi p s   b e t we e n   t e r m s   i a   t e x t   c o r pus   by   i de n t i f yi ng  t e r m s   t h a f r e qu e n t l y   a ppe a r   to ge t h e r ,   p r o vi d i ng  i ns i g h t s   i n t o   s e m a n t i c   r e l a t i o n s hi p s .   F o r   pl a g i a r i s m   de t e c t i o n ,   t hi s   t e c hni que   f o l l o ws   a   s t r uc t ur e d ,   s i x - s t e pr o c e s s   a s   i ll u s t r a t e i   F i gur e   1,   whi c h   i nc l ude s :   -   Do c um e n t   c o r pus :   c o l l e c t i n t h e   s e t   o f   do c um e n t s   to  a n a ly z e .   -   Do c um e n t   pr e pr o c e s s i n g:  pr e pa r i n t h e   t e x t   by   r e m o vi ng  n o i s e   a n s t a n da r d i z i ng  f o r m a t .   -   Co - o c c ur r e n c e   gr a ph   c o n s t r uc t i o n b u i l d i ng  a   gr a ph   b a s e o n   t e r m   c o - o c c ur r e n c e   r e l a t i o n s hi p s .   -   C e n t r o i t e r m   i d e n t i f i c a t i o n i d e n t i f yi ng  ke y   t e r m s   t h a t   r e p r e s e n t   t h e   d o c um e n t .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2 5 0 2 - 4 7 52   In do n e s i a n   J   E l e c   E n g   &   C o m S c i Vo l .   3 8 ,   N o .   3 J un e   20 2 5 :   1 722 - 1 734   1724   -   C e n t r o i d - b a s e d i s t a nc e   c a l c u l a t i o n c o m put i n d i s t a n c e s   b e t we e n   c e n t r o i ds   t qua n t i f y   s e m a n t i c   s i mi l a r i t y .   -   C o n ve r t i n d i s t a n c e   t s i m il a r i t y   s c o r e t r a n s l a t i n g   t h e   d i s t a n c e   i n t o   a   s i mi l a r i t y   s c o r e ,   whi c h   i nf o r m s   t h e   p l a g i a r i s m   de t e c t i o n   de c i s i o n .           F i gur e   1.   T h e   pr o c e s s   o v e r vi e o f   t h e   pr o p o s e m e t h o d       2 . 1.     Doc u m e n t   p r e p r oc e s s in g   T e x t   pr e - pr o c e s s i n i s   a   f o un d a t i o na l   s t e i n   NL P   t a s ks ,   s i g nif i c a n t l y   im pa c t i n pe r f o r m a nc e ,   pa r t i c u l a r l y   i n   a r e a s   s uc h   a s   p l a g i a r i s m   de t e c t i o n   [ 16] .   T h e   pr o c e s s   b e g i ns   w i t h   to ke ni z i ng  t h e   t e x t,   d i vi d i ng  t h e   d o c um e n t   i n t s e n t e n c e s ,   a n t h e n   f ur t h e r   i nto  w o r ds   or   to ke n s .   T hi s   t r a n s f o r m a t i o n   o f   r a tex t   i n t s m a l l e r ,   m a na ge a bl e   p i e c e s   i s   e s s e n t i a l   f o r   downs t r e a m   a n a ly s i s .   B e f o r e   r e m o vi ng  s t o pw or ds ,   s e v e r a l   n o r m a li z a t i o n   s t e ps   a r e   a ppl i e t e n s ur e   c o n s i s t e n c y   a n i m pr o v e   t h e   a n a ly z a bil i t y   o f   t h e   t e x t .   F i r s t,   a l l   t e x t   i s   c o nve r t e to   l o we r c a s e   to   a v o i c a s e   s e n s i t i v i t y   i s s ue s ,   t r e a t i n T h e   a n t h e   a s   t h e   s a m e   w o r d .   T h e   n e x t   s t e i s   l e mm a t i z a t i o n ,   whi c h   r e m o v e s   s u f f ix e s   a n r e duc e s   wo r ds   to   t h e i r   r oot  f o r m s .   F o r   e x a m p l e ,   r u nni ng   i s   t r a n s f o r m e i n t r un .   M o r e o v e r ,   l e mm a t i z a t i o n   c a n   be   a pp l i e m o r e   a c c ur a t e l y   by   c o n s i d e r i n g   t h e   gr a m m a t i c a l   c o n t e x t ;   f o r   i n s t a nc e ,   b e t t e r   c a n   b e   c h a n ge t o   goo d .   On c e   s t a n da r d i z e d,   c o m m o s to pw o r ds   ( e . g . ,   a n d,   t he ,   is )   t h a t   p r o vi d e   l i t t l e   m e a ni ng f u l   c o n t e x t   a r e   r e m o v e t o   e n h a n c e   da t a   qua l i t y .   F i na ll y ,   pa r t - of - s pe e c h   ( P OS)   t a ggi n i s   pe r f o r m e t a s s i g n   gr a mm a t i c a l   c a t e gor i e s   ( e . g. ,   n o un s ,   v e r b s )   t w o r ds .   T hi s   s t e i s   c r i t i c a l   f o r   f il t e r i ng  o u t   l e s s   r e l e va n t   t e r m s   a n r e t a i ni ng  t h e   m o s t   i nf o r m a t i v e   o n e s   [ 17] .   I n   t hi s   s t ud y ,   we   r e t a i n e n o uns   a n pr ope r   n o un s ,   whi c h   a r e   e s s e n t i a l   f o r   c o n s t r uc t i n m e a ni ng f u l   co - o c c ur r e n c e   r e l a t i o ns hi ps .   T h e   NL T K   l i br a r y   i s   u s e f o r   a l l   pr e - pr o c e s s i n t a s ks ,   a s   i t   o f f e r s   a   c o m pr e h e ns i ve   s e t   o f   f u n c t i o n s   a n m o du l e s   s u i t a bl e   f o r   o ur   a n a l y s i s   [ 18] .     2 . 2.     Co - oc c u r r e n c e   gr ap h   c on s t r u c t ion   C o n s t r uc t i n t h e   c o - o c c ur r e n c e   gr a ph   f o r m s   t h e   ba s i s   o f   t h e   T R C   t e c h ni que   i n   p l a g i a r i s m   de t e c t i o n ,   a s   i t   c a p t ur e s   s e m a n t i c   r e l a t i o n s hi ps   b e t we e n   wo r ds   [ 15] ,   [ 19 ] [ 20 ] .   Unl i ke   t r a di t i o n a l   B O W   m o de l s ,   whi c r e l y   o n   s im p l e   c h a r a c t e r   m a t c hi ng  o r   to pi c   s i mi lar i t y   a s s e s s m e n t s   a n o f t e n   i g n o r e   w o r ds   s y n t a c t i c   a n d   s e m a n t i c   c o n t e x t s   [ 7] ,   c o - o c c ur r e n c e   gr a ph s   c a pt ur e   t h e   n ua n c e c o nn e c t i o n s   b e t we e n   wo r ds   b a s e o n   t h e i r   pr o xi m i t y   w i t hi a   s pe c if i e w i ndo s i z e .   T hi s   a ppr o a c h   e n a bl e s   a   m o r e   s o phi s t i c a t e un de r s t a n d in o f   t h e   un de r lyi ng  s t r uc t ur e   o f   t h e   t e x t   [ 21] .   F o l l o w i ng  t h e   pr e pr o c e s s i n s t e p,   pr o c e s s e s e n t e n c e s   a r e   us e t c r e a t e   t h e   c o - o c c ur r e n c e   gr a ph .   W e   f i r s t   i ni t i a li z e   a n   e m pt y   c o - o c c ur r e n c e   m a t r i x   to  s to r e   c o - o c c ur r e n c e   s t a t i s t i c s   ba s e o n   t h e   f r e que n c y   o f   t e r m   pa i r s   i n   e a c s e n t e n c e .   F o r   e a c h   s e n t e n c e ,   we   i n c r e m e n t   t h e   c o - o c c ur r e n c e   c o un t   f o r   e a c h   wo r pa i r   to  c a pt ur e   t h e i r   s e m a n t i c   a n s y n t a c t i c   r e l a t i o ns hi p s   [ 22] .   T h e   c o - o c c ur r e n c e   gr a ph   i s   t h e n   c o n s t r uc t e by   m a pp i ng  wo r ds   a s   n o de s   a n a dd i ng  e dge s   we i g h ted  by   t h e   f r e que n c y   o f   t e r m   pa i r s ,   r e s u l t i n i s   a n   un d i r e c t e d   we i g h t e gr a ph   t h a t   c a p t ur e d   t h e s e   r e l a t i o ns hi ps .     I n   t hi s   c o - o c c ur r e n c e   gr a ph   = ( , )   r e pr e s e n t   t h e   unique  t e r m s   = { 1 , 2 , . . . , }   i n   t h e   do c um e n t s ,   a n   i s   t h e   s e t   o f   e dge s   = { 12 , 13 , ,  }   c o n n e c t i n t e r m s     a n   t h a t   c o - o c c ur   wi t hi n   a   s e n t e n c e .   E a c h   e dge      h a s   a   we i g h t   f u n c t i o n   ( i , j ) ,   r e pr e s e n t i n t h e   c o - o c c ur r e n c e   f r e que n c y   b e t we e t e r m s   [ 23] :     ( i , j ) = 2 ×   ( , ) ( ) + ( )   ( 1)     W h e r e    (   )   a n c  (   j )   r e pr e s e n t   t h e   f r e que n c y   o f   t e r m     a n   j   a ppe a r i n i nd i v i dua ll y ,   a n c  (   i , j )   i s   t h e   f r e que n c y   o f   t h e i r   c o - o c c ur r e n c e .   T hi s   we i g h t i n e n s ur e s   t h a t   ( i , j )   r a n ge s   b e t we e Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:   2 5 0 2 - 4 7 52       P lagi ar is de tec ti on  us ing  tex t - r e pr e s e nti ng  c e ntr oids   tec hniques   ( Sur e e por N ualni m )   1725   a n 1,   wi t h   v a l ue s   a b o v e   a d j u s t e to   1 .   T h e   we i g h t   f u n c t i o n   ( i , j )   i s   us e to   c a l c u l a t e   t h e   di s t a n c e   ( i , j )   b e t we e n   t e r m s   ( i , j )   i n   t h e   gr a ph ,   pr o vi d i ng  a   m e a s ur e   o f   t h e i r   s e m a n t i c   c l o s e n e s s .   T h e   d i s t a nc e   m e t r i c   us e to   c a l c u l a t e   t hi s   d i s t a n c e   i s   pr o vi d e i ( 2) .     d ( t ,t j ) = 1 g ( t i , t ) s m o o t h i n g   f ac t o r   ( 2)     W h e r e   ( i , j )   i s   t h e   d i s t a n c e   b e t we e n   t w o   t e r m s ,   a n t he   s m o ot hi n f a c to r   de f a u l t   v a l ue   o f   0. 01  pr e v e n t s   d i vi s i o n   by   z e r o   [ 24 ] .   F o l l o w i ng  t hi s   pr o c e s s ,   we   ob t a i n   a n   u n d i r e c t e c o - o c c ur r e n c e   gr a ph   r e pr e s e n t i n t e r m   r e l a t i o n s hi p s ,   f o r m i ng  t h e   f o un d a t i o n   f o r   c e n t r o i ter m   i de n t i f i c a t i o n .     2. 3.     Ce n t r oid   t e r m   id e n t if icat ion   Af t e r   c o n s t r uc t i n t h e   c o - o c c ur r e n c e   gr a ph ,   c e n t r o i ds   a r e   i de n t i f i e f o r   e a c h   s e n t e n c e .   A   c e n t r o i d   r e pr e s e n t s   t h e   wo r t h a t   b e s t   r e pr e s e n t s   a n e n c a p s u l a t e s   t h e   m e a ni n o f   t h e   s e n t e nc e ,   s e l e c t e f o r   i t s   a v e r a ge   pr o xi m i t y   t o   a l l   t h e   ot h e r   w o r ds   i n   t h a s e n t e n c e   [ 25] .   T h i s   a ppr o a c h   e n s ur e s   t h a t h e   c e n t r o i c a pt ur e s   t h e   m a i n   i de a   o f   t h e   s e n t e n c e ,   whi c h   i s   e s s e n t i a l   f o r   m e a ni ng - ba s e p l a g i a r i s m   d e t e c t i o n .   B y   f o c us i n o c e n t r o i t e r m s   r a t h e r   t h a n   m o r e   wo r d   m a t c he s ,   t h e   s y s t e m   c a n   de t e c t   s e n t e n c e s   s h a r i ng  e s s e n t i a l   s i mi l a r i t i e s ,   whi c h   m i g h t   s ugge s t   pl a g i a r i s m   b a s e o n   de e pe r   t e x t ua l   m e a ni ng.   A   c e n t r o i t e r m     i s   c o n s i de r e t h e   m o s t   s e m a n t i c a ll y   r e pr e s e n t a t i v e   t e r m   i a   s e n t e n c e     I i s   c h o s e n   by   mi nim i z i ng  t h e   a v e r a ge   d i s t a nc ( , )   b e t we e n   t h e   t e r m     a n a ll   o t h e r   w o r ds     i n   t h e   s e n t e n c e   ,   de f i ne m a t h e m a t i c a ll y   a s   [ 15] .     ( , ) = 1 ( , ) = 1   ( 3)     W h e r e   ( , )   i s   t h e   a v e r a ge   d i s t a nc e   b e t we e n   t h e   t e r m     a n t h e   s e n t e n c e     i s   t h e   n u m b e r   o f   wo r ds   i n   t h e   s e n t e n c e     t h a t   we r e   r e a c h a bl e   f r o m   t h e   t e r m     i t h e   c o - o c c ur r e n c e   gr a p h .   ( , )   i s   t h e   s h o r t e s t   pa t h   d i s t a nc e   be t we e n   t h e   t e r m     a n t h e   wo r   i n   t h e   c o - o c c ur r e n c e   gr a ph .   T hi s   pr o c e s s   a i m s   t o   f i n a   c e nt r o i t e r m     t h a t   h a s   t h e   s m a ll e s t   a v e r a ge   d i s t a n c e   t a l l   ot h e r   wor ds ,   i n d i c a t i n t h a t     i s   c e n t r a l   to   t h e   m e a ni ng  o f   t h e   s e n t e nc e .   T hi s   pr o c e s s   i de n t i f i e s   t h e   c e n t r o i t e r m s     t h a t   a r e   c l o s e s t   to   a l l   o t h e r   wo r ds ,   m a k i ng    c e n t r a l   to   t h e   m e a ni ng  o f   t h e   s e n t e n c e .   T h e   c e n t r o i t e r m   i de n t i f i c a t i o n   pr o c e s s   i nv o l v e s   s e v e r a l   s t e ps ,   o u t l i ne a s   f o l l o ws :   S t e p   1:  g e n e r a t e   w or pa i r s   All   po s s i b l e   pa i r s   o f   u ni qu e   c e n t r o i c a n d i da t e   wo r ds   wi t hi n   t he   s e n t e nc e   a r e   ge n e r a t e a c c o r di n to  t h e   pr o c e dur e   o u t l i ne i n   Al go r i t hm   1.   T h e s e   wo r pa i r s   a r e   c r i t i c a l   f o r   c a l c u l a t i n t h e   d i s t a n c e s   b e t we e n   t e r m s ,   whi c h   c o n t r i b ut e s   to   i de n t i f yi ng  t h e   m o s t   c e n t r a l   w o r d   i n   t h e   s e n t e n c e .     Al go r i t hm   1 .   C r e a t e   uni que   p a i r   wo r ds   Input: A list of unique centroid words ( unique_centroid_word)   Output:  list  pairword,  which  will  cont ain  all  possible  pairs  of  unique  words   without  duplicates     1:  Initialize an empty list  pairword   2:  for index  i   from  0   to length( unique_centroid_word)  -   2   do   3:      for index  j   from i+ 1   to length( unique_centroid_word)     1   do   4                         Append  the  pair  ( uni que_centroid_word[i],  unique_centroid_word[j])   to  pairword   5 :      end for   6 end for   7 return pairword     S t e p   2:   c a l c u l a t e   d i s t a nc e s   Us i n Al go r i t hm   2,   d i s t a n c e s   b e t we e n   t h e   wo r pa i r s   a r e   c o m put e b a s e o n   t h e   co - o c c ur r e n c e   d a t a .   T h e   s u m   o f   d i s t a n c e s   to  ot h e r   wor ds   f o r   e a c h   c a n d i da t e   c e n t r o i wo r d   i s   c a l c u l a t e to  e v a l ua t e   i t s   c e n t r a l it y   i n   t h e   s e n t e n c e .     Al go r i t hm   2 .   F i nd i n t h e   c e n t r o i t e r m s   Input:  pairword List  of   word  pairs   (f rom  Algorithm  1) cooccurr :   Co - occurren ce  data  (containing distances between word pairs),  z : Set of unique centroid candidate words.   Output:  result_centroid The  centroid  term  that  has  the  minimum  average  distance  to  all   other words.   1: Initialize an empty list  result .2: Set  amt   to the length of the set  z .3: For each pair  of words  i   in  pairword :4:       Initialize  sum_dist   to 0.5:       If  i   consists of identical  words, set  dist   to 0.6:       Else:   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2 5 0 2 - 4 7 52   In do n e s i a n   J   E l e c   E n g   &   C o m S c i Vo l .   3 8 ,   N o .   3 J un e   20 2 5 :   1 722 - 1 734   1726   7:           For each pair in  cooccurr :8:               If the pair matches  i , set  dist   to t he  corresponding co - occurrence value.9:               Break.10:           End For.11:       Add  dist   to  sum_dist .12:       Append the pair  ( i,sum_dist to  result .13: Initialize an empty list  centroid_list .14: For each word  k   in  z :15:       Set  sum_dist   to 0.   16:        For each  ( word,distance in  result :17:           If  word=k ,   add  distance   to  sum_dist .18:       Calculate the average distance  avg_dist = sum_dist / amt .19:       Append  (k,avg_dist)   to  centroid_list .20: Set  min_dist   to a large value.21: Set  result_centroid   to  N one .22: For each  (word,avg_dist)   in  centroid_list :23:       If  avg_dist <  min_dist :24:           Set  min_dist   to  avg_dist .   25:           Set  result_centroid   to  word .26: Return  result_centroid .     S t e p   3:  s e l e c t   t h e   c e n t r o i d   T h e   wo r wi t h   t h e   s m a ll e s t   a v e r a ge   d i s t a nc e   to   a l ot h e r   w o r ds   i n   t h e   s e n t e nc e   i s   c h o s e n   a s   t h e   c e n t r o i d.   T hi s   c e n t r o i t e r m   r e f l e c t s   t h e   c o r e   m e a ni ng  o f   t h e   s e n ten c e ,   m a k i ng  i t   us e f u l   f o r   i de n t i f yi ng  s e m a n t i c   s i mi l a r i t i e s   b e t we e n   s e n t e n c e s   i n   p l a g i a r i s m   de t e c t i o n .     2. 4.     P l agia r is m   d e t e c t i on   d e c is ion   T h e   p l a g i a r i s m   de t e c t i o n   pr o c e s s   i nv o l v e s   t wo  m a i n   s t e ps c a l c u l a t i n t h e   c e n t r o i d - b a s e d i s t a n c e   b e t we e n   s e n t e n c e s   a n c o n ve r t i n t hi s   d i s t a nc e   i nto  a   s i mi l a r i t y   s c o r e   to   de t e r m i n e   w h e t h e r   p l a g i a r i s m   h a s   o c c ur r e d .   T hi s   a ppr o a c h   l e t s   t h e   s y s t e m   de t e c c om p l e x   p l a g i a r i s m   c a s e s ,   s uc h   a s   pa r a ph r a s i ng  o r   s e n t e n c e   m o d i f i c a t i o n ,   by   c a pt ur i n s e m a n t i c   r e l a t i o ns hi p s   b e t we e n   wo r ds .   Unl i ke   t r a di t i o n a l   m e t h o ds   s uc h   a s   J a c c a r d   a n C o s i n e   s im il a r i t y ,   w hi c h   pr i m a r il y   f o c us   o n   wo r d - l e ve l   o v e r l a ps ,   t h e   T R C   t e c h ni qu e   us e s   c e n t r oi d - b a s e d   d i s t a nc e s   t de t e c pl a g i a r i s m   e v e n   w h e n   s e n t e n c e s   h a v e   un d e r go n e   s i g nif i c a n t   r e w o r di n o r   r e s tr uc t u r i n g.   T de t e c p ot e n t i a l   p l a g i a r i s m ,   t h e   c e n t r o i o f   a n   or i g i na l   s e n t e n c e   i s   c o m pa r e to  t h a o f   a   pot e n t i a ll y   p l a g i a r i z e s e n t e n c e .   T h e   d i s t a n c e   be t we e n   t h e   t w o   c e n tr o i d s   i s   c a l c u l a t e us i n D ij ks t r a a l go r i t hm ,   w hi c h   f i nd s   t h e   s h o r t e s t   pa t h   b e t we e n   t h e   c e n t r o i ds   i t h e   c o - o c c ur r e n c e   gr a ph .   T hi s   d i s t a n c e   r e pr e s e n t s   t h e   de gr e e   o f   s e m a n t i c   s i mi l a r i t y   b e t we e n   t h e   s e n t e n c e s .   T h e   c a l c u l a t e di s t a nc e   i s   t h e n   c o n v e r t e i n t o   a   s i mi l a r i t y   s c o r e   to   a s s e s s   t h e   l i ke li h o o o f   p l a g i a r i s m ,   a s   d i s c us s e i n   t h e   f o l l o w i ng  s e c t i o n .     2. 4. 1.   Ce n t r oid - b as e d   d is t an c e   c al c u l at ion   T h e   f i r s t   s t e i n   p l a g i a r i s m   de t e c t i o n   i s   to   c a l c u l a t e   t h e   d i s t a n c e   b e t we e n   t h e   c e n t r o i d s   o f   t h e   o r i g i na l   s e n t e n c e   ( 1 )   a n t h e   po t e n t i a ll y   p l a g i a r i z e s e n t e nc e s   ( 2 ) C e n t r o i d s   r e pr e s e n t   t h e   m o s t   s e m a n t i c a ll y   s i g nif i c a n t   t e r m s   i n   a   s e n t e n c e ,   c a pt ur i n t h e   c or e   m e a ni n o f   t h e   t e x t.   T h e   c e n t r o i d - b a s e d i s t a nc e   b e t we e t w s e n t e n c e s   qua n t i f i e s   h o s i mi l a r   t h e i r   c o n ten t   i s   b a s e o n   t h e   c e n t r a l   t e r m s   t h a t   e n c a ps u lat e   t h e i r   m e a ni ng s .   T c a l c u l a t e   t h e   c e n t r o i d - ba s e d i s t a n c e   b e t we e n   s e n t e n c e s   1   a n 2 ,   t h e   c e n t r o i t e r m   1 i s   s e l e c t e f r o m   s e n t e n c e   1   a s   t h e   t e r m   w i t h   t h e   m i n im u m   a v e r a ge   d i s t a nc e   to   a l l   o t h e r   w o r ds   i n   t h e   s e n t e n c e .   T hi s   d i s t a nc e   i s   de n o t e a s   ( 1 , 1 ) S i mi l a r ly ,   2   i s   t h e   c e n t r oi t e r m   o f   s e n t e nc e   2   a n t h e   c e n t r o i d - b a s e d   d i s t a nc e   b e t we e n   t h e   t wo   s e n t e n c e s   i s   de f i ne a s   t h e   d i s t a nc e   b e t we e n   t h e s e   t wo   c e n tr o i d s ,   c a l c u l a t e us i n g   t h e   s h o r t e s t   pa t h   i n   t h e   c o - o c c ur r e n c e   gr a ph .   T h e   ce n t r o i d - b a s e d i s t a n c e   i s   m a t h e m a t i c a ll y   e x pr e s s e a s :     ( 1 , 2 ) = ( 1 , 2 )   ( 4)     W h e r e   1   a n 2   a r e   t h e   c e n t r o i d s   o f   s e n t e nc e s   1   a n 2 ,   r e s pe c t i v e ly ,   ( 1 , 2 )   i s   t h e   di s t a nc e   b e t we e n   t h e s e   c e n t r o i ds ,   c a l c u l a t e us i n t h e   s h o r t e s pa t h   m e t r i c   i n   t h e   c o - o c c ur r e n c e   gr a ph .   I n   t hi s   s t ud y ,   we   us e D i j ks t r a s   a l go r i t hm   [ 26]   to   c a l c u l a t e   t h e   s h o r t e s t   pa t h   b e t we e n   t h e   c e n t r o i ds   o n   a   gr a p h   r e pr e s e n t i n t h e   s e m a n t i c   r e l a t i o n s hi ps   b e t we e n   t e r m s .   T hi s   s h o r t e s t   pa t h   di s t a n c e   s e r v e s   a s   a   m e a s ur e   o f   s e m a n t i c   s im il a r i t y   b e t we e n   t h e   s e n t e nc e s .   B y   c o m pa r i ng  t h e   d i s t a nc e s   b e t we e n   t h e i r   c e n t r o i d s ,   we   c a n   e f f e c t i v e ly   a s s e s s   h o w   c l o s e ly   r e l a t e t h e   s e n t e n c e s   a r e   i n   c o n t e n t ,   e v e n   i f   t h e y   e m p l o y   d i f f e r e n t   w o r d   c h o i c e s   o r   ph r a s i n g.     2. 4. 2.   Conver t in d is t an c e   t s im il a r it s c o r e   Af t e r   c a l c u l a t i n t h e   c e n t r o i d i s t a n c e ,   t h e   s y s t e m   c o nve r t s   t hi s   d i s t a n c e   i n t a   s i mi l a r i t y   s c o r e .     T h e   s i mi l a r i t y   s c o r e    ( 1 , 2 )   i s   c a l c u l a t e us i n t h e   f o l l o w i ng  f o r m u l a :      ( 1 , 2 ) = 1 1 + ( 1 , 2 )   ( 5)     T hi s   f o r m u l a   e n s ur e s   t h a s h o r t e r   c e n t r o i d i s t a n c e s   r e s u l t   i n   hi g he r   s i mi l a r i t y   s c o r e s .   T h e   s i mi l a r i t s c o r e   r a n ge s   b e t we e n   a n [ 27] ,   wi t h   a   s c o r e   c l o s e r   to  i n d i c a t i n hi g h e r   s im il a r i t y   b e t we e n   t h e   s e n t e n c e s .   On c e   c a l c u l a t e d,   t h e   s i mi l a r i t y   s c o r e   i s   t h e n   c o m p a r e a ga i n s t   a   pr e de f i ne t h r e s h o l ( t y p i c a ll y   s e t   a a r o un 0. 8)   to   de t e r m i ne   w h e t h e r   p l a g i a r i s m   ha s   o c c ur r e i s   pr e s e n t .   I f   t h e   s im il a r i t y   s c o r e    ( 1 , 2 )   e x c e e d s   t h e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:   2 5 0 2 - 4 7 52       P lagi ar is de tec ti on  us ing  tex t - r e pr e s e nti ng  c e ntr oids   tec hniques   ( Sur e e por N ualni m )   1727   t h r e s h o l d,   t h e   s e n t e n c e   i s   f l a gge a s   p l a g i a r i z e d;   ot h e r w i s e ,   i t   i s   c o n s i d e r e or i g i na l .   T hi s   a ppr o a c h   e f f e c t i v e ly   a s s e s s e s   t e x t   s i mi l a r i t y   w hil e   d i s t i n gu is hi ng  b e t we e n   o r i g i na l   a n pot e n t i a ll y   p l a g i a r i z e d   c o n t e n t   b a s e o n   a   c l e a r ,   qua n t i f i a bl e   m e t r i c .     2. 4. 3 E x am p l e :   T RC   t e c h n iq u e s   in   ac t ion   T de m o ns t r a t e   t h e   T R C   t e c hni que   i n   a c t i o n ,   c o n s i de r   t h e   f o l l o w i ng  e x a m p l e .   W e   h a v e   t wo  s e n t e n c e s o n e   f r o m   t h e   o r i g i na l   t e x t   ( 1 )   a n o n e   poten t i a ll y   p l a g i a r i z e s e n t e n c e   ( 2 ).     1   ( Or i g i na l   s e n t e n c e ) T h e   a l go r i t hm   us e i nf o r m a t i o n   r e tr i e va l   a n ke y wo r s e que n c e   m a t c hing   t e c h ni que s   to   de t e c t   pl a g i a r i z e s e n t e n c e s .     2   ( P ot e n t i a l ly   p l a g i a r i z e s e n t e n c e ) T h e   a l go r i t hm   de t e c t s   pl a g i a r i z e s e n t e n c e s   us i ng  i nf o r m a t i o n   r e tr i e va l   a n ke y wo r s e que n c e   m a t c hi ng  t e c hni qu e s .   T h e   f i r s t   s t e i n   p l a g i a r i s m   de t e c t i o n   us i ng  T R C   i nv o l v e s   c o n s t r uc t i n a   c o - o c c ur r e n c e   gr a ph   f r o m   a   s e t   o f   t e x t   d o c um e n t s .   T hi s   gr a p h   r e pr e s e n t s   th e   r e l a t i o n s hi ps   b e t we e n   wo r ds   a n ph r a s e s   w i t hi n   t h e   do c um e n t s .   W e   c a n   i de n t i f y   s i mi l a r i t i e s   a n pot e n t i a l   p l a g i a r i s m   by   a n a ly z i ng  t h e   c o - o c c ur r e n c e   pa tt e r n s   i t h e   gr a ph .   As   s h o wn   i F i gur e   2,   b o t h   s e n t e n c e s   un d e r go   pr e pr o c e s s i ng,   whi c h   i nv o l ve s   t e x t   c l e a ni ng  a n d   to ke ni z a t i o n .   Dur i n t hi s   pr o c e s s ,   s to p   w o r ds   l i ke   t h e ,   a n d,   a n t o   a r e   r e m o v e d,   a n o nl y   t h e   i m po r t a n t e r m s   a r e   e x t r a c t e d,   l e a vi ng  t h e   s i g nif i c a n t   w o r ds   f r o m   e a c h   s e n t e n c e .   Af t e r   pr e pr o c e s s i n g,   t h e   t e r m s   f r o m   t h e   o r i g i na l   s e n t e n c e   1   a n 2   a r e :     1 :   a l go r i t hm ,   i nf o r m a t i o n ,   r e tr i e va l ,   ke y wo r d,   s e que nc e ,   m a t c h ,   t e c hni que ,   s e n t e n c e .     2 :   a l go r i t hm ,   s e n t e n c e ,   i nf o r m a t i o n ,   r e tr i e v a l ,   ke y wo r d,   s e que n c e ,   m a t c h ,   t e c h ni que .   Af t e r   pr e pr o c e s s i n g,   t h e   n e x t   s t e p   i s   to   f i n t h e   c e n t r o i ( t h e   m o s t   r e pr e s e n t a t i v e   wo r d)   f o r   e a c h   s e n t e n c e .   T h e   c e n t r o i i s   c a l c u l a t e by   m e a s ur i n t h e   a ve r a ge   d i s t a n c e   b e t we e n   e a c h   wo r i n   t h e   s e n t e n c e   a n a ll   o t h e r   w o r ds   i n   t h e   c o - o c c ur r e n c e   gr a ph .   I n   t hi s   c a s e ,   t h e   c e n t r o i t e r m   f o r   b ot h   s e n t e n c e s   ( 1   a n 2 i s   m a t c h .   T hi s   wo r a c t s   a s   a   c e n t r a l   r e f e r e n c e   po i n t   t h a t   b e s t   c a p t ur e s   t h e   e s s e n c e   o f   t h e   s e n t e n c e .   On c e   t h e   c e n t r o i d s   a r e   i de n t i f i e d,   t h e   c e n t r o i d - b a s e d i s t a n c e   b e t we e n   t h e   t w o   s e n t e n c e s   i s   c a l c u l a t e d.   S i n c e   b o t h   s e n t e n c e s   s h a r e   t h e   s a m e   c e n t r o i ( m a t c h ) ,   t h e   di s t a nc e   i s   0.   T hi s   d i s t a n c e   i s   c o n v e r t e i n t a   s i mi l a r i t y   s c o r e ,   wh e r e   a   d i s t a nc e   o f   c o r r e s po n ds   to   a   s i mi l a r i t y   s c o r e   o f   1,   i n d i c a t i n g   i de n t i c a l   c e n t r o i d - ba s e r e pr e s e n t a t i o ns .   T hi s   s t udy   c o m pa r e s   t h e   s im il a r i t y   s c o r e   to   a   pr e de f i ne t h r e s h o l o f   0. 8.   I f   t h e   s c o r e   e x c e e ds   0. 8,   t h e   s y s t e m   f l a gs   t h e   s e n t e n c e s   a s   p l a g i a r i z e d.   I n   t hi s   c a s e ,   w i t h   a   s im il a r i t y   s c o r e   o f   1,   whi c h   s ur pa s s e s   t h e   t h r e s h o l d,   t h e   s e n t e n c e s   a r e   f l a gge a s   p l a g i a r i z e d.           F i gur e   2.   E x a m p l e   o f   p l a g i a r i s m   de t e c t i o n   us i ng  T R C       3.   E XP E R I M E NT   RE S UL T S   T hi s   s e c t i o n   o u t l i ne s   t h e   e x pe r im e n t a l   pr o c e s s   a n d   pr e s e n t s   t h e   r e s u l t s   o b t a i n e whil e   e v a l ua t i n t h e   T R C   t e c hni que   f o r   pl a g i a r i s m   d e t e c t i o n .   T h e   e x pe r i m e n t s   a r e   de s i g n e to  a s s e s s   t h e   pe r f o r m a n c e   o f   T R C   i c o m pa r i s o n   w i t h   t r a di t i o n a l   t e x t   s i mi l a r i t y   m e t h o ds ,   s uc h   a s   J a c c a r a n C o s i n e   s i mi l a r i t y ,   a c r o s s   d i f f e r e n t   p l a g i a r i s m   s c e na r i o s ,   i nc l ud i n n e a r - c o p y ,   m o d i f i e c o pi e s ,   a n pa r a p h r a s e d.   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2 5 0 2 - 4 7 52   In do n e s i a n   J   E l e c   E n g   &   C o m S c i Vo l .   3 8 ,   N o .   3 J un e   20 2 5 :   1 722 - 1 734   1728   3. 1.     Dat as e t   p r e p a r at ion   T h e   da t a s e f o r   e v a l ua t i n t h e   e f f e c t i v e n e s s   o f   t h e   T R C   t e c h ni que   i n   p l a g i a r i s m   de t e c t i o n   c o n s i s t e o f   t w pr i m a r y   c o m po ne n t s a   da t a s e f o r   c o n s t r uc t i n t h e   c o - o c c ur r e n c e   gr a ph   a n a   da t a s e f o r   t e s t i n g   p l a g i a r i s m   de t e c t i o n .   T h e   f i r s t   da t a s e t   i n c l ude a   c o r pus   o f   100  a c a de mi c   do c u m e n t s   s e l e c t e f r o m   publi c l y   a c c e s s i bl e   a c a de mi c   a r c hi ve s   a n r e po s i t o r i e s .   T he s e   do c u m e n t s   we r e   c h o s e n   to   r e pr e s e n t   d i v e r s e   t o pi c s   a n d   wr i t i n s t y l e s .   E n s ur i n t h e   ge n e r a li z a bil i t y   o f   t h e   c o - o c c ur r e n c e   gr a ph .   T h e   c o - o c c ur r e n c e   gr a phs   ge n e r a t e f r o m   t hi s   c o r pus   pr o vi de a   r e f e r e n c e   f o r   i de n t i f yin c e n t r o i t e r m s   i n   t e x t   d o c um e n t s ,   whi c h   i s   e s s e n t i a l   f o r   a pp l yi ng  t h e   T R C   t e c h ni que .   T h e   s e c o n da t a s e t   wa s   s pe c if i c a ll y   pr e pa r e to   a s s e s s   t h e   p l a g i a r i s m   de t e c t i o n   c a pa bil i t i e s   o f   t h e   T R C   t e c h ni que .   I c o m pr i s e o r i g i na l   a n p l a g i a r i z e s e n t e n c e s ,   w i t h   t h e   o r i g i na l   s e n t e nc e s   s o ur c e f r o m   t h e   s a m e   a c a de mi c   a r c hi ve s   a s   t h e   f i r s t   da t a s e t.   T hi s   da t a s e c o n t a i n e 300  c a s e s   o f   p l a g i a r i s m ,   c a t e gor i z e i n t o   t h r e e   t y pe s n e a r   c o py ,   m o d i f i e c o p y ,   a n pa r a ph r a s e .   T o   c r e a t e   c o n s i s t e n t   e x a m p l e s   f o r   e a c h   c a t e g o r y ,   C ha t GPT   wa s   us e to  s i m u l a t e   t h e   c a s e s ,   f o l l o w i n pr e de f i ne de f i n i t i o n s   o f   e a c h   p l a g i a r i s m   t y pe   to  e n s ur e   unif o r m i t y .   S a m p l e   m e s s a ge s   we r e   c r a f t e f o r   e a c h   c a s e ,   pr o duc t i n c o n t r o l l e a n c o ns i s t e n t   i n s t a n c e s   o f   p l a g i a r i s m   a c r o s s   a ll   t r i a l s .   T a bl e   pr e s e n t s   a   de t a i l e b r e a kdo wn   o f   t h e   i ns t a n c e s   o f   p l a g i a r i s m   c a t e go r i z e d   by   t y p e .   T h e   e v e n   d i s t r i b ut i o n   a m o n t h e   t h r e e   c a t e g o r i e s   a l l o w e f o r   a   c o m pr e h e n s i ve   e v a l ua t i o n   o f   t h e   e f f e c t i v e n e s s   o f   t h e   T R C   t e c h ni que   i n   i de n t i f yi ng  v a r i o us   f o r m s   o f   p l a g i a r i s m .       T a bl e   1.   Num be r   o f   p l a g i a r i z e c a s e s   by   t y pe   T y p e   of  pl a gi a r is m   N umbe r   of   p la gi a r iz e c a s e s   N e a r - c o p y   100   M o di f i e c o p y   100   P a r a phr a s e   100       3. 2.     E x p e r im e n t a l   s e t u p   3. 2. 1.   B as e l in e   c om p a r is on   I n   t h i s   s t udy ,   we   c o m p a r e   t h e   e f f e c t i v e ne s s   o f   t h e   T R C   t e c hni qu e   w i t h   t w we l l - e s t a bli s he b a s e l i n e   m e t h o ds   f o r   m e a s ur i n t e x t   s i mi l a r i t y J a c c a r S i mi l a r i t y   a n C o s i ne   s im il a r i t y .   T h e s e   m e t h o ds   a r e   w i de l y   us e i n   p l a g i a r i s m   d e t e c t i o n   a n t e x t   a n a l y s i s   du e   to   t h e i r   s i m p l i c i t y   a n e f f e c t i v e n e s s   i n   de t e c t i ng  v a r i o us   f o r m s   o f   c o n t e n o v e r l a p.   C o s i n e   s im il a r i t y m e a s ur e s   t h e   s i mi l a r i t y   b e t we e n   t w t e x v e c t or s   b a s e d   o n   t h e i r   c o s i n e   a n g l e .   -   J a c c a r s im i l a r i t y   T h e   J a c c a r s i mi l a r i t y   m e a s ur e s   t h e   de gr e e   o f   o v e r l a b e t we e n   t wo   s e t s   by   d i v i d i ng  t h e   s i z e   o f   t h e i r   i n t e r s e c t i o n   by   t h e   s i z e   o f   t h e i r   u ni o n .   W h e n   a pp l ied  to   t e x t   a n a l y s i s ,   e a c h   wo r o r   to ke n   i n   a   t e x t   s e g m e n t   i s   c o n s i de r e a n   e l e m e n t   o f   t h e   s e [ 28 ] .   T h e   J a c c a r c o e f f i c i e n t ,   us e d   to  c a l c u l a t e   t hi s   s im il a r i t y ,   i s   de f i ne a s   f o l l o ws :     ( , ) = = | | + | | | |   ( 6)     W h e r e   A   a n B   a r e   t h e   s e t s   o f   t o ke n s   f r o m   t wo   t e x s e g m e n t s ,   t hi s   m e t h o i s   pa r t i c u l a r l y   e f f e c t i v e   i de t e c t i n n e a r - c o p y   p l a g i a r i s m ,   w h e r e   t h e r e   i s   a   s ub s t a n t i a l   o v e r l a i t h e   wo r ds   us e b e t we e n   t h e   o r i g i na l   a n t h e   s u s pe c t e c o py .   Ho we v e r ,   i t   c a n   b e   s e n s i t i ve   t o   m i n o r   m o d i f i c a t i o n s ,   a s   s m a ll   wo r d - c h o i c e   c h a n g e s   c a n   s i g nif i c a n t l y   r e duc e   t h e   s i mi l a r i t y   s c o r e .   -   C o s i n e   s im i l a r i t y   C o s i n e   s im i l a r i t y   i s   a   m e t r i c   t h a t   qua n t i f i e s   t h e   s im il a r i t y   b e t we e n   t wo  v e c t or s   by   m e a s ur i ng  t h e   c o s i n e   o f   t h e   a n g l e   b e t we e n   t h e m   i n   a   m u l t i - d i m e n s i o na l   s p a c e .   I n   t e x t   a n a l y s i s ,   e a c h   do c um e n t   i s   r e pr e s e n t e a s   a   ve c t or   wi t hi n   a   t e r m   s pa c e ,   wh e r e   e a c h   d im e ns i o n   c o r r e s po n ds   to   a   uni que   wo r or   to ke n .   T hi s   a ppr o a c h   e n a bl e s   t h e   c o m pa r i s o n   o f   do c u m e n t s   b a s e o n   t h e   di r e c t i o n   o f   t h e i r   v e c t o r s   r a t h e r   th a n   t h e i r   m a g ni t ude ,   m a k i ng  c o s i n e   s im il a r i t y   pa r t i c u l a r ly   e f f e c t i v e   i n   i de n t i f yi ng  s e m a n t i c   s im il a r i t y   b e t we e n   t e x t s   [ 28] .   T h e   c o s i n e   s im il a r i t y   s c o r e   i s   c a l c u l a t e d   a s :       ( , ) =  × = × = 1 2 2 = 1 = 1   ( 7)     W h e r e   A   a n B   a r e   t h e   v e c to r   r e pr e s e n t a t i o n s   o f   th e   t wo   t e x s e g m e n t s ,   c o s i n e   s im il a r i t y   i s   w i de ly   us e f o r   c o m pa r i ng  t h e   o v e r a l l   s e m a n t i c   c o n t e n o f   t w tex t s ,   m a k i ng  i t   e f f e c t i v e   f o r   i de n t i f yi ng  m o d i f i e c o pi e s   wh e r e   s o m e   wo r ds   m a y   h a v e   b e e n   r e p l a c e d,   b ut   t h e   o v e r a l l   m e a ni ng  r e m a i ns   s im i l a r .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:   2 5 0 2 - 4 7 52       P lagi ar is de tec ti on  us ing  tex t - r e pr e s e nti ng  c e ntr oids   tec hniques   ( Sur e e por N ualni m )   1729   F o r   t h e   s i m il a r i t y   b e t we e n   J a c c a r a n C o s i n e ,   we   pr e pr o c e s s   t h e   t e x da t a   by   to ke ni z i ng  t h e   do c um e n t s   a n c o nv e r t i n t h e m   t l o we r c a s e .   S to pw o r ds   a r e   r e m o v e t e n s ur e   s i mi l a r i t y   m e a s u r e m e n t s   f o c us   o n   m e a ni ng f u l   c o n t e n t   r a t h e r   t h a n   c o m m o f u n c t i o n   wo r ds .   F o r   J a c c a r s i mi l a r i t y ,   t e x s e gm e n t s   a r e   t r e a t e a s   s e t s   o f   to ke n s .   I n   c o n tr a s t,   f o r   C o s i n e   s im il a r i t y ,   t e r m   f r e que nc y - i nve r s e   do c um e n t   f r e que n c y   ( T F - I DF )   we i g h t i n r e pr e s e n t s   e a c h   do c u m e n t   a s   a   ve c to r .   T h e   c o m pa r i s o n   i s   pe r f o r m e us i ng  t h e   s c ik i t - l e a r li b r a r y   i n   P y t h o n .     3. 2. 2 E val u at ion   m e t r ics   T a s s e s s   t h e   e f f e c t i ve n e s s   o f   t h e   pl a g i a r i s de t e c t i o n   a ppr o a c h ,   f o ur   s t a n da r m e t r i c s   a r e   e m p l o y e d a c c ur a c y ,   pr e c i s i o n ,   r e c a ll ,   a n F - m e a s ur e   [ 29] .   T h e s e   m e t r i c s   a r e   c a l c u l a t e ba s e o n   t he   e n t r i e s   i n   t h e   c o nf us i o n   m a t r i x ,   s h o wn   i n   T a bl e   2,   whi c h   s u m m a r i z e s   t h e   m o de l s   c l a s s if i c a t i o n   pe r f o r m a n c e .       T a bl e   2 .   C o n f u s i o n   m a t r i x     P r e di c t e pl a gi a r i z e d   P r e di c t e d n o n - pl a gi a r iz e d   A c tu a pl a gi a r i z e d   T r u e   p o s it iv e  ( T P )   F a ls e   n e ga ti ve  ( F N )   A c tu a n o n - pl a gi a r i z e d   F a ls e   p o s it i ve  ( F P )   T r u e   n e ga ti ve  ( T N )       TP c a s e s   wh e r e   t h e   m o de l   c o r r e c t l y   i d e n t i f i e s   p l a g i a r i z e c o n t e n t ,   f l a gg i ng  i t   a s   p l a g i a r i s m .   T N:  i n s t a nc e s   w h e r e   n o n - p l a g i a r i z e c o n t e n t   i s   c o r r e c t l y   c l a s s i f i e a s   o r i g i na l   [ 30] .   FP :   o c c ur r e n c e s   wh e r e   n o n - p l a g i a r i z e c o n t e n t   i s   m i s t a ke nly   f l a gg e a s   p l a g i a r i z e d,   pot e n t i a ll y   in c l ud i ng   c o r r e c t l y   c i t e c o n t e n t   [ 30]   F N:  i ns t a n c e s   wh e r e   a c t ua l   p l a g i a r i s m   i s   u n de t e c t e d,   l e a d i ng  t i t s   i n c o r r e c t   c l a s s if i c a t i o n   a s   o r i g i na l   c o n t e n t .   T h e s e   c a t e go r i e s   f o r m   t h e   ba s i s   f o r   c a l c u l a t i n pe r f o r m a nc e   m e t r i c s   a s   f o l l o ws :   -   A c c ur a c y p r o por t i o n   o f   a ll   c o r r e c t l y   c l a s s if i e i ns t a n c e s   ( b o t h   T P   a n T N)   o u o f   t h e   tot a l   i ns t a n c e s .         ( ) =  +   +  +  +    ( 8)     -   P r e c i s i o n p r o p o r t i o n   o f   c o r r e c t l y   i de n t i f i e p l a g i a r i z e c a s e s   a m o n a l l   i ns t a n c e s   f l a gg e a s   p l a g i a r i z e d.          ( ) =   +    ( 9)     -   R e c a ll a bil i t y   o f   t h e   m o de l   to   c o r r e c t l y   i de n t i f y   a ll   a c t ua l   i ns t a n c e s   o f   p l a g i a r i s m .         ( ) =   +    ( 10)     -   - m e a s ur e a   b a l a n c e m e a s ur e   t h a t   c o m bi ne s   pr e c i s i o n   a n r e c a l l ,   pr o vi d i ng  a n   o v e r a l l   e f f e c t i ve n e s s   s c o r e .         ( ) = 2 ×   ×    +    ( 11)     As   pr o p o s e i n   pr e vi o us   r e s e a r c h   [ 29] [ 30] ,   t h e s e   m e t r i c s   a l l o a   c o m pr e h e ns i ve   e v a l u a t i o n   o f   t h e   m o de l a bil i t y   t o   de t e c t   pl a g i a r i s m   a c c ur a t e l y   a n e f f e c t i ve l y .     3. 3.     Re s u l t s   an d   d is c u s s ion   I n   t hi s   s e c t i o n ,   we   pr e s e n t   a n di s c u s s   t h e   r e s u l t s   o f   t h e   e x pe r i m e n t s   c o n duc t e to  e v a l ua t e   t h e   pe r f o r m a n c e   o f   t h e   T R C   t e c h ni que   i n   c o m pa r i s o n   to  ot h e r   e s t a bl i s he m e t h o ds   l i ke   J a c c a r a nd  C o s i n e   s i mi l a r i t y .   T h e   e v a l ua t i o n   m e t r i c s   i nc l ud e   a c c ur a c y ,   pr e c i s i o n ,   r e c a ll ,   a n F - m e a s ur e .   T h e   da t a s e t   us e f o r   t hi s   a n a ly s i s   c o ns i s t s   o f   100  a c a de m i c   pa pe r s   s p l i t   i n t o   5, 406   s e n t e n c e s ,   f o r m i n a n   un d i r e c t e c o - o c c ur r e n c e   gr a ph   w i t h   3, 172  n o de s   a n 97 , 216  e dge s .   T h e   pe r f o r m a nc e   o f   t h e   T R C   t e c hni que   wa s   e v a l ua t e i n   th r e e   ke y   p l a g i a r i s m   de t e c t i o n   c a s e s n e a r   c o py ,   m o d i f i e c o py ,   a n pa r a ph r a s e .   T a bl e s   to  5   pr o vi de   t h e   de t a i l e d   r e s u l t s   f o r   e a c h   c a s e ,   a n t h e   c o m bi ne r e s u l t s   a r e   pr e s e n t e i n   T a bl e   6.   As   s h o wn   i n   T a bl e   3 ,   C o s i n e   s im il a r i t y   a c hi e v e d   t h e   hi g h e s t   a c c ur a c y   f o r   n e a r - c o py   p l a g i a r i s m   a t   85% .   T h e   T R C   t e c h ni que   s t r i ke s   a   b e t t e r   b a l a nc e   b e t we e n   pr e c i s i o n   ( 0. 89)   a n r e c a l l   ( 0. 64)   c o m pa r e to   J a c c a r d,   whi c h   h a poo r   r e c a l l   ( 0. 38) .   T h e   r e s ul t s   s h o t h a c o s i n e   s i mi l a r i t y   pe r f o r m s   be tt e r   o v e r a l l ,   b ut   T R C   i s   m o r e   a da pt a bl e   i de t e c t i n mi n o r   ne a r - c o py   p l a g i a r i s m ,   w hi c h   o f t e n   r e qu i r e s   a   b a l a n c e   b e t we e Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2 5 0 2 - 4 7 52   In do n e s i a n   J   E l e c   E n g   &   C o m S c i Vo l .   3 8 ,   N o .   3 J un e   20 2 5 :   1 722 - 1 734   1730   pr e c i s i o n   a n r e c a l l .   T hi s   i m p li e s   t h a T R C   m a b e   m o r e   us e f u l   i n   r e a l - wo r l s i t ua t i o n s   w h e r e   ne a r - c o py   p l a g i a r i s m   i s   l e s s   f r e qu e n t ,   b ut   i n s t a nc e s   o f   t e x t ua l   s i mi l a r i t y   c a n   s t i ll   b e   i de n t i f i e d.       T a bl e   3.   R e s u l t   o f   p e r f o r m a n c e   m e a s ur e m e n t   f o r   n e a r   c o py   p l a g i a r i s m   c a s e     J a c c a r d   C o s in e   P r o p o s e d m e th o d   A c c u r a c y   69%   85%   78%   P r e c is i o n   1.00   0.86   0.89   R e c a ll   0.38   0.84   0.64   F - me a s ur e   0.55   0.85   0.74       I n   T a bl e   4,   i t   wa s   f o un t h a t   t h e   T R C   t e c hni qu e   o n c e   a ga i n   pe r f o r m e b e t t e r   t h a n   t h e   J a c c a r a nd   C o s i n e   s im il a r i t y   m e t h o ds   i n   c a s e s   i nv o l vi ng  mo di f i e c o pi e s ,   a c hi e vi ng  a n   a c c ur a c y   o f   86% .   T h e   T R C   t e c h ni que   a l s o   de m o ns t r a t e a   hi g h e r   F - m e a s ur e   ( 0. 85) ,   hi g hli g h t i n i t s   s t r e n gt h   i n   h a n d li ng  m o d i f i e t e x e f f e c t i v e ly .   T h e s e   r e s u l t s   i n d i c a t e   t h a t h e   T R C   t e c h ni que   i s   we ll - s u i t e f o r   de t e c t i n e xa c t   c o py i ng  a nd   c o n t e n t   t h a h a s   b e e n   r e s t r uc t ur e d   o r   r e wor de d,   m a k i n i t   a da pt a bl e   a n r o b us t   i n   s uc h   s c e n a r i o s .       T a bl e   4.   R e s u l t   o f   p e r f o r m a n c e   m e a s ur e m e n t   f o r   m o d i f i e c o py   c a s e s     J a c c a r d   C o s in e   P r o p o s e d m e th o d   A c c u r a c y   71%   84%   86%   P r e c is i o n   1.00   0.85   0.91   R e c a ll   0.42   0.82   0.80   F - me a s ur e   0.59   0.84   0.85       I n   T a bl e   5,   t h e   T R C   m e t h o s h o we 80%   a c c ur a c y   f o r   pa r a ph r a s e   de t e c t i o n ,   s l i g h t l y   l o we r   t h a n   t h e   83%   a c hi e v e by   C o s i ne .   Ho we v e r ,   T R C   e x hi b i t e b e t t e r   r e c a l l   ( 0. 68)   t h a n   b o t h   C o s i n e   a n J a c c a r d ,   m a k i ng   i t   m o r e   e f f e c t i v e   i n   i de n t i f yi ng  pa r a p h r a s e c o n t e n t .   S i n c e   pa r a ph r a s i ng  o f t e n   i nv o l v e s   n o o nl y   r e p l a c i ng   s y n o nym s   b ut   a l s o   r e s t r uc t ur i n s y n t a x ,   t h e   a bi l i t o f   t h e   T R C   m e t h o to  b a l a n c e   pr e c i s i o n   ( 0. 89)   a n r e c a l l   m a ke s   i t   pa r t i c u l a r ly   e f f e c t i v e   i n   t hi s   c o n t e x t .   I t s   r e l a t i v e ly   hi g h e r   F - m e a s ur e   ( 0. 77)   c o m pa r e to  ot h e r   m e t h o ds   a l s o   hi g hli g h t s   i t s   us e f u l ne s s   i n   de t e c t i n m o r e   s o phi s t i c a t e f o r m s   o f   p l a g i a r i s m.       T a bl e   5.   R e s u l t   o f   p e r f o r m a n c e   m e a s ur e m e n t   f o r   p a r a ph r a s e   c a s e s     J a c c a r d   C o s in e   P r o p o s e d m e th o d   A c c u r a c y   62%   83%   80%   P r e c is i o n   1 .00   0.85   0.89   R e c a ll   0.24   0.80   0.68   F - me a s ur e   0.39   0.82   0.77       T h e   o v e r a l l   f i nd i ng s   f r o m   a l l   c a s e s ,   pr e s e n t e i n   T a bl e   6,   s h o t h a t   t h e   T R C   t e c hni qu e   c o n s i s t e n t l pe r f o r m s   we ll   i a ll   t e s t e pl a g i a r i s m   s c e na r i o s .   W hil e   C o s i n e   s im il a r i t y   ge n e r a ll y   d e l i ve r s   hi g h   a c c ur a c y ,     t h e   T R C   t e c h ni que   s t a n ds   o ut   f o r   i t s   a bil i t y   t o   m a i n t a i a   s t r o n b a l a n c e   b e t we e n   pr e c i s i o n   a n d   r e c a l l   i v a r i o us   c a s e s ,   m a k i ng  i t   a   vi a bl e   o p t i o n   f o r   de t e c t i n p l a g i a r i s m ,   e s p e c i a ll y   w he n   de a l i ng  w i t h   m o d i f i e o r   pa r a ph r a s e c o n t e n t.   T h e s e   r e s u l t s   e m p h a s i z e   t h e   a da pt a bi li t y   o f   t h e   T R C   t e c hni que ,   whi c h   c a de t e c a   b r o a de r   r a n ge   o f   p l a g i a r i s m   w hi l e   mi n im i z i ng  t h e   l o s s   o f   pr e c i s i o n   a n r e c a l l .       T a bl e   6.   R e s u l t   o f   p e r f o r m a n c e   m e a s ur e m e n t   f o r   a l l   c a s e s     J a c c a r d   C o s in e   P r o p o s e d m e th o d   A c c u r a c y   51%   83%   76%   P r e c is i o n   1 .00   0.95   0.96   R e c a ll   0.35   0.82   0.71   F - me a s ur e   0.51   0.88   0.82       T f u ll y   u n de r s t a n t h e   s t r e n gt h s   a n li mi t a t i o n s   o f   t h e   pr o p o s e m e t h o d,   we   t h or o ughl y   a na l y z e d   i ns t a nc e s   w h e r e   f a l s e   po s i t i v e   a n f a l s e   n e g a t i ve   r e s u l t s   o c c ur r e d.   B y   e x a mi n i ng  s pe c if i c   e x a m p l e s ,   w e   a i m e d   to  pi n po i n t   p ot e n t i a l   i s s u e s   a n a r e a s   t h a c o ul be   i m pr o v e d.   W e   c a r r i e o u a   c o m pr e h e n s i ve   e x a mi na t i o Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:   2 5 0 2 - 4 7 52       P lagi ar is de tec ti on  us ing  tex t - r e pr e s e nti ng  c e ntr oids   tec hniques   ( Sur e e por N ualni m )   1731   o f   f a l s e   po s i t i ve   i n s t a n c e s ,   de t a i l e i n   T a bl e   7 ,   a n f a l s e   n e ga t i v e   i n s t a nc e s ,   o u t l i ne i n   T a bl e   8 ,   to  r e c o gni z e   t h e   l im i t a t i o n s   o f   t h e   s ugge s t e m e t h o a n to   a s c e r t a i n   r e g i o n s   t h a t   r e qui r e   i m pr o v e m e n t .       T a bl e   7.   E x a m p l e   o f   t h e   s o ur c e   s e n t e n c e   a n s us p ic i o us   i n   f a l s e   po s i t i ve   c a s e       S im il a r it y   v a lu e   S o u r c e  s e n te n c e   S us pi c i o us  s e nt e nc e   C o s in e   J a c c a r d   T R C   T h e  p r im a r y  h e ur is ti c  r e tr i e v a s te c a le a d t o  de c r e a s in g t h e   s e a r c h s pa c e   f o r   s ubs e que nt  t e x a li gnm e nt  s te p.   T h e  i ni ti a he u r is ti c   r e t r i e v a pha s e  he lp s   r e du c e  t he  s c o p e   of  t h e  s e a r c f or  t he   f o l l o w in g t e xt  a li gnme nt  p r oc e s s .   63.5%   46.5%   100%       T h e   hi g h   s im il a r i t y   s c o r e   f r o m   T R C   i nd i c a t e s   a   po s s i bl e   f a l s e   po s i t i v e   due   t o   i t s   s e ns i t i vi t y   t s e m a n t i c   r e l a t i o n s hi p s .   T R C   c a n   i n t e r pr e s l i g h t   r e ph r a s i ng s   a n s y n o nym o us   e x pr e s s i o n s   a s   i de n t i c a l ,   whi c m a y   c a u s e   i t   to  i n c o r r e c t l y   f l a a   s e n t e nc e   a s   p l a g i a r i z e d,   e ve n   i f   t h e r e   a r e   s o m e   l e xi c a l   d i f f e r e n c e s   f r o m   t h e   o r i g i na l   s o ur c e .   T hi s   hi g hli g h t s   a   pot e n t i a l   l im i t a t i o n   o f   T R C   i d i s t i n gu i s hi ng  b e t we e n   ge n u i ne   p lag i a r i s a n a c c e pt a bl e   r e wo r di n g.   T a bl e   pr e s e n t s   a   c a s e   o f   n e a r - c o p y   p l a g i a r i s wh e r e   t h e   T R C   m e t h o y i e l d s   a   r e l a t i v e ly   l o w   s i mi l a r i t y   s c o r e   o f   32% .   T hi s   s c o r e   s ugge s t s   a   p ot e n t i a l   f a l s e   ne ga t i ve .   T h e   l o s c o r e   m a y   a r i s e   b e c a us e   r e dun da n t   ph r a s e s   we r e   r e m o v e f r o m   t h e   s us p ic i o us   s e n t e n c e ,   whi c h   d i s r upt s   t h e   a l i g nm e n t   o f   c e n t r o i d   t e r m s .   As   a   r e s u l t ,   t h e   c e n t r o i t e r m s   i n   t h e   s o ur c e   a n s us p i c i o us   s e n t e n c e   m a y   n o c o r r e s p o n c l o s e l y ,   l e a d i ng  to   a   r e duc e s i mi l a r i t y   s c o r e .   F ur t h e r m o r e ,   t h e   T R C   m e t h o d’ s   s e n s i t i v i t y   t m i n o r   s t r uc t ur a l   c h a n g e s ,   s uc h   a s   r e p h r a s i ng  o r   r e o r de r i n t e r m s ,   c a n   a l s o   c a us e   a   de c r e a s e   i n   t he   s im i l a r i t y   s c o r e ,   e v e n   t ho ugh   t h e   s e n t e n c e s   s t i ll   c o nv e y   s im il a r   m e a ni ngs   a n c o n t e xt s .       T a bl e   8.   E x a m p l e   o f   t h e   s o ur c e   s e n t e n c e   a n s us p ic i o us   i n   t h e   f a l s e   n e ga t i v e   c a s e       S im il a r it y   v a lu e   S o u r c e  s e n te n c e   S us pi c i o us  s e nt e nc e   C o s in e   J a c c a r d   T R C   F a c t o r s   c o nt r ib ut in g t o  p la gi a r is m i nc lu d e   la c of  a w a r e n e s s , l a c of  und e r s ta ndi ng, l a c of   c o mp e t e n c e , a nd p e r s o na a tt it ud e s .   F a c t o r s   c o nt r ib ut in g t o  p la gi a r is m i nc lu d e   la c of  a w a r e n e s s , unde r s ta ndi ng,  c o mp e te n c e , a nd p e r s o na a tt it ud e s .   93.7%   87.9%   32%       T h i s   s t udy   e x a m i n e t h e   l i m i t a t i o n s   o f   t r a di t i o n a l   pl a gi a r i s m   de t e c t i o n   m e t h o ds ,   s uc h   a s   t h e   VSM   a n B OW ,   i n   a c c ur a t e l y   i de n t i f y i n n ua n c e f o r m s   o f   pl a gi a r i s m .   W h i l e   pr e v i o us   r e s e a r c h   h a s   a s s e s s e t h e   e f f e c t i v e n e s s   o f   t h e s e   m e t h o ds   i n   de t e c t i n e x a c t   c o pi e s   o r   h i gh l y   s i m i l a r   c o n t e n t ,   i t   h a s   n o t   s pe c i f i c a l l y   a ddr e s s e t h e i r   l i m i t a t i o n s   i n   h a n dl i n c o m pl e x   s e m a n t i c   v a r i a t i o n s ,   s uc h   a s   s y n o n y m   s ub s t i t ut i o n   a n pa r a ph r a s i n g.   T h i s   ga un de r s c o r e s   t h e   n e e f o r   a dv a n c e t e c h n i que s   t h a t   c a pt ur e   s e m a n t i c   a n s t r uc t ur a l   n ua n c e s .   Our   f i n di n gs   i n di c a t e   t h a t   t h e   T R C   t e c h n i que   i s   we l l - s ui t e f o r   de t e c t i n n ua n c e pl a gi a r i s m ,   pa r t i c ul a r l y   i n   m o di f i e a n pa r a ph r a s e c o n t e n t   c a s e s .   T h e   pr o po s e m e t h o a c h i e v e a n   a c c ur a c y   r a t e   o f   86%   a n a   pr e c i s i o n   s c o r e   0. 91  i n   i de n t i f y i n m o di f i e c o pi e s ,   o ut pe r f o r m i n t r a di t i o n a l   m e t h o ds   l i ke   C o s i n e   a n J a c c a r s i m i l a r i t y .   T R C   de m o n s t r a t e b a l a n c e pe r f o r m a n c e   a c r o s s   di f f e r e n t   t y pe s   o f   pl a gi a r i s m ,   i n c l udi n n e a r - c o py ,   m o di f i e c o py ,   a n pa r a ph r a s e ,   e x c e l l i n i n   c a s e s   o f   pa r a ph r a s e c o n t e n t   wh e r e   t r a di t i o n a l   m e t h o ds   t y pi c a l ly   f a i l   t o   c a pt ur e   s e m a n t i c   r e l a t i o n s hi ps .   T h e   s t ud y   a l s o   s ugge s t s   t h a t   t h e   hi g h e r   s e ns i t i vi t y   o f   t h e   T R C   t e c hni que   t s e m a n t i c   r e l a t i o n s hi ps   do e s   n ot   c o m pr o m i s e   i t s   e f f e c t i ve n e s s   i n   d e t e c t i n g   m o d i f i e a n pa r a p h r a s e t e x t .   C o m pa r e to   ot h e r   s t udi e s ,   s uc h   a s   t h o s e   by   C h a n e al.   [ 12]   a n d   Hu y nh   e al .   [ 14] ,   o ur   r e s u l t s   s h o t h a t   t h e   c e n t r o i d - b a s e a pp r o a c h   o f   T R C   i s   b e t t e r   e qu i ppe to  h a n d l e   s y n o nym   s u bs ti t ut i o n   a n s t r uc t u r a l   r e ph r a s i ng,   pr o vi d i ng  a n   a dv a n t a ge   o v e r   m e t h o ds   t h a t   r e l y   s o l e ly   o n   l e xi c a l   m a t c hi ng.   T h e   c o m pr e he n s i ve   e v a l u a t i o n   pr e s e n t e h e r e   un d e r s c o r e s   t h e   pot e n t i a l   o f   T R C   i n   m a n a g i ng  c o m p l e x   f o r m s   o f   p l a g i a r i s m h o we v e r ,   f ur t h e r   r e s e a r c h   i s   r e c o m m e n de t c o nf i r m   i t s   r o b us t n e s s   i r e a l - wo r l a pp l i c a t i o n s ,   pa r t i c u l a r l y   i c o n t e x t s   whe r e   s t r uc t ur a l   v a r i a t i o ns   m a y   l e a d   to  o c c a s i o na l   f a l s e   po s i t i v e s   o r   n e ga t i ve s .   De s p i t e   t h e   s t r e n gt h s   o f   T R C ,   t hi s   m e t h o f a c e s   s c a l a bil i t y   c h a ll e n ge s   due   to  t h e   c o m put a t i o n a de m a n d s   o f   c o - o c c ur r e n c e   gr a ph   c o n s t r uc t i o n .   F ut ur e   s t udi e s   s h o u l e x p l o r e   o p t i mi z a t i o n   s t r a teg i e s   to  e nh a nc e   t h e   f e a s i b il i t y   o f   T R C   f o r   l a r ge r   da t a s e t s   a n d i ve r s e   l i ngu i s t i c   c o n t e x t s .   A dd i t i o n a l ly ,   t h e   i n t e gr a t i o o f   s y n t a c t i c   pa r s i ng  a n e m be dd i ng - b a s e m o de l s   c o ul r e duc e   t h e   s e n s i t i v i t y   o f   T R C   to  s t r uc t ur a l   v a r i a t i o n s ,   pot e n t i a ll y   im pr o vi ng  pr e c i s i o n   i n   c o m p l e x   c a s e s .   F e a s i b l e   a ppr o a c h e s ,   s uc h   a s   hy b r i m e t h o ds   o r   n e ur a l   n e t wo r k   a ppr o xi m a t i o n s ,   m a y   i m pr o v e   t h e   c o m put a t i o n a l   e f f i c i e nc y   o f   t h e   c o - o c c ur r e n c e   gr a ph ,   e nh a nc i n t h e   a pp li c a bil i t y   o f   T R C   i n   l a r g e - s c a l e   da t a s e t s .   E x pa n d i ng  t h e   T R C   a ppr o a c h   t a ddr e s s   c r o s s - l a n gua ge   p l a g i a r i s m   d e t e c t i o n ,   pot e n t i a ll y   t h r o ugh   m u l t i li ngua l   e m be dd i n g s ,   i s   a l s o   a   pr o m i s i ng  d i r e c t i o n   f o r   Evaluation Warning : The document was created with Spire.PDF for Python.