I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol .   14 , N o.   1 F e br ua r y   2025 , pp.  641 ~ 649   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 14 .i 1 .pp 641 - 649          641     Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   C h i n e se  p ap e r  c l ass i f i c at i on  b ase d  on  p r e - t r ai n e d  l an gu age   m od e l  an d  h y b r i d  d e e p  l e ar n i n m e t h od       X in   L u o , S of ia n it a M u t al ib S yar ip ah  R u z ai n S ye d  A r is   S c h oo l  o f   C om pu t i ng  S c i e n c e s C ol l e ge   of  C o m pu t i ng I n f o r m a t i c s   a nd  M a t he m a t i c s U n i ve r s i t i   T e k no l og i  M A R A ,  S ha h  A l a m , M a l a ys ia       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e M a y 6, 2024   R e vi s e S e p 11, 2024   A c c e pt e S e p 30, 2024       With  the  explosive  growth  in  the  number  of  published  papers,  rese archers  must filter pa pers by c ategory to  improve re trieval  efficie ncy. The f eat ures of  data  can  be  learned  through  complex  network  structures  of  deep   le arning  models  without  the  need  for   man ual  definition  and   extraction  in  ad vance,  resulting  in better  processing  performance  for large d atasets. In o ur  stu dy, the  pre - trained  language  model  bidirectional  encoder  representations  from  transforme rs  (BERT)  and  other  deep   learning  models   were  applied   to   paper   classifi cation.  large - scale  chinese  scientific  literature  dataset  was   used,   including  abstracts keywords,  titles,  disciplines,  and  categor ies  from   396   papers.  Currently,  there   is  little  in - depth   research  on   the  role   of   titles,  abstracts and  keywords  in  classifi cation  and   how  they  are  u sed  in   combinat ion.  To  address  this  issue,  we   evaluated  classifi cation  res ults  by  employi ng  different  title,   abstract,   and  keywords  concatenation  meth ods  to   generate  model  input  data,   and  compared  the   effects  o a   single  sente nce  or   sentence  pair  data  input  methods.   We  also  adopted   an  ensemble  le arning  approach  to  integrat the  results  of  models  that  processed  titles keywor ds,  and  abstracts   independen tly  to  find  the   best  combinat ion.  Finall y,  we  studi ed  the   com bination  of  different  types   of  models,  such   as  the   combination  of  BERT  and  convolut ional n eural netwo rks (CNN) , and  measured the performa nce by  accuracy, weig hted average  precision , weight ed average recal l, and w e ighted  average F1  score.   K e y w o r d s :   B id ir e c ti ona e nc ode r   r e pr e s e nt a ti ons  f r om   tr a ns f or m e r s     C hi ne s e   s c i e nt if ic   li te r a tu r e   da ta s e t   D e e p l e a r ni ng mode l   M ode c om bi na ti on   P a pe r  c la s s if ic a ti on   P r e - tr a in in g l a ngua ge  m ode l   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   S of ia ni ta  M ut a li b   S c hool  of  C om put in g S c ie nc e s , C ol le ge  of  C om put in g, I nf or m a ti c s  a nd M a th e m a ti c s   U ni ve r s it T e knol ogi  M A R A   S ha h A la m , S e la ngor   40450 ,   M a la ys ia   E m a il s of ia ni ta @ ui tm .e du.my       1.   I N T R O D U C T I O N   I n r e c e nt  ye a r s , due  t th e  i nc r e a s in g numbe r  o f  s c ie nt if ic  pa pe r s , r e s e a r c he r s  ne e d t o r e tr ie ve  pa pe r s   r e la te to   th e ir  r e s e a r c f ie ld s   m or e   e f f ic ie nt ly T he   c a te gor la be li ng  of   s c ie nt if ic   pa pe r s   is   a   ta s th a m us be   c om pl e te d i n doc um e nt  t a xonomy. I f   it  i s  c om pl e te d by ma npowe r , pr of e s s io na knowle dge  m us be  r e qui r e d,  w hi c is   c os tl a nd  in e f f ic ie nt I t   is   a im por ta nt   ta s in   na tu r a la ngua ge   pr oc e s s in ( N L P )   to   c om pl e te   th e   a ut om a ti c   c la s s if ic a ti on  of   pa pe r s   th r ough  m a c hi ne   le a r ni ng   a lg or it hm s   a nd  a c hi e ve   pr a c ti c a a c c ur a c y.  A ppl yi ng  tr a di ti ona m a c hi ne   le a r ni ng  a lg or it hm s   to   c la s s if pa pe r s   r e qui r e s   c om pl e ti ng  two  s te ps F ir s t,   obt a in   th e   doc um e nt   r e pr e s e nt a ti on  v e c to r   th r ough  te r m   f r e que nc y - in ve r s e   doc um e nt   f r e que nc ( TF - I D F ) W or d2V e c gl oba ve c to r s  f or  w or d  r e pr e s e nt a ti on ( G lo V e c ) , F a s tT e xt ,   a nd othe r  m e th ods , a nd t he n us e  t he m   a s   in put   da t a   f or   c la s s if ic a ti on  a lg or it hm s   s uc a s   na iv e   B a ye s de c i s io tr e e s uppor ve c to r   m a c hi ne a nd   ne ur a ne twor [ 1] [ 4] .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  1 F e br ua r y   20 25 641 - 649   642   T r a di ti ona m a c hi ne   le a r ni ng  c la s s if ie r s   ha v e   hi gh  a c c ur a c a nd  e f f ic ie nc in   s m a ll   da ta   s e ts but   s tr uggl e   w it la r ge - s c a le   da ta   s e ts   w it c om pl e f e a tu r e s D e e l e a r ni ng  of f e r s   a dva nt a ge s   li ke   a voi di ng  m a nua f e a tu r e   de f in it io a nd  us in c om pl e ne twor k   s tr uc tu r e s   to   e xt r a c a nd  ge ne r a li z e   da ta   f e a tu r e s r e s ul ti ng  in   hi ghe r  doc um e nt  c la s s if ic a ti on a c c ur a c y. C onvolut io na ne ur a ne twor ks   ( C N N )  c a n e xt r a c lo c a f e a tu r e s  a nd   tr a ns f e r   th e m   to   gl oba f e a tu r e s   by  pool in la ye r s   f r om   te xt   s e qu e nc e s   [ 5] [ 6] R e c ur r e nt   ne ur a ne twor ( R N N )   a nd  lo ng  s hor t - te r m   m e m or ( L S T M )   m ode ls   a r e   s ui ta bl e   f or   pr oc e s s in s e que nt ia da ta   b e c a u s e   th e c a r e m e m be r   th e   de pe nde nc be twe e to ke ns   [ 7] [ 8] .   B id ir e c ti o na e nc ode r   r e pr e s e nt a ti ons   f r om   tr a ns f or m e r s   ( B E R T )   is   a   bi di r e c ti ona la ngua ge   m ode th a pe r f or m s   m a s la ngua ge   m ode ( M L M )   ta s ks   a nd  ne xt   s e nt e nc e   pr e di c ti on  ( N S P )   ta s ks   on  la r ge - s c a le   c or por a   to   e xt r a c c ont e xt ua s e m a nt ic   in f or m a ti on  a nd  obt a in   r e la ti ons hi ps   be twe e s e nt e n c e s   [ 9] [ 11] B E R T   c a n   be tt e r   e xt r a c s e nt e nc e   f e a tu r e   in f or m a ti on  a nd  unde r s ta nd  th e   s e m a nt ic   r e la ti ons hi ps   be twe e s e nt e n c e s due   to   th e   us e   of   bi di r e c ti ona e nc odi ng  a nd  s e lf - a tt e nt io n   m e c ha ni s m s .   T he   ti tl e a bs tr a c t,   a nd  k e yw or ds   of   s c ie nt if ic   pa pe r s   a r e   th e   m os im por ta nt   m e ta - in f or m a ti on  of   th e   pa pe r in c lu di ng  s e m a nt ic   in f or m a ti on  th a c a be   us e to   di s ti ngui s di f f e r e nt   c a te gor ie s T he y c a be   e a s il obt a in e a s   tr a in in c or pus C ur r e nt ly th e r e   is   li tt le   in - de pt r e s e a r c on  th e   r ol e   of   ti tl e s a bs tr a c t s a nd   ke yw or ds   in   c la s s if ic a ti on  a nd  how   th e a r e   us e in   c om bi na ti on.  I ou r   s tu dy,  w e   a ppl ie th e   pr e - tr a in e d   la ngua ge   m ode B E R T   a nd  ot he r   de e le a r ni ng  m ode ls   s uc a s   C N N   a nd  L S T M   f or   pa pe r   c la s s if ic a ti on.  W e   us e di f f e r e nt   c om bi na ti ons   of   in put   da ta   f e a tu r e s   a nd  m ode ls a nd  m e a s ur e pe r f or m a nc e   th r ough   a c c ur a c y,  w e ig ht e a ve r a ge   pr e c is io n,   w e ig ht e d   a ve r a ge   r e c a ll , a nd  w e ig ht e a ve r a ge   F 1 - s c or e . T hi s   p a pe r   is   or ga ni z e d   a s   f ol lo w s W e   f ir s i nt r oduc e   th e   la te s r e s e a r c pr ogr e s s   in   p a pe r   c la s s if ic a ti on,  th e in tr oduc e   th e   r e s e a r c m e th ods   in c lu di ng  da ta s e ts   a nd  e xpe r im e nt a s e tt in gs ,   th e di s c us s   th e   e xpe r im e nt a r e s ul t s a nd  f in a ll c onc lu de .       2.   R E L A T E D  WORK   C la s s if ic a ti on   of   s c ie nt if ic   pa pe r s   us in m a c hi ne   l e a r ni ng  m e th ods   ha s   be e e xt e n s iv e ly  s tu di e d, a nd  m os of   th e   r e s e a r c u s e s   th e   m e ta da ta   in   th e   p a pe r s ,   th a is ,   to   e xt r a c th e   f e a tu r e   ve c to r s   of   th e   pa pe r s   f r om   th e   ti tl e a b s tr a c t,   ke yw or ds ,   a nd   ot he r   i nf or m a ti on  to   tr a in   va r io us   c la s s if ie r s S e v e r a r e s e a r c he r s   [ 12] [ 14]   pr opos e d t o us e   s uppor ve c to r  m a c hi ne   c la s s if ie r  or  B a ye s ia n  a lg or it hm  t o r e a li z e  t he  c la s s if ic a ti on of  pa pe r s X ia ohua  a nd H a iy un  [ 15]   pr opos e a   hi e r a r c hi c a c la s s if ic a ti on  m e th od f or  C hi ne s e   s c ie nt if ic  pa pe r s  ba s e on   im por ta nt  w or ds  i n  t it le s , ke yw or ds , a nd a bs tr a c ts . W or ds  i th e  pa pe r  t e xt  w il l  a ls o be  us e d i f  t he y ha ve  hi gh   m ut ua in f or m a ti on  va lu e   w it im po r ta nt   w or ds F or   w o r ds   in   di f f e r e nt   pa pe r   a r e a s a   β   va lu e   is   a s s ig ne to   th e   f e a tu r e   ve c to r   c a lc ul a ti on  f o r m ul a a nd  th e   va lu e s   a r e   a r r a nge in   th e   f ol lo w in g   or de r   ti tl e   >   s um m a r >   ke yw or ds  >   m a in  t e xt .   U s in de e le a r ni ng  te c hni que s   to   c la s s if s c ie nt if ic   pa pe r s   ha s   be c om e   popula r   in   r e c e nt   ye a r s C h ouy ye kh  e al .   [ 16 ]   pr opo s e to   us e   C N N  t o c la s s if s c ie nt if ic  pa pe r s , a nd  us e d t h e  " W e b of  S c ie nc e   D a ta s e t"   a s   a n   e xp e r im e n ta da t a s e t,   w hi c h   c ont a i ns   i np ut   te xt   s e q ue nc e ,   t a r g e la be va lu e ,   do m a in ,   k e y w or d s ,   a nd   s u m m a r y   in f or m a t io n   of   35 23 pa pe r s .   B ur n s   e t   al [ 17 ]   bui lt   d e e p   le a r ni n g   m o de ls   f or   e vi d e n c e   c l a s s if i c a ti on   f r om   t he   o pe n - a c c e s s   bi o m e di c a li te r a t ur e de ve lo p e d   a   l a r g e - s c a le   c or pu s   f r om   P u b M e a nd   P u bM e d   c e n tr a ope n - a c c e s s   r e c or d s  a n t he u s e G lo ve F a s t T e xt , a n E L M o a lg or it hm s   t l e a r w or d e m be ddi ng . T h e y a l s o   us e   C N N , L S T M ,   a n d a tt e nt io m e c h a n i s m s  t im pr ov e  t he   e f f e c of  c la s s if ic a t io [ 17] . S a m a m a nd  S our e   [ 18]   us e e n s e m bl e   d e e le a r ni ng  m ode ls   to   c la s s if L upus   s c ie nt i f ic   a r ti c le s na m e ly a   c om bi na ti on  of   L S T M ,   c uda   de e ne ur a ne twor ga te r e c ur r e nt   uni ( C uD N N G R U ) R N N a nd  C N N   m ode ls   w e r e   us e to   c la s s if pa pe r   a bs tr a c ts a nd  th e   f in a c la s s if ic a ti on  r e s ul ts   w e r e   s e le c te th r ough  vot in g,  a nd  th e   r e s ul ts   s how e th a t   th e   e ns e m bl e   m e th od  im pr ove s   th e   r e li a bi li ty   of   c la s s if ic a ti on   [ 18] B ogda nc hi kov  e al [ 19]   us e a   de e p   le a r ni ng  m ode a nd   na iv e   B a ye s   a lg or it hm   to   c l a s s if s c ie nt if ic   pa pe r s   w r it te in   K a z a kh   la ngua g e a nd   pr oc e s s e im a ge   a nd  te xt   s e pa r a te ly T he   e xpe r im e nt a r e s ul t s   s h ow e th a th e   a c c ur a c w a s   im pr ove by  us in m ul ti m oda in f o r m a ti on  c om pa r e d   to   us in te xt   f e a tu r e s   or   im a g e s   a lo ne S e m a nt ic   f e a tu r e c onvolut io ne ur a l   ne twor ks   ( S F - C N N )   w e r e   p r opos e in   [ 20]   to   im p r ove   th e   pe r f or m a nc e   of   tr a di t io na C N N   w hi c doe s   not   c ons id e r   th e   s e m a nt ic s   of   ba g - of - w or ds T he   tr a in in da ta s e w a s   c ol le c te f r om   A r X iv a nd  e xpe r im e nt a r e s ul ts  s how e d t ha th e  c la s s if ic a ti on a c c ur a c y r e a c he d 94% .   F or   r e s e a r c on  th e   c la s s if ic a ti on  of   C hi ne s e   s c ie nt if ic   pa pe r s L il e t   al [ 21 ]   us e th e   B E R T   m ode l   to   c la s s if di f f e r e nt   ty pe s   of   C hi ne s e   li te r a tu r e   a nd  a c hi e ve a  c la s s if ic a ti on  a c c ur a c of   76.95%   a nd  68.55%   r e s pe c ti ve ly   [ 21] A not he r   s tu dy  a ls s how e th a B E R T   m ode ls   out pe r f or m e th e   s uppor ve c to r   m a c hi ne   m ode l,   a m ong  w hi c th e   B E R T - re - pr e t r a in in g - m e d - C hi ne s e   m ode pe r f or m e be s t   [ 22 ] H ongl in g   e al .   [ 23 ]   s tu di e d t he  i m pa c of  s to p w o r ds  i n s c ie nt if ic  pa pe r s  on c la s s if i c a ti on pe r f or m a nc e , a nd t he f ound tha R N N ,   L S T M a nd  ga te d   r e c ur r e nt   uni ( G R U )   m ode ls   c oul a c hi e ve   be tt e r   pe r f or m a nc e   w it hout   r e m ovi ng  s to w or ds U s in A da m   or   s to c ha s ti c   gr a di e nt   de s c e nt   ( S G D )   opt im iz e r   f or   R N N   a nd  L S T M   m ode ls ,   a nd  A d a de lt a   or   S G D   opt im iz e r   f or   G R U   m ode ls   c a im pr ove   th e   c la s s if ic a ti o e f f e c [ 23] J ie   [ 24]   de ve lo pe d   a a ut om a ti c   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   A r ti f   I nt e ll     I S S N :   2252 - 8938       C hi ne s e  pape r  c la s s if ic at io n bas e d on p r e - tr ai ne d l anguage  m o de and hy br id     ( X in  L uo )   643   doc um e nt   c la s s if ic a ti on  s y s te m   th a t   us e s   th e   s ki m - gr a m   w or e m be ddi ng  m ode to   e xt r a c th e   f e a tu r e   m a tr ix   of   th e   doc um e nt   a nd  a dopt s   th e   C N N   m ode a s   th e   c la s s if ie r T he   f ir s t - le ve l,   s e c ond - le ve l,   a nd  f in a l - le ve c la s s if ic a ti on  a c c ur a c y  w e r e  97.66% ,  95.12% , a nd 92.42%  r e s p e c ti ve ly   [ 24] . Z ha ng  e al .   [ 25]   s tu di e d t he  r ol e   of   th e   f ul l - te xt   a nd  s tr uc tu r a in f or m a ti on  of   pa pe r s   in   c la s s if ic a ti on.  T he   us e   of   th e   pr e - tr a in e m ode l   L ongF or m e r   s how e th a th e   in tr oduc ti on  of   f ul l - te xt   in f or m a ti on  w il le a to   a   de c r e a s e   in   c la s s if ic a ti on  a c c ur a c y, w hi le  a b s tr a c t,   ke yw or d, a nd t it le  i nf or m a ti on pla ys  a  de c is iv e  r ol e  i n pa pe r  c la s s if ic a ti on  [ 25] .       3.   M E T H O D   W e   f ir s dow nl oa de th e   publ ic   da ta   C hi ne s e   s c ie nt if ic   li te r a tu r e   ( C S L )   da ta s e a nd  pr e pr oc e s s e it   to   ge ne r a te   tr a in in da ta s e ts ,   de ve lo pm e nt   d a ta s e t s a nd   te s d a ta s e ts T h e w e   de s ig ne d   f our   ty pe s   of   e xpe r im e nt s ,   in c lu di ng  di f f e r e nt   c om bi na ti ons   of   ke yw or ds ti tl e s a nd  a bs tr a c ts   in   s in gl e - s e nt e nc e   m ode s in gl e - s e nt e nc e   a nd  s e nt e n c e - pa ir   in put   m e th ods e n s e m bl e   le a r ni ng  m e th ods a nd  di f f e r e nt   m ode c om bi na ti ons to   c om pa r e   th e ir  c la s s if ic a ti on   pe r f or m a nc e  unde r  di f f e r e nt  pa r a m e te r  s e tt in gs . C la s s if ic a ti on pe r f or m a nc e  i s  m e a s ur e d by   a c c ur a c y, pr e c is io n, r e c a ll , a nd F 1 s c or e .     3.1.   T h e  d at as e t   A   la r ge - s c a le  C S L   da ta s e t   w a s   bui lt   in   [ 26] w hi c c ont a in s   th e   ti tl e s a bs tr a c t s ke yw or ds ,   a nd  ot he r   f ie ld s  of  396   k a c a d e m ic  pa pe r s ,  i s houl d be  t h e  f ir s publ ic   C S L   da ta s e t.  I c a n b e  us e d  f or   N L P   ta s ks  s u c h a s   te xt   s um m a r iz a ti on,  ke yw or ge ne r a ti on ,   a nd  te xt   c la s s if ic a ti on.  T he   pa pe r ' s   m e ta - in f or m a ti on  is   f r om   th e   N a ti ona E ngi ne e r in g R e s e a r c h C e nt e r  f or  S c ie nc e  a nd  T e c hnol ogy R e s our c e s  S ha r in g S e r vi c e  ( N S T R ) , da te d   f r om   2010  to   2020.  T he   c ha r a c te r is ti c s   of   th e   da ta s e in c lu d e   w id e r   di s c ip li ne   c ove r a g e ne w   d a ta   s our c e   ( be c a us e   m os of   th e   c ur r e nt   pa pe r   da ta   s e ts   a r e   ta ke f r om   a r X iv P ubM e d,  A C L A nt hol ogy ,   a nd  M A G ) hi ghe r   qua li ty   a nd  a c c ur a c ( th e   p a pe r   ha s   be e pe e r - r e vi e w e d) T he   s ta ti s ti c a in f or m a ti on  of   th e   e nt ir e   da ta   s e t   is   s how in   T a bl e   1.  S in c e   publ ic   C hi ne s e   s c ie nt if ic   p a pe r   d a ta s e ts   a r e   r a r e ,   m os r e s e a r c he r s   obt a in   th e     m e ta - in f or m a ti on  of   pa pe r s   f r om   th e   li br a r li te r a tu r e   s ha r in pl a tf or m   or   onl in e   li te r a tu r e   da ta ba s e s a nd   da ta s e ts   c ons tr uc te d   by  th e m   a r e   ge ne r a ll not   m a d e   publ ic , s o t he   C S L   da ta   s e c a n   pr ovi de   a   b e nc hm a r f or   pe r f or m a nc e  e va lu a ti on of  C hi n e s e  s c ie nt if ic  p a pe r  c la s s if ic a ti o n m ode ls . A  s a m pl e  f r om  t hi s  da ta s e i s  s ho w in  T a bl e  2.       T a bl e  1. D e ta il e s ta ti s ti c s  of  t he  C S L  da ta s e t   C a t e gor y   #d   L e n( T )   L e n( A )   num ( K )   #s a m pl e s   D i s c i pl i ne   e xa m pl e s   E ngi ne e r i ng    27   19.1   210.9   4.4   177,600   M e c ha ni c s ,   A r c hi t e c t ur e ,   E l e c t r i c a l   s c i e nc e   S c i e nc e     9   20.7   254.4   4.3   35,766   M a t he m a t i c s ,   P hy s i c s ,   A s t r onom y, G e ogr a phy   A gr i c ul t ur e     7   17.1   177.1   7.1   39,560   C r op  s c i e nc e , H or t i c ul t ur e F or e s t r y   M e di c i ne     5   20.7   269.5   4.7   36,783   C l i ni c a l   m e di c i ne , D e nt a l   m e di c i ne ,   P ha r m a c y   M a na ge m e nt     4   18.7   157.7   6.2   23,630   B us i ne s s   m a na ge m e nt ,   P ubl i c   a dm i ni s t r a t i on   J ur i s pr ude nc e     4   18.9   174.4   6.1   21,554   L e ga l   s c i e nc e , P ol i t i c a l   s c i e n c e ,   S oc i ol ogy   P e da gogy    3   17.7   179.4   4.3   16,720   P e da gogy, P s yc hol ogy,   P hys i c a l   e duc a t i on   E c onom i c s     2   19.5   177.2   4.5   11,558   T he or e t i c a l   e c onom i c s ,   A ppl i e e c onom i c s   L i t e r a t ur e     2   18.8   158.2   8.3   10,501   C hi ne s e   l i t e r a t ur e ,   J our na l i s m   A r t     1   17.8   170.8   5.4   5,201   A r t   H i s t or   1   17.6   181.0   6.0   6,270   H i s t or y   S t r a t e gi c s     1   17.5   169.3   4.0   3,555   M i l i t a r s c i e nc e   P hi l os ophy   1   18.0   176.5   8.0   7511   P hi l os ophy   A l l   67         396,209     #d:   t he   num be r  of  di s c i pl i ne s  i n t he  c a t e gor y. l e n( T ) :   a ve r a ge   l e ngt h of  e a c t i t l e ;   l e n( A ) :   a ve r a ge   l e ngt h of  e a c h a bs t r a c t ;     num ( K ) :   a ve r a ge   num be r  of  ke yw or ds       T a bl e  2. A  s a m pl e  f r om  t he  C S L  da ta s e in  E ngl is h   T i t l e   A bs t r a c t   K e yw or ds   D i s c i pl i ne   C a t e gor y   E xpl or a t i on  on  i m pr ovi ng   pe a s a nt s   s c i e nt i f i c   a nd   c ul t ur a l   qua l i t by  us i ng   di s t a nc e  e duc a t i on   S t a r t i ng f r o m  t he  i m por t a nc e  of  i m p r ovi ng   f a r m e r s   s c i e nt i f i c   a nd  t e c hnol ogi c a l   qua l i t y,  t hi s   pa pe r   di s c us s e s   t he   w a y s   a nd   c ha r a c t e r i s t i c s  of  di s t a nc e  e duc a t i on     P e da gogy D i s t a nc e   e duc a t i on C om m e nt s Q ua l i t y   A gr i c ul t ur a l   E ngi ne e r i ng   E ngi ne e r i ng       3.2.   F e at u r e  e xt r ac t io n   B E R T   is  a n ope n - s our c e  m a c hi ne  l e a r ni ng f r a m e w or k f or  N L P .  B E R T  i s  de s ig n e d t o he lp  c om put e r s   unde r s ta nd  th e   m e a ni ng  of   a m bi guous   la ngua ge   in   th e   te xt   by  us in s ur r ounding  te xt   to   e s ta bl is h   c ont e xt I m a ny  na tu r a la ngua ge   unde r s ta ndi ng  ( N L U )   ta s ks s uc a s   s e n ti m e nt   a na ly s is s e m a nt ic   r ol e   a nnot a ti on,  a nd  te xt   c la s s if ic a ti on,  B E R T   c a a c hi e ve   be tt e r   pe r f or m a nc e   th a n   ot he r   de e le a r ni ng  m e th ods T he   pr oc e s s   of   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  1 F e br ua r y   20 25 641 - 649   644   us in B E R T   to   ge n e r a te   th e   to ke f e a tu r e   r e pr e s e nt a ti on  ve c to r   of   th e   te xt   s e que nc e   is   a s   f ol lo w F or   E ngl is h   te xt   s e que n c e s ,   w or s e gm e nt a ti on  i s   f ir s pe r f or m e d,  w hi le   f or   C hi ne s e   te xt   s e que nc e s it   is   pr oc e s s e c ha r a c te r   by  c ha r a c te r a nd  f in a ll f or m s   a   s e que nc e   c om pos e of   E ngl is w or ds   or   C hi ne s e   c ha r a c t e r   to ke ns [ C L S ]   a nd  [ S E P ]   ta gs   a r e   us e d   to   r e pr e s e nt   th e   c la s s if ic a ti on  a nd   s e p a r a to r   of   s e nt e nc e s   a nd  w il b e   a dde d   to   th e   be gi nni ng  a nd  e nd  of   th e   s e nt e nc e   r e s pe c ti ve ly T he   e m be ddi ng  r e pr e s e nt a ti on  of   e a c to ke is   obt a in e f r om   voc a b,  a   voc a bul a r y pr ovi de d by  B E R T T he  s um  of  t ok e n e m be ddi ng,  s e gm e nt  e m be ddi ng,  a nd pos it io e m be ddi ng i s   in put   to   th e   tr a ns f or m e r   la ye r a nd  th e   to ke ve c to r   w it gl oba s e m a nt ic   in f or m a ti on  a nd  c la s s   ve c to r   w il be   ge ne r a te d.  T he   pr oc e s s   is   s how in   F ig ur e   1,  c la s s   ve c to r   a nd  to ke ve c to r   a r e   de not e by   [  ]   a nd    r e s pe c ti ve ly T he   [  ] ve c to r   or   a ve r a ge   va lu e   of   ot he r   to ke ve c t or s   out put   by  B E R T   w il be   in put   to   th e   c la s s if ic a ti on l a ye r  t o c om pl e te  t he  p a pe r  c la s s if ic a ti on.           F ig ur e  1. P a pe r  c la s s if ic a ti on by us in g B E R T  m ode l       3.3.   C la s s if i c at io n  m od e li n g   C N N   a nd   R N N   m ode ls   r e qui r e   pr e pr oc e s s in th e   te xt   s e qu e nc e s   be f or e   c la s s if ic a ti on.  A f te r   th e   te xt   s e que nc e s  w e r e  t oke ni z e d, a  voc a bul a r y w a s  ge ne r a te d. W or d e m be ddi ng ve c to r s  c a n be  r a ndoml y ge ne r a te d,  but  us in g publi c  pr e - tr a in e d w or d e m be ddi ng  ve c to r s  c a n  a c hi e ve  be tt e r  c l a s s if ic a ti on  r e s ul ts .  I n our  s t udy,  t he   C hi ne s e   pr e - tr a in e w or ve c to r s   w e r e   us e d,  w hi c w e r e   obt a in e by  tr a in in th e   W or d2ve c   m ode on  th e   B a id u E nc yc lo pe di a  c or pus  ( W or d+ C ha r a c te r , 300d)   [ 27] .     3.4.   T h e  e xp e r im e n t  s e t u p   T tr a in   a nd  te s th e   m ode ls w e   e xt r a c te 1,000  r e c or ds   pe r   di s c ip li ne   f r om   th e   C S L   da ta s e to   c ons tr uc th e   e xpe r im e nt a da ta s e t,   in c lu di ng  a bs tr a c t,   k e yw or ds ti tl e a nd  c a te gor f ie ld s T he   e xpe r im e nt a l   da ta s e i s   di vi de in to   a   tr a in in s e t,   va li da ti o s e t,   a nd   te s t   s e t   a c c or di ng  to   th e   r a ti of   7: 2: 1.  T h e   ha r dw a r e   c onf ig ur a ti on  of   th e   e xpe r im e nt a pl a tf or m   a nd  m ode de ve lo p m e nt   f r a m e w or a r e   s how in   T a bl e   3.  W e   us e f our  m e th ods  t o  c om pa r e  a nd a na ly z e  t he  pe r f or m a nc e  of  pa pe r  c la s s if ic a ti on, i nc lu di n g s in gl e  s e nt e nc e  i nput   a nd c onc a te na ti on me th od,  s e nt e nc e  p a ir  i nput  m e th od, e ns e m b le  l e a r ni ng me th od, a nd c om bi na ti on of  B E R T   a nd  C N N /R N N   m ode ls T he   de f in it io ns   of   th e s e   m e th ods   a nd  th e   e xpe r im e nt a pur pos e s   a r e   s how in   T a bl e   4.   C las s if ie r   E [ C L S ]   E 1   E n   E [ S E P ]   ……   A bs t r a c t / K e yw or ds / T i t l e   [ C L S ]   T ok 1   T ok n   [ S E P ]   ……   T r a ns f or m e r 1   T r a ns f or m e r n   T [ C L S ]   T 1   T n   T [ S E P ]     B E R T   ……   F ul l  C onne c t e d L a ye r + S of t m a x   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   A r ti f   I nt e ll     I S S N :   2252 - 8938       C hi ne s e  pape r  c la s s if ic at io n bas e d on p r e - tr ai ne d l anguage  m o de and hy br id     ( X in  L uo )   645   T a bl e  3. E xpe r im e nt a e nvi r onm e nt  pa r a m e te r s   P a r a m e t e r   V a l ue   C P U   I nt e l ( R )  X e on( R )  S i l ve r  4216,2.8G   R A M   128G   G P U   R T X  3090   M ode l   de ve l opm e nt  f r a m e w or k   P yT or c h 1.13.1       T a bl e  4. D if f e r e nt  m e th ods  f or  pa pe r  c la s s if ic a ti on   N o .   M e t hod   D e s c r i pt i on   P ur pos e   1   S i ngl e   s e nt e nc e   i nput   a nd   c onc a t e na t i on  m e t hod   A bs t r a c t ke yw or ds a nd  t i t l e   a r e   r e ga r de d   a s   a   s i ngl e   s e nt e nc e   a nd  i nput   i nt t he   B E R T   m ode l   f or   c l a s s i f i c a t i on.  U s e   di f f e r e nt   m e t hods   t o   c onc a t e na t e  a b s t r a c t , ke yw or ds , a nd t i t l e  be f or e   e nt e r i ng t he  m ode l  f or  c l a s s i f i c a t i on.   C om pa r e   t he   i m por t a nc e   of   t he   A bs t r a c t ,   ke yw or ds a nd  t i t l e   i pa pe r   c l a s s i f i c a t i on, a nd a n a l yz e  t he  i m pa c t  of   c onne c t i ng  m ul t i pl e   f i e l ds   a s   i nput   t t he   m ode l  on c l a s s i f i c a t i on pe r f or m a nc e .   2   S e nt e nc e  pa i r s  i nput  m e t hod   C om bi ne   t he   A bs t r a c t ke yw or ds a nd  t i t l e   i nt o   s e nt e nc e   pa i r s   i di f f e r e nt   w a ys a nd  t he i nput   t he m  i nt o t he  B E R T  m ode l  f or  c l a s s i f i c a t i on.   A na l yz e   t he   i m pa c t   of   di f f e r e nt   c om bi na t i on  m e t hods   on  c l a s s i f i c a t i on   pe r f or m a nc e  i n t he  s e nt e nc e  pa i r  m ode .   3   E ns e m bl e   l e a r ni ng  m e t hod   T he   B E R T   m ode l   i s   u s e d   t c l a s s i f A b s t r a c t s ,   ke yw or ds a nd  t i t l e s   r e s pe c t i ve l y,  a nd  t he   c l a s s i f i c a t i on  r e s ul t s   of   t he   t hr e e   m ode l s   a r e   i nt e gr a t e t obt a i t he   f i na l   c l a s s i f i c a t i on  r e s ul t .   C om pa r e   t he   i m pa c t   of   i nt e gr a t i ng  t he   c l a s s i f i c a t i on r e s ul t s  of  t he  t hr e e  m ode l s   i di f f e r e nt   w a ys   on  t he   f i na l   c l a s s i f i c a t i on r e s ul t s .   4   C om bi na t i on  of   B E R T   a nd   C N N / L S T M   m ode l   U s e   t he   B E R T   m ode l   t obt a i t he   s e nt e nc e   r e pr e s e nt a t i on  f e a t ur e   ve c t or   o f   t he   a bs t r a c t a nd   t he i nput   i t   i nt t he   C N N / L S T M   m ode l   f or   c l a s s i f i c a t i on.   C om pa r e   t he   pa pe r   c l a s s i f i c a t i on   pe r f or m a nc e   w he c om bi ni ng  B E R T   w i t h ot he r  m ode l s .       I or de r   to   e va lu a te   th e   pe r f or m a nc e   of   th e   m ode in   pa pe r   c la s s if ic a ti on,  w e   in tr oduc e   m e tr ic s in c lu di ng  a c c ur a c y,  w e ig ht e a ve r a ge   pr e c is io n,  w e ig ht e a v e r a ge   r e c a ll ,   a nd  w e ig ht e a ve r a ge   F 1 - s c or e w hi c h a r e  de f in e d i n ( 1)   to   ( 4) .     Ac c ur a c y = TP + TN TP + FP + TN + FN   ( 1)     P r e c is io n = TP TP + FP   ( 2)     R e c a l l = TP TP + FN   ( 3)     F 1 s c o r e = 2TP 2TP + FP + FN   ( 4)     A m ong  th e m tr ue   pos it iv e   ( T P )   r e pr e s e nt s   th e   num be r   of   c or r e c tl pr e di c te pos it iv e   s a m pl e s f a ls e   pos it iv e   ( F P )   r e pr e s e nt s   th e   num be r   of   in c or r e c tl pr e di c te d   pos it iv e   s a m pl e s tr ue   ne g a ti ve   ( T N )   r e pr e s e nt s   th e   num be r   of   c or r e c tl pr e di c te ne ga ti ve   s a m pl e s   a nd   f a ls e   n e ga ti ve   ( F N )   r e pr e s e nt s   th e   num be r   of   ne ga ti ve   s a m pl e s   in c or r e c tl pr e di c te d.  S in c e   p a pe r   c la s s if ic a ti on  i s   a   m ul ti - c la s s if ic a ti on  pr obl e m w e   c a c a lc ul a te   th e   pr e c is io n,  r e c a ll ,   a nd  F 1 - s c or e   va lu e s   of   e a c c a te gor f ir s t,   a nd  th e th e   w e ig ht e a ve r a g e   pr e c is io n,  w e ig ht e d   a ve r a ge   r e c a ll a nd  w e ig ht e a ve r a ge   F 1 - s c or e   m e tr ic s   a r e   us e to   m e a s ur e   th e   ove r a ll   c la s s if ic a ti on  pe r f or m a nc e   f or   a ll   c a te gor ie s T a ki ng  th e   w e ig ht e a ve r a ge   F1 - s c or e   a s   a e xa m pl e it s   c a lc ul a ti on  f or m ul a   is   in  ( 5) .     W e ig ht e d   Ave r a g e   F 1 s c o r e = F 1 cl a s s 1 W 1 + F 1 cl a s s 2 W 2 + . . . + F 1 cl a s s N W N   ( 5)     F 1 cl a s s N   r e pr e s e nt s   F 1 - s c or e   of   c la s s   N W N   r e pr e s e nt s   th e   w e ig ht   of   e a c h   c la s s w hi c h   is   de t e r m in e by  th e   r a ti o of  t he  numbe r  of  s a m pl e s  i n c la s s N  t o t he  t ot a num be r  of   s a m pl e s .       4.   R E S U L T S  A N D  D I S C U S S I O N   T hi s   s tu dy  in ve s ti ga te s   th e   di f f e r e nt   e f f e c ts   of   ti tl e s ke y w or ds a nd  a bs tr a c f ie ld s   on  pa pe r   c la s s if ic a ti on. Although ea r li e r  s tu di e s  e xpl or e d t he  e f f e c ts  of  i ndi vi dua f ie ld s , t he y di d not e xpl ic it ly  a ddr e s s   th e   e f f e c ts   of   di f f e r e nt   f ie ld   c om bi na ti ons .   W e   h a ve   te s te th r e e   di f f e r e nt   c om bi na ti on  m e th ods   in   B E R T   m ode l.     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  1 F e br ua r y   20 25 641 - 649   646   4 .1.   S in gl e  s e n t e n c e  i n p u t  an d  c on c at e n at io n  m e t h od   T he   in put   of   te xt   s e que nc e   f or   th e   B E R T   m ode c a be   in   th e   f or m   of   a   s in gl e   s e nt e nc e   or   a   pa ir   of   s e nt e nc e s T e va lu a te   th e   im pa c of   th e   a bs tr a c t,   ke yw or ds a n ti tl e   of   th e   pa pe r   on  th e   c la s s if ic a ti on  e f f e c t   of   th e   pa pe r th e   a bs tr a c t,   ke yw or ds ,   a nd  ti tl e   a r e   tr e a te d   a s   in de pe nd e nt   s e nt e nc e s a nd   th e u s e   th e   B E R T /C N N /L S T M   m od e to   c a lc ul a te   th e   c la s s if ic a ti on  a c c ur a c in   th e   e xpe r im e nt a da ta   s e t.   I a ddi ti on,  di f f e r e nt   c onc a te na te f or m s   be twe e a bs tr a c ts ke yw or ds a nd  ti tl e s in c lu di ng  a bs tr a c t+ ti tl e a bs tr a c t+ ke yw or d s a nd  a bs tr a c t+ k e yw or ds + ti tl e a r e   tr e a te a s   s e nt e nc e s   to   e va lu a te   th e   im pa c of   di f f e r e nt   ty pe s   of   in f or m a ti on  c om bi na ti ons   on  c la s s if ic a ti on  pe r f or m a nc e T he   e xp e r im e nt a r e s ul ts   a r e   s how n   in     T a bl e   5.  I c a be   s e e th a us in a bs tr a c t,   ke yw or ds a nd  ti tl e   a lo ne   a s   th e   in put   da ta   of   th e   B E R T   m ode l,   in put ti ng  a bs tr a c c a n a c hi e ve  t he  hi ghe s c la s s if ic a ti on a c c ur a c y, w hi c h i s  s ig ni f ic a nt ly  hi ghe r  t ha n ke yw or ds   or   ti tl e C om pa r e w it C N N   a nd  L S T M   m ode ls th e   B E R T   m ode c a a c hi e ve   hi gh e r   c la s s if ic a ti on  pe r f or m a nc e F or   s e nt e nc e s   c ont a in in m or e   th a n   two  e le m e nt s   f r om   a bs tr a c t,   ke yw or ds a nd   ti tl e th e   m e th ods   th a c om bi ni ng a bs tr a c ts  w it h ke yw or ds ,  or  c om bi ni ng a bs tr a c t s  w it h t it le s , c a n  s li ght ly  i m pr ove  c la s s if ic a ti on  a c c ur a c ove r   us i ng  onl one   e le m e nt H ow e ve r th e   c la s s if ic a ti on  e f f e c of   c om bi ni ng  a bs tr a c t,   ke yw or ds   a nd   ti tl e s   is   not   a s   good  a s   th e   f or m e r .   I s how s   th a w he m o r e   s e nt e nc e   in f or m a ti on  is   in put , m or e   noi s e   da ta   m a y   a ls o be  i m por te d.       T a bl e   5 . S in gl e   s e nt e nc e  &  c onc a te na ti on me th od c la s s if ic a ti on   M ode l   I nput   da t a   ( S i ngl e   s e nt e nc e )   A c c ur a c y   W e i ght e a ve r a ge   pr e c i s i on   W e i ght e a ve r a ge   r e c a l l   W e i ght e a ve r a ge   F 1 s c or e   B E R T   A bs t r a c t   0.8690   0.8689   0.8688   0.8673   C N N   A bs t r a c t   0.8007   0.7975   0.8007   0.7970   L S T M   A bs t r a c t   0.7939   0.7908   0.7939   0.7899   B E R T   T i t l e   0.8214   0.8181   0.8214   0.8182   B E R T   K e yw or ds   0.8200   0.8200   0.8201   0.8185   B E R T   A bs t r a c t + title   0.8720   0.8723   0.8725   0.8709   B E R T   A bs t r a c t + ke yw or ds   0.8707   0.8701   0.8707   0.8693   B E R T   A bs t r a c t +ke yw or ds + title   0.8680   0.8679   0.8681   0.8664       4.2.  S e n t e n c e  p ai r s  i n p u t  m e t h od   I nput ti ng  th e   a bs tr a c t,   k e yw or ds   a nd   ti tl e   of   th e   pa pe r   in to   th e   B E R T   m ode l   in   th e   f or m   of   s e nt e nc e   pa ir s  a c tu a ll y a ll ow s  t he  m ode to  l e a r n t he  r e la ti on s hi p be twe e n t he  t w o s e nt e n c e s T he   c a te gor y t o w hi c h t he   pa pe r   be lo ngs   c a n   be   r e ga r de a s   a   r e la ti ons hi p.  C la s s if ic a ti on  of   pa pe r s   is   a c hi e ve by  le a r ni ng  th e   im pl ic it   a s s oc ia ti on   in f or m a ti on  of   A bs tr a c t,   ke yw or ds   a nd  ti tl e T he   t hr e e   ty pe s   of   s e nt e nc e   pa ir s   < A bs tr a c t,   T it le > < A bs tr a c t,   K e y w or ds > < A bs tr a c t,   T it le + ke y w or ds >   w il be   us e a s   in put   to   th e   B E R T   m ode l,   a nd  th e ir   c la s s if ic a ti on  pe r f or m a nc e   w il be   e va lu a te d.  A m ong  th e m < A bs tr a c t,   T it le + ke y w or ds >   m e a n s   th a ti tl e   a nd  ke yw or ds   a r e   f ir s c onc a te na te in to   a   s e nt e nc e ,   a nd  th e c o m bi ne w it a bs tr a c to   f or m   a   s e nt e nc e   pa ir A c c or di ng  to   th e   e xpe r im e nt a r e s ul ts th e   c la s s if ic a ti on  e f f e c of   s e nt e nc e   pa ir s   us in th e     < A bs tr a c t,   T it le + ke yw or d s >   m e th od   in   th e   B E R T   m ode l   is   s li ght ly   be tt e r   th a th e   ot he r   two  m e th ods T he   e xpe r im e nt a r e s ul ts  a r e  s how n i T a bl e  6.       T a bl e   6 . S e nt e nc e   pa ir   c la s s if ic a ti on r e s ul t   M ode l   I nput  D a t a   ( S e nt e nc e  P a i r )   A c c ur a c y   W e i ght e a ve r a ge   pr e c i s i on   W e i ght e a ve r a ge   r e c a l l   W e i ght e a ve r a ge   F 1 s c or e   S e nt e nc e  A   S e nt e nc e  B   B E R T   A bs t r a c t   T i t l e   0.8811   0.8806   0.8811   0.8788   B E R T   A bs t r a c t   K e yw or ds   0.8860   0.8846   0.8858   0.8841   B E R T   A bs t r a c t   T i t l e  + K e yw or ds   0.8880   0.8867   0.8875   0.8865       4.3.  E n s e m b le  l e a r n in g m e t h od   I c a be   s e e f r om   th e   pr e vi ous   e xpe r im e nt a r e s ul ts   th a th e   B E R T   m ode is   us e to   c la s s if th e   a bs tr a c t,  ke yw or ds  a nd t it le  of  t he   pa p e r , a nd t he  a c c ur a c y i s  86 .9% , 82.0%  a nd 82.1%  r e s pe c ti ve ly . A lt hough  th e   s e que nc e   le ngt of   a bs tr a c ts   f a r   e xc e e d s   ke yw or ds   a nd  ti tl e s th e   la tt e r   two  ty pe s   of   te xt   s e que nc e s   s ti ll   c ont a in   im por ta nt   in f or m a ti on   th a c a di s ti ngui s di f f e r e nt   c a te gor ie s .   T he r e f or e in te gr a ti ng  th e   out put   r e s ul ts   of   th e   B E R T   m ode ls   a f te r   pr oc e s s in th e   a bs tr a c t,   ke yw or ds   a n ti tl e   r e s pe c ti ve ly   m a im pr ove   th e   f in a l   pa pe r   c la s s if ic a ti on  a c c ur a c y.   T h e   [ C L S ]   to ke out put   v e c to r s   obt a i ne a f te r   th e   B E R T   m ode pr oc e s s e s   a bs tr a c t,   ke yw or ds ,   a nd  ti tl e   r e s pe c ti ve ly   a r e   r e pr e s e nt e a s   B E R T _A bs tr a c t,   B E R T _K e yw or a nd  B E R T _ T it le   in   tu r n.   T he   [ C S L ]   out put   ve c to r s   of   di f f e r e nt   ty pe s   a r e   s um m e a nd   th e in put   in to   th e   c la s s if ic a ti on  la ye r   to   c om pl e t e   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   A r ti f   I nt e ll     I S S N :   2252 - 8938       C hi ne s e  pape r  c la s s if ic at io n bas e d on p r e - tr ai ne d l anguage  m o de and hy br id     ( X in  L uo )   647   th e   c la s s if ic a ti on  of   th e   pa pe r E xpe r im e nt a r e s ul ts   s how   th a th e   c la s s if ic a ti on  pe r f or m a nc e   of   s um m in B E R T _A bs tr a c t,   B E R T _K e yw or a nd  B E R T _T it le   a s   th e   in put   of   th e   c la s s if ie r   is   be tt e r   th a n   us in ot he r   m e th ods s uc h   a s   s um m in B E R T _A bs tr a c a nd  B E R T _K e yw or d,  s um m in B E R T _A b s tr a c a nd  B E R T _ T it le or  us in g B E R T _A bs tr a c a lo ne . T he   e xpe r im e nt a r e s ul ts  a r e   s h ow n i n T a bl e  7.       T a bl e   7.   E ns e m bl e   le a r ni ng me th od c la s s if ic a ti on r e s ul t   M ode l   I nput   da t a   ( S i ngl e   s e nt e nc e )   A c c ur a c y   W e i ght e d   a ve r a ge   pr e c i s i on   W e i ght e a ve r a ge   r e c a l l   W e i ght e a ve r a ge   F 1 s c or e   B E R T   B E R T _A bs t r a c t   0.8690   0.8689   0.8688   0.8673   B E R T   B E R T _A bs t r a c t +B E R T _K e yw or ds   0.8730   0.8766   0.8730   0.8724   B E R T   B E R T _A bs t r a c t +B E R T _T i t l e   0.8689   0.8694   0.8689   0.8684   B E R T   B E R T _A bs t r a c t +B E R T _K e yw or ds +B E R T _T i t l e   0.8740   0.8743   0.8745   0.8719       4.4.  Com b in at io n  of  B E R T  an d  C N N /L S T M  m od e l s   S in c e   th e   B E R T   m od e is   good  a t   a c qui r in s e m a nt ic   in f or m a ti on  of   te xt   s e que nc e s th e   te xt   f e a tu r e   ve c to r s   it   out put s   c a b e   us e a s   in put   f e a tu r e   ve c to r s   f or   ot he r   m ode ls s th a th e   a dva nt a ge s   of   va r io us   m ode ls   c a be   c om pr e he ns iv e ly   ut il iz e to   im pr ove   th e   pe r f or m a nc e   of   pa pe r   c la s s if ic a ti on.  W e   u s e d   th e   pa pe r   a b s tr a c a s   in put   da ta obt a in ed   th e   to ke n' s   f e a tu r e   r e pr e s e nt a ti on  ve c to r   th r ough  th e   B E R T   m ode l,   a nd  th e in put   it   in to   th e   C N N ,   L S T M ,   a nd  R C N N   m ode ls   f or   c la s s if ic a ti on.   T h e   C N N   m ode u s e d   256   c onvolut io ke r ne l s   w it h   s iz e s   of   1,  a nd  3,  m a xi m um   pool in m e th od  is   us e to   r e duc e   th e   di m e ns io of   th e   out put   f e a tu r e s T he   R C N N  m ode w il us e  t he  f or m ul a   in  ( 6) .     O ut p ut = M a x P o o l ( L S T M ( B ER T _ o ut p ut ) + B ER T _ o ut p ut )   ( 6)     T he   e xpe r im e nt a r e s ul ts   a r e   s ho w in   T a bl e   8 I c a be   s e e th a th e   c la s s if ic a ti on  pe r f or m a nc e   of   th e  B E R T + C N N  a nd  B E R T + R C N N  m ode l s  i s  i m pr ove d c om pa r e d t o t he   B E R T  m ode a lo n e T hi s   s how s  t ha t   th e   C N N   m ode l' s  a bi li ty   to   obt a in   lo c a f e a tu r e s   of   t e xt   s e que nc e s   c a im pr ove   th e   c la s s if ic a ti on  p e r f or m a nc e   of  t he  B E R T  m ode l.       T a bl e   8.   C om bi na ti on of  B E R T  a nd othe r  m ode ls   M ode l   I nput   da t a   ( S i ngl e   s e nt e nc e )   A c c ur a c y   W e i ght e a ve r a ge   pr e c i s i o n   W e i ght e a ve r a ge   r e c a l l   W e i ght e a ve r a ge   F 1 s c or e   B E R T   A bs t r a c t   0.8690   0.8689   0.8688   0.8673   B E R T +C N N   A bs t r a c t   0.8739   0.8736   0.8739   0.8725   B E R T +L S T M   A bs t r a c t   0.8681   0.8700   0.8681   0.8683   B E R T +R C N N   A bs t r a c t   0.8737   0.8743   0.8737   0.8721       5.   C O N C L U S I O N   I or de r   to   s tu dy  how   to   e f f e c ti ve ly   ut il iz e   a bs tr a c t,   ke yw o r d ,   a nd  ti tl e   in f or m a ti on  to   a c hi e ve   a ut om a ti c   c la s s if ic a ti on  of   C hi ne s e   p a pe r s m ul ti pl e   in put   da ta   p r oc e s s in m e th ods ,   a nd  m ul ti pl e   de e le a r ni ng  m ode ls  w e r e  a ppl ie d t o  t he  e xp e r im e nt a da ta  s e t.  F in a ll y, w e  c a n dr a w  t he  f ol lo w in c onc lu s io ns :  i )   t he   e f f e c of   us in th e   B E R T   m od e a lo ne   to   c la s s if pa p e r s   is  s ig ni f ic a nt ly   be tt e r   th a us in th e   C N N   or   L S T M   m ode l   a lo ne ii )   in   pa pe r   c la s s if ic a ti on,  us in a bs tr a c a lo n e   a s   th e   in p ut   da ta   of   th e   B E R T   m ode l,   th e   c la s s if ic a ti on  a c c ur a c y of  t he  m ode is  s i gni f ic a nt ly  be tt e r  t ha n us in g k e yw or ds  or  t it le  a lo ne  a s  i nput  da ta . A f te r  c onne c ti ng   a bs tr a c t,   ti tl e   a nd  ke yw or ds   in   di f f e r e nt   w a ys   a s   in put   da ta t he   c la s s if ic a ti on  a c c ur a c is   not   s ig ni f ic a nt ly   im pr ove d;   ii i)   c om bi ne   a bs tr a c t,   ti tl e ,   a nd  k e yw or ds   in   di f f e r e nt   w a ys   in to  s e nt e nc e   pa ir s  a s   in put   d a ta   f or   th e   B E R T   m ode l.   T h e   c la s s if ic a ti on  p e r f or m a nc e   is   s ig ni f ic a nt ly   i m pr ove c om pa r e to   th e   s in gl e   s e nt e nc e   in put   f or m iv )   th e   B E R T   m ode is   us e to   p r oc e s s   a bs tr a c t,   ti tl e a nd  ke yw or ds   r e s pe c ti ve ly a nd  th e   th r e e   ou tp ut   r e s ul ts   a r e   s um m e in   di f f e r e nt   c om bi na ti ons   a nd  u s e a s   in put   da ta   f or   th e   c la s s if ic a ti on  la ye r T h e   e xpe r im e nt a r e s ul ts   s how  t ha th e   c la s s if ic a ti on e f f e c is   s li ght ly  be tt e r  by t a ki ng t he  s um  of  t he  out put  r e s ul ts   of   th e   th r e e   B E R T   m ode ls   th a us i ng  one   B E R T   m ode a lo n e v)   tr e a th e   B E R T   m ode a s   a   te xt   f e a tu r e   e xt r a c to r a nd  th e   obt a in e te xt   f e a tu r e   ve c to r s  a r e   th e in put   in to   C N N R N N ,   or   ot he r   m ode ls   f or   s e c onda r pr oc e s s in g,  to   c om pr e he ns iv e ly   a ppl th e   c a pa bi li ti e s   of   di f f e r e nt   ty pe s   of   de e p   le a r ni ng   m ode ls   a nd  e xt r a c t   m or e  e f f e c ti ve  c la s s if ic a ti on i nf or m a ti on.  E xpe r im e nt a r e s ul ts  s how  t ha th e  c om bi na ti on of  B E R T  a nd C N N   c a e na bl e   th e   m ode l   to   a c hi e ve   be tt e r   c la s s if ic a ti on  pe r f or m a nc e   th a ot he r   c om bi na ti on  m e th ods .   H ow e ve r ,   c om pa r e to   us in th e   B E R T   m ode a lo ne   f or   c la s s if ic a ti on,  th e  pe r f or m a nc e   im pr ove m e nt   is   not   obvi ous a nd   vi )   th e   e xpe r im e nt a d a ta s e t   it s e lf   a l s ha s   f a c to r s   th a a f f e c c la s s if ic a ti on  p e r f or m a nc e C ur r e nt ly tr a in in Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  1 F e br ua r y   20 25 641 - 649   648   s a m pl e s  a r e  a s s ig ne d  onl y on e  c a t e gor y va lu e .  S om e  pa pe r s  be l ong to i nt e r di s c ip li na r y a nd  t he r e  w il l  be   s c ope   ove r la be twe e n   c a te gor ie s T he r e f or e hi e r a r c hi c a a nd  w e ig ht e m ul ti - c a te gor pa pe r   c l a s s if ic a ti on   is   m or e   pr om is in g.  I th e   ne xt   s te of   r e s e a r c h,   w e   w il a ls o   tr to   u s e   th e   c it a ti on  in f or m a ti on  of   th e   p a pe r   a s   a   s uppl e m e nt a r y f ie ld  t o i m pr ove  t he  e f f e c of  pa pe r  c la s s if ic a ti o n.       R E F E R E N C E S   [ 1]   Q L i   e t   al . A   s ur ve on  t e xt   c l a s s i f i c a t i on:   f r om   t r a di t i ona l   t de e l e a r ni n g,”   A C M   T r ans ac t i on s   on  I nt e l l i ge nt   Sy s t e m s   and   T e c hnol ogy , vol . 13, no. 2, 2022, doi :  10.1145/ 3495162.   [ 2]   A G a s pa r e t t o,  M M a r c uz z o,  A Z a nga r i a nd  A .   A l ba r e l l i A   s ur ve on  t e xt   c l a s s i f i c a t i on  a l gor i t hm s :   f r om   t e xt   t pr e di c t i o n s ,”   I nf or m at i on , vol . 13, no. 2, 2022, doi :  10.3390/ i nf o13020083.   [ 3]   T Y ue Y L i X S hi J Q i n,  Z F a n,  a nd  Z H u,  P a pe r N e t :   A   da t a s e t  a nd  be nc h m a r f or   f i ne - g r a i ne pa pe r   c l a s s i f i c a t i on,”   A ppl i e d   Sc i e nc e s , vol . 12, no. 9, 2022, doi :  10.3390/ a pp12094554.   [ 4]   A R a j a a nd  M M a nur A s p e c t   ba s e s e nt i m e nt   a na l ys i s   us i ng  f i ne - t une d   B E R T   m ode l   w i t de e c ont e xt   f e a t ur e s ,”   I A E I nt e r nat i onal  J our nal  of  A r t i f i c i al  I nt e l l i ge nc e , vol . 13, no. 2, pp. 1250 1261, 2024, doi :  10.11591/ i j a i .v13.i 2.pp1250 - 1261.   [ 5]   M G a o,  T L i a nd  P H ua ng,  T e xt   c l a s s i f i c a t i on  r e s e a r c ba s e on  i m pr ove w or d2ve c   a nd  C N N ,”   i Se r v i c e - O r i e nt e C om put i ng     I C SO C  2018 W or k s hop s , 2019, pp. 126 135, doi :   10.1007/ 978 - 3 - 030 - 17642 - 6_11.   [ 6]   S A bdul - R a hm a n,  M .   F.   A.   M A l i A A B a ka r a nd  S M ut a l i b ,   E nha nc i ng  c hur f or e c a s t i ng  w i t s e nt i m e nt   a na l y s i s   of   s t e a m   r e vi e w s ,”   Soc i al  N e t w o r k  A nal y s i s  and M i ni ng , vol .   14,   no. 178, pp. 1 17, 2024,  doi : 10.1007/ s 13278 - 024 - 01337 - 3   [ 7]   S L a i L X u,  K L i u,  a nd  J Z ha o,  R e c ur r e nt   c onvol ut i ona l   ne ur a l   ne t w or ks   f or   t e xt   c l a s s i f i c a t i on,”   P r oc e e di ng s   of   t he   N at i onal   C onf e r e nc e  on A r t i f i c i al  I nt e l l i ge nc e , vol . 3, pp. 2267 2273, 2015, doi :  10.1609/ a a a i .v29i 1.9513.   [ 8]   C . Z hou, C . S un, Z . L i u, a nd F . C . M .  L a u,  A  C - L S T M  N e ur a l  N e t w or k f or  T e xt  C l a s s i f i c a t i on,”   a r X i v - C om put e r  Sc i e n c e , pp. 1 10, 2015.   [ 9]   J D e vl i n,  M . - W C ha ng,   K L e e K T G oogl e a nd  A I L a ngua g e B E R T :   P r e - t r a i ni ng  of   de e bi di r e c t i ona l   t r a ns f or m e r s   f or   l a ngua ge  unde r s t a ndi ng,”  i P r oc e e di ngs  of  N A A C L - H L T  2019 , 2019, pp. 4171 4186.   [ 10]   I B e l t a gy,  K L o,  a nd  A C oha n,  S C I B E R T :   A   pr e t r a i ne l a ngua ge   m ode l   f o r   s c i e nt i f i c   t e xt ,”   i E M N L P - I J C N L P   2019  -   2019  C onf e r e nc e   on  E m pi r i c al   M e t hods   i N at ur al   L anguage   P r oc e s s i ng  and  9t I n t e r nat i onal   J oi nt   C onf e r e nc e   on  N at ur al   L anguag e   P r oc e s s i ng, P r oc e e di ngs  of  t he  C onf e r e nc e , 2019, pp. 3615 3620, doi :  10.18653/ v1/ d19 - 1371.   [ 11]   M a r ya nt o,  P hi l i ps a nd  A S G i r s a ng,  H ybr i m ode l   f o r   e xt r a c t i ve   s i ngl e   doc um e nt   s um m a r i z a t i on:   ut i l i z i ng  B E R T opi c   a nd  B E R T   m ode l ,”   I A E I nt e r nat i onal   J our nal   of   A r t i f i c i al   I nt e l l i ge nc e vol 1 3,  no.  2,  pp.  1723 1731,  J un.   2024,  doi :   10.11591/ i j a i .v13.i 2.pp1723 - 1731.   [ 12]   D W e i   a nd  Z J i e S c i e nt i f i c   l i t e r a t ur e   c l a s s i f i c a t i on  r e s e a r c b a s e on   t he   de ns i t di s t r i but i on  of   O C S V M ,”   I nf or m at i on   E ngi ne e r i ng , vol . 4, no. 3, pp. 67 72, 2018, doi :  10.3772/ j .i s s n.2095 - 915x.2018.03.009.   [ 13]   M I E l i a s Y M a hm ud,  S M ut a l i b,  S N K .   K a m a r udi n,  R M a s ka t   a nd  S A R a hm a n,  F a ke   ne w s   pr e di c t i on  u s i ng  hybr i m ode l s ys t e m a t i c   l i t e r a t ur e   r e vi e w ,”   2023  4t I nt e r nat i onal   C onf e r e nc e   on  A r t i f i c i a l   I nt e l l i ge nc e   and  D at Sc i e nc e s   ( A i D A S) I P O H M a l a ys i a , pp. 281 - 286, 2023, doi :  10.1109/ A i D A S 60501.2023.10284628.    [ 14]   I J a ya I .   A ul i a S .   M H a r di J .   T T a r i ga n,  M S .   L ydi a a nd  C a r ol i ne S c i e nt i f i c   doc um e nt s   c l a s s i f i c a t i on  us i ng  s uppor t   ve c t or   m a c hi ne   a l gor i t hm ,”   J our nal   of   P hy s i c s :   C onf e r e nc e   Se r i e s vol 1235,  no.  1,  pp.  1 - 6,  M a 2019,   doi :   10.1088/ 1742 - 6596/ 1235/ 1/ 012082.   [ 15]   Y X i a ohua   a nd   G H a i yun,   I m pr ove B a ye s i a a l gor i t hm   ba s e a ut om a t i c   c l a s s i f i c a t i on  m e t hod  f or   bi bl i ogr a phy,”   C om put e r   Sc i e nc e , vol . 45, no. 8, pp. 203 207, 2018, doi :  10.11896/ j .i s s n.1002 - 137X .201 8.08.036.   [ 16]   M E c h - C houyye kh,  H O m a r a a nd   M L a z a a r S c i e nt i f i c   pa pe r   c l a s s i f i c a t i on  us i ng  c onvol ut i ona l   ne ur a l   ne t w or ks ,”   i A C M   I nt e r nat i onal  C onf e r e nc e  P r o c e e di ng Se r i e s , 2019, pp. 1 6, doi :  10.1145/ 3372 938.3372951.   [ 17]   G A B ur n s X .   L i ,   a nd  N .   P e ng,  B ui l di ng  de e p   l e a r ni ng  m ode l s   f or   e vi de n c e   c l a s s i f i c a t i on  f r om   t he   op e a c c e s s   bi om e di c a l   l i t e r a t ur e ,”   D at abas e , vol . 2019, no. 1, 2019, doi :  10.1093/ da t a ba s e / ba z 034.   [ 18]   M S a m a m i   a nd   E M .   S our e B i na r c l a s s i f i c a t i on  of   L upu s   s c i e nt i f i c   a r t i c l e s   a ppl yi ng  d e e e n s e m bl e   m od e l   on  t e xt   da t a ,”   i n   2019  Se v e nt I nt e r nat i onal   C onf e r e nc e   on  D i gi t al   I nf or m at i on  P r oc e s s i ng  and   C om m uni c at i ons   ( I C D I P C ) 2019,  pp.  12 17,  doi :   10.1109/ I C D I P C .2019.8723787.   [ 19]   A B ogda nc hi kov,  D A y a z ba ye v,  a nd   I V a r l a m i s C l a s s i f i c a t i on  of   s c i e nt i f i c   doc um e nt s   i t he   ka z a kh  l a ngua ge   u s i ng  de e ne u r a l   ne t w or ks   a nd  a   f us i on  of   i m a ge s   a nd  t e xt ,”   B i g   D at and  C ogni t i v e   C om put i ng vol 6,  no.  4,   pp.  1 - 12,   O c t 2022,  doi :   10.3390/ bdc c 6040123.   [ 20]   R S a r a s u,  K .   K T hya gha r a j a n,   a nd  N .   R S ha nke r ,   S F - C N N :   D e e p   t e xt   c l a s s i f i c a t i on  a nd  r e t r i e va l   f or   t e xt   doc um e nt s ,”   I nt e l l i ge nt   A ut om at i on and Sof t  C om put i ng , vol . 35, no. 2, pp. 1799 1813, 2023, doi :  10.3 2604/ i a s c .2023.027429.   [ 21]   S L i l i J P e ng,  a nd  W J i ng,  A   s t udy  on  t he   a ut om a t i c   c l a s s i f i c a t i on  of   c hi ne s e   l i t e r a t ur e   i pe r i odi c a l s   ba s e on  B E R T   m o de l ,”   L i br ar y  J our nal , vol . 41, no. 5, 2022, doi :  10.13663/ j .c nki .l j .2022.05.014.   [ 22]   Z Y a ng,  Z Z hi xi ong,  L H ua n,  a nd  D L i a ngpi ng,  C l a s s i f i c a t i on  of   c hi ne s e   m e di c a l   l i t e r a t ur e   w i t be r t   m ode l ,”   D at A nal y s i s   and   K now l e dge  D i s c ov e r y , vol . 4, no. 8, pp. 41 49, 2020, doi :  10.11925/ i nf ot e c h.2096 - 3467.2019.1238.   [ 23]   X H ongl i ng,  F G uoh e a nd   H W e i l i n,  R e s e a r c h   on  s e m a nt i c   c l a s s i f i c a t i on  of   s c i e nt i f i c   a nd   t e c hni c a l   l i t e r a t ur e   ba s e d   on  de e p   l e a r ni ng,”   I nf or m at i on  s t udi e s :   T he or y   &   A ppl i c at i on vol 41,   no.  11,   pp.  149 154,  2018,   doi :   10.16353/ j .c nki .1000 - 7490.2018.11.027.   [ 24]   K J i e R e s e a r c on  a ut om a t i c   l i t e r a t ur e   c l a s s i f i c a t i on  s ys t e m   ba s e on  de e p   l e a r ni ng  a nd  c hi ne s e   l i br a r c l a s s i f i c a t i on,”   N e w   C e nt ur y  L i br a r y , vol . 5, pp. 51 56, 2021, doi :  10.16810/ j .c nki .1672 - 514X .2021.05.009.   [ 25]   Y Z ha ng  e t   al . W e a kl s upe r vi s e m ul t i - l a be l   c l a s s i f i c a t i on  of   f ul l - t e xt   s c i e nt i f i c   pa pe r s ,”   i K D D   ' 23:   P r oc e e di ngs   of   t he   29t h   A C M   SI G K D D   C onf e r e nc e   on  K now l e dge   D i s c o v e r y   and  D at M i ni ng L ong   B e a c h,  C a l i f or ni a A ug.  2023,   pp.  3458 3469,   doi :   10.1145/ 3580305.3599544.   [ 26]   Y L i   e t   al . C S L :   A   l a r ge - s c a l e   c hi ne s e   s c i e nt i f i c   l i t e r a t ur e   da t a s e t ,”   P r oc e e d i ngs   -   I nt e r nat i onal   C onf e r e nc e   on  C om put at i onal   L i ngui s t i c s , C O L I N G vol . 29, no. 1, pp. 3917 3923, 2022.   [ 27]   S L i Z .   Z ha o,  R H u,   W L i T .   L i u,  a nd  X D u,   A na l ogi c a l   r e a s oni ng  on  c hi ne s e   m or phol ogi c a l   a nd  s e m a nt i c   r e l a t i ons ,”   i P r oc e e di ngs  of  t he  56t h A nnual  M e e t i ng of  t he  A s s oc i at i on f or  C om put at i onal   L i ngui s t i c s M e l bour ne , A u s t r a l i a , vol . 2, J ul 2018,   pp. 138 143, doi :  10.18653/ v1/ P 18 - 2023.     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   A r ti f   I nt e ll     I S S N :   2252 - 8938       C hi ne s e  pape r  c la s s if ic at io n bas e d on p r e - tr ai ne d l anguage  m o de and hy br id     ( X in  L uo )   649   B I O G R A P H I E S  O F  A U T H O R S       Xin  Luo          is  pursuing   in  Computer  Scienc in  School   of  Compu ting  Sciences,  College  of  Computing,  Informa tics   and  Mathema tics,  Univers iti  Teknologi   MARA   Shah  Alam,  Selangor,  Malaysia.  His  current  research  interests  are  d eep  learning  and  natural  language  process.  He can  be contac ted at ema il: 2022201126@isiswa.uitm.edu.my.         Sofianita   Mutalib          is  currently  the  associate  professor  in  School  of  Computing   Scienc es,  College   of  Computing Infor matics  and  Mathem atics  Univ ersiti  Teknol ogi  MARA ,   (UiTM)  Shah  Alam She  teaches  bachelor  and   postgraduate  courses  rela ted  to  intelligent  systems   such  as  intelligent  system  development,  data   mining ,   and  final   project.  Her  primary  research   interests  involve  intelligent  systems,  data  mining  as  well   as  machin learning  and  also  data   science. She c an be contac ted at email: sofia nita@ uitm.edu.my .         Syarifa h Ruzaini  Syed Ar is          is curren tly a senior  lecture r in School of  Computing   Scienc es,  College   of  Computing Infor matics  and  Mathem atics  Univ ersiti  Teknol ogi   MARA  (UiTM) ,   Shah Al am. He r  prima ry re searc h  inter ests inv olve st rateg ic   manage ment inf ormatio systems and business intellige nce. She ca n be contacte d at email: ruza ini@ uitm.edu.my .     Evaluation Warning : The document was created with Spire.PDF for Python.