I n t e r n at ion al   Jou r n a l   of   I n f o r m at ics   an d   Com m u n icat ion   T e c h n ol ogy  ( I J - I CT )   Vo l .   1 4 ,   N o .   1 A pr i l   20 2 5 ,   pp.   229 ~ 239   I S S N:  2252 - 8776 DO I 10 . 11591/i ji c t . v 1 4 i 1 . pp 22 9 - 239             229       Jou r n al  h o m e page ht tp: // ij ict . iaes c or e . c om   A n   m od e f or  st r u c t u r e d  t h e   N o S QL  d at ab a se s b ase d  on   m ac h in e  l e ar n in g c la ss ifie r s       Am in e   B e n m ak h l ou f   C o mput e r , N e tw o r ks , M o bi li t y  a nd M o d e li ng  L a b o r a t or y  ( I R 2 M ) , D e pa r tm e nt   of  M a th e ma ti c s  a nd C o mput e r   S c i e n c e   F a c ul t y   of   S c i e n c e  a nd  T e c hn o l o g y , U ni ve r s it y   H a s s a n 1 st , S e tt a t,  M o r oc c o       Ar t ic l e   I n f o     AB S T RA CT   A r ti c le  h is tor y :   R e c e i ve d   A ug  28,   2024   R e vi s e Oc t   6,   2024   A c c e pt e N o v   19,   2024       T o d a y ,   t h e   m a j o ri t y   o d at g en e rat ed   an d   p ro ce s s ed   i n   o r g an i zat i o n s   i s   u n s t ru c t u r ed .   N o SQ L   d at ab as e   m a n ag emen t   s y s t em s   p e rfo r m   t h m an a g eme n t   o t h i s   d at a.   T h p ro b l em   i s   t h at   t h e s e   u n s t ru c t u red   d at ab as e s   c an n o t   b e   a n al y z e d   b y   t rad i t i o n al   O L A a n al y t i c al   t r e at me n t s .   T h e   l at t e ar m ai n l y   u s e d   i n   s t ru c t u r e d   r el at i o n a l   d at ab as e s .   In   o r d e t o   ap p l y   O L A P   an al y s e s   o n   N o SQ L   d at a,   t h e   s t ru c t u r i n g   o t h i s   d at i s   e s s en t i al .   In   t h i s   p ap e r,   w e   p ro p o s e   mo d el   fo s t ru c t u ri n g   t h d at o d o cu m en t - o ri en t ed   N o SQ L   d at ab as e   u s i n g   m a ch i n e   l e arn i n g   (ML ) .   T h i s   met h o d   i s   b ro k en   d o w n   i n t o   t h r ee   s t e p s ,   fi rs t   t h e   v ec t o ri zat i o n   o d o c u men t s ,   t h en   t h e   l e arn i n g   v i a   d i ff e r e n t   ML   al g o r i t h m s   an d   fi n al l y   t h e   c l as s i fi c at i o n ,   w h i ch   g u ara n t ee s   t h at   d o c u men t s   w i t h   t h s ame  s t ru c t u re  w i l l   b el o n g   t o   t h s a me   co l l ec t i o n .   T h e r e fo r e,   t h e   mo d el i n g   o a   d at w ar eh o u s c an   b e   c a rri ed   o u t   i n   o rd e r   t o   c r e at O L A cu b e s .   S i n ce  t h e   m o d e l s   f o u n d   b y   l e ar n i n g   a l l o w   t h e   p aral l el   c o m p u t at i o n   o t h e   c l as s i fi e r ,   o u ap p ro ach   r e p re s e n t s   a n   ad v an t ag e   i n   t e r m s   o s p ee d   s i n ce   w w i l l   a v o i d   d o u b l y   i t e rat i v al g o ri t h m s ,   w h i ch   r e l y   o n   t e x t u al   co m p ari s o n s   (T C) .   A   c o m p arat i v s t u d y   o f   t h p e rfo r m a n ce s   i s   c arri ed   o u t   i n   t h i s   w o r k   i n   o rd e t o   d e t ec t   t h e   mo s t   e ffi ci e n t   me t h o d s   to  p e rfo r m   t h i s   t y p e   o c l as s i fi c at i o n .   K e y w o r d s :   De e l e a r ni ng   Do c um e n t s   o r i e n t e da t a b a s e   Gr a d i e n t   M a c hi ne   l e a r ni ng   Ne ur a l   n e t wor ks   No S QL   OL A P   Th i s   i s   a n   o p en   a c ces s   a r t i c l u n d e r   t h CC  B Y - SA   l i cen s e.     C or r e s pon din A u th or :   Ami ne   B e nm a k hl o u f   C o m put e r ,   Ne t w o r ks ,   M o bi li t y   a n M o de l i ng  L a bo r a tor y   ( I R 2M )   De pa r t m e n t   o f   M a t h e m a t i c s   a n C o m put e r   S c i e n c e ,   F a c u l t y   o f   S c i e n c e   a n T e c hn o l o g y   Ha s s a n   1 st   Uni ve r s i t y   S e tt a t,   M o r o c c o   E m a i l Ami ne . be nm a k hl o u f @ u h p. a c . m a       1.   I NT RODU C T I ON   B i d a t a   i s   c ha r a c t e r i z e by   t h e   3Vs   [ 1] ,   whi c h   a r e   v o l u m e ,   ve l o c i t y   a n va r i e t y .   S i t s   a   l a r ge   a m o un t   o f   da t a   a r r i vi ng   a a   hi g h e r   s pe e a n w i t a   l o o f   v a r i e t y .   T hi s   l a s t   c h a r a c t e r i s t i c   m e a ns   t h a t h e   da t a   c o l l e c t e i n   bi da t a   c o m e s   f r o m   s e v e r a l   s o ur c e s   a n i s   n ot   n e c e s s a r i ly   s t r uc t ur e d.   T h e s e   l a r ge   a nd  v a r i e d   da t a s e t s   c a nn o b e   m a na ge by   t r a d i t i o n a l   r e l a t i o na l   da t a b a s e   m a n a ge m e n t   s y s t e m s   [ 2] .   N o S QL   r e pr e s e n t s   a i n t e r e s t i n a l t e r n a t i v e .   T h e s e   a r e   n o n - r e l a t i o n a l   d a t a b a s e   m a n a ge m e n t   s y s t e m s   ( DB M S s )   c a pa bl e   o f   h a n d li ng   a   l a r ge   a m o u n t   o f   un s t r uc t u r e da t a   wi t h   gr e a ter   f l e xi b i li t y   a n s c a l a bil i t y .   T h e   a to m i c i t y ,   c o h e r e n c e i s o l a t i o n ,   a n dur a bil i t y   ( A C I D )   pr i n c i p l e s     a r e   e n s ur e i r e l a t i o n a l   da t a ba s e s .   T h e s e   f e a t ur e s   e n s ur e   t h a t   i n f o r m a t i o n   r e m a i ns   c o ns i s t e n t   dur i n a   t r a n s a c t i o n .   T h e   l a t t e r   r e pr e s e n t s   a n   i s o l a t e uni t   w hi c h   i s   n o a f f e c t e by   a n o t h e r   t r a n s a c t i o n ,   i t   r e m a i ns   pe r m a ne n t l y   i n   t h e   s y s t e m   a f t e r   v a l i da t i o n .   N o S QL   da t a ba s e s   a l s o   gua r a n t e e   t h e   di s t r i b ut i v e n e s s ,   f l e xi b il i t y   ( DF )   pr i n c i p l e s .   D i s t r i b ut i n da t a   a c r o s s   m u l t i p l e   s e r v e r s   m a ke s   i t   m o r e   a c c e s s i b l e   a n i nc r e a s e s   t h e   s y s t e m s   a bil it y   t o   pe r f o r m   we ll   w i t h   l a r ge r   wo r kl o a ds .   I t   i s   f o r   t h e s e   r e a s o n s   t h a t   N o S QL   s y s t e m s   a r e   s o l ut i o n s   f o r   s to r i n a n m a n a g i ng  s t r uc t ur e d,   s e m i - s t r uc t u r e a n d   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8776   I n t   J   I n f   &   C o m m u n   T e c hn o l Vo l .   1 4 ,   N o.   1 A pr i l   20 2 5 :   229 - 239   230   un s t r uc t ur e d   da t a .   De s p i t e   t h e   a dv a n t a ge s   o f   N o S QL   da t a b a s e s ,   us i n o nl i ne   a n a ly t i c a l   pr o c e s s i ng   ( OL A P m u l t i d i m e ns i o n a l   da t a   a na l y s i s   t e c hni qu e s   i s   d if f icu l t .   OL A P   a n a ly s i s   i s   o r i g i na ll y   pe r f o r m e o n   r e l a t i o n a da t a b a s e s .   I c a n   a l s o   b e   a pp l i e to  N o S QL   da t a b a s e s   b ut   wi t h   s t r uc t u r e da t a   [ 3 ] - [ 5] .   T h e r e f o r e ,   a p pr o p r i a t e   m e t h o ds   f o r   a n a ly z i ng  u ns t r uc t ur e da t a   i n   N o S QL   s y s t e m s   n e e d   t o   b e   de v e l o pe d.   T h e   m o s t   c o m mo nl y   us e d   t y pe   o f   N o S QL   da t a b a s e   i s   t h e   do c u m e n t - or i e n t e da t a b a s e .   I n   t hi s   t y pe   o f   da t a b a s e ,   da t a   i s   s t o r e i c o l l e c t i o ns .   E a c h   c o l l e c t i o n   i s   a   s e t   o f   do c um e n t s   a n e a c h   do c um e n t   i s   a   s e t   o f   pa i r s   ( ke y ,   v a l ue ) ,   th e   ke ys   a r e   n o n e   ot h e r   t h a n   t h e   a tt r i b ut e s .   Do c um e n t s   i n   t h e   s a m e   c o l l e c t i o n   c a n   h a v e   d if f e r e n t   a tt r i b ut e s ,   he n c e   t h e   un s t r uc t ur e n a t ur e   o f   a   do c u m e n t - o r i e n t e No S QL   da t a b a s e .   I t   i s   i t hi s   c o n t e x t   t h a t   we   pr o p o s e ,   i n   t hi s   wo r k ,   a n   a ppr o a c h   to  s tr uc t u r e   t h e   da t a   o f   a   do c u m e n t - or i e n t e No S QL   da t a b a s e   a n t h us   b e   a bl e   to  e x t r a c t   OL A P   c ub e s .   M a c hi ne   l e a r ni ng  ( M L )   a l go r i t hms   a r e   us e to   o b t a i n   do c u m e n t   c l a s s if i c a t i o n   m o de l s   i d i f f e r e n t   c o l l e c t i o n s .   Our   m e t h o c o n s i s t s   o f   t h r e e   ph a s e s   w hi c h   a r e   v e c t o r i z a t i o n   o f   do c u m e n t s ,   l e a r ni ng  t h e n   pr e d i c t i o n .   T hi s   l a s t   ph a s e   w il l   a ll o us   t o   c l a s s if y   t h e   do c u m e n t s   i n t o   s e v e r a l   c o l l e c t i o ns .   pa r a l l e l   c a l c u l a t i o n   c a n   b e   c a r r i e o ut  i n   t hi s   c a s e   s i nc e   t h e   m o de l s   f o un d,   a f t e r   t r a i ni ng,   c a n   b e   a pp l i e d   to   e a c do c um e n t   i n   t h e   m a i c o l l e c t i o n .   T h e   t r a i ni ng  c o r pus   wi ll   b e   c o m po s e o f   t h e   n a m e s   o f   t h e   d o c um e n t   a tt r i b ut e s .   ML   i s   a   b r a n c h   o f   a r t i f i c i a l   i n t e ll i ge n c e   t h a t   i nv o l ve s   us i ng  a l go r i t hm s   t o   a n a l y z e   da t a   s e t s   a n d   i de n t i f y   t r e n ds   o r   pa tt e r n s .   T h e s e   m o de l s   a r e   t h e n   us e to  m a ke   pr e d i c t i o n s   o n   n e da t a .   T h e   a l go r i t hm s   us e d   i t hi s   wo r a r e   t h e   c l a s s if i e r s l o g i s t i c   r e gr e s s i o ns   ( L R s ) , N a i v e s   B a y e s   ( NB ) , K - n e a r e s t   n e i g hb o ur s   ( K NN s ) m u l t i   l a y e r   pe r c e pt r o n   ( M L P ) ,   de c i s i o n   t r e e   ( DT ) ,   a n s uppo r t   v e c to r   m a c hi ne s   ( S VM s ) .   I n   o r de r   to  e v a l ua t e   t h e   pe r f o r m a n c e   a n e f f e c t i v e n e s s   o f   t h e s e   M L   m o de l s   i n   t hi s   t y pe   o f   m u l t i c l a s s   c l a s s if i c a t i o n ,   a   s t ud y   o f   m e t r i c s   i s   c a r r i e o ut  i n   t hi s   wo r k.       2.   M UL T I DI M E NSI ONAL   CONC E P T U AL   M ODE L   T h e   m u l t i d im e ns i o n a l   m o de l   i nc l ude s   f a c t   t a bl e s   a s s o c i a t e wi t h   d i m e ns i o n   t a bl e s   [ 6] - [ 9]   T h e   c o r r e s p o n d i n d i a gr a m   E   i s   g i ve n   by = ( , ,  )   wi t h :   = { 1 , 2 , , }   i s   a   f i ni t e   s e t   o f   f a c t s   t a bl e s .   = { 1 , 2 , , }   i s   a   f i ni t e   s e t   o f   d i m e ns i o n   t a bl e s    = 2   i s   a   f u n c t i o n   t h a t   a s s o c i a t e s   t h e   f a c t s     wi t h   s e t s   of   d im e ns i o n s   a l o n whi c h   t h e y   c a b e   a n a ly s e ( 2   i s   t h e   s e t   o f   po we r s   o f     )   E a c h   d i m e ns i o n     i s   de f i ne by   ( , , )   wi t h :   i s   t h e   d i m e n s i o n   n a m e .   = { 1 , 2 , ,   }   i s   t h e   a t tr i b ut e s   s e t   e xi s t i n i n   t h e   d im e n s i o n s .   T h e r e   a r e   s im p l e   a n c o m p l e a tt r i b ut e s   c o m po s e o f   s e v e r a l   a t t r i b ut e s .   = { 1 , 2 , ,   }   i s   t h e   hi e r a r c hi e s   s e t .   E a c h   f a c t e     i s   de f i ne by   (  ,  )   w i t h :      i s   t h e   n a m e   o f   t h e   t a bl e   m a de .    = { 1  , 2  , , | |  }   i s   t h e   m e a s ur e m e n t   s e t.   A ggr e ga t e   f u n c t i o n s   a r e   a pp l i e to   t h e   m e a s ur e m e n t s .     A   c o m bi na t i o n   o f   d i m e ns i o ns   r e pr e s e n t s   t h e   a x e s   o f   a na ly s i s ,   whil e   m e a s ur e s   a n t h e i r   a ggr e ga t i o ns   r e pr e s e n t   t h e   a n a ly s i s   v a l ue s .       3.   DOCU M E NT - ORI E NT E D   NO - RE L AT I ON AL   L OG I CA L   M ODE L   OL A P   a n a ly s i s   o n   do c um e n t - o r i e n t e N o S QL   d a t a   wa r e h o us e s   h a s   b e e n   t h e   s ubj e c t   o f   s e v e r a s t udi e s .   Al l   t he s e   s t udi e s   we r e   c a r r i e o u o n   a   s e o f   s t r uc t u r e da t a   i n   No S QL   da t a b a s e s .   F o r   e x a m p l e   t h e   a ut h o r s   [ 10 ] - [ 13 ]   w o r ke o n   s e t t i n up  a   da t a   wa r e h o us e   w i t h   a   do c u m e n t - or i e n t e No S QL   s y s t e m .   T h e pr o p o s e   f o ur   d o c um e n t - o r i e n t e l o g i c   m o de l   a ppr o a c he s .     I n   t h e   f i r s t   m o de l ,   c a ll e f l a t   de n o r m a li s e ( F M ) ,   a l l   d im e n s i o n   a t t r i b ut e s   a n a ll   m e a s ur e m e n t s   a r e   c o m bi ne i n   a   s i ng l e   do c u m e n t .      = {   , 1  , 2  , . , | |  , 1 1 , 2 1 , . , | 1 | 1 ,     1 2 , 2 2 , . , | 2 | 1 }         I n   t h e   s e c o n m o de l ,   c a l l e n e s t e de n o r m a li s e d   ( NM ) ,   t h e   a tt r i b ut e   v a l ue s   o f   t h e   f a c t   a n d i m e n s i o t a bl e s   a r e   s to r e d   i n   a   s i n g l e   c o l l e c t i o n .   I n   e a c h   do c um e n t ,   t h e   m e a s ur e m e n t s   f r o m   t h e   f a c t   t a bl e   a r e   gr o upe d   i n   a   s u b - do c u m e n t   wi t h   t h e   ke y   N F .   T h e   a tt r i b ut e s   o f   e a c h   d i m e ns i o n   D i   a r e   a l s o   gr o upe d   i n   a   s ub - do c u m e n t   i de n t i f i e by   t h e   ke y   N Di .   T h e   m o de l   s c h e m a   i s   de f i ne by :   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t   J   I n f   &   C o m m u n   T e c hn o l     I S S N:   2252 - 8776         A mode l   f or   s tr uc tur e the  N OSQ L   databas e s   bas e on  …  ( A mine   B e nmak hlou f )   231    = {           ,  : { 1  , 2  , . , | |  } , 1 : { 1 1 , 2 1 , . , | 1 | 1 } , 2 : { 1 2 , 2 2 , . , | 2 | 1 } , . . }                 I n   t h e   t hi r m o de l ,   c a ll e n o r m a li s e s p l i t   ( S M ) ,   th e   da t a   f r o m   t h e   f a c t   a n d im e n s i o n   t a bl e s   a r e   s t or e i s e pa r a t e   c o l l e c t i o n s   i n   o r de r   to   r e m o v e   r e dun da nc i e s .   T h e   f a c t   F   i s   s t or e i n   a   c o l l e c t i o n   C F   a n e a c d i m e n s i o n   D i   i s   s to r e d   i n   a   c o l l e c t i o n   C D i .   T h e   f a c d o c um e n t   c o n t a i n s   f o r e i g n   ke y s   w h o s e   v a l u e s   c o m e   f r o m   t h e   pr i m a r y   ke y s   o f   t h e   d i m e n s i o n   do c u m e n t s .   T h e   m o de l   s c he m a   i s   de f i ne by :      = {   , 1  , 2  , . , | |  ,  1 ,  2 , . . }     1 = {  1 , 1 1 , 2 1 , . , | 1 | 1 }     2 = {  2 , 1 2 , 2 2 , . , | 2 | 2 }         I n   t h e   f o ur t h   m o de l ,   c a l l e hy b r i ( HM ) ,   t h e   c h a r a c t e r i s t i c s   o f   t h e   S M   a n NM   m o de l s   a r e   c o m bi n e d.     All   t he   a tt r i b ut e s   o f   t h e   f a c t   a n d i m e ns i o n   t a bl e s   a r e   s tor e i n   a   s i ng l e   c o l l e c t i o n ,   b ut   ke e pi n t h e   s a m e   s c h e m a   o f   t h e   S m o de l .   I n   e a c h   do c um e n t   o f   t h e   C F   c o l l e c t i o n ,   we   s to r e   t h e   a tt r i b ut e   v a l ue s   o f   t h e   f a c t a bl e   a s   we ll   a s   t h e   f o r e i g n   ke y s   w h o s e   v a l ue s   c o m e   f r o m   t h e   pr i m a r y   ke y s   o f   t h e   d i m e ns i o n   tabl e s .     T h e s e   a r e   s t or e i n   n e s t e s ub do c u m e n t s   i n   C F .   t h e   d i a gr a m   i s   g i ve n   by :      = {           , 1  , 2  , . , | |  ,  1 ,  2 , . . , 1 : {  1 , 1 1 , 2 1 , . , | 1 | 1 } , 2 : {  2 , 1 2 , 2 2 , . , | 2 | 1 } }               T h e s e   m u l t i d im e ns i o na l   l o g i c a l   m o de l s   c a n   o nl y   b e   o b t a i ne f r o m   a   s tr uc t ur e N oS QL   da t a b a s e .   i . e . ,   i n   t h e   c a s e   o f   do c u m e n t - or i e n t e da t a b a s e s   whe r e   a l l   r e c o r ds   h a ve   t h e   s a m e   a t tr i b ut e s .   On   t h e   ot h e r   h a n d,   a ppr o p r i a t e   m e t h o ds   f o r   a n a l y s i ng  u n s t r uc t u r e da t a   i n   N o S QL   s y s t e m s   m us t   b e   de v e l o pe d.   T h e   m a i n   o bj e c t i v e   o f   o ur   w or k   i s   to  p r o p o s e   a n   e f f i c i e n t   a p pr o a c h   f o r   s tr uc t ur i n t h e   da t a   i n   a   No S QL   da t a b a s e   s t h a i t   i s   s u i t a bl e   f o r   m u l t i d i m e ns i o n a l   m o d e l li ng.       4.   P ROP OS E M ODE L   I n   t hi s   a r t i c l e ,   we   pr o po s e   a   m o de l   c a ll e M L DS”  ( m a c hi ne   l e a r ni ng  f o r   da t a   s t r uc t ur i n g )   c a p a bl e   o f   s t r uc t u r i n t h e   da t a   o f   a   d o c um e n t - or i e n t e N oS QL   da t a b a s e .   S i n c e   o ur   pr o bl e m   i s   a   s upe r vi s e m u l t i c l a s s   c l a s s if i c a t i o n ,   we   w i ll   a pp ly   ML   a n de e l e a r ni n m e t h o ds   i n   o r de r   to   s t udy   t h e i r   pe r f o r m a n c e   i n   t hi s   t y pe   o f   pr o bl e m .   I n   t h e   l i t e r a t ur e ,   s e v e r a l   wo r ks   h a ve   b e e n   c a r r i e o u t   to  c l a s s if y   do c u m e n t s   i n   a   do c um e n t - o r i e n t e da t a b a s e .   Am a z a l   e al.   [ 14]   us e d   t h e   Na îf   B a y e s   c l a s s if i c a t i o n   m e t h o d.   I i s   a   s upe r vi s e l e a r ni ng   a l go r i t hm   b a s e o n   B a y e s   t h e o r e m .   I i s   o f t e n   us e f o r   c l a s s if i c a t i o n   o f   t e x t   a n c a t e g o r i c a l   da t a .   T hi s   i s   a   s i m p l e   a n f a s t   a l go r i t hm ,   b ut   i t   a s s u m e s   c o n d i t i o n a l   i n d e pe n de n c e   b e t we e n   f e a t ur e s ,   whi c h   i s   n o a l wa y s   r e a l i s t i c   i n   pr a c t i c e .   Da v a r do o s e al .   [ 15 ]   c o m bi ne t hi s   a l go r i t hm   w i t h   t h e   m a p - r e duc e   pr o gr a m mi ng   m e t h o i n   o r de r   to  a da pt  i t   to  l a r ge   a m o un t s   o f   da ta.   T h e   c l a s s if i c a t i o n   m e t h o ds DT ,   S VM ,   K NN ,   N B ,   M L P ,   a n L R   a r e   us e i n   o ur   m o de l .   T h e   m a i n   o bj e c t i v e   i s   to   c o m pa r e   t h e   pe r f o r m a nc e   o f   t h e s e   m e t h o ds   i n   t h e   c l a s s if i c a t i o n   o f   un s t r uc t u r e a n c o m p l e x   da t a .   T h e   s t r uc t ur e   o f   o ur   m e t h o wi l l   be   de s c r i b e i n   t hi s   s e c t i o n .   F i gur e   r e pr e s e n t s   t h e   di f f e r e n t   s t e ps   o f   t h e   M L DS”  m e t h o to  pr e pa r e   da t a   f o r   OL A P   pr o c e s s i n g.   T h e   f i r s t   ph a s e   i s   a   tr a i ni ng  da t a   p r e pa r a t i o n   pha s e .   NoSQL   da t a b a s e   n e e ds   t b e   c o n ve r t e d   to  m a t r i x .   T h e   d o c um e n t s   f r o m   t h e   d o c u m e n t - o r i e nt e d   da t a b a s e   a r e   us e a s   i n put   da t a   to  t h e   v e c tor i z a t i o a l go r i t hm .   A   c o l l e c t i o n   o f   a   do c u m e n t - or i e n t e da t a b a s e   i s   c o m po s e o f   n   do c um e n t s .   A n e a c h   do c u m e n t   i s   c o m po s e o f   a   s e t   o f   a t tr i b ut e s .   S i n c e   t h e   da t a   i n   a   No S QL   da t a b a s e   i s   n o s tr uc t ur e d,   t h e   n u m be r   o f   a tt r i b ut e s   d i f f e r s   f r o m   o n e   d o c um e n t   to  a n ot h e r .   S o m e   a tt r i but e s   a r e   p r e s e n t   i n   do c um e n t s   whil e   ot h e r s   a r e   a b s e n t .   T h e   v e c t o r i z a t i o n   a l go r i t hm   g i ve s   a s   o ut pu a   bi n a r y   m a t r i x   c o m po s e o f   a n 1.   T h e   r o ws   o f   t hi s   m a t r i r e pr e s e n t   t h e   n   do c um e n t s   i n   t h e   c o l l e c t i o n ,   t h e   c o l u m ns   r e pr e s e n t   t h e   s e t   o f   a tt r i b ut e s   o f   a l l   t h e   do c u m e n t s   a n t h e   e l e m e n t s   o f   t h e   m a t r i x   a r e   o r   1.   m e a n s   t h e   a t tr i b ut e   i s   a b s e n t   i n   t h e   do c um e n t   a n m e a ns   t h e   a tt r i b ut e   i s   pr e s e n t .   A   dupl i c a t e   r e m o va l   pr o c e s s   i s   c a r r i e o u o n   t h e   m a t r i x   i n   o r de r   to  ke e o nl y   u ni que   v e c t o r s .   T h e   r e s u l t   wi ll   t he r e f o r e   b e   t h e   tr a i ni ng  da t a   f o r   t h e   de e n e ur a l   n e t wo r k.   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8776   I n t   J   I n f   &   C o m m u n   T e c hn o l Vo l .   1 4 ,   N o.   1 A pr i l   20 2 5 :   229 - 239   232       F i gur e   1 .   T h e   ph a s e s   o f   t h e   M L DS  m o de l       T h e   s e c o n ph a s e   i s   a   l e a r ni ng  ph a s e .   T h e   v e c t or s   ( r o ws   o f   m a t r i x   D)   a r e   s ubj e c t e to  t h e   di f f e r e n t   ML   a l go r i t hm s   a pp li e i n   t h e   m u l t i p l e   c l a s s   c l a s s i f i e r s .   M u l t i - c l a s s   c l a s s if i c a t i o n   a l go r i t hm s   a r e   us e to  c l a s s if y   da t a   i n t m o r e   c o l l e c t i o ns .   S e v e r a l   m e t ho ds   h a v e   b e e n   de v e l o pe ba s e o n   n e ur a l   n e t wo r ks ,   DT s K NN NB S VM s a n L R   to  s o l v e   m u l t i - c l a s s   c l a s s if i c a t i o n   pr o bl e m s .   T b e g i n ,   we   r e m o v e   t h e   d up l i c a t e s   f r o m   t h e   m a t r i x   D.   T h e   s e o f   uni que   v e c t o r s ,   t h us   o b t a i n e d,   wi ll   r e pr e s e n t   t h e   t r a i ni ng  da t a .   On   th e   ot h e r   h a n d,   a l l   o f   t h e   v e c to r s   o f   t h e   m a t r i x   w i l l   r e pr e s e n t   t h e   t e s t   da t a .   T h e   pr e di c t i o n   s t e c o n s i s t s   o f   us i n t h e   m o de l   f o un by   e a c h   l e a r ni ng  m e t h o i n   o r de r   to  de t e r m i ne   w hi c h   c l a s s   t h e   t e s t   da t a   b e l o n gs   t o .   D oc u m e n t s   s i mi l a r   i n   s t r uc t u r e   a r e   m a ppe to   t h e   s a m e   c l a s s e s   t h us   a l l o w i ng  e x t r a c t i o n   o f   OL A P   c u b e s   ba s e o n   c l a s s if i c a t i o n .   T h e   t hi r p h a s e   i s   t h e   c l a s s i f i c a t i o n   o r   pr e d i c t i o n   p h a s e .   T h e   pa t t e r n s   f o un dur i ng  t h e   l e a r ni n g   ph a s e   w i ll   b e   us e to   de t e r m i ne   i n   w h i c h   c o l l e c t i o n   a   do c u m e n t   wi ll   b e   c l a s s if i e d.   Our   m e t h o a l l o w s   pa r a l l e c l a s s if i c a t i o n   o f   do c u m e n t s ,   whi c h   w i ll   s i g nif i c a n t ly   r e duc e   t h e   t i m e   r e qu i r e t c l a s s i f y   a ll   do c u m e nt s   i n   t h e   da t a b a s e .   A   c o m pa r a t i v e   s t ud y   o f   t h e   c l a s s if i c a t i o n   pr o c e s s i n t i m e   ba s e o n   t h e   l e a r ni ng  m o de l s   w i l l   b e   c a r r i e o u i n   t h e   e x pe r im e n t a t i o n   pa r t.   D o c um e n t s   w i t h   a   s i m il a r   s t r uc t u r e   wi l l   b e   m a pp e to  th e   s a m e   c o l l e c t i o n .   T h e r e f o r e ,   OL A P   c ube s   c a n   b e   e x t r a c t e b a s e o n   t h e   c l a s s if i c a t i o n .   T p r o vi de   a   vi s u a l   o v e r vi e o f   t h e   pr o p o s e d   s y s t e m ,   F i gur e   i ll u s t r a t e s   t h e   a r c hi t e c t ur e   a n d   wo r kf l o w.   T h e   da t a   pr e pa r a t i o n   p h a s e   r e s u l t s   i n   a   t r a i ni ng  da t a s e t   c o m po s e by   u ni que   v e c t o r s   a f t e r   r e m o vi ng  dup l i c a t e   v e c t or s .   T h e   m o de l   f o un a f t e r   t h e   l e a r ni ng  ph a s e   i s   us e o n   t h e   e n t i r e   m a t r i x   to  c l a s s if y   t h e   do c u m e n t s .           F i gur e   2 .   F l o di a gr a m   o f   t h e   pr o p o s e s o l ut i o n       5.   M E T HO DS  M AC HI NE   L E AR NI NG   USE D   5. 1.     M u l t in om ial   l ogis t ic  r e g r e s s ion s   LR   i s   a   s upe r vi s e ML   a l go r i t hm   u s e to   p r e d i c t   t h e   pr o b a bil i t y   o f   w h e t h e r   o r   n ot   a n   i ns t a n c e   b e l o n g s   to   a   gi ve n   c l a s s .   T hi s   a l go r i t hm   [ 16]   us e s   a   f u n c t i o n a l   a ppr o a c h   t o   f i nd  t h e   bi na r y   r e s po n s e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t   J   I n f   &   C o m m u n   T e c hn o l     I S S N:   2252 - 8776         A mode l   f or   s tr uc tur e the  N OSQ L   databas e s   bas e on  …  ( A mine   B e nmak hlou f )   233   pr o b a bil i t y   b a s e o n   a   n u m be r   o f   c h a r a c t e r i s t i c s .   T h e   S o f t M a x   f u n c t i o n   ( 1)   c a n   b e   us e i n   mu l t i - c l a s s   c l a s s if i c a t i o n   pr o bl e m s   w h e r e   t h e   go a l   i s   to   pr e di c t   a   s i n g l e   l a b e l   f r o m   m u l t i p l e   c l a s s e s .      ( ) = ( ) ( ) = 0   =   ( 1)     5. 2.     Naive s   B aye s   c l as s if icat o r y   T h e   NB   a l go r i t hm   [ 17]   c a n   be   us e f o r   m u l t i   c l a s s   c l a s s if i c a t i o n   w i t h   m o r e   t w o   c l a s s .   T o   c l a s s if y   a   s a m p l e ,   we   c a l c u l a t e   t h e   pr o b a bil i t y   o f   e a c h   c l a s s   a n s e l e c t   t h e   c l a s s   w i t h   t h e   hi g h e s t   pr o b a bil i t y .   T h e   NB   c l a s s if i e r   a s s u m e s   t h a t   a l l   i nput   da t a   f e a t ur e s   a r e   i n de pe n d e n t ,   whi c h   i s   n o t   tr ue   i n   r e a l i t y .   Ho we v e r ,   de s p i t e   t hi s   s im p li f yi ng  hy po t h e s i s ,   t hi s   a l go r i t hm   r e m a i n s   e f f e c t i ve   a n pe r f o r m s   we l l   i n   m a ny   a pp l i c a t i o ns .   B a y e s   t h e o r e m   a l l o w s   us   to  c a l c u l a t e   pr o b a bi li t y   o f   e a c h   do c u m e n t   b e l o n gs   t e a c h   c l a s s   P ( C 1/d) ,   P ( C 2/d) ,   ,   P ( C n /d) .   I f   P ( C k/d) = m a x ( P ( C 1/d) ,   P ( C 2/d) ,   ,   P ( C n /d) )   t h e n   t h e   c l a s s   o f   t h e   do c um e n t   i s   C k.   C o n s i d e r i n g   t h a t   t h e   a tt r i b ut e s   a r e   i n de pe n d e n t ,   t h e   pr o b a bil i t do c um e n t s   P ( C i |d)   b a s e o n   NB   t h e o r y   c a n   be   c a l c u l a t e a c c o r di n t ( 2 ) .     , ( ) = ( ) ( ) ( )   (2 )     A v e c :     P ( C i |d)   i s   t h e   po s t e r i o r   pr o b a bil i t y   o f   t h e   c l a s s   ( C i ,   t a r ge t)   gi v e n   t h e   pr e d i c t o r   ( d ,   a tt r i b ut e s ) .     P ( C i )   i s   t h e   pr i o r   pr o b a bil i t y   o f   t h e   c l a s s .     P ( d|C i )   i s   t h e   l i ke li h o o d,   whi c h   i s   t h e   pr o b a bil i t y   o f   t h e   pr e d i c t or   gi v e n   t h e   c l a s s .     P ( d)   i s   t h e   pr i o r   p r o b a bi li t y   o f   t h e   pr e d i c t o r .   I f   we   a s s u m e   t h a t   A = {a 1 , a 2 , … a m i s   t h e   a tt r i b ut e s   s e t   o f   t h e   do c um e n t   d,   we   a r e :     ( ) ( ) = ( ) ( ) = 1   ( 3)     5. 3.     K - n e ar e s t   n e igh b ou r s   K NN   [ 18]   i s   a   ML   a l go r i t hm   t h a t   c a n   b e   us e d   f o r   m u l t i - c l a s s   c l a s s i f i c a t i o n .   I n   t h e   c o n t e x t   o f   m u l t i c l a s s   c l a s s if i c a t i o n ,   K NN   a i m s   t c l a s s if y   a   da t a   p o i n t   b a s e o n   t h e   m o s t   f r e que n t   c l a s s   a m o n i t s   K NN T h e   E uc l i de a n   d i s t a n c e   ( D ij )   b e t we e n   t w o   i n put   v e c to r s   ( V i ,   V j )   i s   g i ve n   a s :      = (   ) 2 = 1   ( 4)     T hi s   d i s t a nc e   b e t we e n   t h e   c ur r e n e n t r y   a n a n o th e r   da t a   p o i n t   i s   c a l c u l a t e f o r   e a c h   da t a   p o i n t   i t h e   da t a s e t .   T h e   e l e m e n t s   a r e   s e l e c t e a m o n t h o s e   wi t h   t h e   l o we s t   di s t a n c e .   T h e   c l a s s if i e r   r e tur n s   t h e   m a j o r i t y   c l a s s   a m o n t h e s e   da t a   p o i n t s   a s   t h e   c l a s s i f i c a t i o n   f o r   t h e   e n t r y   po i n t .     5. 4.    M u l t l aye r   p e r c e p t r on   De e l e a r ni ng  i s   a n   a d v a nc e f o r m   o f   ML   t h a t   us e s   n e ur a l   n e t wo r ks   to   m i mi c   t h e   f u n c t i o ni ng  o f   t h e   h u m a n   b r a i n .   T h e   M L P   [ 19]   i s   a   t y pe   o f   a r t i f i c i a l   n e ur a l   n e t wo r k   o r ga ni z e i n t s e v e r a l   l a y e r s .   A   M L P   h a s   a l e a s t   t h r e e   l a y e r s a n   i nput   l a y e r ,   a t   l e a s t   o n e   hi d de n   l a y e r ,   a n a n   o ut pu l a y e r .   T h e   t e c hni qu e   c a l led  f o r   in  t h e s e   n e ur a l   ne t wor ks   i s   gr a d i e n t   b a c kpr o pa ga t i o n.   Dur i n t h i s   pr o pa ga t i o n ,   i n put   da t a   i s   pa s s e t h r o ugh   t h e   n e t wo r k   l a y e r   by   l a y e r ,   w i t h   e a c h   l a y e r   pe r f o r m i n a   c a l c u l a t i o n   b a s e o n   t h e   i n put s   i t   r e c e i ve s   a n d   pa s s i n g   t h e   r e s u l t   to  t h e   n e x t   l a y e r .   B a c kpr o pa ga t i o n   i s   a n   a l go r i t hm   us e to   t r a i n   ne ur a l   n e t wo r ks   by   a d j u s t i n t h e   we i g h t s   a n bi a s e s   o f   t h e   n e t wo r k   to   m i n im i z e   t h e   l o s s   f u n c t i o n .   B e l o i s   a   m a t h e m a t i c a l   e x p l a n a t i o n   o f   t hi s   b a c kpr o pa ga t i o n   m e t h o d I n   a n   a r t i f i c i a l   n e ur a l   ne t w o r k ,   i f   t h e   S j   a r e   t h e   i nput s   o f   t h e   n e ur o n   ni   t h e n   t h e   o u t pu i s   g i v e n   by :     = ( )              =    ( 5)     f   i s   t h e   a c t i v a t i o n   f u n c t i o n   a n W ij   a r e   t h e   s y n a ps e   a c t i va t i o n   c o e f f i c i e n t s   a s   s h o wn   i n   F i gur e   3 .   T hi s   m e t h o c o n s i s t s   o f   c a l c u l a t i n t h e   gr a di e n t   o f   t h e   e r r or   i n   e a c h   n e ur o n   o f   t h e   n e t wor k.   T h e s e   e r r o r s   wi l l   b e   c o r r e c t e d   vi a   b a c pr o pa ga t i o n   o f   t h e   gr a di e n t .   T hi s   pr i n c i p l e   i s   e f f e c t i ve ly   us e i n   m u l t il a y e r   n e ur a l   n e t wo r ks     [ 20] - [ 23 ] .       Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8776   I n t   J   I n f   &   C o m m u n   T e c hn o l Vo l .   1 4 ,   N o.   1 A pr i l   20 2 5 :   229 - 239   234       F i gur e   3 .   Ne ur a l   n e t wor f o r wa r pa s s       L e t   S i   b e   t h e   o u t pu t   o b t a i n e f r o m   t h e   i t h   n e ur o n   o f   t h e   o u t pu t   l a y e r ,   a n t i   t h e   de s i r e o ut pu t.   T h e   s qua r e d   e r r o r   o n   t h e   o u t pu n e ur o n s   i s   g i ve n   by :     = ( ) 2   ( 6)     T h e   gr a d i e n t   m e t h o c o n s i s t s   o f   e v a l ua t i n t h e   j   a c t i v a t i o n   c o e f f i c i e n t s   o f   t h e   i t h   n e ur o n   w ij   i n   t h e   o pp o s i t e   d i r e c t i o n   o f   t h e   gr a d i e n t .   A c c o r di n to   ( 5) ,   t h e   e v o l ut i o n   o f   t h e   we i g h t   w ij   i s :      =     =     ( 7)     0 1 :             =     ( 8)     s i nc e     = 0            ,   we   f i nd:      =   ( 9)     s o,   t h e   e v o l ut i o n   o f   t h e   a c t i va t i o n   c o e f f i c i e n t   b e c o m e s :      =   W i t h =    ( 10)     f o r   t h e   o u t pu t   l a y e r   t h e   l o c a l   gr a d i e n t   i s   g i ve n   by :     = ( ) ( )   ( 11)     f o r   hi dde n   l a y e r s ,   a   l a y e r   i   i nf l ue n c e s   t h e   s t a t e s   o f   a l l   t h e   c e ll s   o f   t h e   n e x t   l a y e r   k,   t h e   l o c a l   gr a d i e n t   i s   g i ve by :     = ( )    ( 12)     w e   t h e r e f o r e   o b t a i n   a   r e c ur r i n m e t h o f o r   c a l c u lat i n t h e   e r r o r   s i g n a l s   o f   t h e   c e ll s   o f   a   l a y e r   f r o m   t h o s e   o f   t h e   f o l l o w i ng  l a y e r   a s   s h o w n   i n   F i gur e   4 .           F i gur e   4 .   Ne ur a l   n e t wor b a c pa s s       5. 5.     De c is ion   t r e e   DT   [ 24 ]   i s   a   s upe r vi s e ML   m e t h o t h a c a n   b e   us e f o r   c l a s s if i c a t i o n   a n r e gr e s s i o n   pr o bl e m s .   I t   i s   e s pe c i a ll y   pr e f e r r e f o r   s o l vi ng  c l a s s if i c a t i o n   pr o b l e m s .   I i s   a   tr e e - s tr uc t ur e d   c l a s s if i e r ,   wh e r e   i n t e r n a l   n o de s   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t   J   I n f   &   C o m m u n   T e c hn o l     I S S N:   2252 - 8776         A mode l   f or   s tr uc tur e the  N OSQ L   databas e s   bas e on  …  ( A mine   B e nmak hlou f )   235   r e pr e s e n t   f e a t ur e s   o f   a   da t a s e t,   b r a n c h e s   r e pr e s e nt   de c i s i o n   r u l e s ,   a n e a c h   l e a f   n o de   r e pr e s e n t s   t h e   r e s u l t .     DT   i s   m a de   up  o f   t wo   n o de s t h e   de c i s i o n   n o de   a n t h e   l e a f   n o de .   De c i s i o n   n o de s   a l l o a   de c i s i o n   t b e   m a de   a n ha v e   s e v e r a l   b r a nc h e s ,   whil e   l e a f   n o de s   g i v e   t h e   r e s u l t   o f   t h e s e   de c i s i o n s   a n do   n ot  c o n t a i b r a n c h e s .     5. 6.    S u p p or t   ve c t or   m ac h in e s   S VM   [ 25]   a r e   a   s e t   o f   s upe r vi s e l e a r ni ng  m e t h o ds   us e f o r   c l a s s if i c a t i o n ,   r e gr e s s i o n ,   a n o ut l i e r   de t e c t i o n .   T h e   pr i nc i p l e   o f   S VM   c o n s i s t s   o f   c a r r yi ng  o u c l a s s if i c a t i o n s   us i ng  hy pe r p l a n e s   ( f e a t ur e   s pa c e ) .   T h e   l a t t e r   m a k e   i t   po s s i bl e   t o   s e pa r a t e   t h e   da t a   i n t o   s e v e r a l   c l a s s e s   by   s pe c i f yi ng  t h e   b o un da r f ur t h e s po s s i bl e   f r o m   t h e   da t a   p o i n t s   ( or   m a xim u m   m a r g i n ) .       6.   E XP E R I M E NT AL   RE S U L T S   6. 1.    Com p ar is on   of   m e t r ic s   c l a s s i f icat ion   T h e   t e s t s   a r e   c a r r i e o u i n   a   No S QL   m o n go db   da t a b a s e .   W e   c o m pa r e   t h e   pe r f o r m a n c e   o f   d i f f e r e n ML   m e t h o ds .   T h e   m e t r i c s   us e i t hi s   c o m pa r i s o n   a r e t h e   m e t r i c s   o f   e a c h   c l a s s   ( pr e c i s i o n ,   r e c a l l ,   F 1 - s c o r e   a n s uppo r t )   a n t h e   m a c r o   m e t r i c s   ( m a c r o   pr e c i s i o n ,   m a c r o   r e c a l l   a n m a c r o   F 1 - s c or e ) .   T h e   c l a s s i c   m a c r o   m e t r i c   r e pr e s e n t s   t h e   a v e r a ge   o f   pe r   c l a s s   m e t r i c s .   I n   m a t h e m a t i c a l   t e r m s ,   t h e s e   m e t r i c s   a r e   gi v e n   by   t he   e x pr e s s i o n   ( 13) .   A n o t h e r   i m po r t a n t   gl o b a l   m e t r i c   i s   s t udi e w hi c h   i s   a c c ur a c y .      _  = 1    = 1   ( 13)     A c c ur a c y   m e a s ur e s   t h e   pr o p o r t i o n   o f   c o r r e c t l y   c l a s s if i e c a s e s   o u o f   t h e   tot a l   n u m be r   o f   o bj e c t s   i n   t h e   da t a s e t .       =          ( 14)     P r e c i s i o n   f o r   a   gi v e n   c l a s s   i n   m u l t i c l a s s   c l a s s if ica t i o n   i s   t h e   f r a c t i o n   o f   i n s t a nc e s   c o r r e c t l y   c l a s s i f i e a s   b e l o n g i ng  to   a   s pe c i f i c   c l a s s   o u t   o f   a l l   i ns t a n c e s   t h a t   t h e   m o de l   pr e d i c t s   to   b e l o n to   t h a c l a s s .         =     +    ( 15)     R e c a ll   i m u l t i c l a s s   c l a s s i f i c a t i o n   i s   t h e   f r a c t i o n   o f   i ns t a n c e s   o f   a   c l a s s   t h a t   t h e   m o de l   c o r r e c t l y   c l a s s if i e a m o n a ll   i ns t a nc e s   o f   t h a t   c l a s s .        =     +     ( 16)     F1 - sc o r e   t a ke s   i n t o   a c c o un t   b ot h   pr e c i s i o n   a n r e c a l l   m e a s ur e s   by   c a l c u l a t i n t h e i r   h a r m o ni c   a ve r a ge .   I f   we   de n o t e   by   P   t h e   pr e c i s i o n   a n R   t h e   r e c a l l ,   we   c a n   r e pr e s e n t   t h e   F 1 - s c o r e   a s   f o l l o w s :     1 _  = 2  +   ( 17)     s uppo r t   r e pr e s e n t s   t h e   n u m be r   o f   a c t ua l   o c c ur r e n c e s   o f   e a c h   c l a s s   i n   t h e   da t a s e t .   T hi s   i s   t h e   n u m be r   o f   i ns t a nc e s   i n   e a c h   c l a s s .   T h e   da t a s e t   us e i s   t h e   c o m put e r   bi bli o gr a p hi c   da t a b a s e   k n o wn   a s   DB L P .   I t   i s   a   da t a b a s e   li s t s   c o nf e r e n c e   a n j o ur n a l   a r t i c l e s .   DB L P   da t a b a s e   J S ON   f il e   c o n t a i ns   uns t r uc t ur e i nf o r m a t i o n   a b o ut   publi c a t i o n s ,   a ut h o r s ,   a n c o nf e r e n c e s .   T h e   do c um e n t s   f o r m i ng  t hi s   da t a b a s e   do   n ot  h a v e   t h e   s a m e   a tt r i b ut e s .   T h e   n u m be r   o f   do c u m e n t s   us e i n   t h e   da t a b a s e   i s   us e a s   a n   e v a l ua t i o n   m e t r i c .   I n   t hi s   c o m pa r i s o n ,   we   we r e   i n t e r e s t e i n   N o S QL   da t a b a s e s   c o n t a i ni ng  b e t we e n   10, 000  a n 90, 000  a n b e t we e n   100, 000  a n d   600, 000   un s t r uc t ur e d o c um e n t s .   I n   t hi s   pa pe r ,   we   a r e   c o n ten t   to  r e pr e s e n t   t h e   m e t r i c s   o f   da t a b a s e s   c o n t a i ni n 10 , 000,   100 , 000  a n 600, 000.   T h e   r e s u l t s   o f   t h e s e   m e t r i c s   a r e   r e p o r t e i n   T a bl e s   1   to   3.   W e   n o t e   f r o m   t h i s   s t udy   t h a f o r   t h e   K NN ,   L R ,   NB ,   S VM   l e a r ni ng  m o de l s ,   a l l   m e t r i c s   a r e   100%   r e ga r d l e s s   o f   t h e   n u m be r   o f   d o c u m e n t s   to  b e   s t r uc t ur e d .   On   t h e   ot h e r   h a n d,   f o r   t h e   M L P   a n DT   m o de l s ,   t h e   qua l i t y   o f   t h e   m e t r i c s   de c r e a s e s   s l i g h t l y   f r o m   a   q ua n t i t y   o f   do c um e n t s   gr e a t e r   t h a n   o r   e qua l   to  30, 000.   F o r   e x a m p l e ,   we   h a ve   a   pr e c i s i o n   o f   0. 69  f o r   t h e   M L P   a n DT ,   a n   a ve r a ge   pr e c i s i o n   o f   0. 96  a n 0. 95  r e s pe c t i v e ly  f o r   t h e   M L P   a n DT   a n a n   F 1 - s c o r e   o f   0. 95  f o r   t h e   M L P   a n DT .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8776   I n t   J   I n f   &   C o m m u n   T e c hn o l Vo l .   1 4 ,   N o.   1 A pr i l   20 2 5 :   229 - 239   236   T a bl e   1 .   Up:  t h e   m e t r i c s   r e po r o f   t h e   83  c l a s s e s   o f   t h e   c l a s s if i c a t i o n   da t a b a s e   w i t h   10, 000  un s t r uc t ur e do c um e n t s .   Do wn m a c r o   m e t r i c s   r e s u l t s   C la s s   P r e c is i o n   R e c a ll   F1 - s c o r e   S uppor t     M L P   DT   K N N   LR   NB   S V M   M L P   DT   K N N   LR   NB   S V M   M L P   DT   K N N   LR   NB   S V M   M L P   DT   K N N   LR   NB   S V M   1   0.00   0.00   1.00   1.00   1.00   1.00   0.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   3047   3047   3047   3047   3047   3047   2   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   3266   3266   3266   3266   3266   3266   3   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   2286   2286   2286   2286   2286   2286   4   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   222   222   222   222   222   222   5   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   227   227   227   227   227   227   6   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   14   14   14   14   14   14   7   0.05   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   0.10   0.97   1.00   1.00   1.00   1.00   167   167   167   167   167   167   8   0.96   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   0.98   0.12   1.00   1.00   1.00   1.00   229   229   229   229   229   229   9   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   61   61   61   61   61   61   10   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   3   3   3   3   3   3   11   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   9   9   9   9   9   9   12   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   7   7   7   7   7   7   13   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   3   3   3   3   3   3   14   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   14   14   14   14   14   14   15   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   42   42   42   42   42   42   …..                                                   142   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1   1   1   1   1   1   143   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1   1   1   1   1   1   C la s s if ie r   M L P   DT   K N N   LR   NB   S V M   A c c u r a c y   100%   100%   100%   100%   100%   100%   M a c r o   p r e c is i o n   100%   100%   100%   100%   100%   100%   M a c r o   r e c a ll   100%   100%   100%   100%   100%   100%   M a c r o   F 1 - s c or e   100%   100%   100%   100%   100%   100%       T a bl e   2 .   Up:  t h e   m e t r i c s   r e po r o f   t h e   143  c l a s s e s   o f   t h e   c l a s s i f i c a t i o n   da t a b a s e   w i t h   100, 000  un s t r uc tur e do c um e n t s .   Do wn m a c r o   m e t r i c s   r e s u l t s   C la s s   P r e c is i o n   R e c a ll   F1 - s c o r e   S uppor t     M L P   DT   K N N   LR   NB   S V M   M L P   DT   K N N   LR   NB   S V M   M L P   DT   K N N   LR   NB   S V M   M L P   DT   K N N   LR   NB   S V M   1   0.00   0.00   1.00   1.00   1.00   1.00   0.00   0.00   1.00   1.00   1.00   1.00   0.00   0.00   1.00   1.00   1.00   1.00   30704   30704   30704   30704   30704   30704   2   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   32803   32803   32803   32803   32803   32803   3   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   22552   22552   22552   22552   22552   22552   4   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   2204   2204   2204   2204   2204   2204   5   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   2390   2390   2390   2390   2390   2390   6   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   108   108   108   108   108   108   7   0.05   0.95   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   0.10   0.97   1.00   1.00   1.00   1.00   1685   1685   1685   1685   1685   1685   8   0.96   0.06   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   0.98   0.12   1.00   1.00   1.00   1.00   2040   2040   2040   2040   2040   2040   9   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   631   631   631   631   631   631   10   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   23   23   23   23   23   23   11   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   73   73   73   73   73   73   12   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   44   44   44   44   44   44   13   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   26   26   26   26   26   26   14   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   158   158   158   158   158   158   15   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   453   453   453   453   453   453   …..                                                   142   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1   1   1   1   1   1   143   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1.00   1   1   1   1   1   1   C la s s if ie r   M L P   DT   K N N   LR   NB   S V M   A c c u r a c y   69%   69%   100%   100%   100%   100%   M a c r o  p r e c is i o n   95%   94%   100%   100%   100%   100%   M a c r o   r e c a ll   96%   96%   100%   100%   100%   100%   M a c r o   F 1 - s c or e   95%   95%   100%   100%   100%   100%       6. 2 .    S t r u c t u r in g   d at a   I n   F i gur e   5   we   r e p r e s e n t   t h e   n um b e r   o f   c o l l e c t i o n s   ge n e r a ted   by   s tr uc tur i n da t a   f r o m   t h e   un s t r uc t u r e d   DB L P   da t a b a s e .   T hi s   s t u dy   i s   c a r r i e ou f o r   di f f e r e n t   n um b e r s   o f   d o c um e n t s   i n   t h e   DB L P   da t a b a s e   a n us i n t h e   s tr uc tu r i n M L   m o de l s .   a l l   t h e s e   m o de l s   ge n e r a t e   e x a c t l y   t h e   s a m e   do c um e n c o l l e c t i o n s .   T h e s e   a r e   we l l   s t r uc tu r e wi t h   t h e   s a m e   a tt r i b ut e s .   W e   a l s o   s e e   t h a t   t h e   n um b e r   o f   c ol l e c t i o n s   ge n e r a t e d   i n c r e a s e s   wi t h   t h e   s i z e   o f   t h e   un s tr uc tur e da tab a s e .   B u t h i s   i n c r e a s e   wi l l   a l s o   de pe n o n   t h e   de gr e e   o f   s t r uc t u r i n o f   t h e   d o c um e n t s   wh i c h   c o n s t i t u te   t h e   un s tr uc tu r e d   da t a   b a s e .     6. 3.    Com p ar is on   of   s t r u c t u r in t im e s   An o t h e r   pe r f o r m a n c e   c o m po n e n t   s t udi e i n   t hi s   wo r k   i s   t h e   t i m e   r e qu i r e to   s t r uc t u r e   N o S QL   da ta   by   a pp lyi ng  t h e   pr e d i c t i o n   m o de l s   f o un by   t h e   M L   a l go r i t hm s   u s e d.   T h e   r e s u l t s   o f   t hi s   c o m p a r a ti ve   s t ud y   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t   J   I n f   &   C o m m u n   T e c hn o l     I S S N:   2252 - 8776         A mode l   f or   s tr uc tur e the  N OSQ L   databas e s   bas e on  …  ( A mine   B e nmak hlou f )   237   a r e   r e p o r t e i n   t h e   hi s t o g r a m s   o f   F i gur e   6 .   W e   c a n   c o n c l ude   t h a t   t h e   M L   m e t h o ds M P L ,   DL ,   L R ,   a n S VM   a l l o f a s t e r   s tr uc t u r i n g   o f   da t a   c o m pa r e to  NB   a n K NN   m e t h o ds .   F o r   e x a m p l e   f o r   a   da t a b a s e   o f   600, 000   do c um e n t s ,   t h e   f a s t e s t   s tr uc t ur i n i s   c a r r i e o u t   b y   t he   L R   m e t h o wi t h   a   t i m e   o f   915. 42  ( s ) .   On   th e   o t h e r   h a n d,   t h e   NB   m e t h o r e c o r ds   t h e   l o n ge s t   t i m e   w i t h   4096. 81( s ) .   T hi s   c o m pa r i s o n   s h o ws   t h a t   t h e   L R   m e t h o a l l o w s   f a s t e r   s t r uc t u r i n g,   e s pe c i a ll y   f o r   l a r ge   q ua n t i t i e s   o f   da t a .       T a bl e   3 .   Up:  t h e   m e t r i c s   r e po r o f   t h e   239  c l a s s e s   o f   t h e   c l a s s i f i c a t i o n   da t a b a s e   w i t h   600, 000  un s t r uc tur e do c um e n t s .   Do wn m a c r o   m e t r i c s   r e s u l t s   C l a s s   P r e c i s i o n   R e c a l l   F1 - s c o r e   S uppo r t     M L P   DT   KNN   LR   NB   S V M   M L P   DT   KNN   LR   NB   S V M   M L P   DT   KNN   LR   NB   S V M   M L P   DT   KNN   LR   NB   S V M   1   0. 00   0. 00   1. 00   1. 00   1. 00   1. 00   0. 00   0. 00   1. 00   1. 00   1. 00   1. 00   0. 00   0. 00   1. 00   1. 00   1. 00   1. 00   184809   184809   184809   184809   184809   184809   2   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   196433   196433   196433   196433   196433   196433   3   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   134766   134766   134766   134766   134766   134766   4   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   13373   13373   13373   13373   13373   13373   5   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   14401   14401   14401   14401   14401   14401   6   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   626   626   626   626   626   626   7   0. 05   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   0. 10   0. 97   1. 00   1. 00   1. 00   1. 00   9721   9721   9721   9721   9721   9721   8   0. 96   0. 91   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   0. 98   0. 12   1. 00   1. 00   1. 00   1. 00   12686   12686   12686   12686   12686   12686   9   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   3560   3560   3560   3560   3560   3560   10   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   144   144   144   144   144   144   11   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   379   379   379   379   379   379   12   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   214   214   214   214   214   214   13   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   192   192   192   192   192   192   14   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   967   967   967   967   967   967   15   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   2690   2690   2690   2690   2690   2690   …. .                                                   142   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1   1   1   1   1   1   143   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1. 00   1   1   1   1   1   1   C l a s s i f i e r   M L P   DT   KNN   LR   NB   S V M   A c c ur a c y   69%   69%   100 %   100 %   100 %   100 %   M a c r o   p r e c i s i o n   97%   96%   100 %   100 %   100 %   100 %   M a c r o   r e c a l l   97%   97%   100 %   100 %   100 %   100 %   M a c r o   F 1 - s c o r e   97%   97%   100 %   100 %   100 %   100 %             F i gur e   5 .   C o l l e c t i o n   n u m be r   ge n e r a t e by   d a t a   s tr u c t ur i n us i n M L DS  m e t h o ds   f o r   di f f e r e n t   n u m be r   o f   do c um e n t s   i n   t h e   uns t r uc t ur e da t a b a s e             F i gur e   6 .   S tr uc t ur i n t i m e   us i ng  d i f f e r e n t   ML   m o de l s   f o r   di f f e r e n t   n u m be r   o f   do c um e n t s     Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8776   I n t   J   I n f   &   C o m m u n   T e c hn o l Vo l .   1 4 ,   N o.   1 A pr i l   20 2 5 :   229 - 239   238   I n   t h e   pr e vi o us   s t ud y ,   t h e   LR   m e t h o s h o we goo d   pe r f o r m a n c e   c o m pa r e to  ot h e r   M L   m e t h o ds   us e d.   W e   w il l   t h e r e f o r e   s t ud y   t h e   a d v a n t a ge   t h a t   t h e   L R   m e t h o c a n   pr e s e n t   i n   t h e   s t r uc t ur i n o f   No S QL   da t a   c o m pa r e t t h e   c l a s s i c   m e t h o c a l l e t e x t ua l   c o m pa r i s o n   ( TC ) .   T hi s   m e t h o c o n s i s t s   o f   us i ng  a   do ubl y   i t e r a t i v e   a l go r i t hm   t m a ke   TC   o f   t h e   a tt r i b ut e s   th a t   c o m po s e   e a c h   do c u m e n t   o f   t h e   un s t r uc t ur e da t a b a s e .   On   t h e   ot h e r   h a n d,   i n   t h e   pr e di c t i o n   a l go r i t hm s   us e o n   t h e   m o de l s   f o un by   ML ,   we   c a n   e xp l o i t   t h e   a dv a n t a ge s   o f   pa r a l l e l   c o m put i n t o   s t r uc t ur e   t h e   da t a .   F i gur e   s h o ws   t h e   r e s u l t s   o f   t h e   c o m pa r i s o n   o f   t h e   s t r uc t ur i n t i m e   o f   t h e   N o S QL   da t a   o f   t h e   t w m e t h o ds t h e   T C   m e t h o T C   a n t h e   ML   m e t h o L R .   T hi s   c o m pa r i s o n   i s   m a de   f o r   d i f f e r e n t   qua n t i t i e s   o f   u n s t r uc t u r e da t a .   W e   c a n   s e e   t h a t   f o r   s m a ll   qua n t i t i e s   o f   da t a ,   t h e   s t r uc t ur i n t i m e   r e m a i ns   r e l a t i ve l y   l o w i t h   t h e   T C   m e t h o d.   E x a m p l e we   n e e 14. 12  s e c o n d s   to   s t r uc t ur e   10, 000  d o c um e n t s   w i t h   t h e   T C   m e t h o d,   whi l e   w e   n e e 20. 60  s e c o n ds   w i t h   t h e   L R   m e t h o d.   On   th e   o t h e r   h a n d,   f o r   l a r ge   qua n t i t i e s   o f   da t a ,   we   s e e   t h a t   t h e   s t r uc t u r i n t i m e   i n c r e a s e s   e x po ne n t i a l ly   f o r   t h e   T C   m e t h o d,   whil e   t h e   L R   m e t h o s h o ws   l o we r   e x e c ut i o n   t i m e s .   E x a m p l e we   n e e 1 , 498. 65  s e c o n ds   to   s t r uc t u r e   600, 000  do c um e n t s   w i t h   t h e   T C   m e t h o d,   whi l e   we   o nl y   n e e 915. 42   s e c o n ds   w i t h   t h e   L R   m e t h o d.   W e   c a n   t h e r e f o r e   c o n c l ude   t h a t   t h e   L R   m e t h o s h o ws   t h e s e   a d v a n t a ge s   f o r   l a r ge   qua n t i t i e s   o f   No S QL   da t a .           F i gur e   7 .   S tr uc t ur i n t i m e   o f   T C   a n L R   m e t h o ds   f o r   di f f e r e n t   a m o un t s   o f   da t a       7.   CONC L USI ON   S i n c e   bi da t a   i s   m a i n ly   m a de   up  o f   a   l a r ge   m a s s   o f   u n s t r uc t ur e da t a ,   t h e i r   e x p l o i t a t i o n   r e qu i r e s   OL A P   a na ly t i c a l   c a l c u l a t i o n s .   T hi s   i s   w hy   t h e   de v e l o p m e n t   o f   i nn o v a t i v e   m e t h o ds   to  s tr uc t u r e   t hi s   da t a   h a s   b e c o m e   a   n e c e s s i t y .   T h e   m o de l   pr e s e n t e i n   t hi s   a r t i c l e   e x p l o i t s   t h e   a dv a n t a ge s   o f f e r e by   ML   m e t h o ds .     T h e   a pp l i c a t i o n   o f   t h e s e   m e t h o ds   to  da t a s e t s   c om po s e o f   a tt r i b ut e s   a l l o we us   to  ge n e r a t e   c l a s s i f i c a t i o m o de l s .   T h e s e   ga v e   us   t h e   po s s i bi li t y   o f   s t r u c t ur i n da t a   i n   a   do c um e n t - o r i e n t e NO S QL   da t a b a s e .     E a c h   do c um e n t   i n   t h e   No S QL   da t a b a s e   h a vi ng  t h e   s a m e   a t tr i b ut e s   w i ll   be   s to r e i n   t h e   s a m e   c o ll e c t i o n ,   a l l o w i ng  t h e   us e   o f   OL A P   c u b e s   f o r   da t a   a n a l y s is .   T h e   m o de l   pr o p o s e by   t h e   l o g i s t i c   r e gr e s s i o m e t h o s h o ws   hi g h   pe r f o r m a n c e   c o m pa r e t o   ot h e r   M L   m e t h o ds .   I t   a l l o ws   f a s t e r   da t a   s tr uc t ur i n e v e n   f o r   a   l a r ge   n u m be r   o f   do c u m e n t s .   E x pe r i e n c e   ha s   a l s o   s h o wn  t h a t,   i n   t h e   c a s e   o f   l a r ge   da t a   m a s s e s ,   t h e   m o de l   f o un by   t h e   L R   m e t h o a l l o w s   f a s t e r   da t a   s t r uc t u r i n c o m pa r e to   t h e   c l a s s i c   TC   m e t h o d.   A s   pa r t   o f   f utur e   w o r k,     we   p l a n   to   i n t r o duc e   i n t o ur   m o de l   t h e   n ot i o o f   da t a   di s t r i b ut i vi t y   a c r o s s   m u l t i p l e   n o de s   o f   a   c l us t e r .     T hi s   t e c hni que   w il l   a ll o m o r e   e f f i c i e n t   m a n a ge men t   o f   a   l a r ge   qua n t i t y   a n hi g h   a va i l a bil i t y   o f   i nf o r m a t i o t h r o ugh   di s t r i b ut e c o m put i n a c r o s s   m u l t i p l e   s e r ve r s .       RE F E R E NC E S   [ 1]   R L u,  H Z hu,  X L iu J L iu a nd  J S ha o T o w a r e f f ic ie nt   a nd  pr iv a c y - p r e s e r v in c o mput in in   bi da ta   e r a ,”   I E E E   N e tw or k vo l.  28, n o . 4, pp. 46 50, 2014, d o i:   10.1109/M N E T .2014.6863 131.   [ 2]   R B r uc h e z L e s   bas e s   d e   done e s   N oSQ L   e l e   bi dat a   ( in   F r anc e :   N oSQ L   dat abas e   and  th e   bi d at a) 2t e d.  P a r is F r a nc e E y r o ll e s , 2015.   [ 3]   A S e ll a mi A N a bl i,   a nd   F G a r go u r i,   G r a ph  N oS Q L   da ta   w a r e ho us e   c r e a ti o n,”   in   Pr oc e e di ngs   of   th e   22nd   I nt e r nat io nal   C onf e r e nc e   on  I nf o r m at io I nt e gr at io and  W e b - ba s e A ppl ic at io ns   &   Se r v ic e s N o v 2020,  pp.  34 38,     do i:  10.1145/3428757.3 429141.   [ 4]   M C he v a li e r M E M a lk i,   A K o pl ik u,  O T e s t e a nd  R T o ur ni e r H o w   c a w e   im pl e m e n a   mul ti di me ns i o na da ta   w a r e h ous e   us in N o S Q L ? ,”   in   E nt e r pr is e   I nf or m at io Sy s te m s :   17t I nt e r nat io nal   C onf e r e nc e I C E I S 2015,  vo l.   241,  pp.   108 1 30,     do i:  10.1007/978 - 3 - 319 - 29133 - 8_6.   Evaluation Warning : The document was created with Spire.PDF for Python.