I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   3 8 ,   No .   1 A p r il   20 2 5 ,   p p .   496 ~ 507   I SS N:  2 502 - 4 7 52 ,   DOI : 1 0 . 1 1 5 9 1 /ijee cs .v 3 8 . i 1 . pp 496 - 5 0 7           496     J o ur na l ho m ep a g e h ttp : //ij ee cs . ia esco r e. co m   An ef ficien frequ ent  i temsets  f indi ng  in  distri bute da tas ets  with  mi nimum  co mm unica tion o v e rhea d       H o ud a   E s s a lm i Ana s s   E l A f f a r   La b o r a t o r y   o f   E n g i n e e r i n g   S c i e n c e s ,   P o l y d i sc i p l i n a r y   F a c u l t y   o f   Ta z a ,   U n i v e r si t y   o f   S i d i   M o h a m e d   B e n   A b d e l l a h ,   F e z ,   M o r o c c o       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ap r   13 ,   2 0 2 4   R ev is ed   Oct   16 202 4   Acc ep ted   Oct   30 ,   2 0 2 4       F in d in g   fre q u e n t   it e m se ts  is  a n   e ss e n ti a re se a rc h e d   tec h n iq u e   a n d   a   c h a ll e n g i n g   tas k   o d a ta  m in i n g .   Tra d it i o n a a p p r o a c h e fo d istri b u ted   fre q u e n t   it e m se ts  re q u ire   m a ss iv e   c o m m u n ica ti o n   o v e rh e a d   a m o n g   d iffere n t   d istri b u ted   d a tas e ts.  In   th is p a p e r,   we   a d o p a   n e w strate g y   fo o p t i m izin g   th e   ti m e   o c o m m u n ica ti o n s/sy n c h r o n iza ti o n fro m   lar g e   d a tas e ts  a n d ,   we   p re se n a   n o v e l   a lg o rit h m   fo d isc o v e ri n g   fre q u e n it e m se ts  in   d iffere n t   d istri b u ted   d a tas e ts  o n   t h e   sla v e   sites   c a ll e d   fin d in g   e fficie n d istri b u ted   fre q u e n t   it e m se t ( F EDF I ).   Th e   p ro p o se d   a lg o rit h m   is  c a p a b le  o f   g e n e ra ti n g   th e   imp o rtan t   fre q u e n i tem se ts   b y   a p p ly i n g   a n   e fficie n tec h n iq u e   fo r   p ru n in g   t h e   c a n d i d a te  it e m se ts .   Th e   e x p e rime n tal  re su l ts  c o n f ir m   th a o u a lg o rit h m   F EDF I   p e rfo rm b e tt e th a n   Ap ri o ri   a n d   c a n d i d a te  d i strib u ti o n   ( CD )   a lg o rit h m s   in   term s o c o m m u n ica ti o n   a n d   c o m p u tatio n   c o st s.   K ey w o r d s :   Ap r io r i   C o m m u n icatio n   s ch em e     C o m p u tatio n   co s ts   Dis tr ib u ted   d atab ase     Gen er atio n   o f   ca n d i d ates   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Ho u d a   E s s alm i   L ab o r ato r y   o f   E n g i n ee r in g   Scien ce s ,   Po ly d is cip lin ar y   Facu lt y   o f   T az a   Un iv er s i ty   o f   Sid Mo h a m ed   B en   Ab d ellah   Fez,   Mo r o cc o   E m ail:  h o u d a. ess alm i@ u s m b a. ac . m a       1.   I NT RO D UCT I O N   Data   m in in g   o r   KDD  ( k n o wled g d is co v er y   in   d atab ases )   [ 1 ]   is   a   d is cip lin p r im ar ily   co n ce r n e d   with   th f o r m u latio n ,   an aly s is ,   an d   im p lem e n tatio n   o f   p r o ce s s es  th at  co n v er d ata  in to   ac tio n ab le  k n o wled g e   [ 2 ] .   I ts   co r o b jectiv is   to   ex tr ac m ea n in g f u an d   in ter p r etab le  in f o r m atio n   f r o m   d ata b ases   [ 3 ] .   T h d ata   u ti lized   in   d ata  m in in g   o f te n   p r esen ts   ch allen g es  d u t o   its   lar g v o lu m ( n u m er o u s   r ec o r d s )   an d   h ig h   d im en s io n ality   ( m a n y   attr ib u t es).   As  r esu lt,  th er h as  b e en   g r o win g   f o c u s   o n   d is tr ib u ted   d ata  m i n in g ,   wh ich   o p er ates  th r o u g h   d is tr ib u ted   d ata  an aly s is   [ 4 ] .   Dis tr ib u ted   d ata  m in in g   e m p lo y s   r a n g o f   f ast  p ar allel   an d   d is tr ib u ted   tech n iq u es  to   u n co v e r   im p licit  an d   v alu ab le   k n o wled g [ 5 ] ,   [ 6 ] .   On o f   t h m o s p r o m in en t   tech n iq u es  is   ass o ciatio n   r u le   m in in g ,   wh ic h   aim s   to   id en tify   s ig n if ican r elatio n s h ip s   b e twee n   attr ib u tes  with in   th d atab ase.   T h g e n er atio n   o f   f r e q u en item s ets  is   f u n d a m en tal  an d   ess en tial  s tep   in   s o lv in g   th e   ass o ciatio n   r u le  m in in g   p r o b le m .   T h Ap r io r alg o r ith m ,   in tr o d u ce d   b y   Ag r awa [ 7 ] ,   is   f o u n d atio n al   an d   p io n ee r in g   al g o r ith m   f o r   m in in g   f r eq u en item s ets   in   tr an s ac tio n al  d atab ases .   T h g en er al  co n ce p t o f   th is   alg o r ith m   in v o lv es iter ativ ely   s ca n n in g   th r o u g h   item s ets   lev el  b y   lev el.   At  ea c h   lev el   k ,   s et  o f   ca n d id ate  item s ets  o f   s ize  k   is   g en er ated   b y   jo in in g   th f r e q u en item s ets  id en tifie d   in   th p r ev io u s   iter at io n .   T h is   s et  o f   ca n d id ate  item s ets  i s   th en   p r u n ed   b a s e d   o n   s t a ti s ti c a m e t r i c   c al l e d   s u p p o r t .   S e v e r al   v a r ia t i o n s   o f   t h e   A p r i o r i   a l g o r it h m   a r d i s c u s s e d   i n   [ 8 ] ,   [ 9 ]   to   m itig ate  its   lim itatio n   o f   m u ltip le  s ca n s   o v er   th en tire   tr an s ac tio n   d atab ase,   also   th wea k n ess es  o f   th o r ig in al  Ap r io r alg o r ith m   ar e   cited   in   [ 10 ] ,   h ig h lig h tin g   its   in ef f icien cy   in   ter m s   o f   tim a n d   s p ac to   s ea r ch   f o r   f r e q u en t   item s ets.   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52         A n   efficien t freq u en t item s ets fin d in g   in   d is tr ib u ted   d a ta s ets w ith   …  ( Ho u d a   E s s a lmi )   497   Ma n y   d is t r ib u ted   alg o r it h m s   h av b ee n   d ev elo p ed   f o r   f r eq u en item s et  m in i n g   in   d is tr ib u ted   en v ir o n m en ts ,   d esig n ed   t o   p r o v id s u b s tan tial  co m p u tatio n al  p o wer .   T h ese  in clu d alg o r ith m s   s u ch   as  C ( ca n d id ate  d is tr ib u tio n [ 11 ] ,   DM ( d is tr ib u ted   m in in g   alg o r ith m [ 12 ] ,   FDM  ( f ast  d is tr i b u ted   m i n in g )   [ 13 ] ODAM   ( o p tim ized   d is tr ib u ted   ass o ciatio n   m in in g )   [ 14 ] ,   a n d   DDM   ( d is tr ib u ted   d ec is io n   m in n er [ 15 ] .   T h ese   alg o r ith m s ,   wh ich   u tili ze   th d ata  p ar allelis m   p ar ad ig m ,   d if f er   in   th eir   tec h n iq u es  f o r   p r u n in g   n ew  ca n d id ates   o r   w h eth er   t h ey   em p lo y   ca n d i d ate  co u n tin g   tech n i q u es.   I n   co n tr ast,  alg o r ith m s   b ased   o n   task   p ar allelis m ,   s u ch   as  DD  ( d ata  d is tr ib u tio n [ 11 ] ,   I DD  ( in tellig en te  d ata  d is tr ib u tio n [ 16 ] ,   HPA  ( h ash - b ased   p ar al lel  m in in g   o f   ass o ciatio n   r u le s [ 17 ] ,   an d   o th e r s .   T h e y   p ar titi o n   b o t h   th ca n d id ates  an d   th d atab ase  am o n g   p r o ce s s o r s .   T h ey   d if f er   in   th eir   m eth o d s   f o r   d iv id in g   ca n d id ates  an d   t h d atab ase.   So m o th er   al g o r it h m s   ca n n o b class if ied   i n to   eith er   o f   t h two   p ar ad ig m s   s u ch   as t h C aD  ( ca n d id ate  d is tr ib u tio n )   [ 11 ]   alg o r ith m ,   it   r ep r esen ts   h y b r id   ap p r o ac h   co m b i n in g   elem en ts   o f   b o th   C an d   D D.   I f o cu s es  o n   d is tr ib u tin g   ca n d id ates  to   en s u r co n s is ten cy   b etwe en   th e   item s ets  th at  ar ca lcu lated   an d   th tr an s ac tio n s   u s ed   f o r   t h e s ca lcu latio n s .   B y   d is tr ib u tin g   tr an s ac tio n s   an d   ca n d id ates  b ased   o n   th eir   p r ef ix es,  C aD  en ab les  ea ch   s i t to   p r o ce s s   d ata  in d ep en d e n tly .   I n   SH  ( s k ew   h an d lin g )   [ 1 8 ] ,   ca n d id ate  item s ets  ar n o d er iv ed   p r io r i   f r o m   p r ev io u s   f r eq u en item s ets.  I n s tead ,   th ey   ar e   g en er ated   i n d ep e n d en tly   b y   e ac h   s ite  b y   s ca n n in g   its   lo ca p ar titi o n   o f   th d atab ase.   T h e   h y b r i d   d is tr ib u tio n   ( HD) alg o r ith m   [ 1 6 ]   is   h y b r i d   ap p r o ac h   th at  i n teg r ates I D an d   C m eth o d s .   T h e   P   s ites   ar p ar titi o n ed   in t o   g r o u p s   o f   eq u al   s ize,   with   ea ch   g r o u p   f u n ctio n i n g   as  s u p er - s ite.   T h e   I DD  alg o r ith m   i s   em p lo y ed   with in   ea ch   g r o u p ,   w h ile  th C alg o r ith m   is   u s ed   f o r   in ter ac tio n s   b etwe en   th g r o u p s .   Z a k et  a l [ 19 p r o p o s e   s et  o f   alg o r ith m s   ( PAR - E clat,   PAR - Ma x E clat,   an d   PAR - Ma x C liq u e)   th at  u s d atab ase  p ar titi o n in g   a n d   ca lcu late  d if f er en ca n d id ate  item s ets.  T h alg o r ith m s   all  ass u m th at  th d atab ase  is   in   v er tical  f o r m at  ( tid - lis ts   f o r   ea ch   item ) ,   u n lik h o r izo n tal  p ar titi o n in g .   H o wev er ,   t h ese  alg o r ith m s   en co u n ter   s ev e r al  c h allen g es,  in clu d i n g   s y n ch r o n izatio n   is s u es,  co m m u n icatio n   o v er h ea d ,   lo ad   b alan cin g   p r o b lem s ,   an d   h ig h   f r eq u en cy   o f   d ata   s ca n s ,   wh ich   ad v er s ely   af f ec t t h eir   p er f o r m a n ce .   I n   th e   liter atu r e,   m a n y   ap p r o a ch es  f o cu s ed   o n   im p r o v in g   d i s tr ib u ted   alg o r it h m s   f o r   m in in g   f r e q u en t   item s ets in   d is tr ib u ted   e n v ir o n m en ts .   I n   th is   co n tex t,  Mu d u m b an d   Kab ir   [ 2 0 ]   p r o p o s ed   n o v el  ap p r o ac h   f o r   m in in g   ass o ciatio n   r u les  in d e p en d en tly   f r o m   m u ltip le  d ata  s o u r ce s .   T h is   m eth o d   in teg r ates  f r eq u en t   p atter n s   d er iv ed   f r o m   ea ch   d ata  s o u r ce   to   id en tif y   f r eq u e n p atter n s   ap p li ca b le  ac r o s s   d is tr ib u ted   e n v ir o n m en t.   Fu r th er m o r e ,   th m o d el  ca n   b ex ten d ed   t o   g en e r ate  r u l es  with   s p ec if ied   tar g ets.  T h m o d el  im p r o v es  tr an s p ar en cy   an d   m em o r y   ef f icien cy   in   ass o ciatio n   r u le  g en er atio n .   Ad d itio n ally ,   it  r ev ea ls   s ig n if ican t   r elatio n s h ip s ,   allo win g   d ec is i o n - m ak e r s   to   ac ce s s   f r eq u e n t   p atter n s   f r o m   in d iv i d u al  d ata   s o u r ce s   as  well  as   th o v er all  d ataset  ac r o s s   th en v ir o n m en t.   Ng u y en   et  a l .   [ 2 1 ]   p r esen ted   th r ee   n o v el  s tr ateg ies  d esig n ed   to   g r ea tly   im p r o v e   th e   ef f icien cy   o f   m u lti - lev el  h ig h - u tili ty   item s et  m in in g   th r o u g h   m u lti - c o r p r o ce s s in g .   T h e y   also   p r o p o s ed   two   n ew   alg o r ith m s ,   MCML + ,   a n d   MCML ++ ,   wh ich   lev er a g t h ese  s tr ateg ies.  B y   f u lly   u tili zin g   th e   av ailab le   p r o ce s s o r   co r es,  t h ese  ap p r o a ch es  ac h iev s u p er i o r   p e r f o r m an ce   in   m u lti - lev el  h ig h   u t ilit y   item s et  ( HUI )   m in in g .   Fer n an d ez - B ass o   et  a l .   [ 2 2 ]   p r o v id a n   o v er v iew  o f   t h m o s r ep r esen tativ al g o r ith m s   f o r   ass o ciatio n   r u le  m i n in g ,   p a r ticu lar ly   th o s d esig n ed   f o r   p r o ce s s in g   v er y   lar g d atasets .   R ec o g n izin g   th e   lim itatio n s   o f   Had o o p   co m p a r ed   to   Sp ar k ,   th ey   d ev elo p ed   n ew  ef f icien f r eq u en item s et  alg o r ith m s   f o r   b ig   d ata  u s in g   d is tr ib u ted   co m p u t atio n .   Ad d itio n ally ,   th e y   in tr o d u ce d   n ew  ass o ciatio n   r u le - m in in g   alg o r ith m   in   Sp ar k   an d   co m p ar ed   th ese  p r o p o s ed   alg o r ith m s   with   e x is tin g   o n es,  v ar y in g   th n u m b e r   o f   tr an s ac tio n s   a n d   item s .   Dio p   et  a l .   [ 2 3 ]   i n tr o d u ce d   th f ir s p atter n - on - d em an d   ap p r o ac h   f o r   ex tr ac tin g   p at ter n s   in   a   tr an s ac tio n al  d is tr ib u ted   d ata b ase.   T h is   ap p r o ac h   in v o lv es   ex tr ac tin g   p atter n s   in s tan tly   wh en   th a n aly s r eq u ir es th em .   T h ey   p r o p o s ed   g en er ic  alg o r ith m   ca lled   d is tr ib u ted   d atab ase  s am p lin g   ( D DSam p lin g ) ,   wh ich   r an d o m l y   s elec ts   p atter n   f r o m   a   d is tr ib u ted   d atab ase  b a s ed   o n   an   i n ter esti n g n ess   m e asu r th at  c o m b in es  f r eq u e n cy   an d   len g t h - b ased   u tili ty   f u n ctio n s ,   in clu d in g   le n g t h   co n s tr ain ts .   T h is   s tu d y   in v esti g ated   th e   ef f ec ts   o f   m in in g   f r eq u e n item s e ts   in   d is tr ib u ted   d atasets   with   m in im u m   co m m u n icatio n   o v er h ea d   b y   d ev elo p in g   a   n o v el  alg o r it h m   f o r   f r eq u e n item s et  m i n in g ,   ca lled   FEDFI   ( f in d in g   ef f icien d is tr ib u ted   f r eq u e n item s ets ) ,   with   an   ap p r o p r iate  co m m u n icatio n   m o d el,   r ef er r ed   to   as   m aster /s lav es .   W h ile  ea r lier   s tu d ies  h av ex p lo r e d   th im p ac o f   m in in g   d is tr ib u ted   f r eq u en item s ets  f r o m   th p ar alleliza tio n   o f   m in i n g   a lg o r ith m s   [ 2 4 ] ,   w h ich   in v o lv e   p er f o r m in g   d is tr ib u te d   c o m p u tatio n s   o n   a   s in g le   d atab ase  o r   in ten tio n ally   d is tr ib u tin g   th d ata  to   ex p e d ite  p r o ce s s in g .   T h is   ap p r o ac h   a im s   to   ad d r ess   th ch allen g es  id en tifie d   i n   ex is tin g   d is tr ib u ted   al g o r ith m s .   T h f o c u s   is   o n   r e d u cin g   c o m m u n icatio n   an d   s y n ch r o n izatio n   co s ts   b etwe en   d if f er en s ites ,   wh ich   ar cr itical  f o r   ev alu atin g   t h p er f o r m an ce   o f   d is tr ib u ted   alg o r ith m s .   Fu r th e r m o r e,   th e   wo r k   co n tr ib u tes  to   m i n im izin g   d ata  s ca n s   b y   r ed u ci n g   th n u m b er   o f   ca n d id ates  g e n er ated   f o r   g l o b al  in f o r m atio n   co m p u tatio n   in   a   d is tr ib u te d   s ettin g .   Ou r   FEDFI   alg o r ith m   em p lo y s   th r ee   co r e   tech n iq u e s   to   f ac ilit ate  th s ea r ch   f o r   f r eq u en item s ets:   th f ir s tech n iq u id e n tifie s   th e   f r eq u e n 1 - item s ets  an d   2 - item s ets  u s in g   2 - d im en s io n al   m atr ix ,   wh ile  t h r e m ain in g   i tem s ets  ar d er iv ed   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  3 8 ,   No .   1 Ap r il   20 2 5 :   4 9 6 - 5 0 7   498   th r o u g h   T r ie  co n s tr u ctio n   f o ll o wed   b y   f in al  v alid atio n   o f   f r eq u en item s ets.  T o   ev alu ate  th ef f ec tiv en ess   o f   o u r   ap p r o ac h ,   we  co m p ar ed   o u r   alg o r ith m   with   th Ap r io r an d   C alg o r ith m s   in   ter m s   o f   co m m u n icatio n   an d   co m p u tatio n   c o s ts .   T h c h o ice  o f   t h C alg o r ith m   f o r   co m p ar is o n   is   d u t o   its   f o u n d atio n al  r o le  in   d is tr ib u ted   alg o r ith m s ,   it  is   s im p le  p ar alleliza tio n   o f   A p r io r i.  I o p er ates  in   d is tr ib u ted   co n tex wh er ea c h   s ite  p r o ce s s es  it s   lo ca p o r tio n   o f   th tr a n s ac tio n   d atab ase,   ca lcu lates  lo ca s u p p o r ts ,   an d   s h ar es  th em   with   o th er   s ites   f o r   g lo b al  s u p p o r t c o m p u tatio n .   T h is   p ap er   is   s tr u ctu r ed   as  f o llo ws.  Sectio n   2   o u tlin es  th m eth o d o l o g y   o f   th wo r k   b y   p r esen tin g   th ad o p ted   co m m u n icatio n   m o d el  a n d   t h p r o p o s ed   al g o r it h m T h e x p er im e n tal  r esu lts   an d   a   d is cu s s io n   o f   th p er f o r m an ce   o f   th e   FEDFI   alg o r ith m   o n   v a r io u s   d ata s ets  ar g iv en   in   Sectio n   3 .   Fin ally ,   s ec tio n   4   co n clu d es th is   p ap e r .       2.   M E T H O D   2 . 1 .     M o del o f   c o mm un ica t io n   So m d is tr ib u ted   alg o r ith m s   f o r   f r eq u e n item s et  m in in g   r eq u ir ea ch   s ite  S i   to   b r o ad ca s th lo ca lly   co m p u ted   s u p p o r ts   to   all  o th er   s ites   a ea ch   iter atio n   k ,   r es u ltin g   in   s ig n if ican o v er h e ad   [ 2 5 ] .   T h C alg o r ith m ,   b ein g   th e   f o u n d atio n al  alg o r ith m ,   co n s is ts   o f   th r ee   p h ases .   I n   p h ase   1 ,   th l o ca s u p p o r ts   f o r   th e   item s ets  in   ea ch   s ite’ s   lo ca l   p a r titi o n   ar e   ca lcu lated .   I n   p h ase  2 ,   th s ites   s y n c h r o n ize   an d   e ac h   s ite  ex c h an g es   t h e   l o c a s u p p o r ts   o f   al l   i t e m s et s   w i t h   a l o t h e r   s i t es   t o   c o m p u t e   t h e   g l o b a l   s u p p o r t s   o f   t h e   ite m s e ts .   I n   p h as e   3 ,   th g lo b ally   f r eq u en item s ets  ar id en tifie d   an d   g en er ate d   in d ep en d en tly   at  ea ch   s ite.   T h C alg o r ith m   r ep ea ts   u n til  n o   m o r item s e ts   ca n   b g en er ated .   At  e ac h   iter atio n ,   th s am s et  o f   f r eq u en item s ets  is   id en tifie d ,   lead i n g   to   r ed u n d a n ca lcu latio n s   o f   th eir   g lo b al   s u p p o r ts   at  ea ch   s ite.   T h is   r es u lts   in   an   in c r ea s ed   n u m b er   o f   co m m u n icatio n s   an d /o r   s y n c h r o n izatio n s   n e ed ed   f o r   g lo b al   in f o r m atio n   co m p u tatio n   in   a   d is tr ib u ted   en v ir o n m en t.  T o   m itig ate  th is   is s u e,   we  p r o p o s ad ap tin g   th m aster /s lav e s   m o d el  to   s ig n if ican tly   r ed u ce   th n u m b er   o f   co m m u n icatio n s   an d   s y n ch r o n izatio n s   b etwe en   s ites ,   th er eb y   m in im izin g   r ed u n d a n t   ca lcu latio n s   f o r   ca n d id ate  ite m s ets.   Th m aster   p r o ce s s o r   s eg m en ts   th en tire   d atab ase  in to   clu s ter s   an d   ass ig n s   th ese  clu s ter s   to   s lav e   p r o ce s s o r s ,   as  d etailed   in   [ 2 5 ] .   Vaso y an d   Ko li  [ 2 6 ]   d e m o n s tr ated   th at  im p lem en tin g   m aster /s lav s y s te m   s ig n if ican tly   im p r o v ed   tim a n d   s p ac co m p lex ity ,   f ac ilit at in g   o p tim al  r eso u r ce   u tili za tio n   in   d is tr ib u ted   en v ir o n m en t.  I n   o u r   wo r k ,   t h d atab ase  is   h o r izo n tally   p ar titi o n ed   am o n g   th s lav s i tes,  ea ch   o f   wh ich   h an d les  th p r o ce s s in g   f o r   its   d ata  s eg m en t.  T h m aster   s ite  co o r d in ates  b etwe en   th s lav e   s it es,  r ed u cin g   th n u m b er   o f   m ess ag es  ex ch an g ed .   Du r in g   ea ch   iter atio n   k k ,   th s lav s ites   s en d   m ess ag es   to   th m aster   s ite,   wh ich   th en   r e p lies   with   m ess ag es to   all  sl av s ites .   Fig u r 1   s h o ws  th m aster /s lav co m m u n icatio n   m o d el .           Fig u r 1 .   T h m o d el   o f   m aster /s lav co m m u n icatio n       2 . 2 .     P r o po s ed  a pp ro a ch   T h d is tr ib u tio n   asp ec t   ca n   b d escr ib ed   as  f o llo ws Su p p o s th at  DB   is   d ataset  o f   tr an s ac tio n s   p ar titi o n ed   h o r izo n tally   an d   c o r r esp o n d en tly   { DB 1 DB 2 ,   …,   DB n }   on  s ites   { S 1 S 2 , ….   S n }   in   d is tr ib u ted   s y s tem is   th to tal  d atab ase  s ize an d   d i   is   th s ize  o f   ea ch   p ar titi o n   DB i   f o r   i= 1 ,   . . . ,   n .   T h s u p p o r t( X)   is   k n o wn   as th g lo b al  s u p p o r t c o u n ter   i n   th e   en tire   DB   an d   ca n   b d ef i n ed   as ,     . =   ( )     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52         A n   efficien t freq u en t item s ets fin d in g   in   d is tr ib u ted   d a ta s ets w ith   …  ( Ho u d a   E s s a lmi )   499   w h er ca r d ( X)   is   th n u m b er   o f   r ec o r d s   in   t h wh o le  DB   c o n tain in g   X   an d   T G   is   th to tal  n u m b er   o f   r ec o r d s   in   th d atab ase  DB .   T h   Supp or t i ( X)   is   k n o wn   as th e   lo ca l   s u p p o r t c o u n ter   in   DB i     an d   ca n   b d e f in ed   as ,     .    =   ( )           w h er ca r d ( X)   is   th n u m b e r   o f   r ec o r d s   in     DB i   co n tain in g   a n d     T i   is   th to tal  n u m b er   o f   r e co r d s   in   th d atab ase   DB i .   L et   m in im u m   s u p p o r Sup m i n   d ef in ed   b y   th u s er ,   is   g lo b ally   f r eq u en if   X. s u p Sup m i n ×   D co r r esp o n d en tly ,   is   lo ca lly   f r eq u en t a t sit e   S i ,   if   X.   s upp i   ≥    Sup m i n   ×    d i .   Ou r   FEDFI   alg o r ith m   co n s is ts   o f   two   f u n d am e n tal  p h ases th in itializatio n   p h ase  an d   t h e   ex ec u tio n   p h ase.   Du r in g   th in itializatio n   p h ase,   th m aster   s ite  p ar titi o n s   th h o r izo n tal  d ata b a s ac r o s s   all  s ites   eq u itab ly   b y   d iv id in g   t h n u m b er   o f   tr an s ac tio n s   b y   t h n u m b er   o f   s ites .   W ar e   g iv en   a   h o r izo n tal   tr an s ac tio n   d atab ase  β   illu s tr ated   b elo in   Fig u r e   2 ,   wh er as   g r o u p   o f   item s ,   th alp h ab e t I {a ,   b ,   c,   d ,   e}   ( with   m =5   elem en ts ) ,   a n d   T i d   as  a   s et  o f   tr an s ac tio n s ,   T i d { 1 2 3 4 5 ,   6 }   with   a   m in im u m   s u p p o r th r esh o ld   ( Sup m i n   =2 ) .   T h h o r iz o n ta tr an s ac tio n   d atab ase  is   f r ag m en ted   an d   d is tr ib u ted   on   two   s lav s ite s   as  s h o wn   in   Fig u r 3 .   T h ex ec u tio n   p h ase  b eg in s   with   co n v er tin g   th h o r izo n ta d atab ase  in to   v er tical  d ata   f o r m at  f o r   ea ch   s lav s ite,   g en er atin g   l is o f   T id s   f o r   all  item s   in   I .   T h is   m eth o d   in v o lv es  s in g l p ass   th r o u g h   th e   h o r izo n tal  tr an s ac tio n   d atab a s to   id en tify   th tr an s ac tio n   T id s   f o r   ea ch   item   in   I ,   wh ich   is   th en   u s ed   to   co n s tr u ct  th v er tical  tr an s ac ti o n   d ata b ase.   T h e   p r im ar y   d is t in ctio n   b etwe en   v er tical  a n d   h o r izo n tal   d ata  lies   in   th s tr u ctu r o f   t r an s ac tio n s .   I n   h o r izo n tal  d ata,   tr an s ac tio n   in clu d es  th T id   a n d   th I tem s et,   wh er ea s   in   v er tical  d ata,   ea ch   tr an s ac tio n   is   id en tifie d   b y   t h I tem s et,   en ab lin g   th s u p p o r t   co u n f o r   a n y   f r e q u en item s et   to   b e   ca lcu lated   th r o u g h   th e   i n ter s ec tio n   o f   T id Sets .   T h is   v er tical  tr an s ac tio n   d atab ase  c o m p r is es  lis o f   all  1 - item s ets  an d   th eir   co r r esp o n d in g   T id s   f o r   ea ch   s lav s ite.   Fig u r 4   illu s tr ates  th co n v er s io n   o f   two   s lav e   s ites   in   v er tical  tr an s ac tio n   d atab ase .           Fig u r 2 .   Ho r izo n tal  tr an s ac tio n   d atab ase  β           Fig u r 3 .   H o r izo n tal  tr an s ac tio n   d atab ase   f o r   s lav s ite 1   an d   s lav s ite 2             Fig u r 4 Ver tical  d ata b ase  f o r   s lav s ite 1   an d   s lav s ite 2     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  3 8 ,   No .   1 Ap r il   20 2 5 :   4 9 6 - 5 0 7   500   T o   ef f icien tly   e x tr ac all  g lo b ally   co m m o n   item s ets  in   d is tr ib u ted   co n tex t,   o u r   FEDFI   alg o r ith m   ex ec u tes   th r ee   tech n iq u es  to   av o id   r ep ea ted   d ata b ase  s ca n s   an d   r ed u ce   th co s ass o ciate d   with   g en er atin g   a   lar g n u m b er   o f   ca n d id ate   s ets,  th er eb y   m in im izin g   e x ec u tio n   tim e.   T h f i r s tech n iq u estab lis h es  th C ount Ti d L ist t   d ata  s tr u ctu r ( f o r   t=1 ,   . . ,   n )     f o r   ea c h   s lav s ite  to   f ac il itate   th co m p u tatio n   o f   f r eq u en   1 - item s ets  an d   2 - item s ets ,   u s in g   two - d im en s io n al  m at r ix   o f   s ize  ( m × m ) ,   wh er m   r ep r e s en ts   th n u m b er   o f   item s   in   th v e r tical  tr an s ac tio n   d ata b ase.   I n   th im p lem en tatio n ,   th item s ets  ar o r d er e d   l ex ico g r ap h ically ,   an d   r ed u n d a n ( s y m m etr ic)   elem en ts   ar r em o v ed   f r o m   th C ount Ti dL ist t   m atr ix ,   th er e b y   r e d u cin g   its   s i ze   to   ½ ( m ²+ m ) .   Fu r th er m o r e ,   th C ount Ti dL ist t   d ata  s tr u ctu r is   em p lo y ed   to   o p tim ize  th s u p p o r ca lcu latio n   o f   ca n d id ate  item s ets  with o u ac ce s s in g   th v er tical  d atab ase.   T h C ount Ti dL ist t   m atr ix   p r o v id es  p r o jectio n   o f   th v e r tical  tr an s ac tio n   d ata b ase  f o r   ea ch   s lav s ite.   E ac h   ce ll  ( i,  j)   r ep r esen ts   th s ize  o f   T id s   f o r   th I tem s et  c o n s is tin g   o f   elem en ts   x i   an d   x j .   T h e   f r eq u e n cy   o f   1 - item s ets  is   d eter m in ed   b y   th s ize  o f   th T id   ass o ciate d   with   ea ch   item f r e q u en cy   ( x i )= s ize   o f   ( T id   ( x i ) ) ,   a n d   t h is   is   r ef lecte d   i n   th d iag o n al  ce lls   o f   th m a tr ix .   T h e   f r e q u en c y   o f   2 - item s ets  is   ca lcu lated   b ased   o n   th s ize  o f   t h in ter s ec tio n   o f   T id s   f o r   th two   ite m s f r eq u en cy   ( x i x j )   s ize   o f   ( T id   ( x i )   ∩  T id   ( x j ) ) ,   an d   th ese  v alu es  ar l o ca ted   ab o v t h d ia g o n al  i n   th e   m a tr ix .   Fig u r e   5   illu s tr ates  th c o n s tr u ctio n   o f   t h e   C o u n tTid L is t m atr ix   f o r   s lav Sit e 1   an d   s lav e   Sit e 2 .   T h ex ac s u p p o r ts   f o r   1 - item s ets  an d   ca n d id ate  2 - item s ets  ar d eter m in e d   th r o u g h   d ir ec t   ac ce s s   to   th C ount Ti dL ist t   s tr u ctu r e,   an d   elim in ate  th o s th at  d o   n o s atis f y   th m i n im u m   s u p p o r th r esh o ld   Sup m i n On ly   th f r e q u en 1 - item s ets an d   2 - item s ets ar r etain ed .         ( )   =   ( )   =       ( , 1 )   , |     | = 1           ( ) =   ( )   =          ( , ( 1 ) )   , |   | = 1 , =   |     |       Sig n if ican tly ,   f r e q u en 1 - item s ets  an d   2 - item s ets  f o r   ea ch   s lav s ite  ca n   b c o m p u te d   in   a   s in g le  p ass   th r o u g h   th v er tical  d atab ase,   in   co n tr ast  to   th A p r io r i   m eth o d ,   w h ich   r eq u ir es  two   p ass es.   Su b s eq u en tly ,   ea ch   s lav e   s ite  tr an s m its   its   d ata:   s u p p o r t   of   f r eq u e n 1 - item s et ,   2 - item s et  an d   T id s   o f   f r e q u en t   2 - item s et ( T id   ( x i x j ) =T id   ( x i ) ∩T id   ( x j ))   to   th m aster   s ite.   T h m aster   s ite  th en   co n s tr u cts  g lo b al  s tr u ctu r C ount Ti dL ist G   b y   s u m m in g   th s u p p o r ts   f r o m   th C ount Ti d L ist t   o f   th d if f er e n s lav s ites ,   with o u n ee d in g   ac ce s s   to   th v er tical  d atab ases   o r   ad d itio n al  co m m u n icatio n   with   th s lav e   s ites .   As  s h o wn   in   Fig u r e   6 ,   t h to tal  o f   th s u p p o r v al u es  f r o m   th m atr ix   o f   s lav s ite 1   C ount Ti dL ist 1   an d   Slav e   s ite 2   C ount Ti dL ist 2 .   T h e   lis o f   1 - item s ets  is   {a :3 ,   b :5 ,   c:5 ,   e: 5 },   an d   th lis o f   2 - item s ets  is   {a b :2 ,   ac :3 ,   ae :2 ,   b c:4 ,   b e:5 ,   ce :4 }.   T h lis o f   T id   f o r   2 - ite m s ets  in clu d es   {a b :( 3 , 5 ) ,   ac :( 1 , 3 , 5 ) ,   ae :( 3 , 5 ) ,   b c:( 2 , 3 , 5 , 6 ) ,   b e:( 2 , 3 , 4 , 5 , 6 ) ,   ce :( 2 , 3 , 5 , 6 ) }.   T h s ec o n d   tech n iq u o f   o u r   alg o r ith m   aim s   to   id en tify   th e   s et  o f   K - item s ets  ( k 3 )   with in   th s lav e   s ite  d atab ases .   To   r ed u ce   th ex ch an g o f   d is tr ib u te d   ca lcu lati o n s   f o r   f r eq u en item s ets  b etwe en   th ese  d atab ases ,   th m aster   s ite  iter ativ ely   g en e r ates  th lis o f   k - item s ets  ( k 3 )   b y   c o n s tr u ctin g   T r ie.   At  th e   f ir s lev el  o f   th T r ie,   th n o d es  ar co m p o s ed   o f   th s et  o f   f r e q u en 2 - item s ets  o b tain ed   f r o m   th f ir s t ec h n iq u e,   alo n g   with   th eir   T id Sets ,   wh ich   ar o r d er ed   lex ico g r ap h icall y .           Fig u r 5 .   C o u n tTid L is t m atr ix   f o r   s lav s ite 1   an d   s lav s ite 2   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52         A n   efficien t freq u en t item s ets fin d in g   in   d is tr ib u ted   d a ta s ets w ith   …  ( Ho u d a   E s s a lmi )   501       Fig u r 6 .   C alcu late  th Su m   o f   C ount Ti dL ist G   f o r   s lav s ite 1   an d   s lav s ite 2       T o   g en e r ate   ca n d id ate  ( k + 1 ) - i tem s et  n o d es  f o r   th n ex lev el,   th alg o r ith m   em p lo y s   s elf - jo in   o f   th ( k - 1) - item s ets  g en er ated   in   th p r ev i o u s   lev el,   en s u r i n g   th at  ( k 1 )   item s   o f   t h t wo   k - item s ets  ar id en tical.   Ad d itio n ally ,   th al g o r ith m   d eter m in es  th T id s   o f   ( k +1 ) - item s ets  b y   in ter s ec tin g   th T id s   o f   th e   two   k - item s ets  th at  s h ar t h e   s am ( k 1 )   item s .   T h alg o r ith m   co n tin u es  to   c o n s tr u ct  n o d es  at  ea ch   lev el  alo n g   with   t h eir   T id s   u n til  n o   f u r th er   n o d es  ca n   b e   g en e r ated ,   th er e b y   c o n clu d i n g   t h s ea r ch   f o r   f r e q u en t     k - item s ets  with   th eir   T id Sets   u s in g   th T r ie  s tr u ctu r e.   Fin all y ,   th ap p r o x im ate  s u p p o r o f   th s et  o f   ca n d id ate  k - item s ets is   d eter m in ed   b y   c o u n tin g   th e   s ize  o f   th T id Sets   f o r   ea ch   n o d g en er ate d   in   th T r ie  s tr u ctu r e.   I n   Fig u r 7 ,   we  illu s tr ate   t h e   s ec o n d   tech n iq u u s in g   th e   p r ev io u s   ex am p le   f r o m   d atab ase  β .   Fo r   in s tan ce ,   at  lev el   1   o f   th T r i e,   th two   n o d es  "a b an d   "a c h av th s am ( k - 1 )   item   "a ",   s o   lin k   will  b cr ea ted   to   n o d "a b c"   b y   id e n tify in g   th T id Set th r o u g h   th in ter s ec tio n   o f   th eir   T id s   ( T id ( ab ) ∩T id ( ac ) =3 5 ) .   T h is   p r o ce s s   co n tin u es u p   t o   l ev el  3   ( n o d e   "a b ce ":  f r eq u e n t 4 - item s et  with   T id :   3 5 ) .   Sin ce   th er is   o n ly   o n e   4 - item   n o d e,   n o   m o r n o d es  ca n   b g e n er ated .   T h ap p r o x i m ate  s u p p o r o f   n o d "a b c is   eq u al  to   th s ize  o f   T id   ( 3 5 ) 2 .   T h s et  o f   ca n d i d ate  k - item s ets  g en er ated ,   alo n g   with   th eir   ap p r o x im ate  s u p p o r t,   is   as  f o llo ws:   {a b c:  2 ,   ab e:  2 ,   ac e:  2 ,   b ce 3 ,   ab ce 2 }.   T h is   was  d er iv e d   f r o m   th T r ie  s tr u ctu r e   with o u t   a n y   ex c h an g es  with   s lav s ite 1   an d   s lav e   s ite 2 .           Fig u r 7.   I ll u s tr atio n   o f   T r ie  s tr u ctu r f o r   k - item s ets ( k 3 )       T h m aster   s ite  s en d s   th s et  o f   ca n d id ate  k - item s ets  to   th s lav s ites   to   d eter m in th ex a ct  s u p p o r t   f o r   ea ch   k - item s et.   T h er e f o r e,   th ir d   r ef in em en tech n iq u is   n ec ess ar y   to   v alid ate  th s u p p o r v alu es.   E ac h   s lav s ite  m u s t   s ca n   it s   lo ca l   d ata  to   d eter m in th s u p p o r f o r   ea ch   K - i tem s et.   At  th is   s tag e,   T h FEDFI   alg o r ith m   d eter m i n es  th ex a ct  s u p p o r o f   K - item s ets  b ased   o n   th Su p p o r tMin   m etr ic   in tr o d u ce d   in   o u r   p ap er   [ 2 7 ] .   T h is   m etr ic   is   u s ed   f o r   p r u n in g   ca n d id ates  with o u ac ce s s in g   th d atab ase.   I t   esti m ates  th ac tu al  s u p p o r t   o f   item s et  b ased   o n   th m i n im u m   s u p p o r ts   o f   its   ( k - 1 )   s u b s ets  id en tifie d   in   th p r ev io u s   iter atio n .   T h is   v alu r ep r esen ts   th m in im u m   p o s s ib le  s u p p o r f o r   K - item s et  X.   At  th i s   p o in t ,   th FEDFI   alg o r ith m   aim s   to   d eter m in th ex ac s u p p o r o f   th K - elem en s ets  b y   f o c u s in g   o n   tr an s ac tio n s   th at  in clu d th ( k - 1 )   s u b s ets  o f   th K - item s et  th at  co n tain   th m in im u m   s u p p o r t.  T h is   m eth o d   s ig n if ican tly   r ed u ce s   th n u m b e r   o f   tr an s ac tio n s   r eq u ir ed   to   ac cu r a tely   d eter m in th e   s u p p o r ts   o f   th item s ets.   Fo r   ex am p le,   at   s lav e   s ite 1 ,   th s u p p o r f o r   th s u b s ets  o f   th it em s et s   "a b c"   is   a s   f o llo ws:   "a b ":  1 ,   "a c" 2 ,   a n d   "b c" 2 ,   w h ich   h av alr ea d y   b ee n   ca lc u lated   u s in g   th C o u n tTid L is s tr u ctu r e.   T h u s ,   th e   ex ac s u p p o r o f   t h item s et  "a b c"   is   d eter m in ed   with in   th e   tr an s ac tio n s   o f   th e   s u b s ets  th at  h av th m in im u m   s u p p o r o f   "a b " .   T h tr a n s ac tio n s   f o r   th item s et  "a b h av b ee n   p r e v io u s ly   d e f in ed   f r o m   th v e r tical  d atab ase.   C o n s eq u en tly ,   th e x ac s u p p o r f o r   "a b c"   is   f o u n d   in   t r an s ac tio n   T id = 3 ,   c o n s eq u en tly   t h ex ac t   Su p p o r o f   "a b c"   is   eq u al   to   1 .   Su b s eq u en tly ,   th s lav s ites   s en d   to   t h m aster   s ite  th k - item s ets  with   th eir   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  3 8 ,   No .   1 Ap r il   20 2 5 :   4 9 6 - 5 0 7   502   ex ac s u p p o r to   ca lcu late  th g lo b al  s u p p o r ts   an d   id e n tifie s   th f r eq u en item s ets  b y   d is ca r d in g   t h o s th at  n o t   s atis f y   th s p ec if ied   m in im u m   s u p p o r t th r esh o ld   ( Sup m i n ).   I is   wid ely   r ec o g n ized   th at  th Ap r io r i   alg o r ith m   r eq u ir es  a   co m p r eh en s iv s ca n   o f   all  tr a n s ac tio n s   in   d atab ase  to   m in e   f r eq u en k - item s ets.  I n   co n tr ast,  o u r   r ef in em en tech n iq u s ca n s   th d atab ase  o n ly   f o r   tr an s ac tio n s   ass o ciate d   with   th s u b s ets  o f   a n   item s et  th at  h av th m i n im u m   s u p p o r t   th r e s h o ld .   T h is   m et h o d   s ig n if ican tly   r ed u ce s   th e   n u m b er   o f   d atab ase  ac ce s s es r eq u ir ed   to   id e n tify   f r eq u e n t k - item s ets.   T h p r o p o s ed   m eth o d   is   illu s tr ated   in   Fig u r 8 ,   wh ich   d etails  th m eth o d o lo g y   em p lo y ed   b y   th FEDFI   alg o r ith m   a n d   its   k e y   co m p o n en ts .   T h e   m aster   s ite  i s   r esp o n s ib le  f o r   p a r titi o n in g   an d   d is tr ib u tin g   th e   d atab ase  h o r iz o n tally   a n d   e q u itab ly   ac r o s s   all  s ites ,   as  well  as  co n v e r tin g   ea c h   lo ca l   d at ab ase  to   v er tical  f o r m at.   T h is   wo r k   is   ac h iev e d   b y   ap p ly in g   t h r ee   m ajo r   tec h n iq u es  f o r   m in in g   d is tr ib u te d   f r eq u en item s ets:   g en er atin g   th C o u n tTid L is m atr ix   s tr u ctu r f o r   ea ch   Slav s ite  an d   co m p u tin g   th g l o b al  s u p p o r f o r   1 - item s ets  an d   2 - item s ets  a th m aster   s ite.   T h s et  o f   ca n d id ate  k - item s ets  ( k 3 )   a n d   th eir   s u p p o r ts   ar d eter m in ed   u s in g   th T r ie  s tr u ctu r e.   T h e   m aster   s ite  th en   d is tr ib u tes  th ca n d id ates  to   th s lav s ites   f o r   f u r th er   r ef in em e n o f   th k - it em s ets  ( k 3 ) .   B ased   o n   th e   r esu lts   p r o v id ed   b y   th s lav s ites ,   th m aster   s ite   v er if ies wh eth er   th k - item s ets ar g lo b ally   f r eq u e n an d   d is p lay s   th r esu lts   f o r   all  f r eq u e n t k - item s ets.           Fig u r 8.   T h m ain   p r o ce s s   o f   th p r o p o s ed   FEDFI       I n   th is   m eth o d ,   o u r   FEDFI   alg o r ith m   d ev el o p s   m aster /s lav ( s ites )   co m m u n icatio n   m o d el  b y   p ar titi o n in g   th e   d atab ase  ac r o s s   all  s ites   in   an   e q u itab le  m a n n er ,   d iv id i n g   th n u m b e r   o f   tr an s ac tio n s   b y   th n u m b er   o f   s ites .   C o n v er s ely ,   in   th b asic  C d ata  p ar allelis m   alg o r ith m   an d   t h b asic  DD  task   p ar allelis m   alg o r ith m ,   p ar titi o n in g   is   b ase d   o n   r a n d o m   d is tr ib u tio n   o f   d ata  b y   p er f o r m i n g   a   h o r izo n tal  d iv is io n   o f   th e   d ata  ( u s in g   an   " all - to - all"  b r o ad ca s ap p r o ac h ) .   Ho wev e r ,   it  s u f f er s   f r o m   g e n er atin g   lar g n u m b er   o f   ca n d id ates,  lead in g   t o   in cr ea s e d   co m m u n icatio n   o v er h ea d .   I n   th C alg o r ith m ,   s ites   s y n ch r o n ize  a f ter   co m p u tin g   th l o ca s u p p o r t   o f   ca n d id ates,  a n d   ea ch   s ite  ex ch an g es  t h lo ca l   s u p p o r t   o f   all  ca n d id ates  with   all  o th er   s ites   to   ca lcu late  th e   g lo b al  s u p p o r t .   I n   th e   DD  alg o r ith m ,   ea ch   s ite  p r o ce s s es  th r ec eiv ed   p ar titi o n s   t o   o b t ain   g lo b al  s u p p o r t   f o r   th e   en t ir d atab ase.   A f te th at,   ea ch   s ite  ca lcu lates  th f r eq u en item s ets  f r o m   its   ca n d id ate  s et,   ex ch an g es  th ese  f r e q u en item s ets  with   all  o th er   s ites   to   o b tain   th co m p lete  s et  o f   f r eq u e n item s ets,  an d   th en   g e n er ates  th n ew  ca n d id ates,   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52         A n   efficien t freq u en t item s ets fin d in g   in   d is tr ib u ted   d a ta s ets w ith   …  ( Ho u d a   E s s a lmi )   503   p ar titi o n s   th em ,   a n d   d is tr ib u te s   th em   ac r o s s   all  s ites .   C o n s eq u en tly ,   o u r   m o d el  g r ea tly   r ed u ce s   th n u m b er   o f   co m m u n icatio n s   n ec ess ar y   f o r   th d is tr ib u ted   c o m p u tatio n   o f   g lo b al  f r eq u e n item s ets  co m p ar ed   to   th e   co n v en tio n al  p ar allel/d is tr ib u t ed   alg o r ith m s   p r ev io u s ly   d escr ib ed .   T h C alg o r ith m   f o cu s es  o n   th Ap r io r alg o r ith m   to   ex tr ac f r eq u en k - item s ets.  B y   ap p ly in g   th e   Ap r io r i a lg o r ith m   to   o u r   m aster /s lav es m o d el  with   th ex am p le  ab o v e,   we  f in d   th e   f o llo win g   r esu lts :     I n   th f ir s iter atio n ,   b o th   s lav s ites   ca lcu late  th lo ca s u p p o r ts   o f   t h ca n d id ate  1 - i tem s ets  ( C 1 ( s 1 ) ={ a, b , c, d , e} ,   C 1 ( s 2 ) ={ a, b , c, d , e} )   an d   s en d   t h ese  ca lcu latio n s   to   th Ma s ter   s ite.     T h m aster   s ite  m er g es  th r ec eiv ed   ca n d id ates  ( C 1   ( s 1 )   an d   C 1   ( s 2 ) ) ,   d eter m in es  th f r e q u en 1 - I tem s ets   F1 ,   co m p u tes th ca n d id ates C2 ,   an d   s e n d s   th em   b ac k   to   s lav s ites   1   an d   2 .     T h is   p r o ce s s   is   r ep ea ted   f o r   iter atio n s   2 ,   3 ,   an d   4   with   th r esp ec tiv ca n d id ates  C 2 ={ ab ,   ac ,   ae ,   b c,   b e,   ce },   C 3 ={ ab c,   ab e,   ac e , b ce },   a n d   C 4 ={ ab ce }.   T h Ap r io r alg o r ith m   th u s   p e r f o r m s   f o u r   iter atio n s   to   ca lc u late  f r eq u e n item s ets,  r esu ltin g   in   f o u r   p h ases   o f   co m m u n icatio n   b etwe en   th m aster   s ite  an d   th s lav s ites .   I n   co n tr ast,  o u r   alg o r ith m   r eq u ir es  o n ly   two   ac ce s s es  to   th lo ca d at ab ase  in   th f ir s tech n iq u o f   th ex ec u tio n   p h ase  to   o b ta in   th f r e q u en 1 - item s ets  an d   2 - item s ets  an d   in   th th ir d   tech n iq u d u r in g   th e   r ef in em en t   p h ase  to   v alid ate  t h s u p p o r ts   o f   th e   k - item s ets   ( k 3 ) .   T h e r ef o r e ,   o u r   FEDFI   alg o r ith m   r eq u ir es  o n ly   two   ex ch a n g es  b etwe en   th m aster   s ite  an d   th s lav s ites   to   co m p u te  all  t h f r eq u en t i tem s ets.       3.   RE SU L T S AN D I SCU SS I O N   T h is   s ec tio n   p r esen ts   b o th   th ex p er im en tal  r esu lts   an d   a   d is cu s s io n   o f   th p er f o r m an ce   o f   th FEDFI   alg o r ith m ,   b en c h m ar k ed   ag ain s t   Ap r io r i   an d   C al g o r ith m s .   W e v alu ated   th e   alg o r ith m s   u s in g   two   d atasets T 4 0 l1 0 D1 0 0 K   an d   C h ess .   T h ex p er im e n ts   wer e   co n d u cted   i n   d is tr ib u ted   e n v ir o n m en u s in g   a   m aster /s lav es  s ch em e,   wh er d atasets   wer p ar titi o n ed   h o r i zo n tally   ac r o s s   m u ltip le  s lav e   s ites .   T h p r im ar y   o b jectiv is   to   ass e s s   th ef f icien cy ,   s ca lab ilit y ,   an d   co m m u n icatio n   o v e r h ea d   ass o ciate d   with   th FEDFI   a lg o r ith m ,   a n d   h o th ese  asp e cts co m p ar to   th o s o f   th e   Ap r io r i a n d   C alg o r ith m s .     3 . 1 .     Da t a s et   o v er v iew     T h d atasets   u s ed   wer s elec ted   to   p r o v id a   r an g o f   c o m p le x ities :     T 4 0 l1 0 D1 0 0 K:  s o u r ce d   f r o m   FIM I   [ 2 8 ]   an d   s tu d ied   b y   Fo u r n ier - Vig er   et  a l .   [ 2 9 ] ,   th is   lar g e - s ca le  d ataset   co n tain s   1 , 0 0 0   d is tin ct  item s   a n d   1 0 0 , 0 0 0   tr an s ac tio n s .   I p r esen ts   h ig h - d im en s io n al   ch a llen g th at  test s   th s ca lab ilit y   an d   co m m u n ica tio n   ef f icien cy   o f   m i n in g   f r eq u en t item s et  alg o r ith m s .     C h ess a ls o   f r o m   FIM I   [ 2 8 ] ,   t h is   d ataset,   ex p l o r ed   b y   Fo u r n ier - Vig er   et   a l.   [ 2 9 ] ,   co n s is ts   o f   7 5   item s   an d   3 1 9 6   tr an s ac tio n s .   I o f f er s   m o r e   s tr u ctu r e d   e n v ir o n m en f o r   ass ess in g   alg o r ith m   p er f o r m an ce   in   s ce n ar io s   with   f ewe r   tr an s ac tio n s   an d   less   d ata  co m p lex ity .     3. 2   E x perim ent a s et up   T h ex p er im en ts   wer e   co n d u cted   o n   a   s y s tem   with   a n   I n t el®  C o r eT i7   p r o ce s s o r   at  2 . 8 0   GHz ,     4   GB   o f   R AM ,   an d   W in d o ws   1 0 .   W d is tr ib u ted   t h d ata   s ets  to   3 ,   5 ,   a n d   7   s lav n o d es   ( s ites )   to   m ea s u r e   s ca lab ilit y   an d   ef f icien cy .   T h alg o r ith m s   wer im p lem en t ed   in   J av u s in g   th NetBean s   I DE .   T h Ap r io r an d   FEDFI   alg o r ith m s   u s b id ir ec tio n al  co m m u n icatio n   s ch em b etwe en   s ites   f o llo win g   th m aster /s lav es   m o d el,   wh er ea s   th e   C alg o r ith m   em p lo y s   th class ic  m o d els o f   u s u al  co m m u n icatio n   b et wee n   s ites .     3. 3   Resul t s   3. 3 . 1.   E x ec utio t im a na l y s is   T h p er f o r m a n ce   o f   th e   FEDFI   alg o r ith m   was  co m p a r ed   t o   t h at  o f   t h Ap r i o r an d   C alg o r ith m s   in   ter m s   o f   ex ec u tio n   tim e.   Fig u r es  7   an d   8   p r esen th e x ec u tio n   tim as  f u n ctio n   o f   t h e   m in im u m   s u p p o r th r esh o ld   f o r   C h ess   an d   T 4 0 l1 0 D1 0 0 d atasets ,   r esp ec tiv ely .     C h ess   d ata s et th r esu lt s   f o r   th C h ess   d ataset,   d ep ict ed   in   Fig u r 9 ,   also   in d icate   th at  FEDFI   o u tp er f o r m s   th o th e r   alg o r ith m s .   E v en   in   s m aller   d ata s et  with   f ewe r   tr an s ac tio n s ,   th alg o r ith m s   ef f icien cy   is   ev id en t.  Fo r   in s t an ce ,   at  s u p p o r th r esh o ld   o f   1 0 %,  FEDFI   r eq u ir ed   a p p r o x im ately   3 0 %   f ewe r   iter atio n s   th an   Ap r io r an d   3 5 f ewe r   t h an   C D.   T h is   r ed u ctio n   in   th n u m b e r   o f   it er atio n s   d ir ec tly   tr an s lates  to   f ewe r   co m m u n ic atio n   p h ases ,   u n d er s co r in g   FE DFI s   ab ilit y   to   s ca le  ef f icien tly   ev en   in   less   co m p lex   e n v ir o n m en ts .     T 4 0 l1 0 D1 0 0 K   d ataset as  s h o wn   in   Fig u r e   1 0 ,   th FED FI  alg o r ith m   c o n s is ten tly   o u t p er f o r m ed   b o th   Ap r io r a n d   C ac r o s s   all  s u p p o r th r esh o ld s .   Fo r   ex am p le,   at  a   s u p p o r t h r esh o ld   o f   50 %,  FEDFI   co m p leted   th m in in g   p r o ce s s   ap p r o x im ately   2 0 f aster   th an   Ap r io r an d   2 5 f aster   th an   C D.   T h p r im ar y   r ea s o n   f o r   th is   s u p er io r   p er f o r m an ce   is   FEDFI s   ab ilit y   to   g en er ate  f ewe r   ca n d id ate  item s ets,   wh ich   r ed u ce s   th n u m b er   o f   co m m u n icatio n   r o u n d s   b etwe en   s lav n o d es.  T h is   r ed u ctio n   in   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  3 8 ,   No .   1 Ap r il   20 2 5 :   4 9 6 - 5 0 7   504   co m m u n icatio n   s ig n if ican tly   lo wer s   th o v er all  ex ec u tio n   tim e,   esp ec ially   f o r   la r g er   d atasets   wh er e   co m m u n icatio n   co s t c an   b m ajo r   b o ttlen ec k .           Fig u r 9 .   C o m p a r is o n   o f   r u n tim f o r   C h ess   d atasets           Fig u r 1 0 .   C o m p ar is o n   o f   r u n t im f o r   T 4 0 l1 0 D 1 0 0 d atasets     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52         A n   efficien t freq u en t item s ets fin d in g   in   d is tr ib u ted   d a ta s ets w ith   …  ( Ho u d a   E s s a lmi )   505   3. 3 . 2.   Sca la bil it y   a na ly s is   T o   ev alu ate  th s ca lab ilit y   o f   th FEDFI   alg o r ith m ,   we  test ed   it  with   an   in cr ea s in g   n u m b er   o f   s lav n o d es  ( 3 ,   5 ,   an d   7 )   a n d   lar g er   d ataset  s izes.  Fig u r e   1 1   illu s tr ates  h o t h p er f o r m an ce   o f   FEDFI   s ca les  with   m o r s lav n o d es.     I m p ac o f   n o d e   in cr ea s e:  a s   we  in cr ea s ed   th e   n u m b er   o f   s lav n o d es,  th e   FEDFI   alg o r it h m   co n tin u ed   to   o u tp er f o r m   Ap r io r an d   C D.   At  7   n o d es,  FEDFI   s t ill  ex h ib ited   b etter   ex ec u tio n   tim es,  wh ile  Ap r io r an d   C s h o wed   m o r n o ticea b le  i n cr ea s es  in   ex ec u tio n   tim d u to   h ig h er   co m m u n icatio n   o v er h ea d .   FEDFI s   ab ilit y   to   m in im ize  co m m u n i ca tio n   p h ases ,   ev en   as  th n u m b er   o f   n o d es  r is es,  is   cr itical  f ac to r   in   its   s u p er io r   s ca lab ilit y .     C o n v er g en ce   at  h ig h   n o d c o u n t:  in ter esti n g ly ,   as  th n u m b er   o f   n o d es  in cr ea s ed ,   we  o b s er v ed   th a th p er f o r m an ce   o f   all  alg o r ith m s   b eg an   to   d iv er g e.   T h is   is   p ar ticu lar ly   n o ticea b le  at  7   n o d es,  wh er th co m m u n icatio n   o v er h ea d   b ec am d o m in an f ac to r .   Ho wev er ,   ev en   at  th is   lev el  o f   p ar a llelis m ,   FED FI   m ain tain ed   an   ed g o v e r   Ap r i o r an d   C D,   r ef lectin g   its   m o r ef f icien d ata  d is tr ib u tio n   an d   r ed u ce d   n ee d   f o r   co m m u n icatio n   r o u n d s .           Fig u r 1 1 .   Scalab ilit y   o f   FED FI   b y   n u m b er   o f   n o d es with   Sup m i n =2 0 %       3. 4   Dis cus s io n   T h r esu lts   o f   th is   s tu d y   h i g h lig h s ev er al   im p o r tan in s ig h ts   ab o u t   th FEDFI   al g o r ith m   an d   its   p er f o r m an ce   in   d is tr ib u te d   co n tex t.   E f f icien c y   g ain s FEDFI s   ef f icien cy   in   g en e r atin g   f ewe r   ca n d i d ate  item s ets  d ir ec tly   lead s   to   f ast er   ex ec u tio n   tim es  an d   r ed u c ed   co m m u n icatio n   o v e r h ea d .   T h is   is   p ar ticu lar ly   ev id en in   th T 4 0 l1 0 D1 0 0 K   d ataset,   wh er FEDFI   co n s i s ten tly   o u tp er f o r m ed   b o t h   Ap r io r an d   C D.   T h e   ab ilit y   to   m in im ize  c o m m u n icatio n   r o u n d s   is   s ig n i f ican ad v a n tag in   d is tr ib u te d   s y s tem s ,   wh er e   co m m u n icatio n   co s ts   ca n   q u ic k ly   escalate .   S u p e r io r   s ca lab ilit y th s ca lab ilit y   o f   FEDFI   is   o n o f   its   s tan d o u t   f ea tu r es.  As  th d ataset  s iz an d   th n u m b er   o f   s lav e   n o d es  in cr ea s ed ,   FEDFI   m ain tain ed   s u p er io r   p er f o r m an ce   c o m p ar e d   to   Ap r io r an d   C D.   T h is   s ca lab ilit y   is   cr u cial  f o r   r ea l - wo r ld   ap p licatio n s ,   p ar ticu lar ly   in   b i g   d ata  en v ir o n m en ts   wh e r d atasets   ar o f te n   d is tr ib u te d   ac r o s s   m u ltip le  s ites .   T h al g o r ith m s   a b ilit y   to   h an d le  lar g e r   d atasets   with o u s ig n if ican in cr ea s in   co m m u n icatio n   co s is   m ajo r   s tr en g th .   C o m p a r is o n   with   r elate d   r esear ch o u r   r esu lts   alig n   with   f in d in g s   f r o m   p r io r   s tu d ies,  wh ich   h av n o t ed   th lim itatio n s   o f   Ap r io r in   d is tr ib u ted   s ettin g s   d u t o   m a n ag in g   lar g v o l u m o f   ca n d id ate  s ets,  p ar tic u lar ly   wh e n   d ea lin g   with   n u m er o u s   f r e q u en ite m s ets,  lo m in im u m   s u p p o r th r esh o ld s ,   o r   ex te n s iv item s ets.  Ap r io r i's   p er f o r m an ce   d r asti ca lly   d ec r e ases   an d   b ec o m es  in e f f icien wh en   th m em o r y   ca p ac ity   is   co n s tr ain ed   a n d   th e   tr an s ac tio n   co u n is   h ig h .   C alg o r ith m   u s es  s im p le  co m m u n icatio n   s y s tem   to   ex ch an g lo ca s u p p o r ts ,   r ely in g   o n   b r o ad ca s all - to - all  co m m u n icatio n   m o d el.   Ho wev er ,   it  s u f f er s   f r o m   g en e r at in g   lar g n u m b er   o f   ca n d id ate  s ets,  r esu ltin g   in   in cr ea s ed   co m m u n icatio n   o v er h ea d .   T h p e r f o r m an ce   o f   c o u n d is tr ib u tio n   is   lim ited ,   s im ilar   to   Ap r io r i,   as  th is   alg o r ith m   is   b ased   o n   t h f r eq u en item s et  m in i n g   m eth o d .   C o n s eq u en tly ,   it   g en er ates  s u b s tan tial  n u m b er   o f   ca n d id ate  s ets,  m u ch   lik th o s p r o d u ce d   b y   Ap r io r i T h p r o p o s ed   m eth o d   FEDFI   ad d r ess es   th ese  lim i tat io n s   b y   r ed u cin g   th n u m b er   o f   ca n d id ate  item s ets  an d   co m m u n icatio n   p h ases   r eq u ir ed   to   g en e r ate  f r e q u en t   item s ets.  T h is   is   esp ec ially   cr itical  f o r   lar g e   d atasets   wh er co m m u n icatio n   co s ts   ca n   b ec o m e   m aj o r   b o t tlen ec k .   T h r ed u ctio n   in   co m m u n icatio n   r o u n d s   o b s er v e d   in   o u r   ex p er i m en ts   m ir r o r s   s im ilar   im p r o v em en ts   r ep o r ted   in   o th e r   r e s ea r ch   o n   d is tr ib u ted   f r eq u en t item s et  m in in g .   I m p licatio n s   o f   f in d in g s : th s u p er io r   p er f o r m an ce   o f   FEDFI   s u g g ests   th at  it is   a   v iab le  alt er n ativ to   Ap r io r an d   C in   d is tr ib u ted   en v ir o n m en ts .   I ts   ab ilit y   to   m in im ize  b o th   ex ec u tio n   tim e   an d   co m m u n icatio n   Evaluation Warning : The document was created with Spire.PDF for Python.