I AE S In t er na t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.   14 ,   No .   6 Dec em b er   2 0 2 5 ,   p p .   4 8 6 5 ~ 4 8 7 7   I SS N:  2 2 5 2 - 8 9 3 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijai.v 14 .i 6 . p p 4 8 6 5 - 4 8 7 7          4865     J o ur na l ho m ep a g e h ttp : //ij a i . ia esco r e. co m   So lv ing  spa rsity  and sca la bility pro blems  f o r boo recom menda tions  on e - co mm er ce       M uh a m m a d Ichs a nu din 1 ,   B e v ina   Desj wia nd ra   H a nd a ri 1 ,   B a m ba ng   Dwi  Wij a na rk o 2   G a t o t   F a t wa nt o   H er t o no 1   1 D e p a r t me n t   o f   M a t h e m a t i c s ,   F a c u l t y   o f   M a t h e mat i c s   a n d   N a t u r a l   S c i e n c e s,   U n i v e r s i t a s I n d o n e si a ,   D e p o k   C i t y I n d o n e s i a   2 B i n a   N u s a n t a r a   U n i v e r si t y ,   S e m a r a n g ,   I n d o n e s i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ma r   1 2 2 0 2 5   R ev is ed   Oct   27 2 0 2 5   Acc ep ted   No v   8 2 0 2 5       Th is  stu d y   p ro p o se d   a   h iera rc h ica d e n sit y - b a se d   sp a ti a c l u ste rin g   o f   a p p li c a ti o n wit h   n o ise   (HD B S CAN a n d   ra n d o m ize d   sin g u lar  v a lu e   d e c o m p o siti o n   (RS VD c o l lab o r a ti v e   fil terin g   (C F m e th o d   to   o v e rc o m e   sp a rsity   a n d   sc a lab il i ty   p ro b lem s fo b o o k   re c o m m e n d a ti o n s o n   e - c o m m e rc e CF   is  a n   i n fo rm a ti o n   re tri e v a l   sy ste m   th a t   a ss u m e a   u se h a th e   sa m e   in tere st  in   a n   o b jec a o t h e u s e rs  h a v e   in   th e   p a st.  Wh e n   h a n d li n g   larg e   v o l u m e o d a ta,  s p a rsity   p ro b l e m c a n   a rise ,   wh e re   fin d in g   a   sim il a rit y   re latio n   o f   u se r   p re fe re n c e re su l ts  fro m   a   sm a ll   a ss e ss m e n o f   a n   o b jec b y   u se rs.  Th e   sc a lab il it y   is  t h e   i n c re a se d   c o m p u tatio n   o a n   a lg o rit h m   c a u se d   b y   in c re a se d   u se rs  o r   o b jec ts,  wh ic h   m a k e re c o m m e n d a ti o n tak e   lo n g e to   fo rm ,   th e re fo re   m a k in g   th e m   les a c c u ra te.  HD BS CAN   is  a   d e n sity - b a se d   c lu ste rin g   m e th o d   t h a sim p li f ies   th e   h iera rc h ica a rra n g e m e n o f   th e   m o st   sig n ifi c a n t   c lu ste rs  fo e x trac ti o n   to   g ro u p   u se rs  in   t h e   sa m e   c lu ste r.   RS VD   is  a   li n e a d ime n sio n   re d u c ti o n   m e th o d   th a b re a k a   m a tri x   i n t o   th re e   su b - m a tri c e b y   re c o n stru c ti n g   th e   siz e   o th a m a tri x   with o u re m o v in g   it s   d o m in a n p a rt,   e sp e c ially   f o r   c lu ste re su lt   m a tri c e s.  Th e   H DBSCAN - RS VD - CF   m o d e re d u c e d   t h e   ro o m e a n   sq u a re d   e rro r   ( RM S E )   b y   2 1 . 8 3 % ,   b e in g   3 7 9 3 . 7 3   se c o n d fa ste th a n   th e   CF   m o d e l .   It  a lso   p e rfo rm e d   v e ry   we ll   c o m p a re d   to   b o th   R S VD - CF   a n d   HD BS CAN - C F.   K ey w o r d s :   C o llab o r ativ f ilter in g   Hier ar ch ical  d en s ity - b ased   s p atial  clu s ter in g   Scalab ilit y   Sin g u lar   v alu d ec o m p o s itio n   Sp ar s ity   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC  BY - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Gato t Fatwa n to   Her to n o   Dep ar tm en t o f   Ma th em atics,  Facu lty   o f   Ma th e m atics a n d   Na tu r al  Scien ce s ,   Un iv er s itas   I n d o n esia   Po n d o k   C in a,   B eji,   Dep o k   C ity ,   W est J av 1 6 4 2 4 ,   I n d o n esia   E m ail: g ato t - f 1 @ u i.a c. id       1.   I NT RO D UCT I O N   C u r r en tly ,   co m p an ies  ar co m p etin g   to   im p r o v th ei r   s h o p p in g   ex p er ie n ce ,   esp ec ially   in     e - co m m er ce   f o r   b o o k s   s u ch   a s   Am az o n   an d   eBay ,   t o   in c r ea s th p o s s ib ilit y   o f   b u y er   b u y in g   m o r b o o k s .   No wad ay s ,   as  d em an d   an d   v o lu m f o r   u s er s   o f   elec tr o n ic   c o m m er ce   in c r ea s es,  esp ec ially   f o r   b o o k s ,   th d ata  th at  m u s b p r o ce s s ed   in cr ea s es  in   s ize,   an d   cu s to m er   ass e s s m en ts   ar in cr ea s in g ly   ar b it r ar y   in   v ar ian ts   o f   b o o k   r atin g s ,   ca u s in g   s p ar s ity   an d   s ca lab ilit y   [ 1 ] .   Sp a r s ity   is   p r o b lem   in   s ea r ch in g   f o r   r elatio n s h ip   o f   s im ilar ity   b etwe en   u s er   p r ef e r en ce s   d u to   th u s er ' s   lack   o f   ass ess m en o f   an   o b ject  [ 2 ] .   Scalab ilit y   is   th e   in cr ea s in   th co m p u tatio n   o f   an   alg o r ith m   ca u s ed   b y   an   in cr ea s in   th n u m b er   o f   u s er s   o r   o b jects  ( b o o k s ) ,   wh ich   len g th en s   th r ec o m m en d atio n   f o r m atio n   p r o ce s s   [ 3 ] .   T h ese  two   p r o b lem s   ar q u ite  co m m o n   i n   r ec o m m en d atio n   s y s tem s ,   ca u s in g   less   ac cu r ate  an d   m o r b i ased   r ec o m m en d atio n   r esu lts .   B esid es   b o o k   r ec o m m e n d atio n s ,   th er ar m an y   o th er   u s ca s es in   in d u s tr y   th at  u s r ec o m m en d atio n   s y s tem s .   T h u s ca s in clu d es  m o v ie  r ec o m m e n d atio n   [ 4 ] [ 1 4 ] ,   f o o d   r ec o m m e n d ati o n s   [ 1 5 ] ,   m e d ical  p u r p o s es  s u ch   as  d ia b etes  d i ag n o s is   [ 1 6 ] ,   m u s ic  r ec o m m en d atio n s ,   a n d   m ar k et   d ec is io n   f o r   m er g er   an d   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell ,   Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 4 8 6 5 - 4 8 7 7   4866   ac q u is itio n   co m p a n y   [ 1 7 ] .   A ll  th ese  r ec o m m en d atio n   s y s tem s   u s ca s es  s h o p r o m is in   h elp in g   f o r   d ec is io n   m ak in g ,   d iag n o s is   an d   in ter est  p r ef er e n ce s .   I n   th i s   r esear ch   f o cu s ,   b o o k   r ec o m m en d atio n   u s ca s e   will  b d o n u s in g   o p en   s o u r c es  d ata  f r o m   Ka g g le    Go o d R ea d s ,   to   s h o th p er f o r m an c o f   lim ited   n o v elty   m eth o d s   p e r f o r m an ce   ca lled   h ier ar ch ical   d en s ity - b ased   s p atial  clu s ter in g   o f   ap p lic atio n s   with   n o is e   ( HDBS C AN ) - r an d o m ized   s in g u lar   v alu d ec o m p o s itio n   ( R SVD ) - co llab o r ativ f ilter in g   ( C F)  m o d el  in   co p in g   with   s p ar s ity   a n d   s ca la b ilit y   p r o b lem .   r ec o m m en d atio n   s y s tem   is   m o d el  th at  p r o v id es  p r e d icted   r ec o m m e n d atio n   f o r   a   p r o d u ct' s   p r ef er en ce s   to   u s er s .   I n   th is   c ase,   th p r o d u ct  is   b o o k ,   an d   th u s er s   will  b th cu s to m er   b u y i n g   th at  b o o k .   So m r elate d   wo r k s   s u c h   as  ef f icien d ee p   m atr i x   f ac t o r iz atio n   ( E DM F)  with   r ev iew   f ea tu r lear n i n g   f o r   in d u s tr ial  r ec o m m e n d er   s y s tem   [ 1 8 ] ,   co n f id en ce - awa r e   r ec o m m e n d er   m o d el  ( C AR M)   v ia  r ev iew  r ep r esen tatio n   lear n i n g   an d   h is to r ical  r atin g   b eh av i o r   in   t h o n lin p latf o r m s   [ 1 9 ] ,   a n d   m u lti - p er s p ec tiv e   s o cial  r ec o m m en d atio n   m eth o d   with   g r ap h   r ep r esen tatio n   le ar n in g   [ 2 0 ]   ar d is cu s s ed   h er e.   T h r ec o m m e n d atio n   s y s tem   is   ca teg o r ized   in to   two   ty p es  o f   f ilter in g co n ten t - b ased   an d   CF C o n ten t - b ased   f ilter in g   f o c u s es  o n   u s er   p r o f ile  p r ef er e n ce s   ( e. g . ,   b o o k s )   a n d   item   d escr ip ti o n s   to   r ec o m m en d   item s   th at  ar m o s co r r elate d   with   o th e r   item s   th at  u s er s   h av h ig h ly   r ated   in   th p a s t.  Me an wh ile,   CF   co n s id er s   v ar iatio n s   in   cr iter ia  s u ch   as  u s er   p r ef er en ce s ,   ac tiv ities ,   an d   h ab its ,   th en   r ec o m m en d s   an   o b ject  b ased   o n   s im ilar ity   r elatio n s   w ith   o th er   u s er s   [ 4 ] .   CF   is   d iv id ed   in to   two   ca teg o r ies:   m em o r y - b ased   a n d   m o d el - b ased .   Me m o r y - b ased   is   h eu r is tic  ap p r o ac h ,   s u ch   as  co r r elatio n   an aly s is   an d   v ec to r   s im ilar ity ,   th at  lo o k s   f o r   u s er   p r o f iles   th at  r esem b le  ac tiv u s er   p r o f iles   s o   th at  r ec o m m en d atio n   ca n   b d eter m i n ed .   T h m o d el - b ased   ap p r o ac h   u s es  lear n in g   m o d el   b y   u tili zin g   d ata  co n tain in g   r ec o m m en d atio n   ass ess m en p ar am eter s ,   wh ich   ar th e n   ap p lied   to   p r o v id e   r ec o m m en d atio n   p r ed ictio n s   [ 5 ] .   Me m o r y - b ased   a n d   m o d el - b ased   f ilter in g   m eth o d s   ca n   b e   co m b i n ed   to   g en er ate  r ec o m m en d atio n s   b a s ed   o n   u s er   r atin g   p r e d ictio n s   f o r   b o o k s .   I n   th is   ca s e,   m em o r y - b ased   f ilter in g   ca lcu lates  th weig h tin g   o f   co r r elatio n   v alu b etwe en   u s er s   u s in g   Pear s o n   co r r elatio n   weig h tin g ,   a n d   m o d el - b ased   f ilter in g   m o d if ie s   th d ataset  with   t h HDBS C AN  an d   R SVD  m o d els.  T h i s   co m b in atio n   will  esti m ate  th r atin g   o f   a   b o o k   t h at  u s er s   ar ex p ec te d   to   ap p r ec iate.   W p r o p o s m eth o d   o f   b o o k   r ec o m m en d atio n   s y s tem   th at  s o lv es  s p ar s ity   an d   s ca lab ili ty   p r o b lem s   in   C ap p lied   to   th elec tr o n ic   b o o k   tr ad in g   d atasets   an d   c o n tr ib u tes  to   CF   liter ac y   in   th e   f o r m   o f   HDBS C A N   an d   R SVD.   T h p r o p o s ed   HDBS C AN - R SVD - C h y b r id   m o d el  is   th f ir s ap p r o ac h   th at  in teg r ates  HDBS C AN  clu s ter in g   an d   R SVD  with in   CF   f r am ew o r k   to   ad d r ess   s ca lab ilit y   an d   s p ar s ity   is s u es  in     lar g e - s ca le  r ec o m m en d er   s y s tem s .   T h is   r esear ch   also   aim s   t o   d eter m i n th e   p er f o r m a n ce   o f   HDBS C AN  an d   R SVD  in   C wh en   co m p ar ed   to   HDBS C AN - C F,  R SV D - C F ,   an d   s in g le   C F.  T h e   m o d el' s   p er f o r m a n ce   will b ev alu ated   u s in g   d en s ity - b ased   clu s ter   v alid atio n   ( DB C V)   an d   r o o m ea n   s q u ar ed   er r o r   ( R MSE )   to   d eter m in e   th o p tim al  n u m b e r   o f   clu s ter s   f r o m   th e   HDBS C A m eth o d .   T h is   r esear ch   u s es  d atas et  p r o v i d ed   b y   th e   Kag g le  s ite  [ 2 1 ]   wh ic h   co n s is ts   o f   b o o k   in f o r m atio n   an d   r atin g s   f r o m   th Go o d R ea d s   d ataset.     T h r est  o f   th p ap er   is   d iv id ed   in to   th f o llo win g   s ec tio n s s ec tio n   2   p r o v id es  th liter atu r r ev iew.   Sectio n   3   p r esen ts   th p r o p o s ed   m eth o d .   S ec tio n   4   p r esen ts   th r esu lts   an d   d is cu s s io n .   Fin a lly ,   th p ap e r   en d s   with   co n clu s io n   is   s ec tio n   5 .       2.   L I T E R AT U RE   R E VI E W   T h r esear ch   o f   r ec o m m en d atio n   s y s tem   is   q u ite  b r o a d .   T o   ea s ily   r elate   to   c u r r en t   s tu d y ,   th e   liter atu r will  th en   b e   g r o u p e d   at  t h eir   f o cu s   f o r   o v er co m i n g   p r o b lem s   in   r ec o m m en d ati o n   s y s tem .   T h er e   is   r esear ch   th at  f o cu s es  o n   o v er c o m in g   s p ar s ity ,   s u c h   as  [ 8 ] ,   [ 9 ] [ 1 5 ] .   Oth er   r esear ch   f o cu s es  o n   im p r o v i n g   CF   p er f o r m an ce   b y   en h an cin g   th s im ilar ity   m eth o d ,   s u ch   as  [ 1 0 ] [ 1 3 ] ,   [ 2 2 ] ,   [ 2 3 ] .   T h er i s   also   r esear ch   th at   f o cu s es  o n   u s in g   clu s ter in g   o r   m atr ix   d ec o m p o s itio n   m eth o d   to   im p r o v CF   p er f o r m an ce ,   s u ch   as    [ 1 ] ,   [ 1 4 ] ,   [ 1 7 ] .   Fin ally ,   th e r is   also   s o m r esear ch   f o cu s ed   o n   im p r o v in g   t h co n t r ib u tio n   to   CF   [ 1 8 ] [ 2 0 ] .   Yet,   th r esear c h   jo u r n e y   to   o v er co m e   is s u es  o f   s p ar s ity   an d   s ca lab ilit y   u s in g   clu s ter in g   ( g r o u p in g   m eth o d )   o r   m atr ix   d ec o m p o s itio n   in   CF   m o d els  was  u n d er tak en   in   ea r l y   2 0 1 8 .   T h o s e   s tu d ies  s h o wed   a   p r o m is in g   r esu lt  in   o v er c o m in g   th s p a r s ity   an d   s ca lab ilit y   i s s u es  r eg ar d in g   th CF   r ec o m m en d atio n   s y s tem s   m o d el.   I n itial  s tu d ies  s u ch   a s   th k - m ea n s   clu s ter   an d   SVD  d im en s io n   r ed u ctio n   m eth o d s   ar u s ed   o n   a   co m b in ed   m em o r y - m o d el - b as ed   CF   ( h y b r id )   [ 4 ] .   I n   th is   r esear ch ,   th co s in s im ilar ity   m eth o d   ca lcu lates  d ata  s im ilar ity   ca lcu latio n s   f o r   Mo v ieL en s   1 a n d   Mo v ieL e n s   1 0 f ilm   d ata .   T h is   r esear c h   h as  an   in c r ea s ed   R MSE   o f   ± 2 0 c o m p ar e d   t o   m em o r y - b ased   CF   with   th k - n ea r est  n ei g h b o r s   ( k - NN)   m eth o d .   T h e   o th er   h y b r id   CF   m o d el  in   2 0 1 8   u s es  th o n to lo g y   m et h o d   ap p r o ac h   a n d   s in g u lar   v alu e   d ec o m p o s itio n   ( SVD)   d im en s io n   r ed u ctio n ,   a p p lied   to   Mo v ieL e n s   an d   Yah o o !   W eb s co p [ 5 ] T h e   r esu lts   s h o w   th at  th e   p r o p o s ed   m eth o d   o v e r co m es  s p ar s ity   an d   s ca lab ilit y   p r o b lem s   in   f ilm   d ata.   T h r esu lts   f r o m   ap p ly in g   SVD,   ex p ec tatio n   m ax im izatio n ,   an d   o n to lo g y   p r o v id m ea n   a b s o lu te  er r o r   ( MA E )   ± 1 3 b ett er   p er f o r m an ce   th an   CF   with   Pear s o n   n ea r est.  I n   2 0 2 0 ,   b o t h   th DB SC AN  clu s ter in g   ap p r o ac h   a n d   lin ea r   d is cr im in an an aly s is   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif  I n tell     I SS N:  2 2 5 2 - 8 9 3 8       S o lvin g   s p a r s ity  a n d   s ca la b ilit p r o b lems fo r   b o o r ec o mme n d a tio n s   o n   …  ( Mu h a mma d   I c h s a n u d in )   4867   ( L DA)   d im en s io n   r e d u ctio n   w er e   u s ed   f o r   m em o r y - m o d e l - b ased   CF   o n   clo u d   s y s tem s   to   c r ea te  a   clo u d   r ec o m m en d er   s y s tem   with   th e   Mo v ieL en s   d ataset  [ 6 ] .   H y b r id   CF   b y   co m b in in g   th cl u s ter in g   m eth o d   with   Slo p On alg o r ith m   is   u s ed   t o   en h a n ce   th e   p r e d ictio n   o f   it em   r atin g s   b y   k - m ea n s   u s in g   th Mo v ieL en s   1 d ataset  [ 7 ] .   B ased   o n   th ex c ellen p er f o r m a n ce   o f   th h y b r id   m eth o d s   f r o m   p r ev io u s   r esear ch ,   m eth o d   ca lled   HDBS C AN - R SVD - C F   is   in tr o d u ce d   to   ad d r ess   s p ar s ity   an d   s ca lab ilit y   is s u es,  in clu d in g   HDBS C AN,   wh ich   is   in s p ir ed   b y   DB SC A [ 6 ]   an d   R SVD  th at  is   in s p ir ed   b y   SVD  in   [ 4 ] ,   [ 5 ] .       3.   M E T H O D   T h p r o p o s ed   m eth o d ,   w h ich   co m b in es  HDBS C AN  an d   R SVD  m eth o d s ,   will  p r o v id b o o k   r ec o m m en d atio n s   to   b u y e r s   b y   f ir s ap p ly in g   th H DB SC AN  clu s ter in g   tech n iq u t o   g r o u p   d ata  with   p ar am eter   o p tim izatio n   b y   DB C V,   f o llo wed   b y   th R SVD  m eth o d   to   r ed u ce   th lar g d ata  in to   s m aller   f o r m s   d u to   f u s in g   its   d o m in an t te r m s   o f   f ea tu r es.  T h Pear s o n   co r r elatio n   m eth o d   is   ap p lied   to   th r ed u ce d   m atr ix .   T h r esu lts   will  r ev ea l   le v el  o f   s im ilar ity   b etwe en   b u y er s   as  b asis   f o r   r ec o m m e n d in g   b o o k   to   b u y er s .   T h m o d el  w o r k f l o is   s h o wn   in   Fig u r 1 .           Fig u r 1 .   HDBS C AN - R SVD - C r ec o m m en d atio n   s y s tem   m o d el  wo r k f lo w       3 . 1 .     Da t a   s et   T h d ataset  is   f r o m   Kag g le  f o r   elec tr o n ic  b o o k   tr ad in g   [ 2 1 ] .   Data   co llectio n   is   f r o m   2 0 0 8   to   2 0 2 3   an d   d iv id e d   in to   two   p ar ts th d ataset  with   th d et ails   o f   b o o k   wh ich   co n tain s   1 9   co lu m n s     ( id ,   n am e ,   au th o r s ,   C o u n ts Of R ev iew,   d escr ip tio n ,   I SB N,   l a n g u ag e ,   Pu b lis h Day ,   Pu b lis h Mo n th ,   Pu b lis h Yea r ,   Pu b lis h er ,   R atin g ,   R atin g Dis t 1 ,   R atin g Dis t2 ,   R atin g Dis t3 ,   R atin g Dis t4 ,   R atin g Dis t5 ,   R a tin g Dis tTo tal,   an d   p ag esNu m b er )   th at  co n tain s   ± 5 , 0 0 0 , 0 0 0   e n tr ies,  an d   s ec o n d   s et  co n tain in g   d etailed   b o o k   r atin g s   b y   u s er s   ( i d ,   n am e,   an d   r atin g )   th at  c o n tain s   ± 1 , 1 0 0   u s er s   with   u s er   r atin g s   o f   m o r th a n   3 6 0 , 0 0 0   b o o k s .   Fr o m   th ese  two   d atasets ,   d ata  p r ep r o ce s s i n g   is   ap p lied ,   s u ch   as d r o p p i n g   u n n ec ess ar y   v alu es ( e. g . ,   n u l l d ata  an d   u n k n o wn   s y m b o ls ) ,   h ar m o n ize   u p p er -   a n d   lo wer - ca s letter s ,   an d   a d ju s tin g   tab le  co lu m n s   with   id   a n d   n am e   co lu m n s   as  th k ey ,   r esu lts   in   u s er - b o o k s   m atr ix   with   th u s er   I a s   t h in d ex ,   co lu m n s   f o r   th b o o k   n am es,  an d   r atin g   as  th co n ten ts   o f   th m atr ix .   T h m atr ix   h as  3 3 3 6   u s er s   as  r o ws  an d   7 5 9 1   co lu m n s .   T h d ata  with   th v alu e   n o t a   n u m b er   ( NaN )   is   r ep lace d   b y   ze r o   as a   n e u tr al  r atin g   n u m b er .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell ,   Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 4 8 6 5 - 4 8 7 7   4868   3 . 2 .     H ier a rc hica l dens it y - ba s ed  s pa t ia l c lu s t er ing   o f   a pp lica t io ns   wit h no is e   T h e   c l u s t er i n g   o f   t h u s er - b o o k   m a t r ix   u s e d   H D B S C A N ,   w h e r t h m o s t   o p t i m a c l u s t er i n g   p a r am e t e r s   w er e   e v a lu a t ed   b y   h i er a r c h i c a l   h y p e r p a r am e t e r   t u n i n g   m e th o d ,   w h e r e   p a r am e t e r s   w er e   o p t i m iz e d   i n   s e q u e n c e   u s i n g   D B C V   e v a l u a t io n .   T h H D B S C A N   m o d e w o r k f lo w   i s   i n   F i g u r 2 .   A c c o r d i n g   to   t h H D B S C A N   d o c u m e n ta t i o n   b y   M c I n n e s   e a l [ 2 4 ] ,   th e   t wo   p r i m a r y   p ar a m e t e r s   t h a s i g n i f i ca n t ly   a f f e c t   t h e   o p t im i z a t i o n   o f   H D B S C A N   a r e   m i n _ c l u s t e r _ s i z e   ( th e   m in i m u m   n u m b e r   f o r   t h f o r m a t i o n   o f   a   c l u s t er )   a n d   m i n _ s am p l e s   ( t h e   m in i m u m   p o i n t   in   th e   co r e   p o in t   en v ir o n m e n t )   [ 2 4 ] .   T h e   m i n _ c l u s t e r _ s i z e   h e lp s   to   s et   m in i m u m   n u m b e r   a s   th m in i m u m   n u m b e r   o f   a   g r o u p   t o   b c r e a te d .   B e c a u s e   th m o d e w o r k s   i n   a   d e n s i t y   ap p r o a ch   ( n e i g h b o r h o o d ) ,   c h o o s i n g   t h r ig h t   m in _ c lu s t e r _ s i z e   w i l d e f in e   h o w   w e l t h g r o u p   i s   t o   b f o r m ed ,   e s p e c i a l ly   wh en   f a c in g   s p ar s e   d a ta   l i k a n   e - c o m m e r c b o o k .   I f   t h e   m i n _ c l u s t er _ s i z e   i s   s e t   to   b e   a   h i g h e r   v a l u e ,   t h o u t co m e   w i l b s m a l le r   n u m b e r   o f   g r o u p s ,   w h ic h   i n   s p a r s e   d a t m i g h t   le a d   t o   b ia s   g r o u p i n g .   T h e   m in _ s am p le s   v a lu e   i s   th en   u s e d   to   c a lc u l a t t h d i s t an c b e t w e en   a   p o in t   ( d a t a)   to   i t s   n e ar e s t   n e ig h b o r .   I n   o th e r   te r m s ,   m i n _ s a m p le s   t e l l s   h o w   c o n s er v a t iv e   th e   c l u s t e r in g   w i l b e .   T h h ig h er   t h e   v a l u o f   m in _ s am p l e ,   th e   m o r e   co n s e r v a t iv e   th e   c l u s t e r i n g ,   wh i c h   c an   r e s u l t   i n   a n   in c r e a s in g   n u m b e r   o f   o u t l i e r   p o in t s   ( d a ta )   th a t   a r e   f la g g e d   a s   - 1   in   t h e   H D B S C A N   r e s u l t .   T h e r e f o r e ,   i t   i s   v er y   n e c e s s ar y   to   p ay   a t te n t io n   t o   t h s e le c t i o n   o f   th e s e   t w o   h y p er p ar a m e t e r s   t o   a v o i d   a   b i a s   a n d   v er y   c o n s e r v a t i v e   r e s u l t   o f   th e   H D B S C A N   r e s u l t.           Fig u r 2 .   HDBS C AN  m o d el  wo r k f lo w       I n   HDBS C A N,   clu s ter s   ar d iv id ed   in to   two   g r o u p s n o is an d   clu s ter s   b ased   o n   d en s ity   f r o m   t h e   u s er - b o o k s   m atr ix .   clu s ter   with   v alu o f   - 1   r e p r esen ts   clu s ter   with   m em b er s   th at  a r co n s id er ed   n o is e   [ 2 4 ] .   T h cl u s ter   o f   v alu - 1   ca n   b ca lled   g r o u p   o f   u s er s   th at  h as  lo s im ilar ity   o f   in ter est  f r o m   o n t o   an o th er .   Ho wev er ,   in   t h is   r esear ch ,   th e   d ata  f r o m   th n o is clu s ter   is   s till   co n s id er ed   wh en   weig h tin g   th e   p r ed icted   r atin g   o f   b o o k   r ec o m m en d e d   to   ac tiv u s er s   s in ce   th clu s ter   c o n tain s   h alf   m o r d ata.   I is   also   a   v alu ab le  s o u r ce   to   s ee   h o w ell  th HDBS C AN - R SVD - C F   h elp s   th e   HDBS C AN  m o d el  to   c o r r elate   u s er s   with   lo s im ilar ity   o f   in ter est in   th k in d   o f   b o o k s .   T h clu s ter in g   p r o c ess   r ep lace s   em p ty   v alu es  with   ze r o   v alu as  n eu tr al  v alu f r o m   th d ata  d is tr ib u tio n .   T h is   s tep   is   im p o r tan s in ce   th e   HDBS C AN  a lg o r ith m   ca n n o t   weig h cl u s ter s   with   g ap s   in   th e   d ata,   esp ec ially   in   th Py th o n   p r o g r am   with   th e   HDBS C AN  lib r ar y   [ 2 5 ] ,   an d   r e g ar d i n g   HDBS C AN  [ 2 4 ] .     T h DB C we ig h s   th p ar am eter s   b ased   o n   th d en s ity   o f   th HDBS C AN  m o d el  an d   g iv es  it  s co r f r o m     - 1   to   1 ,   wh ich   is   ap p r o p r iate  to   th g o o d n ess   o f   th clu s ter   r esu lt.  T h h ig h er   th DB C s co r e,   th b etter   th e   clu s ter in g   r esu lt.  C lu s ter in g   r esu lts   in   g r o u p s   o f   u s er s   with   s im ilar   b o o k   in ter e s ts ,   allo win g   th r ec o m m en d atio n   s y s tem   to   r e d u ce   co m p u tatio n   b y   c o n s id er in g   o n l y   u s er s   with in   th s am clu s ter   in s tead   o f   all  u s er s .   Mo r d etails o n   DB C ca n   b f o u n d   in   [ 2 6 ] .     3 . 3 .     Ra nd o m ized  s ing ula v a lue dec o m po s it io n   T h p u r p o s o f   R SVD  is   f o r   m atr ix   r ed u ctio n ,   wh e r co m p ar is o n   will  b ca r r ied   o u to   s elec th e   b est  n - co m p o n en h y p er p ar am eter s .   T h is   n - co m p o n en will  af f ec th ac cu r ac y   o f   R MSE   an d   r u n   tim o f   th e   m o d el.   T h e   R SVD  m o d el  wo r k f lo is   in   Fig u r 3 .   T h p r o c ess   is   a s   f o llo ws:   i)   R SVD  i s   r an d o m ized   m eth o d   to   r ec o n s tr u ct  h ig h - d im en s io n al  m atr ices in to   s m aller   m atr ices,  f o llo wed   b y   th e   SVD  p r o ce s s ,   wh ich   s p lits   m atr ix   in to   th r ee   m at r ix   co m p o n e n ts .   T h e   r esu lt  is   th r ee   m atr ix   co m p o n en ts   f r o m   th m ain   m atr ix   A m×n ,   s o   th at  A m×n U ×  k   ×  Σ  k   ×  k   ×  T k   ×  n ,   wh er U   a n d   V   ar e   o r th o n o r m al  m atr ices,  a n d   Σ   is   d iag o n al  a n d   n o n - n eg ativ m atr ix .     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif  I n tell     I SS N:  2 2 5 2 - 8 9 3 8       S o lvin g   s p a r s ity  a n d   s ca la b ilit p r o b lems fo r   b o o r ec o mme n d a tio n s   o n   …  ( Mu h a mma d   I c h s a n u d in )   4869   ii)   T h R SVD  p r o ce s s   ca n   b ap p lied   if   m atr ix   A   h as  lo w - r an k   s tr u ctu r e,   an d   it  is   v er y   ef f icien m atr ix   d ec o m p o s itio n   alg o r ith m   b ase d   o n   r an d o m   s am p lin g   th eo r y .   I is   also   ca lled   th r a n d o m iz ed   n u m e r ical   m eth o d   [ 2 7 ] .   T h v alu es f o r   Σ ,   in d icate s   th eig en v alu es f r o m   m atr ix   A.   iii)   T h m atr ix   b u ild s   r ec o m m en d atio n   s y s tem ,   an d   th m a tr ix   d im en s io n s   ar r e d u ce d   a cc o r d in g   t o   th e   n u m b er   o f   n - co m p o n e n t v alu e s   ( s in g u lar   v alu es)  s elec ted   f r o m   th v alu es o f   Σ ,   s o   th r ec o m m en d atio n   s y s tem   d o es n o t u s to o   m u ch   wo r k   in   p r o g r ess   [ 2 8 ] .   iv )   C o n s id er   th m atr ix   A m×n   U m×k   ×  Σ k ×k  ×  V T k ×n .   T h en ,   f o r   s elec tio n   o f   th n u m b e r   o f   n - c o m p o n en t   v alu es  r ep r esen te d   as  i n   Σ k ×k  wh er t   < k   an d   k   r ep r esen ts   th r an k   v alu e   o f   th e   m atr ix   A m×n T h er ef o r e,   th n - co m p o n e n ( t )   v alu is   b etwe en   0 r an k   o f   th m atr ix ,   o r   th s m allest  r o w/co lu m n   s ize   in   th m atr ix   A m×n .   T h r an k   o f   m atr ix   A   is   th e   n u m b er   o f   lin ea r ly   in d ep en d en co l u m n   s p ac es.    T h m atr ix   U m×k   will  ex p er ien ce   a   d im en s io n   r e d u ctio n ,   f r o m   U m×k   b ec o m es  th r ed u ce d   m at r ix   U m×t s ee   Fig u r 4 .   v)   I n   th e   r e d u ce d   m atr ix   U t h r o ws  r ep r esen u s er s   with in   t h s am clu s ter ,   wh ile  th e   co lu m n s   r ep r esen t   an   ag g r e g atio n   o f   b o o k s ,   f o cu s in g   o n ly   o n   th m o s t d o m in a n t p ar ts .   T h elem e n u p, t   r ep r esen ts   th b o o k   r atin g   b y   u s er   p   f o r   t h t - th   a g g r eg ated   b o o k s .           Fig u r 3 .   R SVD  m o d el  wo r k f l o w           Fig u r 4 .   I ll u s tr atio n   o f   t h r e d u ce d   m atr i x   U       T h d eter m in atio n   o f   p ar am et er s   in v o lv es  th n - co m p o n en t ,   wh ich   is   s et  to   5 0 %,  6 0 t o   1 0 0 o f   th r an k   f r o m   ea c h   clu s ter ed   u s er - b o o k   m atr ix .   T h is   co r r esp o n d s   to   th e   ac tiv u s er s   clu s ter .   T h e     n - co m p o n en t   r etr iev al   is   ap p li ed   o n l y   wh e n   th er ar e   at  least  1 0   u s er s   in   a   clu s ter o th e r wis e,   all  u s er s   in   th e   clu s ter   ar in clu d ed .     3 . 4 .     Sp litt ing   d a t a   T h tr ain in g   an d   test in g   d ata  d iv is io n   was  ca r r ied   o u with   an   8 0 :2 0   d iv is io n   s eq u en tia lly   o n   th u s er - b o o k s   m atr ix .   User s   in   t h test in g   d ata   ar ca lled   ac ti v u s er s ,   as  th e y   will  r ec eiv e   r ec o m m e n d atio n s   f r o m   t h m o d el.   Me an wh ile,   t h tr ain in g   d ata  c o n s is ts   o f   in ac tiv u s er s   wh o   g en er ate  p r e d icted   b o o k   r atin g s .   T h p r o ce s s   was c ar r ied   o u t f i v tim es seq u en tially ,   o r   5 - f o ld   cr o s s - v alid atio n .     3 . 5 .     P e a rso co rr ela t io n c o e f f icient   a nd   ind ex   equa liza t i o n   T h e   P e ar s o n   c o r r e l a t io n   c o e f f i c i e n t   ( P C C )   m e t h o d   i s   a p p li e d   t o   u s e r s   in   t h e   i n d ex   ( r o w )   o f   t h m a t r i x   U   t o   o b t a in   th u s er s   s i m i l ar i t y   m a t r i x .   B a s ed   o n   t h i s   m a tr i x ,   th e   P ea r s o n   c o r r e l a t i o n   m e th o d   i s   a l s o   a p p l i e d   b e t we e n   a c t i v u s e r s   ( u s er s   f r o m   te s t i n g   d a t a)   a n d   in a c t iv e   u s e r s   ( tr a i n in g   d a t a )   t o   g en e r a t e   th i n d ex e d   s i m i la r i ty   m a t r ix .   F i n a l l y ,   a c t i v e   u s e r s   c an   b e   i d e n t if i e d   f r o m   th i s   m a t r i x   t o   h a v e   b o o k   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell ,   Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 4 8 6 5 - 4 8 7 7   4870   r e c o m m en d a t io n s   l a t e r   th a a li g n   w i t h   t h e i r   i n t er e s t s   th r o u g h   th p r e d i c t ed   b o o k   r a t i n g s .   T h i n i t i a p r o c e s s   o f   e s t a b l i s h i n g   t h e   u s e r s   s i m i l a r i t y   m a t r i x   u s e s   t h e   r e d u c ed   m a t r ic e s   U   o n   a   g i v en   c lu s t e r   c r e a te d   b y   t h R S V D   p r o c e s s .   U s e   P C C   d e f in e d   in   ( 1 )   b e t w e en   a c t iv e   u s e r   ( u )   an d   an o th e r   u s e r   ( u )   f r o m   t h e   s a m e   c l u s t er   a s   f o l lo w s :     PC C ( u, u ' ) = ( r ,i - ̅ )( r ,i - ̅ ) i I ( r u, i - ̅ ) 2 i I × ( r ,i - ̅ ) 2 i I   ( 1 )     W h e r e   r u, i   an d   r u' , i   T h e   b o o k   r a t in g   g iv e n   b y   t wo   u s e r s   u   an d   u'   t o   t h e   i - t h   b o o k ,   c o r r e s p o n d i n g l y .     T h e   ̅   a n d   ̅   d en o t e s   th e   a v er a g e   b o o k   r a t in g   b y   u s e r s   u   an d   u' ,   a n d     =   I u   ∩  I u'   d en o t e s   th e   b o o k s   r a ted   b y   u s e r   u   an d   u’ ,   r e s p e c t iv el y .   T h v a l u PC C ( u, u ' )     [ - 1 , 1 ]   s h o w s   t h e   s im i l a r i t y   v a l u b e t w e en   u s e r s     u   an d   u c o r r e s p o n d in g ly .   W h e n   t h v a lu o f   P C C   i s   c l o s e   t o   1   o r   - 1 ,   t h u s e r s   s h o a   h ig h   p o s i t i v e   o r   n e g a t iv e   c o r r e l a t io n .   Af ter   o b tain in g   th u s er s   s i m ilar ity   m atr ix ,   th e   in d ex   eq u aliza tio n   p r o ce s s   eq u ates  th u s er ' s   "I D"   in d ex   f r o m   th u s er   s im ilar ity   m atr ix   with   th tr ain in g   d ata  with   th s am in d ex   ( th u s er ' s   "I D") .   T h is   p r o ce s s   r em o v es  r o ws  f r o m   th u s er   "I Ds"  n o t   in   th tr ai n in g   d ata  a n d   will  n o a p p ea r   in   th r esu lts .   I is   im p o r tan n o to   d elete   th u s er   "I D"  in   th m atr ix   co lu m n   b ec au s th is   co lu m n ,   wh ich   s till   co n tain s   th u s er   "I D"  f r o m   th e   test in g   d ata,   will  b u s ed   as  r e f er en ce   f o r   i n ac tiv u s er s   with   s im ilar ity   t o   ac tiv u s er s   th at   will r ec eiv r ec o m m en d atio n s .     3 . 6 .     Sim ila ri t y   t hresh o ld   T h s im ilar ity   th r esh o ld   will  p r o v id e   lis o f   p e o p le  with   s im ilar   in ter ests   o r   n o t.   Af ter   g ettin g   th e   in d ex ed   u s er s '   s im ilar ity   m atr ix ,   th PC C   v alu will  b e   s et  with   th r esh o ld   to   d ete r m in if   th e   u s er   h as  a   v alu ab o v th lim it,  in   wh ic h   ca s it  m atch es  ac tiv u s er s .   T h m atr ix   is   ca lled   th in d ex ed   u s er s   s im ilar ity   th r esh o ld   m atr ix .   E s tab lis h in g   s im ilar ity   v alu th r esh o ld   is   im p o r tan in   in c r ea s in g   p r e d ictio n   ac cu r ac y   f o r   an   ac tiv u s er .   T h h ig h er   th r estrictio n   v alu e,   th h ig h e r   th ac cu r ac y   [ 2 9 ] .     3 . 7 .     B o o k   r a t ing   predict io n   T h p r ed ictio n s   f o r   ac tiv u s e r s   u tili ze   th r ee   m ain   m atr ices:  th u s er   s im ilar ity ,   th ac tiv u s er - b o o k ,   an d   th in ac tiv u s er - b o o k   m atr ix .   T h p r ed ictio n   p r o ce s s   is   ca r r ied   o u t   iter ativ ely ,   o n b y   o n e ,   f o r   ea c h   ac tiv u s er   o n   test in g   d ata  u s in g   ( 2 ) .     r ̂ a, i = ̅ + ( P C C a, u × | r u, i - ̅ | ) n u P C C a, u n u     ( 2 )     W h er ̂ ,   is   th p r ed icted   r atin g   o f   th i - t h   b o o k   b y   th a - th   a ctiv u s er ,   ̅   is   th av er ag r ati n g   o f   th b o o k   r ated   b y   t h a - th   ac tiv u s er ,   P C C a, u   is   th Pear s o n   co r r elatio n   ass ess m en o f   th a - th   ac tiv u s er   to   t h u - th   in ac tiv u s er ,   r u, i   is   th as s ess m e n b y   th u - th   in ac tiv u s er   o f   th i - th   b o o k ,   a n d   ̅   is   th av e r ag r atin g   o f   th b o o k   f r o m   u - th   in ac tiv e   u s er s   [ 3 0 ] .   Af ter   o b tain i n g   t h p r e d icted   v alu es,  th e   av er ag v alu es  will  b e   ca lcu lated   to   d eter m i n th R MSE   o f   th m o d el.       4.   RE SU L T S AN D I SCU SS I O N   W p r esen th r esu lts   an d   d i s cu s s io n   o f   th im p lem e n tatio n   o f   th e   HDBS C A N - R S VD - C m o d el.   T h R MSE   v alu es  ar th a v e r ag o f   f iv q u in tile  r esu lts   f r o m   th m o d el' s   r atin g   p r e d ictio n s   f o r   ac tiv u s er s ,   co m p ar ed   to   th ac t u al  b o o k   r atin g s   th ey   h av r ated .   T h m o d el  r ec o r d s   th r u n n in g   tim v alu es a f ter   f o r m in g   th u s er - b o o k s   m atr ix   a n d   d iv i d in g   th d ataset  in to   f iv q u in t iles .   T h im p lem en tatio n   o f   H DB S C AN  s elec ts   s ev er al  i m p o r tan p ar a m eter s   in   th f o r m   o f   m in _ clu s ter _ s ize  an d   m i n _ s am p les  to   o b tain   clu s ter ed   d ata  [ 2 4 ] .   T h p r o ce s s   in v o lv es  h ier a r ch ical   h y p er p ar am eter   t u n in g   m eth o d ,   wh er e   p ar am eter s   wer e   o p ti m ized   s eq u en tially   r ath er   t h an   s im u ltan eo u s ly ,   to   d eter m in th b est  m in _ clu s ter _ s ize   p ar am eter   v alu s ee   T ab le  1   an d   th b est  m in _ s am p l es  p ar am eter   v alu e   s h o ws in   T ab le  2 .   T h q u ality   o f   clu s ter in g   r esu lts   is   ass e s s e d   b y   DB C V.   Acc o r d in g   to   th DB C V,   th v alu clo s er   to   1   is   b etter .   T h HDBS C AN  p ar am eter   is   s et  with   a   v alu o f   m in _ clu s ter _ s ize  o f   2   an d   m in _ s am p les  o f   1 .   I n   th p r o ce s s ,   th er is   a   clu s ter   with   th v alu e   o f   - 1 ,   in d icatin g   d ata  co n s id er ed   as   n o is e,   wh ich   is   s till   in clu d ed   in   p r ed ictin g   r atin g   v al u e s   f o r   ac tiv e   u s er s .     T h r esu lt o f   t h is   s tag is   clu s ter ed   u s er - b o o k   m atr i x .   Min _ clu s ter _ s ize  is   th m in im u m   n u m b er   f o r   th f o r m ati o n   o f   clu s ter ,   wh er th v alu is   an   in teg er   in   th i n ter v al  o f   [ 2 ,   in f ) .   W h ile  th p r o ce s s   o f   f in e   tu n in g   th e   m in _ clu s ter _ s ize,   th m in _ s am p les  is   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif  I n tell     I SS N:  2 2 5 2 - 8 9 3 8       S o lvin g   s p a r s ity  a n d   s ca la b ilit p r o b lems fo r   b o o r ec o mme n d a tio n s   o n   …  ( Mu h a mma d   I c h s a n u d in )   4871   s et  to   d ef a u lt,  wh ich ,   in   th e   d o cu m en tatio n ,   will  b e   th s am e   v alu e   as  th e   m in _ clu s ter _ s ize   [ 2 4 ] .   T h e   r esu lt  o f   T ab le  1   s h o ws  th at   th e   b est  h y p er p a r am eter s   f o r   m in _ clu s t er _ s ize  is   2 ,   wh er e   th e   n u m b er   o f   clu s ter s   is   8 2 ,   an d   h as th lar g est DB C s co r ( 0 . 0 5 5 0 ) .   T h lar g er   th m i n _ clu s ter _ s ize,   th lo wer   th DB C s co r an d   th e   d ec ay   o f   cl u s ter   r esu lt.   T h is   r esu lt  o f   T a b le  1   ju s tifie d   th ef f ec o f   ch o o s in g   h ig h er   m in _ clu s ter _ s ize.   T h is   will  r esu lt  in   s m aller   clu s ter s   wh ich   in d icate   b iased   r esu lts   o f   g r o u p in g   th d ata.   On   th o th er   h an d ,   c h o o s in g   th s m allest  v alu f o r   m in _ clu s ter _ s ize  s til r esu lts   in   l o DB C s co r ( th n atu r DB C v alu is   in     [ - 1 , 1 ] ) ,   wh ich   in d icate s   th d at is   v er y   s p ar s e.   T h m in _ cl u s ter _ s ize  o f   2   w ill  th en   b ca r r ied   t o   f in d   th b est  m in _ s am p les  b y   th h ier ar ch ical  h y p er p ar am eter   tu n in g   m eth o d   th at  s eq u en tially   o p tim ized   ea ch   p ar am eter ,   r esu lts   in   m in _ s am p les  is   1 .   Min _ s am p les  is   th m in im u m   p o in i n   th c o r p o in o f   s o m en v ir o n m en t   ( g r o u p ) ,   wh er th v al u is   a n   in teg er   n u m b er   in   [ 1 ,   in f ) .   F r o m   T ab le  2 ,   th iter atio n   p r o ce s s   s h o ws  th at  th h ig h er   th m in _ s am p les,    th m o r e   th r esu lt  o f   DB C s co r an d   n u m b er   o f   cl u s ter s   will  d ec ay .   T h is   r esu lt  s h o ws  th at  ch o o s in g   m o r e   co r p o in ts   f o r   th m o d el  will  r esu lt  in   h ig h er   d is tan ce s   ca lcu lated   b y   th n ea r est  n eig h b o r   alg o r ith m   b etwe en   p o in ts ,   wh ich   in d icate s   th in c r ea s in g   n u m b er   o f   o u tlier s   in   s o m g r o u p s   o f   clu s ter s .   T h r esu lts   o f   T ab les  1   an d   2   s h o th at  th m o d el  f ac in g   th d ata  is   to o   s p ar s to   b g r o u p e d .     T h b est  DB C ev alu atio n   s h o ws  lo s co r ( 0 . 0 8 5 1 ) ,   wh ich   m ig h in d icate   in s u f f icien p er f o r m an ce   wh en   h an d lin g   th s p ar s ity   a n d   s ca lab ilit y   p r o b lem .   T o   ad d r ess   th is   is s u e,   R SVD  i s   ap p lied   to   ea ch   cl u s ter   to   s u p p r ess   n o is an d   f ac ilit ate  th s elec tio n   o f   th m o s t r ep r ese n tativ co m p o n en t f o r   m o d eli n g .       T ab le  1 .   Par am eter   iter atio n   ta b le  o f   m in _ clu s ter _ s ize   I t e r a t i o n   mi n _ c l u st e r _ si z e   D B C V   N u mb e r   o f   c l u s t e r s   1   2   0 . 0 5 5 0   82   5   6   0 . 0 3 8 5   15   10   15   0 . 0 0 8 8   5   11   20   0 . 0   3   12   30   0 . 0   1       T ab le  2 .   Par am eter   iter atio n   ta b le  o f   m in _ s am p les with   m in _ clu s ter _ s ize  eq u al  2   I t e r a t i o n   mi n _ sa mp l e s   D B C V   N u mb e r   o f   c l u s t e r s   1   1   0 . 0 8 5 1   1 7 1   5   5   0 . 0 2 4 0   25   10   10   0 . 0 1 1 2   11   11   15   0 . 0 0 8 8   7   12   20   0 . 0 0 2 1   5   13   30   0 . 0   4       4 . 1 .     M a t rix   r educt io n us ing   ra nd o m ized  s ing ula v a lue dec o m po s it io n   T h R SVD  alg o r ith m   is   ap p lied   to   clu s ter ed   u s er - b o o k   m at r ix   o v er   p ar ticu lar   clu s ter   f o r   d im en s io n   r ed u ctio n .   T h s elec tio n   o f   R SVD  p ar am eter s   is   p er f o r m ed   b y   s elec tin g   th n u m b er   o f     n - co m p o n en ts   in   th s in g u lar   m atr ix ,   wh ich   r e d u ce s   th m atr ix   d im en s io n ality   ac c o r d in g   to   th s elec ted     n - co m p o n en t   v alu e   with   v alu s m aller   th an   o r   eq u al   to   th s m allest  r o w/co lu m n   s ize  ( r an k   o f   th e   m atr ix ) .   T h s elec tio n   is   p er f o r m e d   th r o u g h   iter ativ ex p er im en ts   b y   co m p ar in g   th r atin g   v alu p r ed ictio n   at  th e   f in al   s tag o f   th HDBS C AN - R SV D - C F a lg o r ith m .     4 . 2 .     I m ple m ent a t io n o f   s im ila rit y   a nd   ind ex   equa liza t io n   Af ter   o b tain in g   th e   U   m atr ix ,   th v alu es  i n   th e   U   m atr ix   a r ap p lied   with   th Pear s o n   c o r r elatio n   m eth o d   co n ce r n in g   th in d ex / r o w,   wh ich   is   th “I D”  o f   th u s er   will  b tr an s f o r m ed   in to   u s er   s im ilar ity   m atr ix .   T h e   p r o ce s s   is   co n tin u ed   b y   r e p lacin g   t h NaN   d at with   ze r o .   Nex t,  t h p r o ce s s   o f   eq u alizin g   th e   u s er   “I D”  in d ex   in   th s im il ar ity   m atr ix   with   th t r ain in g   d ata  is   im p lem en ted .   T h is   eq u aliza tio n   p r o ce s s   r em o v es a ll u s er   “I D”  v alu es th at  ar n o p r esen t in   th e   tr ain i n g   d ata.     4 . 3 .     E v a lua t i o n o f   s im ila rit y   t hresh o ld   T h e   av er a g m eth o d   was  u s ed   to   o b tain   s im ilar ity   th r es h o ld   v al u es  with   r esp ec to   R MSE   an d   co m p u tin g   tim e.   T h clo s est  v alu to   th e   av er a g R MSE   an d   co m p u tin g   tim is   s elec ted   as  th s im ilar ity   th r esh o ld .   T h is   th r esh o ld   will  b u s ed   in   t h n e x p r o ce s s .   T h av er a g R MSE   v alu e   in   T ab le  3   is   0 . 8 5 3 7 ,   wh ile  th av er ag w o r k in g   m o d el  is   3 8 3 1 . 8 6   s ec o n d s .   B ased   o n   b o t h   av er a g es,  th clo s est s im ilar ity   th r esh o ld   v alu is   0 . 4   ( th s im ilar ity   lim it p ar am eter   is   0 . 4 ) .       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell ,   Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 4 8 6 5 - 4 8 7 7   4872   T ab le  3 .   C o m p a r ativ d eter m i n atio n   o f   s im ilar ity   lim it v alu e s   S i m i l a r i t y   t h r e s h o l d   v a l u e s   0   0 . 1   0 . 2   0 . 3   0 . 4   0 . 5   0 . 6   0 . 7   0 . 8   0 . 9   M e a n   A v e r a g e   R M S E   0 . 8 4 8 5   0 . 8 4 8 8   0 . 8 4 9 9   0 . 8 5 0 2   0 . 8 5 1 2   0 . 8 5 2 3   0 . 8 5 5 9   0 . 8 5 7 6   0 . 8 5 9 7   0 . 8 6 3 1   0 . 8 5 3 7   Ti me   ( sec o n d )   7 9 3 4 . 1 3   6 5 7 5 . 9 6   5 4 3 2 . 4 9   4 8 1 7 . 2 9   3 9 4 0 . 5 2   2 9 5 1 . 2 0   2 1 6 7 . 3 9   1 8 1 9 . 4 1   1 5 8 8 . 8 3   1 0 9 1 . 4 4   3 8 3 1 . 8 6       4 . 4 .     E v a lua t i o n o f   n - co m po n ent   re t riev a in H DB SCAN - RSVD - CF   T h e   r e s u l t   o f   DB C V   f o r   t h e   H D B SC A N   h y p e r p a r a m e te r   i s   c o m b i n e d   w i t h   t h e   s i m i l a r i t y   t h r e s h o l d   v a l u e   0 . 4   a s   a   b a s e   f o r   b u i l d i n g   H D B S C A N - R SV D - C F   m o d e l .   T h e   a v e r a g e   o f   R MS E   m e tr i c   a n d   t h e   a v e r a g e   l e n g t h   o f   t i m e   o f   t h e   m o d e l   f r o m   f i v e   q u a n t i l e s   a r e   r e p r e s e n t ed   i n   T a b l e   4 .   F r o m   t h e   r e s u l t s   o f   T a b l e   4 ,   i t   c a n   b e   s h o w n   t h a a p p l y i n g   R SV D   t en d s   t o   h e l p   H DB SC A N   h a n d l s p a r s i t y   a n d   s c al a b i li t y ,   w h i c h   i s   r e f l e c te d   b y   l o e r r o r s   a n d   f a s t e r   r u n t i m e   c o m p a r e d   t o   t h e   s i m p l e   C F   i n   T a b l 3 .   T h i s   r e s u l t   c a n   b e   a c h i e v e d   b y   r e d u c i n g   n o i s e   w h i c h   s p a r s e   d at a   c o m m o n   p r o b l e m s   f r o m   c o m b i n i n g   cl u s t e r in g   b y   H D B SC A a n d   m a t r i x   d e c o m p o s i t i o n   wi t h   R SV D .   T h c l u s t e r i n g   o f   HD B S C A N   w i ll   f i r s g r o u p   e v e r y   u s e r   t h at   h as   s i m il a r   i n t e r a c ti o n   t o   a   b o o k ,   w h i c h   i n   t h i s   c as e   i s   t h e   r at i n g   g i v e n   b y   u s e r s   w h i c h   r e s u l t s   i n   a   g r o u p   t h a t   h a s   a   s i m il a r   t as t e   o f   b o o k   l i k i n g .   A f t e r   u s e r   g r o u p i n g ,   t h e r e   i s   s o m n o i s c a u s e d   b y   t h s p a r s it y   o f   t h d a t a ,   w h ic h   T a b l es   1   a n d   2   s h o w .   R S VD   is   t h e n   a p p l i e d   t o   s e l e ct i v e l y   c h o o s e   t h e   b e s o f   t h e   b es t   f e at u r e s   th a t   r e p r e s e n t h e   u s e r   r a ti n g   to   a   b o o k   w i t h   t h p u r p o s e   o f   e l i m i n a t i n g   n o is e   th a t   c a u s e d   t h e   b ia s   i n   r e c o m m e n d a t i o n   r e s u l ts .   W i t h   t h e   c o m b i n a t i o n   o f   t h e s e   2   m e t h o d s ,   H DB S C A N   a n d   R SV D   s h o w   e x ce l l e n t   p e r f o r m a n c e   i n   h a n d l i n g   s p a r s i t y   a n d   s ca l ab i l i t y .       T ab le  4 .   HDBS C AN - R SVD - C F m o d el  ev alu atio n   co m p ar i s o n   M o d e l   H D B S C A N -   R S V D   ( 5 0 %) - CF   H D B S C A N -   R S V D   ( 6 0 %) - CF   H D B S C A N -   R S V D   ( 7 0 %) - CF   H D B S C A N -   R S V D   ( 8 0 %) - CF   H D B S C A N -   R S V D   ( 9 0 %) - CF   H D B S C A N -   R S V D   ( 1 0 0 %) - CF   A v e r a g e   R M S E   0 . 6 9 7 7   0 . 7 0 0 0 8   0 . 6 9 7 5   0 . 7 1 2 5   0 . 6 6 5 4   0 . 7 5 2 9   Ti me   ( S e c o n d )   4 7 4 . 5 9   3 8 2 . 2 4   3 2 6 . 7 1   2 5 5 . 7 3   1 4 6 . 7 8   1 0 0 . 2 4       Fu r th er m o r e ,   th e   s ix   m o d els h av an   av e r ag tim e   o f   2 8 1 . 0 5   s ec o n d s ,   s o   1 4 6 . 7 8   s ec o n d s   is   r elativ ely   f ast  co m p ar ed   to   2 8 1 . 0 5   s ec o n d s .   Fro m   th ese  2   co n s id er atio n s ,   th HDBS C AN - R SV ( 9 0 %) - C will  b e   ch o s en   as  th b est  b en ch m ar k   in   th is   r esear ch .   T h lar g er   th s ize  o f   th U   m atr ix ,   th g r e ater   th co m p u tin g   tim r eq u ir e d   f o r   th e   HDBS C AN - R SVD - C m o d el.   Ho wev er ,   in   th is   ca s e,   th co m p u tin g   tim d ec r ea s es  as  th p ar t   o f   th e   n - c o m p o n en t   r etr iev al  in cr ea s es.  T h is   co n d itio n   is   clo s ely   r elate d   to   th e   s im ilar ity   r esu lts   b etwe en   ac tiv an d   in ac tiv u s er s .   T h lar g er   th n - co m p o n en v alu tak e n ,   th m o r en t r ies  in   th U   m atr ix   ap p r o ac h   ze r o ,   wh ic h   r ed u ce s   th p r o ce s s   o f   f o r m in g   s im ilar ity   v alu es  b etwe en   u s er s   an d   u ltima tely   ca u s in g   f ewe r   u s er s   to   m ee th s im ilar ity   lim it  v alu o f   0 . 4 .   I is   p o s s ib le  to   an aly ze   th r esu lts   f r o m   th s am p le  b y   tak in g   5 0 % o f   th t o tal  n - co m p o n en ts   co m p ar ed   to   9 0 %,  as p r esen ted   in   Fig u r es 5   an d   6 .             Fig u r 5 .   T h U   r ed u ctio n   m at r ix   s am p le  tak in g   5 0 u s er   r an k   i n   clu s ter   - 1     Fig u r 6 .   T h U   r ed u ctio n   m at r ix   s am p le  tak in g   9 0 u s er   r an k   i n   clu s ter   - 1   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif  I n tell     I SS N:  2 2 5 2 - 8 9 3 8       S o lvin g   s p a r s ity  a n d   s ca la b ilit p r o b lems fo r   b o o r ec o mme n d a tio n s   o n   …  ( Mu h a mma d   I c h s a n u d in )   4873   T h v alu es  ar v er y   clo s to   ze r o   in   th r ed u ce d   m atr ix   U   lead s   to   d ec r ea s in   s im ila r ity   v alu es   b etwe en   u s er s   in   th s im ilar it y   m atr ix .   I n   th is   r esear ch ,   th e   s u itab ilit y   lim it  p ar am eter   was   lim ited   to   0 . 4   f o r   u s er   with   h ig h   s im ilar ity   to   a n   ac tiv u s er .   T h er ef o r e,   i n   T a b le  4 ,   wh er e   th m o r e   n - c o m p o n en ts   ar e   tak en ,   th e   lo wer   th s im ilar ity   v alu b et wee n   ac tiv an d   in ac tiv u s er s .   T h m o d el  co n s id er s   o n ly   f ew  o b s er v atio n s   o f   ac tiv u s er s ,   wh ich   is   in v er s el y   p r o p o r tio n al  to   th s ize  o f   t h n - co m p o n en tak e n .   T a b le  5   clar if ies  th r esu lts   o f   th is   an aly s is .   T h u s ,   th lar g n - co m p o n e n v alu tak e n   in   th U   r ed u ctio n   m atr ix   ca u s es  th s im ilar ity   v alu to   d ec r ea s s o   t h at  f e wer   ac tiv u s er s   r ec eiv e   r ec o m m en d atio n s   f r o m   th HD B S C AN - R SVD - C m o d el,   s u c h   as  f o r   5 0 o f   n - co m p o n en ts   tak en ,   g iv i n g   1 , 3 1 3   ac tiv e   u s er s ,   co m p ar ed   to   9 0 %,  wh ich   y ield s   2 2 6 ,   an d   th is   s co r k ee p s   d ec r ea s in g .   S o ,   f r o m   t h e   r e s u l t s   o f   T a b l e   5 ,   i t   c a n   b e   c o n c l u d e d   t h a t ,   a l t h o u g h   t h e     n - c o m p o n e n t   v a l u e   i n c r e as e s ,   w h i c h   i n t u it i v e l y   c a u s es   t h e   e x e c u t i o n   t i m e   t o   i n c r e as e ,   t h m o d e l   c o m p u t i n g   t i m e   d e c r e a s es   b e c a u s e   t h e r e   a r e   f ew e r   u s e r s   m e e t i n g   t h e   s i m i l a r ity   t h r e s h o l d   v a l u e ,   as   m e n t i o n ed   i n   F i g u r e s   5   a n d   6 .       T ab le  5 .   T h n u m b er   o f   ac tiv e   u s er s   r ec o m m en d ed   b y   HDBS C AN - R SVD - CF   M o d e l   H D B S C A N - R S V D   ( 5 0 %) - CF   H D B S C A N - R S V D   ( 6 0 %) - CF   H D B S C A N - R S V D   ( 7 0 %) - CF   H D B S C A N - R S V D   ( 8 0 %) - CF   H D B S C A N - R S V D   ( 9 0 %) - CF   H D B S C A N - R S V D   ( 1 0 0 %) - CF   N u mb e r   o f   a c t i v e   u sers  g e t   r e c o mm e n d a t i o n s   1 , 3 1 3   1 , 0 4 8   8 0 8   5 9 1   2 2 6   62       4 . 5 .     E v a lua t i o n o f   n - co m po n ent   re t riev a in RSVD - CF   E v en   t h o u g h   R SVD  s h o ws  p r o m is ed   p er f o r m an ce ,   it   s till   h as  lim itatio n   th at  will  b e x p lain ed   in   th is   s u b - ch ap ter .   Mu ch   lik t h p r ev io u s   r esu lt,  wh en   tak in g   lar g er   n u m b er   o f   n - co m p o n en v alu es,  th e   s im ilar ity   v alu b etwe en   u s e r s   d ec r ea s es,  an d   f ewe r   ac ti v u s er s   g et  r ec o m m en d atio n s   f r o m   th m o d el.     T ab le  6   p r esen ts   th ev alu atio n   o f   n - c o m p o n en r etr iev al  f r o m   th R SVD  m o d el.   Acc o r d in g   to   T ab le  7 ,   it  ca n   b o b s er v e d   th at  h ig h er   n - c o m p o n e n v alu es  p r ev e n th m o d el  f r o m   p r o v id in g   r ec o m m e n d atio n s ,   esp ec ially   at  1 0 0 %.  T h is   r esu lt sh o ws th a t RS VD  h as lim i tatio n s   in   ch o o s in g   n - co m p o n en t f r ee ly .         T ab le  6 .   R SVD - C m o d el  ev alu atio n   co m p ar is o n   M o d e l   R S V D   ( 5 0 %) - CF   R S V D   ( 6 0 %) - CF   R S V D   ( 7 0 %) - CF   R S V D   ( 8 0 %) - CF   R S V D   ( 9 0 %) - CF   R S V D   ( 1 0 0 %) - CF   A v e r a g e   R M S E   0 . 5 3 8 8   0 . 5 3 5 0 5   0 . 4 9 0 2   0 . 3 3 4 2   0 . 1 5 7 0 1   N a N   Ti me   ( S e c o n d s)   4 7 4 . 5 9   1 3 3 . 3 8   1 3 9 . 8 3   1 1 9 . 8 8   1 1 0 . 9 6   1 0 7 . 2 2       T ab le  7 .   T h n u m b er   o f   ac tiv e   u s er s   r ec o m m en d ed   b y   R SVD - CF   M o d e l   R S V D   ( 5 0 %) - CF   R S V D   ( 6 0 %) - CF   R S V D   ( 7 0 %) - CF   R S V D   ( 8 0 %) - CF   R S V D   ( 9 0 %) - CF   R S V D   ( 1 0 0 %) - CF   N u mb e r   o f   a c t i v e   u sers  g e t   r e c o m me n d a t i o n s   1 , 5 7 6   1 , 2 8 5   1 , 0 2 7   5 0 1   57   0       4 . 6 .     E v a lua t i o n o f   c o m pa ra t iv re s ults  o f   H DB SCAN - R S VD - CF ,   RSVD - CF ,   H DB SC AN - CF ,   a nd   CF   T ab le  8   p r esen ts   th p er f o r m an ce s   o f   th HDBS C A N - R S VD - C F,  R SVD - C F,  HD B S C AN - C F,  an d   s in g le  C m o d els.  T h av er ag R MSE   i s   ca lcu lated   b y   av er ag in g   th R MSE   v alu es  o f   g r o u p   o f   ac tiv u s er s   ( test in g   d ata)   an d   co m p ar in g   th p r ed icted   b o o k   r atin g s   with   th eir   ac tu al  r atin g s   f o r   th s am b o o k .   I n   th is   r esear ch ,   s im p le  C i s   th b as m o d el  th at  will  b im p r o v e d   with   p r o p o s ed   m eth o d s   ca lled   HDBS C AN  an d   R SVD.   T ab le  8   s h o ws  th at  C f ails   to   p er f o r m   well  wh en   attem p tin g   to   o v er co m s p ar s ity   an d   s ca lab ilit y   with   R MSE   an d   r u n n i n g   tim o f   0 . 8 5 1 2 8   a n d   3 9 4 0 . 5 2 ,   r e s p ec tiv ely .   T h c o m p ar is o n   b etwe en   all  p o s s ib le  m o d els  co m p ar ed   to   s im p le  C as  th b ase  m o d el  ca n   b e   s o r ted   as  f o llo ws:   HDBS C A N - C is   in f er io r   to   s im p le  C F ,   wi th   R MSE   an d   r u n n in g   tim b ei n g   2 7 . 4 2 % a n d   1 2 . 4 6 % wo r s e ,   r esp ec tiv el y ; H DB S C AN - R SVD - C h as  2 1 . 8 3 lo we r   R MSE   an d   2 6 8 4 . 4 8 f aster   co m p u tin g   tim e;  R SVD - C h as  6 0 . 7 4 lo wer   R MSE   an d   3 2 8 7 . 0 5 % f aster   co m p u tin g   tim e.   T ab le  8   s h o ws  th at  C f ai l s   to   p er f o r m   well.   Nev er th eless ,   HD B S C AN - C h ad   a n   in f er io r   p er f o r m an ce   to   C with   R MSE ,   an d   th eir   r u n n in g   tim es  a r 2 7 . 4 2 %   an d   1 2 . 4 6 %   wo r s e,   r e s p ec tiv ely ,   r elativ e   to   th C m o d el.   Ho wev er ,   th C m o d el  with   th R S VD  m eth o d   o u t p er f o r m ed   th C m o d el.   T h e   HDBS C AN - R SVD - C h as  2 1 . 8 3 lo wer   R MSE   an d   2 6 8 4 . 4 8 f aster   co m p u tin g   tim co m p ar e d   to   th C m o d el.   Fin ally ,   R SVD - C F   h as  6 0 . 7 4 lo wer   R MSE   a n d   9 6 . 9 5 co m p u tin g   tim co m p ar ed   to   t h C m o d el  s ee   Fig u r es 7   a n d   8 .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell ,   Vo l.  14 ,   No .   6 Dec em b er   2 0 2 5 4 8 6 5 - 4 8 7 7   4874   T ab le  8 .   HDBS C AN - R SVD - C m o d el  ev alu atio n   co m p ar a tiv e   M o d e l   H D B S C A N - R S V D   ( 9 0 %) - CF   R S V D   ( 8 0 %) - CF   H D B S C A N - CF   CF   A v e r a g e   R M S E   0 . 6 6 5 4   0 . 3 3 4 2   1 . 0 8 4 7   0 . 8 5 1 2 8   Ti me   ( S e c o n d s)   1 4 6 . 7 8   1 1 9 . 8 8   4 4 3 1 . 7 9   3 9 4 0 . 5 2           Fig u r 7 .   C o m p a r is o n   o f   av er a g R MSE   am o n g   th C F m o d els           Fig u r 8 .   C o m p a r is o n   o f   co m p u tin g   tim am o n g   th CF   m o d els       5.   CO NCLU SI O N   T h e   HDBS C AN - R SVD - C F   m o d el   d em o n s t r a tes   e x c ell e n t   p e r f o r m a n ce   in   ad d r ess i n g   s p a r s it y   a n d   s ca l ab ilit y   is s u es .   T h is   is   ev id en t   f r o m   t h e   co m p a r is o n   b e t wee n   t h e   HDBS C A N - R SV D - C a n d   C m o d els ,   wh i ch   s h o ws  a n   i m p r o v em e n o f   2 1 . 8 3 in   R MS E   e v a lu a ti o n   a n d   r e d u ct io n   o f   3 7 9 3 . 7 3   s e co n d s   in   co m p u ti n g   ti m e   c o m p a r e d   to   t h e   s i m p le   C m o d el .   F u r t h e r m o r e ,   t h e   a p p li ca ti o n   o f   t h e   H DB SC AN  m et h o d   i n   th e   HDBS C AN - R SVD - C m o d el   r eso lv es  t h li m i tati o n   o f   th R SVD - C m o d el   b y   r e tr i ev i n g   th n u m b e r   o f   n - c o m p o n e n ts   f r o m   t h r a n k   m at r i x   o f   cl u s t er e d   u s e r - b o o k s .   T h e   R SVD - C m o d el   is   r o b u s a n d   f i ts   es p e ci all y   well   f o r   CF   m o d el   b y   g iv in g   t h e   ab s o l u t e   b est   p er f o r m a n c e   c o m p ar ed   to   o t h er   m o d els .   E v e n   t h o u g h   R SVD - C F   is   s u p e r i o r ,   R SVD - C r e q u ir e s   m o r a tte n t io n   i n   t ak in g   th n u m b e r   o f   n - c o m p o n e n ts   d u to   its   l im ita ti o n s   i n   p r o v i d i n g   s i m il ar   u s e r   r e co m m e n d ati o n s   t o   ac ti v e   u s e r s .   On   t h e   o th er   h an d ,   t h e   HDB SC AN - C F   m o d el   is     ill - s u i te d   t o   d ea l in g   wit h   s p a r s i ty   an d   s ca la b il it y   p r o b l em s ,   w h e r e   its   p er f o r m a n ce   is   we a k es t.  T h H DB SC AN - R SVD - C m o d el  is   f u s io n   o f   t h e   HDBS C A a n d   R SV m et h o d s .   I t   w o r k s   b y   f i r s t   g r o u p i n g   u s er s   wi th   t h e   s am e   cl u s te r   i n t o   a   s i n g le   m at r ix ,   f o ll o w e d   b y   d im en s io n   r e d u ct io n   u s i n g   R SV D   b y   t ak in g   th e   m o s t   d o m i n a n t   p a r o f   th m at r i x .   E v en   t h o u g h   HB DSC AN - R SVD - C h as  a n   in f e r i o r   R MS E   co m p a r e d   t o   R SVD - C F,     th is   m o d el   ca n   s til d ea w it h   s p a r s i ty   a n d   s c ala b i lit y   p r o b l em s   q u it s a tis f a ct o r i ly ,   wit h   r el ati v el y   wi d er     Evaluation Warning : The document was created with Spire.PDF for Python.