I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol .   15 , N o.   1 F e br ua r y   20 26 , pp.  289 ~ 299   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 15 .i 1 .pp 289 - 299       289     Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   E n h a n c i n m e d i c al  l an gu age   m od e l w i t h  b i g d at a t e c h n ol ogi e s       A you b  A ll al i 1 , I b t ih al  A b o u c h ab ak a 2 , N aj a t  R af al ia 1   1 D e pa r t m e nt  of   C om put e r  S c i e nc e , F a c ul t y of   S c i e nc e s , I bn T of a i l  U ni ve r s i t y, K e ni t r a , M or oc c o   2 M oha m m e d V I  U ni ve r s i t y of  S c i e nc e s  a nd H e a l t h,  C a s a bl a nc a M or oc c o       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e J un   1 2025   R e vi s e J a n   1 2026   A c c e pt e J a n   22 2026       In  this  study,  we  present  an  end - to - end,  big - data driven  framewo rk  for  continu ously  enriching   and  fine - tuning  large  language   models  (LLM s)  with  the  latest  professional  and  scientifi medical  knowledge.   Streaming  u pdates  from  premier  sources  such  as  The  New  England  Journal  of  Medicine  (NEJM)  are  ingested  via  an  Apache  Kafka  cluster   for  low - latency  d elivery  and  durably  archived  in  three - node  Apache   Hadoop  ( Hadoop   distr ibuted  file  system  (HDFS))  system.  Each  new  article  is  preprocessed  into   high - dimensional  embeddin gs  and  indexed   in  Milvus   vector  database   to  enable  sub - second  semantic  retrieval  over  millions  of  records.  At  query  or   batch  time,  our  retrieval - augmented   generation   (RAG)  module  retrieves  th top - relevant  embeddings  from  Milvus  and  injects  them  into  prompts  for  DeepSeek - R1,  GPT - 4o - mini,  and  Llama   3,  models   which  are   hosted fine - tuned,  and  served  via  Ollama  on  an  NVIDIA  GeForce  RTX  3050  T GPU  for  efficient  inference  and  continual  learning.  The   enriched  outp uts  are  seamlessly  delivered  to  end   u sers  through  a   Telegram  bot   program med  in  Python  using  the  Telebot  library,  linking  the  RAG - enhanced  LLMs   to  an  intuitive cha t interfac e. Our  Kafka,  HDFS, Milvus,  RAG, LLM,  or Tel egram  bot  pipeline  demonstrably  improves  factual  accuracy  and   topical  curre ncy  of  AI - generated  medical  insights  across   clinical  decision   support,  patient  engagement   and  education drug  discovery   and  dev elopment virtual   health  assistan ts,  and  mental  health  support ,   laying  the  groundwor k   for   truly  intelligent, r esponsive, a nd data - d riven healthcare s olutions .   K e y w o r d s :   B ig  da ta   D e e pS e e k - R1   G P T  4o - m in i   L L M s   L la m a   3   R e tr ie va l - a ugm e nt e ge ne r a ti on   V e c to r  da ta ba s e   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   A youb Alla li   D e pa r tm e nt  of  C om put e r  S c ie nc e , F a c ul ty  of  S c ie nc e s , I bn  T of a il  U ni ve r s it y   K e ni tr a , M or oc c o   E m a il a youb.a ll a li @ ui t. a c .m a       1.   I N T R O D U C T I O N   T he   he a lt hc a r e   s e c to r   i s   e xpe r ie n c in a   pa r a di gm   s hi f dr iv e by  a dva nc e s   in   a r ti f ic ia in te ll ig e nc e   a nd  bi g - da ta   te c hnol ogi e s I n   pa r ti c ul a r la r ge   l a ngua ge   m ode ls   ( L L M s )   ha ve   s how n   tr e m e ndous   pr om is e   a c r os s   m e di c a dom a in s f r om   c li ni c a d e c is io s uppor to   vi r tu a he a lt a s s i s ta nt s B ut   th e ir   r e a l - w or ld   im pa c de pe nds   on  a c c e s s   to   hi gh - qua li ty up - to - da te   knowle dge W it th e   vol um e   of   m e di c a li te r a tu r e ,   c li ni c a s tu di e s a nd  e xpe r c om m e nt a r gr ow in e xpone nt ia l ly it   r e m a in s   a   pr e s s in c ha ll e nge   to   in ge s t,   s to r e pr oc e s s a nd  s ur f a c e   th is   e v e r - e xpa ndi ng  body  of   in f o r m a ti on  in   w a ys   th a ke e pa c e   w it e m e r gi ng  di s c ove r ie s  a nd  e vol vi ng s ta nda r ds  of  c a r e .     T m e e t   th is   c ha ll e nge ,   w e   in tr oduc e   a   f ul ly   in te gr a te d,   bi g - da ta   a r c hi te c tu r e   th a t   c oupl e s   r e a l - ti m e   s tr e a m in g,  s c a la bl e   s to r a ge s e m a nt ic   in d e xi ng,  a nd  r e tr ie va l - a ugm e nt e ge ne r a ti on   ( R A G )   to   c ont in uous ly   e nr ic a nd  f in e - tu ne   L L M s   f or   m e di c a a ppl ic a ti ons .   F ir s t,   f e e ds   f r om   le a di ng  s our c e s   s u c a s   t he   N e w   E ngl a nd  J our na of   M e di c in e   ( N E J M )   a nd  t he   L a nc e a r e   c a pt ur e vi a   a A pa c he   K a f ka   c lu s te r e ns ur in s ub - s e c ond  de li ve r of   ne w ly   publ is h e a r ti c le s R a w   doc u m e nt s   a r e   dur a bl a r c hi ve in   a   th r e e - node   Evaluation Warning : The document was created with Spire.PDF for Python.
            I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol 15 , N o.  1 F e br ua r y   20 26 :   289 - 299   290   H a doop  di s tr ib ut e f il e   s ys te m   ( H D F S )   f or   f a ul t - to le r a nt di s tr ib ut e s to r a ge E a c in c om in r e c or is   th e pr e pr oc e s s e d   in to   hi gh - di m e ns io na e m be ddi ngs   a nd  in de x e in   a   M il vus   ve c to r   da t a ba s e ,   e na bl in g   m il li s e c ond - s c a le   s e m a nt ic  r e tr ie va a c r os s  m il li ons  of  m e di c a r e c or ds .   A que r or   ba tc ti m e our   R A G   m odul e   r e tr ie ve s   th e   to p - r e le va nt   ve c to r s   f r om   M il vus   a nd   in je c ts   th e ir   c ont e nt   in to   pr om pt s   f or   th r e e   s ta te - of - th e - a r L L M s D e e pS e e k - R 1,  G P T - 4o - m in i,   a nd  L la m a   3 ,   e a c ho s te a nd   f in e - tu ne on  a N V I D I A   G e F or c e   R T X   305 T G P U   vi a   O ll a m a   f or   opt im iz e in f e r e nc e   a nd  c ont in ua le a r ni ng.  F in a ll y,  c li ni c ia ns r e s e a r c he r s a nd  pa t ie nt s   in te r a c w it th e   e nr ic he L L M   out put s   th r ough  a   P yt hon - ba s e T e le gr a m   bot   ( bui lt   w it h   th e   T e le bot   li br a r y) P r ovi di ng  a in tu it iv e   c ha in te r f a c e   th a de li ve r s  e vi de nc e - ba c k e d i ns ig ht s  di r e c tl y t o e nd u s e r s '  m o bi le  de vi c e s .   T he   pr im a r goa of   th is   r e s e a r c is   to   de m ons tr a te   th e   p ot e nt ia of   bi da ta   te c hnol ogi e s   in   im pr ovi ng  th e   r e li a bi li ty a c c ur a c y,   a nd  r e a l - ti m e   a da pt a bi l it of   A I - dr iv e m e di c a a ppl ic a ti on s our   pr opos e d f r a m e w or k i s  de s ig ne d t o s uppor a  w id e  r a ng e  of  he a lt hc a r e  us e  c a s e s , i n c lu di ng:     i)   C li ni c a de c is io s uppor t:   a s s is ti ng  he a lt hc a r e   pr of e s s io na ls   i di a gnos in c ondi ti ons r e c om m e ndi ng  tr e a tm e nt s , a nd i de nt if yi ng pote nt ia r is ks  ba s e d on the  l a te s m e di c a li te r a tu r e .     ii)   P a ti e nt   e nga ge m e nt   a nd e duc a ti on:   pr ovi di ng  pe r s ona li z e d, e vi de nc e - ba s e r e s pons e s   to   pa ti e nt   qu e r ie s im pr ovi ng he a lt h l it e r a c y ,   a nd s e lf - c a r e  m a na ge m e nt .     iii)   D r ug  di s c ove r a nd  de ve lo pm e nt a c c e le r a ti ng  pha r m a c e ut ic a r e s e a r c by  a na ly z in va s da ta s e ts   of   c li ni c a tr ia ls , dr ug i nt e r a c ti ons , a nd biom e di c a s tu di e s .     iv )   V ir tu a he a lt a s s i s ta nt s e nh a nc in te le m e di c in e   s e r vi c e s   w it A I - pow e r e c ha tb ot s   c a pa bl e   of   unde r s ta ndi ng a nd r e s ponding t o m e di c a que r ie s  w it h up - to - da te  knowle dge .     v)   M e nt a he a lt s uppor t:   le ve r a gi ng   A I   to   pr ovi de   c onv e r s a ti on a s uppor t,   de te c e a r ly   s ig ns   of   m e nt a he a lt h c ondi ti ons , a nd r e c om m e nd a ppr opr ia te  i nt e r ve nt io ns .   B ur ga n   e al [ 1]   pr e s e nt   R a m C ha t,   a A I   c ha tb ot   de s ig ne t he lp   S he phe r U ni ve r s it s tu de nt s   na vi ga te   th e ir   s tu de nt   ha ndbook,  de v e lo pe in   P yt hon.  R a m C h a in te gr a te s   bot h   A P I - ba s e a nd   lo c a L L M s   us in th e   L a ngC ha in   f r a m e w or a nd  a   ve c to r   s to r e   s ys te m T he   c ha tb ot   le ve r a ge s   O pe nA I ' s   te xt - e m be ddi ng - 3 - s m a ll   m ode f or   e m be ddi ngs   a nd  in it ia ll us e O p e nA I ' s   da v in c i - 002  m ode l,   la te r   r e pl a c e w it ge m m a a   lo c a L L M  ba s e d on G oogl e ' s   G e m in m ode l.  T he  O ll a m a  f r a m e w or k e na bl e s  a ut om a ti c  L L M  s e le c ti on ba s e on  us e r   pr om pt s T he   de ve lo pm e nt   pr oc e s s   in vol ve te s ti ng  di f f e r e nt   L L M s de bugging,  a nd  opt im iz in R a m C ha t' s   pe r f or m a nc e T he ir   c onf e r e nc e   pr e s e nt a ti on  w il c o ve r   th e   m e th odol ogy,  c ha ll e nge s a nd  in s ig ht s   ga in e d f r om  de ve lo pi ng t hi s  A I - pow e r e d s tu de nt  a s s i s ta nt .   M a e al [ 2]   di s c us s   th e   c ha ll e ng e s   of   upda ti ng  L L M s   w it lo ng - ta il   or   out da te knowle dge   due   to   th e ir   va s num be r   o f   pa r a m e te r s m a ki ng  f in e - tu ni ng  i m pr a c ti c a l.   I ns te a d,  th e hi ghl ig ht   th e   e f f e c ti ve ne s s   of   bl a c k - box  R A G w hi c e nha nc e s   L L M s   w it hout   m odi f yi ng  th e ir   pa r a m e te r s E xi s ti ng  bl a c k - box    R A G   m e th ods   of te f in e - tu ne   th e   r e tr ie ve r   to   a li gn  w it h   L L M   pr e f e r e nc e s   but   f a c e   two  ke is s ue s ig nor in g   f a c tu a in f or m a ti on,  w hi c c a m is le a th e   r e tr ie ve r a nd  in e f f ic ie nt   to ke us a ge   due   to   c onc a te na ti ng  a ll   r e tr ie ve d doc um e nt s .   S c hi e le   e al [ 3]   e xa m in e   th e   im pa c of   in f or m a ti on  a nd  c o m m uni c a ti on  te c hnol ogi e s   ( I C T s )   on   pol it ic a e nga ge m e nt ,   pa r ti c ul a r ly   in   th e   c ont e xt   of   vot in de c is io ns w it h   th e   r is e   of   is s ue - ba s e vot in in   w e s te r de m oc r a c ie s T h e r e   is   a   gr ow in ne e f or   tr a ns pa r e nt   a nd  unbi a s e vot in a dvi c e   a ppl ic a ti ons   ( V A A s )   li ke   S w it z e r la nd' s   S m a r tv ot e   a nd  G e r m a ny' s   W a hl - O - M a t.   T h e   a ut hor s   pr opos e   th a t   in te gr a ti ng  L L M s  w it h R A G  t e c hni que s  c oul d e nha nc e   V A A s  by i m pr ovi n g f a ir ne s s , i m pa r ti a li ty , a nd t r a ns pa r e nc y.     W hi le   th e s e   s tu di e s   de m ons tr a te   a dv a nc e m e nt s   in   A I - pow e r e a ppl ic a ti ons   us in L L M s   a nd  R A G th e la r ge ly   ove r lo ok  th e   c r it ic a r ol e   of   bi da ta   te c hnol o gi e s   in   e n s ur in s c a la bi li ty e f f ic ie nc y,  a nd     r e a l - ti m e   pr oc e s s in g.  T he ir   r e li a nc e   on s ta ti c   e m be ddi ngs A P I - ba s e m ode ls , a nd  f in e - tu ne r e tr ie ve r s   li m it s   th e ir   a bi li ty   to   ha ndl e   la r ge - s c a le c ont in uous ly   e vol vi ng  d a ta s e ts U nl ik e   th e s e   a ppr oa c he s our   s tu dy  le ve r a ge s   A p a c he   H a doop  f or   di s tr ib ut e d a ta   s to r a ge   a nd   A pa c he   K a f ka   f or   r e a l - ti m e   da ta   s tr e a m in g,  e na bl in g dyna m ic  upda te s , hi gh - th r oughput pr oc e s s in g, a nd i m pr ove d r e s pons iv e ne s s . B y i nt e gr a ti ng big da ta   f r a m e w or ks our   r e s e a r c a ddr e s s e s   ke c ha ll e nge s   in   la r ge - s c a le   A I   a ppl ic a ti ons   th a th e s e   s tu di e s   f a il   to   c ons id e r , e ns ur in g a  m or e  s c a la bl e , a nd da t a - dr iv e n s ol ut io n.   T r a di ti ona L L M s   li ke   M e d - P a L M B io G P T a nd  P ubM e d G P T   a r e   ty pi c a ll tr a in e on  s ta ti c   da ta s e ts l e a di ng  to   knowle dge   c ut of f s   th a m a be  s e ve r a m on th s   or   e ve ye a r s   ol d. T hi s   s ta ti c   n a tu r e   li m it s   th e ir   a bi li ty   to   in c or por a te   a nd  r e s pond  to   th e   la te s m e di c a r e s e a r c pr om pt ly     a s   s how in   T a bl e   [ 4 ]   I c ont r a s t,   R A G   s y s te m s   e nha nc e   L L M s   by   in te gr a ti ng  dyn a m ic   r e tr ie va m e c h a ni s m s ,   a ll ow in th e m   to   a c c e s s   a nd  ut il iz e   up - to - da te   in f or m a ti on  f r om   e xt e r na da ta b a s e s .   T hi s   a ppr oa c s ig ni f ic a nt ly   r e duc e s   th e   la te nc y i n i nc or por a ti ng ne w  m e di c a knowle dge  i nt o t he  m ode l ' s  r e s pons e s .   T hi s   pa pe r   e xpl or e s   th e   im pl e m e nt a ti on  de ta il s c ha ll e nge s ,   a nd  a dva nt a ge s   of   us in bi da ta   pi pe li ne s   in   c onj unc ti on  w it R A G - e nha nc e L L M s   f or   m e di c a a ppl ic a ti ons W e   f oc us   on  th e   im pa c of     r e a l - ti m e   da ta   s tr e a m in g,  di s tr ib ut e s to r a ge a nd  f r e que nt   in c r e m e nt a tr a in in g,  w hi c e na bl e   our   m ode to   in c or por a te   ne w ly   publ is he d   m e di c a l   r e s e a r c h   on  a   da il ba s is B c ont r a s t,   e xi s ti ng   m ode ls   s uc h   a s     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       E nhanc in g m e di c al  l anguage  m ode ls  w it h bi g data t e c hnol ogi e s  ( A y oub A ll al i)   291   M e d - P a L M B io G P T a nd  P ubM e dG P T   r e ly   on   s ta ti c   pr e tr a in i ng  a nd  r e qui r e   m ont hs   to   ye a r s   to   upda te   th e ir   knowle dge I nt e gr a ti ng  th e s e   te c hnol ogi e s   a ll ow s   our   s ys te m   to   pr ovi de   he a lt hc a r e   pr of e s s io na ls   w it a c c ur a te ti m e ly a nd  e vi de nc e - ba s e r e s pons e s s ig ni f ic a nt ly   im pr ovi ng  th e   pe r f or m a nc e r e s pons iv e ne s s a nd r e le va nc e  of  A I - dr iv e n s ol ut io ns  i n c li ni c a de c i s io n - m a ki ng a nd pa ti e nt  c a r e .       T a bl e  1. K now le dg e  upda te  l a te nc y f or  ne w  r e s e a r c h pa pe r s   M ode l   K now l e dge  upda t e  m e t hod   T ypi c a l  l a t e nc y f or  ne w  pa pe r   M e d - P a L M / M e d - P a L M - 2   S t a t i c  pr e t r a i ne d+f i ne - t une d   M ont hs - ye a r s   B i oG P T   S t a t i c  pr e t r a i ne d m ode l  ( P ubM e d s na ps hot )   M ont hs - ye a r s   P ubM e dG P T   S t a t i c  pr e t r a i ne d m ode l  ( P ubM e d s na ps hot )   M ont hs - ye a r s       2.   M E T H O D   T br id ge   bi g - da ta   te c hnol ogi e s   w it L L M s   in   a   m e di c a s e tt in g,  w e   de s ig ne a   f our - s ta ge   pi pe li ne   a s   s how in   F ig ur e   1.  D a ta   c ol le c ti on  a nd  s tr e a m in g,  w he r e   pr of e s s io na a nd  s c i e nt if ic   m e di c a ne w s   a r e   in ge s te in   r e a l - ti m e   vi a   A pa c he   K a f ka D i s tr ib ut e s to r a ge w hi c a r c hi ve s   in c om in doc um e nt s   in   a     m ul ti - node   H a doop  H D F S   c lu s te r   f or   s c a la bl e ,   f a ul t - to le r a nt   pe r s is te nc e S e m a nt ic   e nc odi ng  a nd   R A G   in te gr a ti on,  tr a ns f or m in e a c a r ti c le   in to   hi gh - di m e ns io na e m be ddi ngs in de xi ng  th e m   in   a   M il vus   ve c to r   da ta ba s e ,   a nd  a ugm e nt in L L M s   ( D e e pS e e k,  G P T - 4o - m in i,   a nd  L la m a   3)   vi a   R A G I nt e r a c ti ve   A I - dr iv e te xt   ge ne r a ti on,  de li ve r in a s k/ a ns w e r   que r ie s   a nd  ge ne r a te m e di c a in s ig ht s   th r ough  a   us e r - f a c in in te r f a c e   ( T e le gr a m  bot )   [ 5] .           F ig ur e   1.  P r opos e d   m e th odol ogy       T c r e a te   a   c om pr e he n s iv e   a nd  c ont in uous ly   upda te m e di c a da ta s e f or   e nha nc in L L M s w e   im pl e m e nt e a a ut om a te d   da ta   c ol le c ti on  pi pe li ne   l e ve r a gi n r e a ll s im pl e   s yndi c a ti on  ( R S S )   f e e ds   a nd  A pa c he   K a f ka .   W e   f oc u s e on  obt a in in m e di c a li te r a tu r e   f r om   th e   N E J M a   hi ghl r e put a bl e   m e di c a jo ur na l,   by  ut il iz in it s   publ ic ly   a va il a bl e   R S S   f e e ds     a s   s how in   F ig ur e   2.   T hr ough  th e s e   f e e ds w e   s ys te m a ti c a ll m oni to r e a nd  r e tr ie ve th e   la te s publ is he a r t ic le s   in   r e a l - ti m e E a c ne w   a r ti c le   id e nt if ie d   vi a  t he  R S S   f e e d w a s  a ut om a ti c a ll y downloa de d, pr e s e r vi ng i ts  or ig in a la yout ,  f ig u r e s , a nd t e xt ua c ont e nt  t o   e ns ur e  da ta  i nt e gr it y a nd c om pl e te ne s s   [ 6] .   T he   r e a l - ti m e   s tr e a m in c om pone nt   w a s   m a na g e us in A pa c he   K a f ka c onf ig ur e w it hi our     th r e e - node   H a doop  c lu s te r   ( one   N a m e N ode   a nd  two  D a ta N od e s ) K a f ka ' s   pr oduc e r s   c ont in uous ly   m oni to r e th e   N E J M   R S S   f e e f or   upda te s a ut om a ti c a ll dow nl oa di ng  n e w   a r ti c le s   a s   s oon   a s   th e be c a m e   a va il a bl e .   U pon  s uc c e s s f ul   r e tr ie va l,   K a f ka   br oke r s   di s tr ib ut e th e s e   a r ti c le s   a c r os s   de s ig na te pa r ti ti ons   w it hi th e   K a f ka   to pi c s f a c il it a ti ng  ba la nc e d   lo a m a n a ge m e nt   a nd   e ns ur in f a ul t - to le r a nc e   dur in da ta   in ge s ti on,  a s   s how n i n F ig ur e  3   [ 7] [ 9] .   K a f ka   c ons um e r s   th e s ys te m a ti c a ll pr oc e s s e d   th e s e   a r ti c le s e xt r a c ti ng  r e le va nt   te xt u a c ont e nt   th r ough  de di c a te pa r s in m e c h a ni s m s T hi s   e xt r a c te te xt   w a s   s tr uc tu r e in to   a   f or m a s ui ta bl e   f or   s ubs e que nt   s to r a ge   in   th e   H D F S T he   in te gr a ti on  of   K a f ka   e ns ur e s e a m le s s uni nt e r r upt e s tr e a m in of   m e di c a a r ti c le s   di r e c tl in to   th e   H D F S m a in ta in in a u p - to - da te s tr uc tu r e d,  a nd  e a s il r e tr ie va bl e   r e pos it or y, a s  s how n i n F ig ur e  4.   T hi s   e nh a nc e d a ta   c ol le c ti on  m e th od  a ll ow e u s   to   a c h ie ve   r obus t,   r e a l - ti m e   in ge s ti on  of     hi gh - qua li ty   m e di c a li te r a tu r e ,   la yi ng  a   s tr ong  f ounda ti on  f or   tr a in in a nd   r e f in in g   our   R A G - e nha nc e d   L L M s T s to r e   th e   c ont in uou s ly   c ol le c te m e di c a da ta w e   de pl oye a   H a doop  c lu s te r   w it th r e e   node s th e   H D F S   is   us e to   pr ovi de   s c a la bl e f a ul t - to le r a nt   s to r a ge   f or   la r ge   vol um e s   of   uns tr uc tu r e te xt   da ta A pa c he   Evaluation Warning : The document was created with Spire.PDF for Python.
            I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol 15 , N o.  1 F e br ua r y   20 26 :   289 - 299   292   K a f ka   s e a m le s s ly   in te gr a te s   w it H a doop,  w he r e   K a f ka   c ons um e r s   pul th e   s tr e a m e da ta   a nd  s to r e   it   in   H D F S , t he  H a doop c lu s te r  c ons i s ts  of :   i)   O ne  N a m e N ode m a na g e s  t he  m e t a da ta  a nd dir e c to r y s tr uc tu r e   of  t he  di s tr ib ut e d f il e  s ys te m .   ii)   T w D a ta N od e s s to r e   th e   a c tu a r a w   da ta   f il e s   a nd  di s tr ib ut e   th e   s to r a ge   lo a f or   r e dunda nc y   a nd  hi gh   a va il a bi li ty .           F ig ur e   2. T he  N E J M  R S S   f e e d             F ig ur e   3. A pa c he  K a f ka   pr oduc e r /c ons um e r   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       E nhanc in g m e di c al  l anguage  m ode ls  w it h bi g data t e c hnol ogi e s  ( A y oub A ll al i)   293       F ig ur e   4. D a ta  e xa m pl e       D a ta   s to r e in   H D F S   is   pr e pr oc e s s e d   a nd s tr uc tu r e to   im pr ove   r e tr ie va e f f ic ie nc dur in A I   m ode tr a in in a nd  in f e r e nc e T hi s   a r c hi te c tu r e   a ll ow s   e f f ic ie nt   s c a li ng.  E ns ur in th a t   a s   th e   vol um e   of   m e di c a l   li te r a tu r e  gr ow s , t he  s ys te m  c a n h a ndl e  i nc r e a s e d da ta  l oa d s  w it hout  c om pr om is in g pe r f or m a nc e   [ 10] [ 13 ] .   I our   pi pe li ne th e   ve c to r   da ta b a s e   pl a ys  a   c e nt r a r ol e   in   e na bl in f a s t,   s e m a nt i c a ll a w a r e   r e tr ie va of   m e di c a knowle dge A f te r   in ge s ti ng  a nd  a r c hi vi ng  r a w   a r ti c l e s e a c doc um e nt   is   pr e pr oc e s s e d,  to ke ni z e d,   c le a ne d,  a nd  p a s s e th r ough  a   tr a ns f or m e r - ba s e e n c ode r   to   pr oduc e   f ix e le ngt e m be ddi ng  ve c to r s   th a c a pt ur e   c ont e xt ua m e a ni ng.  T h e s e   e m be ddi ng s   a r e   th e in ge s t e in to   M il vus W e   c onf ig ur e   a in ve r te f il e   w it pr oduc qua nt iz a ti on  ( I V F - P Q )   in de to   ba la nc e   s e a r c s pe e a nd  m e m or f oot p r in t,   a nd  w e   pe r io di c a ll y r e bui ld  i nde x s ha r ds  t o a c c om m oda te  ne w  da ta  w it hout  s e r vi c e  i nt e r r upt io n. A t  que r y t im e to p - ne a r e s ne ig hbor   s e a r c he s   r e tr ie ve   th e   m os r e le v a nt   a r ti c le   e m be ddi ngs   in   s ub - s e c ond  la te nc y.  T he s e   r e tr ie ve d ve c to r s  a r e  t he n de c ode d ba c k i nt o doc um e nt  pa s s a ge s  a nd f us e d i nt o pr om pt s  f or  our  R A G   m odul e .   B le ve r a gi ng  M il vus ' s   s c a la bl e   a r c hi te c tu r e   a nd  a dva n c e d   in de xi ng  te c hni que s our   s y s te m   m a in ta in s   m il li s e c ond - s c a le   s e m a nt ic   r e tr ie va pe r f or m a nc e   e ve a s   th e   m e di c a c or pus   gr ow s   in to   th e   m il li ons   of   r e c or ds , e ns ur in g t ha L L M s  a lwa ys  dr a w  on t he  m os pe r ti ne nt  a nd up - to - da te  i nf or m a ti on   [ 14 ] .   T e nha n c e   th e   c a p a bi li ti e s   of   L L M s   in   ge n e r a ti ng  m e di c a ll a c c ur a te   a nd  c ont e xt ua ll r e le va nt   te xt w e   im pl e m e nt   R A G in s te a of   s ol e ly   r e ly in on   pr e - tr a in e L L M   knowle dge R A G   e na bl e s   m ode ls     to   dyna m ic a ll r e tr ie ve   r e le va nt   m e di c a in f or m a ti on  f r om   th e   H D F S - s to r e da ta s e b e f or e   ge ne r a ti ng  r e s pons e s   [ 15] .   W e   f in e - tu ne   th r e e   s ta te - of - th e - a r L L M s   ( D e e pS e e k - R 1,  G P T - 4o - m in i,   a nd  L la m a   3)   us in g   th e  c ur a te d m e di c a da ta s e s to r e d i n H D F S , t he  f in e - tu ni ng pr oc e s s  i nvol ve s :   i)   D a ta s e pr e pa r a ti on:  e xt r a c ti ng  ke y m e di c a a r ti c le s  a nd  s tr uc tu r in g t he m  f or  f in e - tu ni ng.   ii)   M ode tr a in in g:   us in O ll a m a a ope n - s our c e   pl a tf or m   opt im iz e f or   e f f ic ie nt   L L M   de pl oym e nt to   f in e - tu ne   m ode ls   on  a N V I D I A   G e F or c e   R T X   3050  T G P U th is   s e tu e ns ur e s   f a s te r   tr a in in ti m e s   a nd i m pr ove d i nf e r e nc e  pe r f or m a nc e .   iii)   R A G   im pl e m e nt a ti on:   c om bi ni ng  a   r e tr ie va m e c h a ni s m   w it L L M s w he r e   m ode l s   f ir s s e a r c th e   H D F S - s to r e da ta s e f or   r e le va nt   in f or m a ti on  be f o r e   ge ne r a ti ng  r e s pons e s th is   r e duc e s   ha ll uc in a ti ons   a nd e nha nc e s  t he  f a c tu a a c c ur a c y of  ge ne r a te d m e di c a in s ig ht s .   T r ig or ous ly   e v a lu a te   th e   e f f e c ti ve ne s s   of   our   r e tr ie va pi pe li n e w e   e m pl oye d s ta nda r in f or m a ti on  r e tr ie va m e tr ic s na m e ly   R e c a ll @ a nd  m e a r e c ip r oc a r a nk  ( M R R ) R e c a ll @ m e a s ur e s   th e   pr opor ti on  of   r e le va nt   doc um e nt s   c a pt ur e d   w it hi th e   to p - r e tr ie ve r e s ul ts ,   r e f le c ti ng  th e   br e a dt of   c ov e r a ge   f or   a   gi ve n   m e di c a que r y. M R R , i n c ont r a s t,  e m pha s iz e s  how  e a r ly  t he  f ir s r e le va nt  doc um e nt  a ppe a r s  i n t he  r a nke d l is t,   r e w a r di ng  s ys te m s   th a s ur f a c e   hi ghl pe r ti ne nt   in f or m a ti on   a t   th e   to o f   th e   r e s ul ts U s in a   be nc hm a r s e of   c li ni c a a nd  bi om e di c a que s ti on s w e   c om pa r e our   da il upda te R A G   s ys t e m   a ga in s s ta ti c   ba s e li ne s   s uc a s   M e d - P a L M B io G P T a nd  P ubM e dG P T T he   r e s ul ts   de m ons tr a te   th a our   a ppr oa c c ons is te nt ly   a c hi e ve s   hi ghe r   R e c a ll @ a nd  M R R   s c or e s   a s   s how in   T a bl e   2,  in di c a ti ng  s upe r io r   c ove r a ge   of   ne w ly   publ is he a r ti c le s   a nd   f a s te r   a c c e s s   to   th e   m o s r e le va nt   e vi d e nc e T hi s   va li da te s   th a c ont in uous   in ge s ti on  a nd  in de xi ng  of   m e di c a li te r a tu r e   s ubs ta nt ia ll im pr ove   r e tr ie va qua li ty   a nd  di r e c tl e nha nc e   th e   r e li a bi li t y   of  dow ns tr e a m  a ns w e r  ge ne r a ti on.       T a bl e  2.  E va lu a ti on r e s ul ts  of  m ode ls   M ode l   R e c a l l @ 10   R e c a l l @ 20   M R R @ 10   M R R @ 20   O ur  da i l y R A G   m o de l  ( G P T  4o  m i n i )   0.8 2   0.9 1   0.7 4   0.8 1   M e d - P a L M   0.4 5   0.6 0   0.3 9   0.5 2   B i oG P T   0.4 8   0.6 2   0.4 2   0.5 5   P ubM e dG P T   0.5 0   0.6 5   0.4 4   0.5 7     Evaluation Warning : The document was created with Spire.PDF for Python.
            I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol 15 , N o.  1 F e br ua r y   20 26 :   289 - 299   294   3.   R E S U L T S  A N D  D I S C U S S I O N   3.1.     AI - d r iv e n  t e xt  ge n e r at io n  f or  m e d ic al  ap p li c at io n s   O nc e  t he  f in e - tu ne d m ode ls  a r e  opt im iz e d w it h R A G , t he y a r e   de pl oye d t o ge ne r a te  m e di c a in s ig ht s   in  va r io us  a ppl ic a ti ons a s  de s c r ib e d i n t he  f ol lo w in g.     3.1.1.  C li n ic al   d e c is io n  s u p p or t   O ur   R A G - e nha nc e L L M s   c ont in uous ly   pul in   th e   la te s p e e r - r e vi e w e s tu di e s   a nd  gui de li ne s   f r om   M il vus s ynt he s iz e   th e   m o s r e le va nt   f in di ngs a nd  pr e s e nt   c onc is e e vi de nc e - ba c ke s um m a r ie s   to   c li ni c ia ns .   B e m be ddi ng  th i s   c a p a bi li ty   in to   th e   T e le gr a m   bot   in te r f a c e doc to r s   c a que r c om pl e c a s e s s uc a s   e m e r gi ng  th e r a pe ut ic   pr ot oc ol s   or   r a r e   a dve r s e   e ve nt s a n r e c e iv e   s ubs t a nt ia te r e c om m e nda ti ons   in   s e c onds E ns ur in tr e a tm e nt   de c is io ns   a r e   gr ounde in   th e   m os c ur r e nt   m e di c a li te r a tu r e a s   s how in   F ig ur e s  5 a nd 6.               F ig ur e   5. C li ni c a de c is io n s uppor s ys t e m  pow e r e d by  G P T  4o mi ni  w it h R A G           F ig ur e   6. C li ni c a de c is io n s uppor s ys t e m  pow e r e d by  B io G P T  5   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       E nhanc in g m e di c al  l anguage  m ode ls  w it h bi g data t e c hnol ogi e s  ( A y oub A ll al i)   295   3.1.2. P at ie n t  e d u c a t io n  an d  e n gage m e n t   T he   s y s te m   le ve r a ge s   th e   s a m e   s e m a nt ic   r e tr ie va pi pe li ne   to   tr a ns la te   de ns e   c li ni c a r e s e a r c in to   c le a r la ype r s on - f r ie ndl e xpl a na ti ons   ta il or e to   in di vi dua pa ti e nt   c onc e r ns T he s e   e xpl a n a ti ons   a ddr e s s   s pe c if ic   ne e d s w h e th e r   m e di c a ti on s id e  e f f e c ts li f e s ty le   m odi f ic a ti ons or   pr e ve nt a ti ve   c a r e .   T he   bot   de li ve r s   pe r s ona li z e d,  up - to - da te   gui da nc e   th a e m pow e r s   pa ti e nt s   to   be tt e r   unde r s ta nd  th e ir   c ondi ti ons   a nd  a dhe r e   to   tr e a tm e nt  pl a ns .     3.1.3. Dr u g d is c ove r y an d  d e ve lo p m e n t   P ha r m a c e ut ic a r e s e a r c he r s   c a ha r ne s s   our   pl a tf or m   to   n a vi ga te   va s vol um e s   of   tr ia da ta ,     dr ug dr ug  in te r a c ti on  r e por ts a nd  m ol e c ul a r   s tu di e s T he   L L M s e nr ic he vi a   R A G hi ghl ig ht   pr om is in c om pound  in te r a c ti ons f la s a f e ty   s ig n a ls a nd  s um m a r iz e   c li ni c a tr ia out c om e s T hi s   dr a m a ti c a ll a c c e le r a te s   hypothe s is   g e ne r a ti on  a nd  e na bl e s   m or e   in f or m e de c is io ns   on  c a ndi da t e   s e le c ti on  a nd  tr ia l   de s ig n, a s   s how n i n F ig ur e  7.               F ig ur e   7. D r ug  di s c ove r y a nd de ve lo pm e nt  by  G P T  4o mi ni  w it h R A G       3.1.4.  V ir t u al  h e al t h  as s is t an t s   O ur   P yt hon - dr iv e T e le gr a m   bot   s e r ve s   a s   a in te ll ig e nt   f r ont - li ne   a id e e nga gi ng  u s e r s   in   r e a ti m e   to   tr ia ge   s ym pt om s   or   a n s w e r   r out in e   he a lt in qui r ie s B c o upl in na tu r a l - la ngua ge   di a lo gue   w it in s ta nt   a c c e s s   to   th e   M il vus - in de xe knowle dge   ba s e th e   a s s is ta n ha ndl e s   e ve r yda que s ti ons   a ut onomous ly     w hi le   e s c a l a ti ng  c r it ic a is s u e s   to   hum a pr ovi de r s T hi s   a ppr oa c in c r e a s e s   c a r e   a c c e s s ib il it a nd  r e duc e s   c li ni c ia n w or kl oa d.     3.1.5. M e n t al  h e al t h  s u p p or t   T hr ough  e m pa th e ti c   c onve r s a ti ona f lo w s   pow e r e by  R A G - a ugm e nt e L L M s th e   s ys te m   of f e r s     on - de m a nd  m e nt a he a lt c he c k - in s c opi ng  s tr a te gi e s   r oot e d   in   c ogni ti ve - be ha vi or a pr in c ip le s a nd  e a r ly   a le r ts   f or   c onc e r ni ng  la ngua ge   pa tt e r ns T hi s   a lw a ys - a va il a bl e   c ha in te r f a c e   pr ovi de s   a a ddi ti ona la ye r   of   s uppor t.   I e nc our a ge s   us e r s   to   s e e f ur th e r   c a r e   w he ne e de d,   w hi le   e ns ur in in te r ve nt io ns   a r e   in f or m e by   th e  l a te s ps yc hol ogi c a r e s e a r c h   [ 16] .     Evaluation Warning : The document was created with Spire.PDF for Python.
            I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol 15 , N o.  1 F e br ua r y   20 26 :   289 - 299   296   3.2.  I m p ac t  of   r e al - t im e  d at a s t r e a m in g an d  d is t r ib u t e d  s t o r age   T he   in te gr a ti on  of   r e a l - ti m e   da ta   s tr e a m in a nd   di s tr ib ut e s to r a ge   pl a ys   a   c r uc ia r ol e   in   e ns ur in th e   e f f ic ie nc y,  s c a la bi li ty a nd  r e li a bi li ty   of   A I - dr iv e m e di c a a ppl ic a ti ons A pa c he   K a f ka a s   a   r e a l - ti m e   da ta   s tr e a m in pl a tf or m e na bl e s   c ont in uous   in ge s ti on  of   pr of e s s io na a nd   s c i e nt if ic   m e di c a n e w s   f r om   tr us te s our c e s   s uc h   a s   M e d s c a p e th e   N E J M a nd   t he   L a n c e t.   B le v e r a gi ng  K a f ka ' s   publ is h - s ubs c r ib e   m ode l,   th e   s ys te m   e n s ur e s   th a ne w ly   publ is he m e di c a r e s e a r c is   pr om pt ly   c ol le c te d,  pr oc e s s e d,  a nd  m a de   a va il a bl e   f or   A I   m ode tr a in in a nd  in f e r e nc e .   T hi s   r e a l - ti m e   in ge s ti on  c a pa bi li ty   i s   c r it ic a in   th e   m e di c a dom a in w he r e   up - to - da te   knowle dge   is   e s s e nt ia f or   a c c ur a te   di a gnos e s tr e a tm e nt   r e c om m e nda ti ons a nd  pa ti e nt   s uppor t.   A ddi ti ona ll y,  H a doop  H D F S   pr ovi de s   a   r obu s t,   di s tr ib ut e s to r a ge   s ol ut io th a e f f ic ie nt l y   m a na ge s  l a r ge  vol um e s  of  m e di c a te xt  da ta  w hi le  m a in ta in in hi gh a va il a bi li ty  a nd f a ul to le r a nc e   [ 17]   T hi s   a r c hi te c tu r e   e nh a nc e s   th e   pe r f or m a nc e   of   R A G   by  a ll ow in L L M s   to   dyna m ic a ll a c c e s s     up - to - da te   in f or m a ti on,   s ig ni f ic a nt ly   r e duc in th e   r is of   o ut da te or   in c or r e c A I - ge ne r a te r e s pons e s F ur th e r m or e th e   us e   of   a   di s tr ib ut e f il e   s y s te m   e nha n c e s   s c a la bi li ty e ns ur in th a t   th e   s ys te m   c a h a ndl e   in c r e a s in vol um e s   of   m e di c a li te r a tu r e   w it hout   de gr a da ti o in   pe r f or m a nc e T he   c om bi ne pow e r   o f   K a f ka ' s   r e a l - ti m e   da ta   in ge s ti on  a nd   H D F S ' s   di s tr ib ut e s to r a g e   e na bl e s   a   c ont in uous ly   e vol vi ng  knowl e dge   ba s e , i m pr ovi ng t he  a c c ur a c a nd r e le va nc e  of  L L M - ge ne r a te m e di c a in s ig ht s   [ 18] .     3.3.     E f f e c t iv e n e s s  o f  R A G  i n   r e d u c in g h al lu c in at io n s   T he   in te gr a ti on  of   R A G   s ig ni f ic a nt ly   im pr ove s   th e   a c c ur a c y   a nd  r e li a bi li ty   of   L L M s   by  r e duc in g   ha ll uc in a ti ons a   c om m on   is s u e   w he r e   A I   m ode ls   g e ne r a te   m is le a di ng  or   in c or r e c in f or m a ti on  due   to   li m it a ti ons   in   th e ir   pr e - tr a in e knowle dge T r a di ti ona L L M s   r e ly   s ol e ly   on  pr e - e xi s ti ng  tr a in in da ta w hi c c a be c om e   out da te or   la c dom a in - s pe c if ic   de ta il s pa r ti c ul a r ly   in   dyna m ic   f ie ld s   li ke   m e di c in e R A G   m it ig a te s   th is   by  in c or por a ti ng  a   r e tr ie va m e c ha ni s m   th a a c c e s s e s   th e   m os r e c e nt c ont e xt ua ll r e le va nt   m e di c a li te r a tu r e   f r om   H a doop  H D F S pow e r e by   r e a l - ti m e   da ta   s tr e a m e f r om   A pa c he   K a f ka e n s ur in f a c tu a ll y gr ounde d a nd up - to - da te  r e s pons e s .     I our   im pl e m e nt a ti on,  a ll   th r e e   L L M s   ( D e e pS e e k - R 1,  G P T - 4o - m in i,   a nd  L la m a   3)   de m ons tr a te d   im pr ove a c c ur a c a nd  c ont e xt u a r e le va nc e   w he e nha n c e d   w it R A G pa r ti c ul a r ly   in   c li ni c a de c is io s uppor t,   dr ug  di s c ove r y,  a nd  pa ti e nt   e duc a ti on  us e   c a s e s T he   m ode ls   w e r e   a bl e   to   r e f e r e nc e   th e   la te s m e di c a s tu di e s   a nd  gui de li ne s s ig ni f ic a nt ly   r e duc in s pe c ul a ti ve   or   in c or r e c r e s pons e s A ddi ti ona ll y,  R A G   e nha nc e s   e xpl a in a bi li ty   by   a ll ow in m ode l s   to   c it e   s p e c if ic   doc um e nt s   or   s our c e s th e r e by   im pr ovi ng  tr us twor th in e s s  i n c r it ic a m e di c a a ppl ic a ti on s   [ 19] .     3.4.     P e r f or m an c e   ac r o s s  d i f f e r e n t   L L M s   T he   pe r f or m a nc e   of   th e   th r e e   f in e - tu ne L L M s   ( D e e pS e e k - R 1,  G P T - 4o - m in i,   a nd  L la m a   3)   va r ie d   a c r os s   di f f e r e nt   m e di c a a ppl ic a ti ons hi ghl ig ht in th e   s tr e ngt hs   a nd  tr a de - of f s   of   e a c m ode in   ha ndl in g   c om pl e he a lt hc a r e - r e la te que r ie s G P T - 4o - m in de m ons tr a te e xc e pt io na na tu r a la ngu a ge   f lu e nc y,   m a ki ng  it   pa r ti c ul a r ly   e f f e c ti ve   in - pa ti e nt   e nga ge m e nt m e nt a he a lt s uppor t,   a nd  vi r tu a he a lt a s s is t a nt   a ppl ic a ti ons   w he r e   c onve r s a ti ona c ohe r e nc e   a nd  e m ot io na in te ll ig e nc e   a r e   c r uc ia l,   it s   a bi li ty   to   ge ne r a te   c ont e xt - a w a r e   r e s pons e s   w it hi gh  r e a da bi li ty   m a de   it   th e   pr e f e r r e c hoi c e   f or   s c e na r io s   r e qui r in   hum a n - li ke   in te r a c ti on  a nd  e m pa th e ti c   c om m uni c a ti on. De e pS e e k - R 1,  on  th e   ot he r   ha nd, e xc e ll e in   m e di c a r e s e a r c h - or ie nt e ta s k s s uc a s   s um m a r iz in c li ni c a tr ia da ta e xt r a c ti ng  ke f in di ngs   f r om   m e di c a li te r a tu r e a nd  id e nt if yi ng  pot e nt ia dr ug  in te r a c ti ons it s   s tr ong  a na ly ti c a c a pa bi li ti e s   a ll ow e f or   m or e   s tr uc tu r e d,  in f or m a ti on - de ns e   out put s m a ki ng   it   hi ghl y   s ui ta bl e   f or   s c ie nt if ic   a nd  pha r m a c e ut ic a r e s e a r c a ppl ic a ti ons .   L la m a   pr ovi de a   ba la nc e pe r f or m a nc e   a c r os s   m ul ti pl e   us e   c a s e s de m on s tr a ti ng  r obus c ont e xt ua unde r s ta ndi ng  in   c li ni c a d e c is io s uppor w hi le   m a in ta in in r e a s ona bl e   f lu e nc in   pa ti e nt - or ie nt e d di a lo gue s , i ts  e f f ic ie nc y i n r e a l - ti m e   R A G   w or kf lo w s  e ns ur e d t ha m e di c a in s ig ht s  w e r e  c ons is t e nt ly   a c c ur a te  a nd w e ll - r e f e r e nc e d.   I nt e gr a ti ng  th e s e   m ode ls   w it A pa c he   K a f ka   a nd  H a doop  H D F S   e na bl e c ont in uous   upda te s   a nd  f in e - tu ni ng  us in f r e s m e di c a da ta r e duc in r e li a nc e   on  s ta ti c   knowle dge   ba s e s H ow e ve r m ode pe r f or m a nc e   w a s   in f lu e nc e by   c om put a ti ona c on s tr a in ts w it h   G P T - 4o - m in c ons um in m or e   r e s our c e s   due   to   it s   a dva nc e r e a s oni ng  c a pa bi li ti e s ,   w hi le   D e e pS e e k - R a n L la m a   of f e r e be tt e r   e f f ic ie nc y - a c c ur a c y   ba la nc e A ddi ti ona ll y,  ha ndl in a m bi guous   m e di c a que r ie s   po s e c ha ll e nge s a s   di f f e r e nc e s   in   e a c m ode l' s   tr a in in g a r c hi te c tu r e  a f f e c te d doc um e nt  pr io r it iz a ti on f r om  H D F S   [ 20] , [ 21 ] .     3.5.  Ch al le n ge s  an d  l im it at io n s   D e s pi te   th e   pr om is in r e s ul ts   of   in te gr a ti ng  bi da ta   te c hn ol ogi e s   w it R A G - e nha nc e L L M s s e ve r a c ha ll e nge s  a nd l im it a ti ons  m us be   a ddr e s s e d t o opti m iz e  t he ir  r e a l - w or ld  a ppl ic a ti on i n t he  he a lt hc a r e   dom a in O ne   of   th e   pr im a r c ha ll e nge s   is   c om put a ti ona r e s o ur c e   c ons tr a in ts a s   f in e - tu ni ng  a nd  de pl oyi ng  L L M s  on l a r ge - s c a le  m e di c a da ta s e ts  r e qui r e  s ig ni f ic a nt  G P U   pow e r  a nd me m or y. W hi le  ou r  s ys te m  ut il iz e d   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       E nhanc in g m e di c al  l anguage  m ode ls  w it h bi g data t e c hnol ogi e s  ( A y oub A ll al i)   297   a N V I D I A   G e F or c e   R T X   3050  T i,   tr a in in la r ge r   m ode ls   on  hi gh - di m e ns io na m e di c a da ta   r e m a in s   c om put a ti ona ll e xpe ns iv e   a nd  ti m e - in te ns iv e li m it in th e   f e a s ib il it of   r e a l - ti m e   f in e - tu ni ng  f or   s m a ll e r   he a lt hc a r e   or ga ni z a ti ons D a ta   qua li ty   a nd  bi a s   pos e   c r it ic a c onc e r ns a s   A I   m ode ls   de pe nd  on  th e   r e li a bi li t y   of   th e ir   tr a in in a nd  r e tr ie va da ta E ve th ough   m e di c a li te r a tu r e   f r om   N E J M   w a s   us e a s   a   pr im a r da t a   s our c e , i nhe r e nt  bi a s e s  i n c li ni c a r e s e a r c h, di s pa r it ie s  i n pa ti e nt  de m ogr a phi c s , a nd outda te d m e di c a f in di ngs   c oul d pote nt ia ll y s ke w  m ode pr e di c ti ons   [ 22] , [ 23] .   E ns ur in da ta   di ve r s it y,  de - bi a s in m e th odol ogi e s a nd  c ont in uous   va li da ti on  by  m e di c a pr of e s s io na ls   is   e s s e nt ia to   m it ig a te   th e s e   r is k s a not he r   li m it a ti on  is   th e   r e tr ie va la te nc w it hi th e   A pa c h e   H a doop   H D F S   e c os ys te m pa r ti c ul a r ly   w he ha ndl in la r g e - s c a le   uns tr uc tu r e te xt   da ta w hi le   R A G   im pr ove s   f a c tu a a c c ur a c y,  in e f f ic ie nt   r e tr ie va m e c ha ni s m s   c oul s lo w   dow r e s pons e   ti m e s a f f e c ti ng  us a bi li ty   in   ti m e - s e ns it iv e   a ppl ic a ti ons   li ke   c li ni c a de c is io s u ppor t.   R e gul a to r a nd  e th ic a c onc e r ns   r e m a in   s ig ni f ic a nt   ba r r ie r s   to   de pl oym e nt a s  A I - ge ne r a te m e di c a in s ig ht s   m us c om pl w it he a lt hc a r e   r e gul a ti ons   s uc a s   he a lt in s ur a nc e   por ta bi li ty   a nd  a c c ount a bi li ty   a c ( H I P A A )   a nd  ge ne r a da ta   p r ot e c ti on  r e gul a ti on   ( G D P R )   to   e ns ur e   da ta   pr iv a c a nd  s e c ur it y,  th e   r is of   m is in te r pr e ta ti on  a nd  ove r - r e li a nc e   on  A I - ge ne r a te d   r e c om m e nda ti ons   a ls hi ghl ig ht s   th e   ne e f or   e xpl a in a bi li ty   a nd  in te r pr e ta bi li ty   f r a m e w or ks a ll ow in doc to r s   to   ve r if A I   s ugge s ti ons   be f or e   m a ki ng  c r it ic a m e di c a de c is io ns .   L a s tl y,  ha ndl in a m bi guous   m e di c a que r ie s   r e m a in s   a   c ha ll e nge a s   L L M s   m a s tr uggl e   w it va gue   s ym pt om s r a r e   di s e a s e s or   c onf li c ti ng  m e di c a opi ni ons f ut ur e   im pr ove m e nt s   s houl f oc us   on  hybr id   r e tr ie va m ode l s   c om bi ni ng  ke yw or d - ba s e a nd  s e m a nt ic   s e a r c h   te c hni que s opt im iz e i nde xi ng  s tr a te gi e s   f or   f a s te r   a c c e s s   to   s to r e d   m e di c a da ta a nd  c ol la bor a ti ve   A I - hum a de c is io n - m a ki ng  f r a m e w or ks   to   m a xi m iz e   r e li a bi li ty a ddr e s s in g   th e s e   c ha ll e ng e s   w il be   c r uc ia in   e nh a nc in th e   s c a la bi li ty ,   a c c ur a c y,  a nd  tr us twor th in e s s   of   A I - dr iv e n   he a lt hc a r e  s ol ut io ns  i n c li ni c a pr a c ti c e   [ 24] [ 26] .       4.   C O N C L U S I O N     T hi s   r e s e a r c h   de m ons tr a te s   th a t   in te gr a ti ng  s c a la bl e   bi g   da ta   in f r a s tr uc tu r e s   w it R A G e nha n c e L L M s  c a n dr a m a ti c a ll y i m pr ove  t he  r e le va nc e , a c c ur a c y, a nd t im e li ne s s  of  A I - dr iv e n m e di c a a ppl ic a ti ons  by   s tr e a m in a nd  a r c hi vi ng  pr of e s s io na m e di c a ne w s s e m a nt ic a l ly   in de xi ng  m il li ons   of   doc um e nt s   in   M il vus ,   a nd  f in e - tu ni ng  s ta te - of - th e - a r L L M s   f or   s ub  s e c ond,  e vi de nc e - ba c ke in s ig ht s .   T o   a dva nc e   th is   f r a m e w or k,  f ut ur e   w or m us dr iv e   ul tr a - lo w - la te nc r e tr ie va th r ough  o pt im iz e ve c to r   in de xi ng  a nd  hybr id   s e a r c h   s tr a te gi e s e xt e nd  m ode c a pa bi li ti e s   by   f us in m ul ti - m oda da ta   s uc a s   r a di ol ogy  im a ge s ,   e le c tr oni c   he a lt r e c or ds a nd  ge nom ic s   in to   a   uni f ie e m be ddi ng  s pa c e a nd  e m be e xpl a in a bi li ty   vi a   e xpl a in a bl e   a r ti f ic ia in te ll ig e nc e   ( X A I )   m odul e s   th a tr a c e   e a c r e c om m e nda ti on  ba c to   it s   s our c e E qua ll c r it ic a is   e ns ur in g   e th ic a l,   c om pl ia nt   de pl oym e nt im pl e m e nt in pr iv a c s a f e gua r ds hum a n - in - th e - lo op  ve r if ic a ti on,  a nd   a dhe r e nc e   to   H I P A A G D P R a nd e m e r gi ng  A I   r e gul a ti ons to  m it ig a te   bi a s   a nd   ove r - r e li a nc e   on  a ut om a ti on;   f in a ll y,  de m oc r a ti z in a c c e s s   a nd  s uppor ti ng  c ont in ua le a r n in a c r os s   in s ti tu ti ons   w il r e qui r e   s c a la bl e di s tr ib ut e tr a in in a ppr oa c he s in c lu di ng  c lo ud - ba s e pl a tf o r m s f e de r a te le a r ni ng,  a nd  e dge - di s tr ib u te d   G P U   c lu s te r s B a ddr e s s in g   th e s e   c h a ll e nge s ,   w e   c a tr a n s f or m   to da y' s   pr oof - of - c onc e pt   in to   a   gl oba ll y   de pl oya bl e r e a l - ti m e a nd  tr us twor th y   A I - pow e r e d   m e di c a de c is io n - s uppor e c os ys te m   th a e le va te s   pa ti e nt   c a r e  a nd a c c e le r a te s  bi om e di c a di s c ove r y.       F U N D I N G  I N F O R M A T I O N   A ut hor s  s ta te  no f undi ng i nvol ve d.       A U T H O R  C O N T R I B U T I O N S  S T A T E M E N T   T hi s   jo ur na us e s   th e   C ont r ib ut or   R ol e s   T a xonomy  ( C R e di T )   to   r e c ogni z e   in di vi dua l   a ut hor   c ont r ib ut io ns , r e duc e  a ut hor s hi p di s put e s a nd f a c il it a te  c ol la bo r a ti on     N am e  o f  A u t h or   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   A youb Alla li                               I bt ih a A bouc ha ba ka                               N a ja R a f a li                                 C     C onc e pt ua l i z a t i on   M     M e t hodol ogy   So     So f t w a r e   Va     Va l i da t i on   Fo     Fo r m a l  a na l ys i s   I     I nve s t i ga t i on   R     R e s our c e s   D   :   D a t a  C ur a t i on   O   :   W r i t i ng  -   O r i gi na l  D r a f t   E   :   W r i t i ng  -   R e vi e w  &   E di t i ng   Vi     Vi s ua l i z a t i on   Su     Su pe r vi s i on   P     P r oj e c t  a dm i ni s t r a t i on   Fu     Fu ndi ng a c qui s i t i on     Evaluation Warning : The document was created with Spire.PDF for Python.
            I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol 15 , N o.  1 F e br ua r y   20 26 :   289 - 299   298   C O N F L I C T  O F  I N T E R E S T  S T A T E M E N T   A ut hor s  s ta te  no c onf li c of  i nt e r e s t.       D A T A  A V A I L A B I L I T Y   T he   da ta   th a s uppor th e   f in d in gs   of   th is   s tu dy  a r e   ope nl y   a va il a bl e   in   N E J M   R S S   F E E D   a t   ht tp s :/ /ww w .ne jm .or g/ r s s - f e e d/       R E F E R E N C E S   [ 1]   C B ur ga n,  J K ow a l s ki ,   a nd  W L i a o,  D e ve l opi ng  a   r e t r i e va l   a ugm e nt e ge ne r a t i on  ( R A G )   c ha t bot   a pp  u s i ng  a da pt i ve   l a r g e   l a ngua ge   m ode l s   ( L L M )   a nd  L a ngC h a i f r a m e w or k,”   P r oc e e di ngs   of   t he   W e s t   V i r gi ni A c ade m y   of   Sc i e nc e vol 96,  no.  1,  2024,  doi :  10.55632/ pw va s .v96i 1.1068.   [ 2]   Y M a o,  X D ong,  W X u,  Y G a o,  B .   W e i a nd  Y Z ha ng,  F I T - R A G :   bl a c k - box  R A G   w i t f a c t ua l   i n f or m a t i on   a nd  t oke r e duc t i on,”   A C M  T r ans ac t i ons  on I nf or m at i on Sy s t e m s , vol . 43, no. 2, pp. 1 27 , M a r . 2025, doi :  10.1145/ 3676957.   [ 3]   D. - I M S c hi e l e Y .   G i t t m a nn,  S .   I l c hm a nn,  A .   G oj s a l i ć D J u r i i ć a nd  P .   K l e m pt V ot i ng  a dvi c e   a ppl i c a t i ons :   i m pl e m e nt a t i on   of  R A G - s uppor t e d L L M s ,”   T e c hR x i v , J ul . 2024, doi :  10.36227/ t e c hr xi v.172115156.64500701/ v1.   [ 4]   K . S i ngha l   e t  al . ,  “ T ow a r d e xpe r t - l e ve l  m e di c a l  que s t i on a ns w e r i ng w i t h l a r ge  l a ngua ge  m ode l s ,”   N at ur e  M e di c i ne , vol . 31,  no. 3 ,   pp. 943 950, M a r . 2025, doi :  10.1038/ s 41591 - 024 - 03423 - 7.   [ 5]   A Y A l a n,  E K a r a a r s l a n,  a nd  Ö A ydı n,   I m pr ov i ng  L L M   r e l i a bi l i t w i t R A G   i r e l i gi ous   que s t i on - a ns w e r i ng:   M uf a s s i r Q A S ,”   T ur k i s h J our nal  of  E ngi ne e r i ng , vol . 9, no. 3, pp. 544 559, J ul . 2025, doi :  10.3 1127/ t uj e .1624773.   [ 6]   Z X i a o,  X H e H W u,  B Y u,  a nd  Y G uo,  E D A - C opi l ot :   a   R A G - po w e r e i nt e l l i ge nt   a s s i s t a nt   f or   E D A   t ool s ,”   A C M   T r ans ac t i ons  on D e s i gn A ut om at i on of  E l e c t r oni c  Sy s t e m s , vol . 30, no. 6, pp. 1 24, N ov. 2025, doi :  10.1145/ 3715326.   [ 7]   K S om a e t   al . ,   B i om e di c a l   know l e dge   gr a ph - opt i m i z e p r om pt   ge ne r a t i on   f or   l a r ge   l a ngua ge   m ode l s ,”   B i o i nf or m at i c s vol 40,  no. 9, S e p. 2024, doi :  10.1093/ bi oi nf or m a t i c s / bt a e 560.   [ 8]   D C . - N i e ve s   a nd  L G . - F or t e H um a n - c e nt e r e A I   f o r   m i gr a nt   i nt e gr a t i on   t hr ough  L L M   a nd  R A G   opt i m i z a t i on,”   A ppl i e Sc i e nc e s , vol . 15, no. 1, D e c . 2024, doi :  10.3390/ a pp15010325.   [ 9]   A M a ns ur ova A M a ns ur ova a nd  A N ugum a nova Q A - R A G :   e xpl or i ng  L L M   r e l i a nc e   on  e xt e r na l   know l e dge ,”   B i D at and   C ogni t i v e  C om put i ng , vol . 8, no. 9, S e p. 2024, doi :  10.3390/ bdc c 8090115.   [ 10]   X Z ha o,  X Z hou,  a nd  G .   L i C ha t 2D a t a :   a i nt e r a c t i ve   d a t a   a na l y s i s   s ys t e m   w i t R A G ,   ve c t or   da t a b a s e s   a nd  L L M s ,   P r oc e e di ngs  of  t he  V L D B  E ndow m e nt , vol . 17, no. 12, pp. 4481 4484, A ug. 2024, doi :  10.14778/ 3685800.3685905.   [ 11]   J . S . J a uhi a i ne n a nd A .  G . G u e r r a , “ E va l ua t i ng s t ude nt s  ope n - e nde w r i t t e n r e s pons e s  w i t L L M s :  us i ng t h e  R A G  f r a m e w or k f or   G P T - 3.5,  G P T - 4,  C l a ude - 3,  a nd  M i s t r a l - L a r ge ,”   A dv anc e s   i A r t i f i c i al   I nt e l l i ge nc e   and  M ac hi ne   L e ar ni ng vol 4,  no.  4,     pp. 3097 3113, 2024, doi :  10.54364/ A A I M L .2024.44177.   [ 12]   K F a ng,  C T a ng,   a nd  J .   W a ng,  E va l ua t i ng  s i m ul a t e t e a c hi ng  a udi o   f or   t e a c he r   t r a i ne e s   us i ng  R A G   a nd  l oc a l   L L M s ,”   Sc i e nt i f i c   R e por t s , vol . 15, no. 1, J a n. 2025, doi :  10.1038/ s 41598 - 025 - 87898 - 5.   [ 13]   S V i di ve l l i M R a m a c ha ndr a n,  a nd  A .   D ha r unba l a j i E f f i c i e nc y - dr i ve c us t om   c ha t bot   de ve l opm e nt :   unl e a s hi ng  L a ng C ha i n,   R A G a nd  pe r f or m a nc e - opt i m i z e L L M   f us i on,   C om put e r s M at e r i al s   &   C ont i nua vol 80,  no.  2,  pp.  2423 2442,  2024,    doi :  10.32604/ c m c .2024.054360.   [ 14]   Y W a ng,  S L e ut ne r M I ngr i s c h,  C K l e i n,  L C H i n s ke a nd  K D a nha u s e r O pt i m i z i ng  da t a   e xt r a c t i on:   ha r ne s s i ng  R A G   a nd   L L M s   f or   G e r m a m e di c a l   doc um e nt s ,”   D i gi t al   H e al t and   I nf or m at i c s   I n nov at i ons   f or   Sus t ai nabl e   H e al t C ar e   Sy s t e m s   vol . 316, pp. 949 950, A ug. 2024, doi :  10.3233/ S H T I 240567.   [ 15]   R S M W a hi dur S K i m H C hoi D S B ha t t i a nd  H . - N L e e L e ga l   qu e r R A G ,”   I E E E   A c c e s s vol 13,  pp.  36978 36994 ,   2025, doi :  10.1109/ A C C E S S .2025.3542125.   [ 16]   A A l l a l i N B oua na ni I .   A bouc ha ba ka a nd  N R a f a l i a A dva nc i ng  e l de r l c a r e   t hr ough  bi g   da t a   a na l yt i c s   a nd  m a c hi ne   l e a r ni ng   f or   da i l y   a c t i vi t c ha r a c t e r i z a t i on,”   I ndone s i an  J our nal   of   E l e c t r i c al   E ng i ne e r i ng  and  C om put e r   Sc i e nc e vol 36,  no.  3,    pp. 1969 1975, D e c . 2024, doi :  10.11591/ i j e e c s .v36.i 3.pp1969 - 1975.   [ 17]   M S on,  Y . - J W on,  a nd  S L e e O pt i m i z i ng  l a r ge   l a ngua g e   m ode l s :   a   de e d i ve   i nt e f f e c t i ve   pr om pt   e ngi ne e r i ng  t e c hni que s ,   A ppl i e d Sc i e nc e s , vol . 15, no. 3, J a n. 2025, doi :  10.3390/ a pp15031430.   [ 18]   K E K a nna m m a l M R K A ni r udh   K P T a m i z hi ni ya l G G a ni s hka r a nd   C A dr i na t h F i n - R a a   R a s ys t e m   f or   f i na nc i a l   doc um e nt s ,”   I nt e r nat i onal   J our nal   of   I nnov at i v e   Sc i e nc e   and  R e s e ar c T e c h nol ogy vol 10,  no.  4,   pp.  1761 1767,  A p r 2025,     doi :  10.38124/ i j i s r t / 25a pr 1147.   [ 19]   P P a ny,  R e a s oni ng  e ngi ne   w i t pr e - t r a i ne L L M s :   a ope r a t i on  G P T ,”   I nt e r nat i onal   J our nal   f or   R e s e ar c i A ppl i e Sc i e nc e   and E ngi ne e r i ng T e c hnol ogy , vol . 13, no. 4, pp. 2452 2463, A pr . 2025, doi :  10.22214/ i j r a s e t .2025.68761.   [ 20]   J W a ng  e t   al . H i e r a r c hi c a l   i nde r e t r i e va l - dr i ve w i r e l e s s   ne t w or i nt e nt   t r a ns l a t i on  w i t L L M ,”   I E E E   T r ans ac t i ons   on  M obi l e   C om put i ng , vol . 24, no. 10, pp. 9837 9851, O c t . 2025, doi :  10.1109/ T M C .2025.3564937.   [ 21]   A S ghi r A A l l a l i N R a f a l i a a nd  J A bouc ha ba ka ,   A dva nc e d   s t r a t e gi e s   f or   bi da t a   r e s our c e   a nd  s t or a ge   opt i m i z a t i on:   a A I   pe r s pe c t i ve ,”   I nt e r nat i onal   J ou r nal   of   A dv anc e C om put e r   Sc i e nc e   and  A ppl i c at i ons vol 16,  no.  8,  2025,     doi :  10.14569/ I J A C S A .2025.0160896.   [ 22]   C C a r pe nt e r Z e r o - s hot   l e a r ni ng   w i t l a r ge   l a ngua ge   m ode l s   e nha nc e s   dr i l l i ng - i nf or m a t i on   r e t r i e va l ,”   J our nal   of   P e t r ol e um   T e c hnol ogy , vol . 77, no. 1, pp. 92 95, J a n. 2025, doi :  10.2118/ 0125 - 0092 - J P T .   [ 23]   A A l l a l i Z .   E .   F a l a h,  A S ghi r J A bouc ha ba ka a nd  N R a f a l i a ,   A   c om pa r a t i ve   a na l ys i s   of   G P U s T P U s D P U s a nd  Q P U s   f o r   de e l e a r ni ng  w i t pyt hon,”   I ndone s i an  J our nal   of   E l e c t r i c al   E ngi ne e r i ng  and   C om put e r   Sc i e nc e vol 38,  no.  2,   pp.  1324 1330,   M a y 2025, doi :  10.11591/ i j e e c s .v38.i 2.pp1324 - 1330.   [ 24]   W B i   e t   al . L e ve r a gi ng   t he   dua l   c a pa bi l i t i e s   of   L L M :   L L M - e nh a nc e d   t e xt   m a ppi ng  m ode l   f or   pe r s ona l i t de t e c t i on,”   P r oc e e di ngs   of   t he   A A A I   C onf e r e nc e   on  A r t i f i c i al   I nt e l l i ge nc e vol .   39,  no.  22,  pp.  23487 23495,  A pr 2025,     doi :  10.1609/ a a a i .v39i 22.34517.   [ 25]   V M a l i k,  H a doop   di s t r i but e f i l e   s ys t e m   ( H D F S )   w i t i t s   a r c hi t e c t ur e ,”   I nt e r nat i onal   J our nal   f or   R e s e ar c i A ppl i e Sc i e nc e   and E ngi ne e r i ng T e c hnol ogy , vol . 13, no. 5, pp. 6031 6034, M a y 2025, doi :  10 .22214/ i j r a s e t .2025.71584.   [ 26]   S A w a s t hi   a nd   N K ohl i H ybr i e nc r ypt i on  f or   f or t i f yi ng  H D F S   da t a ,”   I nt e r nat i onal   J our nal   of   B as i c   and   A ppl i e Sc i e nc e s vol . 14, no. 5, pp. 436 454, S e p. 2025, doi :  10.14419/ m 46f n971.   Evaluation Warning : The document was created with Spire.PDF for Python.