Asistenți AI locali, cu accelerare grafică NVIDIA AI (Chat RTX, Open WebUI)

Autor: Andrei Girbea

În acest articol discutăm despre Asistenți de tip chat cu Inteligență Artificială (Chat GPT AI) meniți să fie instalați local pe computerul vostru și să vă ofere răspunsuri prin aplicarea unor modele LLM (large language models) asupra datelor pe care sunt deja antrenate aceste modele, corelate cu datele/informațiile voastre, pe care le puneți la dispoziția sistemului local, pe computerul vostru.

În linii mari, un astfel de asistent este o soluție software ce interpretează informațiile pe care le accesează și le procesează în urma unor interpelări ale utilizatorului, în vedere returnării de răspunsuri la aceste întrebări.

Asistentul folosește un model LLM pre-antrenat, cel mai probabil unul dintre cele populare dezvoltate de OpenAI, Meta sau Google, pe care îl combină cu informațiile din documentele/imaginile specifice la care îi dai tu acces sau chiar și cu informații disponibile online, pentru a putea oferi răspunsuri specifice pe un anumit domeniu. Spre exemplu, dacă doriți să aflați detalii exacte despre un anumit aspect ce ține de cele mai noi tehnologii abia lansate (precum seria NVIDIA Blackwell GeForce RTX 5000), acestea nu vor fi cunoscute de modele LLM pre-antrenate, și va trebui fie să oferiți GPT-ului acces online prin intermediul unui motor de căutare, fie să îi puneți la dispoziție documente locale cu informații legate de aceste tehnologii.

Există două avantaje importante ale unei implementări locale față de multitudinea de soluții online existente, precum popularele și performantele ChatGPT sau Deepseek: controlul strict asupra accesului la datele voastre pe care le oferiți spre procesare, și costul. Folosind un Asistent AI instalat pe calculatorul vostru, îi puteți da acces la date importante și private ce vor fi interpretate local și astfel nu vor ajunge într-un Cloud și nu vor putea fi accesate de terți. În plus, soluțiile locale pot fi utilizate în mod gratuit, în vreme ce opțiunile performante online sunt contra cost.

Acestor aspecte li se adaugă și rapiditatea în procesare a implementărilor locale, în limitele posibilităților hardware-ului din sistemul vostru, desigur, precum și faptul că puteți folosi aceste soluții și fără a avea nevoie de o conexiune la Internet.

Pe de altă parte, soluțiile online sunt în general mult mai ușor de folosit, necesitând accesarea unui link și crearea unui cont. În plus, modelele LLM folosite de acestea sunt în majoritatea cazurilor mai actualizate și mai performante decât cele pe care le puteți folosi offline pe calculatorul vostru, deși acest aspect este discutabil, după cum veți vedea în acest articol.

Acestea fiind spuse, vom aborda două direcții în cadrul articolului. Discutăm întâi despre soluția ChatRTX a celor de NVIDIA, cel mai simplu mod de a instala un Asistent AI local, dar care funcționează doar cu un număr restrâns de modele LLM predefinite și doar pe anumite sisteme echipate cu cipuri grafice NVIDIA RTX 3000 sau mai recente. Iar mai apoi abordăm soluția mai complexă, mai avansată, care aduce Open WebUI pe computerul vostru, alături de orice model doriți să folosiți, atât timp cât el poate fi rulat pe hardware-ul vostru, pentru că modelele avansate au necesități hardware semnificative.

NVIDIA ChatRTX – un Chatbot AI simplu de instalat și folosit

ChatRTX este o aplicație de Windows pe care o descarci simplu de pe site-ul celor de la NVIDIA. Fișierul de instalare are vreo 10 GB, iar aplicația instalată pe calculator necesită 10-25 GB spațiu de stocare, în funcție de modelele pe care doriți să le folosiți. Instalarea durează circa 20 de minute, poate și mai bine.

Odată finalizat procesul de instalare, lansați aplicația și veți fi puși direct în fața unei interfețe de chatbox în care puteți lansa comenzi și întrebări fie prin tastare, fie prin dictare. E important de menționat că interpelările funcționează în limba engleză, modelele oferite fiind antrenate doar pe engleză. Teoretic, puteți pune întrebări și în română, dar rezultatele vor fi discutabile.

Simplitatea în instalare și utilizare este principalul atu al acestei soluții. Dar poate mai important este faptul că puteți da aplicației access la propriul univers format din documente și imagini în care să caute răspunsuri întrebărilor voastre, pe care să le interpreteze prin intermediul LLM-ului selectat. Eu am dat aplicației acces la un folder cu câteva zeci de GB de poze, teste și articole de pe site-ul în engleză, Ultrabookreview.com, pentru a vedea cât de ușor pot extrage anumite informații din aceste documente.

ChatRTX se folosește de informațiile din această bază de date coroborate cu informațiile pre-antrenate în cadrul modelului LLM aplicat, creând ceea ce poartă denumirea de RAG (Retrieval augmented generation). Asistentul caută informațiile cerute în baza de date pusă la dispoziție, coroborată cu informațiile din LLM. Dacă informațiile cerute nu sunt oferite în baza locală, atunci le ia doar din LLM. Și dacă informațiile sunt foarte noi și nu sunt incluse nici în LLM, atunci nu va putea oferi un răspuns adecvat. Aplicația folosește interfața TensorRT LLM și accelerarea grafică oferită de plăcile grafice NVIDIA GeForce RTX pentru a oferi răspunsuri rapide și precise, însă cu unele limitări pe care ar fi bine să le înțelegeți.

Totuși, e foarte important de remarcat că în această ecuație sunt importante atât informațiile puse la dispoziție local, cât și utilizarea unui model LLM cât mai actual în cazul în care doriți informații specifice și recente pe un anumit subiect. Dacă vă interesează o informație atemporală sau mai veche, atunci și modelele mai vechi le pot oferi, dar dacă se cer informații de ultimă oră, lucrurile se schimbă. Mai multe informații despre conceptul de RAG și importanța sa în cadrul unui asistent de tip AI Chatbot găsiți în aceste articole: 1, 2.

În practică, ChatRTX oferă posibilitatea de a procesa informații text (fișiere .pdf .txt. doc. etc) prin intermediul LLM-urilor Mistral 7B, Llama2 13B sau Gemma 7B, toate modele de generație early-2024. Pe lângă aceasta, există și un model CLIP by OpenAI ce permite procesarea de informații din interpretarea imaginilor (.jpg, .png, .tiff). Important de menționat că modelele Llama și Gemma sunt disponibile standard doar pe configurațiile cu cipuri grafice NVIDIA de top, precum RTX-ul 4090 cu 16GB vRAM din laptopul pe care rulez eu testele. Mistral și CLIP sunt disponibile pe sisteme cu minim 8 GB memorie video (precum RTX 4060/4070 sau 4080, sau mai noile RTX 5070-5090), dar se poate oarecum forța utilizarea Llama si pe cipurile de acest tip.

În scenariul meu de utilizare, mi-am propus să folosesc această aplicație pentru a găsi rapid informații despre anumite laptopuri și tehnologii testate în decursul anilor.

Am început cu cerințe simpliste, precum sumarizarea succintă a unor articole de câteva mii de cuvinte, realizarea de comparații rapide între două laptopuri testate de noi, sau interpelarea de informații clare existente în articole.

De exemplu, am cerut sumarizarea unor articole de tip review, fie într-un anumit număr de cuvinte, fie la liber. Toate modelele se achită cu brio de acest task, cu un oarece avantaj pentru Gemma în modul de prezentare a informațiilor.

Apoi am cerut o comparație rapidă între două produse, pe baza review-urilor existente în RAG. Aici avem răspunsuri bune pe Mistral și Llama, dar Gemma răspunde corect la doar una dintre interpelări, nu la ambele.

Apoi am făcut o interpelare în limba română, al cărui rezultat necesită parsarea unui PDF cu cateva zeci de pagini, în limba română. Llama și Gemma returnează răspunsuri corecte în limba română, însă în cadrul Gemma informațiile sunt foarte succinte. Tot succint răspunde și Mistral, care traduce informațiile din română în engleză. Per total Llama se descurcă cel mai bine pe interpretarea informațiilor în română.

Important de menționat că sumarizarea returnează rezultate bune în special în cazul în care subiectul la care se face referință este inclus în RAG prin intermediul bazei locale de informații. Dacă nu, atunci rezultatele variază.

De exemplu, am cerut informații despre platforma hardware NVIDIA GeForce RTX 5000 Blackwell, și fie nu am primit răspuns, fie am primit răspunsuri eronate, deoarece platforma este lansată doar de câteva săptămâni și sistemul nu are acces la informațiile necesare pentru o astfel de interpelare.

Însă, dacă cerem sumarizarea unui concept mai vechi sau informații atemporale, LLM-ul Mistral returnează răspunsuri adecvate pe baza informațiilor pre-antrenate în cadrul modelului, în vreme ce Llama și Gemma nu pot returna un răspuns.

Spre exemplu, am cerut o sumarizarea operelor lui George Orwell și informații succinte despre Imperiul Roman, cu rezultate satisfăcătoare pe Mistral. La fel, vom onține informații similare și dacă cerem informații despre platforma hardware NVIDIA GeForce Ada Lovelace, implementată pe computerele ultimilor ani.

Un alte exemplu interesant este cel în care cerem informații despre un concept existent în RAG, dar tratat doar succinct: explică ce sunt switch-urile de tastatură Cherry MX. Gemma extrage doar informațiile din documentul local, Mistral oferă doar un răspuns generic pe baza informațiilor pre-antrenate în LLM, iar Llama combină informațiile din LLM cu cele din documentul local.

Apoi, am întrebat ceva mai complex, o întrebare specifică despre un procesor tratat în documentele din RAG, informațiile fiind incluse într-o serie de tabele. Toate modelele returnează răspunsuri, însă doar cel oferit de Llama este corect.

Mai departe, în momentul în care mergem spre întrebări mai complexe ce necesită analizarea de informații din mai multe documente în același timp și compararea acestora, rezultatele variază.

Deși modelele au acces la date și răspund corect atunci când întrebarea este simplă, toate se încurcă când vine vorba de comparat rezultatele între ele, dar se încurcă fiecare în modul său. Mistral și Gemma răspund că nu au acces la informații, iar Llama folosește în răspuns cu date random, total diferite de cele din articole, pe care le găsise corect în cadrul primelor întrebări. Aceste date provin cel mai probabil din cele predefinite în LLM. Rezultate similare am obținut pe diverse seturi de interpelări de acest tip.

La fel, rezultatele variază și atunci când cerem interpretarea unor date existente în tabele, nu foarte clar evidențiate în text.

Am cerut o listă cu cele mai ușoare laptopuri cu ecran de 18 inch, și apoi am întrebat specific care este cel mai ușor. Rezultatele vin pe baza informațiilor din acest articol. Llama și Mistral returnează răspunsuri, dar nu sunt precise, în vreme ce Gemma nu returnează nici un răspuns.

Rezultate similare obținem și pe o întrebare similară ce necesită tot analizarea unor date concrete din tabele, pe baza acestui articol.

Exemplele pot continua la nesfârșit, dar vă las pe voi să experimentați cu aplicația și modelele, în funcție de necesitățile voastre.

Per total, aplicația ChatRTX funcționează și este simplu de utilizat. Apreciez în special simplitatea creării RAG-ului local, ce necesită doar acordarea drepturilor asupra unui director de pe calculator în care puneți documentele la care doriți să aibă acces. Alte soluții GPT complică extrem de mult acest pas simplu.

În același timp, răspunsurile variază, atât în funcție de complexitatea întrebărilor, cât și de la model la model. Per total, Llama și Mistral oferă rezultate echilibrate, dar recomand să mențineți interpelările simple și clare.

Există totuși câteva aspecte unde aplicația ar trebui îmbunătățită:

nu menține contextul în interpelări subsecvente. Așadar, dacă întrebi de exemplu, „Ce este MSI Titan 18”, îți returnează răspuns, dar dacă apoi vii cu o altă întrebare legată de același produs, nu știe să păstreze contextul conversației. Practic de fiecare dată trebuie să legi întrebarea specific de produsul la care faci referire.
nu îți permite să revii la întrebările precedente prin apăsarea tastei sus, ca în CMD, aspect util dacă nu ești mulțumit de răspuns și vrei să modifici puțin interpelarea. În schimb, trebuie să rescrii complet manual întrebarea de fiecare dată. Sau să îți aduci aminte să dai un ctrl+C înainte să o lansezi în execuție, ca apoi să poți folosi ctrl+V.
folosește doar modele prestabilite și nu permite compatibilitate cu alte soft-uri prin care să încarci ce model dorești. Desigur, ai acces la 3 modele text importante și unul audio/video/photo, însă acestea sunt de generație early-2024, iar între timp au apărut versiuni ale acestora mai noi și mai performante. Sper că NVIDIA vor veni cu update-uri în perioada următoare.

Pe lângă cele explicate mai sus, ce se aplică pe modele LLM de tip text, aplicația ChatRTX oferă și un model CLIP dezvoltat de OpenAI, care analizează imagini și îți poate returna răspunsuri foto la interpelări.

Pe contextul nostru, acestui model îi poți cere imagini cu un anumit produs, sau imagini cu tastaturi de laptopuri, sau imagini cu tastatura unui anume laptop, toate taskuri ce ar putea ușura workflow-ul unui jurnalist tech.

Modelul nu vine preinstalat default pe aplicație, dar se descarcă și se instalează rapid din interfață.

Open WebUI instalat local

Alternativa mult mai flexibilă la ChatRTX este instalarea Open WebUI pe computerul vostru.

Open WebUI este o platformă software AI self hosted ce poate funcționa exclusiv offline, fără o conexiune activă la Internet.

Procesul de instalare este mai complex și complicat, astfel că această abordare se adresează utilizatorilor tehnici, însă rezultatul este customizabil și flexibil, permițând utilizarea modelelor LLM de ultimă generație. Atenție însă că unele modele au cerințe hardware ridicate – de exemplu Llama 3.3 al celor de la Facebook, cam cel mai avansat LLM la momentul early-Ian 2025, se poate instala doar pe un sistem cu minim 64 de GB de RAM. Necesită și vreo 40-50 GB spațiu de stocare, dar acest aspect nu e neapărat problematic.

Update: Între timp a apărut DeepSeek R1 și acesta poate fi descărcat și instalat respectând aceeși procedură.

Important de menționat că Open WebUI suportă la rândul său accelerare prin intermediul cipurilor grafice NVIDIA GeForce RTX, fapt ce o face mai rapidă decât în cazul în care procesarea ar fi efectuată doar de CPU.

Procesul de instalare este explicat în video-ul de mai jos și în acest Quick Start guide de pe site-ul Open WebUI. La prima vedere, pare simplu, necesitând urmărirea unor pași, dar e posibil să te lovești de anumite erori și situații pe parcursul instalării care să necesite rezolvate, precum activarea unor anumite servicii pe Windows. Veți găsi rezolvările rapid, online.

Pe scurt, pașii sunt următorii:

descarci și instalezi managerul de MLM-uri Ollama de aici, versiunea pentru Windows.
mergi pe secțiunea Models pe site-ul Ollama și alegi modelul pe care vrei să îl rulezi. Poți alege ultimele modele LLM Gemma, Llama, Mistral, etc. Noi vom instala Llama 3.2 3b de aici. Instalarea se face prin CMD (Command Prompt din Windows), unde lansați comanda „ollama run llama3.2”. Așteptați să se descarce și să se instaleze.
instalezi Engine-ul de Linux Docker de aici. Repornești computerul. Lansezi Docker, faci cont, te loghezi, rezolvi eventualele erori astfel încât să te asiguri că Docker rulează corect.
te asiguri încă o datp că Docker rulează corect.
încarcă pagina https://github.com/open-webui/open-webui, la secțiunea „Installing Open WebUI with Bundled Ollama Support”. Acolo vei găsi comanda de CMD de instalare pentru WebUI, versiunea cu suport CPU sau GPU. Eu am instalat-o pe cea cu suport GPU, pentru a beneficia de procesarea pe cipul grafic NVIDIA RTX. Aștepți să se instaleze.
lansezi Docker, secțiunea Containers, și apeși pe linkul de pe coloana Ports. Acesta va lansa o pagina de browser cu chatbox-ul Open WebUI în care poți trimite interpelări.

De aici, atât Docker-ul cât și interfața WebUI permit o mulțime de setări și optimizări. Poți instala mai multe modele LLM dacă dorești, poți edita modul în care sunt oferite răspunsurile și poți crea un RAG cu accesul la documentele proprii. Însă, această parte este mult mai complicată decât în cadrul aplicației ChatRTX, unde pur și simplu legai aplicația la un folder de pe laptop.

Dintre modelele existente, am instalat fără probleme atât ultimul Llama, cât și ultimul Mistral sau DeepSeek R1, cu rezultate mai mult sau mai puțin similare, explicate mai jos, cu exemple pe Llama 3.2.

Fără accesul la RAG-ul local, LLM-ul se descurcă excelent atunci când vine vorba de răspunsuri la întrebări generale și informații atemporale, pre-antrenate pe model.

De exemplu, întrebări ce vizează switch-urile Cherry MX de tastatură, opera lui George Orwell, tehnologia NVIDIA Ada Lovelace sau istoria Imperiului Roman returnează răspunsuri mai complete și mai avansate decât cele oferite de modelele LLM mai vechi implementate pe ChatRTX.

Însă, atunci când punem întrebări specifice pe subiecte noi, de ultimă oră, chatul returnează răspunsuri elaborate, însă incorecte, aspect pe care doar un cunoscător al domeniului îl poate determina. Exemplul este aceeași interpelare ce vizează platforma Nvidia RTX Blackwell. Comparați răspunsul cu cel de mai sus ce tratează platforma deja cunoscută de LLM, Ada Lovelave.

Desigur, puteți oferi aplicației acces la Internet din setări, pentru a putea răspunde mai bine unor astfel de întrebări. Dar per total, nu m-aș baza pe un model LLM pentru obținerea de informații precise pe subiecte de ultimă oră, ce nu au fost incluse în baza de date de informații pre-antrenate.

Și ajungem astfel la crearea RAG-ului local cu baza de informații proprii combinate cu informațiile predefinite în LLM, unde lucrurile se complică.

Momentan, nu am reușit pe ultima versiune de Open WebUI să setez aplicația astfel încât să acorde întâietate informațiilor din fișierele puse la dispoziție local, nici măcar pentru task-uri simpliste precum sumarizare de articole, astfel că răspunsurile returnate provin în continuare din informațiile pre-antrenate, deși sistemul sugerează că ia în calcul informațiile din documentele încărcate. Dar nu o face, de fapt. Iar aceste răspunsuri pe care le oferă, deși elaborate pompos, sunt de multe ori greșite.

Încă cercetez modul în care pot implementa corect RAG-ul pe această soluție și voi reveni cu un update dacă îi dau de cap.

Una peste alta, consider că aplicația ChatRTX este mult mai prietenoasă și ușor de folosit de utilizatorul obișnuit decât opțiunea Open WebUI. Însă, ChatRTX necesită update-uri și îmbunătățiri, în principal la nivelul funcționalității interfeței de chat, dar și prin adăugarea de suport manual pentru LLM-uri, sau măcar update periodic la 3-6 luni al versiunilor LLM-urilor implementate, pe măsură ce acestea sunt lansate.

Opțiunea Open WebUI permite customizare, control și acces la cele mai recente modele, desigur, în limitele hardware-ului vostru. Modelele foarte mari necesită multă memorie RAM și putere de procesare CPU/GPU, astfel încât modelele mai mici vor oferi răspunsuri mult mai rapid. Desigur, toate modelele actuale testate (Llama, Mistral, Gemma, Deepseek) suportă accelerare prin cipuri grafice NVIDIA RTX 3000, 4000 sau 5000, atât timp cât aceasta este activată. Metoda explicată în acest articol este cea mai rapidă și, relativ, simplă.

Notă informativă: Acest articol a fost realizat cu sprijinul celor de la Nvidia.

Spune-ți și tu părerea

Lasa un comentariu Anulează răspunsul

Atenţie: Toate comentariile sunt aprobate manual, de aceea ele vor apărea cu o mică întârziere pe site, atât timp cât respectă regulile bunului simţ.

Asistenți AI locali, cu accelerare grafică NVIDIA AI (Chat RTX, Open WebUI)

NVIDIA ChatRTX – un Chatbot AI simplu de instalat și folosit

Open WebUI instalat local

Lasa un comentariu Anulează răspunsul

Ultimele reviewuri

Asus ROG Strix G16 review (G615, RTX 5080) – gaming performant, cu preț interesant

Categorii

Articole recente

Asistenți AI locali, cu accelerare grafică NVIDIA AI (Chat RTX, Open WebUI)

NVIDIA ChatRTX – un Chatbot AI simplu de instalat și folosit

Open WebUI instalat local

Articole asemanatoare

Lasa un comentariu Anulează răspunsul

Ultimele reviewuri

Asus ROG Strix G16 review (G615, RTX 5080) – gaming performant, cu preț interesant

Categorii

Articole recente