Veliki
jezički modeli (zahvaljujući kojima ćaskate sa Geminijem ili ChatGPT-jem)
počinju da pokazuju neke manje poželjne osobine, odnosno da "previše
razmišljaju" pre odgovora.
Napredni
modeli rezonovanja, kao što su OpenAI o1 ili DeepSeek R1, trenirani su da
preispituju sopstvenu logiku i proveravaju odgovore. Međutim, ako ovaj proces
predugo traje, kvalitet generisanih odgovora počinje da opada.
"Što
duže razmišlja, veća je verovatnoća da će pogrešiti jer se zaglavi", rekao
je za "Biznis insajder" Džared Kvinsi Dejvis, osnivač i izvršni
direktor kompanije Foundry.
On je to
uporedio sa studentom koji na ispitu provede tri sata radeći samo prvo pitanje,
zaglavljujući se u začaranom krugu "prekomernog razmišljanja".
Davis je,
zajedno sa istraživačima iz kompanija Nvidia, Google, IBM, MIT, Stanford,
DataBricks i drugih, predstavio open-source okvir pod nazivom Ember, za koji se
veruje da najavljuje sledeću fazu razvoja velikih jezičkih modela.
Ne misle svi ovako
Ima i onih
koji misle drugačije - nedavno su stručnjaci, uključujući Džensena Hvanga,
isticali da će modeli kojima je potrebno više vremena za promišljeniji odgovor
predstavljati budućnost poboljšanja performansi.
Ipak, Ember
tim organizuje celu strukturu oko koncepta sa kojim Dejvis i drugi AI
istraživači eksperimentišu već mesecima - sam Dejvis je, pre devet meseci,
opisao svoj metod "pozivanja" ChatGPT 4 da više puta odgovori na isto
pitanje i biranja najboljeg odgovora.
Sada,
Emberovi istraživači unapređuju ovu metodu, zamišljajući složene sisteme u
kojima bi svako pitanje ili zadatak pozivalo mrežu različitih modela, sa
različitim vremenima "razmišljanja" optimizovanim za svaki model i
svako pitanje.
Ubuduće, model bira vas
Dok se
ljudima koji previše razmišljaju savetuje da probleme podele na manje delove,
Ember polazi od slične teorije, ali se tu sličnost uglavnom završava.
Trenutno,
korisnici biraju model (npr. ChatGPT 4) putem padajućeg menija. Davis veruje da
to neće dugo potrajati jer kompanije koje se bave veštačkom inteligencijom teže
boljim rezultatima koristeći složenije strategije usmeravanja pitanja kroz
različite modele sa različitim brojem i trajanjem "poziva".
Davis
objašnjava da bi umesto milion poziva moglo biti reč o trilionskim ili
kvadrilionskim pozivima, te da će biti potrebno sortirati te pozive i birati
odgovarajuće modele i upite za svaki od njih (npr. GPT 4, GPT 3, Anthropic,
Gemini, DeepSeek).
Ovo
predstavlja razmišljanje u više dimenzija od jednostavnog "pitanja i
odgovora" kakve poznajemo, i biće posebno važno u eri AI agenata koji
obavljaju zadatke bez ljudske intervencije. Dejvis je ove složene AI sisteme
uporedio sa hemijskim inženjerstvom, naglašavajući da je reč o novoj nauci.