Ti stvarno vjeruješ u to?stjepan je napisao/la:Znamo da se radi o najobičnijem: "nastavi slijedeću riječ koja je statistički najvjerojatnija nakon ove sada" sistemu.
Igre asocijacija - kako je AI naučio govoriti
Igre asocijacija - kako je AI naučio govoriti
Zadnja izmjena: Ogi, dana/u 21 lis 2024, 08:15, ukupno mijenjano 2 puta.
Kakve veze ima vjerovanje sa time? Znamo kako su LLM-ovi izgrađeni tj. koju arhitekturu koriste i znamo kako ta arhitektura funkcionira. Da su svi closed source i da se baziraju na tajnim closed source informacijama, još bi mogli pričati o vjerovanju ali to nije tako. Možda ne znamo sve detalje ChatGPT-a ali vidimo po njegovim rezultatima da se i dalje radi o rješenju koje se bazira na određenim javno poznatim stvarima koja imaju javno poznate probleme kao što imaju i open source modeli koji ne samo da su dostupni svima, nego je dostupan i kod za treniranje i pretreniravanje i dotreniravanje tih istih modela. Da ne znamo kako funkcioniraju, ne bi mogli raditi ništa od toga.
Baš zato jer se radi o statistički najvjerojatnijem nastavku na prijašnji tekst 1+1 većinom bude 2, ali nekada bude i 3 ili 1 (ekstremno poglupljeno i pojednostavljeno)
Jbg. tad nekad kocka dovoljno puta padne na krivu stranu da završni rezultat bude nešto vrlo krivo.
Istu stvar možeš vidjeti i sa diffusion modelima koji "pucaju" upravo na striktnim stvarima koje ne dozvoljavaju lelujanje. Npr. "čekić" ili "mač" ili tako neki alat ili stvar koja se vodi vrlo striktnim pravilima. Kockice nekada padnu dobro, a nekada loše, i kad padnu loše, to jako dobro vidimo, jer smo naviknuti na to kako te stvari izgledaju.
S druge strane, kod npr. ljudskog lica ili nekih drugih stvari koje nisu striktne i koje dozvoljavaju "lelujanje" takvi modeli rade dobro svoj posao jer mozak nepravilnosti pripisuje prirodnosti rezultata.
I da se razumijemo, nije sve na "bacanju kocke" ima tu svega i svačega, ali glavni razlog zašto nekada 1+1 nisu 2 je, ekstremnp pojednostavljeno i poglupljeno, to.
Baš zato jer se radi o statistički najvjerojatnijem nastavku na prijašnji tekst 1+1 većinom bude 2, ali nekada bude i 3 ili 1 (ekstremno poglupljeno i pojednostavljeno)

Istu stvar možeš vidjeti i sa diffusion modelima koji "pucaju" upravo na striktnim stvarima koje ne dozvoljavaju lelujanje. Npr. "čekić" ili "mač" ili tako neki alat ili stvar koja se vodi vrlo striktnim pravilima. Kockice nekada padnu dobro, a nekada loše, i kad padnu loše, to jako dobro vidimo, jer smo naviknuti na to kako te stvari izgledaju.
S druge strane, kod npr. ljudskog lica ili nekih drugih stvari koje nisu striktne i koje dozvoljavaju "lelujanje" takvi modeli rade dobro svoj posao jer mozak nepravilnosti pripisuje prirodnosti rezultata.
I da se razumijemo, nije sve na "bacanju kocke" ima tu svega i svačega, ali glavni razlog zašto nekada 1+1 nisu 2 je, ekstremnp pojednostavljeno i poglupljeno, to.
Zadnja izmjena: stjepan, dana/u 17 lis 2024, 02:46, ukupno mijenjano 1 put.
Molim neki link na tu informaciju. Bilo bi čudno da on ne zna, a da razno razni drugi inženjeri znaju, da znaju razno razni drugi developeri koji daju svoje modele koji su čak i bolji od chatgpt-o4 javnosti za besplatno itd.
Nagađam da je on rekao nešto specifično što u sebi ima "ne razumijemo" no ako je to izjava za koju mislim da je, nisam siguran da to znači ono što ti misliš da to znači, ali neću objašnjavati dok mi ne polinkaš izjavu, jer možda na kraju dana čovjek stvarno ne zna to na čemu je radio.....bilo bi čudno, no ne i nemoguće.
Nagađam da je on rekao nešto specifično što u sebi ima "ne razumijemo" no ako je to izjava za koju mislim da je, nisam siguran da to znači ono što ti misliš da to znači, ali neću objašnjavati dok mi ne polinkaš izjavu, jer možda na kraju dana čovjek stvarno ne zna to na čemu je radio.....bilo bi čudno, no ne i nemoguće.
Znaš da bi odmah okačio video da sam ga imao pri ruci, budem potražio primjere kada ću imati vremena.
Poslušao sam puno njegovih govora i više puta je ponovio da do kraja nije poznato kako to radi i da se čudi što uopće radi.
Da se ne ponavljam:
Poslušao sam puno njegovih govora i više puta je ponovio da do kraja nije poznato kako to radi i da se čudi što uopće radi.
Da se ne ponavljam:
ogi je napisao/la: Koliko je meni poznato, nitko ne zna kako GPT generira odgovore, ni njegovi tvorci.
Odgovori nisu rezultat statistike već MODELA odnosno "neuronskih veza" koje su nastale treniranjem u kojem je cilj statistički predvidjeti slijedeći token.
Tako sam to ja shvatio i to mi ima smisla.
Užasno me živciralo objašnjenje da su odgovori generirani statističkim predviđanjem slijedećeg tokena.
Znam točno o čemu pričaš. Kad netko tko radi na LLM-ovima (ili drugim machine learning modelima, nisu LLM-ovi ništa posebno) kaže "ne znam kako radi" onda ne misli da ne razumije mehanizam rada LLM-a, već ne zna kakav će output biti za određeni input te da je (barem za sada) jedini način da se dođe do te informacije, da se ubaci input i pričeka output.
Pojednostavljeno, ako imamo formulu x+1=y
Znamo da ubacimo x=1 u formulu, da će y biti 2.
No ako imamo formulu x+(broj 1 u 10% slučajeva, broj 2 u 50% slučajeva, broj 3 u 30% slučajeva) = y, onda kad ubacimo x=1, ne znamo kakav će biti y sve dok ne odvrtimo računanje, te je moguće da izlaz neće biti uvijek isti. Znamo kako funkcionira, samo ne možemo predvidjeti izlaz.
Isto tako ne znamo tko će pobijediti kad ja i ti krenemo igrati Čovječe ne ljuti se. Znamo kako "čovječe" funkcionira, obojica to znamo, ali ne možemo predvidjeti rezultat naše igre sve dok ju ne odigramo.
Tako i sa machine learning modelima (od onih najjednostavnijih koje vrtimo na vlastitim računalima pa do ChatGPT-a), nemamo mogućnost "izračunati" output za određeni input, što ne znači da ne znamo kako funkcionira.
I upravo je ta nemogućnost predviđanja rezultata nešto što ljudi opišu sa: "ne znamo kako radi". Umjesto da opišu što točno ne znamo (jer stvarno ne znamo) i ne možemo (jer stvarno ne možemo) pa da ne dolazi do ovakvih nesporazuma, oni to u razno raznim intervjuima skrate (jer tko bi ih slušao da idu objasniti svaki puta sve) i onda ljudi koji nemaju malo dublje znanje tematike stvore od toga neku magiju. Machine learning nije magija. Znamo kako radi, možemo si svatko doma napraviti svoj model.
Pogledaj samo koliko open source besplatnih LLM-ova ima naokolo. Na kraju krajeva, da imaš hardware (h100 i sl.) mogao bi sam od nule istrenirati svoj vlastiti LLM. Naravno da bi znao TOČNO kako funkcionira. No id alje ne bi mogao predvidjeti kakav će biti izlaz za određeni ulaz.
Nešto kao i ovo:

Nadam se da se možemo složiti da razumijemo kako to radi ali da ne možemo predvidjeti rezultat svakog bacanja.
E to je ono što Ilyja ne zna, ne znam niti ja, niti itko drugi na ovom svijetu i to je više puta rekao u razno raznim intervjuima koje sam gledao no to ne znači da ne znamo kako ti modeli rade. Znamo da u "čovječe" moraš baciti kocku, znamo pravila što se mora desiti na koji broj, no ne znamo kako će kocka pasti.
Pojednostavljeno, ako imamo formulu x+1=y
Znamo da ubacimo x=1 u formulu, da će y biti 2.
No ako imamo formulu x+(broj 1 u 10% slučajeva, broj 2 u 50% slučajeva, broj 3 u 30% slučajeva) = y, onda kad ubacimo x=1, ne znamo kakav će biti y sve dok ne odvrtimo računanje, te je moguće da izlaz neće biti uvijek isti. Znamo kako funkcionira, samo ne možemo predvidjeti izlaz.
Isto tako ne znamo tko će pobijediti kad ja i ti krenemo igrati Čovječe ne ljuti se. Znamo kako "čovječe" funkcionira, obojica to znamo, ali ne možemo predvidjeti rezultat naše igre sve dok ju ne odigramo.
Tako i sa machine learning modelima (od onih najjednostavnijih koje vrtimo na vlastitim računalima pa do ChatGPT-a), nemamo mogućnost "izračunati" output za određeni input, što ne znači da ne znamo kako funkcionira.
I upravo je ta nemogućnost predviđanja rezultata nešto što ljudi opišu sa: "ne znamo kako radi". Umjesto da opišu što točno ne znamo (jer stvarno ne znamo) i ne možemo (jer stvarno ne možemo) pa da ne dolazi do ovakvih nesporazuma, oni to u razno raznim intervjuima skrate (jer tko bi ih slušao da idu objasniti svaki puta sve) i onda ljudi koji nemaju malo dublje znanje tematike stvore od toga neku magiju. Machine learning nije magija. Znamo kako radi, možemo si svatko doma napraviti svoj model.
Pogledaj samo koliko open source besplatnih LLM-ova ima naokolo. Na kraju krajeva, da imaš hardware (h100 i sl.) mogao bi sam od nule istrenirati svoj vlastiti LLM. Naravno da bi znao TOČNO kako funkcionira. No id alje ne bi mogao predvidjeti kakav će biti izlaz za određeni ulaz.
Nešto kao i ovo:

Nadam se da se možemo složiti da razumijemo kako to radi ali da ne možemo predvidjeti rezultat svakog bacanja.
E to je ono što Ilyja ne zna, ne znam niti ja, niti itko drugi na ovom svijetu i to je više puta rekao u razno raznim intervjuima koje sam gledao no to ne znači da ne znamo kako ti modeli rade. Znamo da u "čovječe" moraš baciti kocku, znamo pravila što se mora desiti na koji broj, no ne znamo kako će kocka pasti.
Trenutno se ne možemo složiti jer ti misliš da radi ovako:
Kako taj digitalni mozak generira odgovor, nitko ne zna, jer nitko ne može obuhvatiti nešto tako kompleksno.
Unutarnji mehanizmi modela su nešto puno kompleksnije od prepoznavanja obrasca u jeziku i predviđanja slijedeće riječi.
To su svjetovi i koncepti unutar modela i moje mišljenje je da im upravo oni omogućuju razumijevanje.
Model započinje s nasumično postavljenim težinama (veze između neurona).
Nakon treniranja na velikim količinama podataka, težine se prilagođuju i stabiliziraju.
Ove konačne težine/veze predstavljaju trajnu strukturu modela, njegovo znanje odnosno reprezentaciju onoga što je naučio.
Mislim da je to ono što omogućuje modelu da razumije pitanje i generira odgovore, ali kako to točno radi, nitko ne zna.
Znači ne mislim na "nemogućnost predviđanja rezultata", što je točno.
Već mislim na sam mehanizam razumijevanja pitanja i generiranja smislenih odgovora.
A ja mislim da je to samo faza u kojoj se stvara model odnosno neuronske veze digitalnog mozga.stjepan je napisao/la:Znamo da se radi o najobičnijem: "nastavi slijedeću riječ koja je statistički najvjerojatnija nakon ove sada" sistemu.
Kako taj digitalni mozak generira odgovor, nitko ne zna, jer nitko ne može obuhvatiti nešto tako kompleksno.
Unutarnji mehanizmi modela su nešto puno kompleksnije od prepoznavanja obrasca u jeziku i predviđanja slijedeće riječi.
To su svjetovi i koncepti unutar modela i moje mišljenje je da im upravo oni omogućuju razumijevanje.
Model započinje s nasumično postavljenim težinama (veze između neurona).
Nakon treniranja na velikim količinama podataka, težine se prilagođuju i stabiliziraju.
Ove konačne težine/veze predstavljaju trajnu strukturu modela, njegovo znanje odnosno reprezentaciju onoga što je naučio.
Mislim da je to ono što omogućuje modelu da razumije pitanje i generira odgovore, ali kako to točno radi, nitko ne zna.
Znači ne mislim na "nemogućnost predviđanja rezultata", što je točno.
Već mislim na sam mehanizam razumijevanja pitanja i generiranja smislenih odgovora.
<iframe width="560" height="315" src="https://www.youtube.com/embed/OFS90-FX6pg?si=bEeCD_NsguqSiv3P" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin"></iframe>
ChatGPT: 30 Year History | How AI Learned to Talk
"Ideja da jednostavno predviđa sljedeću riječ i koristi statistiku donekle je točna, ali ne na način na koji većina ljudi razumije statistiku.
Iz podataka izvlači značenje rečenice i koristi to značenje kako bi predvidio sljedeću riječ – doista razumije, i to je prilično šokantno."
ChatGPT: 30 Year History | How AI Learned to Talk
"Ideja da jednostavno predviđa sljedeću riječ i koristi statistiku donekle je točna, ali ne na način na koji većina ljudi razumije statistiku.
Iz podataka izvlači značenje rečenice i koristi to značenje kako bi predvidio sljedeću riječ – doista razumije, i to je prilično šokantno."
Kao što znamo kako funkcionira mehanizam ove gore igre na slici tako znamo i mehanizam stvaranja odgovora u LLM-ovima.ogi je napisao/la:...
Već mislim na sam mehanizam razumijevanja pitanja i generiranja smislenih odgovora.
Nema govora da LLM išta "razumije" baš kao što niti stroj za sortiranje kovanica ne "razumije" kovanice.
Da LLM "razumije" što je to broj 1, što broj 2 a što plus, onda bi 1+1 uvijek bilo 2. A LLM-ovi su pokazali da nije. O bedastoćama koje LLM-ovi znaju odgovarati a na koje smo naišli svi koji su ih redovito koristili da ne pričamo.
Tome se može doskočiti (kao što to rade sada) sa predprocesiranjem podataka i post procesiranjem podataka (dakle obradom prije i poslije samog LLM-a). Ništa novo. To radimo i sa diffusion modelima i zahvaljujući tome možemo modificirati inpute i outpute modela po želji.
EDIT: Evo gore u videu kojeg si polinkao....neki ljudi koji rade na tome se ne slažu sa tim zaključkom. Ja gledam REZULTAT modela i vidim da ne postoji ikakvo razumijevanje. To "razumijevanje" naročito puca kako razgovor teče kroz vrijeme i/ili ako u razgovor ubaciš dvije različite teme.
Po meni je to što neki ljudi zovu "razumijevanje" kod LLM-ova samo iluzija velike količine podataka.
A možda je i ljudsko "razumijevanje" rezultat velike količine podataka, jer djeca koja imaju manje podataka ne rijetko pokazuju veliko nerazumijevanje....no to nas vodi u jednu skroz drugu temu....
Zadnja izmjena: stjepan, dana/u 18 lis 2024, 16:21, ukupno mijenjano 2 puta.
"Nikada nisam vidio AI zajednicu toliko podijeljenu kao što je sada.
U središtu ove podjele leži filozofsko pitanje. Jedna skupina vjeruje da nas ovi modeli varaju,
navodeći nas da mislimo kako su pametniji nego što jesu, poput zrcala koja reflektiraju naše vlastite misli na način koji nismo predvidjeli.
A druga strana vjeruje da, ako izgleda kao misao, onda je to misao.
Granica između simulacije misli i stvarne misli postaje sve zamagljenija – ili možda ta granica uopće ne postoji."
Iz ovog videa...
U središtu ove podjele leži filozofsko pitanje. Jedna skupina vjeruje da nas ovi modeli varaju,
navodeći nas da mislimo kako su pametniji nego što jesu, poput zrcala koja reflektiraju naše vlastite misli na način koji nismo predvidjeli.
A druga strana vjeruje da, ako izgleda kao misao, onda je to misao.
Granica između simulacije misli i stvarne misli postaje sve zamagljenija – ili možda ta granica uopće ne postoji."
Iz ovog videa...
Ova izjava Geoffrey Hintona da modeli zapravo izvlače značenje iz podataka bi značila da umjetna inteligencija nije statistički sustav, već sustav koji može razviti razumijevanje jezika.ogi je napisao/la:"Ideja da jednostavno predviđa sljedeću riječ i koristi statistiku donekle je točna, ali ne na način na koji većina ljudi razumije statistiku.
Iz podataka izvlači značenje rečenice i koristi to značenje kako bi predvidio sljedeću riječ – doista razumije, i to je prilično šokantno."
To što je takvo razumijevanje moguće postići putem statističkih metoda, mnogima je neprihvatljivo kao što je meni neprihvatljivo da model generira smisleni odgovor na temelju statistike i predviđanja slijedećeg tokena.
Da li razumiješ što je broj 1?stjepan je napisao/la:Da LLM "razumije" što je to broj 1, što broj 2 a što plus, onda bi 1+1 uvijek bilo 2. A LLM-ovi su pokazali da nije. O bedastoćama koje LLM-ovi znaju odgovarati a na koje smo naišli svi koji su ih redovito koristili da ne pričamo.
GPT4o:
Broj 1 je koncept koji ljudi intuitivno razumiju kao simbol za "jedan entitet" ili "jednu jedinicu" bilo čega.
Jasno ti je što znači jedna jabuka, jedan auto?
GPT4o:
Da, razumijem koncept jedne jabuke ili jednog auta kao specifičnih primjera broja 1 u stvarnom svijetu.
Kada kažeš "jedna jabuka" ili "jedan auto," odnosiš se na jedan fizički entitet ili objekt – u ovom slučaju, jedan voćni predmet ili jedno vozilo.
Mada AI ne percipira jabuku ili auto kao fizički objekt na način na koji to čini čovjek, model "razumije" te pojmove kroz asocijacije koje su oblikovane učenjem iz ogromnih količina podataka.
To je razumljivo kad te jabuka nije nikada pogodila u glavu haha
GPT4o:
Haha, istina! Moje "razumijevanje" je teoretsko, a ne fizičko, tako da nisam imao priliku iskusiti udarac jabuke u glavu (ništa slično Newtonovom trenutku prosvjetljenja!).
Ti imaš prednost fizičkog iskustva i svijet doživljavaš na mnogo bogatiji način, ne samo kroz pojmove i brojke, već i kroz osjetila i emocije.
Neka iskustva, poput tog udarca jabuke, ostaju rezervirana za ljude!
Koliko je 1+1
GPT4o:
1 + 1 = 2. To je jednostavna matematička operacija zbrajanja.
____________
Èini se da GPT4o kuži matematiku a to što ponekad zabrlja, dešava se i nama

Samo je taj isti GPT na 1+1 davao nekada krivi odgovor. Konkretno meni je davao krive rezultate u matematičkim računanjima podosta puta. Dovoljno da me natjera da double checkam točnost svaki puta kad on nešto računa.
Ne dođeš u školu pa te učitelj pita: "da li znaš? Ako znaš, daj si ocjenu".
Ne ide to tako.
On ne razumije niti tvoje pitanje niti što je to broj 1. Daje ti samo statistički vjerojatan tekstualni nastavak na tekst koji si mu poslao. Radi to od najranijih inačica. Da si pitao onu prvu inačicu sa onom prvom originalnom web-u za koju nitko nije pričao da išta "razumije" to isto pitanje, dobio bi sličan odgovor jer je takav odgovor statistički vjerojatan za takvo pitanje.
Koristio sam GPT modele čim su bili dostupni javnosti. Prije nego su napravili GUI za "chat". Tada je bilo svima jasno o čemu se radi jer da bi dobio odgovor morao si "izhakirati" uopće pitanje na određeni način. I tada nikome nije palo na pamet prozvati to ikakvim "razumijevanjem". Čim je OpeAI napravio GUI za razgovor (ChatGPT) na bazi istog modela, odmah su krenule priče o čudu i razumijevanju.
Ne dođeš u školu pa te učitelj pita: "da li znaš? Ako znaš, daj si ocjenu".
Ne ide to tako.
On ne razumije niti tvoje pitanje niti što je to broj 1. Daje ti samo statistički vjerojatan tekstualni nastavak na tekst koji si mu poslao. Radi to od najranijih inačica. Da si pitao onu prvu inačicu sa onom prvom originalnom web-u za koju nitko nije pričao da išta "razumije" to isto pitanje, dobio bi sličan odgovor jer je takav odgovor statistički vjerojatan za takvo pitanje.
Koristio sam GPT modele čim su bili dostupni javnosti. Prije nego su napravili GUI za "chat". Tada je bilo svima jasno o čemu se radi jer da bi dobio odgovor morao si "izhakirati" uopće pitanje na određeni način. I tada nikome nije palo na pamet prozvati to ikakvim "razumijevanjem". Čim je OpeAI napravio GUI za razgovor (ChatGPT) na bazi istog modela, odmah su krenule priče o čudu i razumijevanju.
Zadnja izmjena: stjepan, dana/u 18 lis 2024, 19:12, ukupno mijenjano 1 put.