Google Gemini gir OpenAI konkurranse
Onsdag lanserte Google sin nyeste og mest avanserte AI-modell, Gemini. Med lanseringen av Gemini vil Google ta tilbake hegemoniet innen generativ kunstig intelligens fra OpenAI og Microsoft. Hvis man skal dømme etter lanseringsvideoene, er Gemini bedre enn GPT på flere områder, men ikke det kvantespranget enkelte har spådd at den ville være.
Gemini representerer en evolusjon, ikke en revolusjon.
Gemini er en stor språkmodell (LLM), slik som OpenAIs GPT (som er modellen ChatGPT kjører på). Den er sannsynligvis enda litt større (verken Google eller OpenAI vil oppgi hvor store modellene faktisk er), og bedre trent enn GPT. Videoene fra lanseringen gir inntrykk av at den er raskere, og den er multimodal. Det siste betyr at den håndterer både tekst, bilder og lyd.
Gemini kommer i tre utgaver:
- Gemini Ultra er den kraftigste modellen. Den krever store ressurser, og er beregnet på de mest krevende oppgavene. Gemini Ultra blir ikke tilgjengelig før neste år en gang. Det er Ultra som er brukt i testene hvor Gemini sammenlignes med GPT.
- Gemini Pro er arbeidshesten som du vil møte i det daglige. Den er litt mindre enn Ultra. Chatboten Bard vil bruke Pro fra i dag av i stort sett alle land, unntatt Europa.
- Gemini Nano er den minste utgaven, som er beregnet på mobiltelefoner og andre bærbare enheter. Den vil blant annet brukes i Googles mobiltelefon Pixel 8 Pro og etter hvert andre Android-telefoner.
Men det store spørsmålet vi stiller oss, er selvfølgelig hvordan Gemini er i forhold til GPT.
Gemini vs. GPT
Når jeg sammenligner de to språkmodellene, er det basert på lanseringsvideoene fra Google. Det er fortsatt noen dager til det er mulig å teste Gemini i praksis, og vi kan se om kartet stemmer med terrenget.
Førsteinntrykket er at det spesielt er på tre områder Gemini skiller seg ut fra GPT:
Gemini er enda smartere. Google har testet den nye språkmodellen på 32 ulike standardtester for kunstig intelligens, og Gemini slo GPT på 30 av dem. På de fleste testene er forskjellene riktignok ganske små, men på noen tester er Gemini klart bedre enn konkurrenten.
Det er spesielt på komplekse oppgaver at Gemini utmerker seg. Avanserte matematikk- eller kodeoppgaver, som krever at modellen resonnerer i flere dimensjoner, er blant oppgavene hvor Gemini scorer bedre enn GPT.
Det er imidlertid verd å merke seg at alle disse testene er gjort med Gemini Ultra, den største versjonen av Gemini. Denne blir ikke tilgjengelig før neste år en gang. Hvor mye av Ultras «smartness» som har blitt med over i Pro, den versjonen som blir tilgjengelig nå, sier ikke Google noe om.
Gemini er raskere. Noe av det som er mest irriterende når man bruker ChatGPT, er at den er ganske treg. For all del, det er milliarder av regnestykker som skal gjennomføres før den spytter ut kakeoppskriften du har bedt om, men med det føles innimellom som at det tar både vinter og vår før du får et svar.
Inntrykket vi fikk av demoene til Google, er at Gemini er mye raskere. Den gir deg svaret ganske umiddelbart. De kan virke som en ubetydelig detalj, men er helt avgjørende for mange av oppgavene vi forventer at kunstig intelligens skal gjøre for oss i hverdagen. Hvis den digitale assistenten alltid må tenke seg om i to minutter før den svarer, vil vi ikke bruke den. Når vi først har bedt om et svar, vil vi ha det med én gang.
Gemini er multimodal. Språkmodeller er i utgangspunktet basert på tekst. De kan tolke tekst, og de kan generere tekst. Etter hvert har vi imidlertid begynt å koble sammen språkmodeller som GPT med bildemodeller og lydmodeller, slik at de også kan tolke og generere lyd og bilder. Det fungerer, men er fortsatt ganske begrenset.
Gemini, derimot, er trent på både tekst, bilder, lyd og video. I tillegg er den trent spesielt på datakode. Det betyr at Gemini håndterer tekst, bilde, video, lyd og kode mye mer naturlig enn konkurrentene. Den er multimodal.
At multimodaliteten er en del av selve språkmodellen, gir mye bedre resultater når vi ber den tolke bilder, video og lyd, eller skrive datakode. Dette er et område hvor Gemini virkelig kan gjøre en stor forskjell, sammenlignet med det vi har blitt vant til med ChatGPT. Skal vi tro det Google viste i lanseringsvideoene, vil den også gjøre det, for de demoene var imponerende.
Også her er det imidlertid et ‘men’. Alle demoene vi så på lanseringen er gjort med Gemini Ultra, den store modellen som ikke er tilgjengelig ennå. Gemini Pro, som straks blir tilgjengelig, kan kun tolke tekst, og forstår bare engelsk. Jeg krysser fingrene for at Google etter hvert leverer det de lover på dette området, for det vil være et stort fremskritt.
Google Bard
Bard er Googles chatbot, som konkurrerer med ChatGPT. Etter en litt uheldig lansering tidligere i år, har Bard jevnlig blitt utvidet med ny funksjonalitet. Nå får den sin hittil største oppgradering med Gemini. Inntrykket jeg sitter igjen med etter lanseringen, er at Bard med Gemini vil flytte listen enda litt høyere, enn det vi har blitt vant til med ChatGPT.
Det var spesielt to ting i presentasjonen som fikk meg til å glede meg til mitt første med en oppgradert Bard: Hastigheten og brukergrensesnittet. Bard var lynrask, sammenlignet med ChatGPT (jeg håper det er reelt, ikke bare et resultat av kreativ videoredigering), og brukergrensesnittet var mange hakk opp fra ChatGPT.
Skuffelsen er at Bard med Gemini ikke blir tilgjengelig i Europa ennå, og at den versjonen av Gemini som blir tilgjengelig i Bard først bare støtter tekst, og kun forstår engelsk.
Hallusinering
En stor utfordring med språkmodeller er at de hallusinerer. De kommer ofte med svar som er feil når du stiller et faktaspørsmål. Også Gemini hallusinerer. Den vil svare feil på faktaspørsmål, akkurat som GPT.
Grunnen er at hallusinering ikke er en feil i modellen. Tvert imot, hallusinering er en viktig funksjon, som gjør at modellen er i stand til å være kreativ. Uten hallusinering ville ikke Gemini og GPT ha vært like nyttige.
Du kan lese mer om hallusinering her.
Google har gjort noen grep for å redusere problemet med hallusinering i Gemini. I chatboten Bard er det en funksjon som kalles «Google it». Den bruker søkemotoren til å faktasjekke teksten Bard genererer. I den oppgraderte versjonen av Bard, som kjører på Gemini, vil Goole it-funksjonen bli forbedret, slik at det vil bli enda enklere å faktasjekke svaret du får av chatboten.
Tilgjengelighet
At noe er lansert, betyr ikke nødvendigvis at det er tilgjengelig. Slik er det dessverre også med Gemini. Det vil ta litt tid før du kan nyte godt av alle forbedringene.
Gemini Nano skal brukes i Googles mobiltelefon Pixel 8 Pro allerede. Google sa ingenting om at dette er begrenset til spesifikke land, så mye tyder på at det også vil gjelde i Norge. Nano skal også være tilgjengelig allerede som en del av Android AICore, så den bør også dukke opp i andre Android-telefoner etter hvert.
Gemini Pro er allerede tatt i bruk som språkmodell i chatboten Bard i 170 land, men ikke i Europa. Med våre strenge EU-lover, må vi smøre oss med tålmodighet. Google sier imidlertid at det ikke vil gå lang tid før også Bard i Europa vil bruke Gemini. Den versjonen av Gemini som brukes i Bard er imidlertid ikke multimodal. Den er kun tekstbasert, og forstår bare engelsk. Flere språk skal komme etter hvert.
Gemini Pro vil også være tilgjengelig i Google Cloud for utviklere fra 13. desember. Hvor mye av funksjonaliteten denne versjonen vil inneholde, har de foreløpig ikke sagt noe om. Jeg antar at det er som med Gemini Pro i Bard, at den foreløpig er tekstbasert, og kun på engelsk.
Gemini Ultra bil ikke tilgjengelig før neste år. Google begrunner utsettelsen med at de trenger å gjøre flere tester for å være sikre på at modellen er trygg før de lanserer den.
Alle bilder: Google
1 Response
[…] Du kan lese mer om Google Gemini her. […]