Connect with us

Teknik

Google byter till sin mest kraftfulla AI-modell Gemini

Google Gemini
Google Gemini

Google har officiellt tillkännagett lanseringen av det storskaliga Gemini-projektet inom området generativ artificiell intelligens. Enligt teknikjätten är det den största, mest innovativa och kraftfullaste proprietära AI-modellen som någonsin utvecklats och har byggts helt från grunden för att vara multimodal. Gemini kommer ut på marknaden som en fullfjädrad konkurrent till GPT-4, som överträffar OpenAI:s ledande AI-modell i 30 av 32 vanliga typer av testning, och stödjer det bredaste möjliga utbudet av interaktioner med olika typer av information – tekniken är tränad för att sammanfatta och sömlöst förstå, bearbeta och kombinera textinnehåll, bilder, ljud, video och kod, och till och med samtidigt.

Gemini är optimerad för att köras på vilken enhetskategori som helst, från multi-server datacentermiljöer till lokal verksamhet på smartphones. Med en poäng på 90 % är Gemini Ultra världens första AI-språkmodell som överträffar mänskliga experter i riktmärket Massive Multitask Language Understanding (MMLU): en av de mest populära AI-benchmarkingmetoderna för att identifiera problemlösningsförmåga. Den bygger på en kombination av världskunskap från 57 ämnen och omfattar matematik, fysik, historia, medicin, juridik och humaniora. Som jämförelse, för GPT-4 är denna siffra 86,4 %. Dessutom uppnådde Gemini Ultra ett toppbetyg på 59,4 % i MMMU (Massive Multi-discipline Multimodal Understanding) benchmark, som täcker multidisciplinära uppgifter som kräver komplexa medvetna resonemang. Här ligger nu GPT-4 på andra plats med 56,8%.

Debutversionen av Gemini 1.0 är omedelbart skalbar och kan anpassas för att användas i tre scenarier: Gemini Ultra är en flaggskeppsmodell för extremt komplexa uppgifter i datacenter och företagstjänster, Gemini Pro är en universell modell för de flesta standarduppgifter, Gemini Nano är en grundläggande effektiv modell för implementering i prylar. En av modellens huvuddrag är förmågan att på ett intelligent och enkelt sätt extrahera nyckelinformation från hundratusentals dokument genom höghastighetsläsning och filtrering, vilket kommer att bidra till att uppnå betydande genombrott inom global forskning.

Andra Gemini-funktioner inkluderar:

  • bästa naturliga bildanalys (82,3%) utan hjälp av optisk teckenigenkänning (OCR) system;
  • avancerad generering och förklaring av programkod på de populära språken Python, Java, C++ och Go;
  • minskning av förseningen med 40 % vid sökning;
  • enhetlig multimodalitet – bearbetning av flera indata från grunden inom ett sammanhangsfönster, utan att behöva tillgång till separata specialmodeller;
  • pålitlig och accelererad implementering på superdator-AI-infrastrukturen för Google Cloud TPU v4, v5e och den nya generationen v5p.

Google sa att de har implementerat en ”finjusterad” Gemini Pro-modell för Bard – den är redan tillgänglig för användare av röstassistenten på engelska i 170 länder och detta är den viktigaste uppdateringen sedan lanseringen. Pixel 8 Pro-smarttelefonen är den första i raden som stöder Gemini Nano (du måste installera December Pixel Feature Drop). I början av 2024 kommer den senaste modellen att läggas till resten av ekosystemet, inklusive Googles sökmotor, Chrome-webbläsare, Duet AI kontorsassistent och reklamplattform, förutom tillkännagivandet av den avancerade Bard Advanced baserad på Gemini Ultra. Från och med den 13 december kommer utvecklare och företagskunder att kunna få Gemini Pro genom Gemini API i Google AI Studio och Cloud Vertex AI, och Android-utvecklare kommer att kunna förhandsgranska Gemini Nano genom AI Core för inbyggda appar.

Googles vd Sundar Pichai kallade Gemini ”ett stort steg framåt, en stor milstolpe i utvecklingen av AI och början på en ny era hos Google.”