Google пусна на пазара Gemini 1.5

Google стартира Gemini 1.5

Февруари месец ще бъде белязан със скоростно състезание между техгигантите, надпреварващи се в сферата на изкуствения интелект. Няколко часа след като OpenAI пусна своя нов ИИ модел от типа text-to-video, от основния им опонент Google решиха да изпратят изненадващ имейл на своите клиенти, с който да обявят пускането на Gemini 1.5.

След като Sora на Сам Олтман ни обещава да ни изненада (поне според представянето) с ИИ който да може да създава висококачествено видео съдържание, от управлявания от Сундар Пичай не се забавиха с отговора. Oще в самото си въведение, от Google обещават, че новият модел ще „осигури драстично подобрена производителност и ще разбира по-добре подробен контекста във всичките си модалности“.

Gemini 1.5 ще използва MoE архитектура

Демис Хасабис, CEO на Google DeepMind определи стартирането на Gemini 1.5 като „Вълнуващо време за изкуствения интелект“. От името на Gemini Team той заявява, че новият модел е подобрил значително своето представяне в различните тестове. Подобно на Sora модела на OpenAI, Gemini 1.5 следва да бъде по-ефективен по отношение на трениране и последващо използване. Новият ИИ е изграден на Mixture-of-Experts (MoE) архитектура. В оригиналната публикация от Google, те адресират към информация от arxiv.org, свързана със специфичния MoE лейър, който са използвали.

Прочетете още: OpenAI Sora е новият ИИ за генериране на видео от текст

Първият Gemini 1.5, който ще бъде пуснат с ранен достъп за тестърите, ще бъде активен само за Pro версията (припомняме, че моделът разполага с Nano и Ultra варианти). Той ще представлява среден по размер мултимодален модел, оптимизиран за скалиране на огромен набор от задачи и ще се справя добре поне колкото неговата 1.0 Ultra вариация (най-големият ИИ модел на Google на този етап). Според Демис Хасабис, моделът най-после ще превъзмогне предизвикателството пред разбирането на по-дълги промптове, поради изграденият механизъм на long-context understanding (разбиране на дълъг контекст).

Вижте още: Progress стимулира жените за кариера в технологиите

Какво е количеството на токените в модела?

Gemini 1.5 Pro ще стартира със стандартен context window от 128 000 токена. От днес (16.02.2024 г.), ексклузивна група от девелопъри и корпоративни (enterprise) клиенти ще могат да изпробват ъпдейта с 1 милион токена чрез AI Studio и Vertex AI. За справка, Gemini 1.0 Pro версията разполага с 32 000, GPT-4 Turbo – със 128 000, Claude 2.1 с 200 000.

Докато традиционните Transformer архитектури функционират като една голяма невронна мрежа, MoE моделите действат като по-малки нишови такива, поясняват от Google. В зависимост от зададения промпт, вторите (MoE моделите) селективно активиран най-релевантния път в тяхната невронна мрежа. Тази специфика подобрява ефективността на Gemini 1.5. Последната иновация на Google в тази технология позволява на модела им да изучава комплексни задачи за по-кратко време, докато запазва качеството и увеличава ефективността. Според компанията това им позволява да оптимизират работния процес на различните си екипи и с това да обновяват Gemini с по-бърз темп.

По-добър контекст, по-добри възможности

В блога на компанията поясняват, че контекстуалният прозорец на един ИИ модел е изработен от огромен набор от токени. Те представляват различните елементи, които един изкуствен интелект използва, за да обработи въведената в него информация. Токените могат да представляват цели или части от думи, изображения, видео, аудио и код. Колкото по-голям е контекстуалния прозорец на един модел, толкова повече информация той може да обработи при зададен промпт.

Прочетете още: Ръст на кибератаките срещу бизнеса

От Google заявяват, че Gemini 1.5 Pro може да обработи огромно количество информация наведнъж, включително едночасово видео, 11-часово аудио, кодови бази данни с над 30 000 реда код, както и 700 000 думи.

Вижте още: Рансъмуер – колко ефективен е и как да се защитим

Gemini 1.5 може да извършва сложни разсъждения

Gemini 1.5 има способностите да осъществява сложни разсъждения върху огромни количества от информация. Той може лесно да анализира, класифицира и обобщи огромно количество съдържание, въведено чрез един промпт. Като например, той може да обобщи Вашия учебник, любима книга, социологическо проучване и т.н.
Източник