Gemini 2.0: Google выпустила ряд ИИ-обновлений
Просмотров: 0
Биржи на которых я торгую:
- Google выпустила новую модель Gemini 2.0, которая мощнее предыдущей и оснащена функциями мультимодальности.
- В обновленную версию добавлен инструмент Deep Research для рассуждений.
- Дополнительно представлен ИИ-агент Project Mariner — он способен выполнять действия на компьютере вместо пользователя.
- Google анонсировала улучшение системы сводок поисковых запросов AI Overviews.
11 декабря Google представила «свою самую мощную на сегодняшний день» модель искусственного интеллекта — Gemini 2.0.
Welcome to the world, Gemini 2.0 ✨ our most capable AI model yet.
— Google DeepMind (@GoogleDeepMind) December 11, 2024
We're first releasing an experimental version of 2.0 Flash ⚡ It has better performance, new multimodal output, @Google tool use — and paves the way for new agentic experiences. 🧵 https://t.co/ywY2oZv76p pic.twitter.com/1Wgcr3m2Ip
Первоначально запущена экспериментальная версия 2.0 Flash, которая имеет высокую производительность, функции мультимодальности и «прокладывает путь для нового агентского опыта».
Gemini 2.0 Flash превосходит 1.5 Pro по ключевым метрикам, демонстрируя удвоенную скорость. Она способна генерировать изображения, текст и речь на нескольких языках. Сообщается, что модель значительно улучшена в областях программирования и анализа картинок.
2.0 Flash становится флагманской нейросетью вместо 1.5 Pro. Новая нейросеть может использовать сторонние приложения и сервисы вроде поиска Google и внешних API, что отличает ее от предыдущего поколения.
As our workhorse model, Gemini 2.0 Flash outperforms 1.5 Pro on key benchmarks, at twice the speed.
— Google DeepMind (@GoogleDeepMind) December 11, 2024
It can generate images mixed with text as well as customizable text-to-speech multilingual audio. 2.0 Flash can also call tools like @Google Search, code execution and third-party… pic.twitter.com/OVicGFnJdP
Gemini 2.0 Flash доступна в чат-версии для всех желающих, экспериментальная мультимодальная нейросеть с функциями преобразования текста в речь и изображения — для разработчиков через Gemini API в Google AI Studio и Vertex AI. В ближайшие месяцы улучшенная версия ИИ плавно распространится на разные продукты вроде Android Studio, Chrome DevTools, Firebase, Gemini Code Assist и другие.
ИИ-агент Google
ИИ-подразделение Google — DeepMind — представило своего первого ИИ-агента, который способен самостоятельно действовать в интернете.
Project Mariner создан на базе Gemini 2.0 и доступен ограниченной группе тестировщиков. Он контролирует браузер Chrome, перемещает курсор на экране, нажимает на кнопки, заполняет формы, то есть способен перемещаться по веб-сайтам и вести себя как человек.
После настройки ИИ-агента справа в браузере появляется окно чата. Там можно задать инструкции нейросети, например, предложить создать корзину покупок из продуктового магазина на основе прикрепленного списка.
После указания всех параметров агент перейдет на веб-сайт супермаркета, найдет нужные товары и добавит в виртуальную корзину. Скорость его работы медленная — на нажатие одной кнопки уходит около пяти секунд.
Project Mariner не способен заполнить номера кредитных карт и другую платежную информацию, принимать файлы cookie и подписывать соглашения по предоставлению услуг. Это сделано намеренно, чтобы у пользователей оставалось больше контроля.
Агент может использоваться для поиска рейсов, отелей, рецептов, покупки предметов и других задач. Во время выполнения запроса пользоваться компьютером нельзя.
Project Mariner пока недоступен широкой общественности, дата его публичного релиза неизвестна.
Другие ИИ-агенты
Помимо Project Mariner корпорация Google представила ряд других ИИ-агентов для более узкоспециализированных задач:
- Deep Research способен помочь исследовать сложные темы, создавая многоэтапные планы обучения. Он не предназначен для решения математических и логических задач, написания кода или анализа данных;
- Jules может программировать, он интегрируется в рабочие процессы на GitHub, появится в 2025 году;
- еще один ИИ ориентирован на помощь в видеоиграх, дата его выпуска неизвестна.
Gemini научили рассуждать
Обновленная версия Gemini получила функцию Deep Research, которая использует «продвинутые рассуждения» и «возможности длинного контекста» для создания краткой выдержки об исследованиях. Брифы можно экспортировать в Google Docs для дополнительного редактирования.
The new Deep Research feature from Google feels like one of the most appropriately "Google-y" uses of AI to date, and is quite impressive.
— Ethan Mollick (@emollick) December 11, 2024
I've had access for a bit and it does very good initial reports on almost any topic. The paywalls around academic sources puts some limits. pic.twitter.com/dwSqr6aKGZ
Сервис может анализировать информацию касательно запроса с помощью интернета, выступая в роли своего рода научного сотрудника. Результат раздумий подается в виде краткого резюме с ссылками на источники. Процедура следующая:
- Пользователь пишет запрос.
- Deep Research создает «многоэтапный план исследования».
- Пользователь подтверждает старт анализа.
- Deep Research проводит исследование в течение нескольких минут и генерирует ответ.
Сервис доступен для владельцев платной версии Gemini Advanced.
AI Overviews станет умным и мультимодальным
Google анонсировала улучшение системы сводок поисковых запросов AI Overviews. Сообщается, что сервис вскоре сможет обрабатывать «более сложные темы», «мультимодальные» и «многоэтапные» поиски, в том числе расширенные математические запросы и задачи программирования.
Тестирование функционала начнется на этой неделе, а широкое распространение — в начале следующего года.
Улучшение AI Overviews обусловлено запуском Gemini 2.0.
Напомним, в ноябре Google обучила чат-бот Gemini запоминать контекстную информацию о жизни пользователя, интересах и предпочтениях.