ИИ-новинки, представленные на Google I/O 2024

На ежегодной конференции для разработчиков Google I/O, Google представила ряд новых продуктов, сосредоточившись на развитии искусственного интеллекта. Они обсудили улучшения в линейках ИИ-моделей Gemini и Gemma, а также представили виртуального ассистента и сервис для создания видео. Рассказываем, как эти изменения повлияют на продукты Google в ближайшем будущем.

Инновации Google в сфере искусственного интеллекта

Google продолжает свои инновации в сфере искусственного интеллекта, улучшая уже существующие модели и анонсируя новые разработки. Один из последних шагов в этом направлении - обновление модели Gemini 1.5 Pro, представленной компанией в феврале 2024 года. Согласно заявлению разработчиков, теперь она еще более эффективна в переводах, написании кода и построении логических выводов.
Кроме того, была представлена модель Gemini 1.5 Flash - мультимодальная система, оптимизированная для более быстрого выполнения задач. По мнению Engadget, это по сути улучшенная версия Gemini 1.5 Pro, сохраняющая все основные функции старшей модели.
Обе модели доступны для публичного превью в более чем 200 странах. Несмотря на отсутствие России, Украины и Беларуси в списке, Gemini API поддерживает русский и украинский языки. Полноценный запуск планируется на июнь текущего года.
Кроме того, была анонсирована модель Gemma 2 - более мощная версия открытой ИИ-системы в семействе Gemma. Она включает в себя 27 миллиардов параметров (против двух и семи миллиардов у предыдущих версий), и ее релиз также ожидается в июне. Компания также представила модель PaliGemma, специально оптимизированную для задач, связанных с обработкой изображений.

Полная запись конференции Google I/O 2024

ИИ-поисковик ответит на сложные запросы

Google продолжает развивать свою поисковую систему, добавляя новые функции для повышения удобства пользователей. На этой неделе американские пользователи получат доступ к функции AI Overviews, которая позволит получать краткое резюме по сложным запросам, сгенерированное искусственным интеллектом. Это резюме будет отображаться перед основными результатами поиска.

Представители Google отмечают, что новая функция наиболее эффективна при обработке запросов с множеством параметров, включая текущее местоположение пользователя. В качестве примера Лиз Рейд, руководитель направления поиска, привела запрос о поиске студии йоги или пилатеса в Бостоне, имеющей рейтинг выше четырех звезд и находящейся в получасе ходьбы от Бикон-Хилл.

В ближайшем будущем функция AI Overviews будет доступна и в других странах, что позволит пользователям более эффективно и быстро находить нужную информацию.

Project Astra видит и анализирует пространство вокруг

Подразделение Google DeepMind представило уникальный проект под названием Project Astra - голосовой мультимодальный ИИ-ассистент. Этот инновационный помощник обладает способностью видеть и анализировать окружающее пространство через камеру мобильного устройства. На недавней конференции ассистент успешно демонстрировал свои возможности, определяя объекты в помещении, анализируя код на экране компьютера и даже распознавая вид из окна. Все поставленные перед ним вопросы он отвечал с высокой точностью.

Project Astra базируется на продвинутой версии Gemini Ultra и можно считать ответом на последние разработки в области искусственного интеллекта, включая впечатляющую демонстрацию GPT-4o от OpenAI. Официальный запуск проекта запланирован на 2024 год, и многие уже ожидают с нетерпением его появления.

ИИ-модель Veo создает видео на основе текста, картинок или видео

Новая генеративная ИИ-модель под названием Veo способна создавать захватывающие видеоролики в различных кинематографических и визуальных стилях, а также производить их редактирование. Максимальное разрешение сгенерированных видео составляет 1080p, а их продолжительность может достигать одной минуты и даже более. Интересно, что в качестве источников вдохновения для создания роликов можно использовать текстовые описания, изображения или другие видео.

Часть функционала Veo уже доступна отдельным пользователям благодаря новому экспериментальному проекту от Labs.google под названием VideoFX. Планируется, что в будущем эти возможности будут интегрированы и в другие продукты, включая популярную платформу коротких видео YouTube Shorts, что откроет новые возможности для творчества и вдохновит создание захватывающего видеоконтента.

Music Ai Sandbox

Music AI Sandbox представила новую инновационную модель для создания звуков и музыки. Эта технология, разработанная в партнерстве с ведущими музыкальными платформами, предлагает революционный подход к музыкальному творчеству, предоставляя пользователю возможность создавать звуки с нуля, легко переключаться между различными стилями треков и многим другим. Однако, подробности о том, как именно будет функционировать система, пока остаются неизвестными, а также нет точной информации о дате ее официального запуска.

Виртуальный помощник Chip

Google выпустила новую функцию под названием Chip, которая представляет собой виртуального помощника для рабочих чатов. Пользователи могут создать профиль для этого бота и добавить его в чаты, где он будет собирать информацию о работе. К примеру, если у вас возник вопрос о дате проведения совещания, вы можете обратиться к Chip с запросом, и он предоставит вам быстрый ответ, анализируя сообщения в чате. Это позволит избежать необходимости просматривать большие объемы переписок. Однако эта модель будет доступна только в рамках экосистемы Google.

Маркировка SynthID

Кроме того, Google представила новую технологию маркировки текста под названием SynthID. Она позволит идентифицировать текст, созданный искусственным интеллектом, сохраняя его качество и смысл. До этого маркировка применялась только к изображениям и аудиофайлам. SynthID также будет использоваться для пометки водяными знаками видео, созданных с помощью Veo.

Семейство моделей LearnLM

На конференции было объявлено о запуске нового набора моделей, специально разработанных для образовательных целей:

На платформе Android будет представлена функция Circle to Search, которая позволит пользователям решать математические и физические задачи непосредственно с их мобильных устройств.
В приложении Gemini появятся Gems — особые версии нейронных сетей, способных выступать в роли экспертов по различным темам в чатах.
На платформе YouTube будет внедрен диалоговый инструмент, который позволит зрителям поднимать руку во время просмотра образовательных видеороликов для задания вопросов, получения дополнительных пояснений или прохождения тестов по пройденному материалу. Эта функция будет доступна для длинных образовательных видео, так как модель способна анализировать большие объемы контента. Некоторые пользователи Android в США уже могут использовать эту функцию.
Illuminate — экспериментальная функция, которая преобразует научные статьи в аудиодиалоги. Модель способна сгенерировать аудиозапись с двумя голосами, кратко излагающую идеи из научного документа, всего за несколько минут.

Внедрение ИИ во все сервисы Google Workspace

Google внедрит искусственный интеллект во все сервисы Google Workspace, чтобы обеспечить более удобное и эффективное взаимодействие пользователей с платформой. Модель Gemini 1.5 Pro будет интегрирована во все основные сервисы, такие как документы, почта и облачное хранилище. Эта инновационная функция станет доступной уже в следующем месяце для платных подписчиков.

Пользователи смогут использовать универсального ИИ-ассистента, который будет доступен в боковой панели, чтобы анализировать информацию из всех доступных источников в рамках Google Workspace и помогать в решении различных задач. Например, ассистент будет способен пересказывать содержание переписок и видеозвонков, составлять письма, опираясь на информацию из открытых документов, а также напоминать о необходимости ответа на важные сообщения.

Другие новинки, аннонсированные на Google I/O

В рамках презентации Google I/O были анонсированы несколько важных новинок.

Одной из них стала Imagen 3 - улучшенная версия модели, способной создавать изображения на основе текстовых запросов. Разработчики обещают значительное улучшение распознавания текста и создание более качественных и детализированных картинок.
Google Lens также получит важное обновление: теперь пользователи смогут искать информацию с помощью видеороликов. Пользователь записывает видео, связанное с запросом, задает вопрос, и искусственный интеллект поможет найти релевантный ответ. Однако, как сообщает The Verge, даже в демонстрационном видео этой функции была обнаружена фактическая ошибка в ответе.
Летом 2024 года в сервисе "Google Фото" появится функция Ask Photos, которая позволит составлять сложные запросы и находить нужные фотографии в галерее с учетом контекста.
Также было объявлено, что благодаря Gemini пользователи Android смогут задавать вопросы о видео на экране и получать ответы на основе автоматически сгенерированных титров. Пользователи с платной подпиской Gemini Advanced также получат возможность анализировать информацию в PDF-документах.
Наконец, в десктопную версию браузера Chrome будет добавлена ИИ-модель Gemini Nano, которая поможет пользователям с написанием текстов.

Новинки для Android

Новости для Android пользователей! В этот раз обновления операционной системы несколько скромнее, но уже сегодня доступна новая версия для смартфонов - Android 15 beta 2. Мы с нетерпением оценим ее возможности на практике, но пока давайте поговорим о нескольких новых функциях:

Обведи, чтобы найти

На смартфонах появится функция Circle to Search, которая позволит вам проводить поиск по фотографиям с помощью простого жеста обводки - все это без необходимости прерывать текущие действия или переключаться на другое приложение.

Обновления Gemini

В новой версии Android появится возможность отображения окна Gemini поверх текущего приложения. Теперь вы сможете легко перетаскивать сгенерированные изображения в Gmail, Google Messages и другие приложения.

TalkBack

Для пользователей с нарушениями зрения будут доступны новые функции. Они смогут получать более подробные и точные описания содержимого изображений, помогая им лучше понимать визуальный контент.

Предупреждение о телефонном мошенничестве

А Android-смартфоны с помощью Gemini Nano смогут распознавать звонки от мошенников и предупреждать пользователей о потенциальной опасности.