Секретные тесты Anthropic и «скачок» Gemini: что происходит за кулисами ИИ-индустрии

mr. Cooper 1 неделю назад Инсайды и новости
Секретные тесты Anthropic и «скачок» Gemini: что происходит за кулисами ИИ-индустрии

Эта неделя выдалась насыщенной на инсайды. Пока крупные компании готовятся к майским конференциям, в сети всплывают данные о новых моделях, а бенчмарки заставляют разработчиков спуститься с небес на землю. От таинственного «Юпитера» до ИИ-питомцев - разбираемся в главных событиях.

Загадка Claude Jupiter: Anthropic готовит сюрприз?

Главная тема для обсуждений - компания Anthropic. В коде сервиса нашли упоминание новой модели под кодовым именем Claude Jupiter.

Почему на это обратили внимание? В прошлом году перед выходом линейки Claude 4 разработчики использовали аналогичный «планетарный» шифр - Neptune. Учитывая, что 6 мая пройдет конференция Code with Claude, запуск чего-то нового кажется неизбежным. Скорее всего, нас ждет серьезный апгрейд Sonnet до версии 4.8. На полноценную Claude 5 рынок пока не ставит (на Polymarket ставки против её выхода в мае лидируют), но значительный рост производительности в кодинге - это именно то, чего ждут пользователи.

Сейчас модель проходит внутренние тесты на безопасность и устойчивость к взломам. Если всё пойдет по графику, анонс состоится уже в ближайший понедельник.

Gemini 3 Flash: прыжок через голову

Google тоже не отстает. В рейтинге LM Arena обновилась модель Gemini 3 Flash. Примечательно, что название осталось старым, но качество ответов выросло в разы.

Те, кто успел её протестировать, отмечают: по уровню логики «легкая» Flash теперь практически не уступает Gemini 3.1 Pro. Модель выдает впечатляющие результаты в написании кода (например, генерация работающего клона Minecraft) и сложной визуализации. Похоже, Google нашел способ сделать свои быстрые модели гораздо «умнее» без потери скорости.

Экосистема OpenAI: от питомцев до супер-аппа

OpenAI пошли по пути улучшения пользовательского опыта. В Codex добавили функцию Pets - это анимированные компаньоны, которые живут на экране, пока идет работа. Но это не просто картинки: питомец служит статус-баром, показывая, занят ли ИИ задачей, ждет ли он вашего ответа или готов к проверке.

Кроме того, упростили переезд в Codex: теперь импорт настроек, плагинов и конфигураций проектов занимает пару кликов. Видно, что компания пытается превратить инструмент в полноценное рабочее пространство, из которого не захочется выходить.

Реальность ARC AGI 3: до сверхразума еще далеко

Пока маркетологи трубят о победах, свежие результаты бенчмарка ARC AGI 3 немного приземляют индустрию. Это сложный тест на общую логику, и цифры здесь скромные:

GPT 5.5 набрала всего 0.4%;

Claude Opus 4.7 показала 0.2%.

Это напоминает нам о том, что даже самые продвинутые нейросети всё еще пасуют перед задачами, требующими настоящего человеческого понимания, а не просто предсказания следующего токена.

Что еще стоит знать:

GitHub Copilot Max: В разработке тариф за $99/месяц для профи. Посмотрим, оправдает ли он такую цену.

Grok 4.3 от xAI: Модель стала доступна через API. Появился интересный режим Imagine Agent - это единое пространство, где можно одновременно работать с текстом, генерировать картинки и тут же превращать их в видео.

Аналитика памяти: Anthropic тестирует функцию Cardinal - визуальный дашборд вашей истории общения, который поможет структурировать прошлые диалоги и задачи.

Май обещает быть решающим месяцем для многих ИИ-лабораторий. Похоже, гонка вооружений переходит в стадию борьбы за качество и удобство инструментов, а не только за количество параметров.

Комментарии

Пока нет комментариев. Будьте первым, кто напишет.

Чтобы оставить комментарий, войдите в аккаунт.

Похожие статьи