Секретные тесты Anthropic и «скачок» Gemini: что происходит за кулисами ИИ-индустрии
Эта неделя выдалась насыщенной на инсайды. Пока крупные компании готовятся к майским конференциям, в сети всплывают данные о новых моделях, а бенчмарки заставляют разработчиков спуститься с небес на землю. От таинственного «Юпитера» до ИИ-питомцев - разбираемся в главных событиях.
Загадка Claude Jupiter: Anthropic готовит сюрприз?
Главная тема для обсуждений - компания Anthropic. В коде сервиса нашли упоминание новой модели под кодовым именем Claude Jupiter.
Почему на это обратили внимание? В прошлом году перед выходом линейки Claude 4 разработчики использовали аналогичный «планетарный» шифр - Neptune. Учитывая, что 6 мая пройдет конференция Code with Claude, запуск чего-то нового кажется неизбежным. Скорее всего, нас ждет серьезный апгрейд Sonnet до версии 4.8. На полноценную Claude 5 рынок пока не ставит (на Polymarket ставки против её выхода в мае лидируют), но значительный рост производительности в кодинге - это именно то, чего ждут пользователи.
Сейчас модель проходит внутренние тесты на безопасность и устойчивость к взломам. Если всё пойдет по графику, анонс состоится уже в ближайший понедельник.
Gemini 3 Flash: прыжок через голову
Google тоже не отстает. В рейтинге LM Arena обновилась модель Gemini 3 Flash. Примечательно, что название осталось старым, но качество ответов выросло в разы.
Те, кто успел её протестировать, отмечают: по уровню логики «легкая» Flash теперь практически не уступает Gemini 3.1 Pro. Модель выдает впечатляющие результаты в написании кода (например, генерация работающего клона Minecraft) и сложной визуализации. Похоже, Google нашел способ сделать свои быстрые модели гораздо «умнее» без потери скорости.
Экосистема OpenAI: от питомцев до супер-аппа
OpenAI пошли по пути улучшения пользовательского опыта. В Codex добавили функцию Pets - это анимированные компаньоны, которые живут на экране, пока идет работа. Но это не просто картинки: питомец служит статус-баром, показывая, занят ли ИИ задачей, ждет ли он вашего ответа или готов к проверке.
Кроме того, упростили переезд в Codex: теперь импорт настроек, плагинов и конфигураций проектов занимает пару кликов. Видно, что компания пытается превратить инструмент в полноценное рабочее пространство, из которого не захочется выходить.
Реальность ARC AGI 3: до сверхразума еще далеко
Пока маркетологи трубят о победах, свежие результаты бенчмарка ARC AGI 3 немного приземляют индустрию. Это сложный тест на общую логику, и цифры здесь скромные:
• GPT 5.5 набрала всего 0.4%;
• Claude Opus 4.7 показала 0.2%.
Это напоминает нам о том, что даже самые продвинутые нейросети всё еще пасуют перед задачами, требующими настоящего человеческого понимания, а не просто предсказания следующего токена.
Что еще стоит знать:
• GitHub Copilot Max: В разработке тариф за $99/месяц для профи. Посмотрим, оправдает ли он такую цену.
• Grok 4.3 от xAI: Модель стала доступна через API. Появился интересный режим Imagine Agent - это единое пространство, где можно одновременно работать с текстом, генерировать картинки и тут же превращать их в видео.
• Аналитика памяти: Anthropic тестирует функцию Cardinal - визуальный дашборд вашей истории общения, который поможет структурировать прошлые диалоги и задачи.
Май обещает быть решающим месяцем для многих ИИ-лабораторий. Похоже, гонка вооружений переходит в стадию борьбы за качество и удобство инструментов, а не только за количество параметров.
Комментарии
Чтобы оставить комментарий, войдите в аккаунт.