Категории

Реальные испытания Claude Opus 4.8: он выполняет работу ещё лучше, но его слова ещё резче.

Сегодня утром Anthropic официально обогнала OpenAI, объявив о своей новой оценке и выпустив Claude Opus 4.8, последнюю версию своей флагманской линейки продуктов, о которой ходили слухи последние два дня.

Jun 1st,2026 4 Взгляды

   Сегодня утром Anthropic официально обогнала OpenAI, объявив о своей новой оценке и выпустив Claude Opus 4.8, последнюю версию своей флагманской линейки продуктов, о которой ходили слухи последние два дня. Мы немедленно получили к ней доступ и собрали первые отзывы от сообщества пользователей. Вывод: она стала более функциональной, но с её «индивидуальностью» стало сложнее работать. Тестирование APPSO: Мозг обновился, но рта нет. Мы не использовали подготовленные Anthropic сценарии тестирования, а протестировали её на собственных реальных задачах: извлечение и архивирование полных исторических записей разговоров с онлайн-платформы для совместной работы. Объём данных превышал 30 МБ, они были разбросаны по всему интерфейсу, и не было удобной кнопки экспорта. Этот тип задачи проверяет не способность модели писать код, а способность непрофессионального разработчика разобраться и выполнить задачу с нуля. Начало было случайным открытием. Наши коллеги-тестировщики заметили, что в определенные моменты на интерфейсе платформы мелькали старые исторические записи, как будто данные ненадолго загружались на клиентскую сторону, а затем удалялись. Один из них передал это наблюдение разработчикам версии 4.8 без какого-либо технического описания, просто заявив простыми словами: «Я видел, как мелькали старые сообщения, а затем исчезали».
   4.8 Я понял его смысл и дал правильное заключение: данные загружаются через запрос к интерфейсу и могут быть перехвачены на сетевом уровне браузера. Затем я предоставил оперативный план, описывающий шаги: инструменты разработчика, панель «Сеть», фильтрация по ключевым словам и определение целевого запроса. Заключение было точным, а ход мыслей ясным. Но вот в чем противоречие в пункте 4.8: мыслительные способности сильны, но изложение... громоздкое. Каждое техническое решение верно, но объяснение каждого шага требует двух-трех предложений. Вы спрашиваете о методе, а он сначала отвечает: «Конечно! Давайте разберемся пошагово», затем выводит список пунктов, а затем добавляет в конце списка «дополнительное объяснение», объясняющее, почему это следует делать именно так. То, что можно объяснить в трех предложениях, занимает три экрана текста. Я просто не умею программировать, это не значит, что мой мозг вышел из-под контроля.
   Это не новая проблема в версии 4.8; это давняя проблема, существующая в серии Opus с версии 4.7. Несмотря на неоднократную критику, эта версия не улучшилась, а может быть, даже ухудшилась. Самая трудоемкая часть — это этап исправления ошибок: после первого решения пользователь столкнулся с ошибкой. В версии 4.8 проблема была точно определена, предложено новое решение, и не повторялись неудачные шаги. Это определенно лучше, чем в версии 4.6, где ошибки иногда забывались в ходе нескольких раундов исправления. Признание ошибок — это хорошо, но не нужно быть слишком жестким. Добавление анализа причин и списка пунктов делает сообщение похожим на письмо в службу поддержки, хотя оно должно быть техническим обзором проблемы.
   В конечном итоге данные были экспортированы полностью в формате HAR, а очистка и наложение слоев с использованием пользовательских скриптов были успешно завершены. Некоторые пользователи еще не получили обновление Claude Code, но Claude для Chrome уже имеет версию 4.8 и также был внедрен в основные офисные инструменты, такие как Notion. Мы протестировали использование Claude для выполнения базовых задач, таких как поиск и заполнение форм в Chrome.

　　一个能干活但不会聊天的同事如果只看结果，4.8 确实更强了，它理解非标准需求的能力更好，多步骤任务的上下文保持更稳，纠错不绕弯路。但如果看过程，体验却是拧巴的。它的问题不在于不会思考，准确地说，是它说话的方式像一个永远在做汇报的人：事事要分点，点点要展开，展开完还要总结，总结完再问你「还有什么我可以帮到你的？」。包括那些经典 AI 味开场白，「这是一个很棒的问题！」「当然可以！」，在前代模型上就已经让人烦躁，到 4.8 依然健在。这与其说是「缺点」，不如说是一种设计选择。Opus 4.8 的工程能力拉满了，它像一个技术很好但沟通风格很客服的同事：你知道它能解决问题，但你要先听它把一件简单的事说得很隆重。这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度，在这一版模型上被拉向了两个相反的方向。
　　总体来看，Opus 4.8 是一个「工程」气质拉满的模型，这使得它能够快速融入各个工具当中，不管是 CC 这样的代码工具，还是进入网页浏览和检索的 chrome 插件，甚至是各个自己做的小工具。「工程化」是一种思维，在 4.8 身上体现的淋漓尽致。
　　尽管「大而全」是厂家们经常打出来的口号，但在实际搭建自己的工作流中，不同的工具必然有不同的用处，Opus 4.8 做到的是，让其工程能力和思维，调动和流淌在各种不同的工具当中。不过，这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求，甚至是在更宏观的层面，给不同的工具分配不同的任务。考虑到现在模型的发布越来越快，距离 4.7 不过也是一晃眼的事，这种频繁的更新所带来的频繁适应，势必会带来一些痛苦。除了把重负转嫁给用户，也是厂商要考虑的问题——为了融资上市一昧加速再加速，未来会带来相当多的适应问题。

Выпущен еще один инструмент для программирования терминалов на основе искусственного интеллекта, ставший доступным с открытым исходным кодом!

Anthropic 保密提交 IPO 文件，抢先 OpenAI 上市

Китайские основные сервисы

Преимущества компании / Ключевые преимущества (Почему стоит выбрать нас)

Промышленные приложения

隐私声明

Новейшие новости об искусственном интеллекте

Реальные испытания Claude Opus 4.8: он выполняет работу ещё лучше, но его слова ещё резче.

Новости по теме

Example news post

Example news post

Example news post

Example news post

ГОТОВЫ ЛИ ВЫ СОТРУДНИЧАТЬ С НАМИ?