Реальные испытания Claude Opus 4.8: он выполняет работу ещё лучше, но его слова ещё резче.
Категории

Реальные испытания Claude Opus 4.8: он выполняет работу ещё лучше, но его слова ещё резче.

Сегодня утром Anthropic официально обогнала OpenAI, объявив о своей новой оценке и выпустив Claude Opus 4.8, последнюю версию своей флагманской линейки продуктов, о которой ходили слухи последние два дня.
Jun 1st,2026 4 Взгляды
   Сегодня утром Anthropic официально обогнала OpenAI, объявив о своей новой оценке и выпустив Claude Opus 4.8, последнюю версию своей флагманской линейки продуктов, о которой ходили слухи последние два дня. Мы немедленно получили к ней доступ и собрали первые отзывы от сообщества пользователей. Вывод: она стала более функциональной, но с её «индивидуальностью» стало сложнее работать. Тестирование APPSO: Мозг обновился, но рта нет. Мы не использовали подготовленные Anthropic сценарии тестирования, а протестировали её на собственных реальных задачах: извлечение и архивирование полных исторических записей разговоров с онлайн-платформы для совместной работы. Объём данных превышал 30 МБ, они были разбросаны по всему интерфейсу, и не было удобной кнопки экспорта. Этот тип задачи проверяет не способность модели писать код, а способность непрофессионального разработчика разобраться и выполнить задачу с нуля. Начало было случайным открытием. Наши коллеги-тестировщики заметили, что в определенные моменты на интерфейсе платформы мелькали старые исторические записи, как будто данные ненадолго загружались на клиентскую сторону, а затем удалялись. Один из них передал это наблюдение разработчикам версии 4.8 без какого-либо технического описания, просто заявив простыми словами: «Я видел, как мелькали старые сообщения, а затем исчезали».
   4.8 Я понял его смысл и дал правильное заключение: данные загружаются через запрос к интерфейсу и могут быть перехвачены на сетевом уровне браузера. Затем я предоставил оперативный план, описывающий шаги: инструменты разработчика, панель «Сеть», фильтрация по ключевым словам и определение целевого запроса. Заключение было точным, а ход мыслей ясным. Но вот в чем противоречие в пункте 4.8: мыслительные способности сильны, но изложение... громоздкое. Каждое техническое решение верно, но объяснение каждого шага требует двух-трех предложений. Вы спрашиваете о методе, а он сначала отвечает: «Конечно! Давайте разберемся пошагово», затем выводит список пунктов, а затем добавляет в конце списка «дополнительное объяснение», объясняющее, почему это следует делать именно так. То, что можно объяснить в трех предложениях, занимает три экрана текста. Я просто не умею программировать, это не значит, что мой мозг вышел из-под контроля.
   Это не новая проблема в версии 4.8; это давняя проблема, существующая в серии Opus с версии 4.7. Несмотря на неоднократную критику, эта версия не улучшилась, а может быть, даже ухудшилась. Самая трудоемкая часть — это этап исправления ошибок: после первого решения пользователь столкнулся с ошибкой. В версии 4.8 проблема была точно определена, предложено новое решение, и не повторялись неудачные шаги. Это определенно лучше, чем в версии 4.6, где ошибки иногда забывались в ходе нескольких раундов исправления. Признание ошибок — это хорошо, но не нужно быть слишком жестким. Добавление анализа причин и списка пунктов делает сообщение похожим на письмо в службу поддержки, хотя оно должно быть техническим обзором проблемы.
   В конечном итоге данные были экспортированы полностью в формате HAR, а очистка и наложение слоев с использованием пользовательских скриптов были успешно завершены. Некоторые пользователи еще не получили обновление Claude Code, но Claude для Chrome уже имеет версию 4.8 и также был внедрен в основные офисные инструменты, такие как Notion. Мы протестировали использование Claude для выполнения базовых задач, таких как поиск и заполнение форм в Chrome.
xunduodo ai
  一个能干活但不会聊天的同事如果只看结果,4.8 确实更强了,它理解非标准需求的能力更好,多步骤任务的上下文保持更稳,纠错不绕弯路。但如果看过程,体验却是拧巴的。它的问题不在于不会思考,准确地说,是它说话的方式像一个永远在做汇报的人:事事要分点,点点要展开,展开完还要总结,总结完再问你「还有什么我可以帮到你的?」。包括那些经典 AI 味开场白,「这是一个很棒的问题!」「当然可以!」,在前代模型上就已经让人烦躁,到 4.8 依然健在。这与其说是「缺点」,不如说是一种设计选择。Opus 4.8 的工程能力拉满了,它像一个技术很好但沟通风格很客服的同事:你知道它能解决问题,但你要先听它把一件简单的事说得很隆重。这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度,在这一版模型上被拉向了两个相反的方向。
  总体来看,Opus 4.8 是一个「工程」气质拉满的模型,这使得它能够快速融入各个工具当中,不管是 CC 这样的代码工具,还是进入网页浏览和检索的 chrome 插件,甚至是各个自己做的小工具。「工程化」是一种思维,在 4.8 身上体现的淋漓尽致。
  尽管「大而全」是厂家们经常打出来的口号,但在实际搭建自己的工作流中,不同的工具必然有不同的用处,Opus 4.8 做到的是,让其工程能力和思维,调动和流淌在各种不同的工具当中。不过,这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求,甚至是在更宏观的层面,给不同的工具分配不同的任务。考虑到现在模型的发布越来越快,距离 4.7 不过也是一晃眼的事,这种频繁的更新所带来的频繁适应,势必会带来一些痛苦。除了把重负转嫁给用户,也是厂商要考虑的问题——为了融资上市一昧加速再加速,未来会带来相当多的适应问题。

Новости по теме

ГОТОВЫ ЛИ ВЫ СОТРУДНИЧАТЬ С НАМИ?

Связаться с нами