История поиска

Войти в NeuroManual

Войдите с помощью социальных сетей, чтобы сохранять избранные нейросети и просматривать историю.

Главная / Сравнения и рейтинги / ChatGPT против Claude: битва за реальные задачи

ChatGPT против Claude: битва за реальные задачи

Опубликовано: 10.05.2026 Время чтения: 7 мин.

Сравнение GPT-5.5 и Claude Opus 4.7 в реальных сценариях: код, документы, русский язык и логи. Кто сильнее и кому какой инструмент выбрать.
ChatGPT 0
Claude 0
Текущий раунд:

 

GPT-5.5 vs Claude Opus 4.7: битва титанов 2026

Весна 2026-го выдалась жаркой для мира больших языковых моделей. OpenAI 23 апреля выпустила GPT-5.5, а Anthropic чуть раньше, 16 апреля, — Claude Opus 4.7. Оба обновления вышли с разрывом меньше недели. OpenAI удвоила цены на токены, но оставила без изменений ежемесячную подписку — $20. Anthropic сохранила прежние расценки, но внедрила новый токенизатор, из-за которого тот же текст обходится на 35% дороже.

Обе модели официально недоступны в России, и в начале мая 2026-го прошла новая волна блокировок аккаунтов. Но это не отменяет главного вопроса: какая из них действительно сильнее в реальных задачах — от чистого кода до креатива на русском языке?

Мы провели шесть раундов испытаний. Вот как они прошли.

Методология

Тестирование проводилось в мае 2026 года. Использовались:

  • ChatGPT — GPT-5.5 (актуальная версия OpenAI, доступная через веб-интерфейс и API).
  • Claude — Opus 4.7 (актуальная флагманская версия Anthropic, доступная через веб-интерфейс и API).

Все запросы отправлялись в одинаковых условиях. Для обеих моделей использовался стандартный веб-интерфейс без дополнительных плагинов и расширений. Результаты фиксировались текстовыми логами.

Раунд 1. Цена, доступность в РФ и бенчмарки

Первый раунд определил базовые условия игры: сколько стоят подписки и работа через API, можно ли ими пользоваться из России и что говорят независимые тесты. На этих данных строится всё остальное. Если модель запрещена или стоит как крыло самолёта, её блестящие бенчмарки теряют практический смысл.

Задания:

  • Сравнение стоимости подписки и API-доступа.
  • Оценка доступности для российских пользователей.
  • Анализ результатов трёх независимых бенчмарков: SWE-bench Verified, SWE-bench Pro и GPQA Diamond.

Разбор результатов

Начнём с подписок. Обе модели предлагают тариф за $20 в месяц — ChatGPT Plus и Claude Pro. Разница в том, что получает пользователь за эти деньги. OpenAI оставила плюсовую подписку без изменений — доступ к GPT-5.5 с повышенными лимитами. Anthropic же в апреле 2026-го начала тестировать новую тарифную сетку, в которой некоторые ключевые функции, включая продвинутые возможности по программированию, переезжают в более дорогой тариф Max за $100. Формально базовый Pro пока сохраняет $20, но грядёт разделение.

Ситуация с API заметно драматичнее. OpenAI подняла цены на токены относительно GPT-5.4: входные токены стоят $5 за миллион, выходные— $30. За версию Pro просят $30 за миллион входных и $180 за выходные. Это существенное подорожание относительно предыдущего поколения. Anthropic оставила цены на уровне Opus 4.6: $5 за миллион входных токенов и $25 — выходных. Номинально Claude дешевле. Но есть подвох: новый токенизатор Anthropic разбивает тот же текст на большее количество токенов — на 0–35% больше в зависимости от языка. Для русского текста процент может приближаться к верхней границе. То есть вы платите ту же цену за токен, но вам нужно больше токенов. Реальная стоимость запроса вырастает.

Доступность в России — это где обе модели проигрывают с разгромным счётом. Официально ни ChatGPT, ни Claude не работают на территории РФ. Более того, в начале мая 2026 года прошла новая волна массовых блокировок. По данным РИА Новости, американские компании продолжают выявлять и блокировать аккаунты из неподдерживаемых регионов, в том числе России. Особенно чувствительны к рискам крупные проекты и организации: система быстрее замечает корпоративное использование.

Эксперты предупреждают: россиянам и российским компаниям нужно быть готовыми в любой момент потерять доступ к этим нейросетям. Чаще всего триггерами становятся постоянные входы из разных стран за короткое время, использование узнаваемых VPN, слишком большое количество запросов и массовое создание аккаунтов. Обходные пути есть, но любой из них сопряжён с риском бана.

Теперь о том, за что вообще стоит бороться. Мы на NeuroManual собрали и сравнили результаты трёх авторитетных бенчмарков для обеих моделей. Все данные актуальны на май 2026 года.

SWE-bench VerifiedРешение реальных задач с GitHub (проверенные)88,7%87,6%
SWE-bench ProРешение сложных задач с пониманием больших кодовых баз57,7% (GPT-5.4)*64,3%
GPQA DiamondЭкспертные вопросы по биологии, физике, химии81,2% (GPT-5.4)*94,2%
MMLUОбщая эрудиция (57 предметов)92,4%~89-90%
Прямых данных по GPT-5.5 для SWE-bench Pro и GPQA Diamond на момент тестирования не опубликовано. Указаны результаты GPT-5.4.

По SWE-bench Verified разница минимальная, но OpenAI остаётся впереди. Однако по Pro-версии бенчмарка, где задачи значительно сложнее, Claude резко вырывается вперёд — 64,3% против 57,7%. На GPQA Diamond — экспертных вопросах из естественных наук — Claude уверенно доминирует: 94,2% против 81,2%. По MMLU, тесту общей эрудиции, GPT сильнее: 92,4% против примерно 89-90% у Claude.

Хотите сами сравнить модели по бенчмаркам, цене и характеристикам? На нашем сайте есть удобная страница, где мы собрали все актуальные показатели LLM в наглядном виде. Переходите по ссылке — и выбирайте лучший инструмент для своих задач.

Резюмируя по первому раунду: по доступности обе модели провалились — ни одной легальной возможности для российского пользователя не осталось. По цене у ChatGPT Plus и Claude Pro паритет, но в сегменте API номинально дешевле Claude, хотя новый токенизатор съедает часть этого преимущества. По бенчмаркам GPT-5.5 сильнее во всей кодовой линейке и общей эрудиции, Claude Opus 4.7 — в глубокой экспертизе и сложных задачах.

Счёт: ChatGPT 1:0 Claude (баллы за раунд 9:8)

Раунд 2. Чистый код: сложный алгоритм

Код остаётся главным полем битвы современных LLM. Если модель не умеет писать сложные структуры данных с первого раза, ей грош цена в серьёзной разработке. Второй раунд проверил способность обеих моделей реализовать рекурсивный алгоритм с нуля.

Задания:

  • Написать на Python рекурсивную функцию flatten_dict для разворачивания вложенных словарей с любым типом ключей.
  • Привести сложность по времени и памяти, а также 2-3 граничных теста с пояснениями.
  • Код должен работать сразу после копирования.

Разбор результатов

Обе нейросети справились с задачей — написали рабочую рекурсивную функцию, представили сложность и граничные тесты. Но качество исполнения различается кардинально.

ChatGPT задействовал внутреннюю рекурсивную функцию, использующую список path. Ключом в плоском словаре становится кортеж из последовательности ключей. Этот подход эффективен: путь накапливается мутабельно, кортеж создаётся только для листовых значений. Добавлена проверка типа входных данных — функция корректно выбрасывает TypeError, если передан не словарь. Временная сложность оценена как O(N + L) с учётом создания кортежей, память — O(D) для стека и текущего пути плюс O(L) под результат. Три граничных теста: ключи разных типов (включая None, tuple, frozenset), пустой словарь и вложенные пустые словари — каждый сопровождается пояснением. Код готов к копированию и содержит if __name__ == «__main__».

Claude предложил более простую рекурсивную функцию с использованием параметра parent_key. На каждом уровне рекурсии создаётся новый кортеж (parent_key + (k,)), а результат каждого рекурсивного вызова превращается в словарь и расширяется через extend. Это приводит к избыточному копированию кортежей и созданию множества промежуточных словарей. Оценка сложности в целом верна, но менее детальна. Проверка типа отсутствует — при передаче не-словаря возникнет ошибка AttributeError. Тестов приведено больше пяти, но не все из них действительно граничные.

По эффективности и надёжности решение ChatGPT превосходит оппонента. Оно предлагает более оптимальный алгоритм, защиту от некорректного ввода и чёткие граничные тесты. Claude дал рабочее, но менее продуманное решение с лишними накладными расходами.

Счёт: ChatGPT 2:0 Claude (баллы за раунд 10:9)

Раунд 3. Рефакторинг SQL: оптимизация запроса

Способность видеть неочевидные проблемы в чужом коде и исправлять их с минимальными изменениями — признак зрелого ассистента. В этом раунде обе модели получили медленный SQL-запрос с классическими антипаттернами.

Задания:

  • Оптимизировать запрос, добавить индексы, переписать WHERE без OR, переставить JOIN в правильном порядке и выбрать только нужные столбцы.
-- ПРОБЛЕМНЫЙ ЗАПРОС (медленный, полный просмотр)
SELECT p.id, p.product_name, p.category, c.customer_name, c.email, 
       COALESCE(od.quantity, 0) AS total_quantity,
       COALESCE(od.price * od.quantity, 0) AS total_price
FROM products p
LEFT JOIN customers c ON c.id = p.customer_id   -- неправильный порядок JOIN'ов
LEFT JOIN order_details od ON od.product_id = p.id
WHERE p.status = 'active' 
   OR c.region = 'EMEA'
   OR (od.created_at >= '2025-01-01' AND od.quantity > 10)
ORDER BY total_price DESC;

Разбор результатов

ChatGPT справился с заданием значительно лучше. Он не только выполнил все требования — индексы, переписанный WHERE без OR, правильный порядок JOIN — но и исправил скрытую ошибку исходного запроса: отсутствие агрегации по order_details.

CREATE INDEX IF NOT EXISTS idx_products_status_id ON products (status, id);
CREATE INDEX IF NOT EXISTS idx_products_customer_id ON products (customer_id, id);
CREATE INDEX IF NOT EXISTS idx_customers_region_id ON customers (region, id);
CREATE INDEX IF NOT EXISTS idx_order_details_product_id ON order_details (product_id);
CREATE INDEX IF NOT EXISTS idx_order_details_created_qty_product ON order_details (created_at, quantity, product_id);

WITH eligible_products AS (
    SELECT p.id AS product_id
    FROM products p
    WHERE p.status = 'active'
    UNION
    SELECT p.id AS product_id
    FROM products p
    JOIN customers c ON c.id = p.customer_id
    WHERE c.region = 'EMEA'
    UNION
    SELECT od.product_id
    FROM order_details od
    WHERE od.created_at >= DATE '2025-01-01'
      AND od.quantity > 10
),
order_totals AS (
    SELECT
        od.product_id,
        SUM(od.quantity) AS total_quantity,
        SUM(od.price * od.quantity) AS total_price
    FROM order_details od
    GROUP BY od.product_id
)
SELECT
    p.id,
    p.product_name,
    p.category,
    c.customer_name,
    c.email,
    COALESCE(t.total_quantity, 0) AS total_quantity,
    COALESCE(t.total_price, 0) AS total_price
FROM eligible_products ep
JOIN products p ON p.id = ep.product_id
LEFT JOIN customers c ON c.id = p.customer_id
LEFT JOIN order_totals t ON t.product_id = p.id
ORDER BY total_price DESC;

В исходном варианте левое соединение с order_details порождало дублирование строк продуктов для каждой детали заказа, а COALESCE(od.quantity, 0) и COALESCE(od.price * od.quantity, 0) вычислялись построчно, что не давало суммарных значений по продукту. ChatGPT ввёл CTE order_totals с группировкой по product_id, что корректно суммирует количество и стоимость для каждого товара. Это критическое улучшение бизнес-логики.

Кроме того, его запрос:

  • сохранил все исходные столбцы, в отличие от Claude, который их потерял;
  • использовал составные индексы, покрывающие условия фильтрации;
  • чётко разделил три условия через UNION внутри eligible_products, а затем присоединил агрегированные данные, что оптимизирует порядок соединений.

Claude, напротив, допустил грубую ошибку — в каждом из трёх SELECT отсутствуют столбцы category и email. Его запрос не агрегирует order_details, оставляя множественные строки для одного продукта, а использование UNION может удалить дубликаты непредсказуемым образом. Индексы у него простые и менее эффективны.

CREATE INDEX idx_products_status ON products(status);
CREATE INDEX idx_customers_region ON customers(region);
CREATE INDEX idx_order_details_product_id ON order_details(product_id);
CREATE INDEX idx_order_details_created_quantity ON order_details(created_at, quantity);

SELECT p.id, p.product_name, c.customer_name, 
       COALESCE(od.quantity, 0) AS total_quantity,
       COALESCE(od.price * od.quantity, 0) AS total_price
FROM products p
LEFT JOIN order_details od ON od.product_id = p.id
LEFT JOIN customers c ON c.id = p.customer_id
WHERE p.status = 'active'

UNION

SELECT p.id, p.product_name, c.customer_name,
       COALESCE(od.quantity, 0) AS total_quantity,
       COALESCE(od.price * od.quantity, 0) AS total_price
FROM customers c
INNER JOIN products p ON p.customer_id = c.id
LEFT JOIN order_details od ON od.product_id = p.id
WHERE c.region = 'EMEA'

UNION

SELECT p.id, p.product_name, c.customer_name,
       od.quantity AS total_quantity,
       od.price * od.quantity AS total_price
FROM order_details od
INNER JOIN products p ON p.id = od.product_id
LEFT JOIN customers c ON c.id = p.customer_id
WHERE od.created_at >= '2025-01-01' AND od.quantity > 10

ORDER BY total_price DESC;

ChatGPT не просто механически переписал запрос, а глубоко проанализировал его семантику и предложил корректное, производительное решение.

Счёт: ChatGPT 3:0 Claude (баллы за раунд 10:8)

Раунд 4. Документы: анализ финансового отчёта

Реальная работа с документами редко сводится к простому извлечению фактов. Нужно находить скрытые зависимости, сопоставлять цифры и делать аналитические выводы. В четвёртом раунде модели получили полугодовой финансовый отчёт HHLA за 2025 год с таблицами и графиками.

Задания (разработаны заказчиком на основе PDF):

  • Назвать основную причину роста капитальных затрат HHLA в первой половине 2025 года и объяснить, почему это неоперационный фактор.
  • Сравнить динамику EBITDA и EBIT по сегментам Container и Intermodal, определить, какой сегмент показал более высокий прирост операционной прибыли и за счёт каких факторов.
  • Перечислить три ключевых параметра модели оценки, перечисленных в примечаниях к goodwill для CGU Roland Spedition GmbH, и сделать вывод о чувствительности актива к макроэкономическим условиям.

Разбор результатов

Обе нейросети успешно справились с задачей: нашли нужную информацию в отчёте, корректно её интерпретировали и дали логические обоснования. Но Claude оказался точнее и аналлитичнее.

При сравнении сегментов Claude добавил важный нюанс, которого не было у оппонента: в относительном выражении Container показал чуть более высокий рост EBIT — +24,5% против +23,1% у Intermodal. Но в абсолютном выражении прирост у Intermodal оказался выше — €9,0 млн против €8,4 млн. Это демонстрирует более глубокое понимание финансовых показателей и умение видеть разницу между относительными и абсолютными величинами. ChatGPT ограничился лишь констатацией процентного превосходства Container, упустив этот контекст.

При объяснении неоперационного характера продления аренды ChatGPT дал три ёмких аргумента, прямо указывая, что это учётное событие, не связанное с физическими объёмами перевалки. Claude также правильно указал на бухгалтерскую природу, но его объяснение звучало более технически и менее наглядно.

Наконец, по goodwill Claude сделал практически ценный вывод о высокой чувствительности актива к макроэкономическим условиям, добавив, что любая неблагоприятная корректировка может привести к обесценению. ChatGPT пришёл к аналогичному выводу, но его формулировка была более общей и не содержала прямого указания на минимальный запас прочности.

Счёт: ChatGPT 3:1 Claude (баллы за раунд 10:9)

Раунд 5. Русский язык: сложные идиомы

Нейросети, обученные на корпусах английских текстов, часто спотыкаются о русский сленг и разговорные обороты. Этот раунд показал, насколько глубоко каждая модель понимает живую русскую речь.

Задания:

  • Написать короткую заметку для блога о том, почему нейросети путаются в русском сленге, привести 2-3 ярких примера, использовать образные обороты и обязательно употребить фразу «шило на мыло».
ChatGPT
Claude


Разбор результатов

ChatGPT справился изящнее и точнее. Фраза «шило на мыло» вписана в ткань повествования органично — как сравнение, а не вынесена в отдельный пример. Примеры сленга подобраны хорошо: «кринж», «жиза», «имба». Именно эти слова действительно часто путают нейросети своей текучестью значений. Текст концентрированный: ни одного лишнего предложения, каждый образ работает на главную мысль.

Claude написала хорошую заметку с ярким заголовком «Когда ИИ ловит ворон в русском подъезде» и запоминающейся метафорой про «девятку на гололёде». Но её примеры — «забить», «шарит в теме», «вписка» — это уже почти классические слова из подъездного фольклора, которые многие модели худо-бедно выучили. Фразу «шило на мыло» она использовала как отдельный иллюстративный случай, а не как обязательный оборот внутри рассуждения. Плюс у Claude осталось рудиментарное заключение «это и к лучшему», которое хоть и человечное, но попахивает шаблоном.

Работа ChatGPT чище, острее и ближе к духу задания.

Счёт: ChatGPT 4:1 Claude (баллы за раунд 10:9)

Раунд 6. Многопоточный анализ логов

Большие данные и многопоточность — поле, где легче всего упасть лицом в асфальт. Для файла объёмом 10 ГБ неосторожная реализация гарантированно положит сервер. Шестой раунд определил, кто умеет писать масштабируемый код, а кто срезает углы.

Задания:

  • Написать на Bash или Python скрипт, который:
    • Распарсит логи Nginx по 4 потокам без загрузки всего файла в память.
    • Выделит топ-5 IP по числу запросов и топ-3 самых медленных запроса по request_time.
    • Выдаст результат в CSV.

Разбор результатов

Обе нейросети формально выполнили задание. Однако качество реализации, особенно для файла объёмом 10 ГБ, существенно различается.

ChatGPT предложил аккуратный Python-скрипт с использованием ThreadPoolExecutor и разбиением файла по байтовым диапазонам без загрузки всего файла в память. Потоки читают файл независимо через seek и readline, парсят IP как первый токен, request_time как последнее числовое значение. Общих изменяемых структур между потоками нет — каждый поток считает в своём диапазоне и возвращает локальные результаты, итоговое объединение делается в главном потоке, что гарантирует потокобезопасность без блокировок. CSV выводится в stdout, что соответствует духу задания и легко перенаправляется в файл. Скрипт не использует тяжёлые регулярные выражения, а ищет числа в конце строки — разумный компромисс для больших логов.

Claude представил Python-вариант с потоками Thread и общей Lock, а также дополнительный Bash-скрипт. В её Python-решении разбивка файла на куски для потоков приводит к тому, что весь 10-гигабайтный файл одновременно оказывается в оперативной памяти плюс копии строк при передаче в потоки. Блокировки защищают общие структуры, но накладные расходы на Lock и глобальную очередь медленных запросов снижают производительность. Используется тяжёлое регулярное выражение LOG_PATTERN, которое придётся применять к каждой строке — для 10 ГБ это может быть крайне медленно.

Bash-скрипт Claude рабочий, использует split для разбиения по строкам и awk, но в контексте потоков обычно подразумевают именно многопоточность, а не многопроцессность. Потенциальная проблема: sort на больших временных файлах тоже может быть ресурсоёмкой.

ChatGPT справился лучше: его решение грамотно работает с большими файлами, не взрывает память, потокобезопасно без блокировок, использует простой и быстрый парсинг. Claude дал рабочее, но менее масштабируемое Python-решение с риском Out-of-Memory и избыточными блокировками.

Счёт: ChatGPT 5:1 Claude (баллы за раунд 10:7)

Итоговая таблица

КритерийChatGPT (GPT-5.5)Claude (Opus 4.7)
Цена, доступность, бенчмарки98
Чистый код (сложный алгоритм)109
Рефакторинг SQL108
Анализ документов (PDF)109
Русский язык и идиомы109
Многопоточный анализ логов107
Итоговый балл5950

Вердикт

ChatGPT (GPT-5.5) побеждает в этом баттле со счётом 5:1 по раундам и 59:50 по сумме баллов.

ChatGPT выиграл за счёт фундаментальных вещей: умения видеть скрытые семантические ошибки там, где другие оптимизируют только синтаксис, качественного анализа документов, где он увидел разницу между относительными и абсолютными показателями, и прежде всего — умения писать масштабируемый код, который не рухнет на реальных объёмах данных.

Claude Opus 4.7 показал себя достойным соперником, особенно в области глубокой экспертизы. Его результаты на GPQA и SWE-bench Pro говорят о том, что для узкоспециализированных задач этот инструмент может быть даже предпочтительнее. Но в универсальном зачёте, где важны и код, и документы, и русский язык, и даже креатив — ChatGPT оказался стабильнее.

Кому какой инструмент выбрать?

Если вы профессиональный разработчик, работающий с большими кодовыми базами и сложными SQL-запросами на продакшен-уровне — присмотритесь к ChatGPT. Он лучше агрегирует данные, исправляет семантические ошибки и масштабируется там, где другой рассыплется.

Если ваша задача — узкая экспертиза, требующая глубоких знаний в конкретной предметной области (финансы, наука, сложная логика) — Claude Opus 4.7 представляет вполне viable-альтернативу. Его рекордные 94,2% на GPQA — не шутка.

Для российского пользователя выбор усложняется блокировками. Обе модели находятся под прицелом: в мае 2026-го прошли новые массовые чистки аккаунтов. Любой обходной путь сопряжён с риском. Если выбирать из двух зол, экосистема ChatGPT более развита, а сообществ-помощников больше. Но готовьте запасной план.

Знаете, что нас удивило больше всего? Этим баттлом мы ожидали, что Claude — признанный лидер в программировании, особенно после его рекордов на SWE-bench Pro, — легко заберёт все кодовые раунды. Но ChatGPT не просто выиграл, а выиграл уверенно. И в чистом алгоритме (раунд 2), и в рефакторинге SQL с семантическими ловушками (раунд 3), и в многопоточном анализе логов на 10 ГБ (раунд 6) — везде победа осталась за GPT-5.5. Причём во втором раунде ChatGPT написал более надёжное и эффективное решение, в третьем исправил скрытую бизнес-ошибку, а в шестом — не взорвал память сервера. Claude на своём поле выглядел достойно, но как второй номер. Кто бы мог подумать, что универсал обойдёт профильного тяжеловеса в его же дисциплине.

А вы что думаете? Мы провели это сравнение, чтобы помочь вам выбрать, но окончательный вердикт всегда за вами. Проголосуйте ниже — кто, по-вашему, победил в этом баттле?


Данные проверены 10 мая 2026. Цены и доступность могут меняться, уточняйте на официальных сайтах.

ChatGPT
58
Обзор →
VS
Claude
52
Обзор →
9
Цена, доступность в РФ и бенчмарки
8
10
Чистый код: сложный алгоритм
9
10
Рефакторинг SQL: оптимизация запроса
9
9
Документы: анализ финансового отчёта
10
10
Русский язык: сложные идиомы
9
10
Многопоточный анализ логов
7
👥 ГОЛОСОВАНИЕ ПОЛЬЗОВАТЕЛЕЙ
ChatGPT
76
Claude
63
55%
45%