ClawBench | Independent LLM Agent Evaluation & Benchmarks

ClawBenchLLM Agent Benchmark

About GitHub

CLAW SCORE

Percentage of all evaluations resolved in ClawBench; Higher is Better

GLM-5-Turbo

93.9

Doubao-Seed-2.0-lite

93.1

GPT-5.4

92.2

MiniMax-M2.5

92.1

MiniMax-M2.7

91.7

GLM-5

91.7

Claude Opus 4.5

91.5

Qwen3.5-35B-A3B

91.4

MiMo-V2-Omni

91.2

Qwen3.5-397B-A17B

90.0

SPEED

Time (s) to run all evaluations in the ClawBench; Lower is better

Grok 4.20 Beta

524s

gpt-oss-20b

530s

GPT-5.4 Mini

589s

GPT-5.4 Nano

649s

Gemini 3 Flash Preview

666s

MiMo-V2-Omni

848s

gpt-oss-120b

1218s

GPT-5.4

1292s

Nemotron 3 Nano

1298s

GLM-5-Turbo

1317s

COST

Cost (USD) to run all evaluations in the ClawBench; Lower is better

gpt-oss-20b

$0.08

GPT-5.4 Nano

$0.17

gpt-oss-120b

$0.18

Step 3.5 Flash

$0.28

DeepSeek-V3.2(Non-thinking)

$0.32

Doubao-Seed-2.0-lite

$0.33

Grok 4.1 Fast

$0.33

MiniMax-M2.5

$0.38

MiniMax-M2.7

$0.44

Claude Sonnet 4.5

$0.49

Updated 03/23/2026

ClawBenchLLM Agent Benchmark

Model	CLAW SCORE Percentage of all evaluations resolved in ClawBench; Higher is Better	Speed Time (s) to run all evaluations in the ClawBench; Lower is better	Cost Cost (USD) to run all evaluations in the ClawBench; Lower is better	Value CLAW SCORE/COST; Higher is Better
GLM-5-TurboProprietary Z.ai	93.9	1317s	$0.83	113.1
Doubao-Seed-2.0-liteProprietary ByteDance	93.1	1793s	$0.33	282.1
GPT-5.4Proprietary OpenAI	92.2	1292s	$2.11	43.7
MiniMax-M2.5Proprietary MiniMax	92.1	1908s	$0.38	242.3
MiniMax-M2.7Proprietary MiniMax	91.7	2003s	$0.44	208.5
GLM-5Open Weights Z.ai	91.7	2377s	$1.30	70.5
Claude Opus 4.5Proprietary Anthropic	91.5	1556s	$9.85	9.3
Qwen3.5-35B-A3BOpen Weights Alibaba	91.4	1615s	$0.56	163.3
MiMo-V2-OmniProprietary Xiaomi	91.2	848s	$0.75	121.6
Qwen3.5-397B-A17BOpen Weights Alibaba	90.0	1661s	$0.85	105.8
GPT-5.4 NanoProprietary OpenAI	89.7	649s	$0.17	527.4
Claude Haiku 4.5Proprietary Anthropic	89.4	1860s	$2.16	41.4
MiMo-V2-ProProprietary Xiaomi	89.3	1713s	$5.31	16.8
Doubao-Seed-2.0-proProprietary ByteDance	88.6	2293s	$1.00	88.6
Grok 4.1 FastProprietary xAI	88.6	1441s	$0.33	268.4
Qwen3.5-Plus-2026-02-15Open Weights Alibaba	88.4	2794s	$1.17	75.6
Claude Opus 4.6Proprietary Anthropic	88.2	1524s	$6.49	13.6
Claude Sonnet 4.5Proprietary Anthropic	88.1	1676s	$0.49	179.8
Gemini 3.1 Pro PreviewProprietary Google	87.7	1891s	$2.12	41.4
Qwen3.5-122B-A10BOpen Weights Alibaba	86.0	1431s	$1.00	86.0