

安全审计公司OpenZepplin发现,EVMbench的数据集中存在训练数据泄露,以及至少四项无效的高严重性漏洞分类。

区块链安全公司OpenZeppelin在审计OpenAI推出的EVMbench时,发现其方法论和数据存在缺陷和污染。
EVMbench于今年二月中旬与加密投资公司Paradigm合作推出,旨在评估不同人工智能模型在识别、修复及利用智能合约漏洞方面的能力。
OpenZeppelin在周一的社交媒体帖子中表示,尽管欢迎这一创新,但决定以相同的严谨标准评估EVMbench,这一标准广泛应用于其保护的协议,包括Aave、Lido和Uniswap等去中心化金融平台。
审计中,OpenZeppelin发现了两个主要问题:训练数据污染和高严重性漏洞的错误分类。
“我们审查了数据集,发现方法论缺陷和无效漏洞分类,其中至少有四项标记为高严重性的漏洞在实际中不可利用,”OpenZeppelin指出。

EVMbench发布后,评估人工智能代理理论上发现和利用智能合约漏洞的能力。Anthropic公司的Claude Open 4.6位居榜首,其次是OpenAI的OC-GPT-5.2和谷歌的Gemini 3 Pro。
EVMbench测试或需修订
针对数据污染问题,OpenZeppelin指出,“AI安全领域最重要的能力是在模型未见过的代码中发现新颖漏洞。”
然而,OpenZeppelin表示,在EVMbench对AI代理进行测试时,所有高分AI代理“可能在预训练阶段已接触到与基准测试相关的漏洞报告”。
在EVMbench测试过程中,AI代理的互联网访问权限被切断,无法通过网络搜索答案,但基准测试所用漏洞均来自2024年到2025年中期的120次审计,而这些AI代理的知识训练截止时间通常设置在2025年中期。
因此,AI代理很可能已在记忆中储存了所有问题的答案。
“虽然这并不一定能让模型立即识别出这些问题,但会降低测试的有效性。数据集的有限规模进一步缩小了评估面,使数据污染问题更加突出,”OpenZeppelin表示。
OpenZeppelin还指出,EVMbench数据集中存在一些重大事实性错误,并认为数个“高严重性漏洞”实际上并不成立。
OpenZeppelin评估了EVMbench归类为高风险的至少四项漏洞,但这些漏洞实际上无法被利用。然而,EVMbench在评分标准中,依然对AI代理发现这些被认为是误报的漏洞给予正面评价。
“这些并非主观的严重性分歧,而是所描述的攻击方式本身并不成立的发现。”
OpenZeppelin重申,AI将在提升区块链安全方面发挥关键作用,但必须正确应用和测试技术,以最大限度释放其潜力。“问题不在于AI是否会改变智能合约安全——它一定会。关键在于,我们用来构建和评估这些工具的数据和基准,是否能与它们要保护的合约达到同等标准。”
相关推荐:道明证券(TD Securities):纽交所推动代币化迎来机构转折点
#Security
#Smart Contracts
#AI
#Cybersecurity
#AI & Hi-Tech


















