生化危机女主角开源AI记忆系统:史上最高分还是营销骗局?

4月6日,一个GitHub仓库在24小时内斩获5400+ stars和150万+浏览量。这个数字本身不算惊人,惊人的是仓库主人——Milla Jovovich,也就是《生化危机》系列电影里Alice的扮演者。

她发布的项目叫MemPalace,一款开源AI记忆系统,声称在LongMemEval基准测试中取得了”史上最高分”。但故事的转折来得比好莱坞剧本还快:不到24小时,技术社区就发布了一份详尽的审计报告,标题直接定性——“None of the benchmark scores are real”(没有一个benchmark分数是真的)。

从记忆宫殿到AAAK语言

MemPalace的核心理念倒是很扎实——“记忆宫殿”(Method of Loci)。这是源自古希腊修辞学的记忆技巧,演讲者通过在想象中构建一座宫殿,把要记的内容放在不同房间里,回忆时就在宫殿里走一圈。

项目把这个概念数字化:

  • Wings(翼楼):对应人或项目
  • Halls(大厅):记忆类型(决策、事件、偏好等)
  • Rooms(房间):具体话题
  • Closets(壁橱):压缩后的摘要
  • Drawers(抽屉):原始文件

最吸引眼球的是他们自创的AAAK压缩语言——号称30倍无损压缩,能把几个月的对话压缩成120个token,而且任何LLM都能原生读取,不需要解码器。

满分神话与评测丑闻

项目的营销材料声称:

  • LongMemEval R@5:96.6%(零API调用)
  • LongMemEval R@5(混合模式+Haiku重排):100%
  • LoCoMo:100%

100%的分数在AI benchmark里几乎闻所未闻。Penfield Labs——另一家做AI记忆系统的团队——决定深挖。

他们的发现让这个数字瞬间崩塌:

LoCoMo的100%是怎么来的?

LoCoMo基准有10个对话,每个19-32个session不等。MemPalace用了top_k=50——但候选池最多只有32个session。这意味着检索步骤被完全绕过,系统直接把全部对话塞进Claude Sonnet,让它自己挑。这不是记忆系统,这是cat *.txt | claude

LongMemEval的分数根本不是LongMemEval分数

真正的LongMemEval是端到端评测:系统要检索、生成答案、然后由GPT-4评判对错。MemPalace只做了检索步骤,检查返回的session ID是否在黄金答案列表里——这叫recall_any@5,不是LongMemEval分数。

“无损”压缩实测损失12.4%

项目自己的BENCHMARKS.md里,AAAK压缩版本在相同评测中只有84.2% R@5,比原始96.6%低了12.4个百分点。Lossless(无损)和measured quality drop(实测质量下降)是矛盾的。

为3道题写了3个硬编码补丁

为了从96.6%冲到100%,开发者检查了dev集里剩下的3道错题,为每道写了专门的代码补丁。项目自己的文档承认:“This is teaching to the test.”

名人效应的放大镜

最讽刺的是:MemPalace的内部技术文档其实诚实地披露了所有这些问题,但营销材料把这些警告全部剥离了。

如果没有Milla Jovovich的名字,这种项目第一周可能只有50个star。名人效应让它获得了150万曝光——然后社区用同样的放大镜把它烧穿了。

Penfield Labs在审计报告里写道:“The honest version of this story would have been more interesting than the hyped version”(诚实版本的故事会比炒作版本更有趣)。

一个真实的技术发现

在一片争议中,还是有一个值得注意的发现:MemPalace证明,原始文本+默认embedding在某些检索任务上确实能打败很多LLM提取方案。这说明AI记忆领域可能过度工程化了提取步骤。

这个”负面发现”本身是有价值的——它不需要完美的benchmark分数,也不需要名人背书。

结语

MemPalace的代码完全开源,你可以自己去验证一切。它可能不是”史上最高分的AI记忆系统”,但它确实是一堂生动的课:

关于benchmark如何被操纵,关于营销与技术文档之间的诚实鸿沟,关于名人效应如何放大一切——包括质疑的声音。

文章发表于 gumi.ink