生化危机女主角开源AI记忆系统：史上最高分还是营销骗局？

4月6日，一个GitHub仓库在24小时内斩获5400+ stars和150万+浏览量。这个数字本身不算惊人，惊人的是仓库主人——Milla Jovovich，也就是《生化危机》系列电影里Alice的扮演者。

她发布的项目叫MemPalace，一款开源AI记忆系统，声称在LongMemEval基准测试中取得了”史上最高分”。但故事的转折来得比好莱坞剧本还快：不到24小时，技术社区就发布了一份详尽的审计报告，标题直接定性——“None of the benchmark scores are real”（没有一个benchmark分数是真的）。

从记忆宫殿到AAAK语言

MemPalace的核心理念倒是很扎实——“记忆宫殿”（Method of Loci）。这是源自古希腊修辞学的记忆技巧，演讲者通过在想象中构建一座宫殿，把要记的内容放在不同房间里，回忆时就在宫殿里走一圈。

项目把这个概念数字化：

Wings（翼楼）：对应人或项目
Halls（大厅）：记忆类型（决策、事件、偏好等）
Rooms（房间）：具体话题
Closets（壁橱）：压缩后的摘要
Drawers（抽屉）：原始文件

最吸引眼球的是他们自创的AAAK压缩语言——号称30倍无损压缩，能把几个月的对话压缩成120个token，而且任何LLM都能原生读取，不需要解码器。

满分神话与评测丑闻

项目的营销材料声称：

LongMemEval R@5：96.6%（零API调用）
LongMemEval R@5（混合模式+Haiku重排）：100%
LoCoMo：100%

100%的分数在AI benchmark里几乎闻所未闻。Penfield Labs——另一家做AI记忆系统的团队——决定深挖。

他们的发现让这个数字瞬间崩塌：

LoCoMo的100%是怎么来的？

LoCoMo基准有10个对话，每个19-32个session不等。MemPalace用了top_k=50——但候选池最多只有32个session。这意味着检索步骤被完全绕过，系统直接把全部对话塞进Claude Sonnet，让它自己挑。这不是记忆系统，这是cat *.txt | claude。

LongMemEval的分数根本不是LongMemEval分数

真正的LongMemEval是端到端评测：系统要检索、生成答案、然后由GPT-4评判对错。MemPalace只做了检索步骤，检查返回的session ID是否在黄金答案列表里——这叫recall_any@5，不是LongMemEval分数。

“无损”压缩实测损失12.4%

项目自己的BENCHMARKS.md里，AAAK压缩版本在相同评测中只有84.2% R@5，比原始96.6%低了12.4个百分点。Lossless（无损）和measured quality drop（实测质量下降）是矛盾的。

为3道题写了3个硬编码补丁

为了从96.6%冲到100%，开发者检查了dev集里剩下的3道错题，为每道写了专门的代码补丁。项目自己的文档承认：“This is teaching to the test.”

名人效应的放大镜

最讽刺的是：MemPalace的内部技术文档其实诚实地披露了所有这些问题，但营销材料把这些警告全部剥离了。

如果没有Milla Jovovich的名字，这种项目第一周可能只有50个star。名人效应让它获得了150万曝光——然后社区用同样的放大镜把它烧穿了。

Penfield Labs在审计报告里写道：“The honest version of this story would have been more interesting than the hyped version”（诚实版本的故事会比炒作版本更有趣）。

一个真实的技术发现

在一片争议中，还是有一个值得注意的发现：MemPalace证明，原始文本+默认embedding在某些检索任务上确实能打败很多LLM提取方案。这说明AI记忆领域可能过度工程化了提取步骤。

这个”负面发现”本身是有价值的——它不需要完美的benchmark分数，也不需要名人背书。

结语

MemPalace的代码完全开源，你可以自己去验证一切。它可能不是”史上最高分的AI记忆系统”，但它确实是一堂生动的课：

关于benchmark如何被操纵，关于营销与技术文档之间的诚实鸿沟，关于名人效应如何放大一切——包括质疑的声音。

文章发表于 gumi.ink