如何实现多模态长期记忆？

在一次全模态全双工会话中，可以通过对话：
1. 记住我旁边的这个人，他叫张三；
2. 记住我说话的声音，我叫李四；

让模型记住“人物视觉特征与对应人的名字”、“人物音频特征对应人的名字”。但是本次会话结束，kvcache就清空了，记忆也就没了。

**问题：**
业内是如何实现这种多模态的长期记忆能力的呢？
通过暴力保存会话的 kvcache 吗？