在一次全模态全双工会话中,可以通过对话: 1. 记住我旁边的这个人,他叫张三; 2. 记住我说话的声音,我叫李四; 让模型记住“人物视觉特征与对应人的名字”、“人物音频特征对应人的名字”。但是本次会话结束,kvcache就清空了,记忆也就没了。 **问题:** 业内是如何实现这种多模态的长期记忆能力的呢? 通过暴力保存会话的 kvcache 吗?
在一次全模态全双工会话中,可以通过对话:
让模型记住“人物视觉特征与对应人的名字”、“人物音频特征对应人的名字”。但是本次会话结束,kvcache就清空了,记忆也就没了。
问题:
业内是如何实现这种多模态的长期记忆能力的呢?
通过暴力保存会话的 kvcache 吗?