感觉现在大模型领域的rl算法和这些之前的rl算法相差甚远啊
感觉现在大模型领域的rl算法和这些之前的rl算法相差甚远啊