datafun._talk lr设置小一点,否则会崩溃。 百步以内,达到90%的format效果和准确率效果; aha moment,本身不是由RL产生的,只是RL激发了base模型当中的思考能力; 代码改到rf++很简单;