多智能体逆向强化学习中合作策略的探索与优化