新资讯:24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器
2023-05-26 17:41:06 来源: 机器之心Pro
机器之心报道
【资料图】
编辑:小舟、马梓文
平替不止模型,RLHF也有平替了。
2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷纷在 LLaMA 的基础上进行「二创」,陆续推出了 Alpaca、Vicuna 等多个开源大模型,一时间「羊驼」成为 AI 圈顶流。开源社区构建的这些类 ChatGPT 模型迭代速度非常快,并且可定制性很强,被称为 ChatGPT 的开源平替。
然而,ChatGPT 之所以能在文本理解、生成、推理等方面展现出强大的能力,是因为 OpenAI 为 ChatGPT 等大模型使用了新的训练范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习的方式依据人类反馈优化语言模型。使用 RLHF 方法,大型语言模型可与人类偏好保持对齐,遵循人类意图,最小化无益、失真或偏见的输出。但 RLHF 方法依赖于大量的人工标注和评估,通常需要数周时间、花费数千美元收集人类反馈,成本高昂。
现在,推出开源模型 Alpaca 的斯坦福大学又提出了一种模拟器 ——AlpacaFarm(直译为羊驼农场)。AlpacaFarm 能在 24 小时内仅用约 200 美元复制 RLHF 过程,让开源模型迅速改善人类评估结果,堪称 RLHF 的平替。
AlpacaFarm 试图快速、低成本地开发从人类反馈中学习的方法。为了做到这一点,斯坦福的研究团队首先确定了研究 RLHF 方法的三个主要困难:人类偏好数据的高成本、缺乏可信赖的评估、缺乏参考实现。
为了解决这三个问题,AlpacaFarm 构建了模拟注释器、自动评估和 SOTA 方法的具体实现。目前,AlpacaFarm 项目代码已开源。
GitHub 地址:https://github.com/tatsu-lab/alpaca_farm
论文地址:https://tatsu-lab.github.io/alpaca_farm_paper.pdf
如下图所示,研究人员可以使用 AlpacaFarm 模拟器快速开发从人类反馈数据中学习的新方法,也能将已有 SOTA 方法迁移到实际的人类偏好数据上。
模拟注释器
AlpacaFarm 基于 Alpaca 数据集的 52k 指令构建,其中 10k 指令用于微调基本的指令遵循模型,剩余的 42k 指令用于学习人类偏好和评估,并且大部分用于从模拟注释器中学习。该研究针对 RLHF 方法的注释成本、评估和验证实现三大挑战,逐一提出解决方法。
首先,为了减少注释成本,该研究为可访问 API 的 LLM(如 GPT-4、ChatGPT)创建了 prompt,使得 AlpacaFarm 能够模拟人类反馈,成本仅为 RLHF 方法收集数据的 1/45。该研究设计了一种随机的、有噪声的注释方案,使用 13 种不同的 prompt,从多个 LLM 提取出不同的人类偏好。这种注释方案旨在捕获人类反馈的不同方面,如质量判断、注释器之间的变化性和风格偏好。
该研究通过实验表明 AlpacaFarm 的模拟是准确的。当研究团队使用 AlpacaFarm 训练和开发方法时,这些方法与使用实际人类反馈训练和开发的相同方法排名非常一致。下图显示了由 AlpacaFarm 模拟工作流和人类反馈工作流产生的方法在排名上的高度相关性。这一特性至关重要,因为它说明从模拟中得出的实验结论在实际情况下也有可能成立。
除了方法层面的相关性,AlpacaFarm 模拟器还可以复制奖励模型过度优化等定性现象,但以此针对代理奖励(surrogate reward)的持续 RLHF 训练可能会损害模型性能。下图是在人类反馈 (左) 和 AlpacaFarm (右) 两种情况下的该现象,我们可以发现 AlpacaFarm 最初捕获了模型性能提升的正确定性行为,然后随着 RLHF 训练的持续,模型性能下降。
评估
在评估方面,研究团队使用与 Alpaca 7B 的实时用户交互作为指导,并通过结合几个现有公共数据集来模拟指令分布,包括 self-instruct 数据集、anthropic helpfulness 数据集和 Open Assistant、Koala 和 Vicuna 的评估集。使用这些评估指令,该研究比较了 RLHF 模型与 Davinci003 模型的响应(response)情况,并使用一个分值度量 RLHF 模型响应更优的次数,并将这个分值称为胜率(win-rate)。如下图所示,在该研究的评估数据上进行的系统排名量化评估表明:系统排名和实时用户指令是高度相关的。这一结果说明,聚合现有的公开数据能实现与简单真实指令相近的性能。
参考方法
对于第三个挑战 —— 缺少参考实现,研究团队实现并测试了几种流行的学习算法 (如 PPO、专家迭代、best-of-n 采样)。研究团队发现在其他领域有效的更简单方法并不比该研究最初的 SFT 模型更好,这表明在真实的指令遵循环境中测试这些算法是非常重要的。
根据人工评估,PPO 算法被证明是最有效的,它将模型与 Davinci003 相比的胜率从 44% 提高到 55%,甚至超过了 ChatGPT。
这些结果表明,PPO 算法在为模型优化胜率方面是非常有效的。需要注意的是,这些结果是特定于该研究的评估数据和注释器得出的。虽然该研究的评估指令代表了实时用户指令,但它们可能无法涵盖更具有挑战性的问题,并且并不能确定有多少胜率的改进来源于利用风格偏好,而不是事实性或正确性。例如,该研究发现 PPO 模型产生的输出要长得多,并且通常为答案提供更详细的解释,如下图所示:
总的来说,使用 AlpacaFarm 在模拟偏好上训练模型能够大幅改善模型的人类评估结果,而不需要让模型在人类偏好上重新训练。虽然这种迁移过程比较脆弱,并且在效果上仍略逊于在人类偏好数据上重新训练模型。但能在 24 小时内,仅用 200 美元就复制出 RLHF 的 pipeline,让模型迅速提升人类评估性能,AlpacaFarm 这个模拟器还是太香了,是开源社区为复刻 ChatGPT 等模型的强大功能做出的又一努力。
参考链接:https://crfm.stanford.edu/2023/05/22/alpaca-farm.html
标签:
为您推荐
精彩放送
热门文章
-
前海人寿荣华世家(长青版)终身寿险守护成功人生
-
销售费用猛增、八成靠贴牌外采,上海贵酒胜算几何?
-
马上消费跻身“2013未来银行科技服务商”前十|环球新视野
-
泰康保险集团助力社区居家养老创新发展
-
多家医药流通公司增收不增利,上海医药继续领先|财报看点
-
焦点消息!违规被警告后,粤财信托启动24亿增资
-
金科破局之道:债务重整及控股股东增持-今日要闻
-
天下车智|二代营销管理层不足一年被换下 岚图汽车“断臂求生”?
-
广发银行高管接连被查 去年净利五年内首次下滑-每日信息
-
全球球精选!机构不看好?逾70只基金遭遇大额赎回,净值最高暴涨64%
-
百瑞信托2022年年报: 营收净利双失利
-
天下车智|广汽三菱:一代传奇将谢幕 动态
精彩图片
-
四类55项!中国科协发布《2023年度国际科技会议议题设置指南》
-
AI诈骗成功率100%?防深伪模型“用魔法打败魔法”
-
【世界独家】2023中关村论坛开幕式发布十项重大科技成果
-
中国科协解读“国际科技会议议题设置指南” 环球热门
-
当前时讯:在发展中治理完善人工智能大模型
-
微盟尹世明:AIGC大模型供需两端存在“五大隔阂”
-
微盟布局“SaaS+AI”助力商户智慧经营
-
科创科普深度融合 上海浦东新增10家科普基础设施单位 天天速递
-
每日看点!陕西加强种质资源保护 秦岭细鳞鲑入选十大特色水产种质资源
-
全球速递!承载人工智能——MR眼镜激发无穷想象
-
【世界新视野】2023年农业植物新品种保护十大典型案例发布
-
北京:推动高水平开放 打造协同新平台-环球快报
热文
-
前海人寿荣华世家(长青版)终身寿险守护成功人生
-
焦点热文:河西超10万!城中8.1万!仙林7.1万!南京卖出大批千万级二手房!
-
一本“警察工作日志”,见证“最美平安村屯”的成长历程
-
看点:益阳海螺水泥200万吨骨料项目 开足马力抓生产 企业跑出加速度
-
当前关注:专注动物健康,共建美好生活——亚士可让配种更简单、繁殖更高效!
-
焦点速递!05月26日猪评:猪价回温迹象明显!多地上涨“翻红”,月底要开涨?
-
普京:欧亚经济联盟需要建立自己的信用评级机构
-
【世界速看料】中国将重点在四方面推进与中亚国家经贸合作
-
新开发银行行长、巴西前总统罗塞芙:脱钩是经济全球化主要威胁
-
塞拉利昂标志性木棉树在暴雨中倒下
-
西班牙加泰罗尼亚大区发生枪击事件 致1死1伤
-
北京互联网法院:一年来涉未成年人网络纠纷大多涉游戏充值、直播打赏
-
乐山草堂高中精英班分数线_乐山草堂高中 世界关注
-
高博金律师事务所阐述:如何就非美国破产诉讼进行抗辩
-
天天快消息!突发!美国又被列入负面观察名单!
-
俄防长绍伊古:西方本质上已对俄白“不宣而战”
-
中国与不丹边界问题专家组第十二次会议 双方同意尽早在方便的时候举行第二十五轮中不边界会谈 播资讯
-
韩亚航空一客机舱门在空中打开 部分乘客晕倒
-
日本政府追加对俄罗斯的制裁措施|每日快看
-
全球今头条!什么属于公共管理类_公共管理类介绍
-
“最后大限”逼近!美国债务上限“极限博弈”:有进展,没结果!-最新资讯
-
不会英语不配有毛毯,国泰航空回应“空乘歧视非英语乘客”:已解聘! 当前关注
-
“赤脚踩茶”引争议,“传统工艺”为何消费者不买账? 天天速讯
-
国货“争气机”,腾势D9最强竞争者传祺E9正式上市发布
-
天天看点:菜鸟集团成阿里巴巴内增长速度最高的业务 收入占比达6%
-
每日快讯!我市高中学校加强人文关怀 激励考生全力冲刺
-
每日观点:铜陵市前四月完成非税收入5亿余元
-
65年来首次!美军航母高调停靠挪威 世界新消息
-
天天观速讯丨泽连斯基在美大学毕业典礼讲话感谢拜登援乌:美国没有耽误一天时间
-
环球即时:参与国会山骚乱,美极右翼民兵组织头目因共谋暴乱罪被判入狱18年
-
俄官员:防空系统在俄境内击落一枚乌克兰导弹 天天新要闻
-
观速讯丨世贸组织会议推动合作应对塑料污染
-
东航C919首个商业航班飞行计划公布:5月28日从上海-北京 焦点速读
-
每日观察!金城关文化博览园
-
环球热资讯!古凉遗韵奏新声 雷台焕颜启盛景——武威天马大景区走笔
-
兰州车道岭地名略考 视点
-
甘肃3地上榜第二批国家创新型县(市)名单
-
韩国自研运载火箭载星发射成功-天天快看点
-
造型异常独特,索尼发布掌机游戏设备,只能本地跟PS5串流
-
世界今热点:未来已来!让智能养猪新模式成为现实——记中国养猪网专访扬翔股份副总裁高远飞
-
生猪行业如何育先机?铁骑力士“三点式”高质量发展!_每日视讯
-
安全事务高级代表国际会议在俄举行 中方:维护自身安全同时推进国际共同安全_天天观天下
-
韩国在野党举行反对福岛核污染水排海签名活动 天天最新
-
又一信用评级机构将美国列入负面观察名单-重点聚焦
-
墨西哥总统:美国拉丁裔选民别支持共和党总统候选人德桑蒂斯 当前快讯
-
榕树贷款:以服务为先,努力成为中国普惠金融的典范
-
郑州到杭州高铁途经站点 郑州到杭州高铁
-
焦点精选!兰州安宁区2023年创新创业大赛圆满落幕
-
兰州新区民营企业招聘月5月27日启动
-
世界聚焦:嘉峪关市承接发达地区产业转移取得积极成效