浅谈大模型可信与可控
Part I:两大流派
关于增强 LLM 的可信与可控性,目前学术界有两大流派:1. 端到端会话模型(E2E Conversational Model):基于对模型自身的提升2. 基于管道的会话模型(Pipline-based System):基于对用户输入以及输出的控制
(资料图片仅供参考)
I. 端到端会话模型
通过优化端到端对话模型,是学术界关于提高安全性最关注的方向。这个方向的发展在很大程度上依赖于受控文本生成技术的发展,其中可控性可以被视为对话响应生成中的一个重要属性。这个方向的提升一般从预处理、训练、推理三个主要阶段着手。
1. 数据预处理
LLM 模型的响应内容主要依赖于其训练语料库,因此预处理阶段去除不安全数据、将安全数据添加到训练语料库中,可以直接有效地对对话系统的最终行为产生重大影响。OpenAI 的 GPT 系列模型在训练中使用了大量的文本数据,从多个数据源收集数据,以尽可能涵盖不同的领域和语言;Google 在 BERT 模型中使用了多语言数据集,并尝试提高训练数据的多样性。IBM Watson 在其深度 QA 模型中使用了特定领域的数据集,以确保模型在特定领域中的可信度和准确性。
「Recipes for Building an Open-Domain Chatbot」中总结了多种清理不安全和敏感数据的方法,包括基于关键词和基于作者的清理方法。基于关键词的清理是指通过设置安全过滤器,通过提高置信度阈值来过滤训练数据,这几乎已经成为构建对话系统的标准步骤。另一方面,随着近年来自社交媒体的数据也被大量容纳到训练数据中,一些研究发现屏蔽某些特定作者可以有效过滤潜在的不安全内容。除了去除那些潜在的不安全数据外,添加并行数据以促进数据公平性也是预处理阶段的一种方法。
数据预处理是机器学习领域的持久话题,也是几乎所有机器学习模型训练中最重要的行为修正方式之一。这也催生了相对较成熟的产业链,包括标注数据公司、针对性数据公司、知识图谱公司、图数据库公司等。比较代表性的公司包括:Diffbot、Grakn AI、TopQuadrant、Neo4j、TigerGraph、ArangoDB 等。
2. 训练过程
模型行为由其参数决定,而参数是在预训练或微调阶段习得的。因此,在对话系统的训练阶段塑造安全行为是一个重要的方式。
首先需要明确的是,现有的控制 LLM 生成自然语言的方法都不完善,主要有三类:
1. 类条件语言模型(CC-LMs),例如 CTRL,尝试通过以控制码为条件来控制文本生成,控制码是一组表征了数据源的属性变量。但是,使用特定的控制代码减少了提示之间的样本多样性,因为样本通常与控制代码的数据源相似;
2. 使用判别器来引导解码以控制语言模型,现存的使用该方法的模型如 Weighted decoding 和 PPLM,这个方法的缺点是十分耗费算力;
3. 生成鉴别器(GeDi),GeDi 是使用生成式判别器对所有候选单词进行两次并行的前向传播以计算 Pθ 分布,从而不需要为每个候选的下一个单词进行一次单独的前向传播。
以上三类模式中,GeDi 优于另外两者,但仍也属于逼近方案而并不能完美解决。
a) CTRL(CC-LMs)
在「CTRL: A Conditional Transformer Language Model for Controllable Generation」中提出了一种新的模型设计,在训练语料库的句子之前添加了一个控制代码,这是一种直接有效的建模方法,其中是形式化为控制代码的所需属性。CTRL 是一种条件语言模型,它始终以控制代码 c 为条件并学习分布 p(x|c),使用概率链规则分解分布。
CTRL 通过训练带有控制代码的原始文本序列来学习 pθ (xi|x
b) GeDi
「GeDi: Generative Discriminator Guided Sequence Generation」中提出了一种通过生成鉴别器来指导序列生成的方法。GeDi 通过对两大类条件分布进行归一化,通过贝叶斯规则计算所有可能的下一个标记的分类概率来指导生成的每一步;其中一类以所需属性或控制代码为条件,另一类则以需要过滤的属性或反控制代码为条件。
研究发现 GeDi 提供的可控性明显优于之前的可控生成方法,且 GeDi 的生成速度明显快于目前其他实现可控性对理论方法,并可以在保持语言流畅性的同时显着降低 GPT-2 和 GPT-3 的毒性。
为了验证 GeDi-guide 的话题零样本生成能力,研究人员在四个话题(World, Sports, Business, and Science/Tech)上训练了四个 CC-LMs,每个 CC-LM 由三个话题进行训练,另一个话题进行零样本预测。使用 RoBERTa 评估话题相关性。实验结果表明,GeDi 引导的文本生成具有较强的零样本泛化能力,这种能力很可能是由于生成式分类器可以从学习到的词向量中对未明确的主题进行零样本分类。
c) Prompt Tuning
在「Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing」中提到了一种新的 NLP 范式研究方式,并将其称为“基于提示的学习”。与传统的监督学习不同,后者直接对文本概率进行建模,接收输入 x 并将输出 y 预测为 P(y|x)。这类模型的预测过程为,首先将原始输入 x 修改为具有一些未完全填充的文本字符串提示 x",然后使用 LLM 的概率填充以获得最终字符串 x[gf]302[/gf],从而得出最终输出 y。
d) Diffusion-LM
为了处理更复杂的控制目标,研究人员提出了基于连续扩散模型的非自回归语言模型——Diffusion-LM,Diffusion-LM 将高斯向量序列降噪为词向量,产生一串中间潜变量。这些中间变量的连续、分层性质使一个简单的基于梯度的算法能够执行复杂的、可控制的生成任务。
参考链接:https://zhuanlan.zhihu.com/p/604024749
e) RLAIF
强化学习(RL)也是目前比较流行的修正 LLM 内容的方法,RL 中的核心奖励函数由评分模型或安全检测器给出,而来自人类反馈的强化学习(RLHF)也被证明可以更好地引导 LLM 的输出内容与人类的价值观保持一致。
基于 RLHF,「Constitutional AI: Harmlessness from AI Feedback」设计了一个基于 AI 反馈的 RL 模型,以更好的生成无害的 LLM。这篇论文希望这种设计可以成为 AI 领域的宪法,从而监督引导其他模型的输出内容的安全性。
上图为 Constitutional AI(CAI)过程的基本步骤,它包括一个监督学习(SL)阶段以及一个强化学习(RL)阶段。批评和 AI 反馈都受到从宪法中得出的一小组原则的指导。
3. 推理阶段
训练阶段需要消耗大量资源和成本来构建新模型,相比之下大多数在推理阶段使用的方法只通过一个即时插件而不需要重新训练,因此推理阶段的优化也是增加 LLM 可控性的一个重要研究领域。
a) PPLM
「Plug and Play Language Models: A Simple Approach to Controlled Text Generation」提出了一种即插即用的微调干预方法,微调的方法是基于条件概率 p(x|a),即基于某个属性 a,生成文本 x,这种方法可以使一些不需要的词的采样概率降为零。PPLM 处于推理阶段,不需要在训练阶段进行任何额外的更改,但由于其是边训练边生成结果,因此相对来说效率较低。PPLM 模型流程总共分为三部分:
1. 通过分类器预测语言模型生成的文本的属性分类 p(a|x);
2. 根据 1 中属性判别回传的梯度,更新语言模型内部历史参数,增加模型预测接近想要属性的可能性;
3. 然后从更新后的参数中进行中心采样, 生成新的词。
为了计算效率,可以选择只修改最近的过去的某个窗口内的延迟,即上图中的红色区域。上图显示了 PPLM 的优化原理,目标句子显示为一个黑点,它首先被推向最大化 log p(a|x) 的方向,然后被推向最大化 log p(x) 的方向。
b) FUDGE
然而,PPLM 仍然需要更新大型模型的参数,导致推理速度较慢。作为 PPLM 的改进,FUDGE 不更新模型中的任何参数,而是引入一个鉴别器来预测正在进行的生成文本是否符合所需的属性。参考链接:https://www.bilibili.com/video/BV1mu411B7H4/?vd_source=e0a3ca4aef9432f03a83ef0b67fa4445
对于一个预训练好的 LLM,FUDGE 可以在仅获取语言模型的输出概率的情况下,来控制语言模型产生满足特定属性的文本。FUDGE 在理论上对条件生成概率进行了贝叶斯分解,通过学习一部分序列的属性来生成预测器,并使用该预测器的输出来调整原语言模型的概率分布,进而产生特定属性的文本。
II. 基于管道的系统与模型级改进不同,管道级改进侧重于人机交互的流程,其核心思想在于不同的模块或策略来应对各种安全问题。例如,大多数现有部署的对话系统会说“让我们换个话题”之类的回应,以避免在检测到敏感话题后仍然继续对话。
1. 用户侧
用户说出的上下文可能会引发严重的安全问题。面对不安全的上下文,通常使用所谓“安全响应”进行回复,即直接回复特定的语句内容比如“我只是一个语言机器人”。因此,检测上下文是否敏感和制定对应的拒绝策略是管道系统中的关键部分。
需要注意的是,用户的安全检测应该具有更高的鲁棒性和泛化性,因为用户的话语总是不受限制的,任何方式的对话都可能发生。「Recipes for Building an Open-Domain Chatbot」中引入了一个敏感主题分类器来识别上下文的“政治”、“宗教”、“药物”、“医疗建议”和“NSFW”的内容,当检测到敏感主题时,会触发预设响应。
另外当用户话的语涉及一些仇恨言论时,通过仇恨言论数据集(Hate Speech Dataset)和基于知识图谱的外部知识体系,对话系统有望生成反击响应以阻止和防止仇恨言论的传播。
2. 机器人侧
机器人视角的管道改进发生在模型生成和用户界面中的消息显示之间。在这个阶段,系统对生成的响应进行最后的检查和编辑。最常见的策略是“针对性拒绝”,其中检测器检测到不安全的内容被生成后,将撤回该内容并要求 LLM 重新生成。在一些严重的情况下,人为的干预也是必要的。
机器侧的内容检测并非新兴领域,已经存在一些可以参考的公司:
1. Unitonomy:Unitonomy 是一家 AI 驱动的内容审核公司,其产品可以自动识别和删除不适宜的内容。Unitonomy 的技术基于机器学习和自然语言处理算法,可以自动分类、标记和审核各种类型的内容。2. Two Hat:Two Hat 是一家针对社交媒体领域的内容审核公司,其产品可以自动识别和删除色情、暴力、仇恨等不良内容。Two Hat 的技术基于机器学习和自然语言处理算法,可以自动分类、标记和审核各种类型的内容。3. Besedo:Besedo 是一家全球领先的内容审核服务提供商,其产品可以自动识别和过滤各种类型的不良内容。Besedo 的技术基于机器学习和人工智能算法,可以自动分类、标记和审核各种类型的内容。
Part II:一些趋势与方向
1. 安全的可解释性
检测和评估安全问题是一项复杂的任务,但其决策过程可以通过任务分解进行可解释的简化。从攻击性检测、目标识别、隐式语句推理等多个维度入手,可以更直观地对有毒和歧视内容检测进行推理。
为了提高道德判断的可信度,有必要评估给定的话语是否符合或违反了哪些道德准则。虽然与安全相关的研究试图实现可解释性,但如何确保这些解释准确并符合人类的判断准则是一个需要更多研究的方向。
Mathew 等人提出了 Hatexplain 模型,该模型通过在给出类别标签的同时,突出显示输入文本中有影响力的文本来可视化决策过程。此类可视化信息有助于在对话系统输入端中理解攻击,并进行点对点防御以生成更安全的响应。
2. 自学习安全
安全问题的识别和解决是一个持续的过程。随着时代的发展,新的领域和话题出现会带来新的安全问题,所以安全的评判方式也需要随之不断更新。持续优化安全最直接有效的方法是收集新领域的数据并对模型进行微调,这是一些基准数据集在做的事。然而,这种数据驱动的方法在数据收集和注释过程中在效率和成本方面有很大的局限性。
相比之下,在用户交互数据中学习使模型持续进化,似乎是一劳永逸的方法。LLM 可以通过交互中的用户反馈来判断生成内容的安全性。比如在检测到用户的纠正反馈后,LLM 对用户道歉并纠正自身行为,从而获得自我纠正的能力。大量的反馈数据使模型能够自给自足地不断优化和应对新出现的安全问题。
此外,提高安全模块对新领域的泛化能力也很关键。这使得模型能够在遇到新问题时快速解决它们,而不是被动地依赖于提供新数据。为了加强对新安全问题的理解,将离线知识(知识图谱)和在线知识(互联网搜索引擎)融入安全模块也是一个可选的解决方案。
3. 对抗样本
对抗样本(Adversarial Examples)是指在数据集中通过故意添加细微的干扰所形成的输入样本,这种样本会导致模型以高置信度给出一个错误的输出。这种构建方式可以通过手动、模板的和基于模型构建。
如何生成对抗样本是 LLM 可信可控领域比较火热的方向,OpenAI 发布过一些对抗样本以测试其模型的鲁棒性和可靠性。DeepMind 的研究人员也使用对抗生成网络(GAN)来生成对抗样本,以评估模型的鲁棒性和可靠性。更高级的对抗样本可以更全面的检查 LLM 是否存在漏洞或偏见,从而可以更好地评估模型的可信度。
4. 多模态内容安全
随着多模态预训练模型(例如 N[gf]dc[/gf]WA、DALL-E2、GauGAN2 等)的兴起,AI 展示了强大的跨模态生成能力。而随之而来的也是声音、图片、视频等多模态内容所带来的安全问题。在目前的研究中,有害图片是最常见的多模态安全问题,它是通过将简化的文本描述与相关背景图像相结合而产生的。
在图片中几乎可以表达任何安全问题(如攻击性、暴力、种族主义等),并且它们通常幽默或讽刺的设计导致更微妙的伤害表达。此外,多模态交互中涉及更复杂和更广泛的研究领域,如如何识别用户是否有自残倾向,或者在判断违禁图片时是否违反道德规范,这些都是值得研究的安全方向。
5. OpenAI 的观点
OpenAI 本月 6 日发布了「Our approach to AI safety」一文,重点阐述了如何确保安全地构建、部署和使用人工智能系统方面的信息。文中提到,OpenAI 在发布任何新系统之前,都会进行严格的测试,聘请外部专家提供反馈,通过人工反馈强化学习等技术改进模型的行为,并构建广泛的安全和监控系统。他们认为,强大的人工智能系统应该接受严格的安全评估。需要监管以确保采用此类做法,我们积极与政府合作,以制定此类监管的最佳形式。
OpenAI 在文中声明:尽管努力在部署前预防可预见的风险,但是在实验室中可以学到的东西是有限的。尽管进行了广泛的研究和测试,仍然无法预测人们使用技术的所有有益方式,也无法预测人们滥用技术的所有方式。这就是为什么 OpenAI 认为,从现实世界的使用中学习是随着时间的推移创建和发布越来越安全的 AI 系统的关键组成部分。
在关于 LLM 内容的准确度方面,提高事实准确性是 OpenAI 和许多其他 AI 开发人员的重点,我们正在取得进展。通过利用用户对被标记为不正确的主要数据源的 ChatGPT 输出的反馈,提高了 GPT-4 的事实准确性。GPT-4 产生事实内容的可能性比 GPT-3.5 高 40%。OpenAI 认为,要进一步降低 ChatGPT 产生幻觉内容的可能性,并让公众了解这些人工智能工具的当前局限性,还有很多工作要做。解决安全问题还需要广泛的辩论、实验和参与。
另外在其发布的「Lessons learned on language model safety and misuse」一文中,OpenAI 阐述道:There is no silver bullet for responsible deployment 以及目前 OpenAI 在增加模型可控性的几个主要途径:预训练数据管理和过滤、微调模型以更好地遵循说明、潜在部署的风险分析、提供详细的用户文档 、构建筛选有害模型输出的工具、根据我们的政策审查用例、监控滥用迹象、研究模型的影响。Part III:一些总结
1. 可控与可信性是当前 LLM 的重点研究方向之一,但目前学术界没有完美解,只能在各个环节逐步逼近
2. AI 安全(监控、规则自学习、对抗测试等)是一个值得 bet on 的方向
3. 控制语言模型诸如 GeDi、Diffusion-LM 值得关注
4. 由于 RLHF 的成功,类似的通过强化学习降低毒性的 RLAIF 也是一种值得关注的方向
5. 多模态模型由于多种形态的数据注入会导致更大的安全以及不可控隐患
来源:緑洲资本 Vitalbridge 作者:参赞生命力
标签:
- 浅谈大模型可信与可控
- 以人工智能为引擎,智能财务开放生态联盟成立
- 农场升级游戏(农场种什么升级最快)
- 空调安装师傅,困在爆单的酷暑里
- 非你莫属(双文)
- 三星电子二季度利润6000亿韩元 高于预期但下降95.7%
- 世预赛抽签时间公布 赛制变化大 国足能否抓住扩军良机 抽签暗藏玄机
- “一站式零碳科普中心”在临海揭牌
- 华硕AIO A5402 A5系列推出配备第13代英特尔酷睿处理器
- 华特达因业绩快报:上半年净利润3.22亿元 同比增5.65%
- 岳飞时期金人现在是哪里人(古代金人是哪里人)
- 《向往的生活》玲花竟是行走的内蒙古百科全书
- 映泰推出多款B760主板:支持英特尔12/13代处理器,到手价629元起
- @“潍坊好人”、道德模范,这里有一份免费体检邀请!
- 涨停复盘:人气降至低点,农业、电力上涨背后全因厄尔尼诺?
- Joker:虽然2:0拿下,EDG远谈不上让人安心,这状态还进不去季后赛
- 威能壁挂炉是冷凝的好还是常规的好(威能冷凝壁挂炉)
- 12人!德州一学校公开招聘!
- 住建部明确城市更新底线要求 坚持“留改拆”并举
- 西南地区首个百兆瓦级电网侧独立储能电站在重庆成功并网
- 浙江世宝H股跌近17% 成交逾3亿港元
- 广东在AI领域有哪些“看家本领”?这个展会集中SHOW出来!
- 转基因食用油有哪几种?
- 浙江苍南:生活着的六百年古城--蒲壮所城
- 用友BIP提供全方位支持,护航国资国企高质量发展
- 江西省樟树市发布大风蓝色预警
- “亮警官证”男子身份查明!河南警方深夜通报:免职
- IAEA总干事回应专家分歧传言,并称不为核污水排海背书
- 生态环境部部长黄润秋会见国际能源署署长法提赫·比罗尔
- 男性糖尿病患者亲测:这个运动时间段血糖降得最快!
- 马德里竞技收获2020—21赛季西甲联赛冠军
- 阿里巴巴美股盘前涨2.7%
- 高考志愿填报难在哪儿?“提前出发”才能少走弯路
- 滴滴重回牌桌
- 华为云盘古大模型3.0正式发布
- 最高人民检察院依法对付忠伟决定逮捕
- 属虎的人2012年运程 20121虎年运势)
- 传奇sf开服网-传奇私服新开网站_传奇sf发布网_传奇新服网
- 李玟最后露面照曝光:六月底与姐姐为友人庆生,因状态不佳被打码
- 钢铁银河最终序列:铁山级
- 美国网络仇恨和骚扰事件激增 少数族裔成主要被攻击对象
- 乒坛大爆冷!7位世界冠军输球,国乒4大主力败北,张本智和一轮游
- 茂莱光学(688502)7月7日主力资金净卖出1654.48万元
- 南芯科技(688484)7月7日主力资金净卖出419.18万元
- 探展WAIC | “史上最热”人工智能大会:大厂“秀肌肉”、特斯拉机器人成“顶流”,AI热难掩人类危机
- 探岳四驱是全时四驱还是适时四驱(奥迪q5是全时四驱还是适时四驱)
- 安全带卡紧卡扣(艾力绅安全带卡扣反了怎么办)
- 王宝强:观众用时间和金钱来支持我
- 【ABS发行结果】23茂和中建ABN001优先票面利率为2.9800%
- 国际著名油画家郑奎飞荣获东盟颁发的皇家御用艺术品会展设计杰出成就奖
- 《马里奥赛车8豪华版》第五弹DLC赛道12日上线
- 中小板涉及建筑节能上市企业(2023)名单
- 江西提高义务教育学校生均公用经费基准
- 上汽集团(600104.SH)6月份整车销量40.57万辆 同比下降16.1%
- 旋极信息(300324.SZ):易容光电目前销售规模较小,在2022年其营业收入230万元
- 陕西洛南何超:守住群众的“粮袋子”
- 海科新源募11亿首日涨49% H1净利预降8成2022年降5成
- 广宇发展涨停
- 山东:患者在基层住院使用中医药治疗报销比例不低于85%
- 江门中微子实验中心探测器有机玻璃球完成赤道层安装
- 中国信通院发布《全球海底光缆产业发展研究报告(2023年)》
- 饿了么联合北京CBD总工会为户外劳动者“送清凉”
- 成都大运会篮球参赛队伍(持续更新)
- 湖南娄底打造“智慧钢城”赋能绿色发展
- 金条100g价格今天多少一克(2023年7月7日)
- 手机相关知识:opporeno跑马灯设置
- 传闻打破预期 电解钴价格持续拉涨
- 海通证券:6月液态气均价同比、环比均上行 期待稀有气市场回暖
- 大西高铁开通9年来发送旅客超1.17亿人次
- 深圳去香港两天旅游多少钱
- 突然的头痛和颈痛,可能是导致蛛网膜下出血的“椎动脉解离”
- 科学把握建设现代化都市圈的逻辑
- 泥沙俱下里的机会 当前强势股都具备同一个特征
- 儿童白癜风病情怎么会加重
- 上海话剧艺术中心“玉兰绽香”演出季携8部精品剧目亮相京城
- 中信建投回应拍下华西证券股权:系与客户开展场外衍生品交易
- 今日突破半年线个股
- 上汽集团(600104.SH)6月份整车销量40.57万辆 同比下降16.1%
- 时光留“夏” 筑梦未来!记潍坊市奎文区胜利东小学2017级毕业典礼
- 慈禧和李莲英秘密生活(李莲英用嘴巴伺候慈禧)
- 伊朗与苏丹寻求“尽快”复交
- 突发:今早杭州一小伙坠河,69岁环卫大爷驾船“漂移”救人!太霸气了!
- 华为盘古大模型3.0发布:面向行业,5+N+X三层架构
- 因她而触动,音乐剧《绽放》再次回家
- 外媒:荷兰把光刻机事情彻底“玩脱”了
- 你对iPhone15Pro的期待是什么?如果它涨价了,选iPhone14Pro吗?
- 广电计量: 集成电路检测业务今年上半年稳定增长
- 恒力石化上市以来直接融资超300亿元 重启分拆康辉新材上市意欲何为?
- 一款机器人多模态大模型发布:机器人也能“察言观色”
- 探访三澳核电建设现场 多项工艺为行业首创
- 湖北信创云资源池启动 助力打造数字经济高地
- 东鹏控股(003012)7月7日11点15分触及涨停板
- 天津宝坻区:新开口镇首届云端葡萄采摘节来啦!
- 摩根士丹利:予阿里巴巴(BABA.US)“增持”评级 目标价150美元
- 售核辐射区食品商家被列为严重违法 多个商家售卖日本核辐射区食品被罚 中国禁止进口日本福岛等十地食品
- 捂紧口袋,别掉坑!醴陵多部门手把手教你防范非法集资
- 联想与毕马威发布算力报告:预计2025年我国算力核心产业规模不低于4.4万亿元
- 全国首个内地-境外双向数据互通实践即将获批
- 水产养殖板块表现亮眼,21位基金经理发生任职变动
- 双流区黄甲幼儿园:砥砺深耕勤务实 行稳致远齐奋进


