新闻动态
NEWS CENTER
NEWS CENTER
2023-11-27
本篇是商业化战略产品司理必读系列的第三篇,为咱们具体介绍一下广告的竞价拍卖机制,让咱们清楚的了解什么是GFP、GSP和VCG机制。为什么Facebook运用VCG机制,而Google却运用GSP机制。
随后 OpenAI 在发给职工的内部消息中供认有一个名为 Q* 的项目,在具有大量计算资源的情况下,它能够处理某些数学问题。只有一个名字,没有论文,没有产品,Jim Fan 说在他做 AI 的十年里还没有见过一个算法能让这么多人猎奇。
尽管 Q* 的数学才能据悉只有小学生的水平,但它标志着 LLM 推理才能的增强和错觉问题的处理,是完成通用人工智能(AGI)的要害打破。目前没有官方解释 Q* 究竟是什么,但 Nathan Lambert 和 Jim Fan 等技能大 V 给出了最靠谱的假定,也是关于怎么进一步提升模型推理才能的办法猜想,解读如下。
Let’s learn step by step.
咱们尝试根据文章内容,提出更多发散性的推演和沉思,欢迎沟通。
Q* 与传统大言语模型的差异:现有模型很难在所练习的数据之外进行泛化,展现出的逻辑推理才能更像是“直觉”,而 Q* 似乎把 Q 学习与 A 查找模型结合,将根据经历的知识和现实推理结合,完成真正的推理才能、处理错觉问题。
Q* 的技能道路猜想:自我对弈+思想树推理+进程奖赏+组成数据增强。运用进程奖赏模型(PRM)对思想树推理进程效果进行评分,然后运用离线强化学习进行优化。
进程奖赏模型依赖巨大的数据,即对每个中心进程打分。仅靠仿照人类数据,人工智能无法成为“超人”。AI 组成数据是增数据集的办法之一,但关于其生成数据质量和可扩展程度还有待验证。
要理解查找与学习算法之间的强强联手,咱们需求回到 2016 年,重温人工智能历史上的光辉时刻 AlphaGo。
它有 4 个要害要素:
那么上面四个部分怎么协同?
AlphaGo 进行自我对弈,即与自己的旧检查点对弈。跟着自我对弈的继续,”战略网络”(Policy NN)和 “价值网络”(Value NN)都会得到迭代改善:跟着战略在挑选棋步方面变得越来越好,”价值网络”(Value NN)也会取得更好的数据来进行学习,进而为战略提供更好的反应。更强的战略也有助于 MCTS 探究更好的战略。
这就完成了一个巧妙的“永动机”。经过这种办法,AlphaGo 能够引导自己的才能,并在 2016 年以 4 比 1 的比分击败人类世界冠军李世石。
仅靠仿照人类数据,人工智能无法成为“超人”。
仅凭一个项目的名称,就能引发如此广泛的猜想,这仍是第一次。不过,这个简略的名字或许并不仅仅是《沙丘》宇宙中的另一个代号。
中心结论:Jim Fan 认为 Q* 包括下面四个组成部分。与 AlphaGo 相同,”战略 LLM “和 “价值 LLM “能够相互迭代改善,并随时从人类专家的注释中学习。更好的战略 LLM 将协助思想树查找探究更好的战略,进而为下一轮收集更好的数据。
Nathan 最初的猜想是将 Q-learning 和 A* 查找模糊地合并在一起,但跟着对这个问题研究的深入,能够越来越相信,他们经过思想树推理查找言语/推理进程的才能很强,但这种飞跃比人们幻想的要小得多。
夸大其词的原因在于,他们的方针是将大型言语模型的练习和运用与 Deep RL 的中心组成部分联络起来,而正是这些中心组成部分促成了 AlphaGo 的成功:自我博弈(Self-play)和前瞻性规划(Look-ahead planning)。
要了解这两者之间的联络,咱们需求了解 OpenAI 和其他公司最近发表的效果,这些效果将答复两个问题:
有了这些问题的答案,咱们就能够清楚地知道怎么运用用于 RLHF 的现有 RL 办法。咱们运用 RL 优化器对言语模型进行微调,并经过模块化奖赏取得更高质量的生成(而不是像现在这样取得完好序列)。