当下医兰美美兰玻尿酸型号图片I酸相比其他品牌为何能够达到更好的效果?

AI 是一个跨学科的工程,其最终目标是创造机器智能我们相信,在这个日益数字化和数据驱动的世界里, AI 将成为技术进步的助推器。这是因为今天我们周围的一切,从文化到消费品,都已经是智能的产物。今年是《AI 现状报告》的第六年,这份报告汇集了我们所见过最有趣的事情,旨在引发一场关于 AI 现状及其对未来影响力的探讨。此报告主要包含以下几个方面:研究:技术突破及其能力。行业:AI 在商业应用领域的角色以及其对商业的影响。政治:AI 监管、经济影响,以及不断演化的 AI 地缘政治局势。安全:识别并降低未来高度智能的 AI 系统可能带来的灾难性风险。预测:我们对未来 12 个月的展望以及对 2022 年业绩的回顾,力求保持真实。摘要研究GPT-4 的推出彰显了专有模型与次优的开源模型之间的能力差距,同时也证实了通过强化学习从人类反馈中提升模型性能的潜力。在 LLaMa-1/2 的推动下,越来越多的人们开始使用更小的模型、更丰富的数据集以及更长的上下文来尝试达到或超越专有模型的性能。目前,人类生成的数据能够支撑AI的扩展趋势,但尚不清楚这种趋势能持续多久(有人估计,到 2025 年,LLM 可能会消耗所有可用数据),并且尚不清楚添加合成数据的效果。拥有视频和数据资源的企业未来可能会限制第三方的使用。LLM 和扩散模型将继续为生命科学领域带来突破,为分子生物学和药物发现提供新的机会。多模态技术成为新的前沿领域,人们对各种制剂的兴趣不断增加。行业英伟达凭借国家、初创企业、大型科技公司和研究人员对其 GPU 的巨大需求,一举跻身市值 1 万亿美元俱乐部。出口管制限制了芯片厂商对华销售,但主要芯片厂商已开始着手研发不受出口管制限制的产品。 在 ChatGPT 的带领下,GenAI Apps 在图像、视频、编码、语音以及 CoPilots 等领域取得了突破性进展,吸引了高达 180 亿美元的中早期投资。 政治尽管世界已经划分不同的监管阵营,但各国在应对 AI 的挑战方面进展比较缓慢,反而最大的 AI 实验室正在积极填补这一真空。芯片战争仍在不断升级,美国正积极动员其盟友,而中国的反应则相对冷静。虽然有预测表明 AI 将在一些敏感领域产生影响,包括选举和就业,但迄今为止,我们尚未看到其明显的影响。安全问题关于生存风险的讨论首次成为主流焦点,并显著升温。许多高性能模型变得更容易“越狱”。为了应对 RLHF 的挑战,研究人员正在积极探索替代方法,例如通过自对齐和预训练。随着模型能力的不断提升,对于 SOTA 模型的持续评估变得愈发困难。简单的性能测试已不足以应对这一挑战。记分卡:回顾我们 2022 年的预测第一节:研究GPT-4 已经问世,它在性能上的表现远超 LLM 和许多人类GPT-4 是 OpenAI 的最新大语言模型。与仅适用于文本的 GPT-3 及其后续版本不同,GPT-4 是一种多模态模型,它基于文本和图像的训练。此外,它还具备图生文的能力。GPT-4 的上下文达到了 8,192 个 token,这超越了此前最先进的 GPT-3.5。当然,它是通过 RLHF 的训练方法来提升性能的。所有这些改进使得截止到本报告发布时,GPT-4 已经成为通用能力最强的 AI 模型。OpenAI 对 GPT-4 的全面评估不仅覆盖了经典的自然语言处理基准测试,还扩展到了一些旨在评估人类智力水平的考试,例如律师资格考试、GRE和 Leetcode。 GPT-4 是所有模型中表现最好的。它成功解决了一些 GPT-3.5 无法解决的任务,比如在统一律师资格考试中,GPT-4 的得分率达到了 90%,而 GPT-3.5 只有 10%。尽管在大多数任务中,新增的视觉组件对性能影响较小,但在其他任务中却发挥了显著的作用。根据 OpenAI 的报告,尽管 GPT-4 仍然存在一些幻觉问题,但在面对对抗性真实性数据集(这些数据旨在愚弄 AI 模型)时,它的事实准确性比之前性能最好的 ChatGPT 模型提高了 40%。ChatGPT 的成功推动了 RLHF 成为 MVP 在去年的“安全”部分(第 100 页),我们着重介绍了“人类反馈强化学习”(RLHF)”在 InstructGPT 中的应用,以说明它如何提升了 OpenAI 模型的安全性和用户友好。尽管偶尔会有一些小问题,但 ChatGPT 的成功证明了这一技术在大规模应用中的可行性。“RLHF 的过程包括对给定输入的语言模型生成的多个输出进行排名,然后使用这些排名来学习人类偏好,并将其作为奖励信号,最后通过 RL 来微调语言模型” 。现代的形式可追溯到 2017 年,当时 OpenAI 和DeepMind 的研究人员就已经把人类的反馈融入到游戏Atari agent的训练以及其他 RL 应用中。目前,RLHF 已成为最先进 LLM 取得成功的关键因素,尤其是针对聊天应用而设计的 LLM。这些模型包括 Anthropic 的 Claude、Google 的 Bard、Meta 的 LLaMa-2-chat 以及 OpenAI 的 ChatGPT。RLHF 需要雇佣专业人员来评估模型的输出并进行排序,再对他们的偏好进行建模。这使得这项技术既复杂又昂贵,还容易产生偏见。因此,研究人员已开始寻找替代方案。在更强大的模型输出上对较弱的语言模型进行微调, RLHF 是否仍然占据主导地位? 伯克利大学的研究人员发现:对更强大的 LLM 的输出进行微调以适应小型 LLM,虽然可能会在生成风格上效果不错,但通常也会导致文本的准确性下降。研究人员测试了多种不同规模的预训练 LLM,并使用了不同数量级的数据。结果显示,当模型大小固定时,更多的模拟数据实际上会损害输出质量。相反,模型越大则使用更多的模拟数据会越好。作者认为:应将模型大小视为质量的代表,更加关注在预训练阶段的改进,而不只是增加模拟数据来进行微调。未来,RLHF将继续存在。经过严谨的消融实验,Meta 公司的研究人员在他们的LLaMa-2 论文中得出了这样的结论:“我们认为,LLMs 在某些特定任务中超越人类注释器的超强写作能力,从根本上说是由 RLHF 驱动的。”尽管如此,研究人员仍迫切寻求可扩展的 RLHF 替代方案 在 ChatGPT 之后,许多实验室开始着手回答这个问题:我们是否能够创建像 OpenAI 的 LLM 一样强大且安全的模型,同时大幅减少人类的监督?我们将在安全部分介绍 Anthropic经 AI 反馈提出的 RL。另一些方法则完全采用强化学习的方式。在“少即是多的对齐”(Less is More for Alignment,LIMA)预训练中,Meta 公司主张使用少量(在他们的论文中为 1,000 个)精确的prompts和回复。根据人们对模型输出的评估,LIMA 在 43% 的情况下可以与 GPT-4 竞争。在”LLMs can self-improve”这篇论文中,谷歌的研究人员指出,LLM可以通过训练自己的输出来提高性能。类似地,Self-Instruct也是一个框架,它允许模型生成自己的指令、输入和输出示例,并对其进行整理,从而微调参数。另一项研究来自Meta公司,名为”自对齐与指令反翻译”(Self-Alignment with Instruction Backtranslation)。斯坦福大学的研究人员采用了最后一种方法,他们使用 GPT-3.5 生成指令和输出,并将这些指令用于微调 Meta 的 LLaMa-7B 模型。GPT-4 技术报告为 SOTA LLM 研究画上了句号…OpenAI 发布了 GPT-4 的技术报告,但遗憾的是,报告中没有提供对 AI 研究人员有用的信息,这表明 AI 研究已经彻底走向了产业化。谷歌的 PaLM-2 技术报告也遭遇了相同的情况,而 OpenAI 的衍生公司 Anthropic 则并未发布 Claude 模型的技术报告。在OpenAI发布在arXiv上的GPT-4技术报告中,OpenAI指出,由于竞争环境和像GPT-4这样的大模型的安全问题,本报告不包含关于架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法等方面的进一步详细信息。当谷歌发布了其最强大的大语言模型 PaLM 2 时,在技术报告中提到:“有关模型的大小和架构的更多详细信息将被保留,不会公开发布。”随着经济利益和安全问题的日益增加,此前开放的公司已经采用了一种不透明的文化,不愿公开他们最前沿的研究。……除非 LLaMas 能改变这一趋势2023 年 2 月,Meta 发布了一系列名为 LLaMa 的模型。最初,这些模型被认为是在完全公开的数据集上进行训练,具备最强大能力。Meta 最初只允许研究人员根据需要访问 LLaMa 模型的权重,但很快这些权重被泄露并公开在网上。LLaMa-1 利用结构上略有改动的常规 Transformers,还对优化器和注意力机制的实现进行了一些修改。其结果是:“在训练一个 65B 参数的模型时,[他们的]代码在 2048 A100 GPU 80GB RAM 上的处理速度约为 380 tokens/sec/GPU。这意味着对包含 1.4T token 的数据集进行训练大约需要 21 天”。LLaMa-1 模型的性能优于 GPT-3(原始模型,而非 InstructGPT 变体),并且可以与 DeepMind 的 Chinchilla 和谷歌的 PaLM 相媲美。LLaMa-1 最初不允许商业使用,这引发了对 Meta 使用“开源”这一术语的强烈批评。不过,LLaMa 的第二次版本消除了大部分开源社区的疑虑。LLaMa 引发了一场关于开放(或准开放)竞争性大模型的竞赛项在 Meta 发布 LLaMa-1 后,其他机构也加入了发布相对大模型权重的行列。其中一些机构表现出色,如 MosaicML 的 MPT-30B、TII UAE 的 Falcon-40B、Together 的 RedPajama 或 Eleuther 的 Pythia。与此同时,开源社区在专业数据集上对 LLaMa 的最小版本进行了微调,并将其应用于数十种下游应用中。此外,Mistral AI 最近发布的 7B 模型也被认为是最强大的小模型。值得关注的是,RedPajama 的目标是完全复制 LLaMa-1,以将其变成完全开源的模型。Falcon-40B 是由 LLM 领域的新参与者 TII UAE 快速开源。后来发布了 Falcon-180B,但值得注意的是,它只使用了极少的代码进行训练,没有进行编码测试。在使用像 LoRa(低秩适配 LLMs,最初由微软开发)等参数高效微调方法的帮助下,语言模型从业者开始对这些预训练的 LLM 进行特定应用的微调,比如聊天。其中一个例子是 LMSys 的 Vicuna,它是在与 ChatGPT 的用户共享会话上进行微调的 LLaMa 模型。LLaMa-2:最强大且最公开的 LLM?在 2023 年 7 月,LLaMa-2 系列模型发布,为(几乎)每个人提供了商业使用权限。基本的 LLaMa-2 模型几乎与 LLaMa-1 相同,但经过指令微调和 RLHF 进一步优化,专注于对话应用。截至 2023 年 9 月,LLaMa-2 的下载量接近 3,200 万次。LLaMa-2 的预训练语料库包含了 2 万亿个 token(增加了 40%)。在微调监督方面,研究人员尝试了公开数据,但最有帮助的还是使用了少量(24,540个)基于服务商的高质量注释。在 RLHF 方面,他们采用了二元比较法,并将 RLHF 流程分为两部分,一部分以帮助用户为目的的 prompts 和答案,另一部分以确保安全为目的。LLaMa-2 的 70B 版本在大多数任务上都能与 ChatGPT 竞争,唯独在编码任务上明显落后于 ChatGPT。不过,经过代码微调的版本 CodeLLaMa 则击败了所有非 GPT4 模型。
根据 Meta 的规定,只要有足够的硬件来运行模型,任何人都可以使用LLaMa-2 模型,前提是他们的商业应用在 LLaMa-2 发布时没有超过 7 亿用户。GPT 和 LLaMa 在受欢迎度竞赛中获胜ChatGPT 在 X 平台上被提及次数最多(5,430 次),其次是 GPT-4 和 LLaMa。虽然专有的闭源模型吸引了最多的关注,但人们对开源并允许商用的大模型的兴趣也在增加。热门话题RLHF / 指令微调自 2022 年底以来已成为最热门的话题。语言模型的涌现能力是海市蜃楼吗?Scaling laws:研究人员发现所有模型的能力都会随着参数损失函数和训练 token 数减少而下降。与此相反,当模型的规模达到某个(不可预测的)临界点时,某些能力会不可预测地涌现。有人对这一观察结果提出了质疑,认为新出现的能力可能只是研究人员在评估中选择的伪命题。持不同意见的研究人员提供了以下几点反驳。斯坦福的研究人员发现:似乎只有在非线性或不连续地扩展模型的激活量化错误率的情况下,模型才会出现涌现能力。例如,在 BIG-Bench 任务中,超过 92% 的涌现能力是在两个不连续的情况下出现的。研究人员在新模型上测试了他们的假设,并得出结论,将非线性或不连续的指标替换为线性或连续的替代指标会带来持续的改进,而不是涌现的能力。上下文长度是一种新的参数计量方式AI 社区已广泛验证:当模型被正确训练时,其参数量通常代表其能力。但这些能力有时会受到语言模型可处理的输入文本大小的限制。因此,上下文长度逐渐成为一个重要的研究课题。语言模型最吸引人之一的是它们的 few-shot 的能力,即无需在用户的特定案例上进行训练就能根据给定输入返回回答请求,但由于计算和内存瓶颈,上下文长度受到限制。为增加 LLM 的上下文长度,采用了多种创新方法。其中一些从根本上减小了注意力机制的内存占用(FlashAttention)。还有一些技术可以让模型在较小的上下文中进行训练,但在较大的上下文中运行推理(ALiBi)—— 被称为长度外推(length extrapolation) —— 代价是最小化微调和移除位置编码。其他值得研究的技术包括 RoPE 和位置插值(Positional Interpolation)。在长语境的LLM中:Anthropic 的 Claude有 100K,OpenAI 的 GPT-4 有 32K,MosaicML 的 MPT-7B 有 65K+,LMSys 的 LongChat 有 16K。上下文长度是否已足够?迷失在中间:长上下文长度(大多数情况下)未达到预期追求更长的上下文长度是基于一个假设,即增加上下文长度会提高下游任务性能。然而,来自 Samaya.ai、加州大学伯克利分校、斯坦福大学和 http://LMSYS.org 的研究对这一假设提出了质疑:当输入文本变得更长时,甚至最优秀的语言模型在某些多文档问答和键值检索任务上可能表现不佳。研究人员发现: 当任务所需的相关信息位于输入文本的开头或结尾时,模型的性能通常较好。但当相关信息位于文本中间部分时,不同模型的性能下降程度各不相同。此外,随着输入文本长度的增加,模型的性能也会逐渐下降。研究人员对开源模型 MPT-30B-Instruct(8,000 token 长度)和 LongChat-13B(16,000 token 长度),以及闭源模型 gpt-3.5(16,000 token 长度)、Claude 1.3(8,000 token 长度)和 Claude 1.3-100K 进行了性能测试。他们发现,相对于开源模型,闭源模型表现更出色。满足高内存需求要想增加上下文长度和大型数据集,就必须进行架构上的创新。FlashAttention 通过线性而非二次序列来计算注意力机制,从而显著减少了内存需求。FlashAttention-2 进一步优化了计算注意力矩阵的方式,包括减少非矩阵乘法的浮点运算、提高并行性以及更好的运行分配。这些改进使得训练速度比 GPT 方式的模型提高了 2.8 倍。减少模型参数的比特数不仅减小了 LLM 的内存占用,还降低了延迟。以 4-bit precision 为例:k-bit 推理 Scaling Laws 表明对多种 LLM 来说,4-bit量化是最大化 zero-shot 的精度以及减少比特数的使用最优解。推测解码(Speculative Decoding)通过同时使用并行的多头注意力机制解码而不是前向传播,从而加速了某些模型推理速度的2-3 倍。SWARM Parallelism 是一种针对网络连接情况不好和设备不可靠而设计的训练算法。它可以在低带宽网络和低功耗 GPU 上训练具有数十亿规模的 LLM,同时又实现高训练吞吐量。小模型(拥有良好数据)能否与大模型相媲美?微软的研究人员在一项探索性的工作中发现,当小模型(SLM)使用非常专业和精确的数据集进行训练时,它们可以与比它们大 50 倍的模型媲美。此外,他们还发现这些小模型的神经元更容易解释。小模型通常在垂直类任务上表现不如大型模型的一个假设是,当它们在非常大且未经整理的数据集上接受训练时,会变得“不堪重负”。在 GPT-3.5 和 GPT-4 的协助下,研究人员生成了 TinyStories,这是一个由非常简单的短篇故事组成的合成数据集,但其中包含英语语法和一般推理规则。然后,他们在 TinyStories 上对 SLM 进行了训练,结果表明,GPT-4(用作评估工具)更喜欢由 28M SLM 生成的故事,而不是由 GPT-XL 1.5B 生成的故事。在同一研究团队的另一项研究中,研究人员选择了一个由高质量代码和由GPT-3.5 生成的合成教材和练习册组成的 70 亿token数据集。然后,他们在这个数据集上训练了几个 SLMs,包括 13 亿参数的 phi-1 模型,他们声称这是唯一一个参数低于 100 亿的模型,可以在 HumanEval 上达到超过 50% 的性能。后来,他们还发布了改进版的 phi-1.5 版本。2022 的预测:在海量数据基础上训练的语言模型在 2022 年,我们做出了以下预测:“超越 Chinchilla 的 SOTA 语言模型将扩展10倍的数据点,数据集扩展对比参数的扩展。”尽管 OpenAI 尚未正式确认这一点,但专家们似乎在 SOTA 语言模型的数据集扩展与参数缩放方面达成了某种共识。有关模型规模、架构以及 GPT-4 的成本的泄露信息,专家们似乎也在这些问题上形成了共识。据报道,GPT-4 是在大约 13 万亿 token 的数据集上进行训练的,比 Chinchilla 多了 9.3 倍。The Tiny Corp创始人 George Hotz 看上去可信的传言:“Sam Altman 不会告诉你 GPT-4 具有 2,202 亿个参数,这是一个由 8 组权重构成的 16 路混合模型”,PyTorch 联合创始人 Soumith Chintala 证实了这一说法。不论是模型的总规模还是采用专家混合模型,这些并不是全新的概念。如果这些传言属实,那么 GPT-4 的成功可能并没有带来本质上的创新。我们是否已经用尽了人类生成的数据?假设当前的数据消费和生产速度保持不变,Epoch AI 预测:到 2030 年至 2050 年,我们将用尽低质量语言数据的存量;到 2026 年,我们将用尽高质量语言数据的存量;到 2030 年至 2060 年,我们将用尽视觉数据的存量。然而,值得注意的是,可能会对这些假设提出挑战的新兴技术包括语音识别系统,比如 OpenAI 的Whisper,它可以为 LLM 提供所有音频数据,以及新的 OCR 模型,比如 Meta 的 Nougat。据传,已经存在大量的转录音频数据可供 GPT-4 使用。打破数据天花板:AI 生成的内容另一个改进生成模型的角度是通过 AI 生成的内容来扩大可用的训练数据池。我们还没有得出明确的答案:合成数据正在变得越来越有用,但仍然有证据表明在某些情况下生成的数据会使模型遗忘。尽管专有数据和公开数据看似没有尽头,但实际上,大模型正在逐渐用尽可供训练的数据,并接近测试数据的 scaling laws 的极限。为缓解这一问题,已有一种方法被广泛讨论,即通过使用由 AI 生成的数据进行训练,因为这些数据的数量仅受计算能力的限制。谷歌的研究人员利用类条件(class-conditional)的 ImageNet 对文生图模型 Imagen 进行了微调,生成了 1 到 12 个合成版本,并将这些合成数据集用于他们的模型(包括使用原始 ImageNet 数据集)。他们的研究表明:扩大合成数据集的规模会提高模型的准确性。其他研究人员指出:通过在线合成文本训练可能会导致复合误差(compounding errors),最终可能导致模型崩溃。“因为生成的数据可能会污染下一代模型的训练”未来的解决方案可能需要更加谨慎地控制数据的增加。分辨真实与虚假,揭示背后的真相随着文本和图像生成模型的功能不断增强,长期以来存在的问题,即如何识别 AI 生成的内容以及该内容是否来自版权方,变得越来越难以解决。马里兰大学的研究人员提出了一种新技术,用于对专有语言模型的输出进行水印处理。这一技术的核心思想是在文本中嵌入人类无法察觉的隐藏模式(Hidden Patterns),同时让算法能够识别这些文本为合成文本。具体做法包括随机选择几个token,然后提高语言模型生成这些token的概率。研究人员还设计了一个开源算法,通过统计测试可以确定水印的存在,从而实现水印的检测。Google DeepMind 推出了名为 SynthID 的工具,可以将数字水印直接嵌入图像像素中。虽然对人眼来说是难以察觉,但它可以用来识别 Imagen 生成的图像。来自谷歌、DeepMind、ETH、普林斯顿大学和加州大学伯克利分校的研究人员指出,Stable Diffusion 能够在训练过程中记忆单个图像,并在生成时带出这些图像。研究者提取了超过 1,000 张图像,其中就包含带有公司logo的图片。此外,通过他们的数据集训练的结果显示,与其他生成模型如GANs相比,扩散模型更容易产生消极性。打破数据的天花板:过度训练如果我们不能获得更多原始训练数据,为什么不在现有数据上更多地训练呢?实际上,这个问题的答案仍然取决于具体情况。相关研究表明,通常情况下,进行一到两个 epochs 的额外训练是最佳选择。在某些情况下,再多进行几个 epochs 可能会有所帮助,但总的来说,进行太多 epochs 会导致过拟合。在大规模深度学习时代,特别是在 GPT-2 之后,我们可以看到许多变化。在以前,大多数模型通常会在给定数据集上进行多个 epoch 的训练。然而,随着模型规模的不断增大,多个 epoch 的训练几乎总是导致过拟合的问题,这促使许多从业者采用了在可用数据上进行单个 epoch 训练的策略(这在理论上被认为是最优的做法)。Vibe check:评估通用大型语言模型排行榜和”氛围”随着开源和闭源 LLM 的不断增多,用户可能会面临在训练数据上大致相似的大量 LMM,这些模型之间没有明显区别。根据一些挑战性的基准测试,斯坦福大学的 HELM 排行榜和 Hugging Face 的 LLM 基准似乎已经成为评估模型性能的标准。然而,除了这些基准测试或测试组合之外,对于如此灵活的模型,用户可能更倾向于用主观的评估和感觉来判断模型的好坏。HELM 基准的座右铭是尽可能全面地进行评估,以便让用户在特定情况下做出权衡。它在 42 个不同场景(基准)上对模型进行了评估,共涉及 59 项指标。这些指标包括准确性、稳健性、公平性、偏差等多个方面。与 HELM 不同,Hugging Face 的基准主要关注开源的语言模型,且其评估频率似乎更高(尽管评估大模型的成本也更高)。尽管有这些相对动态的基准,但根据无所不知的机器学习真相来源 X/Twitter 的说法,用户似乎倾向于忽略排名,而更依赖于自己的主观“判断”。代码领域的语言模型现状在编码能力方面,GPT-4 在代码解释和高级数据分析等方面表现出色,因此不出意外地成为佼佼者。一些开源替代软件,如 WizardLM 的 WizardCoder-34B 和 Unnatural CodeLLaMa,在编码基准测试中与 ChatGPT 不相上下,但它们在实际生产中的表现还需要进一步观察。Unnatural CodeLLaMa 和 WizardCoder 不仅在大型预训练编码数据集上进行了训练,还采用了由 LM 生成的附加指令微调技术。Meta 使用了他们自己的非自然指令,而 WizardLM 则使用了他们的 EvolInstruct。需要注意的是,CodeLLaMa 的训练方式使模型能够进行编码(而不仅仅是根据先前的文本进行补全),除了 Unnatural CodeLLaMa 之外,所有 CodeLLaMa 模型都已经发布。用于代码编写的小型 LM(包括 replit-code-v1-3b 和 StarCoder 3B)在执行代码任务时具有低延迟和高性能的特点。它们支持边缘推理,例如在 Apple Silicon 上的 ggml,这有助于开发 GitHub Copilot 等隐私感知替代品。AlphaZero:DeepMind 在低级代码优化领域的持续贡献DeepMind 发布了 AlphaDev,这是一款基于 AlphaZero 的深度 RL 代理,用于将高级代码(如 C++或 Python)转化为机器可读的低级汇编代码。通过简单的删除和编辑现有算法,AlphaDev 找到了一种方法,可以将小序列的排序速度提高了 70%。AlphaZero曾在国际象棋、围棋和将棋等领域超越了人类水平,甚至可用于改进芯片设计。 AlphaDev 将代码优化问题重新定义为一个强化学习问题:在时间t,状态由生成的算法、内存和寄存器的表示组成;然后代理程序会添加或删除指令;其奖励依赖于正确性和延迟。Sort3、Sort4 和 Sort5 算法能提高超过 250K 长度序列的性能至 1.7%。这些算法已在普遍使用 LLVM 库中开源。有趣的是,通过巧妙的提示,研究人员设法让 GPT-4 对 sort3 进行了类似于 AlphaDev 的优化(非常简单)。我们在哪里提示?深呼吸……这变得越来越复杂Prompt 的质量会对任务的执行产生重大影响。思维链 prompt(CoT)要求大语言模型额外输出中间推理步骤,从而提高了性能。思维树(ToT)则通过多次采样,并将“思维”表示为树状结构中的节点,进一步提高了性能。ToT 的树形结构可以通过多种搜索算法进行探索。为了更好地利用这种搜索,LLM 还需要为节点赋值,例如将其划分为肯定、可能或不可能。思维图(GoT)则通过将类似的节点组合在一起,将推理树转化为图的形式。事实证明,LLMs 也可以成为出色的提示工程师。在 10 个推理任务中,Auto-CoT 的表现达到或超过了 CoT。自动提示工程师(APE)在 24 项任务中有 19 项表现相同。APE 设计的提示还可以引导模型朝着真实性或信息性方向(truthfulness and/or informativeness)发展。提示优化(OPRO)的结果显示,在 GSM8K 和 Big-Bench Hard 上,经过优化的提示明显优于人工设计的提示,有时甚至会提高50% 以上。及时进行工程 Prompt 试错下游任务的成功很大程度上依赖于底层的 LLM 性能。然而,尽管 GPT 模型在不断更新,OpenAI 并没有公开每个 GPT 模型版本的具体更改细节。根据用户的反馈,同一版本的 LLM 性能可能会随着时间的推移出现显著变化。因此,每个用户都需要持续监测性能并不断更新他们的提示,以确保取得最佳结果。报告显示,2023 年 3 月和 2023 年 6 月版本的 GPT3.5 和 GPT4 在数学问题(如下图)、敏感问题、意见调查、知识问题、生成代码、美国医疗执照测试和视觉推理等任务上的表现各不相同。欢迎 Agent Smith:LLM 正在学会使用软件目前,LLM 对经济的最直接影响之一是它们能够执行对各种外部工具的调用。最显而易见的工具之一是网络浏览器,它允许模型保持更新。不过,从业者也可以通过 API 调用对语言模型进行微调,以使其能够使用几乎任何可能的工具。Meta 和庞培法布拉大学的 Toolformer 是使用 LLM 工具的一个例子,研究人员以自监督的方式训练基于GPT-J 的模型。他们的模型能够决定调用哪些 API、何时调用、传递哪些参数以及如何最好地将API调用结果整合到未来的token预测中。值得注意的是,在训练过程中,Toolformer 会对 API 调用进行采样,只保留那些有助于降低训练损失的 API 调用。一些模型的关注范围相对狭窄,比如谷歌的 Mind’s eye 模型,它专注于使用物理模拟来回答物理推理问题。而其他一些模型则将这种方法扩展到数以万计可能的外部工具。能够使用外部工具的 LLM 现在通常被称为“agents”。在实际应用领域,业界和开源社区已经设计了多种工具,其中最著名的包括 ChatGPT 插件、Auto-GPT和 BabyAGI 等。使用 LLM 进行开放式学习LLM 具备代码生成和执行能力,使其可以成为开放世界中强大的规划代理。一个显著的例子是 Voyager,这是一个基于 GPT-4 的代理,它具备在 Minecraft 中进行推理、探索和技能学习的能力。通过迭代改进提示,Voyager 可以生成可执行的代码来完成 Minecraft 中的任务。值得注意的是,GPT-4 很可能已经接触过大量与 Minecraft 相关的数据,因此这种方法可能不适用于其他游戏领域。该 agent 通过 Minecraft API 的 JavaScript 代码与环境进行交互。如果生成的代码成功完成任务,它将被存储为一个新的“技能”,否则 GPT-4 将再次提示错误。GPT-4根据 Voyager 的状态生成任务流程,鼓励它解决逐渐增加任务的难度。即使没有经过专门的训练,Voyager 获得的独特物品数量比以前的 SOTA 多了 3.3 倍,旅行距离增加了 2.3 倍,解锁关键技术里程碑的速度也比以前的 SOTA 快了 15.3 倍。使用语言模型进行推理就是使用世界模型进行规划推理一直被认为是在搜索可能结果的空间中,以找到最佳结果。由于 LLM 包含了丰富的世界信息,它们为生成这个推理空间(通常称为世界模型)提供了机会,允许规划算法在其中进行探索。规划推理 Reasoning via Planning(RAP) 使用蒙特卡洛树搜索等方法,以高效地找到高回报的推理路径。世界模型可以生成一个行动,并预测采取该行动后的下一个状态。与仅预测下一步行动而不预测下一个世界状态的“思维链”方法相比,这种方法能够生成推理路径,使 LM 更具连贯性。此外,可以从 LM 中获取奖励,维持状态动作价值函数(State-action Value Function),以便使用蒙特卡洛树搜索(MCTS)进行规划。虽然 RAP 的成本要高得多,但它在计划生成、数学推理和逻辑推理方面的表现却优于思维链推理方法。在 Blocksworld 环境设置中,LLaMA-33B 上的 RAP 甚至优于 GPT-4 上的 CoT。GPT-4 通过学习论文和推理的方式胜过了 RL 算法另一个基于 GPT-4 的纯文本代理是 SPRING,SPRING 在开放世界游戏中的表现优于最先进的 RL 基线且未经过训练。它具备阅读游戏初始学术论文的能力,并通过 LLM 来进行游戏。RL 一直以来都是处理类似 Minecraft 和 Crafter 游戏问题的首选方法,尽管它在样本高复杂性和整合先验知识方面存在一定的限制。相比之下,LLM 可以处理论文的 LaTeX 源代码,并通过 QA 框架(采用问题作为节点、关系作为边的有向无环图(DAG))进行推理,从而执行环境操作。视觉语言模型:GPT-4 胜出(但 API 访问仍受限制)在一项新的视觉指令基准(VisIT-Bench)测试中,视觉语言模型与经人类验证的 GPT4 进行了对比测试,结果显示大多数视觉语言模型没有达到预期目标。根据人工评估人员的评估,LLaMa-Adapter-v2 被认为是最佳模型,尽管在 VisIT-Bench 上仅有 27.4% 的案例胜过了 GPT-4 验证的参考字幕。今年早些时候,Salesforce 推出的一款多模态模型 BLIP-2 脱颖而出。它比 GPT4 推出得更早,性能优于闭源的 Flamingo 在 VQAv2 上,而且可训练参数要少 54 倍。它使用了一个现成的冻结语言模型(LLM),一个现成的冻结的预训练图像编码器,并只训练了一个小型的 Transformer 模型。 然而,在 VisIT-Bench 上,BLIP-2 的改进版本 InstructBLIP 仅在 12.3% 的情况下胜过了 GPT-4 验证的参考字幕。利用 LLM 和世界知识进行够成性视觉推理VisProg 和 ViperGPT 是两种方法,它们演示了在输入包含有关图像的自然语言查询后,LLM 如何将这些查询分解为一系列可解释的步骤,并调用预定义的视觉任务API函数。视觉编程方法旨在通过组合多步推理而不是端到端多任务训练来构建通用视觉系统。这两种方法都使用完全现成的组件。
用于调用现有 SOTA 模型(如语义分割、物体检测、深度估计)的视觉原语(primitives)的应用程序接口。 ViperGPT 使用 Codex 直接生成基于 API 的 Python 程序,可通过 Python 解释器执行。VisProg 则通过示例的伪代码(Pseudocode)指令来提示 GPT-3并将其解释为“视觉程序”,这一过程依赖于 LLM 的上下文学习。 通过在大规模的互联网数据上进行训练,LLM 拥有来自全球知识的辅助,可以用于执行视觉推理任务。(例如,基于已检测到的信息在图像中查询非酒精饮料的品牌。)这两种方法在各种复杂的视觉任务中都展现出了 SOTA 的效果。利用 LLM 实现自动驾驶LINGO-1 是 Wayve 的一种视觉 – 语言 – 行动模型,它可以为驾驶提供解释,包括有关驾驶行为或驾驶场景的信息。此外,它还能够通过对话方式回答问题。在提高端到端驾驶模型的可解释性,以及改进推理和规划方面,LINGO-1 有可能是一个变革者。PaLM-E:机器人技术的基础模型PaLM-E 是一个通用模型,拥有 562 亿个参数,基于视觉、语言和机器人数据进行训练。它具备实时控制机械手的能力,并且在视觉问答(VQA)基准任务上表现出新的最先进水平。由于其综合的智能特性,PaLM-E在纯语言任务中,特别是涉及地理空间推理的任务方面,胜过了纯文本语言模型。该模型结合了 PaLM-540B 和 ViT-22B,允许将文本、图像和机器人状态作为输入,这些输入被编码到与单词 token 嵌入相同的空间中,然后输入到语言模型中以用于执行下一个 token 的预测。从视觉语言模型到低级机器人控制:RT-2视觉语言模型可以通过持续微调来改进底层策略,表现出卓越的操作对象性能。它们还能够保持在网络规模数据上进行推理的能力。RT-2 将动作表示为 token,并通过训练视觉-语言-动作模型来实现。RT-2 并非简单地基于机器人数据进行微调,而是通过使用机器人动作(机器人末端执行器的 6-DoF 位置和旋转位移)对 PaLI-X 和 PaLM-E 进行联合微调。互联网规模的训练使模型能够在面对新颖的物体时进行泛化,解释那些不包含在机器人训练数据中的命令,并进行语义推理(判断选择哪个物体来代替锤子)。为了实现高效的实时推理,RT-2 模型被部署在多 TPU 云服务中。最大的 RT-2 模型(55B 参数)可以以 1-3Hz 的频率运行。从视觉语言模型到低层次机器人控制:RoboCat“RoboCat 是一个用于机器人操作的基础代理,可以在零次或很少次(100-1000 个示例)学习的情况下适用于新任务和新机器人。它在多个平台上表现出色,具有令人印象深刻的实时性能。”它基于 DeepMind 的多模态、多任务和多具身的 Gato 模型构建。它使用了一个经过训练的多种视觉和控制数据集的冻结 VQ-GAN 分词器。虽然 Gato 只预测动作,但 RoboCat 还会预测未来的 VQ-GAN 标记。 在政策学习方面,论文仅提到了行为克隆。RoboCat 通过少量演示(通过远程操作)进行微调,然后重新部署以生成给定任务的新数据,在后续的训练迭代中不断改进自己。RoboCat 可以以惊人的速度(20Hz)在 253 个任务中,针对 134 个真实物体,操作 36 台具有不同动作规范的真实机器人。比人类世界冠军更快的无人机竞赛自主系统这是机器人首次在竞技运动(第一人称视角无人机竞赛)中获胜。Swift 是一个自主系统,只需使用机载传感器和计算,就能与人类世界冠军进行四旋翼飞行器比赛。它在多场比赛中战胜了 3 位冠军,并创下了最快记录。Swift 使用了一种结合基于学习的技术和更传统方法的组合。它将 VIO 估算器与门检测器相结合,通过卡尔曼滤波器估算无人机的全局位置和方向,从而获得机器人状态的精确估算。Swift 的策略是通过使用基于模型的深度强化学习在模拟环境中进行训练的。它的奖励函数结合了两个因素:一是向下一个门前进,二是保持该门在视野内(以提高姿态估计的准确性)。在考虑感知不确定性的情况下,这一策略可以有效地从模拟环境迁移到真实环境中。盲目导航智能体记忆中的地图生成地图构建是 AI 代理学习导航过程中出现的一种现象。这也解释了为什么我们可以向神经网络输入没有明确地图的图像,并预测导航策略。《盲导航智能体记忆中地图的涌现》研究表明,仅提供智能体自身的运动信息(包括位置和朝向的变化)以及目标位置的知识就足以使其成功导航到目标。值得注意的是,这个智能体没有任何视觉信息作为输入,但与具有视力的智能体相比,它的成功率非常相似,只是在效率上可能存在一些差异。这个模型之所以能够做到这一点,是因为它通过在线策略强化学习进行训练,并且没有与地图制图相关的归纳偏差。这一能力的唯一机制在于模型中的长短时记忆网络(LSTM)。可以仅通过该代理的隐藏状态来重建度量地图和检测碰撞。CICERO 掌握自然语言,在Diplomacy 击败人类Meta 训练了一个 AI 代理来玩一款名叫 Diplomacy 的热门多人策略游戏。这款游戏涉及在自然语言中与其他玩家进行多轮的规划和谈判。CICERO 实现了在线人类玩家平均分数的两倍,并在参加多场比赛的玩家中排名前10%。在战略规划和语言建模领域的迅速并行发展为我们带来了巨大的机遇,特别是在这两个领域的交汇点上,我们可能会取得重大的进步。这些进步可以应用于 AI 与人类合作的领域。Meta将 Diplomacy 视为评估这些进展的标杆。CICERO 的工作方式涉及使用玩家之间的对话历史以及游戏棋盘的状态和历史来开始预测每个玩家将采取的行动。然后,它通过规划的迭代过程逐步完善这些预测,最终根据策略决定要采取的具体行动。接下来,CICERO 会生成并筛选出候选消息,用于与玩家进行沟通。CICERO 所使用的可控对话模型是基于一个包含 27 亿参数的、类似于 BART 的模型,经过在超过 40,000 场在线外交游戏上的微调。此外,CICERO 采用了一种新的迭代规划算法,基于 piKL,用于改进在与其他玩家对话后对其行动的预测。文生视频领域的竞争仍在继续与去年类似(第 33 页),竞争主要是在视频扩散技术和掩码变换模型之间展开的(尽管从算法角度看,这两者非常相似)。去年的 Make-a-video 和 Imagen 采用的是扩散模型,而 Phenaki 则使用了双向掩码transformer模型。VideoLDM 是一种隐空间扩散模型(latent diffusion model),可以生成高分辨率视频(分辨率高达 1280 x 2048 像素!)。它是构建在预训练的图像扩散模型的基础之上,通过时间上的精细调整和时间对齐层的应用,将这些模型转化为视频生成器。MAGVIT 是一种掩码生成式视频transformer模型。类似于 Phenaki,它使用 3D 标记器来提取时空标记。不同之处在于 MAGVIT 引入了一种新颖的遮蔽方法。目前,它在视频生成基准测试中表现出色,拥有最佳的 FVD(Fréchet Video Distance),并且速度比视频扩散快 250 倍。基于指令的文生图编辑助手去年,出现了许多文生图模型:DALLE-2、Imagen、Parti、Midjourney、Stability 等。但要控制生成过程,需要进行大量的实验,不断尝试各种prompts和自定义语法。而今年则引入了新方法,使得图像生成和编辑拥有了类似 co-pilot 的能力。InstructPix2Pix 利用预训练的 GPT3 和 StableDiffusion 生成了一个包括{输入图像,文本指令,生成图像}三元组的大规模数据集,用于训练监督式条件扩散模型。然后,编辑是以前馈方式进行的,无需对每个图像进行精细调整或反转,可以在几秒内进行修改。遮蔽修复方法,如Imagen Editor,需要提供一个覆盖区域或“遮罩”,以指示需要修改的区域,同时提供文本指令。 在这些方法的基础上,Genmo AI 的“Chat”等初创公司提供了一种类似 co-pilot 的界面,用于通过文本引导进行语义编辑的图像生成。欢迎使用 3D Gaussian Splatting一个基于3D Gaussian 的新 NeRF 竞争者展示了令人印象深刻的质量,同时还实现了实时渲染。不同于学习神经网络的参数,3D Gaussian Splatting 通过学习数百万个高斯分布(每个用于一个 3D 点)来进行光栅化,计算每个高斯分布对最终图像中每个像素的贡献。需要更多表现能力的区域使用更多的 Gaussians,同时避免在空白区域进行不必要的计算,这就是为什么与 NeRF 类似,场景看起来如此精细。现在可以以 1080p 分辨率以高质量实时渲染(≥100 fps)全新视角。当 NeRFs 遇见 GenAI基于 NeRF 的生成模型是大规模创造 3D 资产的有前途的方向。NeRF 不仅在速度和质量方面有所提高(请参考HyperDiffusion、MobileNeRF、Neurolangelo和DynIBAR),而且还使 GenAI 能够对 3D 几何进行建模。DreamFusion 和 Score Jacobian Chaining 是第一个采用预训练的 2D 文本到图像扩散模型来进行文本到 3D 合成的方法。早期尝试显示了单个物体的卡通风格 3D 模型。RealFusion 通过对特定图像上的扩散先验进行微调,以增加该图像的可能性。SKED 仅会修改通过一些引导草图提供的 NeRF 的特定区域。它们保留了基本 NeRF 的质量,并确保所编辑的区域符合文本提示的语义。Instruct-Nerf2Nerf 对整个 NeRF 场景进行编辑,而不是对特定区域进行编辑或从头开始生成。它们在每个输入图像上应用潜在扩散模型,并迭代更新 NeRF 场景以确保一致性。Zero-shot metric depth最近,零样本深度模型已被用作更好地生成图像的条件,只需要进行相对深度的预测。然而,在其他下游应用,如机器人技术,需要精确的度量深度,但到目前为止,深度测量方法在不同数据集之间的泛化效果不佳。“ZeroDepth:Towards Zero-Shot Scale-Aware Monocular Depth Estimation ”能够为来自不同领域和不同相机参数的图像预测度量深度。它通过联合编码图像特征和相机参数,使网络能够推理物体的尺寸,并在变分框架中进行训练。深度网络最终学会了可以在不同数据集之间传递的‘尺度先验’。“ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth”是一个相对深度模型,其额外的模块经过度量深度微调。这是首个能够在多个数据集上训练且性能不会显著下降,并且能够在室内和室外领域进行泛化的模型。Segment Anything: 一个可提示的分割模型,具有 zero-shot 泛化能力Meta 引入了一个名为“Segment Anything”的大型项目,其中包括发布了一个 1100 万张图像数据集上的 10 亿个分割蒙版(SA-1B),以及一个带有 Apache 2.0 商业使用许可的分割模型(SAM)。Meta 在 23 个不同领域的图像数据集上测试了 SAM,在超过 70% 的情况下表现优于现有的最先进技术。受到大语言模型的启发,这些模型在广泛的数据集上进行了预训练,并通过提示表现出零参考能力,Meta 的研究人员开始构建一个模型,使其具备一般的可提示分割能力:对于任何提示,该模型应能够识别和分割任何图像中的任何对象。该模型由两个部分组成:(i) 用于计算一次性图像嵌入的重量级编码器(ViT),(ii) 由嵌入用户提示的提示编码器和预测分割掩码的掩码解码器组成的轻量级交互式模块(可在浏览器的 CPU 上运行)。使用环中模型数据引擎生成训练数据,并通过应用 SAM 完全自动生成最终的 SA-1B。通过提示工程,SAM 可应用于其他任务,包括边缘检测、对象建议生成和实例分割,并显示了将 SAM + CLIP 用于文本提示的初步结果。DINOv2:一种新的、现在被默认采用的计算机视觉骨干模型DINOv2 是 Meta 公司开发的自监督视觉transformer模型,它能够生成通用的视觉特征,可以在各种图像级别(例如分类)和像素级别(例如分割)的任务中使用,无需额外微调,并且在性能上与最先进的开源弱监督替代方法相竞争。这是第一个能够弥合自监督和弱监督方法之间差距的工作。DINOv2 的特征被证明包含有关对象部分、图像的语义以及低级理解的信息。作者通过采用额外的正则化方法使自监督学习模型的训练更加稳定,同时降低了内存需求,从而可以在更多数据上更长时间地训练更大的模型。此外,他们还提供了通过蒸馏获得的模型的压缩版本。尽管可以使用任何图像进行训练,但其中一个关键的部分是策划数据集,并自动在不同概念之间保持平衡(从 12 亿个源图像中选取了 1.42 亿张图像)。DINOv2 特征可与线性分类器结合使用,在许多视觉任务中都能取得很好的效果。更准确的天气预测,包括即时的当下预报和更长时间范围内的预测?当前,关于短期降水预测(即时预报)的准确性有限,容易出现模糊不清、消散或者速度慢的问题。而使用精确的数值天气预测方法进行中期全球天气预测在计算上代价高昂。为解决这两个问题,学习方法和考虑相关先验信息的物理模型能够提供专业气象学家所偏好的性能改进。新的基准数据集,例如谷歌的WeatherBench 2,有助于发展数据驱动的天气模型。NowcastNet 是一个非线性模型,它将物理原理和统计学习方法结合到深度生成模型框架中。在经过中国各地的 62 位专业气象学家评估后,该模型在 71% 的情况下排名第一,超过了其他领先方法。“盘古天气”是一个 3D 深度学习模型,具有地球特定的先验知识,经过对 39 年的全球数据进行训练,可以生成全球中期范围的天气预报。与现有系统相比,这个模型可以提供更准确的早期气旋追踪能力。音乐生成领域在这一年又有所新进步来自Google、Meta以及开源社区的新模型显著提高了可控音乐生成的质量。尽管在音乐生成质量方面不是最佳的,Riffusion 可能是最具创新性的模型。研究人员对 Stable Diffusion 模型进行了微调,使用声谱图的图像,然后将这些图像转换为音频片段。借助 MusicLM,谷歌研究人员“将条件音乐生成作为分层 seq2seq 建模任务”。他们能够在数分钟内生成连贯的音乐(采样率为 24 千赫兹)。在我们看来,Meta 的 MusicGen 在遵循文本描述和生成愉悦旋律之间取得了更好的平衡。它使用了单一的 transformer LM 以及精心设计的码本交错技术。扩散模型能够根据简单的分子规格设计出多种功能蛋白质从头开始设计具有期望功能或结构特性的新型蛋白质,即“de novo设计”,在研究和工业领域引起了兴趣。受到在图像和语言生成方面的成功启发,扩散模型现在被应用于 de novo 蛋白质工程。一个名为 RFdiffusion 的模型利用 RoseTTAFold 的高精度、残基级分辨率蛋白质结构预测功能,将其作为生成扩散模型中的去噪网络,使用蛋白质数据库中的噪声结构对其进行微调。 与 AlphaFold 2 类似,当模型根据在不同时间步骤之间的先前预测来进行去噪条件时,RFdiffusion 在训练时表现最佳。 RFdiffusion 可以生成具有所需特征的蛋白质骨架,然后可以使用 ProteinMPNN 来设计编码这些生成结构的序列。该模型可生成蛋白质单体、蛋白质结合体、对称低聚物、酶活性位点支架等的骨架设计。利用语言模型在演化尺度上学习蛋白质结构的规则现在可以直接从氨基酸序列预测原子级蛋白质结构,而无需依赖昂贵而缓慢的多序列比对(MSA)。为此,我们在数百万个进化多样的蛋白质序列中使用了屏蔽语言建模目标,使生物结构在语言模型中具体化,因为它与序列模式相关联。这个模型名为“Evolutionary Scale Modeling–2(ESM-2)”,它被用于描述超过 6.17 亿个不同来源的基因组蛋白质(如土壤、细菌和水中的蛋白质)的结构特征。与 AlphaFold-2(AF2)相比,ESM-2(如下图所示)的计算速度大大提高:使用了一组由 2,000 个 GPU组成的集群,仅用了两周的时间就得出了这些结果。ESMFold 是一个完全端到端的单序列结构预测器,它在 ESM-2 的基础上采用了折叠头。根据 TM 分数测量,ESMFold 的结构(右图)在投影准确度上达到了 AF2 级别的质量,即与基准结构的比较中表现出很高的准确度。无需细胞实验即可预测扰动多基因的结果了解基因表达如何受到刺激或抑制而发生变化,特别是由于基因组合的影响(即干扰),对于揭示与健康和疾病相关的生物通路非常关键。然而,由于组合的复杂性,我们在实验室中难以进行这些实验,因为会涉及到大量的组合变化。将深度学习与基因之间相互关系的知识图谱相结合提供了一种解决方案。图形增强基因激活和抑制模拟器(GEARS)结合了之前的实验知识,它的作用是在不对基因表达进行扰动以及在应用扰动之前,预测基因表达的结果。 例如,GEARS 可以使用单一基因和双基因实验的扰动后基因表达谱进行训练,然后用来预测 5,460 个不同基因组合的扰动后基因表达情况。是否致病?预测所有单氨基酸变化的结果来自基因变异的氨基酸序列个体变化(“错义变异”)有可能是无害的,也可能会对蛋白质的折叠、活性或稳定性产生下游问题。通过人类群体级基因组测序实验,已经鉴定出了超过 400 万这类错义变异。然而,其中 98% 的变异尚未经过任何临床分类(良性/致病性)的确认。AlphaMissense 是一种新的系统,可利用 AlphaFold 的预测和无监督的蛋白质语言建模来弥补这一差距。AlphaMissense 系统的建立方式如下:(i) 通过基于群体频率数据的弱标签进行训练,以避免使用人工注释,从而避免了循环性;(ii) 结合了无监督蛋白质语言建模任务,学习了基于序列上下文的氨基酸分布;(iii) 结合了结构上下文,使用 AlphaFold 派生的系统。AlphaMissense 被用于预测了 7,100 万个错义变体,从而对人类蛋白质组进行了全面的分析。其中,有 32% 的变体可能具有致病性,而 57% 可能是良性的。此外,该资源还包括了对 19,233 种典型人类蛋白质中的全部 2.16 亿个可能的单氨基酸替代进行了分析。谷歌的 Med-PaLM 2 语言模型在 USMLE 中被认为是专家在发布 Med-PaLM 一年后,它成为首个在美国医师执照考试(USMLE)中获得“及格”分数以上的模型。Med-PaLM 2 通过改进基础语言模型、在医学领域进行微调以及改善提示策略,在更多数据集上取得了领先水平的结果。在一项针对 1,066 个消费者医疗问题的成对排名研究中,一组医生更喜欢 Med-PaLM 2 的答案,而不是其他医生提供的答案,涵盖了我们的评估框架中的九个方面中的八个。下一步,Med-PaLM 将采用多种模式为了超越基于文本的医疗问答,谷歌首先创建了 MultiMedBench,这是一个包括 14 项任务的数据集,涵盖了医疗问答、乳腺和皮肤科图像解读、放射报告生成和汇总,以及基因组变异调用等多个领域。这一数据集被用于训练具有相同模型权重集的大型单一多任务、多模态 MedPaLM 版本。这个系统展示了对于新兴的医学概念和任务的泛化能力。此外,还提出了另一种轻量级方法 ELIXR。ELIXR 将语言对齐的视觉编码器与固定的语言模型结合,需要更少的计算资源,且在视觉质量保证、语义搜索以及零镜头分类等任务中表现出良好的前景。推特风暴:来自医疗推特的 SOTA 病理语言图像预训练模型优质的数据是构建AI系统的关键,这已经不再是什么秘密,尤其在临床医学等领域更是如此,因为生产高质量数据的成本非常高。这项研究通过在 Twitter 上挖掘文本和图片的配对,创建了 OpenPath 数据集,其中包含了超过 200 张病理图片和相应的自然语言描述。受到 OpenAI 的对比语言-图像预训练(CLIP)模型的启发,研究人员创建了 P(athology)LIP 数据集。与 CLIP 一样,PLIP 也能够进行”零样本”分类,从而使其能够区分多种重要的组织类型。PLIP 还可以用于改进病理图像的文本到图像和图像到图像检索。与数字病理学中基于一组固定标签进行学习的其他机器学习方法不同,PLIP 可以更广泛地应用,并灵活适应病理学诊断标准的不断变化。与 CLIP 相比,PLIP 在 Precision@10 指标上表现更好,提高了 2 到 6 倍。受现实世界启发的自动医学图像分析临床系统设计计算机视觉已被证明可用于乳房 X 光检查中的乳腺癌筛查和肺结核分诊。然而,要想在临床中切实可靠地使用计算机视觉技术,就必须知道什么时候应该依赖预测性 AI 模型,什么时候应该恢复临床工作流程。“Complementarity-Driven Deferral to Clinical Workflow(CoDoC)”是一种方法,它学会了决定是依赖于预测性的人工智能模型的输出,还是转而采用传统的临床工作流程。对于乳腺癌筛查,与英国的双重阅读和仲裁相比,CoDoC 在相同的假阴性率情况下减少了 25% 的假阳性结果。最重要的是,这一改进还使临床工作负担减少了 66%。AI 促进科学:医学领域正在迅速增长,但数学吸引了最多的关注应用 AI 来加速进展的前 20 个科学领域包括物理、社会、生命和健康科学。其中,医学领域的发表数量增长最快。我们预计,由于在科学领域中使用人工智能,将会在可预见的未来出现重大的研究突破。 最有影响力的研究通常来自极少数的地方过去 3 年中,在被引用次数最多的 AI 论文中,超过 70% 的作者来自美国的机构和组织。*以上文章翻译自《State of AI Report》,如需原文,请与我们联系。WF Research 是以第一性原理为基础的专业顾问服务机构,欢迎关注和留言! V:Alexqjl}

我要回帖

更多关于 美兰玻尿酸型号图片 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信