2025 年 6 月 15 日 下午 7:51

比尔·盖茨称不要太担心 AI 耗电;OpenAI 推出全新 CriticGPT 模型|钛媒体 AGI


今天,通用人工智能 (AGI) 领域又公布了一系列重磅消息,包括比尔·盖茨披露 AI 用电问题,OpenAI 推出新模型 CriticGPT,全球首家 AI 生活实验室在北京海淀落地等。

下面,天顺财经 AGI 编辑简单梳理了 AI 领域的重要消息。

比尔·盖茨:我们不要过分担心人工智能的用电问题

天顺财经 App 6 月 28 日消息,今晨伦敦举行的突破能源峰会 (Breakthrough Energy Summit) 上,微软联合创始人比尔·盖茨 (Bill Gates) 为 AI 系统导致的能源使用快速增长进行了辩护,认为该技术最终将抵消其大量电力消耗。

比尔·盖茨敦促环保人士和政府 「不要过分」 关注运行新的生成式人工智能系统所需的大量电力,微软等大型科技公司正竞相投资数百亿美元建设庞大的新数据中心。

盖茨称,数据中心将推动全球用电量增长 2% 至 6%。「问题是,AI 会加速超过 6% 的减排吗?答案是:当然。」 而他表示,科技公司在寻求新的电力来源时,将为清洁能源支付 「绿色溢价」,即更高的价格,这有助于推动其开发和部署。

「科技公司愿意支付溢价,帮助提升绿色能源产能。」 比尔·盖茨表示。

然而,美国能源部 4 月份的一份报告称,AI 「有望在不久的将来成为美国数据中心相关负荷增长的最大驱动力」。

美国能源部表示,尽管亚马逊和微软等公司已与风能和太阳能发电企业签署了长期购电协议,但这些协议 「通常无法使电力需求与当地资源相匹配」。这意味着协议 「不能保证所有与电力相关的温室气体排放都被抵消」。

因此,很显然,比尔·盖茨的看法与美国能源部相左。

实际上,今年 5 月,微软承认其温室气体排放量自 2020 年以来增加了近三分之一,这在很大程度上是由于数据中心的建设。

盖茨于 2020 年离开微软董事会,但仍是首席执行官萨蒂亚•纳德拉 (Satya Nadella) 的顾问,所谓的突破能源集团,是由比尔·盖茨创立,投资者包括杰夫·贝佐斯、孙正义和马云。该集团已经投资了 100 多家开发可持续能源和其他技术以减少温室气体排放的公司。

目前,包括微软、亚马逊和谷歌在内的大型科技集团已提出计划,斥资数百亿美元在世界各国建设运行 AI 系统所需的计算基础设施。但是,电力供应方面的限制已经给寻求建立新技术的公司带来了挑战。

今年 5 月,美国电力研究所 (Electric Power Research Institute) 表示,到 2030 年,数据中心可能消耗至多 9% 的美国发电量,是目前用电量的两倍多。

「我们转型所需的绿色电力数量不会以我们需要的速度出现。」 比尔·盖茨称,到 2050 年实现净零排放的全球目标很可能无法实现,他认为 「再过 10 年或 15 年可能更现实」。

让 GPT-4 帮人类训练 GPT-4,OpenAI 推出新模型 CriticGPT

美东时间 6 月 27 日周四,OpenAI 公司宣布,其研究人员训练了一个基于 GPT-4 的模型,称为 CriticGPT,用于捕捉 ChatGPT 代码输出中的错误。

简单来说就是,CriticGPT 让人能用 GPT-4 查找 GPT-4 的错误。它可以写出使用者对 ChatGPT 响应结果的批评评论,从而帮助人类训练者在 RLHF 期间发现错误。CriticGPT 用于给代码挑 Bug 时能找到 75% 以上,而相比之下人类只能找到不到 25%。

OpenAI 发现,如果通过 CriticGPT 获得帮助审查 ChatGPT 编写的代码,人类训练师的审查效果比没有获得帮助的人强 60%。OpenAI 称,正着手将类似 CriticGPT 的模型集成到旗下 RLHF(基于人类反馈的强化学习) 标记管道中,为自己的训练师提供明确的 AI 帮助。

OpenAI 称,因为没有更好的工具,所以人们目前难以评估高级的 AI 系统的表现。而 CriticGPT 意味着,OpenAI 向能够评估高级 AI 系统输出的目标迈进了一步。

OpenAI 举了一个例子。如下图所示,对 ChatGPT 提出一个用 Python 编写指定函数的任务,对于 ChatGPT 根据要求提供的代码,CriticGPT 点评了其中一条指令,提议换成效果更好的。

另外,OpenAI 还披露了 CriticGPT 的主要功能、工作原理、优势和局限性。

CriticGPT 的主要功能

  • 代码审核:自动审查由其他 AI 模型生成的代码,识别潜在的逻辑错误和安全漏洞。
  • 错误识别:检测代码中的语法错误、运行时错误以及可能的编程失误。
  • 安全漏洞分析:专门分析代码,找出可能导致安全问题的漏洞,如路径遍历、注入攻击等。
  • 反馈生成:为开发人员提供具体的错误反馈和改进建议,帮助他们理解并修复问题。
  • 性能评估:评估 AI 生成的代码在性能上是否达到预期标准。
  • 辅助学习:通过提供错误示例和正确做法,辅助开发人员和 AI 训练师学习和提高。

CriticGPT 的工作原理

  • 错误注入:首先,通过一种称为」 篡改」 的方法,人类评估员故意在 AI 生成的代码中插入细微的错误,然后记录下这些错误的详细描述。这个过程类似于代码审查中发现错误并记录错误的方式。
  • 训练数据生成:这些被篡改的代码样本和相应的错误描述被用来训练 CriticGPT,使其能够识别和指出各种潜在问题。
  • 评论生成:CriticGPT 接收一个问题和相应的回答作为输入,然后生成一个评论,指出回答中的具体错误。评论的结构通常包含多个部分,每个部分都针对原始回答中的特定引用进行评论。
  • 策略优化:使用近端策略优化 (PPO) 算法来优化 CriticGPT 的行为策略,允许模型在保持策略更新幅度较小的同时,有效地学习如何改进其输出。
  • 推理采样策略:引入了一种名为」 强制采样波束搜索」(FSBS) 的技术,通过在生成评论时强制模型产生特定的高亮部分,然后根据奖励模型的评分选择最佳评论。这种方法允许模型在生成更长、更全面的评论时,减少虚假问题的产生。
  • 性能评估:CriticGPT 的输出会被评估,以确定其在检测代码错误方面的表现,以及与人类评估员相比的优势。

CriticGPT 的优点

  • 提高准确性:CriticGPT 通过增强 RLHF,显著提升了 AI 模型输出的准确性,尤其在代码审查方面,能找出许多人类难以发现的问题。
  • 减少错误:它能够帮助减少在代码中的错误,特别是那些由于模型复杂度增加而变得更加隐蔽的错误。
  • 提升效率:CriticGPT 可以自动化地审查代码,减少了人工审查所需的时间和工作量。
  • 增强安全性:通过识别代码中的安全漏洞,CriticGPT 有助于提升软件产品的安全性。
  • 辅助人类评估员:CriticGPT 可以作为人类评估员的辅助工具,提高他们审查代码的效率和质量。
  • 自我学习和优化:CriticGPT 使用 PPO 算法进行策略优化,能够不断学习和改进其错误检测的能力。
  • 减少幻觉:CriticGPT 有助于减少在评估过程中产生的幻觉或虚假错误,提高了评估的可靠性。
  • 全面性:通过 FSBS 技术,CriticGPT 能够生成更全面、更详细的评论,同时避免了无关紧要的问题或错误。
  • 提升训练数据质量:CriticGPT 的使用有助于生成更高质量的训练数据,进一步优化 AI 模型。
  • 适应性强:CriticGPT 的设计使其能够适应不同的 AI 输出和任务,具有较好的通用性。

CriticGPT 的局限

  • 复杂性限制:CriticGPT 在处理极复杂的任务时可能会面临挑战,尤其是当错误分布在代码的多个部分时。
  • 短答案训练:该模型主要针对较短的代码片段进行训练,可能在处理更长、更复杂的任务时效果不佳。
  • 幻觉问题:尽管 CriticGPT 减少了幻觉错误的产生,但仍然存在可能输出不正确内容误导人类的风险。
  • 单一错误焦点:当前 CriticGPT 主要关注单点错误,对于跨多个代码段的错误可能识别不够。
  • 应用范围:CriticGPT 主要针对代码审查,对于其他类型的 AI 输出 (如文本、图像等) 可能需要进一步的调整和优化。
  • 依赖训练数据:CriticGPT 的性能在很大程度上依赖于训练数据的质量和多样性,如果训练数据存在偏差,可能影响模型的准确性。

谷歌公布 270 亿参数的最强开源模型 Gemma 2,吊打 Llama 3

北京时间 6 月 28 日凌晨,谷歌在 I/O Connect 大会上公布其新一代最强开源模型——Gemma 2。

Gemma 2 有 90 亿 (9B) 和 270 亿 (27B) 两种参数规模版本。

其中,27B 模型训练了 13T tokens,9B 是 8T tokens,都拥有 8192 上下文窗口,可在 Google AI Studio 中使用。26 亿参数 (2.6B) 模型将很快发布,小到可以在手机本地运行。

在盲测大语言模型竞技场 LMSYS Chatbot Arena 中,270 亿参数的 Gemma 2 指令微调模型击败了拥有 700 亿参数的 Llama 3,并超过 Nemotron 4 340B、Claude 3 Sonnet、Command R+、Qwen 72B 等模型,在所有开源权重的模型中位列第一;9B 模型则是当前 15B 以下参数的模型中成绩最好的。

谷歌透露,早前推出轻量级先进开源模型 Gemma 2B、7B 版本下载量超过 1000 万次。而 Gemma 2 涵盖从 20 亿到 270 亿参数,比第一代性能高出 2 倍以上,推理效率也更高,可以在单个英伟达 A100/H100 Tensor Core GPU 或 TPU 主机上以全精度高效运行推理,大大降低了部署成本,并且显著改进安全性。这是该系列模型迈出的一大步。

智谱称国产大模型 GLM-4-9B 性能超过了谷歌 Gemma

针对今晨谷歌发布的 Gemma-2 开源模型,6 月 28 日中午,国内大模型独角兽智谱 AI 向天顺财经 App 展示一份数据称,提供的各项评测对比中,近 1 个月前发布开源的国产大模型 GLM-4-9B 似乎更具有优势。

据悉,GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。GLM-4-9B 升级的前身是 2023 年智谱开源的 3 代的 6B 模型,Hugging Face 上获得了超过 1700 万次的下载。

斯坦福 AI 文档搜索公司 Hebbia 完成近 1 亿美元 B 轮融资,估值达 8 亿美金

据 TechCrunch 报道,三位知情人士透露, 研发生成式 AI 搜索大型文档工具的初创公司 Hebbia 近日已完成由 Andreessen Horowitz(a16z) 领投的近 1 亿美元 B 轮融资。

报道称,本轮融资对该公司的估值在 7 亿至 8 亿美元之间。据 Hebbia 在 5 月份提交给美国证券交易委员会的文件中披露,该公司当时已筹集到 9300 万美元,而预期的融资额为 1 亿美元,但我们从两位知情人士那里了解到,本轮融资接近 1 亿美元,并且已经结束。

Hebbia 和 A16z 没有回应置评请求。

据悉,Hebbia 成立于 2020 年,创始人是 George Sivulka,他在斯坦福大学攻读电气工程博士学位期间创办了这家公司。

Sivulka 的灵感来自他在金融行业工作的朋友告诉他,漫长的工作周中有一部分时间是花在搜索 SEC 文件和其他密集文件中的信息上。Sivulka 认为。AI 可以帮助他们节省办公室时间,让他们有更多时间休息和睡眠。

该公司表示,Hebbia 的 AI 可以同时查看数十亿份文件,包括 PDF、PowerPoint、电子表格和成绩单,并返回具体答案。

这家初创公司主要向金融服务公司销售产品,包括对冲基金和投资银行。但其产品也可供律师事务所和其他专业领域使用。

最新一轮融资使 Hebbia 的总资本超过 1.2 亿美元。该公司于 2022 年 9 月完成了 3000 万美元的 A 轮融资,由 Index Ventures 领投,Radical Ventures 参投。

全球首家 AI 生活实验室在北京海淀落地,将向公众免费开放

6 月 28 日消息,天顺财经 App 获悉,全球首家人工智能 (AI) 生活实验室将于 6 月 30 日-7 月 1 日在海淀举办开幕仪式,将向公众免费开放,供广大市民前来体验各式各样的 AI 产品。

据悉,该生活实验室由海国投 (北京市海淀区国有资产投资经营有限公司) 旗下北京海新睿人工智能科技有限公司打造,旨在推动 AI 技术与民生融合,展示当下前沿的 AI 产品,供社区居民、创业团队、政府人员、投资机构、前沿产业从业者等多元背景的来访者可以在其中交流、碰撞、合作,共同推动 AI 技术的发展和应用落地。

海新睿总经理赵元章早前表示,尽管大模型技术不断涌现,但如何将这些技术转化为实际生产力,改善人民生活,并为企业带来商业价值,仍是一个亟待解决的问题。海新睿的解决方案即是为 AI 企业提供 「产品经理」 角色,通过 「生活实验室」 搭建连接 B 端与 C 端的桥梁,提供使用场景和丰富真实的用户数据,反哺产品的开发与打磨,使其更符合用户和市场的需要,有更大的几率成为爆款,从而加速技术应用落地。

据了解,生活实验室基于 「社会设计」 的理念,为了探索 AI 技术与生活融合的可能,模拟卧室、游乐场、会客厅、社区等真实场景,设计了不同的计划。诸如 「橙色温度计划」 被打造成孩子卧室的模样,希望守护孩子们的情绪健康,及时排查干预心理问题;「超越百岁计划」 是一个老人的小公寓,「第二人生计划」 则是一个微型的 「社区」,分别探索如何减少老人病痛、培养老人兴趣爱好,帮助老人延缓衰老、缓解晚年的孤独感,丰富生活品质。

海新睿方面透露,未来三年,海新睿计划培育孵化 10-20 家独角兽级 AI 垂直应用企业,专注于老龄和青少年领域,形成具有全球影响力的产品体系,联合上下游企业一同培育 AI 产业生态,推动 AI 技术惠及更多人群。

字节跳动发布豆包 MarsCo 智能开发工具

6 月 27 日下午,字节跳动发布了基于豆包大模型打造的智能开发工具豆包 MarsCode,面向国内开发者免费开放。豆包 MarsCode 包括编程助手和 Cloud IDE 两种产品形态,可在需求开发、修复 Bug、开源项目学习三个实际场景中实现项目问答、代码补全、单测生成、Bug Fix 等功能,帮助开发者提升效率。

目前,MarsCode 编程助手支持 Python、Go、JS、TS、C++、Java、Kotlin、C、Rust 等超过 100 种主流编程语言,兼容 VSCode 和 JetBrains 代码编辑器,支持代码补全、单测生成、代码解释、代码推荐 Pro(Beta)、生成注释、错误修复、AI 问答等功能。

(本文首发于天顺财经 App,作者|林志佳,编辑|胡润峰)



- Advertisement -spot_img

推荐阅读