智谱开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行；曝 OpenAI 模型「草莓」今秋推出

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、曝 OpenAI 高级推理 AI 产品「草莓」秋季推出

路透社曾爆料 OpenAI 正在开发一个名为「草莓」的 AI 产品，旨在提高 AI 的高级推理能力，The Information 昨日的一篇报道再次证实了这个产品的存在。

据知情人士透露，这款人工智能模型预计最早将于今年秋季作为聊天机器人的一部分推出，可能集成于 ChatGPT 平台中。「草莓」的一大亮点在于其能够解决前所未见的数学问题，这是当前聊天机器人所无法企及的。此外，通过特定训练，「草莓」还能应对编程相关的挑战。

然而，「草莓」并不局限于回答与技术相关的问题，如果有更多的时间去「思考」，它同样擅长处理更为主观的话题，如产品营销策略咨询。为了展示「草莓」在处理语言相关任务方面的能力，OpenAI 的研究人员已展示了其解决复杂字谜游戏的实例。

推出「草莓」是 OpenAI 持续创新的一部分，旨在与财力雄厚的对手竞逐生成式人工智能及大语言模型领域的领导地位。这项技术不仅引领未来趋势，还为解决多步骤任务的智能体（Agent）产品奠定基础，这些智能体被寄予厚望，可能成为新的收入增长点。

据悉，OpenAI 在今年夏天向美国国家安全官员展示了「草莓」。（@腾讯科技）

2、智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

智谱 AI 开源了 CogVideoX-5B 视频生成模型，相比此前开源的 CogVideoX-2B，官方称其视频生成质量更高，视觉效果更好。

官方表示大幅度优化了模型的推理性能，推理门槛大幅降低，可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ，在 RTX 3060 等桌面端「甜品卡」运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT（diffusion transformer）模型，用于文本生成视频任务，主要采用了以下技术：

3D causal VAE：通过压缩视数据到 latent space，并在时间维度上进行解码来实现高效的视频重建。

专家 Transformer：将文本 embedding 和视频 embedding 相结合，使用 3D-RoPE作为位置编码，采用专家自适应层归一化处理两个模态的数据，以及使用 3D 全注意力机制来进行时空联合建模。（@IT 之家）

3、Anthropic 向所有 Claude 用户开放 Artifacts AI 功能

AI 科技公司 Anthropic 于今日发布博文，宣布面向所有 Claude 用户开放 Artifacts 功能，用户现在可以在 iOS 和安卓版 Claude 应用中创建和浏览 Artifacts。

Artifacts 于今年 6 月推出预览版，官方称用户目前已经创建了数千万个 Artifacts。

Artifacts 相当于创建了一个动态工作区，用户和 Claude 对话让其生成文档、代码、矢量图，甚至是简单的游戏过程中，Artifacts 会出现聊天界面旁边，方便用户实时查看、迭代和创建你的作品。例如，在编写代码时，用户可以实时看到 Claude 提出的建议，并立即测试修改后的版本；在创作故事或撰写文章时，用户也可以随时采纳 Claude 的创意，不断丰富和完善作品。

此外，Artifacts 还支持用户之间的协作。多个用户可以围绕同一个项目进行合作，共享彼此的想法和成果，并且能够清晰地追踪每个用户的贡献。（@AIGC 开放社区）

4、Cerebras 推出 AI 推理解决新方案，速度是英伟达方案的 20 倍

Cerebras Systems 今日宣布推出 Cerebras Inference，官方称这是全球最快的 AI 推理解决方案。该新解决方案为 Llama 3.1 8B 提供每秒 1800 个 token，为 Llama 3.1 70B 提供每秒 450 个 token，速度是微软 Azure 等超大规模云中提供的基于英伟达 GPU 的 AI 推理解决方案的 20 倍。

除了令人难以置信的性能之外，这款新型推理解决方案的定价也比流行的 GPU 云低得多，起价仅为每百万个 token 10 美分，从而为 AI 工作负载提供 100 倍更高的性价比。

该方案将允许 AI 应用程序开发人员构建下一代 AI 应用程序，而不会影响速度或成本。该方案使用了 Cerebras CS-3 系统及其 Wafer Scale Engine 3（WSE-3）AI 处理器，其中 CS-3 的内存带宽是 Nvidia H100 的 7000 倍，解决了生成式 AI 的内存带宽技术挑战。

据了解，Cerebras Inference 提供以下三个层级：

免费层为登录的任何人提供免费的 API 访问和慷慨的使用限制

开发者层专为灵活的无服务器部署而设计，为用户提供一个 API端点，其成本只是市场上替代方案的一小部分，Llama 3.1 8B 和 70B 模型的定价分别为每百万 token 10 美分和 60美分

企业层提供微调模型、定制服务级别协议和专门支持。企业可以通过 Cerebras 管理的私有云或客户场所访问 Cerebras Inference，非常适合持续的工作负载（@IT 之家）

5、智谱 AI 宣布 GLM-4-Flash 大模型免费开放，支持 26 种语言

智谱 AI 昨日宣布，旗下 GLM-4-Flash 大模型免费开放，注册开放平台 bigmodel.cn 就可以通过调用 GLM-4-Flash 构建专属模型和应用。

据介绍，GLM-4-Flash 适用于完成简单垂直、低成本、需要快速响应的任务，生成速度能达到 72.14 token/s，约等于 115 字符/s。同时，GLM-4-Flash 具备多轮对话、网页浏览、Function Call（函数调用）和长文本推理（支持最大 128K 上下文）等功能，支持包括中文、英语、日语、韩语、德语等在内的 26 种语言。

官方表示，通过采用自适应权重量化、多种并行化方式、批处理策略以及投机采样等多种方法，在推理层面实现模型的延迟降低与速度提升，更大并发量和吞吐量不仅提升了效率，而且让推理成本显著降低，从而免费推出。

在预训练方面，官方引入了大语言模型进入数据筛选流程，获得 10T 高质量多语言数据，数据量是 ChatGLM3-6B 模型的 3 倍以上；同时采用了 FP8 技术进行预训练，提高了训练效率和计算量。（@IT 之家）