成功案例

GPT 紧随其后,收入 460 万美元

作者: bet356体育官方网站   点击次数:    发布时间: 2025-11-12 09:47

Kimi K2的想法已于上周发布。开源模式击败了 OpenAi 和 Anthropic,在社交媒体上引起了轩然大波。网友们纷纷表示太棒了。我们也测试了它,在代理、编码和写作能力方面确实有所提高。刚才Kimi团队甚至创始人杨志林都来了,他们在Reddit上举办了一场信息爆炸的AMA(问答)活动。 ▲ Kimi Team 三位联合创始人杨智霖、周新宇、吴宇新参与回答社区尖锐问题。 Kimi不仅透露了下一代K3车型的暗示和KDA核心技术的细节,还公开谈到了460万的成本,以及与OpenAI在培训成本和产品理念上的巨大差异。 460万美元这个数字并非官方数字,很难衡量准确的培训费用。 K3何时到来取决于奥特曼万亿美元的数据何时建立。 K3技术ogy 将继续使用。当前有效的 KDA 注意力机制仍然需要我们收集更多的数据,但它已经在完成......我们为您收集了一些最有趣的数据,主要集中在本次 AMA 上。我们来看看这家被认为是国内开源领头羊的AI公司。实验室如何看待他们的模型和人工智能的未来发展。挑战openai,“我们有自己的节奏”。在本次 AMA 中,最爆炸的部分可能是 Kimi 团队对 OpenAi 的回应。最大的噱头之一:K3什么时候来? Kimi团队的回答非常聪明:“在染奥特曼万亿美元的数据之前。”一方面,这显然很有趣,因为没有人知道 OpenAi 何时会建设数据中心。另一方面,似乎是在回应外界对Kimi可以用更少的资源赶上GPT-5的赞誉。当有网友公开问Kimi为什么认为Openai花了很多钱谈到训练,基米公开表示:“我们不知道,只有奥特曼自己知道”,并强硬地补充道,“我们有自己的方式和节奏。”当被问及是否会发布像 OpenAi 这样的 AI 浏览器时,该团队表示不会:我们不需要创建另一个 chromium 包装器(浏览器外壳)。他们强调,目前的工作仍然集中在模型上,mga能力的表现是由模型中的大助手完成的。 Kimi 在培训和硬件成本方面也表现出谨慎的一面。社区怀疑 K2 的训练费用是否真的是传闻中的 460 万美元,Kimi 澄清这个数字不正确,但表示大部分钱都花在了研究和实验上。具体很难衡量。至于硬件,Kimi 承认他们使用 H800 GPU 和 Infiniband,虽然“不如美国顶级 GPU,而且在数量上也不占主导地位”,但他们充分利用了每张卡。模特的个性而AI的垃圾味一个好的模型不仅要有智商,还要有个性。很多用户喜欢Kimi K2的教学风格,称其“与其说是旋转,不如说是散文,有视角安迪”。 Kimi解释说,这是“训练前(提供知识)+训练后(增添风味)”的结果。不同的强化学习配方(即奖励模型的不同选择)会产生不同的风格,而且他们还特意设计了轮换较少的模型。 ▲ 大模型语言EQ Rank 排行榜,图片来源:https://eqbench.com/creative_writing.html 但同时也有用户表示Kimi K2 的写作风格太“ai slop”。不管写什么题目,都非常有品味。他还举了个例子,表示如果Kimi写一些非常暴力、对抗性的内容,还是会让整体风格更接近团队积极的一面,Kimi是非常候选的。他们承认这是这是大型语言模型的常见问题,还要注意当前阶段的强化学习旨在强化这种风格。这种用户体验与测试数据之间的矛盾也体现在对基准测试的质疑上。有网友问,具体Kimi K2是想在HLE等跑分上取得高分吗?毕竟这么高的分数,似乎与他的实际智力并不相符。对此,Kimi团队解释称,他们在提高自主推理方面取得了一些进展,这刚好足以让K2思维在HLE中获得高分。但他们也承认自己努力的方向是进一步提高整体技能,以便在更实际的应用场景中能够像跑分一样聪明。网友还表示,马斯克的 Grok 做了很多 NSFW(不是工作安全)来制作照片和视频; Kimi可以利用她的写作优势,让它完成一些NSFW写作,w这肯定会给 Kimi 带来很多用户。 Kimi只能笑着说这是个好建议。如果将来要支持 NSFW 内容,可能需要一些年龄验证方法,并且可能需要额外的模型对齐。显然,现阶段 Kimi 不可能支持 NSFW。关键技术揭晓:KDA、长推理、多模态。作为一家名为“开源先锋实验室”的公司,Reddit 本身也是一个非常庞大且活跃的技术社区,Kimi 在本次 AMA 中也分享了很多技术细节。 10月底,Kimi的论文《Kimi Linear: Anexpressive,efficient Attention Architecture》详细介绍了一种新的Kimi线性注意力架构,其核心是Kimi delta Attention(KDA)。用外行的话来说,注意力是人工智能在思考时决定应该关注上下文中的哪些单词的机制。与通常的完全注意力和线性注意力不同,KDA(Kimi delta注意力)是一种更智能、更智能的注意力机制。高效的注意力机制。在本次 AMA 活动上,Kimi 也多次提到 KDA 在长学习序列学习场景中表现出了性能提升,并且与 KDA 相关的想法很可能会应用到 K3 中。但 Kimi 也承认该技术也有其缺点。目前,混合注意力的主要目的是节省计算成本,而不是为了更好的推理。在长输入和长输出任务中,全注意力表现还是更好。那么,Kimi K2思维是如何实现超长推理链,思考并调用多达300种工具的呢?有网友认为比GPT-5 Pro更好? ▲ kimi 线性模型的结构 Kimi 认为这取决于训练方法,他们倾向于使用更多的思维令牌来获得最好的结果。此外,K2思维还原生支持INT4,进一步加快理解过程。我们还在之前的 Kimi K2 心态文章中分享了 INT4 容量训练技术。钍这是一项伟大的定量技术(INT4 QAT)。 Kimi在训练后并没有对其进行压缩,而是在训练过程中保持了低计算模型。它可以带来两大好处,一是提高推理速度,二是让推理链变长,不会因为训练后压缩和体积而导致逻辑崩溃。最后,对于外界所期待的视觉语言能力,Kimi明确:目前这个任务已经完成。之所以先发布纯文本模型,是因为视觉语言模型的数据获取和训练需要花费大量时间。团队资源有限,只能先选择一个方向。生态、成本、开放的未来Kimi团队也解答了开发者和普通用户关心的问题。为什么之前能够处理1M上下文的模型消失了? Kimi的回答简洁明了:“成本很高。”至于问题t在处理大型代码库时,256k 上下文仍然不够,该团队表示未来没有增加上下文长度的计划。关于API定价,一些开发者正在谈论为什么根据“调用次数”而不是代币来收费。对于程序中使用Claude Code等其他代理工具的用户来说,基于API请求数量的计费方式至少是可控的,至少是透明的。在发送提示之前,用户无法知道该工具将进行多少次 API 调用,或者该任务将花费多长时间。 ▲ Kimi ipKimi 的会员计划解释说,我们通过 API 调用来更清楚地告知用户费用是如何消耗的,同时也符合他们团队的成本规划,但他们也表示会看看是否有更好的计算方法。当有网友提到他们公司不允许使用其他聊天助手时,Kimi趁机表达了自己的主要观点osophy:我们拥抱开源,因为我们相信通用人工智能应该是一种带来团结而不是分裂的追求。对于这个真正的问题——AGI 何时到来? Kimi认为,AGI很难定义,但人们开始感受到AGI的氛围,更强大的模型即将到来。返回搜狐查看更多

成功案例

九州体育娱乐官方网站

QQ:88889999

电话:020-66889888

传真:020-66889777

邮箱:admin@admin.com

地址: 广东省广州市番禺经济开发区58号