ITBear旗下自媒体矩阵:

元始智能RWKV突破Transformer,获数千万天使轮融资引领AI新架构革命

   时间:2025-01-03 14:18:20 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近期,一家专注于大模型架构创新的企业——元始智能(RWKV),成功完成了数千万人民币的天使轮融资。本轮融资由天际资本独家领投,融资后公司估值实现了翻倍增长。这笔资金将主要用于团队规模的扩大、新架构的研发迭代以及产品的商业化推广。

自2022年11月OpenAI推出ChatGPT以来,生成式AI技术迅速席卷全球,而Transformer架构及其背后的Scaling Law成为了这场技术革命的核心。通过大幅提升AI模型的参数规模,从亿级跃升至千亿、万亿级别,大语言模型(LLM)在学习了庞大的数据后,展现出了前所未有的智能。

然而,大模型并非无所不能。幻觉问题和准确率的局限性,成为了其难以克服的障碍。随着2024年大模型迭代速度的放缓,无论是学术界还是工业界,都开始对Transformer架构及其背后的Scaling Law进行深入探讨。

正是在这样的背景下,元始智能(RWKV)应运而生,致力于探索超越Transformer架构的新路径。联合创始人罗璇表示:“我们不仅仅是一家大模型公司,更是一家具备持续创新AI模型底层架构能力的‘黑科技’企业。”

RWKV的创始人彭博,一位毕业于香港大学物理系的量化交易专家,自2020年起便独立开发RWKV这一创新架构。从2022年底发布首个模型,到如今商业公司的正式成立,RWKV团队已从最初的3人壮大至近20人。

与依赖巨额算力和数据的Transformer架构不同,RWKV选择了一条更为高效和灵活的技术路线。罗璇解释道:“Transformer架构在处理对话时,需要重复读取前文并记录每个Token的状态,这导致其信息处理效率低下且算力需求巨大。而RWKV则无需记录每个Token的状态,大大减少了计算量,实现了高效推理。”

RWKV的技术突破在于,它将Transformer的高效并行训练与RNN的高效推理能力相结合。虽然RNN并非新技术,且过去被认为能力弱于Transformer,但RWKV证明了改进后的RNN不仅效率更高,而且同样具备强大的语言建模能力。

然而,RWKV也面临一个挑战:作为状态空间大小固定的RNN,它无法将无限长度的前文全部压缩进状态空间。这意味着RWKV会逐渐遗忘一些细节。但彭博认为,这并非缺陷。通过引入强化学习方法,RWKV可以自动判断在必要时重新阅读前文,这比Transformer的“强行记忆”更为高效。

RWKV的特性使其在写作、音乐生成等创意性场景中更具优势。罗璇表示:“RWKV的架构更接近人脑的记忆演绎机制,能够产生更具创新性的内容。”目前,RWKV已经完成了从0.1B到14B的模型训练,并发布了32B的预览模型。其最新版本的RWKV-7模型,在同等参数规模下全面超越了Transformer架构的性能。

RWKV-7不仅在模型学习效率上更快提升准确度,而且在核心benchmark测试中表现更优。其记忆力也显著增强。例如,0.1B的RWKV-7在4k上下文窗口下训练,就能自动解决16k的复杂问题。

除了技术上的突破,元始智能还在商业化方面取得了进展。其公司业务分为两大部分:一是将模型开源并持续保持全开源和免费;二是在商业实体方面,推出了AI音乐生成应用,并面向B端市场提供模型授权服务。目前,已有包括腾讯、阿里在内的多家高校和公司使用了RWKV。

在To B领域,元始智能选择了智能和新能源两大领域作为切入点,已与国家电网、有鹿机器人等企业达成合作。未来,元始智能计划推出更大参数的RWKV-7模型及终端部署方案,并探索结合新型推理框架和芯片的大规模模型应用。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version