谷歌近日震撼发布Emma 3系列模型,这一创新成果在其官方博客上引起了广泛关注。Emma 3被誉为迄今为止最尖端、最便携且开发过程最具责任感的开放式模型,甚至被冠以“世界顶尖单GPU模型”的美誉。
Emma 3采用了与Gemini 2.0相同的前沿技术和研究方法,支持超过35种语言,并具备强大的文本、图像及短视频分析能力。其独特之处在于能够直接在智能手机、个人电脑及工作站上迅速运行,提供了1B、4B、12B和27B四种参数规模,开发者可以根据具体硬件和性能需求灵活选择。
在权威AI排行榜LMArena的初步人类偏好评估中,Emma 3表现出色,超越了Llama-405B、DeepSeek-V3和o3-mini等竞争对手。谷歌还推出了基于Emma 3的图像安全分类器ShieldEmma 2,该工具能有效过滤图像输入和输出,识别并归类色情、危险或暴力内容。
Emma 3系列模型不仅支持超过35种语言的开箱即用,还为140多种语言提供了预训练支持。它助力开发者创建具备高级文本和视觉推理功能的AI应用,如分析图像、文本和短视频的程序。Emma 3还支持函数调用和结构化输出,使开发者能够自动化执行任务并构建智能代理。
谷歌还推出了基于Emma 3构建的4B参数图像安全检查器ShieldEmma 2,它能够输出危险内容、露骨色情和暴力三个类别的安全标签。开发者可以根据安全需求和用户偏好进一步定制ShieldEmma。
在训练方式上,Emma 3沿用了与Emma 2相似的知识提炼预训练方法。研究人员在更大的token预算上对模型进行了预训练,同时增加了多语言数据量以提高语言覆盖率,并添加了短语和并行数据等。Emma 3使用了与Gemini 2.0相同的SentencePiece Tokenizer,生成的词汇表更加平衡,适用于非英语语言。
为了降低不必要或不安全的言论风险,Emma 3采用了过滤技术,并删除了某些个人信息和其他敏感数据。同时,它还会从预训练数据混合物中净化评估集,通过最小化敏感输出的传播来降低风险。
开发者现在可以将Emma 3和ShieldEmma 2无缝集成到现有工作流程中,享受Google AI Studio、Kaggle或Hugging Face等平台提供的便捷访问。Emma 3的开发工具涵盖了Hugging Face Transformers、Ollama、JAX、Keras、PyTorch等多个框架,以及Google AI Edge、UnSloth、vLLM和Gemma.cpp等专用工具。
在自定义方面,Emma 3附带了一个改进的代码库,包含高效微调和推理的配方。开发者可以通过Google Colab、Vertex AI甚至游戏GPU进行模型的训练和微调。Emma 3提供了多种部署选项,包括Vertex AI、Cloud Run、Google GenAI API及本地环境等。
英伟达对Emma 3模型进行了优化,确保开发者在从Jetson Nano到最新Blackwell芯片的各种硬件上都能获得卓越性能。Emma 3现已纳入英伟达API目录,开发者只需简单调用API即可快速原型设计。
谷歌还宣布推出Emma 3学术计划,旨在进一步推动学术研究突破。学术研究人员可以申请价值10000美元的Google Cloud积分,以加速基于Emma 3的研究项目。申请表现已开放,并将持续四周接受申请。