【ITBEAR科技资讯】11月10日消息,OpenAI今日发布声明,宣布与多个组织达成合作协议,共同构建用于AI模型训练的公共和私有数据集。此次数据合作旨在推动AI技术未来的发展,使更多组织能够从更为实用的模型中获益。
据悉,OpenAI表示:“为了确保AI的安全性,并使其更好地造福全人类,我们希望AI模型能够对各种主题、行业、文化和语言进行深入理解,这就需要具备尽可能广泛的训练数据。”
作为数据合作伙伴计划的一部分,OpenAI计划收集涵盖“反映人类社会”的大规模数据集,这些数据通常在线上难以获取。尽管OpenAI的工作涉及多种模式,包括图像、音频和视频,但公司特别强调寻求多语言、多主题、多格式的数据,以更好地“表达人类的意图”,例如长篇写作或对话。
据ITBEAR科技资讯了解,OpenAI计划通过光学字符识别和自动语音识别等工具对数据进行数字化。同时,为了保护隐私,OpenAI将在必要时删除敏感或个人信息,并与合作组织共同努力。
OpenAI的目标是创建两类数据集:一种是公开的、开源的,可供任何人在AI模型训练中使用;另一种是私有的,专为训练特定领域AI模型而设计。对于希望保持数据私密性但仍希望OpenAI模型更好地理解其领域的组织来说,私有数据集尤为适用。迄今为止,OpenAI已与冰岛政府和Miðeind ehf等机构展开合作,提升GPT-4在冰岛语方面的应用能力,并与自由法律项目合作,提高模型对法律文件的理解水平。