近期,据TechCrunch披露,谷歌对其大型语言模型Gemini的回复评估流程做出了一项重要调整,这一变动引起了外界对其在敏感信息领域准确性的广泛关注。谷歌与外包合作伙伴GlobalLogic合作,后者负责雇佣合同工来评估Gemini生成的回复,评估的关键标准之一是“真实性”。
在此之前,若评估员发现某个问题超出了他们的专业知识范围,比如涉及心脏病学的复杂问题,而自身不具备相应的科学背景,他们可以选择跳过该评估任务,以避免对不熟悉领域的回复进行评判。这一机制原本旨在确保评估的准确性和专业性。
然而,GlobalLogic近期宣布,谷歌要求评估员不得再因缺乏专业知识而跳过任何评估任务。新的指导方针明确指出,即使面对高度专业化的技术性问题,如罕见疾病的描述,评估员也不应跳过,而是需要评估他们能够理解的提示部分,并注明自身在相关领域的知识不足。这一变化意味着,即便是医疗健康等高度专业性的领域,也可能由不具备相关背景知识的评估员进行评估。
这一调整引发了人们的担忧,因为缺乏专业知识的评估员在评估高度专业化的回复时,可能难以准确判断其准确性。一位合同工在内部通信中表达了困惑:“我之前以为跳过的目的是将任务交给更专业的人来提高准确性,但现在这样做似乎并非如此。”
根据新的规定,评估员只有在两种情况下可以跳过提示:一是当提示或回复“完全缺失信息”,二是当提示包含需要特殊同意书才能评估的有害内容。这一新规的实施,无疑增加了Gemini在高度专业性领域输出不准确信息的风险。
在医疗健康等关键领域,不准确的信息可能对用户造成误导,甚至带来严重后果。因此,这一调整引发了广泛关注和担忧。用户期望从Gemini获得准确可靠的信息,尤其是在涉及健康等重要问题时。然而,随着评估流程的变化,这一期望可能面临挑战。
这一调整也引发了关于人工智能伦理和责任的讨论。在高度专业化的领域,如何确保人工智能生成的回复准确无误,是一个复杂而重要的问题。谷歌作为行业领先者,其在这一问题上的决策将对整个行业产生深远影响。
截至目前,谷歌尚未对相关报道作出回应。然而,随着外界对Gemini准确性担忧的加剧,谷歌可能需要尽快采取措施来回应这些关切,以确保其大型语言模型在高度专业性领域的信息输出保持准确性和可靠性。