近期,据TechCrunch的深入报道,谷歌对其大型语言模型Gemini的回复评估流程做出了重大调整,这一变动引发了公众对Gemini在敏感信息领域准确性的广泛担忧。调整的核心在于,外包评估员被要求不再因个人专业知识的局限而跳过特定评估任务,这可能对Gemini在如医疗保健等专业性极高的领域中的信息输出质量产生负面影响。
一直以来,谷歌与外包公司GlobalLogic合作,后者负责雇佣合同工来评估Gemini生成的回复,评估的核心标准之一是“真实性”。以往,当评估员遇到自身专业范围之外的问题,比如复杂的医学问题而自身缺乏相关医学背景时,他们可以选择跳过该问题的评估,以确保评估的准确性和专业性。然而,这一惯例在最近发生了改变。
GlobalLogic近期宣布,谷歌要求评估员不得再以缺乏专业知识为由跳过任何评估任务。旧的指导原则允许评估员在缺乏关键专业知识时跳过任务,但新的指导原则则明确要求评估员必须评估他们能够理解的提示部分,并注明自身在专业领域上的不足。这一变化意味着,即使评估员对某个问题完全不熟悉,如罕见疾病的诊断,他们也必须进行某种程度的评估。
新的规定引发了诸多质疑,尤其是关于Gemini在某些高度专业领域信息准确性的担忧。一位合同工在内部通信中表达了困惑:“我原本以为跳过的目的是为了将任务交给更专业的人,从而提高准确性。”现在,评估员只能在提示或回复完全缺失信息,或包含需要特殊同意书才能评估的有害内容时,才能选择跳过。
这一新规的实施,对于那些专业性要求极高的领域,如医疗健康,影响尤为显著。缺乏相关背景知识的评估员将不得不评估这些领域的回复,这无疑增加了Gemini输出不准确信息的风险。公众担忧,这种不准确的信息可能会对用户造成误导,特别是在健康等关键问题上,错误的信息可能导致严重的后果。
截至目前,谷歌尚未对这一报道作出任何回应。随着Gemini在更多领域的应用,其信息准确性问题将成为公众关注的焦点,谷歌如何平衡评估流程的专业性和效率,将是决定Gemini未来发展的关键因素。