近日,Facebook首席执行官扎克伯格接受美国国会听证,引发全球关注,会议现场,扎克伯格表示,Facebook希望通过AI来改善内容审核,但想要依靠AI审核内容可能还需要5-10年。技术带来了内容生产的去中心化,但面对海量内容,如何恰当地过滤有害信息,营造相对安全、清明的网络环境?月活用户超过20亿的Facebook正面临着严峻的挑战。
内容审核的问题同样困扰着国内互联网公司们。火山小视频上的未成年妈妈被推成网红、B站的科里斯事件暴露的儿童色情问题等等,都提醒国内互联网平台,合理合法的内容管理越来越必要——今日头条、快手等平台近日的困顿,正是源自其对低俗、色情等不健康内容管理的失控。
加大审核力度是任何一个内容平台发展的必须,但雇佣庞大的审核员工却无疑浪费了技术的潜力。在不健康内容的管理上,百度云的色情识别技术算得上前辈高手,百度大脑和海量数据,训练出的模型网络层次深、准确率高,而且响应速度很快(毫秒级)。
作为全球最大的中文搜索引擎、重要的信息入口,百度在内容管理上的责任和压力是巨大的。据《2017年度信息安全综合治理报告》显示,2017全年百度处置有害信息高达451.2亿条。支撑庞大的数字背后。百度将大数据、人工智能等核心技术展开多维度的赋能:利用多项AI技术,如自然语言处理、深度学习技术、图像识别技术等搭建内容风控一体化服务解决方案,实现对上传的图像、文本、视频等内容的有效审核,进行全面内容把控,防止多形式的垃圾信息传播扩散。
图像识别是百度最具代表性也最易理解的智能审核技术之一,融合了深度学习和图像识别的综合性技术,可以快速精准识别图片和视频中的涉黄、涉暴涉恐、政治敏感、微商广告及令用户不适的内容和事件场景等,已经广泛应用于百度网盘、百度贴吧等百度各类内容产品中,通过精准识别审核, 大大降低了错审和漏审风险, 让违法违禁内容无处可逃。
除了图像视频外,用户评论、聊天内容、网络文字、注册信息等文本内容也是安全问题的重灾区,百度文本审核则重点解决这一问题。百度文本审核技术运用业界领先的深度学习技术,经过大规模样本训练,可以一站式准确检测识别文本中夹杂的色情内容、恶意推广URL、低俗辱骂、政治敏感、暴恐违禁违法等垃圾内容,从而自动化、智能化判断一段文本内容是否规范,极大减少人工审核工作量,降低内容风险。
当然,现阶段的“智能”审核也依然需要“人工”的辅助。据了解,百度每天的推广内容审核数量高达4.7亿条,利用机器系统实现95%以上的信息的审核,并且百度建立了超千人的审查团队,明确分工,专人专项,形成了“AI技术防护+严苛人工审核”的模式,严格把控内容审核质量。
据百度发布的《2017年度信息安全综合治理报告》显示,全年百度共拦截恶意网页202.9亿个,处置有害信息451.2亿条。《报告》数据看,淫秽色情的打击清理占比67.36%,此外制假贩假类、赌博类也分别占9%与7%左右的比例。全方位打击不良信息,体现了百度对网络有害信息的“零容忍”。
好的行业生态离不开对标准和价值的坚守,如何让AI技术在内容审核上更好的发挥作用,给用户一个更加安全、健康的网络环境,是每一个互联网人应该思考的问题。显然,技术的潜力还远未充分发挥。