临近年关,很多用户都选择从网上定个票、买点年货回家过年,但互联网上的信息鱼龙混杂,一些虚假广告常年活跃在电商、搜索、社交媒体和论坛等用户每天都需要使用的网络平台上,以各种低价、方便等由头诱骗消费者上当。如何与这些虚假广告公司博弈、保障网民权益,也早已成为各大互联网公司的重中之重。
面对每天数以亿计的的网络推广信息,百度如何能够甄别出各种虚假信息并实时处理的?
近日,百度公布一组数据称,在刚刚过去的2015年,百度拒绝不良账户438300个,判罚的违规消费金额达到了4.67亿元;此外百度还给公安机关提报了不少造假售假线索。伴随着这组数字渐渐浮出水面的,还有一直隐藏幕后、每天都在与数亿信息打交道的百度广告信息大数据审查“黑科技”。
“黑科技” 与非法信息斗智斗勇
很多人难以想象的是,百度搜索每天要响应来自138个国家或地区的60亿次搜索请求,这意味着中国平均每个网民一天要使用百度搜索近8次。其中,有大部分广告信息被提交,百度则需要实时对这些广告信息进行客户资质审核、物料信息审核等全面核查。可以说,百度的大数据审查技术随时都在与非法广告客户斗智斗勇。
记者了解到,百度广告系统平均每天送审的文字广告为4.7亿条,相当于每秒钟就有5000条广告需要过审。面对如此巨大的审核量,人工远远不能满足,为此百度开发了一套“雷达系统”,用大数据来进行审查。目前,百度能做到机器自动审核率达到95%,同时机器还能将平均每天30万条的图片广告过审核处理一半以上。
除了对客户身份的核验,对客户所提供物料的审核也是重中之重,一些不法广告客户总是通过各种投机取巧的办法躲避审核,广告文案的文字“变体”即是最常见的一种,如将“微信”变体为“微|信”,“金蝶”变体为“金碟”,“优步”变体为“【U】步”……对此,百度直接通过建立匹配模型,利用变体系统对变体的组合形式智能化匹配,对部分变体形式进行主动防控。
除了“冲量”,越来越多广告主也在运用各种新兴技术来兴风作浪,为此百度的大数据审查技术体系也在不断升级。如一些不法广告主会在Flash广告中嵌入第三方外链或php脚本内容,控制作弊Flash物料根据IP、时间、设备等不同状态因素进行跳转。简单来说,在审核时看到的是钢材的广告,到了晚上或者坐仨小时火车,在相同的网页相同的地方就会看到低俗广告。
为此,百度成立了专项组,通过升级Flash物料的代码解析模块,让机器主动发现其中“不应出现”的外链或php脚本内容,整体上从低俗、虚假、欺诈、高危信息等多个维度进行层层把关。据悉,截至目前百度共封禁Flash账户超1.5万个,涉及Flash物料数超570万条,其中机器拒绝违规Flash物料通过共近60万条。
历史资料图:采用变体字形式偷发诈骗广告案例
重拳出击非法广告
百度商业生态事业部总经理崔聿泓表示:“接下来,百度将充分利用百度在技术和数据上的能力和优势,更加智能地对物料全方位的核查,提升物料审核的准确率和效率。”
值得注意的是,虽然通过大数据“黑科技”屏蔽绝大部分虚假广告信息,但人工干预审查也成为拦截有害信息的最终屏障,换句话说,当系统对于某条广告是否恶意难以判断时,将转至人工来判断。“人工审查这一步仍然必不可少,因为有害信息的传播源是人在操控,所以仍会有少量信息逃过机器审查,目前百度仍然在加大人工审查的力度。”百度相关负责人称。
据记者了解,百度大约有5%的物料审核还需要人工进行操作,为此百度拥有一个数千人的审核团队每天倒班工作。为了加大力度打击各种作弊行为,在原有的机器+人工审核基础上,近期百度新增了近60人的审查团队,互换3班24小时不间断审核,并且在原有的机器与人工审核两道流程之上,又增加了一次人工审查作为“第三层保险”,确保非法广告被及时下架。
数据显示,2014年到2015年期间,百度拒绝的广告量达5亿,其中医疗行业广告量约有5000万。
此前谷歌也宣布2015年全年共去除了7.8亿条违反其政策的广告,比2014年的5.24亿条增长了近50%,这说明国内外搜索巨头面临的境况一样严峻。