帮“灵犬”嗅出更多的低俗

辽宁日报 2019年08月06日

高 爽

日前,今日头条宣布正式推出一款检测内容健康度的辅助小工具,名为“灵犬反低俗助手3.0”,可以识别图片和文本是否含有低俗低质内容。这已经是一年多的时间里,“灵犬”完成的第二次迭代。

低俗低质内容的大行其道,是网络信息平台面临的一个全球性的难题。资料显示,无论是国外的Facebook、Google,还是国内的微信、今日头条,都在寻求技术性的解决方案。新闻中介绍,新版“灵犬”同时应用了“Bert”和半监督技术进行文本识别。我很认真地在网上搜索了“Bert”,据说这是当前最先进的自然语言处理技术,在常见的阅读理解、语义蕴含、问答、相关性等各项任务上,大幅提高了性能。

看得一知半解,于是就好奇地应用了一下,把自己写过的稿子一一输进去检测。我当然知道我这些内容一定是健康的,但测试给出的“健康度”会有从100分到70分的差异,还是让我觉得有趣,不知道这只“灵犬”从中嗅到了哪些不够健康的东西?又把手机里的图片放进去测试了一下,超过一半的图片显示“该样本必须交由人工审核”,正如相关评论中所说,图片识别比文本识别的难度更大。

粗看上去,目前这只灵犬还挺“笨拙”,只要内容制造者稍微“狡猾”一些,就有可能逃过它的“看守”。但我不会以一个文科生的“无知”去否定研发者的努力,反倒很佩服他们迎难而上的勇气。我们经常会用到“低俗”一词,基本上都用在对一些个案的评判上,往往都是出于使用者个人的感受,如果细究起来,恐怕很难给出精准的定义。至于“低质”,每个人的标准更会不同。这些“运乎于心”的感受真是难为了恰恰需要精确标准的技术,正如开发者本人所说,“这项工作即使对人来说也不容易,交给机器做更难实现”。

但利用人工智能反低俗低质又是一件必须要做的事,且不说未经筛选的不良内容会对青少年造成多大的危害,即使是我们这些有识别能力的成年人,如果要靠我们的“肉身”去直接面对不健康食品,也会让我们的身体里积累起更多的毒素。所以,我们必须也只能寄希望于人工智能的不断进化。

新闻中没有提及这个持续了数年之久的反低俗系统的研发有无语言学家和文化学者的参与,想必是有的,他们应该能在定义“低俗”这件事上起到重要作用。学者徐贲说,“低俗”主要是指一种与言语表达有关的公共行为,这里的两个关键词是“言语”和“公共”,任何公共行为的基本伦理准则是不对他人造成伤害,法律禁止和道德谴责都是以这个为理由的。学校教学生不要粗俗,是和教他们不要使用对他人有歧视、伤害的“仇恨言语”一起进行的,是公共伦理教育的一部分;社会上对“低俗言语”(性语言、污言秽语)的限制,同样也是以“不伤害”(尤其以不伤害儿童和未成年人)为理由的。从这样的原则出发,专家应该会比普通受众都有能力总结出比“脏话”更宽泛、也更易捕捉的“低俗关键词”、低俗的语句、观点和表达方式。

与此同时,作为信息阅读者,我们每一个人也可以更好地帮助人工智能实现深度学习。如果我们希望它真正成为对人类有益的“灵犬”,我们在手机上的每一次点赞和反对、举报,都是一次大数据的积累,都是在帮助它提升嗅觉。