怎么样给电脑桌面添加字句(今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理)

今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

2018年3月至今，今日头条推出的灵犬反低俗助手已经经过了三次迭代。昨天，“灵犬3.0”正式发布，同时支持图片和文本识别。在同期举办的“算法如何反低俗”沟通会上，字节跳动人工智能实验室总监王长虎分享了“灵犬”背后的反低俗技术原理。新版“灵犬”在文本识别方面，同时应用了“Bert”和半监督技术，训练数据集包含920万个样本，准确率提升至91%。而在图片识别方面，采用深度学习作为解决方案，在数据、模型、计算力等方面均做了针对性优化。王长虎表示，技术反低俗是海量信息时代的必然解决方案，但反低俗是一个复杂困难的问题，现阶段还需要不断优化迭代技术，同时结合技术与人工进行判断。以下为演讲全文。

大家好。我是王长虎。感谢各位今天来到这里，一起探讨算法反低俗这个话题。

我是技术出身，主要研究方向包括计算机视觉、视频理解、多媒体创作和机器学习等领域。我们把这些技术广泛应用到字节跳动全线产品中，包括今日头条、抖音、西瓜视频、火山小视频等等，帮助公司内容安全、视频理解和推荐、多媒体创作和视觉平台等建设。

刚才同事已经简单介绍了灵犬这款产品，我就顺着这个话题说下去，主要谈一谈灵犬背后的反低俗技术。

一、为什么需要技术反低俗？

当前移动互联网时代，UGC和自媒体的涌现，使内容创作和消费，实现了几何指数级的海量增长。仅以今日头条平台为例，每天发布的内容就超过60万条。

相比于人，机器的优势：一是计算快，一秒钟能执行百亿次计算；二是存储大，轻松存储千亿以上汉字；三是稳定，不会因心情、状态等影响处理结果。

传统意义上，机器的运作，围绕人的指令来进行。机器将信息转化成二进制的0和1存储下来，以此为基础，表达文字、图片。人编写程序，即一组指令，机器按照顺序执行，对既定的一段存储做操作，最终输出结果。

在这种状态下，机器扮演的角色是执行。它始终需要人给它写程序、下指令做具体的事。通过一个复杂公式的计算，机器可以完成播放一段音乐或视频的操作，但是具体怎么执行这个过程，一定需要人来指定。

但过去十年里，技术领域出现了最大的技术进步：机器学习。这样一来，人不需要写出具体的指令序列，也能让机器做很多的事情。

机器学习，顾名思义，机器能够通过自我学习，从而实现自我进化。机器的边界变得更大了，能做的事情更多了。在机器学习的状态下，人只需要提供充分、具体的样本，机器经过训练就能总结出一套判断准则。

灵犬也是机器学习反低俗的产物。

二、文本识别的技术原理

最新版本的灵犬，同时支持文本识别和图片识别。我们先说文本识别。

一般情况下，机器如何判断文本低俗呢？

今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

一个简易的方案是分词，做词表。具体包括几个步骤：

1.对文本进行分词，把词变成最小颗粒度的序列；

2.由专业人员准备一个低俗词表；

3.去看给定文本分词的结果，是否包含在低俗词表中；

4.若是包含在低俗词表中，则机器判断为低俗。

显而易见，这个方案会带来一些问题：

1.机器在这里只看表象，不作理解；

2.词表的容量终究是有限的，容易被绕过，准确率低；

3.词表的更新频率必须很高，每隔一段时间就要更新一次。

为此，灵犬采取的解决方案，是自然语言处理技术。什么是自然语言呢？人类使用的语言，如汉语、英语，都被视为自然语言。这是为了区别于编程语言等“人造语言”。

在自然语言处理技术，模型是至关重要的。一个模型是不是好用，主要看两方面：1.用到的技术，是不是最合适的？2.训练的数据集，多不多？

灵犬背后的文本分类模型，已经经过了三次大的版本迭代。每个版本相对于旧版本，在技术和数据集层面，都有一个明显的跃升。

今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

第一代灵犬，应用的是“词向量”和“CNN”技术。词向量的优势是让词蕴含语义信息，突破了词表模型不具备语义信息的缺陷；CNN是“卷积神经网络”的缩写，这种分类结构速度快、拟合效果好。这一代训练数据集，包含350万数据样本，其中正样本200万，负样本150万，对随机样本的预测准确率达到79%。

第二代灵犬，应用的是“LSTM”和“Attention”技术。LSTM是“长短期记忆”的缩写，这种神经网络对序列建模效果更好，对长文的识别效果更好。“Attention”是注意力机制，能结合词和词之间的信息，给出更全局的判断。这一代训练数据集，包括840万数据样本，其中正样本量为240万，负样本600万，文本识别准确率提升至85%。

第三代灵犬，应用到的是“Bert”和半监督技术。“Bert”是当前最先进的自然语言处理技术，是这个领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴含、问答、相关性等各项任务上，大幅提高了性能。

“Bert”提出了一种新的更大规模的结构，参数量是之前模型的10倍多，计算量也提高了10倍多，对语义的刻画更为准确。半监督技术，能引入更多非标注语料，使得模型的鲁棒性（即稳健性）更好。

这里解释下，“监督”和“半监督”的含义。监督技术是利用标注数据，来调整模型的参数；半监督技术是同时使用标记数据和未标记数据，使模型对样本的学习更加充分。半监督状态时，会要求尽量少的人工参与，同时，又能够带来比较高的准确性。半监督技术的好处是，我们可以用更大规模的语料库来训练我们的模型。

新版灵犬同时应用了“Bert”和半监督技术，并且在此基础上使用了专门的中文语料，不牺牲效果的情况调整了模型结构，使得计算效率能达到实用水平。这一代训练数据集总量是1.2个T，相当于20倍百度百科或者100倍维基百科的数据总量，包含920万个样本，文本识别准确率提升至91%。

今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

三、图片识别的技术原理

图片识别，一般面临以下技术难点：

非均衡问题：低俗图片占整体图片内容的比例低，可能100万张图片里面才有1、2张问题图片。我们要大海捞针地把问题图片找到，同时要避免误伤那些正常的图片。类内方差大：低俗图片的种类非常多，有几十种、甚至上百种，我们都要一一解决。不可穷举：两段低俗文字，可能在字词上有重合；但两张低俗图片，构成特征千差万别，给我们带来更大的挑战。今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

我们提过，对于文本识别，最简单的方案是分词，做词表。如果词语命中了低俗词表，机器就判定为低俗。对于图片，当然也可以这么做，做一个巨大的图片库，如果命中了图库，就判定为低俗。

但图片跟文本不太一样的是：文章由段落构成，段落由句子构成，句子由字词构成；两段低俗的话，可能运用了某个相同的词，而字、词作为段落的最小单位，是可以被分割出来，并一一加以识别的。但两张低俗的图片，构成的特征千差万别，与文本不一样的是，图像识别的特征提取，无论是初级特征的形状、颜色、纹理，还是高级特征里的语义，其数量是无限的，不可穷举。

今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

这张图描述了全球每年新增的图片数，2013年是0.6万亿张，2017年已经是1.4万亿，短短4年翻了一倍。我们也可以看到，图片分享软件Instagram的全球月活跃用户是10亿，这些用户热衷于分享图片。还有数据显示，每天有10亿张图片上传到微信朋友圈。

随着智能移动设备的普及，图片分享的总量越来越多。这些照片上传后，分析和管理的需求随之而来。

面对如此庞大的数据，穷举法，对于图片反低俗来说，是不太可行的。

怎么办呢？

灵犬运用的解决方案，是深度学习。深度学习有三个要素：一是数据量，二是算力，三是模型。

数据是深度学习最核心的要素。深度学习对于数据的拟合能力非常强，数据量越多，往往效果会越好。

其次是GPU算力。GPU是专门用来跑深度学习模型的高密度设备，算力越强，效率越高。

怎么样给电脑桌面添加字句(今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理)

最后是深度学习模型。模型的匹配度，决定了准确率。深度学习模型目前在很多行业里面有了落地，在一些特定任务上，人脸识别、围棋等等，机器识别能力已经超过了人类。在2016年ImageNet图片分类竞赛上，机器图像识别的错误率已经降低到2.9%，优于人类表现（5.1%）。

具体到灵犬，我们做了以下几方面的优化：

①数据层面：累积了上千万级别的训练数据。

②模型层面：针对许多困难样本做了模型结构调优，包括：

多尺寸问题（图片长宽比不一样，有横屏、竖屏、正方形等等）：为应对用户上传的不同比例的图片，我们专门设计了多桶模型，使得各种比例的图片都能有很好的识别效果。例如，我们将图片分为方形、竖屏和横屏，在预测时，预测服务会根据传入的图片比例寻找比例最接近的桶，进而过对应的模型。由于不同比例的桶对应的模型参数是共享的，所以预测时间和单模型基本接近，因此能在不增加预测时间的情况下，提升模型的准确率。今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

多尺度问题（在不同的空间场景，人像的占比不一样，有大有小）：在以人为主的场景中，为应对人在图片中的面积占比变化较大的问题，我们引入了特征金字塔结构，对不同尺度的物体，它能提高模型提取一致性特征的能力。常规的网络结构对图片进行多次卷积，得到图片的特征图，再接上全连接层进而得到图片的分类。这种方法有一个缺点，如果测试集中人在图片中的占比和训练集差距较大，就会导致效果下降。在网络中引入特征金字塔结构，将底层特征和上层特征融合，并在每层给出预测结果，可以同时利用底层特征的高分辨率和高层特征的高语义信息。今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

小目标问题（整张图片都是低俗很好识别，但有些图片只是局部低俗或者细微低俗）：为应对在图片背景中出现小范围的问题区域的案例，我们设计了分割辅助分类网络，使得模型能更专注于问题区域。该网络结合了上面提到的特征金字塔结构，训练分为两部分，分割部分每层的预测结果都会与标注区域计算损失，分类部分会将预测出的区域与特征图进行叠加，再进入分类器和分类标签计算损失；预测时，特征金字塔结构会输出预测区域，将该区域与特征图叠加，再送入分类器即可得到分类结果。今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

③计算力层面：利用分布式训练算法以及GPU训练集群，加速模型的训练和调试。利用模型压缩技术，提升模型的预测速度。

此外，灵犬还建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程，持续在优化。

今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

四、为什么还需要人工判断？

体验过“灵犬”的朋友们会发现，对于部分图片和文本，“灵犬”会给出一个结论：“拿不准”，即需要引入人工判断。

为什么需要人工判断呢？一方面没有算法是完美的，灵犬也还在不断地提升和迭代。另一方面，反低俗这个问题，其实是比较复杂，比较困难的。

我们举一些具体的例子。至少在以下两方面，现阶段还有赖于人工判断。

一方面是技术暂时难以制定标准的案例。

从文字的角度，一句话表达的意思，往往涉及词的含义，词搭配的含义，以及能推理出可能蕴含的语义，最终需要做一个综合的判断。如果没有深层次的理解能力和联想能力，就很难知道字面之下作者真正表达的意思是什么。

孔子修订《春秋》，字句中暗含褒贬，而不直言。在行文中，《春秋》不直接阐述对人物、事件的看法，而选择透过细节描写，修辞手法和材料的筛选，委婉而微妙地表达作者的看法。

比如著名的“郑伯克段于鄢”。“郑伯”是郑庄公，“段”是郑庄公的亲弟弟。孔子只用了一个“克”字，就给这段历史定了性。按照当时的汉语规则，“克”这个字，只能用在敌人身上，这个动词的宾语只能是敌人。但孔子用了“克”这个字，是在讽刺郑庄公像对待敌人那样对待亲兄弟。

一个字里面，包含了这么复杂的意思。后人把这个叫“春秋笔法”。也正是因为《春秋》言辞过于隐晦，表述过于简约，理解起来很困难，让后人学习起来不方便，所以很多学者为它作注解。其中包括著名的《左传》，也就是PPT上的这本书。他把孔子这六个字发展成了一篇五百多字的散文。

要真正完全理解那些隐藏在字里行间而非字句本身的意思，对于机器而言，当前还是比较困难的。

机器只是把文字当成符号，从表面去理解它。就像盖房子的砖块一样，机器只能把这些砖块罗列和堆积起来，不完全知道某些砖块可能比另一些砖块更为重要，有些砖块需要转换一下角度来看，或者跟别的砖块搭配在一起看才合理。

从图片的角度，技术同样存在“一刀切”的局限。例如色情内容，机器通过识别肌肤裸露面积来判定是否违规，而这个会让一些具有历史意义和艺术性的照片受到波及。

Facebook曾经因为“裸露”，误伤了一张著名的越战新闻照片，照片里一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑。今日头条也有过类似的情况。很早的时候，头条平台下架了一张关于吴哥窟塑像的图片，塑像虽然“露点”，但其实是名胜古迹。这是一个失误，因为我们一贯执行比较严格的审核标准，造成了机器的“误伤”。但后来我们通过人工方式，对这个做了改进和修正。

再比如芭蕾舞蹈。一些拍摄芭蕾舞的图片，以机器的视角来看，它很类似于裙底偷拍。

今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

再比如艺术名画。这是法国著名画家马奈的名画《草地上的午餐》。这幅画所描绘的内容，是一个裸体女子和两个着正装的男士共进午餐。

在今天的人们眼里看来，这是印象派绘画史上一幅非常重要的作品。但如果完全交给机器来判断，机器通过识别画中人物的皮肤裸露面积，就会认为这幅画是色情低俗的。

另一方面，技术还很难搞定的是，标准因为使用场景、人群、时间而导致变动的案例。

低俗的标准并非一成不变的，而是随着社会和文化的不断发展而流变。在八十年代早期，邓丽君的歌曲曾被认为是“靡靡之音”。1982年，人民音乐出版社出版了《怎样鉴别黄色歌曲》，里面就批判了邓丽君歌曲。但时至今日，邓丽君演唱的歌曲，已经成为了华语经典歌曲的一部分。

再比如内衣和热舞内容。在淘宝店里看到内衣样式和相关的卖家秀，买家并不会觉得被冒犯，而是约定俗成地把这个当成是消费服务的一部分。但如果是在新闻资讯平台上，频繁出现内衣和内衣模特相关的内容，大家可能就会认为这个平台有低俗问题。

正常的热舞内容，提供给成年人看，相信大家不会觉得有问题；但如果开启了青少年模式，这些内容就不适合出现。

所以，技术反低俗，其实是一个很复杂很难的问题，我们的解决方案：第一，不断探索、不断改进我们的模型，让它预测的更准。第二，结合技术与人工进行判断。

五、今日头条反低俗，不止于灵犬

我还想跟大家说明的是，灵犬只是今日头条技术反低俗的一个展示窗口，受限于小程序体裁和模型应用条件，它还不够完美，也不能完全反映出今日头条反低俗系统的真实情况和全部面貌。

它更像是今日头条反低俗系统的一个简化版本。如果说，灵犬是一只“犬”，那么，头条的反低俗系统更像是一支“工作犬”部队。今日头条的反低俗系统，远不止于灵犬。

在内容审核方面，2012年以来，今日头条目前投入了近万人的专业审核团队，并搭建反色情、反低俗、反标题党、反虚假信息、反低质模型数百个，结合人工、技术手段，有效提升了内容安全的效率和准确度。

在反低俗系统这一块，我们是国内建设得比较早的，数据样本积累量也比较大，而且每天都在迭代，可能是全球最实用的反低俗系统。

今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理

这张图展示了今日头条的内容安全机制。作为行业领先者，在内容安全上，今日头条一直用最高的标准要求自己。

内容安全主要包括两块：一块是UGC用户内容，如问答、用户评论、微头条，一块是具有成熟内容生产能力的PGC内容，以媒体报道为主。如果是数量相对少的PGC内容，会直接进行风险审核，没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤，有问题的会进入二次风险审核。审核通过后，内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈，还会再回到复审环节，有问题直接下架。

放眼全球，打击低俗低质内容，是所有信息平台都在面临的难题，不管是国外的Facebook、Google，还是国内的微信、今日头条，都在想办法更好地解决。

今日头条的理念是“信息创造价值”，我们也相信，要用技术来做有价值的事情，技术和人一起，让信息创造出更大、更丰富的价值。

客服电话

台式电脑

怎么样给电脑桌面添加字句(今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理)

台式电脑

怎么样给电脑桌面添加字句(今日头条如何反低俗？首次揭秘“灵犬”背后的技术原理)

相关新闻