文章目录
1.内容安全的危害和需求
2.内容安全技术分类
2.1被动内容安全技术
不预先处理被监管的内容,它通过分析获得的内容本身判断内容的性质,并实施相应的控制策略
2.2主动内容安全技术
对被监管的内容先进行预处理,在内容中添加验证信息,在以后的监管中,它通过分析所获得内容中添加的验证信息来判断内容的性质,并实施相应的控制。
3.多媒体内容安全技术
通过监管多媒体内容的散布情况来制约不良或盗版内容的传播。
3.1被动多媒体内容安全技术
通过检测或搜索未经过相应安全预处理的网络多媒体内容,确定不良、盗版内容的传播和散布情况,或者识别伪造的内容,并执行可能的处置。
3.2主动多媒体内容安全技术
- 分级标签和数字水印
- 如美国电影分级制度
4.文本过滤
从截获或搜索到的数据中发现特定的文本内容或对文本进行分类,执行相应的安全策略,是被动内容安全技术中的一种。
4.1分词
- 英文分词:空格
- 中文分词:词意
- 常用分词方法:
- 整词二分法
- Trie索引树法
- 逐字二分法
- Python中的jieba库
- jieba库是通过中文词库的方式来识别分词的
4.2特征提取
从示例文本中计算出能够表征文本特性的量。
4.3内容分类
过滤系统检查流经的文本,根据特征数据库判断文本属于哪一类文本的操作。
5.话题识别与追踪(TDT)
- 话题识别与追踪(Topic Detection and Tracking)技术主要以网络新闻、广播和电视信息流作为处理对象,将内容按照话题区分,监控对新话题的报道,并将涉及某个话题的报道组织起来,以某种更需要的方式呈现给用户。
- 话题:包括一个核心时间或活动及所有与之直接相关的事件和活动。
- 聚类和分类技术
6.话题识别与追踪(TDT)分支
7.思考题
1.内容安全的危害和需求有哪些?
2.内容安全技术分为哪几种?分别是什么概念?
3.什么是多媒体内容安全技术?
4.什么是文本过滤?
5.什么是内容安全分级监管?