敏感词到底是首拼音好还是全拼音好?

1.一种敏感词检测方法,其特征在于,包括:

从预设的敏感词服务器中获取敏感词库;

构建所述敏感词库对应的谐音词库;

分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器;

若接收到待测文本,通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合;

去除所述待测文本中的非中文字符以得到去冗余文本,并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合;

通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合;

通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合;

将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。

2.根据权利要求1所述的敏感词检测方法,其特征在于,所述构建所述敏感词库对应的谐音词库,包括:

获取所述敏感词库的敏感词的拼音;

将所述敏感词库的敏感词的拼音作为谐音敏感词,并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。

3.根据权利要求1所述的敏感词检测方法,其特征在于,所述分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器,包括:

使用双数组tire树构建所述敏感词库对应的敏感词索引器;

使用双数组tire树构建所述谐音词库对应的谐音词索引器。

4.根据权利要求1所述的敏感词检测方法,其特征在于,所述通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合,包括:

将所述待测文本中的中文转换为拼音以得到待测谐音文本;

通过所述谐音词索引器对所述待测谐音文本进行过滤以得到第一谐音敏感词集合;

获取所述待测文本中与所述第一谐音敏感词集合中的谐音敏感词相对应的词以得到所述第三敏感词集合。

5.根据权利要求1所述的敏感词检测方法,其特征在于,所述通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合,包括:

将所述去冗余文本中的中文转换为拼音以得到去冗余谐音文本;

通过所述谐音词索引器对所述去冗余谐音文本进行过滤以得到第二谐音敏感词集合;

获取所述去冗余文本中与所述第二谐音敏感词集合中的谐音敏感词相对应的词以得到所述第四敏感词集合。

6.根据权利要求1所述的敏感词检测方法,其特征在于,所述从预设的敏感词服务器中获取敏感词库,包括:

若接收到所述敏感词服务器发送的敏感词库更新提醒消息,从所述敏感词库更新提醒消息中获取更新后的敏感词库的下载地址,所述敏感词库更新提醒消息包含所述下载地址;

从所述下载地址下载更新后的敏感词库。

7.一种敏感词检测装置,其特征在于,包括:

第一获取单元,用于从预设的敏感词服务器中获取敏感词库;

第一构建单元,用于构建所述敏感词库对应的谐音词库;

第二构建单元,用于分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器;

第一过滤单元,用于若接收到待测文本,通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合;

第二过滤单元,用于去除所述待测文本中的非中文字符以得到去冗余文本,并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合;

第三过滤单元,用于通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合;

第四过滤单元,用于通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合;

合并单元,用于将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。

8.根据权利要求7所述的敏感词检测装置,其特征在于,所述第一构建单元包括:

第二获取单元,用于获取所述敏感词库的敏感词的拼音;

储存单元,用于将所述敏感词库的敏感词的拼音作为谐音敏感词,并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。

9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-6中任一项所述的方法。

开抖音直播注意什么敏感词?抖音敏感词用拼音代替可以吗?

比方:下面我教给我们直播间闪进闪出的问题,飘过直播间的朋友想听的扣5个8。

当观众看到直播间有这样一个问题,招引了他们持续看下去的欲望,于是就留在了直播间。

这其实便是直播间“黄金3秒规律”,便是在3秒的时间内,抛出一个招引人的论题,留住观众。

直播间布景的色彩调配很重要,不要使用太压抑的暗色彩。

1、不要在枯燥的求跟粉丝打招呼

欢迎xx进入直播间、喜爱的关注我!

换种方法:呀~!这谁呀!你怎么也来看我了!此类的话术故意装熟人搞活动气氛。

2、放下你的包袱偶像、没人愿意看面无表情的你笑,开怀大笑,由于笑是会被感染的。

3、开播前清先准备好当日的直播主题,环绕主题曲叙述!防止没话找话。

4、制定好直播时间!不要随意修改直播时间更改,在固定的直播时间去直播会让你的粉丝也养成习惯。

一种汉字拼音化的实现方法,吴胜远,,汉字信息处理远远落后于字母式文字,汉字拼音化的初衷就是提高汉字处理水平。什么是汉字拼音化?能否实现?如何实现?颇有争议。

我要回帖

更多关于 如何判断一个字是前鼻音还是后鼻音 的文章

 

随机推荐