1.一种敏感词检测方法,其特征在于,包括:
从预设的敏感词服务器中获取敏感词库;
构建所述敏感词库对应的谐音词库;
分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器;
若接收到待测文本,通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合;
去除所述待测文本中的非中文字符以得到去冗余文本,并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合;
通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合;
通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合;
将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。
2.根据权利要求1所述的敏感词检测方法,其特征在于,所述构建所述敏感词库对应的谐音词库,包括:
获取所述敏感词库的敏感词的拼音;
将所述敏感词库的敏感词的拼音作为谐音敏感词,并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。
3.根据权利要求1所述的敏感词检测方法,其特征在于,所述分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器,包括:
使用双数组tire树构建所述敏感词库对应的敏感词索引器;
使用双数组tire树构建所述谐音词库对应的谐音词索引器。
4.根据权利要求1所述的敏感词检测方法,其特征在于,所述通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合,包括:
将所述待测文本中的中文转换为拼音以得到待测谐音文本;
通过所述谐音词索引器对所述待测谐音文本进行过滤以得到第一谐音敏感词集合;
获取所述待测文本中与所述第一谐音敏感词集合中的谐音敏感词相对应的词以得到所述第三敏感词集合。
5.根据权利要求1所述的敏感词检测方法,其特征在于,所述通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合,包括:
将所述去冗余文本中的中文转换为拼音以得到去冗余谐音文本;
通过所述谐音词索引器对所述去冗余谐音文本进行过滤以得到第二谐音敏感词集合;
获取所述去冗余文本中与所述第二谐音敏感词集合中的谐音敏感词相对应的词以得到所述第四敏感词集合。
6.根据权利要求1所述的敏感词检测方法,其特征在于,所述从预设的敏感词服务器中获取敏感词库,包括:
若接收到所述敏感词服务器发送的敏感词库更新提醒消息,从所述敏感词库更新提醒消息中获取更新后的敏感词库的下载地址,所述敏感词库更新提醒消息包含所述下载地址;
从所述下载地址下载更新后的敏感词库。
7.一种敏感词检测装置,其特征在于,包括:
第一获取单元,用于从预设的敏感词服务器中获取敏感词库;
第一构建单元,用于构建所述敏感词库对应的谐音词库;
第二构建单元,用于分别根据所述敏感词库以及所述谐音词库构建敏感词索引器以及谐音词索引器;
第一过滤单元,用于若接收到待测文本,通过所述敏感词索引器对所述待测文本进行过滤以得到第一敏感词集合;
第二过滤单元,用于去除所述待测文本中的非中文字符以得到去冗余文本,并通过所述敏感词索引器对所述去冗余文本进行过滤以得到第二敏感词集合;
第三过滤单元,用于通过所述谐音词索引器对所述待测文本进行过滤以得到第三敏感词集合;
第四过滤单元,用于通过所述谐音词索引器对所述去冗余文本进行过滤以得到第四敏感词集合;
合并单元,用于将所述第一敏感词集合、第二敏感词集合、第三敏感词集合以及第四敏感词集合去重并合并以得到总敏感词集合。
8.根据权利要求7所述的敏感词检测装置,其特征在于,所述第一构建单元包括:
第二获取单元,用于获取所述敏感词库的敏感词的拼音;
储存单元,用于将所述敏感词库的敏感词的拼音作为谐音敏感词,并将所述谐音敏感词存入到预设的空白数据库中以得到所述谐音词库。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-6中任一项所述的方法。