这个问题是这样的对于SNS社区来說,不真实账号(使用虚假身份或用户的小号)是一个普遍存在的问题作为SNS社区的运营商,希望可以检测出这些不真实账号从而在一些运营分析报告中避免这些账号的干扰,亦可以加强对SNS社区的了解与监管
如果通过纯人工检测,需要耗费大量的人力效率也十分低下,如能引入自动检测机制必将大大提升工作效率。这个问题说白了就是要将社区中所有账号在真实账号和不真实账号两个类别上进行汾类,下面我们一步一步实现这个过程
这一步要找出可以帮助我们区分真实账号与不真实账号的特征属性,在实际应用中特征属性的數量是很多的,划分也会比较细致但这里为了简单起见,我们用少量的特征属性以及较粗的划分并对数据做了修改。
我们选择三个特征属性:a1:日志数量/注册天数a2:好友数量/注册天数,a3:是否使用真实头像在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。
下面我们使用上面训练得到的分类器鉴别一个账号这个账号使用非真实头像,日志数量与注册天数的比率为0.1好友数与注册天数的比率为0.2。
可以看到虽然这个用户没有使用真实头像,但是通过分类器的鉴别更倾向于将此账号归入真实账号类别。这个例子也展示了当特征属性充分多时朴素贝叶斯分类对个别属性的抗干扰性。
加载中请稍候......