如何快捷的把N多个N新浪微博博客的正文提取出来形成一个txt文件

基于的正文抽取算法思路:
1、预处理:剔除网页HTML标签,去掉所有的空白符(\n,\r,\t等);
2、依据"\n"分行,若某文字行的上下存在两个空行,且此文字行长度小于阈值40,则删除此文字行;
3、设定三行为一行块,计算每段行块的长度;
4、找出每个连续有字符的段落,并找到起点和终点;
 要求:行块长度大于0(段落开始),且随后连续行块长度大于0,直到行块长度为0(即段落结束)
5、如果两块段落只差两个空行,并且两块包含文字均较多,则进行段落合并;

6、找出最长段落,如果长度小于100,则推出提供的网页为非主体性网页;否则,最长段落即为正文;

用txt阅读器按目录分章节阅读小说

    最近,我从网上下载了一部名为《大主宰》的长篇玄幻小说。这是一部章回小说,截至目前,已写到第1330章,真可谓宏篇巨制。我想用一个分章节的文本阅读器阅读它。
    以前,我曾用t),点“确定”,“目录列表框”里显示从第1章到第1330章的所有章节名称,“内容”文本框里显示(大主宰.txt)“第一章 北灵院”的内容,“注释与题解”文本框里显示“*(无注释)”分隔符。以后,你选哪一条目录,内容文本框里就会显示哪一章的内容,很方便,也很实用。
    这个软件还可以检测目录列表框里的目录、内容文本框里的内容以及“注释与题解”文本框里的分隔符是否“三对照”,如果不一致,说明三者中的某一项有问题,需要进一步做修改。其实,修改起来也是挺方便的,只需要打开目录文本和内容文本,改正一下就可以了。

我要回帖

更多关于 N新浪微博 的文章

 

随机推荐