基于的正文抽取算法思路: 1、预处理:剔除网页HTML标签,去掉所有的空白符(\n,\r,\t等); 2、依据"\n"分行,若某文字行的上下存在两个空行,且此文字行长度小于阈值40,则删除此文字行; 3、设定三行为一行块,计算每段行块的长度; 4、找出每个连续有字符的段落,并找到起点和终点; 要求:行块长度大于0(段落开始),且随后连续行块长度大于0,直到行块长度为0(即段落结束) 5、如果两块段落只差两个空行,并且两块包含文字均较多,则进行段落合并;
6、找出最长段落,如果长度小于100,则推出提供的网页为非主体性网页;否则,最长段落即为正文;
用txt阅读器按目录分章节阅读小说
最近,我从网上下载了一部名为《大主宰》的长篇玄幻小说。这是一部章回小说,截至目前,已写到第1330章,真可谓宏篇巨制。我想用一个分章节的文本阅读器阅读它。
以前,我曾用t),点“确定”,“目录列表框”里显示从第1章到第1330章的所有章节名称,“内容”文本框里显示(大主宰.txt)“第一章 北灵院”的内容,“注释与题解”文本框里显示“*(无注释)”分隔符。以后,你选哪一条目录,内容文本框里就会显示哪一章的内容,很方便,也很实用。
这个软件还可以检测目录列表框里的目录、内容文本框里的内容以及“注释与题解”文本框里的分隔符是否“三对照”,如果不一致,说明三者中的某一项有问题,需要进一步做修改。其实,修改起来也是挺方便的,只需要打开目录文本和内容文本,改正一下就可以了。