爬虫的pageinfo带条件.info(为什么错了)

#爬取当当网图书未使用框架

#把芓典转换为list存储 #在excel中存储的格式 #用于统计总计书的数量 #进行数据的读取和写入 print("写入完成,共计"+str(count)+"本书")

#没有进行并发处理所以在爬去过程中耗时很长,这里的图书写入的数量一共是1280000万册还有部分未爬取完,此程序尚需进一步的完善
#此程序只是本人作为练手而写的小程序,數据并没有清洗的很干净
  • 获得页面的HTML文本后解析内容爬取想要的信息

    获得页面的HTML文本后解析内容爬取想要的信息
  • 获取页面各个排行榜的书的排名
  • 获取书名和书的在各个排行榜的排名
  • 把信息存储箌MongDB上去:

    
     把爬取信息存储到mongoDB上
    

每个分类的排行榜信息:

这就完成对于起点中文网的内容爬取啦,对于写的错误和不好的地方大家可以在评论留言我看到了会及时回复,谢谢大家

1 正则匹配中注意的:

4 多线程+异步抓取简书网7日最热:

我要回帖

更多关于 pageinfo带条件 的文章

 

随机推荐