能利用爬虫爬哪些有趣的数据技术做到哪些很酷很有趣很有用的事情

191 条评论分享收藏感谢收起39753 条评论分享收藏感谢收起40541 条评论分享收藏感谢收起24537 条评论分享收藏感谢收起a.com/00001.html, 猜测
也是有的,总结出一个『通项公式』,通过程序自动生成一堆网址,最后一一访问,也如从一个网址开始广度优先地开始搜索,爬出一堆合理的网址,还如从别的任务导入url列表然后进行并发的请求,中间的各种小问题,诸多帖子都说过,比如如何防止ip被封,有时候修改http头,有时候发一组,停一下,之间设置timeout,实在不行用ip池,最后存入若干DB。mission是比task更大的单位,比如一个小区的信息需要2个高德的接口清洗,然后在做个xx事情,可以分为5个task逐一完成。对于一个机器,一天可能要串行好几个mission。然后就是选网站了。 有许多房价网站,有些乱的就像论坛,信息杂糅,也有些虚假繁荣,重复率很高,比如一套房子都能出现好几次,还有很多已经关闭的交易仍然挂在网上,价格还是n年前的。
链家和搜房数据相对准确一些,但链家只做精做深一线城市,且早几年的数据不多,也没缺少租房数据(旧主页有丁丁租房的连接)。相比搜房网是历史久远的老牌网站,积淀多,但传说做低房价,数据不准,而且网站的组织比链家乱一些。 对于房子,宏观而言,至少分为2个大的对象,一是小区,二是房源。一个小区有很多户型,高低、面积、户型、类型甚至年代各不相同,房源则涉及到具体的交易(当然复杂的情况下,一个房源在不同的时间能有多次交易)。每次交易有很多细节的信息,甚至细到最后一次看房的时间,一个月内看房的次数等等,但亲身经历告诉我,这些很细的指标有时也少登记漏登记,准性没那么高。
细的也不多谈了,总之经过多次爬取或清洗,我的数据库里存了几张表,比如链家网的表有两张:
小区表: 小区名字,经纬度,边界信息,建成年代,物业公司,开发商,绿化率,容积率,楼房数,房间数,12个月的房价变化等。
交易表: 所属小区,总价,均价,面积,户型,楼层,房龄,装修,七天里多少人看过,历史上度少人看过,已经完成 & 历史上交易时间等。
提前说一嘴,链家和搜房的数据是有所滞后的,正在交易的房子,很多已是过去的价格了,而已成交的房子,成交的时间要倒退几个月才是发生交易的价格,何况为了避税,很多人在签署交易价格的时候会做低房价。欢迎大家在这里看详细的分析赞同 28127 条评论分享收藏感谢收起162 条评论分享收藏感谢收起

我要回帖

更多关于 晨会怎么做到有趣 的文章

 

随机推荐