如果我们把互联网比作一张大的蜘蛛网数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛
沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,獲取资源后分析并提取有用数据的程序;
从技术层面来说就是 通过程序模拟浏览器请求站点的行为把站点返回的HTML代码/JSON数据/二进制数据(圖片、视频) 爬到本地,进而提取自己需要的数据存放起来使用;
请求库:requests,selenium(可以驱动浏览器解析渲染CSS和JS,但有性能劣势(有用没用的網页都会加载);)
(如果一共需要爬30个视频开30个线程去做,花的时间就是 其中最慢那份的耗时时间)
明白了Python爬虫的基本流程然后对照代码是不是觉得爬虫特别的简单呢?
对于初学者想更轻松的学好Python开发爬虫技术,Python数据分析人工智能等技术,这里也给大家准备了一套系统教学资源,加Python技术学习教程qq裙:免费领取。学习过程中有疑问群里有专业的老司机免费答疑解惑!点击加入我们的