按照一定的规则,自动的从网络中抓取信息的程序或者脚本。

万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息

爬虫的流程

  1. 抓取
  2. 分析
  3. 存储

不要写爬虫! 不要写爬虫! 不要写爬虫!

重要的事情说三遍。

为什么我不建议初学者去学些爬虫。首先爬虫是一件法律风险很大的事情,如果搞不清楚法律风险,就不要搞了。

为什么需要爬虫

公司想上线一个新项目,但是没有数据,那怎么办?把竞争对手的数据爬下来。这样有问题吗?如果别人同意那没有问题,几乎没有公司同意这种事吧。那我强行爬取可以吗?可以。但是竞品是可以知道的,当你爬到第一条数据的时候,你就已经走向了犯罪的边缘。入侵计算机系统罪。

好好学习和生活。学什么不好,非要学爬虫。

忘记爬虫吧。

很多人可能就是冲着爬虫来得,可能要让你失望了,但是这门课就是不讲爬虫。 如果真的想学,想明白学的目的是什么,做的事情违不违法。

爬虫相关的库

  • urllib

  • re

  • requests

  • selenium

  • chromedriver

  • beautifulsoup

  • pyquery

  • pymysql

  • pymongo

  • redis

  • flask

  • jupyter