爬虫

网页

当我们输入网址以后,会建立http(https算了)连接,我们给服务器请求,服务器给我们回应,我们不断发送request,服务器不断返回response,请求又很多种。

大量的response

我们要把这些数据存起来,数据库啊啥的都行。

简单的爬虫

1
2
3
4
import requests
res = requests.get("http://www.baidu.com")
res.encoding = 'utf-8'
print(res.text)

上面的代码能够得到百度网站

分析html

1
2
3
4
5
6
7
8
import requests
#import bs4
from bs4 import BeautifulSoup
res = requests.get("http://www.baidu.com")
res.encoding = 'utf-8'
print(res.text)
soup = BeautifulSoup(res.text,"html.parser")
print(soup.text)

得到连接

1
2
3
4
5
6
7
8
9
import requests
import bs4
res = requests.get("http://www.baidu.com")
res.encoding = 'utf-8'
print(res.text)
soup = bs4.BeautifulSoup(res.text, "html.parser")
print(soup.text)
for link in soup.select('a'):
print(link.text,link['href'])

结束了,好简单,还准备写一套流程的,现在免了


爬虫
http://fightinggg.github.io/fluid/Q7QOEF.html
作者
fightinggg
发布于
2020年3月25日
许可协议