当前分类:python>>正文

bs4.BeautifulSoup文件长度为何是这样

来源:acboy   时间:2022年8月3日   编辑

python中的bs4模块是块比较好用的html、xml文件处理模块,一般配合使用于爬虫项目,配合requests使用。

关于bs4.Beautifulsoup文件长度问题。

看下面代码:

#coding:utf-8
import requests
from bs4 import BeautifulSoup

html='<html><div>A Html Text</div></html>'

data=BeautifulSoup(html,'html.parser')

print(type(data),len(data))

输出结果:

<class 'bs4.BeautifulSoup'> 1

可以看出将上面的html代码打包成了一个bs4.BeautifulSoup类之后,长度为1

再看下面的代码:

url='https://6yhj.com/news/5.html'
r=requests.get(url)
data2=BeautifulSoup(r.text,'html.parser')
print(type(data2),len(data2))

输出结果:

<class 'bs4.BeautifulSoup'> 4

虽然也是打成了bs4.BeautifulSoup类,但是长度却是4

分别遍历了一下这个data1和data2

data直接输出了那一行代码

data2则是输出了4段一样的html源码

这个是什么情况?有大佬解释一下吗?

[猜你喜欢]

标签: python python爬虫