python中的bs4模块是块比较好用的html、xml文件处理模块,一般配合使用于爬虫项目,配合requests使用。
关于bs4.Beautifulsoup文件长度问题。
看下面代码:
#coding:utf-8 import requests from bs4 import BeautifulSoup html='<html><div>A Html Text</div></html>' data=BeautifulSoup(html,'html.parser') print(type(data),len(data))
输出结果:
<class 'bs4.BeautifulSoup'> 1
可以看出将上面的html代码打包成了一个bs4.BeautifulSoup类之后,长度为1
再看下面的代码:
url='https://6yhj.com/news/5.html' r=requests.get(url) data2=BeautifulSoup(r.text,'html.parser') print(type(data2),len(data2))
输出结果:
<class 'bs4.BeautifulSoup'> 4
虽然也是打成了bs4.BeautifulSoup类,但是长度却是4
分别遍历了一下这个data1和data2
data直接输出了那一行代码
data2则是输出了4段一样的html源码
这个是什么情况?有大佬解释一下吗?
标签: