做python爬虫的估计经常碰到这样的问题。
gbk‘ codec can‘t encode character ‘\xa0‘
后面还有就省略了,意思差不多。
其实出现这种问题,主要是在使用print输出结果的时候,多半是两种原因引起的。
原因一:
爬取到的文本里面本来就带有一些特殊文本、符号,比如什么火星文,沙马特文字之类的。这种似乎没有什么好办法处理,要么先替换replace一下,然后打再打印输出?
原因二:
就是你用的编译软件设置的默认编码的问题。比如pycharm,好像默认全是GBK的。这种只要修改成utf-8的就行了,如果遇到报utf-8错误的,你又修改成GBK就中了。
具体修改步骤:
文件→设置→文件编码→修改编码为UTF-8就成了。
如果你的pycharm没有汉化,那建议你汉化一下,或者对应的是file--settings-fileencoding里面修改也行。
还有其他原因?
有朋友说要在代码的开头加上
#coding:utf-8
不妨加上试试呢!
标签: