`
El_Nino
  • 浏览: 200049 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

python BeautifulSoup 中文编码问题解决

 
阅读更多

在用BeautifulSoup进行抓取页面的时候,会各种各样的编码错误。

可以通过在beautifulsoup中指定字符编码,解决问题。

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.163.com');
soup = BeautifulSoup(page,from_encoding="gb18030")

print soup.originalEncoding
print soup.prettify()

 红色部分表示需要注意的地方。在BeautifulSoup构造器中传入fromEncoding参数即可解决乱码问题,当然具体参数值是什么就要看你获取页面的编码是什么

分享到:
评论

相关推荐

    Python BeautifulSoup中文乱码问题的2种解决方法

    使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码 代码如下:from bs4 import BeautifulSoupimport urllib2url = ‘//www.jb51.net/...

    python BeautifulSoup设置页面编码的方法

    可以通过在beautifulsoup中指定字符编码,解决问题。 复制代码 代码如下: import urllib2  from BeautifulSoup import BeautifulSoup    page = urllib2.urlopen(‘http://www.163.com’);  soup = ...

    BeautifulSoup

    注意:为了解决乱码问题,用版本3的。如3.2.1。BeautifulSoup处理后的默认编码是utf-8。 中文文档:http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html 其他参考:...

    爬取Lofter图片依赖Python的BeautifulSoup4第三方库

    本项目可以爬取Lofter图片,依赖Python的BeautifulSoup4第三方库,使用本项目需要先安装BeautifulSoup4。 ### 安装依赖库: 安装BeautifulSoup4: * Debain或Ubuntu可以通过系统软件包管理安装: ``` bash $ ...

    chardet-1.0.1.tar.gz 自动检测python汉字编码辅助

    python编程,解析html的BeautifulSoup下辅助检测汉字编码的chardet

    beautifulsoup4-4.5.1.tar.gz

    3.运行cmd,切换到D:/python/beautifulsoup4-4.3.2/目录下(根据自己解压缩后的目录和下载的版本号修改), cd D:/python//beautifulsoup4-4.3.2 4.运行命令: setup.py build setup.py install 5.在IDE下from bs4 ...

    Python信息抽取之乱码解决办法

    Python信息抽取之乱码解决办法 就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧  信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容,然后使用lxml或者...

    Python下利用BeautifulSoup解析HTML的实现

    BeautifulSoup4 Beautifu Soup 使用说明 Beautiful Soup 的基本功能就是对HTML的标签进行查找及编辑。 基本概念-对象类型 Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都被转换成一个...

    Python Requests_html爬取51jobs网python岗位信息.py

    Python,通过Reauests_html库,爬取51jobs网站python岗位招聘信息,实例代码。

    python3解析库BeautifulSoup4的安装配置与基本用法

    Beautiful Soup自动将转入稳定转换为Unicode编码,输出文档转换为UTF-8编码,不需要考虑编码,除非文档没有指定编码方式,这时只需要指定原始编码即可 Beautiful Soup位于流行的Python解析器(如lxml和h

    Python利用BeautifulSoup解析Html的方法示例

    你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup已成为和lxml、html6lib一样出色的python...

    python爬虫课程要点.docx

    python基本库的使用: 1)使用urllib python内置的HTTP请求库,包含四个模块:request、error、parse、robotparser。request:最基本的HTTP请求模块,可以用来模拟发送请求。 2)Request url:请求地址,必传参数。 ...

    Python爬虫包BeautifulSoup简介与安装(一)

    先发官方文档的地址:官方文档 学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。...Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑

    Python获取基金网站网页内容、使用BeautifulSoup库分析html操作示例

    本文实例讲述了Python获取基金网站网页内容、使用BeautifulSoup库分析html操作。分享给大家供大家参考,具体如下: 利用 urllib包 获取网页内容 #引入包 from urllib.request import urlopen response = urlopen(...

    浅谈python中对于json写入txt文件的编码问题

    最近一直在研究python+selenium+beautifulsoup的爬虫,但是存入数据库还有写入txt文件里面的时候一直都是unicode编码的格式。 接下来就是各种翻阅文档,查找谷歌和度娘,但是都没有具体的说明是什么问题。 结果根据...

    python-code:我针对问题和算法实现的Python解决方案的集合。 还包括一些特殊文件,其中包含我的编码挑战课程的解决方案

    python代码 我针对问题和算法实现的Python解决方案的集合。 还包括一些特殊文件,其中包含我对编码挑战/课程的解决方案。

    Python输出\u编码将其转换成中文的实例

    python2.7在window上的编码确实是个坑 解决如下 如果是个字典的话要先将其转成字符串 导入json库 然后 这么输出(json.dumps(data).decode(“unicode-escape”)) 整个代码demo # -*- coding: UTF-8 -*- #小猪短租...

    廖雪峰python3 完整带索引,图片 最新教程 pdf版

    刚刚学习Python, 边看廖神的教程边想着搞个离线版,用requests+beautifulsoup抓的。仅供学习用 Python教程 Python简介 安装Python Python解释器 第一个Python程序 使用文本编辑器 Python代码运行助手 输入和输出 ...

Global site tag (gtag.js) - Google Analytics