python BeautifulSoup 中文编码问题解决 - iqbon的烂笔头 - ITeye博客

`

El_Nino

浏览: 200049 次
性别:
来自: 深圳

最近访客更多访客>>

kaige9at

mgf614

ycabbage

50050192

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

soft_xiang： import com.iqbon.jcms.domain.Qu ...
spring3.1和quatz2实现数据库持久化和动态加载
dipwater：根据以上操作连接成功，谢谢分享！
用SecureCRT连接AWS EC2
andy_javahome：大牛我弱弱的问一句QuartzService是如何被调用的 ...
spring3.1和quatz2实现数据库持久化和动态加载
El_Nino： sdjnzqr 写道这几种貌似不适合企业级的架构选型领导要求 ...
前端选型，几种前端UI的比较
sdjnzqr：这几种貌似不适合企业级的架构选型
前端选型，几种前端UI的比较

python BeautifulSoup 中文编码问题解决

阅读更多

在用BeautifulSoup进行抓取页面的时候，会各种各样的编码错误。

可以通过在beautifulsoup中指定字符编码，解决问题。

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.163.com');
soup = BeautifulSoup(page,from_encoding="gb18030")

print soup.originalEncoding
print soup.prettify()

红色部分表示需要注意的地方。在BeautifulSoup构造器中传入fromEncoding参数即可解决乱码问题，当然具体参数值是什么就要看你获取页面的编码是什么

分享到：

Jetty 9.0启动报错org/apache/nutch/crawl ...

2014-03-18 23:26
浏览 8092
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python BeautifulSoup中文乱码问题的2种解决方法: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码代码如下:from bs4 import BeautifulSoupimport urllib2url = ‘//www.jb51.net/...

python BeautifulSoup设置页面编码的方法: 可以通过在beautifulsoup中指定字符编码，解决问题。复制代码代码如下: import urllib2 from BeautifulSoup import BeautifulSoup page = urllib2.urlopen(‘http://www.163.com’); soup = ...

BeautifulSoup: 注意：为了解决乱码问题，用版本3的。如3.2.1。BeautifulSoup处理后的默认编码是utf-8。中文文档：http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html 其他参考：...

爬取Lofter图片依赖Python的BeautifulSoup4第三方库: 本项目可以爬取Lofter图片，依赖Python的BeautifulSoup4第三方库，使用本项目需要先安装BeautifulSoup4。 ### 安装依赖库：安装BeautifulSoup4： * Debain或Ubuntu可以通过系统软件包管理安装： ``` bash $ ...

chardet-1.0.1.tar.gz 自动检测python汉字编码辅助: python编程，解析html的BeautifulSoup下辅助检测汉字编码的chardet

beautifulsoup4-4.5.1.tar.gz: 3.运行cmd，切换到D:/python/beautifulsoup4-4.3.2/目录下（根据自己解压缩后的目录和下载的版本号修改）， cd D:/python//beautifulsoup4-4.3.2 4.运行命令： setup.py build setup.py install 5.在IDE下from bs4 ...

Python信息抽取之乱码解决办法: Python信息抽取之乱码解决办法就事论事，直说自己遇到的情况，和我不一样的路过吧，一样的就看看吧　信息抓取，用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容，然后使用lxml或者...

Python下利用BeautifulSoup解析HTML的实现: BeautifulSoup4 Beautifu Soup 使用说明 Beautiful Soup 的基本功能就是对HTML的标签进行查找及编辑。基本概念-对象类型 Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构，每个节点都被转换成一个...

Python Requests_html爬取51jobs网python岗位信息.py: Python，通过Reauests_html库，爬取51jobs网站python岗位招聘信息，实例代码。

python3解析库BeautifulSoup4的安装配置与基本用法: Beautiful Soup自动将转入稳定转换为Unicode编码，输出文档转换为UTF-8编码，不需要考虑编码，除非文档没有指定编码方式，这时只需要指定原始编码即可 Beautiful Soup位于流行的Python解析器（如lxml和h

Python利用BeautifulSoup解析Html的方法示例: 你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup已成为和lxml、html6lib一样出色的python...

python爬虫课程要点.docx: python基本库的使用： 1）使用urllib python内置的HTTP请求库，包含四个模块：request、error、parse、robotparser。request：最基本的HTTP请求模块，可以用来模拟发送请求。 2）Request url：请求地址，必传参数。 ...

Python爬虫包BeautifulSoup简介与安装（一）: 先发官方文档的地址：官方文档学习使用的书籍是Python网络数据采集（Ryan Mitchell著），大约是一些笔记的整理。...Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑

Python获取基金网站网页内容、使用BeautifulSoup库分析html操作示例: 本文实例讲述了Python获取基金网站网页内容、使用BeautifulSoup库分析html操作。分享给大家供大家参考，具体如下：利用 urllib包获取网页内容 #引入包 from urllib.request import urlopen response = urlopen(...

浅谈python中对于json写入txt文件的编码问题: 最近一直在研究python+selenium+beautifulsoup的爬虫，但是存入数据库还有写入txt文件里面的时候一直都是unicode编码的格式。接下来就是各种翻阅文档，查找谷歌和度娘，但是都没有具体的说明是什么问题。结果根据...

python-code:我针对问题和算法实现的Python解决方案的集合。还包括一些特殊文件，其中包含我的编码挑战课程的解决方案: python代码我针对问题和算法实现的Python解决方案的集合。还包括一些特殊文件，其中包含我对编码挑战/课程的解决方案。

Python输出\u编码将其转换成中文的实例: python2.7在window上的编码确实是个坑解决如下如果是个字典的话要先将其转成字符串导入json库然后这么输出(json.dumps(data).decode(“unicode-escape”)) 整个代码demo # -*- coding: UTF-8 -*- #小猪短租...

廖雪峰python3 完整带索引，图片最新教程 pdf版: 刚刚学习Python, 边看廖神的教程边想着搞个离线版，用requests+beautifulsoup抓的。仅供学习用 Python教程 Python简介安装Python Python解释器第一个Python程序使用文本编辑器 Python代码运行助手输入和输出 ...

Global site tag (gtag.js) - Google Analytics