在使用python爬虫提取中文网页的内容,为了能正确显示中文的内容,在转为字符串时一定要声明编码为utf-8,否则无法正常显示中文,而是显示原编码的字符,并没有正确转换.比如下面这个简单的爬取百度页面的title的示例: import os import lxml from urllib2 import urlopen # Mac # from urllib.request import Request, urlopen # Win from lxml import etree hfile =
1.安装显示中文的man命令 wget https://src.fedoraproject.org/repo/pkgs/man-pages-zh-CN/manpages-zh-1.5.1.tar.gz/13275fd039de8788b15151c896150bc4/manpages-zh-1.5.1.tar.gz tar xzf manpages-zh-1.5.1.tar.gz cd manpages-zh-1.5.1 ./configure --prefix=/usr/local/zhman