Python -- 网络编程 -- 简单抓取网页

抓取网页:　　urllib.request.urlopen(url).read().decode('utf-8') --- (百度是utf-8,谷歌不是utf-8，也不是cp936，ascii也不行，iso-8859-1勉强)

PyQt4.QtGui的QTextEdit控件自动解析HTML文档，为显示纯HTML文件，应使用方法QTextEdit.setPlainText()

例：抓取网页的标题、图片和链接

 import sys, re
 import urllib.request
 from PyQt4 import QtGui

 class MainWindow(QtGui.QWidget):
     def __init__(self):
         super(MainWindow, self).__init__()
         self.setWindowTitle('Crawl')
         self.resize(485, 300)

         self.txt = QtGui.QTextEdit()
 #         self.txt.setF
         self.txt.setReadOnly(True)

         grid = QtGui.QGridLayout()
         grid.addWidget(self.txt)
         self.setLayout(grid)

         url = 'http://www.baidu.com/s?wd=python'
         page = urllib.request.urlopen(url).read().decode('utf-8')
         fp = open('e:/temp.txt', 'wt', encoding='utf-8')
         fp.write(page)
         fp.close

         s = '标题：\n'
         page_title = re.compile('<title>(.+?)</title>')
         s += page_title.findall(page)[0]+'\n'

         s += '图片：\n'
         page_images = re.compile('<img src="(.+?)"')
         for data in page_images.findall(page):
             s += data+'\n'

         s += '链接：\n'
         page_link = re.compile('href="(.+?)"')
         for data in page_link.findall(page):
             s += data+'\n'

         self.txt.setPlainText(s)

 app = QtGui.QApplication(sys.argv)
 mainwindow = MainWindow()
 mainwindow.show()

 app.exec_()

Python -- 网络编程 -- 简单抓取网页的更多相关文章

Python网络编程_抓取百度首页代码（注释详细）
1 #coding=utf-8 2 #网络编程 3 4 #客户端建立socket套接字 5 #引入socket模块 6 import socket 7 #实例化一个套接字,2个参数分别是: IPV4. ...
[转]Linux Socket编程 Socket抓取网页源码
“一切皆Socket!” 话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket. ——有感于实际编程和开源项目研究. 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览 ...
java网络爬虫----------简单抓取慕课网首页数据
© 版权声明:本文为博主原创文章,转载请注明出处一.分析 1.目标:抓取慕课网首页推荐课程的名称和描述信息 2.分析:浏览器F12分析得到,推荐课程的名称都放在class="course- ...
从urllib和urllib2基础到一个简单抓取网页图片的小爬虫
urllib最常用的两大功能(个人理解urllib用于辅助urllib2) 1.urllib.urlopen() 2. urllib.urlencode() #适当的编码,可用于后面的post提交 ...
python使用ip代理抓取网页
在抓取一个网站的信息时,如果我们进行频繁的访问,就很有可能被网站检测到而被屏蔽,解决这个问题的方法就是使用ip代理 .在我们接入因特网进行上网时,我们的电脑都会被分配一个全球唯一地ip地址供我们使用, ...
python 简单抓取网页并写入excel实例
# -*- coding: UTF-8 -*- import requests from bs4 import BeautifulSoup import xlwt import time #获取第一页 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
Python入门,以及简单爬取网页文本内容
最近痴迷于Python的逻辑控制,还有爬虫的一方面,原本的目标是拷贝老师上课时U盘的数据.后来发现基础知识掌握的并不是很牢固.便去借了一本Python基础和两本爬虫框架的书.便开始了自己的入坑之旅言 ...
[Python网络编程]gevent httpclient以及网页编码
之前看到geventhttpclient这个项目,https://github.com/gwik/geventhttpclient,官方文档说非常快,因为响应使用了C的解析,所以我一直想把这玩意用到项 ...

随机推荐

xslt 简单的语法
1. 循环 <xsl:for-each select="catalog/cd"> 1 </xsl:for-each> 2. 定义变量赋值使用 <xsl ...
20171126--idleHadnler的理解使用
相关参考文献: http://www.jianshu.com/p/94d6131a53b2 http://bbs.51cto.com/thread-1094228-1.html https://zhu ...
为WinEdt自定义XeLatex快捷键
没有彻底抛弃Windows很重要的一方面原因,WinEdt + Sumatra PDF对LaTeX支持的太好了(自动补全,反向搜索),而且当遇到复杂公式的时候,mathtype也能帮上大忙. 我一直用 ...
解决mac安装homebrew后报错-bash: brew: command not found
解决mac安装homebrew后报错-bash: brew: command not found 参照官网上很简单的一句安装命令, /usr/bin/ruby -e "$(curl ...
大道至简第一章和java理论学时第一节。感受。
这周上了本学期的第一节java课程.课件上说了一些学习java的基本思想.举了个“愚公移山”的例子.这可能就像刚接触一门新的语言,来练习输出“HelloWorld”一样,已成惯例. “愚公移山”的这个 ...
20155326刘美岑2016-2017-2《Java程序设计》第三周学习总结
20155326刘美岑2016-2017-2<Java程序设计>第三周学习总结教材学习内容总结基本类型和类类型基本类型:第三章中讲述的那几种,short.long.int.byte. ...
python 开发学习
https://www.cnblogs.com/wj-1314/p/8476197.html
whu暑期集训#1
题号:SGU123----SGU131 Problem A: 题意:求斐波那契的前N项和.. 做法:直接模拟,注意得用long long Problem B: 题意:给定一个封闭的多边形,求一个点在不 ...
unigui session超时时间设置
unigui session超时时间设置默认的SESSION超时时间是10分钟. 网络 SOCKET 程序,像数据库,中间件,UNIGUI等...为了防止过多的僵死连接卡死服务端,服务端都会主动踢 ...
unigui的ServerModule常用属性设置
unigui的ServerModule常用属性设置 1)压缩设置 compression是压缩数据用的.默认启用压缩,且压缩级别是最大的. 2)UNIGUI运行时库设置 UNIGUI需要4个运行时库, ...

Python -- 网络编程 -- 简单抓取网页

Python -- 网络编程 -- 简单抓取网页的更多相关文章

随机推荐

热门专题