1.Understanding HTML 1.最简单的爬虫 import urllib fhand=urllib.urlopen('http://www.dr-chuck.com/page1.htm') for line in fhand: print line.strip() 2.Python 爬网页和直接访问网页 3.Scrape 2.Parsing HTML with BeautifulSoup 1.这次直接使用简单方法 BeautifulSoup 2.BeautifulSoup的安装 1…
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week4 Programs that Surf the Web 12.3 Unicode Characters and Strings Representing Simple Strings 使用ASCII码,每个字符都被一个0到256的数字表示来存在8bits的内存里. 使用ord()函数可以查询,指定字符所对应的ASCII码. >>> print(ord('H')) 72…
0.课程地址与说明 1.课程地址:https://www.coursera.org/learn/python-network-data/home/welcome 2.课程全名:Using Python to Access Web Data 3.建议使用Python2进行学习 4.仅第一周有中文字幕,其它的只有英文字幕,只要英语有四级基本没有太大问题 5.本人使用的工具是蓝灯,做作业时可以用Google翻译插件帮帮忙 注:第一周讲课程说明和安装Python,无笔记 1.Regular Expres…
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week6 JSON and the REST Architecture 13.5 JavaScript Object Notation(JSON) JSON是一种相比于XML更简单的格式,而且现在在互联网上非常普遍.XML是很强大,但是很多时候我们并不需要使用这么强大的格式,我们就能完成我们的任务. import json data = '''{ "name": "…
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week5 Web Services and XML 13.1 Data on the Web 在网络上我们需要用一种固定的模板进行交流,python将我们的内容serialize成这种模板,然后再de-serialize让另外一种语言读懂. 现在有两种交流模板:XML和JSON. 13.2 Extensible Markup Language(XML) XML也就是可扩展标记语言(Extens…
Coursera课程<Using Python to Access Web Data> 密歇根大学 Week3 Networks and Sockets 12.1 Networked Technology Transport Control Protocol(TCP) TCP端口就是为TCP协议通信提供服务的端口.TCP(Transmission Control Protocol),TCP是一种面向连接(连接导向)的.可靠的.基于字节流的运输层(Transport layer)通信协议. 在计…
1 Python简介 1.1 什么是Python Python是一种面向对象的解释型计算机程序设计语言,由荷兰人吉多·范罗苏姆(Guido van Rossum)于1989年发明,第一个公开发行版发行于1991年.目前Python的最新发行版是Python3.6. Python是纯粹的自由软件,源代码和解释器都遵循 GPL(GNU General Public License)协议.Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进. Python…