吴裕雄 python 爬虫（1）

from urllib.parse import urlparse

url = 'http://www.pm25x.com/city/beijing.htm'

o = urlparse(url)

print(o) 

print("scheme={}".format(o.scheme)) # http

print("netloc={}".format(o.netloc)) # www.pm25x.com

print("port={}".format(o.port))     # None

print("path={}".format(o.path))     # /city/beijing.htm

print("query={}".format(o.query))   # 空

import requests

url = 'http://www.wsbookshow.com/'

html = requests.get(url)

html.encoding="GBK"

print(html.text)

import requests

url = 'http://www.wsbookshow.com/'

html = requests.get(url)

html.encoding="gbk"

htmllist = html.text.splitlines()

n=0

for row in htmllist:

    if "新概念" in row:

        n+=1

print("找到 {} 次!".format(n))

import re

pat = re.compile('[a-z]+')

m = pat.match('tem12po')

print(m)

if not m==None:

    print(m.group())

    print(m.start())

    print(m.end())

    print(m.span())

import re

m = re.match(r'[a-z]+','tem12po')

print(m)

if not m==None:

    print(m.group())

    print(m.start())

    print(m.end())

    print(m.span())

import re

pat = re.compile('[a-z]+')

m = pat.search('3tem12po')

print(m) # <_sre.SRE_Match object; span=(1, 4), match='tem'>

if not m==None:

    print(m.group())  # tem

    print(m.start())  #

    print(m.end())    #

    print(m.span())   # (1,4)

import re

pat = re.compile('[a-z]+')

m = pat.findall('tem12po')

print(m)  # ['tem', 'po']

import requests,re

regex = re.compile('[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+')

url = 'http://www.wsbookshow.com/'

html = requests.get(url)

emails = regex.findall(html.text)

for email in emails:

    print(email)

吴裕雄 python 爬虫（1）的更多相关文章

吴裕雄 python 爬虫（4）
import requests user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, li ...
吴裕雄 python 爬虫（3）
import hashlib md5 = hashlib.md5() md5.update(b'Test String') print(md5.hexdigest()) import hashlib ...
吴裕雄 python 爬虫（2）
import requests from bs4 import BeautifulSoup url = 'http://www.baidu.com' html = requests.get(url) ...
吴裕雄--python学习笔记：爬虫基础
一.什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网 ...
吴裕雄--python学习笔记：爬虫包的更换
python 3.x报错:No module named 'cookielib'或No module named 'urllib2' 1. ModuleNotFoundError: No module ...
吴裕雄--python学习笔记：爬虫
import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网 ...
吴裕雄 python 神经网络——TensorFlow pb文件保存方法
import tensorflow as tf from tensorflow.python.framework import graph_util v1 = tf.Variable(tf.const ...
吴裕雄 python 神经网络——TensorFlow 花瓣分类与迁移学习（4）
# -*- coding: utf-8 -*- import glob import os.path import numpy as np import tensorflow as tf from t ...
吴裕雄 python 神经网络——TensorFlow 花瓣分类与迁移学习（3）
import glob import os.path import numpy as np import tensorflow as tf from tensorflow.python.platfor ...

随机推荐

MapReduce的工作机制
<Hadoop权威指南>中的MapReduce工作机制和Shuffle: 框架 Hadoop2.x引入了一种新的执行机制MapRedcue 2.这种新的机制建议在Yarn的系统上,目前用于 ...
C语言：传值，传地址
形参:形式参数实参:实际参数传值: 把实参的值复制给形参, 修改函数内的形参,不会影响实参. 传地址: 指针传值,形参为指向实参地址的指针当对形参的指向操作时,相当于对实参本身进行的操作 #inc ...
es6(8)--对象
//对象 { //简洁表示法 let o = 1; let k = 2; let es5 = { o:o, k:k }; let es6 = { o, k }; console.log(es5); c ...
SQL各种语(持续更新)
--通过分组查询,并查询各个组下面的数据数量 SELECT cord,COUNT(*) AS s FROM View_QualityPolicy GROUP BY cord ORDER BY s DE ...
微信小程序 setData 的坑(转)
最近在使用微信小程序的setData时,遇到了以下问题.如下: 官网文档在使用setData()设置数组对象的某个元素的属性时,是这么使用的: Page({ data: { array: [{text ...
LeetCode 12. Integer to RomanLeetCode
整数转罗马数字 first submission import math class Solution: def __init__(self): self.roman={1:'I',5:'V',10: ...
spring mvc 异常处理
一般实现业务的时候避免不了会抛一些自定义异常抛给controller进行最终处理.如果业务上比较复杂.频繁的在try catch操作. 时间一长,代码维护性,可读性自然而然就上来了. 然后,spri ...
openstack placement
ajax 406 Not Acceptable
搞了半天, 后面参照 http://www.th7.cn/web/ajax/201611/194702.shtml, 终于把问题解决了.. 使用ajax向后台请求时,前台报错406 Not Accep ...
linux指令tar笔记
tar 工具常用选项如表所列. 选项说明 -c 创建存档文件,与-x相斥 -t 列出档案文件的文件列表 -x 解包存档文件,与-c相斥 -A 合并存档文件 -d 比较存档文件与源文件 - ...

吴裕雄 python 爬虫（1）

吴裕雄 python 爬虫（1）的更多相关文章

随机推荐

热门专题