吴裕雄 python 爬虫（3）

import hashlib

md5 = hashlib.md5()

md5.update(b'Test String')

print(md5.hexdigest())

import hashlib

md5 = hashlib.md5(b'Test String').hexdigest()

print(md5)

import os

import hashlib

import requests

# url = "http://opendata.epa.gov.tw/ws/Data/REWXQA/?$orderby=SiteName&$skip=0&$top=1000&format=json"

url = "https://www.baidu.com"

# 读取网页原始码

html=requests.get(url).text.encode('utf-8-sig')

# 判断网页是否更新

md5 = hashlib.md5(html).hexdigest()

if os.path.exists('F:\\pythonBase\\pythonex\\ch06\\old_md5.txt'):

    with open('F:\\pythonBase\\pythonex\\ch06\\old_md5.txt', 'r') as f:

        old_md5 = f.read()

    with open('F:\\pythonBase\\pythonex\\ch06\\old_md5.txt', 'w') as f:

        f.write(md5)

else:

    with open('F:\\pythonBase\\pythonex\\ch06\\old_md5.txt', 'w') as f:

        f.write(md5)

if md5 != old_md5:

    print('数据已更新...')

else:

    print('数据未更新，从数据库读取...')

import os

import ast

import hashlib

import sqlite3

import requests

from bs4 import BeautifulSoup

conn = sqlite3.connect('F:\\pythonBase\\pythonex\\DataBasePM25.sqlite') # 建立数据库连接

cursor = conn.cursor() # 建立 cursor 对象

# 建立一个数据表

sqlstr='''

CREATE TABLE IF NOT EXISTS TablePM25 ("no" INTEGER PRIMARY KEY AUTOINCREMENT

NOT NULL UNIQUE ,"SiteName" TEXT NOT NULL ,"PM25" INTEGER)

'''

cursor.execute(sqlstr)

url = "http://api.help.bj.cn/apis/aqilist/"

#html=requests.get(url).text.encode('utf-8-sig')  # 读取网页原始码

html=requests.get(url).text.encode('iso-8859-1').decode('utf-8-sig')

# print(html)

html = html.encode('utf-8-sig')

# 判断网页是否更新

md5 = hashlib.md5(html).hexdigest()

old_md5 = ""

if os.path.exists('F:\\pythonBase\\pythonex\\ch06\\old_md5-.txt'):

    with open('F:\\pythonBase\\pythonex\ch06\\old_md5-.txt', 'r') as f:

        old_md5 = f.read()

with open('F:\\pythonBase\\pythonex\ch06\\old_md5-.txt', 'w') as f:

        f.write(md5)

print("old_md5="+old_md5+";"+"md5="+md5)  #显示新老md5码进行观察

if md5 != old_md5:

    print('数据已更新...')

    sp=BeautifulSoup(html,'html.parser')   #解析网页内容

    jsondata = ast.literal_eval(sp.text)  #此时jscondata取到的是字典类型数据

    # 删除数据表内容

    js1=jsondata.get("aqidata")     #取出字典数据中的aqidata项的值（值是列表）

    conn.execute("delete from TablePM25")

    conn.commit()

    n=1

    for city in js1:   #city此时是列表js1中的第一条字典数据

        CityName=city["city"]  #取出city字典数据中的值为"city"的key

        if(city["pm2_5"] == ""):

            PM25=0

        else:   #如果city字典中的key对应的value为空，则PM25=0,否则，把PM25=value

            PM25=int(city["pm2_5"])

        print("城市:{}   PM2.5={}".format(CityName,PM25))   #显示城市对应的名称与PM2.5值

        # 新增一笔记录

        sqlstr="insert into TablePM25 values({},'{}',{})" .format(n,CityName,PM25)

        cursor.execute(sqlstr)

        n+=1

        conn.commit() # 主动更新

else:

    print('数据未更新，从数据库读取...')

    cursor=conn.execute("select *  from TablePM25")

    rows=cursor.fetchall()

    for row in rows:

        print("城市:{}   PM2.5={}".format(row[1],row[2]))    

conn.close()  # 关闭数据库连

........................................................

import os

import ast

import hashlib

import sqlite3

import requests

from bs4 import BeautifulSoup

# cur_path=os.path.dirname(__file__) # 取得目前路径

# print(cur_path)

conn = sqlite3.connect('F:\\pythonBase\\pythonex\\' + 'DataBasePM25.sqlite') # 建立数据库连接

cursor = conn.cursor() # 建立 cursor 对象

# 建立一个数据表

sqlstr='''

CREATE TABLE IF NOT EXISTS TablePM25 ("no" INTEGER PRIMARY KEY AUTOINCREMENT

NOT NULL UNIQUE ,"SiteName" TEXT NOT NULL ,"PM25" INTEGER)

'''

cursor.execute(sqlstr)

url = "http://api.help.bj.cn/apis/aqilist/"

# 读取网页原始码

# html=requests.get(url).text.encode('utf-8-sig')

html=requests.get(url).text.encode('iso-8859-1').decode('utf-8-sig')

# print(html)

html = html.encode('utf-8-sig')

print('数据已更新...')

sp=BeautifulSoup(html,'html.parser')    #sp是bs4.Beautifulsoup类

# 将网页内转换为 list,list 中的元素是 dict

jsondata = ast.literal_eval(sp.text)   #把sp.text字符串转为dict类型

js=jsondata.get("aqidata")  #从jasondata中取出值为"aqidata"的key对应的value的列表

# 删除数据表内容

conn.execute("delete from TablePM25")

conn.commit()

#把抓到的数据逐条存到数据库

n=1

for city in js:

    CityName=city["city"]

    PM25=0 if city["pm2_5"] == "" else int(city["pm2_5"])

    print("城市:{}   PM2.5={}".format(CityName,PM25))

    # 新增一条记录

    sqlstr="insert into TablePM25 values({},'{}',{})" .format(n,CityName,PM25)

    cursor.execute(sqlstr)

    n+=1

    conn.commit() # 主动更新

conn.close()  # 关闭数据库连

from time import sleep

from selenium import webdriver

urls = ['http://www.baidu.com','http://www.wsbookshow.com','http://news.sina.com.cn/']

browser = webdriver.Chrome()

browser.maximize_window

for url in urls:

    browser.get(url)

    sleep(3)

browser.quit()

from selenium import webdriver #导入webdriver

url='http://www.wsbookshow.com/bookshow/jc/bk/cxsj/12442.html'  #以此链接为例

browser=webdriver.Chrome()  #生成Chrome浏览器对象(结果是打开Chrome浏览器)

browser.get(url)    #在浏览器中打开url

login_form=browser.find_element_by_id("menu_1")   ##查找id="menu_1"的元素

print(login_form.text)   #显示元素内容

#browser.quit()   #退出浏览器，退出驱动程序

username=browser.find_element_by_name("username")   #查找name="username"的元素

print(username)

password=browser.find_element_by_name("pwd")  #查找name="pwd"的元素

print(password)

login_form=browser.find_element_by_xpath("//input[@name='arcID']")

print(login_form)

login_form=browser.find_element_by_xpath("//div[@id='feedback_userbox']")

print(login_form)

continue_link=browser.find_element_by_link_text('新概念美语')

print(continue_link)

continue_link=browser.find_element_by_link_text('英语')

print(continue_link)

heading1=browser.find_element_by_tag_name('h1')

print(heading1)

content=browser.find_elements_by_class_name('topbanner')

print(content)

content=browser.find_elements_by_css_selector('.topsearch')

print(content)

# print(content.get_property)

print()

browser.quit()   #退出浏览器，退出驱动程序

text = '中华'

print(type(text))#<class 'str'>

text1 = text.encode('gbk')

print(type(text1))#<class 'bytes'>

print(text1)#b'\xd6\xd0\xbb\xaa'

text2 = text1.decode('gbk')

print(type(text2))#<class 'str'>

print(text2)#中华

text4= text.encode('utf-8')

print(type(text4))#<class 'bytes'>

print(text4)#b'\xe4\xb8\xad\xe5\x8d\x8e'

text5 = text4.decode('utf-8')

print(type(text5))#<class 'str'>

print(text5)#中华

import requests

url="http://www.baidu.com"

response = requests.get(url)

content = response.text.encode('iso-8859-1').decode('utf-8')

#把网页源代码解码成Unicode编码,然后用utf-8编码

print(content)

from selenium import webdriver   # 导入webdriver模块

chrome_obj = webdriver.Chrome()              # 打开Google浏览器

chrome_obj.get("https://www.baidu.com")      # 打开 网址

print(chrome_obj.title)

from selenium import webdriver   # 导入webdriver模块

chrome_obj = webdriver.Chrome()              # 打开Google浏览器

chrome_obj.get(r"C:\desktop\text.html")      # 打开本地 html页面

吴裕雄 python 爬虫（3）的更多相关文章

吴裕雄 python 爬虫（4）
import requests user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, li ...
吴裕雄 python 爬虫（2）
import requests from bs4 import BeautifulSoup url = 'http://www.baidu.com' html = requests.get(url) ...
吴裕雄 python 爬虫（1）
from urllib.parse import urlparse url = 'http://www.pm25x.com/city/beijing.htm' o = urlparse(url) pr ...
吴裕雄--python学习笔记：爬虫基础
一.什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网 ...
吴裕雄--python学习笔记：爬虫包的更换
python 3.x报错:No module named 'cookielib'或No module named 'urllib2' 1. ModuleNotFoundError: No module ...
吴裕雄--python学习笔记：爬虫
import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网 ...
吴裕雄 python 神经网络——TensorFlow pb文件保存方法
import tensorflow as tf from tensorflow.python.framework import graph_util v1 = tf.Variable(tf.const ...
吴裕雄 python 神经网络——TensorFlow 花瓣分类与迁移学习（4）
# -*- coding: utf-8 -*- import glob import os.path import numpy as np import tensorflow as tf from t ...
吴裕雄 python 神经网络——TensorFlow 花瓣分类与迁移学习（3）
import glob import os.path import numpy as np import tensorflow as tf from tensorflow.python.platfor ...

随机推荐

restframwork框架
一 APIView: class PublishView(APIView): def get(self,request): publish_list=Publish.objects.all() ret ...
win10安装tomcat9
环境:win10 64bit.tomcat 时间:2016年9月6日 15:11:47 一.下载tomcat 用浏览器打开tomcat官网:http://tomcat.apache.org/ 在左侧的 ...
MySQL 中的三中循环 while loop repeat 的基本用法
-- MySQL中的三中循环 while . loop .repeat 求 1-n 的和 -- 第一种 while 循环 -- 求 1-n 的和 /* while循环语法: while 条件 DO 循 ...
BZOJ4195 luoguP1955 NOI2015D1T1 程序自动分析
题意:给定n个(xi = xj) 或 (xi != xj) 的条件,问是否可能成立 BZOJ链接:http://www.lydsy.com/JudgeOnline/problem.php?id=419 ...
UiAutomatorHelper 调试类
package rom; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; impo ...
kafka源代码环境配置
kafka版本10.0.0.没有采用最新版本是因为项目中目前使用了这个版本. 1.安装gradle 首先进入https://gradle.org/install 查看Install manually- ...
node-disconf-client基本配置
node-disconf-client 需要cppm install node-disconf-client var disconf = require (' node-disconf-clien ...
深度学习原理与框架-卷积神经网络-cifar10分类(图片分类代码) 1.数据读入 2.模型构建 3.模型参数训练
卷积神经网络:下面要说的这个网络,由下面三层所组成卷积网络:卷积层 + 激活层relu+ 池化层max_pool组成神经网络:线性变化 + 激活层relu 神经网络: 线性变化(获得得分值) 代码 ...
java字符串常量池——字符串==比较的一个误区
转自:https://blog.csdn.net/wxz980927155/article/details/81712342 起因再一次js的json对象的比较中,发现相同内容的json对象使用 ...
TensorFlow实战——个性化推荐
原创文章,转载请注明出处: http://blog.csdn.net/chengcheng1394/article/details/78820529 请安装TensorFlow1.0,Python3. ...

吴裕雄 python 爬虫（3）

吴裕雄 python 爬虫（3）的更多相关文章

随机推荐

热门专题