从网页爬取文本信息：

eg:从http://computer.swu.edu.cn/s/computer/kxyj2xsky/中爬取讲座信息（讲座时间和讲座名称）

注：如果要爬取的内容是多页的话，网址一定要从第二页开始，因为有的首页和其他页的网址有些区别

代码

import pymysql

import requests

#需要导入模块

db = pymysql.connect('localhost', 'root', '*********', 'mysql')#第三个是数据库密码，第四个是数据库名称

print("数据库连接成功！")

print("---------------------------------------------------")

r = requests.get("https://python123.io/ws/demo.html")#获取网页源代码

import re

def get_text(url):#函数

    r = requests.get(url)

    r.raise_for_status()

    r.encoding = r.apparent_encoding

    return r.text

def parse_html(url, list):

    demo = get_text(url)

    # 将正则表达式编译成正则表达式对象，方便复用该正则表达式

    # ".*?" ：匹配任意字符串

    # [\u4e00-\u9fa5] ：匹配中文

    # (\d{}-\d{}-\d{}) : 匹配日期

    #计信院前沿学术报告(2019.7.)</a></li>\[(\d{}-\d{}-\d{})\]

    patern = re.compile('<li><span\sclass="fr">\[(\d{4}-\d{2}-\d{2})\]</span>.*?&nbsp;&nbsp;(.*?)</a></li>', re.S)

    results = re.findall(patern, demo)

    for result in results:

        list.append(result)#向列表添加对象

    return list

url = 'http://computer.swu.edu.cn/s/computer/kxyj2xsky/index.html'

list = []

for i in range(,):

    url = 'http://computer.swu.edu.cn/s/computer/kxyj2xsky/index_'+str(i) + '.html'

    list = parse_html(url, list)

count =

for i in list:

    count = count +

    print(i)

print("一共有"+str(count)+"条数据！")

输出

数据库连接成功！

---------------------------------------------------

('2018-11-20', '计信院前沿学术报告（2018.11-23）')

('2018-11-19', '计信院前沿学术报告（2018.11-20）')

('2018-11-15', '计信院前沿学术报告（2018.11-22）')

('2018-11-12', '计信院前沿学术报告（2018.11-14）')

('2018-11-02', '第三届全国形式化方法与应用会议暨形式化专委年会（FMAC 2018）即将开幕')

('2018-11-01', '计信院前沿学术报告（2018.11-06）')

('2018-10-25', '计信院前沿学术报告（2018.10-31）')

('2018-10-17', '计信院前沿学术报告（2018.10-19）')

('2018-10-10', '计信院前沿学术报告（2018.10-17）')

('2018-09-26', '计信院前沿学术报告（2018.09-29）')

('2018-09-12', '计信院前沿学术报告（2018.09-18）')

('2018-09-03', '计信院前沿学术报告（2018.09-04）')

('2018-07-05', '计信院前沿学术报告(2018.07-05)')

('2018-06-28', '计信院前沿学术报告(2018.07-02)')

('2018-06-20', '第7届华人学者知识表示与推理学术研讨会')

('2018-06-19', '计信院前沿学术报告(2018-06-20)')

('2018-05-15', '计信院前沿学术报告(2018-05-16)')

('2018-05-07', '计信院前沿学术报告(2018-05-10)')

('2018-05-02', '西南大学第三届青年学者含弘科技论坛 计算机与信息科学学院分论坛 学术报告')

('2018-04-16', '计信院前沿学术报告（2018-04-23）')

('2018-04-09', '计信院前沿学术报告（2018-04-16）')

('2018-04-04', '第四届可信软件系统工程（国际）春季学校Spring School on Engineering Trustworthy Software Systems')

('2018-04-02', '计信院前沿学术报告(2018-04-08)')

('2018-04-02', '计信院前沿学术报告(2018-04-02)')

('2018-03-27', '计信院前沿学术报告（2018-03-30）')

('2018-01-09', '理论计算机科学2018寒假讲习班')

('2018-01-09', '计信院前沿学术报告(2018-01-11)')

('2018-01-03', '计信院前沿学术报告(2018-01-05)')

('2017-12-27', '出国访学（留学）经验交流')

('2017-12-27', '计信院前沿学术报告(2017-12-28)')

('2017-12-25', '计信院前沿学术报告(2017-12-28)')

('2017-12-18', '出国访学（留学）经验交流')

('2017-12-18', '西南大学第二届青年学者含弘科技论坛 计算机与信息科学学院分论坛 学术报告（二）')

('2017-12-18', '西南大学第二届青年学者含弘科技论坛 计算机与信息科学学院分论坛 学术报告（一）')

('2017-12-15', '计信院前沿学术报告(2017-12-28)')

('2017-12-15', '出国访学（留学）经验交流')

('2017-12-11', '计信院前沿学术报告(2017-12-13)')

('2017-11-28', '计信院前沿学术报告(2017-11-28)')

('2017-11-22', 'Third Joint Research Workshop')

('2017-11-06', '计信院前沿学术报告(2017-11-11)')

('2017-11-06', '计信院前沿学术报告(2017-11-10)')

('2017-11-06', '计信院前沿学术报告(2017-11-09)')

('2017-10-29', '计信院前沿学术报告(2017-10-30)')

('2017-10-25', '计信院前沿学术报告(2017-10-31)')

('2017-10-19', '计信院前沿学术报告(2017-10-23)')

('2017-10-17', '卑尔根-重庆网络化系统暑期学校')

('2017-10-12', '首届“西南大学重要学术成果”候选成果系列报告')

('2017-09-18', '出国访学（留学）经验交流')

('2017-09-14', '计信院前沿学术报告2017-09-15')

('2017-09-06', '出国访学（留学）经验交流')

('2017-07-05', '出国访学（留学）经验交流')

('2017-06-21', '计信院前沿学术报告(2017-06-27)')

('2017-06-21', '计信院前沿学术报告(2017-06-26)')

('2017-06-12', '计信院出国访学（留学）经验交流')

('2017-05-27', '计信院前沿学术报告(2017-06-02)')

('2017-05-24', '计信院学术研讨会(2017-05-28)')

('2017-05-24', '计信院前沿学术报告(2017-05-26)')

('2017-05-03', '西南大学青年学者含弘科技论坛')

('2017-04-13', '可信软件系统工程（国际）春季学校')

('2017-04-10', '西南大学计信院前沿学术报告')

('2017-03-31', '西南大学计信院前沿学术报告')

('2017-03-31', '西南大学教师参加国际学术会议专题报告会')

('2017-03-29', '西南大学计信院前沿学术报告')

('2017-03-29', '西南大学计信院前沿学术报告')

('2017-03-29', '西南大学计信院前沿学术报告')

('2017-03-28', '出国访学（留学）经验交流')

('2017-03-16', '出国访学（留学）经验交流')

('2017-03-15', '出国访学（留学）经验交流')

('2017-01-10', '西南大学计信院前沿学术报告')

('2017-01-05', '学术讲座')

('2017-01-04', '西南大学计信院前沿学术报告')

('2016-12-20', '理论计算机科学与形式化方法研讨会')

('2016-12-20', '西南大学计信院前沿学术报告')

('2016-12-14', '西南大学计信院前沿学术报告')

('2016-12-12', '西南大学计信院前沿学术报告')

一共有75条数据！

Process finished with exit code

从网页中爬取图片

eg:从https://maoyan.com/board/4?offset=10中爬取图片，存到位置C:\Users\22725\Desktop\temp

format 格式控制函数 foramt函数更常见的用法其实是str.format()

示例：

>>>"{} {}".format("hello", "world")    # 不设置指定位置，按默认顺序

'hello world'

>>> "{0} {1}".format("hello", "world")  # 设置指定位置

'hello world'

>>> "{1} {0} {1}".format("hello", "world")  # 设置指定位置

'world hello world'

代码：

import pymysql

import requests

from hashlib import md5

import re

import os

def get_text(url):

    r = requests.get(url)

    r.raise_for_status()

    r.encoding = r.apparent_encoding

    return r.text

def parse_html(url, list):

    demo = get_text(url)

    # 将正则表达式编译成正则表达式对象，方便复用该正则表达式

    # ".*?" ：匹配任意字符串

    # [\u4e00-\u9fa5] ：匹配中文

    # (\d{}-\d{}-\d{}) : 匹配日期

    patern = re.compile('img\sdata-src="(.*?)"\salt', re.S)

    results = re.findall(patern, demo)

    for result in results:

        list.append(result)

    return list

list = []

for i in range(,):#左闭右开区间[,)

    url = 'https://maoyan.com/board/4?offset='+str(*i)

    list = parse_html(url, list)

count =

for i in list:

    count = count +

    print(i)#输出图片链接

print("一共有"+str(count)+"条数据！")

def download_image(url):#保存图片链接

    r = requests.get(url)

    r.raise_for_status()

    save_image(r.content)

def save_image(content):#下载图片

    file_path = '{0}/{1}.{2}'.format('C:/Users/22725/Desktop/temp', md5(content).hexdigest(), 'jpg')#注意斜杠是/

    #format('文件储存地址'，哈希算法随机生成子文件名称，'文件格式')

    if not os.path.exists(file_path):#os.path.exists(file_path)判断文件是否存在，存在返回1，不存在返回0

        with open(file_path, 'wb') as f:

            f.write(content)

            f.close()

for i in list:

    download_image(i)

print("下载成功")

输出：

C:\Users\\PycharmProjects\A\venv\Scripts\python.exe C:/Users//.PyCharmCE2019./config/scratches/scratch.py

https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c

https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c

https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/46c29a8b8d8424bdda7715e6fd779c66235684.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c

https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c

https://p1.meituan.net/movie/18e3191039d5e71562477659301f04aa61905.jpg@160w_220h_1e_1c

https://p1.meituan.net/movie/14a7b337e8063e3ce05a5993ed80176b74208.jpg@160w_220h_1e_1c

https://p1.meituan.net/movie/6bc004d57358ee6875faa5e9a1239140128550.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/ae7245920d95c03765fe1615f3a1fe3865785.jpg@160w_220h_1e_1c

https://p1.meituan.net/movie/6a964e9cee699267053bd6a4bf6f2671195394.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/43d259ecbcd53e8bbe902632772281d6327525.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/2bbaa395c825920fac397706369746e4300686.jpg@160w_220h_1e_1c

https://p1.meituan.net/movie/ad974d3527879f00be2eec29135118163728582.jpg@160w_220h_1e_1c

https://p0.meituan.net/movie/932bdfbef5be3543e6b136246aeb99b8123736.jpg@160w_220h_1e_1c

https://p1.meituan.net/movie/aacb9ed2a6601bfe515ef0970add1715623792.jpg@160w_220h_1e_1c

一共有20条数据！

下载成功

Process finished with exit code

python爬取网页文本、图片的更多相关文章

python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
如何使用python爬取网页动态数据
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...
利用Python爬取网页图片
最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...
Python入门,以及简单爬取网页文本内容
最近痴迷于Python的逻辑控制,还有爬虫的一方面,原本的目标是拷贝老师上课时U盘的数据.后来发现基础知识掌握的并不是很牢固.便去借了一本Python基础和两本爬虫框架的书.便开始了自己的入坑之旅言 ...
python爬取网页图片（二）
从一个网页爬取图片已经解决,现在想要把这个用户发的图片全部爬取. 首先:先找到这个用户的发帖页面: http://www.acfun.cn/u/1094623.aspx#page=1 然后从这个页面中 ...
使用python爬取P站图片
刚开学时有一段时间周末没事,于是经常在P站的特辑里收图,但是P站加载图片的速度比较感人,觉得自己身为计算机专业,怎么可以做一张张图慢慢下这么low的事,而且这样效率的确也太低了,于是就想写个程序来帮我 ...
Python爬取养眼图片
1.准备各位绅士们,你可能会觉得疫情在家无聊,那么现在我们的Python语言可以满足你们的需求.项目需要的工具(1)Python3(2)requests库requests库可以通过代码pip ins ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...

随机推荐

webView之可加载JavaScript
有两个方法方法一: 首先就是在xml文件中添加webview标签很简单不用说明初始化控件 private WebView wv= (WebView) findViewById(R.id.wv); ...
使用anaconda 3安装tensorflow 1.15.0 （win10环境）
0.写在前面之前其实安装过一次tensorflow,但是由于电脑中毒,重装了系统,把所有的环境全部删除了.之前在博客里转发了一篇别人在win10安装tensorflow的教程,但是版本比较旧了, ...
redis-Hash(哈希表)
Redis hash 是一个string类型的field和value的映射表,它的添加.删除操作都是O(1)(平均).hash特别适用于存储对象,将一个对象存储在hash类型中会占用更少的内存,并且可 ...
深度学习Tensorflow框架的安装
选择下载安装Anaconda3.4.2.0-python3.5版本安装(3.6版本不适合后面opencv-python的安装): 打开Anaconda Prompt命令窗口编辑界面(黑窗口),输入py ...
Cookie跨域setDomain和setPath
CSDN日报20170226--<你离心想事成只差一个计划> 程序员2月书讯 [招募]Python学习班招生啦 Cookie跨域setDomain和setPath 标签: cookiesp ...
VMware安装GHOST版XP不成功的解决
VMware安装GHOST版XP不成功的解决 1. A:\GHOSTERR.TXT 失败分析产生的原因是没有对造作系统的分区进行激活操作. 为什么安装盘就不用管什么激活不激活的? 因为,使 ...
2017 北京网络赛 E Cats and Fish
Cats and Fish 时间限制:1000ms 单点时限:1000ms 内存限制:256MB 描述 There are many homeless cats in PKU campus. They ...
javaBean、EJB、POJO
1.JavaBean 最初是由 Sun 公司提出的一种规范,主要包含以下要求: ----类是 public 的,并且有一个无参数的构造函数 ----属性修饰符为:private,并通过 get 和 s ...
扩展的Sobel 算子
Custom Extended Sobel Filters https://arxiv.org/pdf/1910.00138.pdf sobel算子是进行边缘检测的一个重要算子.它通常是一个3x3的 ...
洛谷 P3435 [POI2006]OKR-Periods of Words
题目传送门解题思路: 这道题题面比较乱,先说一下这道题要求什么: 对于一个字符串,求它及它的所有前缀的一个答案串的长度之和,答案串就是对于一个字符串,找到一个它的一个前缀,这个前缀后面在复制一遍,得 ...

python爬取网页文本、图片

从网页爬取文本信息：

从网页中爬取图片

python爬取网页文本、图片的更多相关文章

随机推荐

热门专题