爬虫的相关操作

1、爬文本内容

# coding=gbk

import requests                                   ##声明相关库

import re

response=requests.get('http://duanziwang.com/')   ##获取到需要爬虫的网址

data=response.text                                ##把网站的相关内容全部爬下来

res=re.findall('<p>(.*?)</p>',data)               ##获取自己需要的那一部分

print(res)

import requests

import re

respone=requests.get('http://ishuo.cn/')

data=respone.text

res=re.findall('<li class="list_li">(.*?)</li>',data)

dict={}

for i in res:                ##对内容进行循环，并取出标题跟内容

    context=re.findall('<div class="content">(.*?)</div>',i)[0]

    title=re.findall('<a href="/subject/.*?">(.*?)</a>',i)[0]

    desc=re.findall('</a>(04月.*?)</div>',i)[0]

    dict[title]=(context,desc)

for i in dict.items():

    print(f'{i[0]:<20} | {i[1]}')

2、爬图片内容

import requests

import re

respone=requests.get('http://www.nipic.com/design/acg/renwu/index.html?page=1&tdsourcetag=s_pcqq_aiomsg')

data=respone.text

img_res=re.findall('data-src="(.*?)"',data)

for i in img_res:

    img_response=requests.get(i)

    img_data=img_response.content    ##图片会以二进制的形式显示

    img_name=i.split('/')[-1]        ##以/进行分割并取出每一张图片

    f=open(img_name,'wb')            ##打开图片并写入

    f.write(img_data)

3、爬视频内容

import requests

import re

response = requests.get('http://www.mod.gov.cn/v/index.htm')

data = response.text

mp4_res2 = re.findall('<a href="(.*?)">', data)

for i in mp4_res2:  # type:str

    res = re.findall('(.*?htm)', i)[0]

    res = 'http://www.mod.gov.cn/v/' + res

    response = requests.get(res)

    data = response.text

    # http://vv.chinamil.com.cn/asset/category3/2019/06/27/asset_357593.mp4

    url_res = re.findall('//Video (.*?.mp4)',data)[0]

    mp4_response = requests.get(url_res)

    mp4_data = mp4_response.content

    f = open('test.mp4','wb')

    f.write(mp4_data)

    # break

python的爬虫小入门的更多相关文章

python网络爬虫之入门[一]
目录前言一.探讨什么是python网络爬虫? 二.一个针对于网络传输的抓包工具fiddler 三.学习request模块来爬取第一个网页 * 扩展内容(爬取top250的网页) 后记 @(目录) ...
python网页爬虫小项目开发
这是我最近接的一个小项目,花了是整整四天多时间. 任务是将http://www.examcoo.com/index/detail/mid/7网站下所有的试卷里的试题全部提取出来,首先按照题型进行分类, ...
[Python] Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...
Python之爬虫从入门到放弃（十三） Scrapy框架整体的了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
Python网络爬虫实战入门
一.网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序. 爬虫的基本流程: 发起请求: 通过HTTP库向目标站点发起请求,也就是发送一个Request ...
Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python网络爬虫之自动化测试工具selenium[二]
目录前言一.获取今日头条的评论信息(request请求获取json) 1.分析数据 2.获取数据二.获取今日头条的评论信息(selenium请求获取) 1.分析数据 2.获取数据房源案例(仅供 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...

随机推荐

Python调用cmd命令
常用的两种方式: 1.python的OS模块. OS模块调用CMD命令有两种方式:os.popen(),os.system(). 都是用当前进程来调用. os.system是无法获取返回值的.当运行结 ...
（转）hashmap hashtable 的区别 Hash table 内部的数据结构
转自:http://www.cnblogs.com/carbs/archive/2012/07/04/2576995.html Hashtable 和 HashMap 做为 Map 的基本特性两者都 ...
解决 jmeter 压测Non HTTP response code: java.net.NoRouteToHostException/Non HTTP response message: Cannot assign requested address (Address not available)
针对centos : 先检查下tcp port range 在合理范围内: cat /proc/sys/net/ipv4/ip_local_port_range 1024 65535 上述为ce ...
windows下划分逻辑分区
运行命令窗口后,我们输入命令"diskpart"回车! 然后我们在DISKPART>后面输入select disk 0 选择我们的硬盘,然后回车!当然如果你电脑上有好几块硬盘 ...
剑指offer 面试题删除链表中重复的节点
题目描述在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针. 例如,链表1->2->3->3->4->4->5 处理后 ...
图像变换 - 霍夫线变换(cvHoughLines2)
霍夫变换是一种在图像中寻找直线.圆及其他简单形状的方法,霍夫线变换是利用Hough变换在二值图像中找到直线. 利用CV_HOUGH_PROBABILISTIC,对应PPHT(累计概率霍夫变换)?这个算 ...
MySQL5.7的参数优化
https://www.cnblogs.com/zhjh256/p/9260636.html query_cache_size = 0query_cache_type=0innodb_undo_tab ...
开源镜像站，vmware下载
vmware下载:https://www.newasp.net/soft/345086.html 官网下载链接:https://www.centos.org/download/ http://mirr ...
java 中使用logback日志，并实现日志按天分类压缩保存。
以maven项目作为构建工具为例,首先引入使用logback需要的3个依赖,需要注意使用logback是需要引入slf4j-api的,因为logback是基于slf4j的 <!--logback ...
ThinkPHP中的时间自动填充无法获取时间
protected $_auto = array( array('addTime','time','1','function'), ); addTime在数据库里的的类型必须为int ...

python的爬虫小入门

爬虫的相关操作

python的爬虫小入门的更多相关文章

随机推荐

热门专题