多线程爬虫爬取详情页HTML

注意：如果想爬取详情页的信息请按须添加方法

import requests

import os

import re

import threading

from lxml import etree

#爬去详情页得HTML内容

class CnBeta(object):

def get_congtent(self,url):

#获取网页首页HTML信息

r = requests.get(url)

#将获取得HTML页面进行解码

html = r.content.decode('utf-8')

#返回值

return html

def xpath_html(self,html):

html = etree.HTML(html)

#利用xpath进行解析HTML模板

new_url = html.xpath("//dt/a/@href")

#定义容器把获取到得所有详情页url添加到容器

url_list = []

#定义容器把截取后得文件名字添加到名字容器

name_list = []

#遍历url列表容器

for i in new_url:

#由于获取到得url不同利用判断进行手动更改

if "http:" not in i:

h = "http:" + i + ".htm"

url_list.append(h)

else:

url_list.append(i)

#对获取到得url进行链式切片获取想要得字段用来命名文件名字

file_name = i.split('/')[-1].split('.')[0]

#把获取到的文件名字添加到名字容器

name_list.append(file_name)

#返回两个值

return url_list,name_list

#定义方法获取详情页URL

def load_html(self,url,name):

#获取详情页HTML信息

r = requests.get(url)

#对详情页HTML信息进行解码

html = r.content.decode("utf-8")

#把相应得HTML信息写入指定文件夹并把动态传过来得文件名字直接写入并加入指定文件后缀

with open('E:/新建文件夹/'+name+".html",'w',encoding="utf-8") as f:

f.write(html)

if __name__ == "__main__":

#实例化对象

cndeta = CnBeta()

#调用方法并传入首页URL

html = cndeta.get_congtent('https://www.cnbeta.com/')

#定义两个变量分别接收方法传过来的两个参数

url,name = cndeta.xpath_html(html)

#循环遍历url的个数定义线程执行的个数在这里直接执行len(url)个线程

for i in range(len(url)):

#定义多线程爬去 target指定方法 args指定相应的url和文件名字

s = threading.Thread(target=cndeta.load_html,args=(url[i],name[i]))

#守护线程

s.setDaemon(True)

#执行线程

s.start()

#阻塞主线程

s.join()

多线程爬虫爬取详情页HTML的更多相关文章

Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
scrapy爬取网址，进而爬取详情页问题
1.最容易出现的问题是爬取到的url大多为相对路径,如果直接将爬取到的url进行二次爬取就会出现以下报错: raise ValueError('Missing scheme in request ur ...
Python多线程爬虫爬取网页图片
临近期末考试,但是根本不想复习!啊啊啊啊啊啊啊!!!! 于是做了一个爬虫,网址为 https://yande.re,网页图片为动漫美图(图片带点颜色........宅男福利 github项目地址为:h ...
一个简单的定向python爬虫爬取指定页面的jpg图片
import requests as r import re resul=r.get("http://www.imooc.com/course/list") urlinfo=re. ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
爬虫（GET）——爬取多页的html
工具:python3 目标:将编写的代码封装,不同函数完成不同功能,爬取任意页数的html 新学语法:with open as 除了有更优雅的语法,with还可以很好的处理上下文环境产生的异常. # ...
（java）Jsoup爬虫学习--获取智联招聘（老网站）的全国java职位信息，爬取10页
Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ...
python爬虫系列之爬取多页gif图像
python爬取多页gif图像作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...

随机推荐

Django的下载安装以及实现一个简单示例
一.Django下载安装 Django下载链接 1. 下载Django: pip3 install django==1.11.9 (大的版本1.11不要错) 2.创建一个django proje ...
洛谷P4588 [TJOI2018]数学计算(线段树)
题意题目链接 Sol TJOI怎么全是板子题对时间开个线段树,然后就随便做了.... #include<bits/stdc++.h> using namespace std; cons ...
关于Object数组强转成Integer数组的问题：Ljava.lang.Object; cannot be cast to [Ljava.lang.Integer;
一.当把Object数组,强转的具体的Integer数组时,会报错. 代码如下: //数组强转报错演示 Object[] numbers = {1,2,3}; Integer[] ints = (In ...
FUNCTIONALITY OF ITEM CATEGORY
Item Category Purpose This wiki page will breify discuss about functionality of Item Category in SAP ...
Android在程序崩溃或者捕获异常之后重新启动app
在Android应用开发中,偶尔会因为测试的不充分导致一些异常没有被捕获,这时应用会出现异常并强制关闭,这样会导致很不好的用户体验,为了解决这个问题,我们需要捕获相关的异常并做处理. 首先捕获程序崩溃 ...
Kotlin入门(25)共享参数模板
共享参数SharedPreferences是Android最简单的数据存储方式,常用于存取“Key-Value”键值对数据.在使用共享参数之前,要先调用getSharedPreferences方法声明 ...
性能优化7--App瘦身
1. 前言如果你对App优化比较敏感,那么Apk安装包的大小就一定不会忽视.关于瘦身的原因,大概有以下几个方面: 对于用户来说,在功能差别不大的前提下,更小的Apk大小意味更少的流量消耗,也意味着更 ...
Web前端：博客美化：二、鼠标特效
1.获取JS权限因为是js代码所以需要放在侧边栏公告里没开通之前,有一个申请的链接,点击即可,我是第二天才看到过审的 ^-^ 2.Ctrl+C.Ctrl+V 数组里的文字随自己心情啦另:30 ...
mac下编译node源码
看过一篇win7 64x下面编译node的文章,链接地址:编译nodejs及其源码研究下面学习一下在mac下面如何编译node源码. 过程也挺简单. 1.下载源码. > mkdir nodes ...
mac date命令详解
Mac下的date命令是BSD(Berkeley Software Distribution)系的,Linux下date命令是GNU(GNU's Not Unix)系,二者用法有一些区别. BSD并不 ...

多线程爬虫爬取详情页HTML

多线程爬虫爬取详情页HTML的更多相关文章

随机推荐

热门专题