python实现一个栏目的分页抓取列表页抓取

#!/usr/bin/env python

# coding=utf-8

import requests

from bs4 import BeautifulSoup

import pymysql

import sys, io

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') # Change default encoding to utf8

print('连接到mysql服务器...')

db = pymysql.connect("localhost","root","root","python")

print('连接上了!')

cursor = db.cursor()

hdrs = {'User-Agent':'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)'}

def has_class_but_no_id(tag):

    return tag.has_attr('title') and tag.has_attr('href') and not tag.has_attr('target')

urls = ['http://www.zztez.com/tezgl/list_1_{}.html'.format(str(i)) for i in range(5,11)]

for url in urls:

    print(url)

    r = requests.get(url, headers = hdrs)

    soup = BeautifulSoup(r.content.decode('gbk', 'ignore'), 'lxml')

    for link in soup.find_all(has_class_but_no_id):

                url="http://www.zztez.com" + link.get('href')

                r = requests.get(url, headers = hdrs)

                soup = BeautifulSoup(r.content.decode('gbk', 'ignore'), 'lxml')

                title=soup.find("h1")

                title=title.string.encode("utf-8")

                intro=soup.select(".intro")

                rintro=intro[0].string.encode("utf-8")

                content=soup.select(".content")

                rcontent=content[0].encode("utf-8")

                #查询数据

                sql="SELECT count(*) as total FROM article WHERE title like %s"

                data=(title)

                row_affected=cursor.execute(sql,data)

                one=cursor.fetchone()

                if one==(0,):

                    insert = ("INSERT INTO article(title,intro,content)" "VALUES(%s,%s,%s)")

                    data = (title, rintro, rcontent)

                    cursor.execute(insert, data)

                    db.commit()

print('爬取数据并插入mysql数据库完成...')

python实现一个栏目的分页抓取列表页抓取的更多相关文章

控制台js常用解决方案，字符串替换和抓取列表页链接
抓取列表页链接由于测试站没有jquery所以,我用了原生的js var obj = document.getElementsByClassName('class1'); for(let i = 0; ...
BeautifulSoup抓取列表页锚文本
素闻BeautifulSoup提取效率低,艾玛,第一印象果然是很要命的,反正比Re 和 Lxml 是要慢的,不过就无奈Re的正则折腾来折腾去,没写出来,Lxml 的 Xpath 又用得不好. 不过就这 ...
菜鸟学IT之python网页爬取多页爬取
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数,并整理成函数 newsUrl news ...
dedecms列表页调用子栏目列表，织梦首页调用栏目的子栏目标签代码
dedecms列表页调用子栏目列表,织梦首页调用栏目的子栏目标签代码. dedecms列表页调用子栏目列表标签: {dede:channelartlist type='sun' }<a href ...
scrapy爬虫系列之四--爬取列表和详情
功能点:如何爬取列表页,并根据列表页获取详情页信息? 爬取网站:东莞阳光政务网完整代码:https://files.cnblogs.com/files/bookwed/yangguang.zip 主 ...
python实现列表页数据的批量抓取练手练手的
python实现列表页数据的批量抓取,练手的,下回带分页的 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import B ...
Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息
学习目的: 解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用正式步骤 Step1:流程分析抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: ...
Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...

随机推荐

一定要记住这20种PS技术，让你的照片美的不行！ - imsoft.cnblogs
照片名称:调出照片柔和的蓝黄色-简单方法, 1.打开原图素材,按Ctrl + J把背景图层复制一层,点通道面板,选择蓝色通道,图像 > 应用图像,图层为背景,混合为正片叠底,不透明度50%,反相 ...
xdoj-1149(多重集合+容斥原理+组合数取模）
#include <iostream> #include <algorithm> #include <cstdio> using namespace std; ty ...
Hadoop storm大数据分析知识体系结构
最近工作工作有用到hadoop 和storm,最近看到一个网站上例句的hadoop 和storm的知识体系.所以列出来供大家了解和学习.来自哪个网站就不写了以免以为我做广告额. 目录结构知识点还是挺全 ...
vulcanjs 开源工具方便快速开发react graphql meteor 应用
vulcan 开源工具方便快速开发react graphql meteor 应用操作环境mac os 安装 meteor 安装(此安装有点慢,可以通过正确上网解决) curl https://ins ...
Spring MVC 向页面传值-Map、Model、ModelMap、ModelAndView
Spring MVC 向页面传值,有4种方式: ModelAndView Map Model ModelMap 使用后面3种方式,都是在方法参数中,指定一个该类型的参数. Model Model 是一 ...
win10禁用自动更新服务
win10禁用自动更新服务按Win+R,打开运行,输入"services.msc"打开服务: 找到"Windows Update",选择属性,修改为禁用即可: ...
php curl文件上传兼容php5.0~5.6各版本
PHP 5.0~5.6 各版本兼容的cURL文件上传最近做的一个需求,使用PHP cURL上传文件.踩坑若干,整理如下. 不同版本PHP之间cURL的区别 PHP的cURL支持通过给CURL_POS ...
Angular 4 子路由
子子路由现在要为产品组件增加两个子组件 1. 创建productDesc和sellerInfo两个组件 ng g component productDesc ng g component selle ...
实例直观解释sessionid的作用
有两个php页面,demo1.php与demo2.php.如果想要在demo1.php创建一个session需要在的demo2.php或者说其它页面都可以获取到设置的session的值,达到会话的功能 ...
python findall() re.S
官方文档:https://docs.python.org/3.6/library/re.html 教程:http://www.regexlab.com/zh/regref.htm re.findall ...

python实现一个栏目的分页抓取列表页抓取

python实现一个栏目的分页抓取列表页抓取的更多相关文章

随机推荐

热门专题