python使用关键字爬取url

python网路爬虫 --------- 使用百度输入的关键字搜索内容然后爬取搜索内容的url

开发环境：windows7+python3.6.3

开发语言：Python

开发工具：pycharm

第三方软件包：需安装lxml4.0，如果只安装lxml会出错，要需要lxml中的etree

废话不多说，贴上代码：

爬取数据保存以TXT格式保存，等会尝试使用Excel表格跟数据库保存。

 import requests,time

 from lxml import etree

 def Redirect(url):

     try :

         res = requests.get(url,timeout=10)

         url = res.url

     except Exception as e:

         print('',e)

         time.sleep(1)

     return url

 def baidu_search(wd,pn_max,sav_file_name):

     url = 'http://www.baidu.com/s'

     return_set = set()

     for page in range(pn_max):

         pn = page*10

         querystring = {'wd':wd,'pn':pn}

         headers = {

             'pragma':'no-cache',

             'accept-encoding': 'gzip,deflate,br',

             'accept-language' : 'zh-CN,zh;q=0.8',

             'upgrade-insecure-requests' : '',

             'user-agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0",

             'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

             'cache-control': "no-cache",

             'connection': "keep-alive",

         }

         try :

             response = requests.request('GET',url,headers=headers,params=querystring)

             print('!!!!!!!!!!!!!!',response.url)

             selector = etree.HTML(response.text,parser = etree.HTMLParser(encoding='utf-8'))

         except Exception as e:

             print('页面加载失败',e)

             continue

         with open(sav_file_name,'a+') as f:

             for i in range(1,10):

                 try :

                     context = selector.xpath('//*[@id="'+str(pn+i)+'"]/h3/a[1]/@href')

                     print(len(context),context[0])

                     i = Redirect(context[0])

                     print('context='+context[0])

                     print ('i='+i)

                     f.write(i)

                     f.write('\n')

                     break

                     return_set.add(i)

                     f.write('\n')

                 except Exception as e:

                     print(i,return_set)

                     print('',e)

     return return_set

 if __name__ == '__main__':

     wd = '网络贷款'

     pn = 100

     save_file_name = 'save_url_soup.txt'

     return_set = baidu_search(wd,pn,save_file_name)

python使用关键字爬取url的更多相关文章

【网络爬虫】【java】微博爬虫（一）：小试牛刀——网易微博爬虫（自定义关键字爬取微博数据）（附软件源码）
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
如何手动写一个Python脚本自动爬取Bilibili小视频
如何手动写一个Python脚本自动爬取Bilibili小视频国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
14.python案例：爬取电影天堂中所有电视剧信息
1.python案例:爬取电影天堂中所有电视剧信息 #!/usr/bin/env python3 # -*- coding: UTF-8 -*- '''======================== ...

随机推荐

EOS行为核心：解析插件chain_plugin
EOS提供了大量的rpc接口,其中功能性最强,使用最频繁的一部分接口是EOS的行为核心,由chain_api_plugin提供,具体实现是在chain_plugin. 关键字:EOS,区块链,chai ...
delete attempted to return null from a method with a primitive return type (int)
今天被自己给蠢死了今天在代码中遇到这个错误, 百度翻译一下:映射方法,从一org.system.mapper.child.chmorganizationexaminationmapper.delet ...
spring-boot-2.0.3源码篇 - 国际化
前言针对spring boot,网上已有很多优质的系列教程,我就不再班门弄斧了(实际上是担心没别人写的好,哈哈哈!).但是还是想蹭蹭spring boot的热度,即使不考虑微服务,spring bo ...
DenseNet 论文阅读笔记
Densely Connected Convolutional Networks 原文链接摘要研究表明,如果卷积网络在接近输入和接近输出地层之间包含较短地连接,那么,该网络可以显著地加深,变得更精 ...
openWin和openFrame 设置透明背景
openWin简单点说就是:像是一个浏览器 openFrame就是对应openWin浏览器里面打开的每一个网页有些操作只能在openWin里面执行,比如监听安卓返回事件,只能在openWin里面才有 ...
【Dubbo&&Zookeeper】3、Failed to read schema document 'http://code.alibabatech.com/schema/dubbo/dubbo.xsd'问题解决方法
转自:http://blog.csdn.net/gaoshanliushui2009/article/details/50469595 我们公司使了阿里的dubbo,但是阿里的开源网站http://c ...
java_分数
题目内容: 设计一个表示分数的类Fraction.这个类用两个int类型的变量分别表示分子和分母. 这个类的构造函数是: Fraction(int a, int b) 构造一个a/b的分数. 这个类要 ...
Django Rest framework 之权限
django rest framework 之认证(一) django rest framework 之权限(二) django rest framework 之节流(三) django res ...
socket、web socket
WEB SOCKET: 说明:为浏览器提供双工异步通信,浏览器可以向服务端发送消息.服务端也可以向浏览器发送消息. SOCKET: 说明:网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接 ...
【读书笔记】iOS-对iOS应用进行模糊测试
一,模糊测试,是指通过反复向待测应用发送畸形的数据,对应用进行动态测试的过程. 二,模糊测试,也称动态分析,是一种构造非法输入并将其提供给应用,以期让应用暴露出某些安全问题的艺术和科学. 参考资料:& ...

python使用关键字爬取url

python使用关键字爬取url的更多相关文章

随机推荐

热门专题