python 爬取百度url

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 # @Date    : 2017-08-29 18:38:23

 # @Author  : EnderZhou (zptxwd@gmail.com)

 # @Link    : http://www.cnblogs.com/enderzhou/

 # @Version : $Id$

 import requests

 import sys

 from Queue import Queue

 import threading

 from bs4 import BeautifulSoup as bs

 import re

 # 默认爬取百度76页搜索结果url，调用格式 Python.exe 本文件名称.py 搜索关键字，如关键字含特殊符号使用引号包含起来。

 # 爬取结果有txt文档输出。目前尚未能过来百度推广链接，后续有可能会完善。另外后续将会添加同一网站相同路径不通参数url的过滤。

 # https://www.baidu.com/s?wd=ichunqiu&pn=10

 # wd参数为搜索内容关键字 pn参数控制页码 第二页为10 每页新增10 最大页数参数为750即76页。

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36',}

 class BaiduSpider(threading.Thread):

     def __init__(self,queue):

         threading.Thread.__init__(self)

         self._queue = queue

     def run(self):

         while not self._queue.empty():

              url = self._queue.get()

              try:

                  self.spider(url)

              except Exception as e:

                  # print e

                  pass

     def spider(self,url):

         r = requests.get(url=url,headers=headers)

         soup = bs(r.content,'html.parser')

         urllist = soup.find_all(name='a',attrs={'data-click':re.compile(('.')),'class':None,'data-is-main-url':None})

         for i in urllist:

             l = requests.get(url=i['href'],headers=headers)

             if l.status_code == 200:

                 ll = l.url.split('/')

                 lll = ll[0]+'//'+ll[2]+'\n'

                 #可根据需求修改是否显示主域名

                 sys.stdout.write(lll+l.url+'\n')

                 f1 = open('out_para.txt','a+')

                 f1.write(l.url+'\n')

                 f1.close()

                 with open('out_index.txt') as f:

                     if lll not in f.read():

                         f2 = open('out_index.txt','a+')

                         f2.write(lll)

                         f2.close()

 def main(keyword):

     queue = Queue()

     for i in range(0,760,10):

         l = 'https://www.baidu.com/s?wd='+keyword+'&pn='+str(i)

         # print l

         queue.put(l)

     threads = []

     thread_count = 5

     for i in range(thread_count):

         threads.append(BaiduSpider(queue))

     for t in threads:

         t.start()

     for t in threads:

         t.join()

 if __name__ == '__main__':

     if len(sys.argv) != 2:

         print 'Enter:python %s keyword' % sys.argv[0]

         sys.exit(-1)

     else:

         f1 = open('out_para.txt','w')

         f1.close()

         f2 = open('out_index.txt','w')

         f2.close()

         main(sys.argv[1])

python 爬取百度url的更多相关文章

Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
python爬取百度贴吧帖子
最近偶尔学下爬虫,放上第二个demo吧 #-*- coding: utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Too ...
爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10
今天主要完成了根据爬取的txt文档,从百度分类从信息科学类爬取百度词条信息,并写入CSV格式文件. txt格式文件如图: 为自己爬取内容分词后的结果. 代码如下: import requests fr ...
python爬取百度搜索结果ur汇总
写了两篇之后,我觉得关于爬虫,重点还是分析过程分析些什么呢: 1)首先明确自己要爬取的目标比如这次我们需要爬取的是使用百度搜索之后所有出来的url结果 2)分析手动进行的获取目标的过程,以便以程序 ...
使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
python 爬取百度云资源
pan1 1 import urllib.request 2 import re 3 import random 4 5 def get_source(key): 6 7 print('请稍等,爬取中 ...
python爬取百度翻译返回：{'error': 997, 'from': 'zh', 'to': 'en', 'query 问题
解决办法: 修改url为手机版的地址:http://fanyi.baidu.com/basetrans User-Agent也用手机版的测试代码: # -*- coding: utf-8 -*- & ...
Python爬取百度贴吧数据
本渣除了工作外,在生活上还是有些爱好,有些东西,一旦染上,就无法自拔,无法上岸,从此走上一条不归路.花鸟鱼虫便是我坚持了数十年的爱好. 本渣还是需要上班,才能支持我的业余爱好.上班时间还是尽量访问外网 ...

随机推荐

django 之视图层及模板层 04
目录视图层 render方法是Template和Contex两个对象的组合使用 JsonResponse对象 CBV及源码分析 CBV 加装饰器的方式模板层模板语法传值模板语法变量过滤器( ...
TOP K和Partition对比
TOP k算法适用于海量数据,不用一批装入内存.. partition算法需要全部装入内存排序,需要修改原数据..
http学习--常用请求方法和响应状态码
常用的http请求方法: GET方法:请求服务器资源,并返回 POST方法:向指定资源提交数据进行处理请求(比如说表单,上传文件等).数据被包含在请求体中.POST请求可能会导致新的资源建立或已有资源 ...
OpenCV笔记（1）(图片读取与现实、色彩空间、基础运算、均值方差、逻辑运算、泛洪填充、均值中值及自定义平滑)
一.图片读取和显示 import cv2 as cv # 图片读取cv.imread(img_path) car_img = cv.imread("car1.png") # 图片显 ...
[深度学习] pytorch学习笔记（3）(visdom可视化、正则化、动量、学习率衰减、BN)
一.visdom可视化工具安装:pip install visdom 启动:命令行直接运行visdom 打开WEB:在浏览器使用http://localhost:8097打开visdom界面二.使 ...
EasyUI DataGrid列表，显示undefined
datagrid中,显示undefined的解决方法在get函数中,将为null的值返回空的字符串 1 public class TestModel { 2 3 private String key ...
maven项目创建2
添加依赖索引但是默认是没有索引的,要手动创建索引依赖范围 debug 配置运行常见问题处理办法,JDK重新安装网络添加依赖网站
【个推CTO谈数据智能】之我们理解的数据中台
引言在本系列的前面两篇文章(<数据智能时代来临:本质及技术体系要求>和<多维度分析系统的选型方法>)之中,我们概括性地阐述了对于数据智能的理解,并根据工作中团队涉及到的多维度 ...
Spring boot之使用freemarker
大纲 (1)在pom.xml中引入freemarker; (2)如何关闭freemarker缓存 (3)编写模板文件.ftl (4)编写访问文件的controller 在pom.xml中引入freem ...
LocalDate/LocalDateTime与String的互相转换示例(附DateTimeFormatter详解)
摘自:https://www.jianshu.com/p/b7e72e585a37 LocalDate/LocalDateTime与String的互相转换示例(附DateTimeFormatter详解 ...

python 爬取百度url

python 爬取百度url的更多相关文章

随机推荐

热门专题