盖得化工----requests/bs4---采集二级网址

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865


# -*- coding: utf-8 -*-

"""

Created on Mon May  9 09:14:32 2016

@author: Administrator

"""

import requests,bs4,csv,time,selenium,random

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

site_hubei="http://china.guidechem.com/suppliers/list_catid-21_area-%E6%B9%96%E5%8C%97"

pages_hubei=31

#所有公司的链接网址_存储列表

list_corporation_link=[]

def Get_sites(site,pages):

    list_pages=[]

    for page in range(1,pages+1):

        thePage=site+"-"+"p"+str(page)+".html"

        list_pages.append(thePage)

    return list_pages

#采集一页所有公司的二级网址

def Get_secondLinks(pageSite):

    res=requests.get(pageSite)

    soup=bs4.BeautifulSoup(res.text,"lxml")

    linkElems=soup.select(".dblue")

    secondLinks=[i.get("href") for i in linkElems]

    return secondLinks

#了正确格式写入网页到csv，  row内容添加一个索引号

#'http://show.guidechem.com/hbsthcsales/'处理为[1,'http://show.guidechem.com/hbsthcsales/']

def List_process(list1):

    len_list1=len(list1)

    list2=[]

    for i in range(len_list1):

        content=(i+1,list1[i])

        list2.append(content)

    return list2    

#把一页内容写入csv文档 ,list_tableContent为二维列表[[a],[b],[c]]

def Write_table_to_csv(fileName,list_tableContent):

    #对列表格式修改，字符串写入的格式不对

    file=open(fileName,'w',newline='')

    writer1=csv.writer(file)

    writer1.writerows(list_tableContent)

    file.close()         

#构造所有湖北页面网址

list_pages_hubei=Get_sites(site_hubei,pages_hubei)

#首页

firstPage=list_pages_hubei[0]

#获取所有二级网址，先测试前十，所有页数：len(list_pages_hubei)

#正常语句for i in range(len(list_pages_hubei))：

for i in range(20,len(list_pages_hubei)):

    pageSite=list_pages_hubei[i]

    secondLinks=Get_secondLinks(pageSite)

    secondLinks1=List_process(secondLinks)

    fileName=str(i+1)+".csv"

    Write_table_to_csv(fileName,secondLinks1)

    list_corporation_link.append(secondLinks1)

    time.sleep(random.randint(5,10))

成功采下来，但网站有反爬虫设置，翻页时间要延长

更换ip就搞定了，但有一个网址采集失败，延长时间10-15秒翻页更准确

盖得化工----requests/bs4---采集二级网址的更多相关文章

盖得化工--selenium翻页测试
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
python 网络爬虫全流程教学，从入门到实战（requests+bs4+存储文件）
python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件) requests是一个Python第三方库,用于向URL地址发起请求 bs4 全名 BeautifulSoup4, ...
requests bs4 爬取资讯图片
#!/usr/bin/env python # Version = 3.5.2 # __auth__ = '无名小妖' import requests from bs4 import Beautifu ...
requests + bs4 爬取豌豆荚所有应用的信息
1.分析豌豆荚的接口的规律 - 获取所有app的接口url 2.往每一个接口发送请求,获取json数据解析并提取想要的数据 app_data: 1.图标 app_img_url 2.名字 app_n ...
Python+Requests+Bs4（解析）爬取某诗词信息（数据分析二）
1.环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %appdata% (3)在这里面新建一个 ...
requests+bs4爬取豌豆荚排行榜及下载排行榜app
爬取排行榜应用信息爬取豌豆荚排行榜app信息 - app_detail_url - 应用详情页url - app_image_url - 应用图片url - app_name - 应用名称 - ap ...
采集化工内容写入TXT文本
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
requests+django+bs4实现一个web微信的功能
前言: 今天我们利用requests模块+django+bs4浏览器来实现一个web微信的基本功能,主要实现的功能如下 a.实现返回二维码 b.实现手机扫码后二维码变成变成头像 c.实现手机点击登陆成 ...
使用requests爬取梨视频、bilibili视频、汽车之家，bs4遍历文档树、搜索文档树，css选择器
今日内容概要使用requests爬取梨视频 requests+bs4爬取汽车之家 bs4遍历文档树 bs4搜索文档树 css选择器内容详细 1.使用requests爬取梨视频 # 模拟发送http ...

随机推荐

js 基础-&& || 逻辑与和逻辑或
今天百度发现一个简化长if else if 语句的方法,看起来及其强大,感觉这样虽然对系统性能提升没有帮助但是代码更简练了,分析了一番,下面先说说自己学到的理论. 首先要弄清楚js 中对于变量, ...
maven配置私服
1先配置maven的配置文件 2在项目的pom.xml文件增加 <distributionManagement> <repository> <id>nexus-re ...
Java abstract interface与 interface的区别
我们常常遇到abstract class与 interface的区别,今天却遇到了abstract interface,感觉interface不用abstract再修饰了啊.结论:事实也确实如此,编译 ...
JavaScript解决一个带验证的Form两个Submit事件（一个页面保持不动【AJAX实现】，一个页面提交并跳转）的场景
<form class="form-horizontal" action="/biz/patent/edit" method="post&quo ...
java.util.concuttent Callable Future详解
在传统的多线程实现方式中(继承Thread和实现Runnable)无法直接获取线程执行的返回结果,如果需要获取执行结果,就必须通过共享变量或者使用线程通信的方式来达到效果,这样使用起来就比较麻烦. 从 ...
liunx上安装MySQL一个非常简单的方法
1.官网下载yum源 https://www.mysql.com/ 2.把yum源包上传到linux,安装. 执行命令安装 [root@bogon ~]# yum localinstall mysql ...
嵌入式启动jetty
由于jetty8以上版本已经抛弃JDK1.6,公司统一开发JDK又一直不升级,所以我们使用jetty8 pom.xml <project xmlns="http://maven.apa ...
poj 2114 Boatherds （树分治）
链接:http://poj.org/problem?id=2114 题意: 求树上距离为k的点对数量: 思路: 点分治.. 实现代码: #include<iostream> #includ ...
Linux 系统免密码登陆远程服务器
在当前Linux生成公钥私钥ssh-keygen公钥私钥存放路径为:~/root/.ssh/id_rsa id_rsa.pub 登陆被远程主机,进入目录~/root/.ssh/是否存在authoriz ...
install nagios pnp4nagios on centos 6
安装配置Apache.PHP(忽略此次安装步骤) 安装nagiosrpm -Uvh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release ...

盖得化工----requests/bs4---采集二级网址

盖得化工----requests/bs4---采集二级网址的更多相关文章

随机推荐

热门专题