python+selenium 爬取中国工业园网

import math

import re

import requests

from lxml import etree

type = "https://www.cnrepark.com/gyy/park{}/"

urlList = []

for i in range(1,8):

    url = type.format(i)

    urlList.append(url)

from time import sleep

from selenium import webdriver

from selenium.webdriver.chrome.options import  Options

options = Options()

options.add_argument('--headless')

br = webdriver.Chrome(chrome_options=options)

class ChanyeList(object):

    User_Agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36"

    Refer = "https://www.cnrepark.com"

    # 初始化

    def __init__(self,br):

        self.br = br

    # 使用selenium下载内容

    def selenium_download(self,url):

        br.get(url)

        content = self.br.page_source

        return content

    def get_total_numbers(self,url):

        content = self.selenium_download(url)

        html = etree.HTML(content)

        totalNumbersTxt = html.xpath('.//div[@class="nw_num"]/text()')

        import re

        totalNumbers = re.findall(r'\d+',totalNumbersTxt[0])

        return totalNumbers[0]

    # 解析出列表

    def html_parse_list(self,content):

        html = etree.HTML(content)

        listObj = html.xpath('.//div[@class="area"]//div[@class="con_lst"]')

        list = []

        for item in listObj:

            src = item.xpath('./div/a/img/@src')

            href = item.xpath('./div//h2/a/@href')

            title = item.xpath('./div//h2/a/text()')

            list.append({'title':title[0],'href':href[0],"src":src[0]})

        return list

    def optimizeContent(self,res):

        res = res.replace('b\'', '')

        res = res.replace('\\n', '')

        res = res.replace('\'', '')

        return res

    # 解析出详情

    def html_parse_detail(self,content):

        html = etree.HTML(content)

        detail = html.xpath('.//div[@class="right_nr"]/div[1]//div[@class="kfq_box"]/ul')

        detail = etree.tostring(detail[0])

        detail = self.optimizeContent(str(detail))

        # 区域优势

        regionalAdvantages = html.xpath('.//div[@id="tbc_81"]')

        regionalAdvantages = etree.tostring(regionalAdvantages[0])

        regionalAdvantages = self.optimizeContent(str(regionalAdvantages))

        # 基础配套

        basicConfiguration = html.xpath('.//div[@id="tbc_82"]')

        basicConfiguration = etree.tostring(basicConfiguration[0])

        basicConfiguration = self.optimizeContent(str(basicConfiguration))

        # 优惠政策

        preferentialPolicy = html.xpath('.//div[@id="tbc_83"]')

        preferentialPolicy = etree.tostring(preferentialPolicy[0])

        preferentialPolicy = self.optimizeContent(str(preferentialPolicy))

        # 规划建设

        planningInformation = html.xpath('.//div[@id="tbc_84"]')

        planningInformation = etree.tostring(planningInformation[0])

        planningInformation = self.optimizeContent(str(planningInformation))

        res = {'detail': detail,

               "regionalAdvantages": regionalAdvantages,

               "basicConfiguration": basicConfiguration,

               "preferentialPolicy": preferentialPolicy,

               "planningInformation": planningInformation,

               }

        return res;

    def crawl_url(self,url):

        print("crawl page {}".format(url))

        listContent = self.selenium_download(url)

        list = self.html_parse_list(listContent)

        return list

    def get_name(self,index):

        nameList = [

            "特色园区",

            "创意园",

            "孵化基地",

          "商务园区",

            "生态园区",

           "综合乐园",

            "产业园转移区"

        ]

        return nameList[index]

    # 保存list  获取到详情 保存为html

    def save_list(self,list,type_index):

        try:

            for item in list:

                url = item['href']

                print("crawl url :"+url)

                content  = self.selenium_download(url)

                detailList = self.html_parse_detail(content)

                item['title'] = self.validateTitle(item['title'])

                type_name = self.get_name(type_index)

                with open("./txt/"+type_name+"-"+item['title']+".html","w") as f:

                    f.write("<h2>{}</h2>".format(item['title']))

                    f.write("<div> <a href='{}'><img style='height:80px;height:80px;' src={} /></a></div>".format(item['href'],item['src']))

                    f.write("<p>{}</p>".format(detailList['detail']))

                    f.write("<p>{}</p><h3>区位优势:</h3>{}".format(detailList['detail'],detailList['regionalAdvantages']))

                    f.write("<p>{}</p><h3>基础配套:</h3>{}".format(detailList['detail'],detailList['basicConfiguration']))

                    f.write("<p>{}</p><h3>优惠政策:</h3>{}".format(detailList['detail'],detailList['preferentialPolicy']))

                    f.write("<p>{}</p><h3>规划建设:</h3>{}".format(detailList['detail'],detailList['planningInformation']))

                    f.write("<br>")

                    f.close()

        except Exception as e:

            print("Exception:"+str(e))

    def validateTitle(self,title):

        rstr = r"[\/\\\:\*\?\"\<\>\|\(\)]"  # '/ \ : * ? " < > |'

        new_title = re.sub(rstr, "_", title)  # 替换为下划线

        return new_title

if __name__ == "__main__":

    try:

        rootUrl = "https://www.cnrepark.com/gyy/park{}/"

        for k in range(1,8):

            chanyeList = ChanyeList(br)

            baseUrl = "https://www.cnrepark.com/gyy/park"+str(k)+"/?publishtime=desc&page={}"

            pageUrl = "https://www.cnrepark.com/gyy/park"+str(k)+"/"

            # 获取总页数

            totalNumbers = chanyeList.get_total_numbers(pageUrl)

            totalPage = math.ceil( int(totalNumbers) / 13)

            result = []

            for page in range(1,int(totalPage) + 1 ):

                realUrl = baseUrl.format(page)

                list =  chanyeList.crawl_url(realUrl)

                result.extend(list)

            chanyeList.save_list(result,k-1)

        br.quit()

    except Exception as e:

        print(str(e))

python+selenium 爬取中国工业园网的更多相关文章

Python爬取中国天气网
Python爬取中国天气网基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...
初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
Python爬取中国票房网所有电影片名和演员名字，爬取齐鲁网大陆所有电视剧名称
爬取CBO中国票房网所有电影片名和演员名字 # -*- coding: utf-8 -*- # 爬取CBO中国票房网所有电影片名 import json import requests import ...
python爬取中国知网部分论文信息
爬取指定主题的论文,并以相关度排序. #!/usr/bin/python3 # -*- coding: utf-8 -*- import requests import linecache impor ...
scrapy实例:爬取中国天气网
1.创建项目在你存放项目的目录下,按shift+鼠标右键打开命令行,输入命令创建项目: PS F:\ScrapyProject> scrapy startproject weather # w ...

随机推荐

adb无线连接android手机进行调式，无需获得root权限
利用adb无线连接android手机进行调式无需获得root权限转载来自CSDN https://blog.csdn.net/lnking1992/article/details/5346518 ...
linux下查找文件中的某个关键字
1.方法一:grep '关键字' filename 2.方法二:vim filename进入文件里面,不要进入insert编辑模式,直接在normal模式下输入/关键字进行搜索按n进行查找下一个
Fiddler的基本界面介绍
前言 fiddler的界面,主要是分以下6个模块. 一:主菜单栏: 可以参考:https://www.cnblogs.com/sjl179947253/p/7620524.html 二:工具栏: 1. ...
[程序员代码面试指南]最长递增子序列(二分,DP)
题目例:arr=[2,1,5,3,6,4,8,9,7] ,最长递增子序列为1,3,4,8,9 题解 step1:找最长连续子序列长度 dp[]存以arr[i]结尾的情况下,arr[0..i]中的最长 ...
工作10年后，再看String s = new String("xyz") 创建了几个对象？
这个问题相信每个学习java的同学都不陌生,作为一个经典的面试题,到现在工作这么多年了我真是认为挺操蛋的一个问题,在网上到现在你仍然可以看见很多讨论这个问题的人,其中不乏工作很多年的人都有争论,我认为 ...
Git【常见知识点速查】
文章更新时间:2020/06/17 一.基础知识点解析 Git工作流程以上包括一些简单而常用的命令,但是先不关心这些,先来了解下面这4个专有名词. Workspace:工作区 Index / Sta ...
刷题[BJDCTF 2nd]简单注入
解题思路打开发现登陆框,随机输入一些,发现有waf,然后回显都是同样的字符串.fuzz一波,发现禁了挺多东西的. select union 等这里猜测是布尔盲注,错误的话显示的是:You konw ...
MySQL表关系总结
一对多关系 : 一对多关系是关系数据库中两个表之间的一种关系,该关系中第一个表中的单个行可以与第二个表中的一个或多个行相关,但第二个表中的一个行只可以与第一个表中的一个行相关. 一对多关系,一般是一 ...
linux_基础调优
1. 配置授时服务,使用阿里云的授时服务 echo -e "# update time\n*/5 * * * * /usr/sbin/ntpdate time1.aliyun.com &am ...
【题解】[SDOI2010]捉迷藏
题目链接:https://www.luogu.com.cn/problem/P2479 题目大意:求平面\(n\)个点中,到其它\(n-1\)个点的曼哈顿距离最大和最小距离之差最小的点,求出这个这个距 ...

python+selenium 爬取中国工业园网

python+selenium 爬取中国工业园网的更多相关文章

随机推荐

热门专题