Python+Selenium自动搜索基金业协会指定企业名单，爬虫抓取指定信息并保存到数据库

Python+Selenium自动搜索基金业协会指定企业名单，抓取指定信息并保存到数据库.
网址https://gs.amac.org.cn/amac-infodisc/res/pof/manager/managerList.html
安装使用Python+Selenium请点击这个链接

# -*- coding: utf-8 -*-

# @Time : 2021/5/24

# @Author : Jihaibo

# @desc :Python+Selenium自动搜索基金业协会指定企业名单，抓取指定信息并保存到数据库.网址https://gs.amac.org.cn/amac-infodisc/res/pof/manager/managerList.html

# @File : amacSelenium.py

# @Software: PyCharm

from selenium import webdriver #调用 Chrome 浏览器

from selenium.webdriver.common.keys import Keys #调用键盘按键操作需要引入keys 包

from selenium.webdriver.common.action_chains import ActionChains #鼠标事件

from selenium.webdriver.support import expected_conditions as EC #expected_conditions判断当前页面的是否有XX。由于这个模块名称比较长，所以为了后续的调用方便，重新命名为EC了

from selenium.webdriver.common.by import By

from selenium.webdriver.support.wait import WebDriverWait #显性等待，程序每隔xx秒看一眼，如果条件成立了，则执行下一步，否则继续等待，直到超过设置的最长时间

import os

import requests

import time

import hashlib

import json

import pymysql

#查询要检查的管理人（企业）名单目录，fund_name是企业全称

def mysql_sel():

    # 数据库连接

    conn = pymysql.connect(host='localhost', port=3306, user='root', passwd='123', db='test')

    cur = conn.cursor()

    cur.execute("SELECT fund_name FROM `test`.`company`;")

    # print(cur.description)

    for row in cur:

        print(row[0])

        getlist(row[0])

        # getlist('北京友联四方投资管理有限公司')

    cur.close()

    conn.close()



#插入新的数据库 mysql_ins( 名称, 信息报送异常, 登记时间, 成立时间, 注册地址, 办公地址, 管理规模区间, 产品信息)

def mysql_ins( name1, yichang, djsj, clsj, zcdz, bgdz, glgmqj, chanpin):

    # 数据库连接

    conn = pymysql.connect(host='localhost', port=3306, user='root', passwd='123456', db='test')

    # 插入数据库

    sql_2 = f"INSERT INTO `test`.`amac_glr`( `name1`, `yichang`, `djsj`, `clsj`, `zcdz`, `bgdz`, `glgmqj`, `chanpin`) VALUES ( '{name1}', '{yichang}', '{djsj}', '{clsj}', '{zcdz}', '{bgdz}', '{glgmqj}', '{chanpin}')"

    cur2 = conn.cursor()

    cur2.execute(sql_2)  # 执行上述sql命令

    conn.commit()

    # print('成功')

    cur2.close()

    conn.close()

#获取管理人详细信息

def getcon(href):

    print(href)

    opt = webdriver.ChromeOptions()  # 创建Chrome参数对象

    opt.headless = True  # 把Chrome设置成可视化无界面模式，windows/Linux 皆可

    b = webdriver.Chrome(options=opt) #把Chrome设置成可视化无界面模式

    b.get(href)

    time.sleep(1)

    name1 = b.find_element_by_id("complaint2").text

    yichang = b.find_elements_by_xpath("//table/tbody/tr/td")[1].text

    djsj = b.find_elements_by_xpath("//div[@class='info-body']/div[2]/div[@class='table-response']/table/tbody/tr[5]/td")[1].text

    clsj = b.find_elements_by_xpath("//div[@class='info-body']/div[2]/div[@class='table-response']/table/tbody/tr[6]/td")[1].text

    zcdz = b.find_elements_by_xpath("//div[@class='info-body']/div[2]/div[@class='table-response']/table/tbody/tr[7]/td")[1].text

    bgdz = b.find_elements_by_xpath("//div[@class='info-body']/div[2]/div[@class='table-response']/table/tbody/tr[8]/td")[1].text

    glgmqj = b.find_elements_by_xpath("//div[@class='info-body']/div[2]/div[@class='table-response']/table/tbody/tr[18]/td")[1].text

    chanpin = b.find_elements_by_css_selector(".table")[8].text

    mysql_ins( name1, yichang, djsj, clsj, zcdz, bgdz, glgmqj, chanpin)

    # print(b.find_elements_by_css_selector(".table")[8].text)

    b.quit()

# 获取管理人搜索结果列表（自动搜索）

def getlist(com_name):

    print(com_name)

    # 通过id方式定位，先清除掉关键词

    browser.find_element_by_id("keyword").clear()

    #通过id方式定位，输入指定关键词

    browser.find_element_by_id("keyword").send_keys(com_name)

    #输入关键词后，点击搜索按钮

    browser.find_elements_by_css_selector('.reset-btn.button')[0].click()

    time.sleep(1)

    try:

        #得到管理人网址

        href = browser.find_element_by_xpath("//table[@id='managerList']/tbody/tr/td/a").get_property('href')

        getcon(href)

    except Exception as e:

        print(str(e))

browser = webdriver.Chrome() #打开谷歌

browser.implicitly_wait(20)  # 隐性等待，最长等20秒

browser.get("https://gs.amac.org.cn/amac-infodisc/res/pof/manager/managerList.html") #输入基协管理人地址

# 关闭弹出框遮罩按钮

time.sleep(6)

browser.find_element_by_class_name("layui-layer-btn0").click()

#开始，数据库查询

mysql_sel()

browser.quit()

服务器很便宜自己买个测试测试吧

Python+Selenium自动搜索基金业协会指定企业名单，爬虫抓取指定信息并保存到数据库的更多相关文章

Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
Python + Selenium 自动发布文章（一）：开源中国
https://blog.csdn.net/qq_28804275/article/details/80891949 https://blog.csdn.net/qq_28804275/article ...
【Python入门只需20分钟】从安装到数据抓取、存储原来这么简单
基于大众对Python的大肆吹捧和赞赏,作为一名Java从业人员,我本着批判与好奇的心态买了本python方面的书<毫无障碍学Python>.仅仅看了书前面一小部分的我......决定做一 ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python分布式爬虫抓取知乎用户信息并进行数据分析
在以前的文章中,我写过一篇使用selenium来模拟登录知乎的文章,然后在很长一段时间里都没有然后了... 不过在最近,我突然觉得,既然已经模拟登录到了知乎了,为什么不继续玩玩呢?所以就创了一个项目, ...
SpringCloud系列九：SpringCloudConfig 基础配置（SpringCloudConfig 的基本概念、配置 SpringCloudConfig 服务端、抓取配置文件信息、客户端使用 SpringCloudConfig 进行配置、单仓库目录匹配、应用仓库自动选择、仓库匹配模式）
1.概念:SpringCloudConfig 基础配置 2.具体内容通过名词就可以发现,SpringCloudConfig 核心作用一定就在于进行配置文件的管理上.也就是说为了更好的进行所有微服务的 ...
fiddler4如何只抓取指定浏览器的包
在实际工作中,常常会抓取浏览器的数据,其加载的数据较多,不好区分,不知道其是哪个是需要抓取的数据,所以就需抓取指定浏览器的数据,这样就能很清晰知道数据的来源. 步骤一: 打开fiddler4,再打开浏 ...
利用Python网络爬虫抓取微信好友的签名及其可视化展示
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...
python 爬虫抓取 MOOC 中国课程的讨论区内容
一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容.可以,但是特别慢,相当慢.作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识.甚至看了 scrapy ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

随机推荐

如何理解 .Net 中的委托
// 委托 // 一种方法的声明和定义,也就是方法的占位符 // 一般使用在参数和属性中 int Add(int a,int b) { return a + b; } // 定义委托的三种方法 ...
AOT漫谈专题(第三篇): 如何获取C#程序的CPU利用率
一:背景 1. 讲故事上篇聊到了如何对AOT程序进行轻量级的APM监控,有朋友问我如何获取AOT程序的CPU利用率,本来我觉得这是一个挺简单的问题,但一研究不是这么一回事,这篇我们简单的聊一聊. 二 ...
一、java的简单介绍
Java语言 Java是一门面向对象的程序设计语言,在语法上Java与C和C++类似,但丢弃了其相对难理解的一些特性,如操作符重载.多继承.自动的强制类型转换,同时Java语言不使用指针,而是引用,并 ...
KubeSphere 社区双周报 | OpenFunction 支持 Dapr 状态管理 | 2023.03.31-04.13
KubeSphere 社区双周报主要整理展示新增的贡献者名单和证书.新增的讲师证书以及两周内提交过 commit 的贡献者,并对近期重要的 PR 进行解析,同时还包含了线上/线下活动和布道推广等一系列 ...
GaussDB: db2->gaussdb 函数转换
一.db2->gaussdb函数转换问题描述:使用GaussDB替代DB2的方案,使用起来还是有些差别,做一下函数的映射转换. DB2写法 GaussDB改写语法日期函数 days(OU ...
NCNN 模型推理详解及实战
一,依赖库知识速学 aarch64 OpenMP AVX512 submodule apt upgrade 二,硬件基础知识速学 2.1,内存 2.2,CPU 三,ncnn 推理模型 3.1,shuf ...
Shell之根据关键字符串替换文件中的行
KEY="所要搜索的关键字符串"FullPath=所要搜索的文件的路径str="要替换行的字符串" 根据关键字符串定位行号:line=`sed -n ' ...
初识GO语言--并发
MMCA：多模态动态权重更新，视觉定位新SOTA | ACM MM'24 Oral
来源:晓飞的算法工程笔记公众号,转载请注明出处论文: Visual Grounding with Multi-modal Conditional Adaptation 论文地址:https://a ...
Linux日志轮替与总结
目录基本介绍轮替文件的命名配置文件路径位置参数说明举例:把自己的日志加入日志轮替说明步骤日志轮替机制原理[个人理解,仅供参考] 总结[关于日志需要掌握的点] 基本介绍日志轮替就是把 ...

Python+Selenium自动搜索基金业协会指定企业名单，爬虫抓取指定信息并保存到数据库

Python+Selenium自动搜索基金业协会指定企业名单，爬虫抓取指定信息并保存到数据库的更多相关文章

随机推荐

热门专题