python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据

有写规则需要自己定义判断。

import requests

from selenium import webdriver

import time

def grasp(urlT):

    driver = webdriver.Chrome(r'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe') #自动化测试程序工具本地所在地

    resAll = []         #用于存储单条数据

    rest = {}           #用于存储单个数据

    res=requests.get(urlT)

    for i in range(0,29):

        print(f'第{i+1}条新闻开始')

        print(res.json()['data'][i]['title'])

        try:

            print(res.json()['data'][i]['newsTime'])

        except:

            print('None')

        print(res.json()['data'][i]['source'])

        print(res.json()['data'][i]['url'])

        rest['title']=res.json()['data'][i]['title']

        try:

            rest['newsTime'] = res.json()['data'][i]['newsTime']

        except:

            rest['newsTime'] = 'None'

        rest['source'] = res.json()['data'][i]['source']

        url = res.json()['data'][i]['url']

        rest['url'] = res.json()['data'][i]['url']

        try:

            driver.get(url)

            time.sleep(4)

            contend = driver.find_element_by_class_name('text-3zQ3cZD4').text

            rest['contend'] = str(contend)

            print(contend)

            driver.back()

            print(f'第{i+1}条新闻结束')

            time.sleep(6)

        except:

            contend = driver.find_element_by_class_name('topic_column-5QvrwcWi').text

            rest['contend'] = str(contend)

            print(contend)

            driver.back()

            time.sleep(6)

            print(f'第{i+1}条新闻格式不同')

            print('#-----------------------某些格式不符合------------------------#')

        resAll.append(rest)

        with open('./news.txt', 'a+', encoding='utf-8') as f:

                try:

                    f.write(''.join(resAll[i].values())+'\n')

                except:

                    print('写入失败')

url = "https://shankapi.ifeng.com/spring/finance/index/newInfoIndex/75219"

grasp(url)

#

#

# class Grasp:

#

#     def __init__(self):

#         self.driver = webdriver.Chrome(r'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')

#         self.resAll = []#用于存储单条数据

#         self.rest = {}#用于存储单个数据

#         self.res = requests.get("https://shankapi.ifeng.com/spring/finance/index/newInfoIndex/75219")#目标链接

#

#     def run(self):

#         for i in range(0, len(self.res.json()['data'])):

#             print(f'第{i+1}条新闻开始')

#             print(self.res.json()['data'][i]['title']) #输出标题

#             try:

#                 print(self.res.json()['data'][i]['newsTime']) #输出时间

#             except:

#                 print('None')

#             print(self.res.json()['data'][i]['source']) #输出来源

#             print(self.res.json()['data'][i]['url']) #输出链接地址

#             self.rest['title'] = self.res.json()['data'][i]['title'] #获取标题

#             try:

#                 self.rest['newsTime'] = self.res.json()['data'][i]['newsTime'] #获取时间

#             except:

#                 self.rest['newsTime'] = 'None'

#             self.rest['source'] = self.res.json()['data'][i]['source'] #获取来源

#             self.url = self.res.json()['data'][i]['url']

#             self.rest['url'] = self.res.json()['data'][i]['url']#获取链接地址

#             try:

#                 self.driver.get(url)

#                 time.sleep(4)

#                 self.contend = self.driver.find_element_by_class_name('text-3zQ3cZD4').text#获取网页标签下的文本

#                 self.rest['contend'] = str(self.contend)#插入单条数据

#                 print(f'第{i}条新闻成功')

#                 self.driver.back()

#                 time.sleep(4)

#             except:

#                 contend = driver.find_element_by_class_name('topic_column-5QvrwcWi').text

#                 rest['contend'] = str(contend)

#                 driver.back()

#                 time.sleep(6)

#                 print(f'第{i+1}条新闻格式不同')

#                 print('#-----------------------某些格式不符合------------------------#')

#             self.resAll.append(self.rest)

#             with open('./news.txt', 'a+', encoding='utf-8') as f:

#                 try:

#

#                     f.write(''.join(self.resAll[i].values()) + '\n') #写入数据

#                     f.write(f'第{i+1}条新闻结束')

#                 except:

#                     print('写入失败')

#

# g = Grasp()

# g.run()

电脑性能差，如若想获取其他页面的数据，将规则写在except中，即可

希望，帮到大家

python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据的更多相关文章

用Python爬取影视网站，直接解析播放地址。
记录时刻! 写这个爬虫主要是想让自己的爬虫实用,把脚本放到了服务器,成为可随时调用的接口. 思路算是没思路吧!把影视名带上去请求影视网站,然后解析出我们需要的播放地址. 我也把自己的接口分享出来.接口 ...
python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
用Python爬取斗鱼网站的一个小案例
思路解析: 1.我们需要明确爬取数据的目的:为了按热度查看主播的在线观看人数 2.浏览网页源代码,查看我们需要的数据的定位标签 3.在代码中发送一个http请求,获取到网页返回的html(需要注意的是 ...
利用Python爬取电影网站
#!/usr/bin/env python #coding = utf-8 ''' 本爬虫是用来爬取6V电影网站上的电影资源的一个小脚本程序,爬取到的电影链接会通过网页的形式显示出来 ''' impo ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
Python爬取某网站文档数据完整教程（附源码）
基本开发环境 (https://jq.qq.com/?_wv=1027&k=NofUEYzs) Python 3.6 Pycharm 相关模块的使用 (https://jq.qq.com/?_ ...
python爬取电影网站信息
一.爬取前提1)本地安装了mysql数据库 5.6版本2)安装了Python 2.7 二.爬取内容电影名称.电影简介.电影图片.电影下载链接三.爬取逻辑1)进入电影网列表页, 针对列表的html内 ...
Python爬取mn52网站美女图片以及图片防盗链的解决方法
防盗链原理 http标准协议中有专门的字段记录referer 一来可以追溯上一个入站地址是什么二来对于资源文件,可以跟踪到包含显示他的网页地址是什么因此所有防盗链方法都是基于这个Referer字段 ...

随机推荐

thinkphp url重写
可以通过URL重写隐藏应用的入口文件index.php,下面是相关服务器的配置参考:大理石平台精度等级 [ Apache ] httpd.conf配置文件中加载了mod_rewrite.so模块 Al ...
DELPHI中如何让FORM窗体透明，只显示控件？
DELPHI中如何让FORM窗体透明,只显示控件?分享到: 对我有用[0] 丢个板砖[0] 引用 | 举报 | 管理回复次数:7largewanglargewanglargewang等级:Blank ...
spark在collect收集数据的时候出现outOfMemoryError:java heap space
spark的collect是action算子,所有最后会以数组的形式返回给driver端,当数据太大的时候就会出现堆内存溢出.OutofMemoryError:java heap space. 在sp ...
BZOJ 4455: [Zjoi2016]小星星(容斥+树形dp)
传送门解题思路首先题目中有两个限制,第一个是两个集合直接必须一一映射,第二个是重新标号后,\(B\)中两点有边\(A\)中也必须有.发现限制\(2\)比较容易满足,考虑化简限制\(1\).令\(f ...
2019/11/12 CSP模拟赛&&考前小总结
写在前面的总结离联赛只有几天了,也马上就要回归文化课了. 有点舍不得,感觉自己的水平刚刚有点起色,却又要被抓回文化课教室了,真想在机房再赖几天啊. 像19/11/11那场的简单题,自己还是能敲出一些 ...
李宏毅机器学习课程---4、Gradient Descent （如何优化）
李宏毅机器学习课程---4.Gradient Descent (如何优化) 一.总结一句话总结: 调整learning rates:Tuning your learning rates 随机Grad ...
Codeforces 1166A - Silent Classroom
题目链接:http://codeforces.com/problemset/problem/1166/A 思路:统计所有首字母出现的次数,由贪心可知对半分最少. AC代码: #include<i ...
用python, PIL在图像上添加文字（可以控制，调节为水印等）
最近想在图像上,添加想要的文字,首先想到的是matplotlib,但是这个更加倾向于画图(柱状图,折线图之类) opencv这个库肯定也行,但是为了和我现有程序连接在一起,我选择了PIL 其中字体的设 ...
2019-2020 ACM-ICPC Latin American Regional Programming Contest
代码见:戳 easy: EIM medium-easy: BDFKL medium: ACJ medium-hard: H A - Algorithm Teaching 题意给一些集合,现从每个集合 ...
webpack的devtool
这里以环境分类为分析方向 1.对开发环境 eval - 每个模块都使用 eval() 执行,并且都有 //@ sourceURL.此选项会非常快地构建.主要缺点是,由于会映射到转换后的代码,而不是映射 ...

python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据

python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据的更多相关文章

随机推荐

热门专题