爬虫2：html页面+beautifulsoap模块+post方式+demo

　　爬取html页面，有时需要设置参数post方式请求，生成json，保存文件中。

1）引入模块

import requests

from bs4 import BeautifulSoup

url_ = 'http://www.c.....................'

2）设置参数

 datas = {

        'yyyy':'',

        'mm':'-12-31',

        'cwzb':"incomestatements",

        'button2':"%CC%E1%BD%BB",

    }

3）post请求

r = requests.post(url,data = datas)

4）设置编码

r.encoding = r.apparent_encoding

5）BeautifulSoup解析request请求

soup = BeautifulSoup(r.text)

6）find_all筛选

soup.find_all('strong',text=re.compile(u"股票代码"))[].parent.contents[]

7）css选择select

soup.select("option[selected]")[].contents[]

beautifulsoap的API请查看　　https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#beautifulsoup

Demo：文件读url，设置参数，post方式，beautifulsoap解析，生成json，保存文件中

import requests

from bs4 import BeautifulSoup

import re

import json

import time

fd = open(r"E:\aa.txt","r")

mylist = []

for line in fd:

    mylist.append(line)

url_pre = 'http://www.c.....................'

code = open(r"E:\a---.txt", "a")

for index in xrange(,len(mylist)):

    print index

    url_id = mylist[index].split('?')[-]

    url_id = url_id[-:-]

    datas = {

        'yyyy':'',

        'mm':'-12-31',

        'cwzb':"incomestatements",'button2':"%CC%E1%BD%BB",

    }

    url = url_pre + str(url_id)

    print url

    print datas

    r = requests.post(url,data = datas)

    r.encoding = r.apparent_encoding

    print r

    soup = BeautifulSoup(r.text)

    r.encoding = r.apparent_encoding

    soup = BeautifulSoup(r.text)

    if len(soup.find_all("td",text=re.compile(u"营业收入"))) == :

        continue

    jsonMap = {}

    jsonMap[u'股票代码'] = soup.find_all('strong',text=re.compile(u"股票代码"))[].parent.contents[]

    jsonMap[u'股票简称'] = soup.find_all('strong',text=re.compile(u"股票代码"))[].parent.contents[]

    jsonMap[u'年度'] = soup.select("option[selected]")[].contents[]

    jsonMap[u'报告期'] = soup.select("option[selected]")[].contents[]

    yysr = soup.find_all("td",text=re.compile(u"营业收入"))[].parent

    yysrsoup = BeautifulSoup(str(yysr))

    jsonMap[u'营业收入'] = yysrsoup.find_all('td')[].contents[]

    yylr = soup.find_all("td",text=re.compile(u"营业利润"))[].parent

    yylrsoup = BeautifulSoup(str(yylr))

    jsonMap[u'营业利润'] = yylrsoup.find_all('td')[].contents[]

    strJson = json.dumps(jsonMap, ensure_ascii=False)

    print strJson

    #code.write(strJson)

    code.write(strJson.encode('utf-8') + '\n')

    time.sleep(0.1)

    code.flush()

爬虫2：html页面+beautifulsoap模块+post方式+demo的更多相关文章

爬虫1：html页面+beautifulsoap模块+get方式+demo
前言:最近公司要求编写一个爬虫,需要完善后续金融项目的数据,由于工作隐私,就不付被爬的网址url了,下面总结下spider的工作原理. 语言:python:工具:jupyter: 概要:说到爬虫 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
爬虫4：pdf页面+pdfminer模块+demo
本文介绍下pdf页面的爬取,需要借助pdfminer模块 demo一般流程: 1)设置url url = 'http://www.------' + '.PDF' 2)requests模块获取url ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
爬虫基础库之requests模块
一.requests模块简介使用requests可以模拟浏览器请求,比起之前用到的urllib,requests模块的api更加快捷,其实ruquests的本质就是封装urllib3这个模块. re ...
selenium中webdriver跳转新页面后定位置新页面的两种方式
刚刚在写Python爬虫的时候用到了selenium , 在跳转新页面时发现无法定位新页面 , 查找不到新页面的元素一番查询后得到了解决方法 , 便记录下来备忘 , 也与大家分享 # 页面跳转代码. ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
[嵌入式开发板]iTOP-4412以模块的方式编译驱动
本文转自迅为:http://www.topeetboard.com 大家好,本章节我们将向大家讲解如何在 linux 下实现以模块的方式加载内核驱动.我们以内核里面蜂鸣器的驱动为例来讲解. 1)首先 ...
哎呀，发现自己不会用模块的方式用kprobe啊，弱爆了
在内核外面编译模块,会报warning函数名undefined的错误,解决方法是把函数给export出来:EXPORT_SYMBOL 一直以来,用kprobe比较多的是kprobe event的用法, ...

随机推荐

05 (OC) 二叉树深度优先遍历和广度优先遍历
总结深度优先与广度优先的区别 1.区别 1) 二叉树的深度优先遍历的非递归的通用做法是采用栈,广度优先遍历的非递归的通用做法是采用队列. 2) 深度优先遍历:对每一个可能的分支路径深入到不能再深入 ...
HashMap源码分析（史上最详细的源码分析）
HashMap简介 HashMap是开发中使用频率最高的用于映射(键值对 key value)处理的数据结构,我们经常把hashMap数据结构叫做散列链表: ObjectI entry<Key, ...
判断java中最多的词组
其中的难点,是空格,以及如果第一个是空格怎么办,虽然事后看着很简单,但是做的时候却十分的困难! static void Daunyu()throws IOException { Word wo ...
7.Sentinel源码分析—Sentinel是怎么和控制台通信的？
这里会介绍: Sentinel会使用多线程的方式实现一个类Reactor的IO模型 Sentinel会使用心跳检测来观察控制台是否正常 Sentinel源码解析系列: 1.Sentinel源码分析-F ...
mybatis 插件的原理-责任链和动态代理的体现
目录 1 拦截哪些方法 2 如何代理 3 代理对象 4 责任链设计模式 @ 如果没有自定义过拦截器, 可以看我前面的文章.如果不知道 JDK 动态代理怎么使用的, 可以看我这文章. 责任链设计模式理解 ...
Airtest之web自动化（一）
Airtest之web自动化(一) [此文档有许多涉及到gif动图的地方,请全屏观看] 了解Airtest: 简介: Airtest是由网易团队开发的一款自动化框架,前期运用与游戏测试(通过截图识 ...
[Job] 找工作小结
有近2个月没有更新博客,主要精力放在了投递会议论文和秋招找工作方面.这里简单总结一下秋招笔试面试的几点建议和感受. 投递的NLP算法工程师岗位,主要参加过面试的公司有腾讯(春招),蚂蚁金服(春招),追 ...
对于java的Sting.intern()的一些注意
今天翻看书时遇到了这样一个问题,对于String.intern()方法又有了一些认识和看法.首先我们看它的api 大意就是intern()方法会在常量池中记录首次出现的实例引用,但是在jdk1.6中却 ...
vue 条件渲染方式
1.通过class绑定 <div :class="{'div-class': this.align == 'center'}"></div> 对应的css ...
js 跳转链接的几种方式
1.跳转链接在当前窗口打开 window.location.href="http://www.baidu.com" 等价于 <a href="baidu.com& ...

爬虫2：html页面+beautifulsoap模块+post方式+demo

爬虫2：html页面+beautifulsoap模块+post方式+demo的更多相关文章

随机推荐

热门专题