Python爬虫与一汽项目【综述】

bep_code 2024-08-27 02:51:19 原文

项目来源

这个爬虫项目是去年实验室去一汽后的第一个项目(基本交工，现在处于更新维护阶段)。内容大概是，获取到全国31个省份政府的关于汽车的招标公告，再用图形界面的方式展示爬虫内容。在完成政府招标采购网之后，提出新的关于国企的招标信息，这些爬虫都是关于这些企业的爬虫代码。

爬虫编写说明

需要的安装的东西不多，语言就用python3

数据库：mysql 可以安装正常的mysql，也可以安装wampserver的php服务器（wampserver里面有轻量级的mysql服务器，很方便）

数据库安装完成后，再安装一个mysql前端的管理工具，mysql front或者navicat premium(之前用的就是这个)

******************************************************

安装完成之后，是编写说明

爬取网站中与车相关的网页列表，要往数据库存 title(标题),href(网页的链接),招标时间，content（网页中的招标内容）

编写风格可以参照附件里的爬虫文件，解析工具的话可以用Beautiful Soup，也可以用Xpath（我习惯于Xpath，因此后续的文件都是用Xpath写的）

附件里爬虫文件的流程：

1. 先根据URL （可能是get也可能是post）获取到html

2. 通过解析工具从网页列表中获得每个单独网页的标题时间网页链接

3. 判断标题是否和车相关，时间是否符合设置要求

4. 如果符合条件，根据网页链接来获取网页中的content内容

5. 这个内容其实就是把整个网页中的文字，去掉标签，加到一起变成一段str

Python爬虫与一汽项目【综述】的更多相关文章

Python爬虫与一汽项目【二】爬取中国东方电气集中采购平台
网站地址:https://srm.dongfang.com/bid_detail.screen 东方电气采购的页面看似很友好,实际上并不好爬取在观察网页的审查元素之后发现,1处的网页响应只是单纯的一 ...
Python爬虫与一汽项目【一】爬取中海油，邮政，国家电网问题总结
项目介绍中国海洋石油是爬取的第一个企业,之后依次爬取了,国家电网,中国邮政,这三家公司的源码并没有多大难度, 采购信息地址: 国家电网电子商务平台 http://ecp.sgcc.com.cn/pr ...
Python爬虫与一汽项目【三】爬取中国五矿集团采购平台
网站地址:http://ec.mcc.com.cn/b2b/web/two/indexinfoAction.do?actionType=showMoreCgxx&xxposition=cgxx ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
1.Python爬虫入门一之综述
要学习Python爬虫,我们要学习的共有以下几点: Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy Python爬虫 ...
转 Python爬虫入门一之综述
转自: http://cuiqingcai.com/927.html 静觅 » Python爬虫入门一之综述首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为 ...
Python爬虫开发与项目实战
Python爬虫开发与项目实战(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ 提取码:gtz1 复制这段内容后打开百度 ...
python爬虫+数据可视化项目（关注、持续更新）
python爬虫+数据可视化项目(一) 爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#) 爬取内容:全国实时温度最低的十个城市气 ...
Python爬虫开发与项目实战pdf电子书|网盘链接带提取码直接提取|
Python爬虫开发与项目实战从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算.大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应 ...

随机推荐

JBPM工作流（八）——流程实例（PI）Process Instance
/** * 流程实例 * * 启动流程实例 * * 完成任务 * * 查询 * * 查询流程实例 * * 查询任务 * * 查询正在 ...
java代码生成Excel文件3000条自定义属性的的域账户名
一个项目为了测试需要模拟3000条域用户,将数据保存在Excel表格,然后导入到与服务器里. 我们今天要做的是自动生成3000条数据,并将这些数据保存在excel表格里面. 需要jar包:poi-3. ...
变量类型-Number
教程:一:数字类型 (1)int 没有限制大小,有以下的四种表现形式: 1:2进制:以'0b'开头---bin 2:8进制:以'0o'开头---oct 3:1 ...
ArcGIS Construction Tool OnSketchFinished事件不响应
使用ArcGIS AddIN ConstructionTool做东西,绘制完Sketch之后,OnSketchFinished事件不响应,没有任何异常与错误. 1.初步问题:OnSketchFinis ...
python联系-迭代器
from collections import Iterable from collections import Iterator import time class Classmate(object ...
| 线段树-地平线horizon
[题目描述]:在地平线上有n个建筑物.每个建筑物在地平线上可以看成一个下边界和地平线重合的矩形.每个建筑物有三个描述(Li ,Ri,Hi),分别表示该建筑物的左边界,右边界,高度.输出输出这些建筑物在 ...
小甲鱼零基础python课后题 P24 023递归：这帮小兔崽子
0.使用递归写一个十进制转换为二进制的函数(要求“取2取余”的方式,结果与调用bin()一样返回字符串式). 答: def Dec2Bin(dec): temp = [] result = '' wh ...
Python通过简单的文件读写，来实现注册登录
# -*- coding:utf-8 -*- '''''' username = input('请输入您的姓名:') password = input('请输入密码:') with open('get ...
python中删除list元素的方法del()、pop()和remove()
del():根据下标进行删除 In [1]: a = [1, 2, 3, 4, 5] In [2]: del a[0] In [3]: a Out[4]: [2, 3, 4, 5] pop(): 删除 ...
hue,kylin,ambari
apache-kylin https://ambari.apache.org/ https://www.jianshu.com/p/c49c61b654da docker pull sequencei ...