使用beautifulsoup与requests爬取数据
1、安装需要的库
bs4 beautifulSoup requests lxml
如果使用mongodb存取数据,安装一下pymongo插件
2、常见问题
1> lxml安装问题
如果遇到lxml无法安装问题,参考知乎上的答案:
首先,安装wheel,命令行运行:pip install wheel
其次,在这里下载对应的.whl文件,注意别改文件名!http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
Ctrl + F,输入lxml,找到下面这段Lxml,
Lxml, a binding for the libxml2 and libxslt libraries.
lxml‑3.7.1‑cp27‑cp27m‑win32.whl
lxml‑3.7.1‑cp27‑cp27m‑win_amd64.whl
lxml‑3.7.1‑cp34‑cp34m‑win32.whl
lxml‑3.7.1‑cp34‑cp34m‑win_amd64.whl
lxml‑3.7.1‑cp35‑cp35m‑win32.whl
lxml‑3.7.1‑cp35‑cp35m‑win_amd64.whl
lxml‑3.7.1‑cp36‑cp36m‑win32.whl
lxml‑3.7.1‑cp36‑cp36m‑win_amd64.whl
cp后面是Python的版本号,27表示2.7,根据你的Python版本选择下载。
之后, 进入.whl所在的文件夹,执行命令即可完成安装pip install 带后缀的完整文件名
2> pip问题
如果提示 'pip' 不是内部或外部命令,也不是可运行的程序。
多是因为环境变量没有设置好。需要设置两个,一些常用的命令在Scripts文件夹下面
以下两个改为自己计算机的路径
C:\Files\Python\Python36
C:\Files\Python\Python36\Scripts
3、mongodb
如何安装mongodb参见https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/
服务启动与停止
sudo service mongod start
sudo service mongod stop
sudo service mongod restart
配置文件位于 /etc/mongod.conf,默认端口 27017 ,修改可以在配置文件中修改
# network interfaces
net:
port:
# bindIp: 127.0.0.1
此外,默认绑定了ip地址127.0.0.1,需要将此句注释掉,否则远程无法访问
4、参考代码
import requests
from bs4 import BeautifulSoup
import time
import pymongo
import random
from multiprocessing import Pool
# 导入多个对象或者函数用逗号分开
# from test_parsing import get_items,url_list # mongodb客户端
client = pymongo.MongoClient('192.168.1.101',27017)
# 数据库
test = client['testdata']
# 各种表
tb = test['testtable']
mb= test['itemtable']
detail= test['detailtable'] headers = {
User-Agent:
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
'Connection':'keep-alive'
} proxy_list = [
'http://118.79.27.123:8081',
'http://113.108.253.195:9797',
] # 随机获取代理ip
proxy_ip = random.choice(proxy_list)
proxies = {'http': proxy_ip} # 简单用例
def get_pages_within(pagenums):
for page_num in range(1,pagenums+1):
# 请求
wb_data = requests.get('http://urldata/test/pn{}/'.format(page_num))
# 包装一个对象
soup = BeautifulSoup(wb_data.text,'lxml')
# 使用select方法,参数为样式选择器,div.price_li > span 标识逐层级关系,div.price_li span 只是简单的包含关系
numbers = soup.select('div.number')
prices = soup.select('span.price') links = soup.select('a.t') for number, price, link in zip(numbers,prices,links):
if int(price.get_text()) > 500:
print(number,price)
data = {
'title':number.get_text(),
'price':price.get_text(),
'link' :link.get('href')
}
tb.insert_one(data)
print('finished') # 复杂点的
def get_links_from(source, pages, flag='c'):
list_view = '{}{}{}/'.format(source, str(flag), str(pages))
# 带参数
wb_data = requests.get(list_view,headers=headers,proxies=proxies)
soup = BeautifulSoup(wb_data.text, 'lxml')
if soup.find('ul', 'pageLink'):
for link in soup.select('.fenlei dt a'):
item_link = link.get('href')
mb.insert_one({'url': item_link})
print(item_link) else:
pass def get_detail_from(url,data=None):
wb_data = requests.get(url,headers=headers)
time.sleep(1)
# flag = 'flagnumber' in soup.find('script', type="text/javascript").get('src').split('/')
# if flag:
if wb_data.status_code == 404:
pass
else:
soup = BeautifulSoup(wb_data.text, 'lxml')
data = {
'title':soup.title.text.strip(),
'price':soup.select('div.price_li > span > i')[0].text.strip(),
'time':soup.select('.pubtime')[0].text.strip().split('/')[0],
'area':list(map(lambda x:x.text,soup.select('ul.area-infor > li > a'))),
'cates':list(soup.select('div.cates > span > i')[0].stripped_strings),
'url':url
}
detail.insert_one(data) source_list = '''
http://test.com/books/
http://test.com/pictures/
''' # 读取数据
# $lt/$lte/$gt/$gte/$ne,依次等价于</<=/>/>=/!=。(l表示less g表示greater e表示equal n表示not )
for item in detail.find({'price': {'$lt': 100}}):
print(item) for i in detail.find():
if i['price'] >= 500:
print(i) if __name__ == '__main__':
# 使用多进程
pool = Pool()
# pool = Pool(processes=2)
if source_list is not None:
pool.map(get_links_from,source_list.split()) pool.close()
pool.join()
一般使用谷歌浏览器对要爬取的元素进行检查,在这一方面,好用一些,右键,选择Copy selector,获取到例如:div.cates > span > i,作为select函数的参数即可。

也可以自己写,在浏览器的检查元素页面上,ctrl + F 出现查找框,写入要使用的样式选择器,看看是否准确即可 。
例子:div.price_li > span 标识逐层级关系,div.price_li span 只是简单的包含关系

5、参考文档
http://beautifulsoup.readthedocs.io/zh_CN/latest/
http://www.python-requests.org/en/master/
使用beautifulsoup与requests爬取数据的更多相关文章
- python requests 爬取数据
import requests from lxml import etree import time import pymysql import json headers={ 'User-Agent' ...
- 使用BeautifulSoup和正则表达式爬取时光网不同地区top100电影并使用Matplotlib对比
还有一年多就要毕业了,不准备考研的我要着手准备找实习及工作了,所以一直没有更新. 因为Python是自学不久,发现很久不用的话以前学过的很多方法就忘了,今天打算使用简单的BeautifulSoup和一 ...
- 关于js渲染网页时爬取数据的思路和全过程(附源码)
于js渲染网页时爬取数据的思路 首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
- 【个人】爬虫实践,利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜 网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
- python模拟浏览器爬取数据
爬虫新手大坑:爬取数据的时候一定要设置header伪装成浏览器!!!! 在爬取某财经网站数据时由于没有设置Header信息,直接被封掉了ip 后来设置了Accept.Connection.User-A ...
- 如何分页爬取数据--beautisoup
'''本次爬取讲历史网站'''#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:Hurrican@file: 分页爬 ...
- 使用requests爬取梨视频、bilibili视频、汽车之家,bs4遍历文档树、搜索文档树,css选择器
今日内容概要 使用requests爬取梨视频 requests+bs4爬取汽车之家 bs4遍历文档树 bs4搜索文档树 css选择器 内容详细 1.使用requests爬取梨视频 # 模拟发送http ...
- requests爬取百度音乐
使用requests爬取百度音乐,我想把当前热门歌手的音乐信息爬下来. 首先进行url分析,可以看到: 歌手网页: 薛之谦网页: 可以看到,似乎这些路劲的获取一切都很顺利,然后可以写代码: # -*- ...
- scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架 异步与非阻塞的区别 异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...
随机推荐
- 拉格朗日插值法——用Python进行数值计算
插值法的伟大作用我就不说了.... 那么贴代码? 首先说一下下面几点: 1. 已有的数据样本被称之为 "插值节点" 2. 对于特定插值节点,它所对应的插值函数是必定存在且唯一的(关 ...
- Android-TextView跑马灯效果
要实现跑马灯还是比较简单的. 同时有几个需要注意的点,先上代码: public class MTView extends TextView { public MTView(Context contex ...
- kqueue例子
网络服务器通常都使用epoll进行异步IO处理,而开发者通常使用mac,为了方便开发,我把自己的handy库移植到了mac平台上.移植过程中,网上居然没有搜到kqueue的使用例子,让我惊讶不已.为了 ...
- LOCK TABLES和UNLOCK TABLES与Transactions的交互
LOCK TABLES对事务不安全,并且在试图锁定表之前隐式提交任何活动事务. UNLOCK TABLES只有在LOCK TABLES已经获取到表锁时,会隐式提交任何活动事务.对于下面的一组语句,UN ...
- HTTP的长连接和短连接
本文总结&分享网络编程中涉及的长连接.短连接概念. 关键字:Keep-Alive,并发连接数限制,TCP,HTTP 一.什么是长连接 HTTP1.1规定了默认保持长连接(HTT ...
- MVC、MVP、MVVM、Angular.js、Knockout.js、Backbone.js、React.js、Ember.js、Avalon.js、Vue.js 概念摘录
注:文章内容都是摘录性文字,自己阅读的一些笔记,方便日后查看. MVC MVC(Model-View-Controller),M 是指业务模型,V 是指用户界面,C 则是控制器,使用 MVC 的目的是 ...
- DM9000驱动移植在mini2440(linux2.6.29)和FS4412(linux3.14.78)上的实现(deep dive)篇一
关于dm9000的驱动移植分为两篇,第一篇在mini2440上实现,基于linux2.6.29,也成功在在6410上移植了一遍,和2440非常类似,第二篇在fs4412(Cortex A9)上实现,基 ...
- (转)DOM appendHTML实现及insertAdjacentHTML
appenChild() 原文转自 JS中有很多基本DOM方法,例如createElement, parentNode等,其中,appendChild方法是相当地常用与熟知,可谓是DOM节点方法中的& ...
- C#:解决WCF中服务引用 自动生成代码不全的问题。
问题描述: 如下图:打叉的部分是引用不成功的部分 ,在web.config文件中没有自动添加其引用代码. 英文解释 在服务引用选择自己的项目的程序集就行了,如下图: 特别注意:这些程序集一定要在自己的 ...
- 基于 Cmd MarkDown 的 markdown 语法学习
首先我要打一个属于干货的广告:CmdMarkDown 是非常好用的markdown编辑器软件,支持全平台,由作业部落出品,分为客户端与WEB端两种使用场景. 本篇博客学习的markdown语法都是基于 ...