简单python爬虫实例
先放上url,https://music.douban.com/chart
这是豆瓣的一个音乐排行榜,这里爬取了左边部分的歌曲排行榜部分,爬虫很简单,就用到了beautifulsoup和requests这两个库,爬取后分吧把内容存储到txt,csv和数据库
0x01:存储到txt
import requests
from bs4 import BeautifulSoup
url = 'https://music.douban.com/chart'
html = requests.get(url=url).text
soup = BeautifulSoup(html, 'lxml')
ul = soup.find(attrs={'class': 'col5'}) # 找到存放排行榜音乐的ul标签
lis = ul.find_all(name='li') # 获取每一首音乐对应的标签
for li in lis:
paiming = li.find(name='span').string
name = li.find(name='a', attrs={'href': 'javascript:;'}).string
a = li.find(name='a', attrs={'class': 'face'}) # 获取存存放连接的a标签,再在a标签里获取连接
if a != None:
img = a.find(name='img') # 获取连接的img标签
lianjie = img.attrs['src'] # 获取到连接,下面进行一个判断,前十首歌曲有链接,后十首没有
else:
lianjie = '没有链接'
print(paiming, name, lianjie) with open('dou_bai_music.txt', 'a', encoding='utf-8') as f:
f.write(paiming+'\t'+name+'\t'+lianjie+'\n')
f.close()
0x02:存储到csv
import requests
from bs4 import BeautifulSoup
import csv
url = 'https://music.douban.com/chart'
html = requests.get(url=url).text
soup = BeautifulSoup(html, 'lxml')
ul = soup.find(attrs={'class': 'col5'}) # 找到存放排行榜音乐的ul标签
lis = ul.find_all(name='li') # 获取每一首音乐对应的标签
with open('doubai.csv', 'a', newline='', encoding='utf-8') as f: # 打开文件,写入表头
write = csv.writer(f)
write.writerow(['排名', '歌名', '链接'])
for li in lis:
paiming = li.find(name='span').string
name = li.find(name='a', attrs={'href': 'javascript:;'}).string
a = li.find(name='a', attrs={'class': 'face'}) # 获取存存放连接的a标签,再在a标签里获取连接
if a != None:
img = a.find(name='img') # 获取连接的img标签
lianjie = img.attrs['src'] # 获取到连接
else:
lianjie = '没有链接'
print(paiming, name, lianjie)
with open('doubai.csv', 'a', newline='', encoding='utf-8') as f: # 打开文件,存储爬取内容
write = csv.writer(f)
write.writerow([paiming, name, lianjie])
0x03:存储到数据库
import requests
from bs4 import BeautifulSoup
import pymysql
url = 'https://music.douban.com/chart'
html = requests.get(url=url).text
soup = BeautifulSoup(html, 'lxml')
ul = soup.find(attrs={'class': 'col5'}) # 找到存放排行榜音乐的ul标签
lis = ul.find_all(name='li') # 获取每一首音乐对应的标签
db = pymysql.connect(host='localhost', user='root', password='root', port=3306, db='spiders') # 连接数据库
cursor = db.cursor()
print('数据库连接成功')
sql = 'CREATE TABLE IF NOT EXISTS music (paiming INT NOT NULL, name VARCHAR(255) NOT NULL, lianjie VARCHAR(255) NOT NULL, PRIMARY KEY (paiming))' # 创建数据表,指定字段
cursor.execute(sql)
print('数据表创建完成!')
for li in lis:
paiming = li.find(name='span').string
name = li.find(name='a', attrs={'href': 'javascript:;'}).string
a = li.find(name='a', attrs={'class': 'face'}) # 获取存存放连接的a标签,再在a标签里获取连接
if a != None:
img = a.find(name='img') # 获取连接的img标签
lianjie = img.attrs['src'] # 获取到连接
else:
lianjie = '没有链接'
print(paiming, name, lianjie)
sql = 'INSERT INTO music(paiming, name, lianjie) values(%s, %s, %s)' # 插入数据,判断是否插入成功
try:
cursor.execute(sql, (paiming, name, lianjie))
db.commit()
print('数据插入完成!!')
except:
print('插入失败')
db.rollback()
db.close() # 关闭数据库
*******************************不积跬步,无以至里。******************************
简单python爬虫实例的更多相关文章
- Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://bbs.51testing. ...
- Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://www.51testing. ...
- Python爬虫实例:爬取猫眼电影——破解字体反爬
字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
- Python爬虫实例:爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
- Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...
- 简单scrapy爬虫实例
简单scrapy爬虫实例 流程分析 抓取内容:网站课程 页面:https://edu.hellobi.com 数据:课程名.课程链接及学习人数 观察页面url变化规律以及页面源代码帮助我们获取所有数据 ...
- python爬虫系列(1)——一个简单的爬虫实例
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述 本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容:分析html中 ...
- Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...
- Python爬虫实例:糗百
看了下python爬虫用法,正则匹配过滤对应字段,这里进行最强外功:copy大法实践 一开始是直接从参考链接复制粘贴的,发现由于糗百改版导致失败,这里对新版html分析后进行了简单改进,把整理过程记录 ...
随机推荐
- 如何对jmeter设置IP欺骗
由于服务器出于安全考虑会对同一IP地址做过滤,所以如果想要达到正常的压测效果,我们需要在发请求时伪造出不同的IP地址.主要步骤分为以下3步:第一步:在负载机上绑定IP地址. 第二步:在要欺骗的http ...
- 【Eureka篇三】EurekaServer服务注册中心(1)
注:在前面[Rest微服务案例(二)]的基础上进行操作. 1. 新建Maven Module,子模块名称为microservicecloud-eureka-7001,packaging为jar模式 & ...
- 剑指Offer-22.从上往下打印二叉树(C++/Java)
题目: 从上往下打印出二叉树的每个节点,同层节点从左至右打印. 分析: 按层次打印二叉树的节点,重点就是我们在打印一层节点的时候,同时按顺序保存好当前节点的下一层节点,也就是左节点和右节点,当此层节点 ...
- 剑指Offer-2.替换空格(C++/Java)
题目: 请实现一个函数,将一个字符串中的每个空格替换成“%20”.例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 分析: 题意明确,就是将一个字符 ...
- Leetcode173. 二叉搜索树迭代器
空间复杂度O(h)而不是O(n),因此不能直接在初始化函数中做中序遍历将结果存储到数组中.next()和hasNext()时间复杂度为O(1)首先本题很容易想到用二叉树的中序遍历去解决,外加注意点1. ...
- Luogu P3577 [POI2014]TUR-Tourism
Luogu P3577 [POI2014]TUR-Tourism 题目链接 题目大意:给出一张\(n\)个点,\(m\)条边的无向图,保证任意两点之间没有点数超过\(10\)的简单路径.选择第\(i\ ...
- spring 注解aop调用invoke()
public static void main(String[] args) { ClassPathXmlApplicationContext context = new ClassPathXmlAp ...
- 如何让 FFmpeg 支持异步并行转码、截图等等操作?
直接贴代码了: ffmpegTest02.cs public partial class ffmpegTest02 : FormBase { private static readonly strin ...
- .NET工程师的书单
短暂的假期里抽空整理了一份书单,以个人的见解这些应该是值得.NET工程师至少去看一遍的书籍.但所罗列的仅包括国内目前已出版的国外书籍的英文版,并不包含中文翻译及相关领域的中文书籍.这里没有任何歧视之意 ...
- Python基础16
反复练习决策树案例(保险) 将老师的思路与解题过程, 自己的心得, 中间遇到的问题.陷阱.解决办法, 写出来. 总之,将这个案例消化成自己的东西!