简单python爬虫实例
先放上url,https://music.douban.com/chart
这是豆瓣的一个音乐排行榜,这里爬取了左边部分的歌曲排行榜部分,爬虫很简单,就用到了beautifulsoup和requests这两个库,爬取后分吧把内容存储到txt,csv和数据库
0x01:存储到txt
import requests
from bs4 import BeautifulSoup
url = 'https://music.douban.com/chart'
html = requests.get(url=url).text
soup = BeautifulSoup(html, 'lxml')
ul = soup.find(attrs={'class': 'col5'}) # 找到存放排行榜音乐的ul标签
lis = ul.find_all(name='li') # 获取每一首音乐对应的标签
for li in lis:
paiming = li.find(name='span').string
name = li.find(name='a', attrs={'href': 'javascript:;'}).string
a = li.find(name='a', attrs={'class': 'face'}) # 获取存存放连接的a标签,再在a标签里获取连接
if a != None:
img = a.find(name='img') # 获取连接的img标签
lianjie = img.attrs['src'] # 获取到连接,下面进行一个判断,前十首歌曲有链接,后十首没有
else:
lianjie = '没有链接'
print(paiming, name, lianjie) with open('dou_bai_music.txt', 'a', encoding='utf-8') as f:
f.write(paiming+'\t'+name+'\t'+lianjie+'\n')
f.close()
0x02:存储到csv
import requests
from bs4 import BeautifulSoup
import csv
url = 'https://music.douban.com/chart'
html = requests.get(url=url).text
soup = BeautifulSoup(html, 'lxml')
ul = soup.find(attrs={'class': 'col5'}) # 找到存放排行榜音乐的ul标签
lis = ul.find_all(name='li') # 获取每一首音乐对应的标签
with open('doubai.csv', 'a', newline='', encoding='utf-8') as f: # 打开文件,写入表头
write = csv.writer(f)
write.writerow(['排名', '歌名', '链接'])
for li in lis:
paiming = li.find(name='span').string
name = li.find(name='a', attrs={'href': 'javascript:;'}).string
a = li.find(name='a', attrs={'class': 'face'}) # 获取存存放连接的a标签,再在a标签里获取连接
if a != None:
img = a.find(name='img') # 获取连接的img标签
lianjie = img.attrs['src'] # 获取到连接
else:
lianjie = '没有链接'
print(paiming, name, lianjie)
with open('doubai.csv', 'a', newline='', encoding='utf-8') as f: # 打开文件,存储爬取内容
write = csv.writer(f)
write.writerow([paiming, name, lianjie])
0x03:存储到数据库
import requests
from bs4 import BeautifulSoup
import pymysql
url = 'https://music.douban.com/chart'
html = requests.get(url=url).text
soup = BeautifulSoup(html, 'lxml')
ul = soup.find(attrs={'class': 'col5'}) # 找到存放排行榜音乐的ul标签
lis = ul.find_all(name='li') # 获取每一首音乐对应的标签
db = pymysql.connect(host='localhost', user='root', password='root', port=3306, db='spiders') # 连接数据库
cursor = db.cursor()
print('数据库连接成功')
sql = 'CREATE TABLE IF NOT EXISTS music (paiming INT NOT NULL, name VARCHAR(255) NOT NULL, lianjie VARCHAR(255) NOT NULL, PRIMARY KEY (paiming))' # 创建数据表,指定字段
cursor.execute(sql)
print('数据表创建完成!')
for li in lis:
paiming = li.find(name='span').string
name = li.find(name='a', attrs={'href': 'javascript:;'}).string
a = li.find(name='a', attrs={'class': 'face'}) # 获取存存放连接的a标签,再在a标签里获取连接
if a != None:
img = a.find(name='img') # 获取连接的img标签
lianjie = img.attrs['src'] # 获取到连接
else:
lianjie = '没有链接'
print(paiming, name, lianjie)
sql = 'INSERT INTO music(paiming, name, lianjie) values(%s, %s, %s)' # 插入数据,判断是否插入成功
try:
cursor.execute(sql, (paiming, name, lianjie))
db.commit()
print('数据插入完成!!')
except:
print('插入失败')
db.rollback()
db.close() # 关闭数据库
*******************************不积跬步,无以至里。******************************
简单python爬虫实例的更多相关文章
- Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://bbs.51testing. ...
- Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://www.51testing. ...
- Python爬虫实例:爬取猫眼电影——破解字体反爬
字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
- Python爬虫实例:爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
- Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...
- 简单scrapy爬虫实例
简单scrapy爬虫实例 流程分析 抓取内容:网站课程 页面:https://edu.hellobi.com 数据:课程名.课程链接及学习人数 观察页面url变化规律以及页面源代码帮助我们获取所有数据 ...
- python爬虫系列(1)——一个简单的爬虫实例
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述 本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容:分析html中 ...
- Python 爬虫实例
下面是我写的一个简单爬虫实例 1.定义函数读取html网页的源代码 2.从源代码通过正则表达式挑选出自己需要获取的内容 3.序列中的htm依次写到d盘 #!/usr/bin/python import ...
- Python爬虫实例:糗百
看了下python爬虫用法,正则匹配过滤对应字段,这里进行最强外功:copy大法实践 一开始是直接从参考链接复制粘贴的,发现由于糗百改版导致失败,这里对新版html分析后进行了简单改进,把整理过程记录 ...
随机推荐
- optimizer.zero_grad()
# zero the parameter gradients optimizer.zero_grad() # forward + backward + optimize outputs = net(i ...
- Special-Judge模板
SPJ模板 放一篇\(SPJ\)(\(Special-Judge\))的模板. 注意,仅适用于\(Lemon\). 并不适用于洛谷. 代码:@zcs0724 #include <bits/std ...
- luoguP4094 [HEOI2016/TJOI2016]字符串
题意 考虑二分答案\(mid\),现在我们要判断\(s[c...c+mid-1]\)是否在\(s[a...b]\)出现过. 首先找到\(s[c...c+mid-1]\)所在的状态: 建出\(paren ...
- array 数组
- react细节
1.在函数式组件中使用 类型和默认值 function App({ name }) { return ( <div> <h1>{name}</h1> </di ...
- Codeforces Round 589 (Div. 2) 题解
Is that a kind of fetishism? No, he is objectively a god. 见识了一把 Mcdic 究竟出题有多神. (虽然感觉还是吹过头了) 开了场 Virt ...
- QFile 打开文件,不用先判断文件名是否为空,做这多余的工作
void test_file() { QFile file(""); if (!file.open(QIODevice::WriteOnly)){ qDebug()<< ...
- 【shell脚本】将三个数字进行升序排序===numSort.sh
从命令输入三个数字进行升序排序(冒泡排序) 原理:比较两个相邻的元素,将值大的元素交换至右端. 脚本内容: [root@VM_0_10_centos shellScript]# cat numSort ...
- spring 注解AOP
aspectAnnotation的切面信息,加到了AnnotationAwareAspectJAutoProxyCreator的advisorsCache属性里面去了. 解析annotationSe ...
- springboot单元测试@test的使用
@RunWith(SpringRunner.class) @SpringBootTest(classes = Application.class) public class Springtest { ...