Python爬虫例子（笔记，不适合参考，愿意看的可以看看）

话不多说，直接上代码：

 import re

 import csv

 #爬虫的一个小例子，爬的是百度贴吧（网页版）某个帖子的各个楼层的用户名，发言内容和发言时间（使用到了正则表达式） source3.txt是网页源代码

 with open('source3.txt', 'r', encoding='UTF-8') as f:

     source = f.read()

 result_list = []

 every_floor = re.findall('"l_post j_l_post l_post_bright(.*?)<div class="clear"></div>', source, re.S)

 for each in every_floor:

     #每次循环都初始化字典，然后经处理后，将整个有值的字典添加到列表中去

     result = {}

     result['username'] = re.findall('username="(.*?)" class="" src="', each, re.S)

     result['content'] = re.findall('j_d_post_content  clearfix" style="display:;">(.*?)</div><br>', each, re.S)

     result['reply_time'] = re.findall('date&quot;:&quot;(.*?)&quot;,&quot;vote_crypt', each, re.S)

     result_list.append(result)

 with open('hstieba2.csv', 'w', encoding='gbk') as f:

     writer = csv.DictWriter(f, fieldnames=['username', 'content', 'reply_time'])

     writer.writeheader()

     writer.writerows(result_list)

其实就是对普通文本使用正则表达式而已，仅供参考，如有疑问，请在底下留言。

Python爬虫例子（笔记，不适合参考，愿意看的可以看看）的更多相关文章

Python 爬虫个人笔记【目录】
个人笔记,仅供参考目录 Python爬虫笔记(一) Python 爬虫笔记(二) Python 爬虫笔记(三) Scrapy 笔记(一) Scrapy 笔记(二) Scrapy 笔记(三) Pyth ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
Python爬虫学习笔记(三)
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = &q ...
一入爬虫深似海，从此游戏是路人！总结我的python爬虫学习笔记！
前言还记得是大学2年级的时候,偶然之间看到了学长在学习python:我就坐在旁边看他敲着代码,感觉很好奇.感觉很酷,从那之后,我就想和学长一样的厉害,就想让学长教我,请他吃了一周的饭,他答应了.从此 ...
【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结
1. Beautiful Soup简介 Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减 ...
【Python爬虫学习笔记（2）】正则表达式（re模块）相关知识点总结
1. 正则表达式正则表达式是可以匹配文本片段的模式. 1.1 通配符正则表达式能够匹配对于一个的字符串,可以使用特殊字符创建这类模式.(图片来自cnblogs) 1.2 特殊字符的转义由于在正则 ...
Python爬虫学习笔记(一)
概念: 使用代码模拟用户,批量发送网络请求,批量获取数据. 分类: 通用爬虫: 通用爬虫是搜索引擎(Baidu.Google.Yahoo等)"抓取系统"的重要组成部分. 主要目的是 ...
Python爬虫学习笔记——防豆瓣反爬虫
开始慢慢测试爬虫以后会发现IP老被封,原因应该就是单位时间里面访问次数过多,虽然最简单的方法就是降低访问频率,但是又不想降低访问频率怎么办呢?查了一下最简单的方法就是使用转轮代理IP,网上找了一些方法 ...
Python爬虫学习笔记——豆瓣登陆(一)
#-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import html5lib import re import ...

随机推荐

SQL标量函数-日期函数
select day(createtime) from life_unite_product --取时间字段的天值 select month(createtime) from life_uni ...
Service官方教程(1)Started与Bound的区别、要实现的函数、声明service
Services 简介和分类 A Service is an application component that can perform long-running operations in the ...
数组声明的几种方式以及length属性
声明一: int[] arr=new int[10]; for(int i=0;i<arr.length;i++){ arr[i]=i; } 声明二: int[] arr2={1,2,3}; 声 ...
D. Dasha and Very Difficult Problem 二分
http://codeforces.com/contest/761/problem/D c[i] = b[i] - a[i],而且b[]和a[]都属于[L, R] 现在给出a[i]原数组和c[i]的相 ...
thinkphp3.2.3连接sqlserver 2008 R2 数据库
环境: 操作系统——win7 64位旗舰版 PHP——thinkphp 3.23 数据库——Microsoft SQL Server 2008 R2 需要用到的软件: 步骤: 1.搜索SQLSRV30 ...
ssm基础配置
1.导包 <dependencies> <dependency> <groupId>org.springframework</groupId> < ...
@import与link方式的区别
1. 老祖宗的差别.link属于XHTML标签,而@import完全是CSS提供的一种方式. link标签除了可以加载CSS外,还可以做很多其它的事情,比如定义RSS,定义rel连接属性等,@impo ...
【译】x86程序员手册35-9.8异常条件
译注:一些异常没有翻译,因为看书时主要为了理解linux代码,所以代码中没有主要使用的就没有仔细看.这部分内容后期再看时再进行翻译. 9.8 Exception Conditions 异常条件 The ...
2015年度精品最新力作32位和64位xp,win7,win8,win10系统下载(电脑城专用版)
一.系统主要特点 1.安装维护方便快速 - 全自动无人值守安装,采用万能GHOST技术,安装系统过程只需3-5分钟,适合新旧各种机型. - 集成常见硬件驱动,智能识别+预解压技术,绝大多数硬件可以快 ...
h5混编问题总结
h5混编总结: 1.fragment 格式错误导致跳转混乱的问题:修改格式: 2.有缓存回退js不执行问题:未解决: 3.无缓存跨域回退白屏问题:解决跨域问题. 4.

Python爬虫例子（笔记，不适合参考，愿意看的可以看看）

Python爬虫例子（笔记，不适合参考，愿意看的可以看看）的更多相关文章

随机推荐

热门专题