python百度贴吧爬虫】的更多相关文章

# -*- coding: utf-8 -*- #coding=utf-8 import urllib import urllib2 import re import thread import time class BDTB: def __init__(self,baseurl,seeLz): self.baseUrl=baseurl self.seeLz='?see_lz='+str(seeLz) self.Tool=Tool() def getPage(self,pageNum): try…
爬虫 1.什么是爬虫 爬虫就是昆虫一类的其中一个爬行物种,擅长爬行. 哈哈,开玩笑,在编程里,爬虫其实全名叫网络爬虫,网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者.是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫(这一点倒是和我上面说的虫很形象). 这个解释有点官方了,说直白点,用过百度查找资料吗?你肯定用过吧,你知道像百度这样的搜索引擎什么原理吗?其实就是爬虫,不断的到各大网站链接里去爬取…
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操作,方便各种 Web 应用的自动化测试.它的取名很有意思,因为当时最流行的一款自动化测试工具叫做QTP,是由 Mercury 公司开发的商业应用.Mercury 是化学元素汞,而 Selenium 是化学元素硒,汞有剧毒,而硒可以解汞毒,它对汞有拮抗作用. Selenium 的核心组件叫做 Sele…
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10 (完整学习过程屏幕记录视频地址在文末) 原计划今天应当可以解决读取所有页的目录并转而取出所有新闻的功能,不过由于学习时间不够,只是进一步优化了自定义函数的写法. 一.优化并新增了几个操作word文档的函数 ``` #!/usr/bin/env python3 # -*- coding: utf-8 -*- import string import time import random from docx.enum.style i…
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对word文档的段落对象的操作的学习,并通过函数封装,使得可以轻松一点直接向word文档中添加一个或多个段落文本并且设置段落的格式. 一.完成了批量添加word文档段落的函数 ``` def addPToDocx(f,strp,strfont='宋体',fontsize=14,fontcolor=RG…
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天止基本完成了对docx模块针对word文档的段落对象的操作的学习,并通过函数封装,使得可以轻松一点直接向word文档中添加一个或多个段落文本并且设置段落的格式. 由于学习时间有限,今天的函数没有完全完成. 一.修改了之前自定义的批量添加word文档段落的函数 ``` def addPToDocx(f,strp,strfont=…
孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 今天的学习仍然是在纯粹对docx模块的探索和研究. 一.对docx模块的学习笔记 (一)docx文档中的色彩控制 from docx.shared import RGBColor 此方法用于将三个数值(十进制,十六进制的三个数都行,三原色)生成色彩对象 用法是: RGBColor(红色值,绿色值,蓝色值) (二)为文字指定色彩,今天…
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 不过由于对python-docx模块的不熟悉,事实上今天的学习变成了纯粹对docx模块的探索和研究了. 一.对docx模块的学习笔记 (一)docx文档中的样式结构常量 from docx.enum.style import WD_STYLE_TYPE WD_STYLE_TYPE中包含了docx文档需要的所有样式 (包括段落.文字.…
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import datetime import pymongo import _mty import _mf import _mbs4 import _mmongo import…
孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import datetime import pymongo import _mty import _mf import _mbs4 import _mmongo import…