python 爬虫之 正则的一些小例子】的更多相关文章

什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑. 正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块 python正则的详细讲解 常用的匹配模式 \w 匹配字母数字及下划线 \W 匹配f非字母数字下划线 \s 匹配任意空白字符,等价于[\t\n\r\f] \S 匹配任意非空字符 \d 匹配任意数字 \D 匹配任意非数字 \A 匹配字…
python爬虫入门 开发环境 ubuntu 16.04 sublime pycharm requests库 requests库安装: sudo pip install requests 第一个例子 import requests r=requests.get("http://www.baidu.com") r.encoding="utf-8" print r.text 运行结果如下,成功抓取了百度的源代码 现在来详细讲解 import requests 就是导入了…
1 # Python爬虫学习第一记 8.24 (代码有点小,请放大看吧) 2 3 #实现有道翻译,模块一: $fanyi.py 4 5 import urllib.request 6 import urllib.parse 7 import json 8 9 # word 是将要传入的翻译的内容 10 11 def fanyi(word): 12 while 1: 13 # 去掉url中的 _o 可以解决反爬虫机制 14 url = 'http://fanyi.youdao.com/transl…
在做爬虫的时候,我们总是不想去看到网页的注释,或者是网页的一些其他元素,有没有好的办法去掉他们呢? 例如:下面的问题 第一种情况<ahref="http://artso.artron.net/auction/search_auction.php?keyword=%E6%9E%97%E7%BB%8D%E5%91%A8"target="_blank">林绍周(明)</a>辑</td> 想要得到的结果是:林绍周(明)辑 第二种情况 &l…
Python In Action这本书真是有点猛,一开头就来这么个例子: import wx class MyFrame(wx.Frame): def __init__(self): wx.Frame.__init__(self,None,-1,'My Frame',size=(300,300)) panel=wx.Panel(self,-1) panel.Bind(wx.EVT_MOTION,self.OnMove) wx.StaticText(panel,-1,'Pos:',pos=(10,…
最近在写一个应用,需要收集微博上一些热门的视频,像这些小视频一般都来自秒拍,微拍,美拍和新浪视频,而且没有下载的选项,所以只能动脑想想办法了. 第一步 分析网页源码. 例如:http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97,右键查看源码,一般视频都是mp4后缀,搜索发现没有,但是有的直接就能看到了比如美拍的视频. 第二步 抓包,分析请求和返回.这个也可以通过强大的chrome实现,还是上面的例子,右键->审…
最近基金跌的真够猛,虽说是定投,但大幅度下跌,有时候适当的增加定投数也是降低平均成本的一种方式 每天去看去算太费时间,写了个爬虫,让他自动抓数据后自动计算出来吧 实现逻辑: 1.创建了一个excel表格,把当前定投的基金都备注到里面. 2.脚本依次读取表格中的基金代码 3.拿到基金代码,到"天天基金网"获取基金最新净值 4.把获取到净值和更新时间写到excel中 5.excel公示计算出基于最近一次购买值的涨跌幅 后续还可以把脚本搬到云上,每天自动运行,达到设置的跌幅发邮件提醒或者短信…
抓取 https://www.cnbeta.com/ 首页中新闻内容页网址, 抓取内容例子: https://hot.cnbeta.com/articles/game/825125 将抓取下来的内容页地址组成list,利用多线程,把所有内容页的内容写入文件,文件名以新闻id命名  以上一篇为例子就是  825125.html. ☆`·.·˙˙`·..·˙˙`·..·˙☆`·.·˙˙`·..·˙☆`·.·˙˙`·..·˙˙`·..·☆`·.·˙˙`·..·˙˙`·..·˙☆`·.·˙˙`·..·˙…
一.创建Server 1.Dos 命令 python -m BaseHTTPServer [port] 默认端口是8000, 2.Python 脚本启动 #coding:utf-8 ''' Created on 2018��10��29�� @author: Administrator ''' from BaseHTTPServer import HTTPServer, BaseHTTPRequestHandler import MySQLdb from sqlalchemy import cr…
最近在研究动态脚本语言 Python , 出于对其语言精简度的喜欢及大学时期对 matlab 这样的数学领域语言的怀念, 再加上笔者是C++起家,Python中所涉及的del机制与特殊方法重载(类比于c++中的运算符重载)等 , 让笔者不自觉地玩起了 Python .关于Python 发展历程与基本语法这里不再多说,主要记录一下学习过程中敲的一些样例代码. 首先介绍一下最基本的多行.带中文字符和特殊字符的字符串打印: # -*- coding: utf-8 -*- #注意在首行加上上面这行注释,…