为了避免自己忘了Python的爬虫相关知识和流程,下面简单的记录一下爬虫的基本要求和编程问题!!

简单了解了一下,爬虫的方法很多,我简单的使用了已经做好的库requests来获取网页信息和BeautifulSoup来进行正则判定文本。这样也算是简单的入门了爬虫的基本实验,也能够从网页上爬取自己想要的信息!

 link = 'http://news.sina.com.cn/'
res = requests.get(link)
res.encoding = 'utf-8' #设置文本的编码格式是utf-8的文件格式
soup = BeautifulSoup(res.text, 'html.parser') #通过res中的成员变量.text来得到HTML的文本res.text
alink = soup.select('a') #选择class模块中的a来作为提取的目标的判定条件:<a href="http://mil.news.sina.com.cn/"><span class="titName ptn_05">军事</span></a>
DATA = set() #创建一个set集合
Cookies = ['军事', '教育', '科技', '文化'] #创建一个目标提取项目
for link in alink:
if link.text in Cookies: #alink中包含了所有的以a开头的class文本,link.text提取了其中一个link的文本内容
Temp = 'The title of link '+link.text+' is :'+link['href'] #使用link['herf']来取herf对应的字典字符串,也就是对应的链接
DATA.add(Temp) #在DATA数据中加入满足正则要求的文本文件
for Info in DATA:
print(Info)
Check = input('Please input the content you want to see:')
Str = ''
for W in list(DATA):
if W.find(Check) != -1:
Str = Str + W + '\n'
File = open('C:\\Users\\Administrator\Desktop\Python爬虫准备\demo\Info1.txt', 'w') #将取得的文件写入到文件夹当中
File.writelines(Str)
File.close() HTML = 'http://book.weibo.com/newcms/tp_p4c51t160.html'
res = requests.get(HTML)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'html.parser')
title = soup.select('.S_title')
print(title[0].text)
content = soup.select('.S_explain')
print(content[0].text)
Count = soup.select('.book_vote')
Bname = soup.select('.book_name')
Aname = soup.select('.book_author')
Blink = soup.select('a')
Info = ''
for i in range(len(Bname)):
Info = Info + Bname[i].text + '-->' + Aname[i].text + '(' +\
Count[i].text.replace(' ', '') + ')' + '--link:' +\
Blink[i*4]['href']+'\n\n'
print(Info)
Data = title[0].text + '\n' + content[0].text + '\n' + Info
F = open('C:\\Users\\Administrator\Desktop\Python爬虫准备\demo\Info2.txt', 'w')
F.writelines(Data)
F.close() Init_link = 'https://www.douyu.com/directory/all'
Data = requests.get(Init_link)
Data.encoding = 'utf-8'
soup = BeautifulSoup(Data.text, 'html.parser')
Res = soup.select('.mes')
Count = soup.select('p')
for i in Res:
if i.text.find('英雄联盟') != -1:
Str = i.text.replace(' ', '').replace('\n', '')
print(Str)
print(Str[len(Str)-3:len(Str)])
print(len(Res))

对于爬虫,你只需要大概的懂得一些HTML网页的编程就可以了,主要的是要能分析网页的结构,和在每一步中得到的数据的数据形式,是集合set还是字典dict还是列表list或者是字符串,只有清楚的知道数据的类型,才能很好的处理和使用数据信息!

当然,我设想后面来爬取每天的天气信息,通过自己的一些硬件来完成出门前的自动提醒功能,也算是简单的嵌入式智能家居的设计了~

Python简单爬虫记录的更多相关文章

  1. Python简单爬虫入门三

    我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二 前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...

  2. Python简单爬虫入门二

    接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们Bea ...

  3. GJM : Python简单爬虫入门(二) [转载]

    感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...

  4. Python 简单爬虫案例

    Python 简单爬虫案例 import requests url = "https://www.sogou.com/web" # 封装参数 wd = input('enter a ...

  5. python简单爬虫一

    简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息.然后我们可以将这些有用的信息保存到数据库或者保存到文件中.如果我们手工一个一个访问提取非常慢,所以我们需要编 ...

  6. Python简单爬虫

    爬虫简介 自动抓取互联网信息的程序 从一个词条的URL访问到所有相关词条的URL,并提取出有价值的数据 价值:互联网的数据为我所用 简单爬虫架构 实现爬虫,需要从以下几个方面考虑 爬虫调度端:启动爬虫 ...

  7. python 简单爬虫(beatifulsoup)

    ---恢复内容开始--- python爬虫学习从0开始 第一次学习了python语法,迫不及待的来开始python的项目.首先接触了爬虫,是一个简单爬虫.个人感觉python非常简洁,相比起java或 ...

  8. python 简单爬虫diy

    简单爬虫直接diy, 复杂的用scrapy import urllib2 import re from bs4 import BeautifulSoap req = urllib2.Request(u ...

  9. python scrapy简单爬虫记录(实现简单爬取知乎)

    之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子 使用的环境是python2.7, scrapy1.2.0 首先创建项目 在要建立项目的目 ...

随机推荐

  1. win7 下安装 ubuntu 16.04双系统

    Ubuntu 每年发布两个版本,目前最新正式版版本也升到了 16.04.Ubuntu 16.04 开发代号为"Xenial Xerus",为第六个长期支持(LTS)版本,其主要特色 ...

  2. 在DataGrid中实现Button Command

    Command="{Binding butCommand}"会默认查找ListViewItems中对象的属性,而你的ListViewItems中对象应该不包括butCommand属 ...

  3. 使用MyEclipse开发第一个Web程序

    MyEclipse环境配置 首先,安装一个MyEclipse,然后进行一些相关的环境配置(Window->Preferences): 比如字体.Formatter等. 也可以从Eclipse中导 ...

  4. TSP问题(旅行商问题)[分支限界法]

    问题: 旅行商从 a 开始周游下图所有的城市一次,然后回到 a,城市之间的旅行代价在图中标明. 请选择一个最优的行走顺序使得周游所有城市的代价最小. 思路: 随便怎么周游,对于一个城市来说,一定有一条 ...

  5. oralce

    1.对数据库SQL2005.ORACLE熟悉吗?   SQL2005是微软公司的数据库产品.是一个RDBMS数据库,一般应用在一些中型数据库的应用,不能跨平台.   ORACLE是ORACLE公司的数 ...

  6. Delphi在Vasta/win 7下通过UAC控制

    在Windows编程时,为了兼容Win7与XP,许多需要底层权限的程序需要通过UAC验证,这是微软出的一个很恶心的东西……还不如Ubuntu那种Root机制呢……但是有困难我们就要克服-现在有一种方式 ...

  7. C++风格写判断某年某月某日是一年的第几天

    初学C++,在结构体中写函数及一些C++语言需要的一些格式 看代码 #include<iostream>#include<cstdio>using namespace std; ...

  8. git 配置SSH免密

    1.安装TortoiseGit(比较简单,直接在官网上下载安装包安装) 2.打开下图标识 点击 generate按钮 生成key(需要等一会)   3.生成Key保存成.ppk文件,记得存放路径,(建 ...

  9. HDU-1879-继续畅通工程(并查集)

    题目链接 http://acm.hdu.edu.cn/showproblem.php?pid=1879 这题做的我好尴尬,虽然自己做出来了,感觉也不难,不过怎觉得, 对这个最小生成树的理解,好像总隔了 ...

  10. secureCRT自动化脚本

    http://cysnow.iteye.com/blog/1698791 cd \crt "C:\Program Files\VanDyke Software\Clients\SecureC ...