python网络爬虫入门(一)

爬虫系列的第一篇文章，本篇帮助不大（只能教你利用requests库获取HTML），后续篇（二）会有案例讲解。

python版本：python 3.7.0b1

IDE：PyCharm 2016.3.2

涉及模块：requests & builtwith & whois

模块安装方法：Win+R 进入cmd, 进入文件夹Scripts

命令：pip install requests / pip install requests / pip install whois(如不能正确安装，请留言或自行百度解决)

如要在PyCharm中使用库，先添加一下(添加方法)。

话不多说，先上代码：

 #coding : utf-8

 import requests

 import builtwith    #引入所需python库

 print("开始爬取")

 url = "https://www.wenjiwu.com/doc/uqzlni.html"     #爬取对象网址

 r = requests.get(url)        #requests模块get方法

 print (r.status_code)        #xxx.status_code方法，返回值若为200，则爬取成功

 print (r.text)                  #xxx.text方法，得到URL对应HTML源码

 print (builtwith.parse(url)) #builtwith模块将URL作为参数，返回该网站使用的技术

（url网址随意，baidu, imooc...都可以）

脚本运行结果：

可以看到，程序正常运行，返回值200，爬取成功，builtwith模块得到了示例网站 web-servers: Nginx(服务器类型，详细了解)，

使用了jQuery的javascript框架。但是碍于篇幅，其中HTML源码内容运行时注释掉了，不要惊讶！！！

r.text 结果（部分）：

（内容无意中伤 Single Dog, Me too #_# ）

补充：写成函数形式

 #coding : utf-8

 import requests

 import whois

 import builtwith

 def download(url, x):

     print ("downloading...")

     ans = requests.get(url)

     islink = ans.status_code        # '''通行码'''

     user = whois.whois(url)        #'''网站所有者'''

     pattern = builtwith.parse(url)  #'''网站类型'''

     result = ans.text               #'''网站内容HTML'''

     if islink == 200:

         print ("successfully link!")

     else:

         print ("Sorry, it is no found!")

     if x == 'y':

         print ('owner: ', user)

         print ('pattern: ', pattern)

         print ('text: ', result)

         return result

     else:

         return 000

 url = "https://www.baidu.com"

 download(url, 'y')

补充：把爬取的内容写入txt文件

  # 写入*.txt文件

 f = open("D:\python3.7\\testf.txt", mode='a', errors='ignore')

 for x in ans.text:

      f.write(x)

 f.close()

文件地址随意，errors=‘ignore’是为了防止诸如 ...'\xe7'..., illegal multibyte sequence转码问题的出现。

转载请注明出处，欢迎留言讨论。

python网络爬虫入门(一)的更多相关文章

python网络爬虫入门范例
python网络爬虫入门范例 Windows用户建议安装anaconda,因为有些套件难以安装. 安装使用pip install * 找出所有含有特定标签的HTML元素找出含有特定CSS属性的元素 ...
Python网络爬虫入门篇
1. 预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求使用 ...
Python网络爬虫入门实战（爬取最近7天的天气以及最高/最低气温）
_ 前言本文文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Bo_wen 最近两天学习了一下python,并自己写了一个 ...
python网络爬虫入门（二）
刚去看了一下,18年2月份写了第一篇关于爬虫的文章(仅仅介绍了使用requests库去获取HTML代码),一年多之后看来很稚嫩也没有多少参考的意义,但没想着要去修改它,留着也是一个回忆吧.至少证明着我 ...
python网络爬虫-入门（二）
为什么要学网络爬虫可以替代人工从网页中找到数据并复制粘贴到excel中,这种重复性的工作不仅浪费时间还一不留神还会出错----解决无法自动化和无法实时获取数据对于这些公开数据的应用价值,我 ...
python网络爬虫-入门（一）
前言 1.爬虫程序是Dt(Data Technology,数据技术)收集信息的基础,爬取到目标网站的资料后,就可以分析和建立应用了. 2.python是一个简单.有效的语言,爬虫所需要的获取.存储.整 ...
Python网络爬虫实战(一)快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
python网络爬虫之入门[一]
目录前言一.探讨什么是python网络爬虫? 二.一个针对于网络传输的抓包工具fiddler 三.学习request模块来爬取第一个网页 * 扩展内容(爬取top250的网页) 后记 @(目录) ...
python网络爬虫实战之快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...

随机推荐

Lombok的@Data、@Setter、@Getter注解没反应问题解决
在用@Data注解时,没有生成setter/getter方法.百度了一堆都没解决方法,后来用Google查了一下解决了~~~ 使用IDEA需要安装Lombok插件,我这里已经下载好,如果没下载安装点击 ...
剑指offer【04】- 重建二叉树(java)
题目:重建二叉树考点:树题目描述:输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树.假设输入的前序遍历和中序遍历的结果中都不含重复的数字.例如输入前序遍历序列{1,2,4,7,3,5,6, ...
Ioc及Bean容器（三）
专题一 IoC 接口及面向接口编程什么是 IoC Spring 的Bean配置 Bean 的初始化 Spring 的常用注入方式接口用于沟通的中介物的抽象化实体把自己提供给外界的一种抽象化说明 ...
Spring系列之手写注解与配置文件的解析
目录 Spring系列之IOC的原理及手动实现 Spring系列之DI的原理及手动实现 Spring系列之AOP的原理及手动实现引入在前面我们已经完成了IOC,DI,AOP的实现,基本的功能都已经 ...
[转]迄今为止最优的Eclipse运行性能调优，含eclipse.ini
最近,Eclipse(Eclipse-JEE3.5)运行十分缓慢(可能插件安装过多),因此,得到了个机会调优一下,以便提高工作效率下图是未经任何调整eclipse的gc情况(使用jvisualvm命 ...
IT十年经典书籍
摘自网络,近来在浏览时,发现一个叫做“IT十年经典书籍”的主题.google了一下,实在找不出这个主题的源头出处.不过这个主题中所涉及的每一本书讲出来都是振聋发聩的,大可以作为它那个行业的经典了. ...
微信公众号开发模型WeChat
模型:WeChat (回复参考weiphp) <?php namespace Org; /** * 微信开发工具类 * Class WeChat * Author chenqionghe * @ ...
分布式系统监视zabbix讲解七之分布式监控--技术流ken
分布式监控概述 Zabbix通过Zabbix proxy为IT基础设施提供有效和可用的分布式监控代理(proxy)可用于代替Zabbix server本地收集数据,然后将数据报告给服务器. Pro ...
iOS UITextfield只允许输入数字和字母，长度限制
-(BOOL)textField:(UITextField *)textField shouldChangeCharactersInRange:(NSRange)range replacementSt ...
html5入门：教你用canvas写一个时钟
今天的时间比较充裕,心血来潮,为大家分享一个html5的小例子,希望对刚学html5或者是没学html5正准备学的“童鞋们”展示一个小案例,希望对你们的学习有帮助!高手嘛!请跳过吧! 好了,闲话少数, ...

python网络爬虫入门(一)

python网络爬虫入门(一)的更多相关文章

随机推荐

热门专题