net spider（python 网络爬虫）

# -*- coding: utf-8 -*-

import  urllib2,cookielib

from   bs4 import  BeautifulSoup

url="http://www.baidu.com"

#第一种方法

response1=urllib2.urlopen(url)

print response1.getcode()

print len(response1.read())

#第二种方法

request=urllib2.Request(url)

request.add_header("user-agent","Mozilla/5.0")

response2=urllib2.urlopen(request)

print response2.getcode()

print len(response2.read())

#第三种方法

cj=cookielib.CookieJar()

opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

urllib2.install_opener(opener)

response3=urllib2.urlopen(url)

print response3.getcode()

print cj

print response3.read()

#BeautifulSoup实例

html_doc="""********************************************
**********************
******************
*************
*******
"""

soup=BeautifulSoup(html_doc,

                   'html.parser',

                   from_encoding='utf-8')

print "获取所有的链接"

links=soup.find_all("a")

for link in links:

    print  link.name,link['href'],link.get_text()

print '获取单个链接'

link_node=soup.find('a',href='http://example.com/lacie')

print  link_node.name, link_node['href'], link_node.get_text()

print "正则表达式"

link_node=soup.find('a',href=re.compile(r"ill"))

print link_node.name,link_node['href'],link_node.get_text()

print "获取p段落文字"

p_node=soup.find('p',class_="title")

print p_node.name,p_node.get_text()

net spider（python 网络爬虫）的更多相关文章

python 网络爬虫（二） BFS不断抓URL并放到文件中
上一篇的python 网络爬虫(一) 简单demo 还不能叫爬虫,只能说基础吧,因为它没有自动化抓链接的功能. 本篇追加如下功能: [1]广度优先搜索不断抓URL,直到队列为空 [2]把所有的URL写 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
Python 网络爬虫 001 (科普) 网络爬虫简介
Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的我举几个生活中的例子: 例子一: 我平时会将学到的知识和积累的经验写成博客发送到CSDN博客网站上,那么对于我 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
python网络爬虫之入门[一]
目录前言一.探讨什么是python网络爬虫? 二.一个针对于网络传输的抓包工具fiddler 三.学习request模块来爬取第一个网页 * 扩展内容(爬取top250的网页) 后记 @(目录) ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...

随机推荐

2.Odoo产品分析 (一) – 一切为零
查看Odoo产品分析系列--目录 1. 默认数据库声明在先本系列文档(Odoo产品分析)整理来自本人对该ERP的理解,并结合文档Working-with-Odoo-10-Second-Editi ...
Future FutrueTask Callable类源码说明以及原理使用
1.Future Callable FutureTask 源码说明 JDK内置的Future主要使用到了Callable接口和FutureTask类. Callable是类似于Runnable的接口, ...
转载：如何在Ubuntu 18.04上使用UFW设置防火墙
https://blog.csdn.net/u013068789/article/details/82051943 介绍 UFW或Uncomplicated Firewall是iptables一个接口 ...
codeforces 803D Magazine Ad(二分+贪心)
Magazine Ad 题目链接:http://codeforces.com/contest/803/problem/D ——每天在线,欢迎留言谈论. 题目大意: 给你一个数字k,和一行字符例: g ...
记CSS格式化上下文
fomatting context 引言主要讲解的是BFC上下文本文是查看史上最全面.最透彻的BFC原理剖析的笔记所以不会详解BFC, 只是记录学习心得, 以及重要规则避免原文失效简介 F ...
github仓库本地创建上传远程仓库
1.现在githubu创建自己心意的仓库. 2.然后再本地创建文件夹 echo"# (远程仓库的名字) >>README.md git add README.md git co ...
CsQuery获取IDomObject元素的完整CSS选择器
一.方法说明通过IDomObject元素,获取完整的CSS选择器,过滤HTML和BODY元素,自动将class.id添加到选择器上,优先添加class,无class再添加id.如: <html ...
python爬虫之12306网站--火车票信息查询
python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...
Python 提案
学习Java 不可不知JSR,学习Python自然也得知道 PEP了 1- PEP简介 PEP是Python增强提案(Python Enhancement Proposal)的缩写.https://w ...
Nginx 安装配置
Nginx("engine x")是一款是由俄罗斯的程序设计师Igor Sysoev所开发高性能的 Web和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器. ...

net spider（python 网络爬虫）

net spider（python 网络爬虫）的更多相关文章

随机推荐

热门专题