net spider（python 网络爬虫）

# -*- coding: utf-8 -*-

import  urllib2,cookielib

from   bs4 import  BeautifulSoup

url="http://www.baidu.com"

#第一种方法

response1=urllib2.urlopen(url)

print response1.getcode()

print len(response1.read())

#第二种方法

request=urllib2.Request(url)

request.add_header("user-agent","Mozilla/5.0")

response2=urllib2.urlopen(request)

print response2.getcode()

print len(response2.read())

#第三种方法

cj=cookielib.CookieJar()

opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

urllib2.install_opener(opener)

response3=urllib2.urlopen(url)

print response3.getcode()

print cj

print response3.read()

#BeautifulSoup实例

html_doc="""********************************************
**********************
******************
*************
*******
"""

soup=BeautifulSoup(html_doc,

                   'html.parser',

                   from_encoding='utf-8')

print "获取所有的链接"

links=soup.find_all("a")

for link in links:

    print  link.name,link['href'],link.get_text()

print '获取单个链接'

link_node=soup.find('a',href='http://example.com/lacie')

print  link_node.name, link_node['href'], link_node.get_text()

print "正则表达式"

link_node=soup.find('a',href=re.compile(r"ill"))

print link_node.name,link_node['href'],link_node.get_text()

print "获取p段落文字"

p_node=soup.find('p',class_="title")

print p_node.name,p_node.get_text()

net spider（python 网络爬虫）的更多相关文章

python 网络爬虫（二） BFS不断抓URL并放到文件中
上一篇的python 网络爬虫(一) 简单demo 还不能叫爬虫,只能说基础吧,因为它没有自动化抓链接的功能. 本篇追加如下功能: [1]广度优先搜索不断抓URL,直到队列为空 [2]把所有的URL写 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
Python 网络爬虫 001 (科普) 网络爬虫简介
Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的我举几个生活中的例子: 例子一: 我平时会将学到的知识和积累的经验写成博客发送到CSDN博客网站上,那么对于我 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
python网络爬虫之入门[一]
目录前言一.探讨什么是python网络爬虫? 二.一个针对于网络传输的抓包工具fiddler 三.学习request模块来爬取第一个网页 * 扩展内容(爬取top250的网页) 后记 @(目录) ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...

随机推荐

SSH密钥对登录的原理和实践
1.ssh密钥对登录的基本思路是:要登录谁,就把公钥放到谁身上,就可以授权登录谁. 2.本地登录设备称为ssh客户端,被登录的设备称为ssh服务器. 3.原理图描述如下: 4.SSH的公钥分为open ...
Android为TV端助力不需要Socket的跨进程推送消息AIDL！
上篇介绍了跨进程实时通讯http://www.cnblogs.com/xiaoxiaing/p/5818161.html 但是他有个缺点就是服务端无法推送消息给客户端,今天这篇文章主要说的就是服务器推 ...
java实现小学生四则运算
GitHub地址:https://github.com/TaoTaoLv1/arithmetic 结对伙伴:叶文涛项目要求: 实现一个自动生成小学四则运算题目的命令行程序. 使用 -n 参数控制生成 ...
Spark数据倾斜及解决方案
一.场景 1.绝大多数task执行得都非常快,但个别task执行极慢.比如,总共有100个task,97个task都在1s之内执行完了,但是剩余的task却要一两分钟.这种情况很常见. 2.原本能够正 ...
html留言功能
<!DOCTYPE html> <html lang="zh"> <head> <meta charset="UTF-8&quo ...
JAVA多线程的问题以及处理（一）【转】
多线程编程为程序开发带来了很多的方便,但是也带来了一些问题,这些问题是在程序开发过程中必须进行处理的问题. 这些问题的核心是,如果多个线程同时访问一个资源,例如变量.文件等,时如何保证访问安全的问题. ...
SQL Server 锁实验（SELECT加锁探究）
本例中使用begin tran和with (holdlock)提示来观察SQL Server在select语句中的锁. 开启事务是为了保证时间极短的查询也能观察到锁情况,holdlock相当于开启序列 ...
ASP.NET MVC概述及第一个MVC程序
一.ASP.NET 概述 1. .NET Framework 与 ASP.NET .NET Framework包含两个重要组件:.NET Framework ...
转：Redis 使用经验总结
转自:Redis 总结精讲看一篇成高手系统-4 本文围绕以下几点进行阐述 1.为什么使用redis2.使用redis有什么缺点3.单线程的redis为什么这么快4.redis的数据类型,以及每种数据 ...
教你用Python Jupyter Notebook 制作代码分享 PPT
PPT 是个强大的工具,但是笔者的 PPT 制作技术不咋地,所以之前的分享习惯使用 Jupyter Notebook + RISE,这样使用简单的 markdown 格式加上代码就足够做一次代码分享了 ...

net spider（python 网络爬虫）

net spider（python 网络爬虫）的更多相关文章

随机推荐

热门专题