python+bs4+urllib

# -*- coding: utf-8 -*-

#

#

#

from bs4 import BeautifulSoup

import urllib2

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

###url = 'https://www.qidian.com/search?kw=%E7%AC%91%E5%82%B2%E6%B1%9F%E6%B9%96'

#

#

#

class main():

    def __init__(self):

        pass

    def search(self):

        '''查询函数'''

        ####输入关键字

        ####访问url，获取信息

        ####存储信息

        print '-'*80

        #print '--开始输入关键字: '.decode('utf-8').encode('gbk')

        #key = raw_input('key: ')

        key = urllib2.quote('笑傲江湖')

        url = 'https://www.qidian.com/search?kw='+key

        print '访问的网址是--'.decode('utf-8').encode('gbk')+url

        #####开始访问

        self.spider(url)

    def spider(self, url):

        print '-'*80

        print '开始访问网页'.decode('utf-8').encode('gbk')

        print '-'*80

        response = urllib2.urlopen(url).read()

        obj = BeautifulSoup(response,'html.parser')

        div_list = obj.find('div',{'class':'book-img-text'}).find_all('li')

        for v in div_list:

            name =  v.find('h4').find('a').text

            intro = v.find('div',{'class':'book-mid-info'}).find('p',{'class':'intro'}).text

            print intro

    def test(self):

        print urllib2.quote('笑傲江湖')

if __name__ == '__main__':

    book = main()

    book.search()

python+bs4+urllib的更多相关文章

Python -bs4介绍
https://cuiqingcai.com/1319.html Python -BS4详细介绍Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的.在应用过程中有很多模块是 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
python中urllib, urllib2,urllib3, httplib,httplib2, request的区别
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别若只使用python3.X, 下面可以不看了, 记住有个ur ...
python:利用urllib查找计算机二级准考证号
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAaYAAAEACAIAAAB3VkWnAAAgAElEQVR4nOydZ3gUR9bv+WhExhHnDH
【Python】Python的urllib模、urllib2模块的网络下载文件
因为需要从一些下载一个页PDF文件.但是需要下载PDF有数百个文件,这是不可能用人工点击下载.只是Python有相关模块,所以写一个程序PDF文件下载,顺便熟悉Python的urllib模块和ulrl ...
定义一个方法get_page(url),url参数是需要获取网页内容的网址，返回网页的内容。提示（可以了解python的urllib模块）
定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) import urllib.request def get_ ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
Python 爬虫 --- urllib
对于互联网数据,Python 有很多处理网络协议的工具,urllib 是很常用的一种. 一.urllib.request,request 可以很方便的抓取 URL 内容. urllib.request ...
Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...

随机推荐

大数据离线分析平台用户数据Etl
Etl目标解析我们收集的日志数据,将解析后的数据保存到hbase中.这里选择hbase来存储数据的主要原因就是: hbase的宽表结构设计适合我们的这样多种数据格式的数据存储(不同event有不同 ...
RedHat6.5上安装Hadoop单机
版本号:RedHat6.5 JDK1.8 Hadoop2.7.3 hadoop 说明:从版本2开始加入了Yarn这个资源管理器,Yarn并不需要单独安装.只要在机器上安装了JDK就可以直接安 ...
总线读写---verilog代码
总线读写---verilog代码 `timescale 1ns / 1ps ////////////////////////////////////////////////////////////// ...
MySQL 内存溢出
select EVENT_NAME ,SUM_NUMBER_OF_BYTES_ALLOC from memory_summary_global_by_event_name order by SUM_N ...
shell 查看去掉windons中的换行符
查看 cat -v 1.sh 替换 sed -i 's/\r//g' 1.sh
vue中为对象添加值的问题
demo: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF ...
yarn和npm命令对比
安装使用git
阿斯蒂芬 http://www.cnblogs.com/alex3714/articles/5930846.html
maven使用配置
一.maven常用的命令 maven通过命令对工程进行编译.测试.打包.发布.运行(基本的顺序) mvn compile:编译 mvn clean:清理,将target下的class文件清理 mvn ...
pytest学习笔记
From: https://blog.csdn.net/gaowg11/article/details/54910974 由于对测试框架了解比较少,所以最近看了下pytest测试框架,对学习心得做个记 ...

python+bs4+urllib

python+bs4+urllib的更多相关文章

随机推荐

热门专题