python 爬虫相关含Scrapy框架

1、从酷狗网站爬取新歌首发的新歌名字、播放时长、链接等

from bs4 import BeautifulSoup as BS

import requests

import re

import json

class StockCrawler():

    def __init__(self):

        pass

    def get_stockinfo(self,url):

        res=requests.get(url)

        res.encoding='utf-8'

        soup=BS(res.text,'html.parser')

        stock_info=[]

        div=soup.find_all('div',id='SongtabContent')  #定位最外层的新歌区域标签

        li=div[0].find_all('li')

        for i in li:  #遍历每首歌的标签，分别取歌名、歌播放时长、链接

            print(i)

            link='http:'+i.find_all('a')[0]['href']

            print('link:',link)

            songname=i.a.find_all('span',class_='songName')[0].text

            songtime=i.a.find_all('span',class_='songTime')[0].text

            print('songname:',songname)

            print('songtime:',songtime)

            stock_info.append((songname,songtime,link))

        return stock_info

    def write_file(self,data,file_name):

        with open(file_name,'w',encoding='utf-8') as fp:

            for i in data:

                fp.write(i[0]+','+i[1]+','+i[2]+'\n')   #写入文件

if __name__=='__main__':

    url='http://www.kugou.com/'

    stockcrawler=StockCrawler()

    data=stockcrawler.get_stockinfo(url)

    stockcrawler.write_file(data,'f:\\test\\pppp.txt')

2、sohu网站首页爬取包含"体育"2个字的链接

r = requests.get("http://www.sohu.com")

r.encoding="utf-8"

html  = r.text

soup = BeautifulSoup(html,"html.parser")#html可以是html内容

links = []

for i in list(soup.find_all(["a"])):

    try:

        print(i["href"])

        if i["href"].strip().startswith(r"//"):

            print(1)

            i["href"]="http:"+i["href"]

        if i["href"].find("javascript")>=0:

            print(2)

            continue

        if i["href"].find("mailto")>=0:

            print(3)

            continue

        if len(i["href"].strip())==1:

            print(4)

            continue

        #print(i["href"])

        links.append(i["href"].strip())

        #print("*"*50)

    except Exception as e:

        print(e)

for link in links:

    print(link)

x=1

for link in links:

    r = requests.get(link)

    r.encoding = "utf-8"

    if "体育" in r.text:

        with open("e:\\pic\\"+str(x)+".txt","w",encoding="utf-8") as fp:

            fp.write(r.text)

            x+=1

3、使用代理服务器发送请求

proxy='168.0.86.146:8080'

#如果代理需要验证，只需要在前面加上用户名密码，如下所示

# proxy='username:password@124.243.226.18:8888'

proxies={

    'http':'http://'+proxy,

    'https':'https://'+proxy,

}

try:

    response=requests.get('http://httpbin.org/get',proxies=proxies)

    print(response.text)

except requests.exceptions.ConnectionError as e:

    print("Error",e.args)

4、Srapy 爬虫框架

#Scrapy 爬虫框架

'''

scrapy startproject testman

1）items.py 存储你要爬取的数据的变量。

类似于字典。

2）pipelines.py（保存爬取后的数据）:保存你抓取网页，分析后的存储的

变量中的数据存入到某个地方。（json文件）txt文件、excel 、数据库。

3）settings.py：设定spider的优先级，自动生成的，取消掉数据就可以了。

ITEM_PIPELINES = {'gr.pipelines.GrPipeline': 300,}

gr：抓取器的名字

4）在spider的目录下，写一下分析逻辑（从网页中取想要的数据，保存到items.py声明的变量中。）

框架使用的步骤：

1 新建scrapy工程，在任意目录下，cmd中执行：scrapy startproject groad

2 生成工程的内容，在scrapy的根目录下cmd中

执行：scrapy genspider newsong www.kugou.com

3 编写相关代码

4 在scrapy的根目录下，cmd执行抓取：scrapy crawl newsong

'''

5、Scrapy框架的例子，酷狗爬取新歌首发的歌曲名称、播放时长、歌曲链接等

#items.py文件内容

import scrapy

class GroadItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    #定义项目的字段

    songname=scrapy.Field() #歌曲名称

    songtime=scrapy.Field()#歌曲播放时间

    href_song=scrapy.Field()#歌曲播放链接

if __name__=='__main__':

    g=GroadItem()

    print(g['songname'])

#pipelines.py 文件内容

import json

class GroadPipeline(object):

    def __init__(self):

        self.filename=open('f:\\test\\newsong.txt','w',encoding='utf-8')

    def process_item(self, item, spider):

        text=json.dumps(dict(item),ensure_ascii=False)+'\n'

        self.filename.write(text)

        return item

    def close_spider(self,spider):

        self.filename.close()

#settings.py文件，放开注释

ITEM_PIPELINES = {

    'groad.pipelines.GroadPipeline': 300,

}

#newsong.py 文件

import scrapy

from groad.items import GroadItem

class NewsongSpider(scrapy.Spider):

    name = 'newsong'

    allowed_domains = ['www.kugou.com']

    start_urls = ['http://www.kugou.com/']

    def parse(self, response):

        item=GroadItem()

        for i in range(1,len(response.xpath('//*[@id="SongtabContent"]/ul'))+1):

            for j in range(1,len(response.xpath('//*[@id="SongtabContent"]/ul[%s]/li' % i))+1):

                item['songname']=response.xpath('//*[@id="SongtabContent"]/ul[%s]/li[%s]/a/span[1]/text()' % (i,j)).extract()[0]

                item['songtime'] =response.xpath('//*[@id="SongtabContent"]/ul[%s]/li[%s]/a/span[@class="songTime"]/text()' % (i, j)).extract()[0]

                item['href_song'] = response.xpath('//*[@id="SongtabContent"]/ul[%s]/li[%s]/a/@href' % (i, j)).extract()[0]

                yield item

python 爬虫相关含Scrapy框架的更多相关文章

Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
python爬虫入门(六) Scrapy框架之原理介绍
Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬 ...
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...
PYTHON 爬虫笔记十一:Scrapy框架的基本使用
Scrapy框架详解及其基本使用 scrapy框架原理 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了 ...
python爬虫学习之Scrapy框架的工作原理
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网 ...
Python爬虫知识点四--scrapy框架
一.scrapy结构数据解释: 1.名词解析: o 引擎(Scrapy Engine)o 调度器(Scheduler)o 下载器(Downloader)o 蜘蛛(Spiders)o 项目管 ...
芝麻HTTP：Python爬虫进阶之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
【Python爬虫实战】Scrapy框架的安装搬运工亲测有效
windows下亲测有效 http://blog.csdn.net/liuweiyuxiang/article/details/68929999这个我们只是正确操作步骤详解的搬运工
Mac os 下 python爬虫相关的库和软件的安装
由于最近正在放暑假,所以就自己开始学习python中有关爬虫的技术,因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑. 一. 相关软件的安装: 1. h ...

随机推荐

build时自动清除console
一.第一种方法安装 babel-plugin-transform-remove-console 修改 babel.config.js 文件 let transformRemoveConsolePlu ...
[概率DP][消元法][CF24D]损坏的机器人
Description 有一只坏了的机器人站在一个\(n\times m\)的网格里,初始位置在\((x,y)\).现在每个单位时间内它会随机选左右下三个方向走,如果它随机的方向会走出网格就不会往这个 ...
031 Android 自定义控件
1.自定义控件的优点 Android自身带的控件不能满足需求, 需要根据自己的需求定义控件. 2.自定义控件的分类: (1)组合已有的控件实现 (2)继承已有的控件实现(扩展已有的功能) (3)完全自 ...
[转帖]Apache Kylin 概述
Apache Kylin 概述 https://www.cnblogs.com/xiaodf/p/11671095.html 1 Kylin是什么今天,随着移动互联网.物联网.AI等技术的快速兴起, ...
java常用的工具类
包装类 https://www.cnblogs.com/benjieqiang/p/11305777.html Arrays类(数组工具类) package day02.com.offcn.test; ...
python 之数据库（创建表的完整语法、基本数据类型）
10.4 创建表的完整语法 create table 表名( 字段名1 类型[(宽度) 约束条件], 字段名2 类型[(宽度) 约束条件], 字段名3 类型[(宽度) 约束条件] ); #类型:使用限 ...
Redis--zset类型操作命令
有序集合类型 zset (sorted set ) redis 有序集合zset和集合set一样也是string类型元素的集合,且不允许重复的成员. 不同的是 zset 的每个元素都会关联一个分数(分 ...
Django框架学习易错和易忘点
一.get在几处的用法 1.获取前端数据 request.POST.get('xxx') #当存在多个值时,默认取列表最后一个元素:所以当存在多个值时,使用getlist 2.获取数据库数据 mode ...
WUSTOJ 1308: 采药（Java）动态规划-01背包
题目链接:
【HC89S003F4开发板】 7ASM&C混合编程
HC89S003F4开发板ASM&C混合编程一.前言在配套资料里有实现ASM&C混合编程的说明文档,这里来实现这个功能. 二.实现ASM&C混合编程 1.打开 Keil 工 ...

python 爬虫相关含Scrapy框架

python 爬虫相关含Scrapy框架的更多相关文章

随机推荐

热门专题