python 爬虫相关含Scrapy框架

1、从酷狗网站爬取新歌首发的新歌名字、播放时长、链接等

from bs4 import BeautifulSoup as BS

import requests

import re

import json

class StockCrawler():

    def __init__(self):

        pass

    def get_stockinfo(self,url):

        res=requests.get(url)

        res.encoding='utf-8'

        soup=BS(res.text,'html.parser')

        stock_info=[]

        div=soup.find_all('div',id='SongtabContent')  #定位最外层的新歌区域标签

        li=div[0].find_all('li')

        for i in li:  #遍历每首歌的标签，分别取歌名、歌播放时长、链接

            print(i)

            link='http:'+i.find_all('a')[0]['href']

            print('link:',link)

            songname=i.a.find_all('span',class_='songName')[0].text

            songtime=i.a.find_all('span',class_='songTime')[0].text

            print('songname:',songname)

            print('songtime:',songtime)

            stock_info.append((songname,songtime,link))

        return stock_info

    def write_file(self,data,file_name):

        with open(file_name,'w',encoding='utf-8') as fp:

            for i in data:

                fp.write(i[0]+','+i[1]+','+i[2]+'\n')   #写入文件

if __name__=='__main__':

    url='http://www.kugou.com/'

    stockcrawler=StockCrawler()

    data=stockcrawler.get_stockinfo(url)

    stockcrawler.write_file(data,'f:\\test\\pppp.txt')

2、sohu网站首页爬取包含"体育"2个字的链接

r = requests.get("http://www.sohu.com")

r.encoding="utf-8"

html  = r.text

soup = BeautifulSoup(html,"html.parser")#html可以是html内容

links = []

for i in list(soup.find_all(["a"])):

    try:

        print(i["href"])

        if i["href"].strip().startswith(r"//"):

            print(1)

            i["href"]="http:"+i["href"]

        if i["href"].find("javascript")>=0:

            print(2)

            continue

        if i["href"].find("mailto")>=0:

            print(3)

            continue

        if len(i["href"].strip())==1:

            print(4)

            continue

        #print(i["href"])

        links.append(i["href"].strip())

        #print("*"*50)

    except Exception as e:

        print(e)

for link in links:

    print(link)

x=1

for link in links:

    r = requests.get(link)

    r.encoding = "utf-8"

    if "体育" in r.text:

        with open("e:\\pic\\"+str(x)+".txt","w",encoding="utf-8") as fp:

            fp.write(r.text)

            x+=1

3、使用代理服务器发送请求

proxy='168.0.86.146:8080'

#如果代理需要验证，只需要在前面加上用户名密码，如下所示

# proxy='username:password@124.243.226.18:8888'

proxies={

    'http':'http://'+proxy,

    'https':'https://'+proxy,

}

try:

    response=requests.get('http://httpbin.org/get',proxies=proxies)

    print(response.text)

except requests.exceptions.ConnectionError as e:

    print("Error",e.args)

4、Srapy 爬虫框架

#Scrapy 爬虫框架

'''

scrapy startproject testman

1）items.py 存储你要爬取的数据的变量。

类似于字典。

2）pipelines.py（保存爬取后的数据）:保存你抓取网页，分析后的存储的

变量中的数据存入到某个地方。（json文件）txt文件、excel 、数据库。

3）settings.py：设定spider的优先级，自动生成的，取消掉数据就可以了。

ITEM_PIPELINES = {'gr.pipelines.GrPipeline': 300,}

gr：抓取器的名字

4）在spider的目录下，写一下分析逻辑（从网页中取想要的数据，保存到items.py声明的变量中。）

框架使用的步骤：

1 新建scrapy工程，在任意目录下，cmd中执行：scrapy startproject groad

2 生成工程的内容，在scrapy的根目录下cmd中

执行：scrapy genspider newsong www.kugou.com

3 编写相关代码

4 在scrapy的根目录下，cmd执行抓取：scrapy crawl newsong

'''

5、Scrapy框架的例子，酷狗爬取新歌首发的歌曲名称、播放时长、歌曲链接等

#items.py文件内容

import scrapy

class GroadItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    #定义项目的字段

    songname=scrapy.Field() #歌曲名称

    songtime=scrapy.Field()#歌曲播放时间

    href_song=scrapy.Field()#歌曲播放链接

if __name__=='__main__':

    g=GroadItem()

    print(g['songname'])

#pipelines.py 文件内容

import json

class GroadPipeline(object):

    def __init__(self):

        self.filename=open('f:\\test\\newsong.txt','w',encoding='utf-8')

    def process_item(self, item, spider):

        text=json.dumps(dict(item),ensure_ascii=False)+'\n'

        self.filename.write(text)

        return item

    def close_spider(self,spider):

        self.filename.close()

#settings.py文件，放开注释

ITEM_PIPELINES = {

    'groad.pipelines.GroadPipeline': 300,

}

#newsong.py 文件

import scrapy

from groad.items import GroadItem

class NewsongSpider(scrapy.Spider):

    name = 'newsong'

    allowed_domains = ['www.kugou.com']

    start_urls = ['http://www.kugou.com/']

    def parse(self, response):

        item=GroadItem()

        for i in range(1,len(response.xpath('//*[@id="SongtabContent"]/ul'))+1):

            for j in range(1,len(response.xpath('//*[@id="SongtabContent"]/ul[%s]/li' % i))+1):

                item['songname']=response.xpath('//*[@id="SongtabContent"]/ul[%s]/li[%s]/a/span[1]/text()' % (i,j)).extract()[0]

                item['songtime'] =response.xpath('//*[@id="SongtabContent"]/ul[%s]/li[%s]/a/span[@class="songTime"]/text()' % (i, j)).extract()[0]

                item['href_song'] = response.xpath('//*[@id="SongtabContent"]/ul[%s]/li[%s]/a/@href' % (i, j)).extract()[0]

                yield item

python 爬虫相关含Scrapy框架的更多相关文章

Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
python爬虫入门(六) Scrapy框架之原理介绍
Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬 ...
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...
PYTHON 爬虫笔记十一:Scrapy框架的基本使用
Scrapy框架详解及其基本使用 scrapy框架原理 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了 ...
python爬虫学习之Scrapy框架的工作原理
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网 ...
Python爬虫知识点四--scrapy框架
一.scrapy结构数据解释: 1.名词解析: o 引擎(Scrapy Engine)o 调度器(Scheduler)o 下载器(Downloader)o 蜘蛛(Spiders)o 项目管 ...
芝麻HTTP：Python爬虫进阶之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
【Python爬虫实战】Scrapy框架的安装搬运工亲测有效
windows下亲测有效 http://blog.csdn.net/liuweiyuxiang/article/details/68929999这个我们只是正确操作步骤详解的搬运工
Mac os 下 python爬虫相关的库和软件的安装
由于最近正在放暑假,所以就自己开始学习python中有关爬虫的技术,因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑. 一. 相关软件的安装: 1. h ...

随机推荐

Error: python-devel conflicts with python-2.7.5-68.el7.x86_64
yum install yum-utils -y package-cleanup --cleandupes yum -y install python-devel yum -y install pyt ...
solr搜索结果转实体类对象的两种方法
问题:就是把从solr搜索出来的结果转成我们想要的实体类对象,很常用的情景. 1.使用@Field注解 @Field这个注解放到实体类的属性[字段]中,例如下面 public class User{ ...
PHP中奖概率写法
PHP中奖概率写法 <pre><?phpheader("Content-type: text/html; charset=utf-8");/* * 经典的概率算法 ...
Suspended Animation——《The Economist》阅读积累（考研英语二·2010 Reading Text 1）
[知识小百科] Damien Hirst(达米恩●赫斯特):生于1965年,是新一代英国艺术家的主要代表人物之一.他主导了90年代英国艺术发展并享有很高的国际声誉.赫斯特在1986年9月就读于伦敦大学 ...
循环（数组循环、获取json数据循环）、each()循环详解
return; // 退出循环(不满足,退出此次循环.下次满足条件,依然会走此循环)return false; //退出函数(退出所有) 一. 数组循环: html: <div class=&q ...
[转帖]InfiniBand, RDMA, iWARP, RoCE , CNA, FCoE, TOE, RDMA, iWARP, iSCSI等概念
InfiniBand, RDMA, iWARP, RoCE , CNA, FCoE, TOE, RDMA, iWARP, iSCSI等概念 2017-12-15 15:37:00 jhzh951753 ...
python爬虫-爬取你想要的小姐姐
一.准备 1. 原地址 2. 检查html发现,网页是有规则的分页, 最大图片的class为pic-large 二.代码 import requests import os from bs4 impo ...
Struts笔记5
文件下载 1.写action类 package com.gyf.web.action; import java.io.File; import java.io.FileInputStream; imp ...
C++ 生成 voronoi 图 & C++生成泰森多边形图形
1. 功能生成voronoi图的一个类 2. 代码 VoronoiDiagramGenerator.h #pragma once //Microsoft Visual Studio 2015 Ent ...
Linux基础-14-ssh服务、apache服务
1. ssh服务 ssh服务是一个守护进程(demon),系统后台监听客户端的连接,ssh服务端的进程名为sshd,负责实时监听客户端的请求(IP 22端口),包括公共秘钥等交换等信息. ssh服务端 ...

python 爬虫相关含Scrapy框架

python 爬虫相关含Scrapy框架的更多相关文章

随机推荐

热门专题