一个死去的网站shige.laiyo.com

2017年4月份的时候，研一下刚刚开始。

爬了这个网站，现在这个网站已经关闭了，这些爬虫代码也就没用了，面向特定网站爬虫本身就是没有意义的。

爬author

import requests

from pyquery import PyQuery as jq

import re

import json

ar = []

for i in range(1, 3132):

    url = "http://shige.laiyo.com/zuozhe_%dA1.aspx" % i

    print("requesting", url)

    resp = requests.get(url)

    print(resp.status_code, "response over")

    if "网页发生错误" in resp.text:

        print("没有", i, "这首诗")

        continue

    resp.encoding = "utf8"

    html = jq(resp.text)

    img = re.search("http://img.gushiwen.org/authorImg/.*?.jpg", resp.text)

    if img:

        img = img.group()

    name = html(".left .title h1 span").text().strip()

    name = name[:name.index("的")]

    desc = html(".left .sons").eq(0).find(".cont").text().strip()

    author = {"id": i, "img": img, "description": desc, 'name': name}

    ar.append(author)

    # print(json.dumps(author, indent=1, ensure_ascii=0))

    # input()

json.dump(ar, open("author2.json", "w", encoding="utf8"), ensure_ascii=0, indent=1)

爬词牌

import requests

import re

from  pyquery import PyQuery as pq

import json

url = "http://www.meili999.com/cipai/index.html"

url2 = "http://www.meili999.com/cipai/index_2.html"

urls = []

for url in (url, url2):

    resp = requests.get(url)

    resp.encoding = 'utf8'

    html = pq(resp.text).find("#content .list")

    resp = re.findall("http://www.meili999.com/cipai/\d+/", html.html())

    urls += resp

data = []

for url in urls:

    resp = requests.get(url)

    resp.encoding = 'utf8'

    html = pq(resp.text)

    ci = dict()

    ci['title'] = html(".pageTitle").text()

    desc = html(".poem_comm p")

    txt = ""

    for p in desc:

        txt += pq(p).text().strip() + "\n"

    ci['description'] = txt

    print(ci['title'])

    data.append(ci)

json.dump(data, open("cipai.json", "w", encoding="utf8"), ensure_ascii=0, indent=1)

爬诗歌

from pprint import pprint

import requests

from pyquery import PyQuery as jq

import re

import json

def filt(s):

    if not s: return None

    s = re.sub("<br.*?>", "\n", s)

    s = re.sub("&.*?;", "", s)

    s = re.sub("<.*?>", "", s)

    s = s.strip()

    return s

def part(son):

    partName = son.find(".cont p").eq(0).text()

    return {partName: filt(jq(son).find(".cont").html())}

def mainPart(son):

    cont = son(".cont")

    source = son(".source")

    title = cont("p").eq(0).text().strip()

    preface = None

    dynasty = source("a").eq(1).text()

    author = source('a').eq(0).text()

    poemContent = ""

    for i in cont("#contson p"):

        span = jq(i).find('span')

        if span:

            preface = filt(span.html())

        else:

            poemContent += filt(jq(i).html()) + "\n"

    poemContent = poemContent.strip()

    if not poemContent:

        poemContent = filt(son("#contson").html())

    return {'title': title,

            'content': poemContent,

            'preface': preface,

            'dynasty': dynasty,

            'author': author

            }

def parseHtml(html):

    sons = html(".sons")

    d = mainPart(sons.eq(0))

    related = []

    for i in range(1, sons.size()):

        if sons.eq(i).attr('id'):

            related.append(int(sons.eq(i).attr('id')[4:]))

            print(related[-1], '=====')

            print(sons.eq(i))

            input()

        else:

            d = {**d, **part(sons.eq(i))}

    d = {**d, "related": related}

    return d

ar = []

for i in range(1, 73225):

    url = "http://shige.laiyo.com/view_%s.aspx" % i

    print("requesting", url)

    resp = requests.get(url)

    print(resp.status_code, "response")

    resp.encoding = "utf8"

    if "网页发生错误" in resp.text:

        print("没有", i, "这首诗")

        continue

    open("haha.html", 'w',encoding='utf8').write(resp.text)

    html = jq(resp.text)

    poem = {'id': i, **parseHtml(html)}

    ar.append(poem)

    pprint(poem)

    input()

json.dump(ar, open("poem.json", "w", encoding='utf8'), ensure_ascii=0, indent=1)

爬类型

import requests

from pyquery import PyQuery as jq

import re

import json

ar = []

for i in range(1, 774):

    href = "http://shige.laiyo.com/leixing_%dA%d.aspx"

    url = href % (i, 1)

    print("requesting", url)

    resp = requests.get(url)

    print("response over", resp.status_code)

    resp.encoding = "utf8"

    html = jq(resp.text)

    category = html('.left .title h1 span').text()

    poems = []

    for j in range(1, 0xffffff):

        url = href % (i, j)

        print("requesting", url)

        resp = requests.get(url)

        print("response over", resp.status_code)

        shige = re.findall("#shige\d+", resp.text)

        if not shige:

            break

        for k in shige:

            poems.append(int(re.search("\d+", k).group()))

    d = {"name": category, "poems": poems}

    ar.append(d)

json.dump(ar, open("type.json", "w", encoding="utf8"), indent=1, ensure_ascii=0)

一个死去的网站shige.laiyo.com的更多相关文章

如何一步一步用DDD设计一个电商网站（九）—— 小心陷入值对象持久化的坑
阅读目录前言场景1的思考场景2的思考避坑方式实践结语一.前言在上一篇中(如何一步一步用DDD设计一个电商网站(八)—— 会员价的集成),有一行注释的代码: public interfa ...
如何一步一步用DDD设计一个电商网站（八）—— 会员价的集成
阅读目录前言建模实现结语一.前言前面几篇已经实现了一个基本的购买+售价计算的过程,这次再让售价丰满一些,增加一个会员价的概念.会员价在现在的主流电商中,是一个不大常见的模式,其带来的问题是 ...
如何一步一步用DDD设计一个电商网站（十）—— 一个完整的购物车
阅读目录前言回顾梳理实现结语一.前言之前的文章中已经涉及到了购买商品加入购物车,购物车内购物项的金额计算等功能.本篇准备把剩下的购物车的基本概念一次处理完. 二.回顾在动手之前我对之 ...
如何一步一步用DDD设计一个电商网站（一）—— 先理解核心概念
一.前言 DDD(领域驱动设计)的一些介绍网上资料很多,这里就不继续描述了.自己使用领域驱动设计摸滚打爬也有2年多的时间,出于对知识的总结和分享,也是对自我理解的一个公开检验,介于博客园这个平 ...
如何一步一步用DDD设计一个电商网站（七）—— 实现售价上下文
阅读目录前言明确业务细节建模实现结语一.前言上一篇我们已经确立的购买上下文和销售上下文的交互方式,传送门在此:http://www.cnblogs.com/Zachary-Fan/p/D ...
如何一步一步用DDD设计一个电商网站（六）—— 给购物车加点料，集成售价上下文
阅读目录前言如何在一个项目中实现多个上下文的业务售价上下文与购买上下文的集成结语一.前言前几篇已经实现了一个最简单的购买过程,这次开始往这个过程中增加一些东西.比如促销.会员价等,在我们的 ...
如何一步一步用DDD设计一个电商网站（五）—— 停下脚步，重新出发
阅读目录前言单元测试纠正错误,重新出发结语一.前言实际编码已经写了2篇了,在这过程中非常感谢有听到观点不同的声音,借着这个契机,今天这篇就把大家提出的建议一个个的过一遍,重新整理,重新出发 ...
如何一步一步用DDD设计一个电商网站（四）—— 把商品卖给用户
阅读目录前言怎么卖领域服务的使用回到现实结语一.前言上篇中我们讲述了“把商品卖给用户”中的商品和用户的初步设计.现在把剩余的“卖”这个动作给做了.这里提醒一下,正常情况下,我们的每一步业 ...
如何一步一步用DDD设计一个电商网站（三）—— 初涉核心域
一.前言结合我们本次系列的第一篇博文中提到的上下文映射图(传送门:如何一步一步用DDD设计一个电商网站(一)—— 先理解核心概念),得知我们这个电商网站的核心域就是销售子域.因为电子商务是以信息网络 ...

随机推荐

【流处理】Kafka Stream-Spark Streaming-Storm流式计算框架比较选型
Kafka Stream-Spark Streaming-Storm流式计算框架比较选型 elasticsearch-head Elasticsearch-sql client NLPchina/el ...
Java-JUC（七）：同步锁的几种方式
为什么要使用同步锁? 因为当使用多线程同时访问一个变量或对象时,如果这些线程中即有读又有写操作时,会造成导致变量或对象的状态出现混乱.例如:一个银行账户被A/B两个线程同时操作,A线程.B线程同时开始 ...
Python操作记录
1.写入中文出错,需要执行 reload(sys) sys.setdefaultencoding('utf8') 2.json.dump中文写入为\xxxx ensure_ascii=False
Laravel的目录结构分析
根目录结构/app/bootstrap/public/vendorartisancomposer.jsonserver.php 1./app整个Laravel 目录中最需要我们注意的地方,包含设置(c ...
Creating objects on stack or heap
class Player { private: int health; int strength; int agility; public: void move(); void attackEn ...
struts笔记
Struts视频笔记: Struts是一个开源的web框架,框架提高了程序的规范的同时也约束了程序员的自由为什么会有struts: 因为我们队mvc理解的不同,可能造成不同公司写程序的时候,规范不统 ...
mssql 统计
这篇文章主要为大家按日,星期,月,季度,年统计销售额的sql语句,需要的朋友可以参考下 --按日,统计本月数据 select sum(payable_amount) as 金额,day([paymen ...
PAT《数据结构学习与实验指导》实验项目集 2-09 2-10 2-11 2-12 2-13
pat 2-09 装箱问题模拟 #include<cstdio> #include<set> #include<vector> using namespace st ...
Android 在闹钟开机时，如何解决开机动画没有播完就进入Launcher M
前言欢迎大家我分享和推荐好用的代码段~~ 声明欢迎转载,但请保留文章原始出处: CSDN:http://www.csdn.net ...
微信小程序 - 自定义弹窗组件
2019-01-06:简化了一些代码,以及增加了可用性. // 弹窗配置 dialogConfig: { // 弹窗 dialogvisible: false, options: { // 显示关闭按 ...

一个死去的网站shige.laiyo.com

一个死去的网站shige.laiyo.com的更多相关文章

随机推荐

热门专题