方法1:

#!/usr/bin/python
# -*- coding: gbk -*-
import time from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from slyy.items import SlyyItem class SlyySpider(BaseSpider):
name = "slyy1"
allowed_domains = ["txw1958.blog.163.com"]
start_urls = ["http://txw1958.blog.163.com/blog/static/188725046201262492446552/"] def parse(self, response):
hxs = HtmlXPathSelector(response) items = []
h3 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()
h3_unicode = "".join(h3)
t1 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/p/span[1]/span[1]/text()''').extract()
items.append(SlyyItem(head=h3_unicode, url=response.url)) for url in hxs.select('''//*[@id="$_divTopLink"]/div[1]/a/@href''').extract():
items.append(Request(url, callback=self.parse)) print "{'head': '''" + items[0]['head'] + "''','url': '" + items[0]['url'] + "'}" return items

方法2:

#!/usr/bin/python
# -*- coding: gbk -*-
import time from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from slyy.items import SlyyItem class SlyySpider(BaseSpider):
name = "slyy2"
allowed_domains = ["txw1958.blog.163.com"]
start_urls = ["http://txw1958.blog.163.com/blog/static/188725046201262492446552/"] def parse(self, response):
hxs = HtmlXPathSelector(response) h3 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()
h3_unicode = "".join(h3)
yield SlyyItem(head=h3_unicode, url=response.url) for url in hxs.select('''//*[@id="$_divTopLink"]/div[1]/a/@href''').extract():
yield Request(url, callback=self.parse)

方法3:

#!/usr/bin/python
# -*- coding: gbk -*-
import time from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from slyy.items import SlyyItem class SlyySpider(BaseSpider):
name = "slyy3"
allowed_domains = ["txw1958.blog.163.com"]
start_urls = ["http://txw1958.blog.163.com/blog/static/188725046201262492446552/"] def parse(self, response):
hxs = HtmlXPathSelector(response)
items = [] firspost = hxs.select('''//html/body/div[3]/div[4]/div/div/div/div[2]/div/div/div[2]/div/div/div/a/@href''').extract()[0]
items.extend([self.make_requests_from_url(firspost).replace(callback=self.parse_post)]) url2 = hxs.select('''//html/body/div[3]/div[4]/div/div/div/div[2]/div/div/div[2]/div/div/div/a/@href''').extract()[0]
items.append(self.make_requests_from_url(url2)) return items def parse_post(self, response):
hxs = HtmlXPathSelector(response)
h3 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()[0]
print h3
item = SlyyItem()
item['url'] = response.url
item['head'] = h3
return item

爬取结果:

{'head': '''《漫步遐想录》之五 Part1''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262492446552/'}
{'head': '''《漫步遐想录》之五 Part2''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262491451433/'}
{'head': '''Steve Jobs addresses on Standford''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262444735654/'}
{'head': '''理想的光亮''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262443426261/'}
{'head': '''实迷途其未远''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126244284851/'}
{'head': '''自我解放 告别“衰世”''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126244213440/'}
{'head': '''Engineering工程学''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126215190395/'}
{'head': '''《南方周末》暑期文科综合自测题''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126206320645/'}
{'head': '''我们选择的不是工作,是生活''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012619115011501/'}
{'head': '''不想言败,大器晚成''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126150217780/'}
{'head': '''降级论''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012696327615/'}
{'head': '''归去来辞''','url': 'http://txw1958.blog.163.com/blog/static/188725046201252610216519/'}
{'head': '''笑''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251722022775/'}
{'head': '''滕王阁序''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251643457132/'}
{'head': '''洛神赋''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251642150903/'}
{'head': '''两都赋''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515115342959/'}
{'head': '''司马相如 子虚赋 上林赋''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515113636367/'}
{'head': '''声律启蒙''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103852784/'}
{'head': '''论语 尧曰第二十''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103510294/'}
{'head': '''论语 子张第十九''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103430915/'}
{'head': '''论语 卫子第十八''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103356137/'}
{'head': '''论语 阳货第十七''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103310473/'}
{'head': '''论语 季氏第十六''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103154999/'}
{'head': '''论语 卫灵公第十五''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103116471/'}
{'head': '''论语 宪问第十四''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103044753/'}
{'head': '''论语 子路第十三''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103010684/'}
{'head': '''论语 颜渊第十二''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102814253/'}
{'head': '''论语 先进第十一''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102614558/'}
{'head': '''论语 乡党第十''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102541840/'}
{'head': '''论语 子罕第九''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102458274/'}
{'head': '''论语 泰伯第八''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102351448/'}
{'head': '''论语 述而第七''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102256153/'}
{'head': '''论语 雍也第六''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102225669/'}
{'head': '''论语 公冶长第五''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510215473/'}
{'head': '''论语 里仁第四''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510819332/'}
{'head': '''论语 八佾第三''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510524323/'}
{'head': '''论语 为政第二''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510356857/'}
{'head': '''论语 学而第一''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251594136620/'}
{'head': '''醉翁亭记''','url': 'http://txw1958.blog.163.com/blog/static/18872504620125152198737/'}
{'head': '''与高司谏书''','url': 'http://txw1958.blog.163.com/blog/static/18872504620125152117770/'}
{'head': '''丁香花开的时候''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012511300679/'}
{'head': '''与山巨源绝交书''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012561000783/'}
{'head': '''高阳作品-胡雪岩系列''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012427102057474/'}
{'head': '''昼信基督夜信佛''','url': 'http://txw1958.blog.163.com/blog/static/188725046201249144336/'}
{'head': '''合理生活''','url': 'http://txw1958.blog.163.com/blog/static/188725046201232603354998/'}
{'head': '''报任少卿书''','url': 'http://txw1958.blog.163.com/blog/static/188725046201222975824567/'}
{'head': '''那些让我们难堪的亲人''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012227101543857/'}
{'head': '''天边与身边''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012221113322802/'}
{'head': '''汜水关温酒斩华雄''','url': 'http://txw1958.blog.163.com/blog/static/18872504620122116030954/'}
{'head': '''在一个不伟大的行业里做一家伟大的公司''','url': 'http://txw1958.blog.163.com/blog/static/18872504620121239562451/'}
{'head': '''最苦与最乐''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012123104147575/'}
{'head': '''扎克伯格公开信''','url': 'http://txw1958.blog.163.com/blog/static/18872504620121353556729/'}
{'head': '''与陌生人交流''','url': 'http://txw1958.blog.163.com/blog/static/188725046201111150300597/'}
{'head': '''掉到井里的人''','url': 'http://txw1958.blog.163.com/blog/static/188725046201111141593794/'}
{'head': '''赵明诚致李清照书''','url': 'http://txw1958.blog.163.com/blog/static/18872504620111129449500/'}
{'head': '''赠卫八处士''','url': 'http://txw1958.blog.163.com/blog/static/18872504620111030527789/'}
{'head': '''科学的宗教''','url': 'http://txw1958.blog.163.com/blog/static/18872504620119210394363/'}
{'head': '''以色列国立国宣言''','url': 'http://txw1958.blog.163.com/blog/static/188725046201191175380/'}
{'head': '''Balfour Declaration''','url': 'http://txw1958.blog.163.com/blog/static/188725046201191155657117/'}
{'head': '''致舞神''','url': 'http://txw1958.blog.163.com/blog/static/188725046201191122718899/'}
{'head': '''实行的悲哀''','url': 'http://txw1958.blog.163.com/blog/static/188725046201171155133182/'}
{'head': '''初冬浴日漫感''','url': 'http://txw1958.blog.163.com/blog/static/18872504620117961622855/'}
{'head': '''最后一次演讲''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116281300287/'}
{'head': '''橘子''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011628100594/'}
{'head': '''蘭亭集序''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162543148949/'}
{'head': '''The Declaration of Geneva''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162541918823/'}
{'head': '''《自深深处》选读3''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162172642631/'}
{'head': '''《自深深处》选读2''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116217219396/'}
{'head': '''《自深深处》选读1''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116212324253/'}
{'head': '''成功需要积累''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011618102449864/'}
{'head': '''秋檐''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116132538465/'}
{'head': '''给未来的自己''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011611483335/'}
{'head': '''晁错论''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116902629774/'}
{'head': '''黄州快哉亭记''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162115640458/'}
{'head': '''We Are on a Journey''','url': 'http://txw1958.blog.163.com/blog/static/188725046201152403433436/'}
{'head': '''Beauty of July''','url': 'http://txw1958.blog.163.com/blog/static/188725046201152402649114/'}
{'head': '''看着你走远''','url': 'http://txw1958.blog.163.com/blog/static/188725046201152201317148/'}
{'head': '''金融行业与独立思考''','url': 'http://txw1958.blog.163.com/blog/static/18872504620115141012240/'}
{'head': '''花园里的小山丘''','url': 'http://txw1958.blog.163.com/blog/static/18872504620115111035458/'}
{'head': '''静虚村记''','url': 'http://txw1958.blog.163.com/blog/static/188725046201151105426272/'}
{'head': '''Two Types of People''','url': 'http://txw1958.blog.163.com/blog/static/188725046201142872910729/'}
{'head': '''音的世界''','url': 'http://txw1958.blog.163.com/blog/static/188725046201142531721621/'}
{'head': '''认识的人,了解的事!''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011425102883/'}
{'head': '''降低幸福沸点''','url': 'http://txw1958.blog.163.com/blog/static/188725046201142595139513/'}
{'head': '''秦国是怎样崛起的?''','url': 'http://txw1958.blog.163.com/blog/static/188725046201141010179210/'}
{'head': '''黄生借书说''','url': 'http://txw1958.blog.163.com/blog/static/18872504620114515437349/'}
{'head': '''沉默''','url': 'http://txw1958.blog.163.com/blog/static/188725046201132623618661/'}
{'head': '''网络森林的寄居者''','url': 'http://txw1958.blog.163.com/blog/static/18872504620113175233830/'}
{'head': '''未来10年中国的道路选择''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011384140181/'}
{'head': '''春天''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011230112856859/'}
{'head': '''Of Studie''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122923749618/'}
{'head': '''限购令与深层经济结构失衡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122273946612/'}
{'head': '''巷''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122202236607/'}
{'head': '''为什么你们永远不说不?''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122115256782/'}
{'head': '''Inaugural Address of Barack Obama''','url': 'http://txw1958.blog.163.com/blog/static/18872504620111256412605/'}
{'head': '''爱的信笺''','url': 'http://txw1958.blog.163.com/blog/static/18872504620110250394983/'}
{'head': '''我们越来越懒于思考''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011015114249531/'}
{'head': '''国立西南联合大学纪念碑碑文''','url': 'http://txw1958.blog.163.com/blog/static/188725046201011184649177/'}
{'head': '''用“最简单”应对复杂''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010111223656176/'}
{'head': '''The Fringe Benefits of Failure, and the Importance of Imagination''','url': 'http://txw1958.blog.163.com/blog/static/188725046201010191191318/'}
{'head': '''母亲是游子的故乡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201010167590320/'}
{'head': '''桨声灯影里的秦淮河''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092583638364/'}
{'head': '''西湖的雪景''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092582940605/'}
{'head': '''一个王朝的背影''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092561531241/'}
{'head': '''途中''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092410632722/'}
{'head': '''永远的灯光''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092375358375/'}
{'head': '''When the Teacher Becomes the Student''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010915112637126/'}
{'head': '''我的愿望''','url': 'http://txw1958.blog.163.com/blog/static/188725046201099115359953/'}
{'head': '''无二的松子''','url': 'http://txw1958.blog.163.com/blog/static/188725046201096111632705/'}
{'head': '''年轻的旅行者''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010826755588/'}
{'head': '''你愿不愿意父母来看你''','url': 'http://txw1958.blog.163.com/blog/static/18872504620108267447239/'}
{'head': '''价值的真谛''','url': 'http://txw1958.blog.163.com/blog/static/188725046201082672956838/'}
{'head': '''这世界上有另一个你''','url': 'http://txw1958.blog.163.com/blog/static/188725046201082665458671/'}
{'head': '''The careerist: Summer school''','url': 'http://txw1958.blog.163.com/blog/static/18872504620108102216529/'}
{'head': '''如果客户向你要回扣……''','url': 'http://txw1958.blog.163.com/blog/static/188725046201071774741499/'}
{'head': '''Understanding 802.11n wireless antennas''','url': 'http://txw1958.blog.163.com/blog/static/18872504620107531052795/'}
{'head': '''被掠夺的梦想与生活''','url': 'http://txw1958.blog.163.com/blog/static/188725046201061685545392/'}
{'head': '''一个猜数游戏''','url': 'http://txw1958.blog.163.com/blog/static/188725046201061685351769/'}
{'head': '''素书''','url': 'http://txw1958.blog.163.com/blog/static/18872504620105240256875/'}
{'head': '''Self-Contained Underwater Breathing Apparatus''','url': 'http://txw1958.blog.163.com/blog/static/18872504620104294124944/'}
{'head': '''我奋斗了18年不是为了和你一起喝咖啡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201042471937771/'}
{'head': '''我奋斗了18年才和你坐在一起喝咖啡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201042471745840/'}
{'head': '''聆听''','url': 'http://txw1958.blog.163.com/blog/static/18872504620104783126926/'}
{'head': '''美国总统奥巴马在矿难悼念仪式的讲话''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010429843863/'}
{'head': '''致吾女''','url': 'http://txw1958.blog.163.com/blog/static/188725046201032994944149/'}
{'head': '''落叶''','url': 'http://txw1958.blog.163.com/blog/static/188725046201032991950404/'}
{'head': '''房子是囚人的''','url': 'http://txw1958.blog.163.com/blog/static/18872504620103204839426/'}
{'head': '''关键四小时''','url': 'http://txw1958.blog.163.com/blog/static/188725046201031872831936/'}
{'head': '''像流水一样生活''','url': 'http://txw1958.blog.163.com/blog/static/18872504620103383732865/'}
{'head': '''我曾有梦''','url': 'http://txw1958.blog.163.com/blog/static/18872504620101784732546/'}
{'head': '''《唯物论启示录》之一''','url': 'http://txw1958.blog.163.com/blog/static/188725046201017491452/'}
{'head': '''过自己的生活''','url': 'http://txw1958.blog.163.com/blog/static/18872504620100221124895/'}
{'head': '''是我摧垮了经济''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010022105658925/'}
{'head': '''那个被你伤得最深的人''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010022105524302/'}
{'head': '''为徐敬业讨武瞾叫檄''','url': 'http://txw1958.blog.163.com/blog/static/18872504620100765246471/'}
{'head': '''一口闲钟''','url': 'http://txw1958.blog.163.com/blog/static/188725046201006103313590/'}
{'head': '''曹操《让县自明本志令》''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010063939689/'}
{'head': '''再见!蜡笔小新''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091127284351/'}
{'head': '''快乐只需两步''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009112512042484/'}
{'head': '''《莺莺传》节选''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009111311511757/'}
{'head': '''Father Forgets''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091111113751117/'}
{'head': '''一个房奴的精神大字报''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091029104239475/'}
{'head': '''我们每个人,都是某人一生的至爱''','url': 'http://txw1958.blog.163.com/blog/static/188725046200910299309875/'}
{'head': '''幸福只和一件事有关''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009101684230737/'}
{'head': '''种树的牧羊人''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009101572433342/'}
{'head': '''我们老去的青春''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009101485352731/'}
{'head': '''外婆家的月亮''','url': 'http://txw1958.blog.163.com/blog/static/188725046200993034548526/'}
{'head': '''你的温柔给了谁''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009921101824929/'}
{'head': '''小康胜大富''','url': 'http://txw1958.blog.163.com/blog/static/188725046200991004233804/'}
{'head': '''成功的真谛''','url': 'http://txw1958.blog.163.com/blog/static/188725046200991003910682/'}
{'head': '''记住,这是你的工作!''','url': 'http://txw1958.blog.163.com/blog/static/188725046200981692325363/'}
{'head': '''迎迓绿色''','url': 'http://txw1958.blog.163.com/blog/static/188725046200981284336568/'}
{'head': '''最不愿单独面对的人''','url': 'http://txw1958.blog.163.com/blog/static/188725046200972072526871/'}
{'head': '''What is a girl to focus on – looks or brains?''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009750200192/'}
{'head': '''《刺杀肯尼迪》片尾演讲''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009610101932153/'}
{'head': '''千字文''','url': 'http://txw1958.blog.163.com/blog/static/18872504620096675640123/'}
{'head': '''百岁人生''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009656513294/'}
{'head': '''人生的价值''','url': 'http://txw1958.blog.163.com/blog/static/18872504620096564358755/'}
{'head': '''HEAL THE WORLD''','url': 'http://txw1958.blog.163.com/blog/static/188725046200952682113128/'}
{'head': '''读“无用的书”''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009526647816/'}
{'head': '''人这东西''','url': 'http://txw1958.blog.163.com/blog/static/188725046200951263421221/'}
{'head': '''高贵的哑巴''','url': 'http://txw1958.blog.163.com/blog/static/188725046200951262421621/'}
{'head': '''我曾经七次鄙视自己的灵魂''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009430551248/'}
{'head': '''The life I desired''','url': 'http://txw1958.blog.163.com/blog/static/188725046200942603014348/'}
{'head': '''昆明的雨''','url': 'http://txw1958.blog.163.com/blog/static/18872504620094256487520/'}
{'head': '''家''','url': 'http://txw1958.blog.163.com/blog/static/188725046200942064432393/'}
{'head': '''爱是一条双行道''','url': 'http://txw1958.blog.163.com/blog/static/188725046200941892518738/'}
{'head': '''淡定是一种生活状态''','url': 'http://txw1958.blog.163.com/blog/static/18872504620094169114479/'}
{'head': '''有一种错误叫放大痛苦''','url': 'http://txw1958.blog.163.com/blog/static/18872504620094166214155/'}
{'head': '''鲜花总是在远方''','url': 'http://txw1958.blog.163.com/blog/static/188725046200941364458767/'}
{'head': '''Israel in a nutshell''','url': 'http://txw1958.blog.163.com/blog/static/188725046200932003127812/'}
{'head': '''What is success?''','url': 'http://txw1958.blog.163.com/blog/static/18872504620093158165263/'}
{'head': '''落难的王子''','url': 'http://txw1958.blog.163.com/blog/static/18872504620093821440143/'}
{'head': '''What I Have Lived For''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009369314947/'}
{'head': '''Relish the moment''','url': 'http://txw1958.blog.163.com/blog/static/18872504620093692339938/'}
{'head': '''让别人说话''','url': 'http://txw1958.blog.163.com/blog/static/188725046200923003315242/'}
{'head': '''儿子教我“游戏”人生''','url': 'http://txw1958.blog.163.com/blog/static/18872504620092182349535/'}
{'head': '''谁是最忠诚的人''','url': 'http://txw1958.blog.163.com/blog/static/188725046200911881124613/'}
{'head': '''抱怨比赛开始了……''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009115114418867/'}
{'head': '''珍言''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091664937968/'}
{'head': '''丰收的秘密''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091511328984/'}
{'head': '''并非寓言''','url': 'http://txw1958.blog.163.com/blog/static/188725046200915104942870/'}
{'head': '''所谓的选择''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091471219865/'}
{'head': '''为什么不属于自己''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901393155430/'}
{'head': '''总会轮到你''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901392338805/'}
{'head': '''老板娘给我的10个人生教益''','url': 'http://txw1958.blog.163.com/blog/static/18872504620090139239351/'}
{'head': '''逆风的香''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901392236284/'}
{'head': '''最幸福的人不必问人生意义''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901392156142/'}
{'head': '''你离挨饿只有三天''','url': 'http://txw1958.blog.163.com/blog/static/18872504620090571313699/'}
{'head': '''毛-泽东:论持久战(一九三八年五月)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901111514924/'}
{'head': '''怀才不遇''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008113072216857/'}
{'head': '''“荒谬”的论文''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008111571612574/'}
{'head': '''空瓶子''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811157154603/'}
{'head': '''你在职场第几层''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811672254551/'}
{'head': '''不要去看远处的东西''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008116048950/'}
{'head': '''地上有餐巾''','url': 'http://txw1958.blog.163.com/blog/static/188725046200810279554689/'}
{'head': '''光''','url': 'http://txw1958.blog.163.com/blog/static/188725046200810269913920/'}
{'head': '''乐观就是一桶金''','url': 'http://txw1958.blog.163.com/blog/static/18872504620081024105024331/'}
{'head': '''最苦与最乐''','url': 'http://txw1958.blog.163.com/blog/static/188725046200810197250401/'}
{'head': '''愿你有这样的人生情怀''','url': 'http://txw1958.blog.163.com/blog/static/18872504620089248516116/'}
{'head': '''26岁开始要学会去面对的50件事''','url': 'http://txw1958.blog.163.com/blog/static/188725046200892165816632/'}
{'head': '''草莓''','url': 'http://txw1958.blog.163.com/blog/static/18872504620089192193820/'}
{'head': '''最珍贵的东西是免费的''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008825725571/'}
{'head': '''摆渡自己''','url': 'http://txw1958.blog.163.com/blog/static/18872504620088196533259/'}
{'head': '''人生的三层楼''','url': 'http://txw1958.blog.163.com/blog/static/188725046200881375327976/'}
{'head': '''幸福是什么''','url': 'http://txw1958.blog.163.com/blog/static/188725046200881192236521/'}
{'head': '''人生的解释''','url': 'http://txw1958.blog.163.com/blog/static/18872504620088981453997/'}
{'head': '''活出意义来''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008887812418/'}
{'head': '''每天诞生一次''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087299139706/'}
{'head': '''没人蔑视你,只是忽略你''','url': 'http://txw1958.blog.163.com/blog/static/188725046200872610139641/'}
{'head': '''实现梦想的常识''','url': 'http://txw1958.blog.163.com/blog/static/188725046200872211053815/'}
{'head': '''破碎的美丽''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087131057430/'}
{'head': '''你有没有最珍贵的?''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087603419605/'}
{'head': '''二十分钟''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087511139907/'}
{'head': '''生活需要等待''','url': 'http://txw1958.blog.163.com/blog/static/188725046200874111349524/'}
{'head': '''幸福没有榜样''','url': 'http://txw1958.blog.163.com/blog/static/188725046200863195833216/'}
{'head': '''生活的一种''','url': 'http://txw1958.blog.163.com/blog/static/188725046200863195413567/'}
{'head': '''目标与人生''','url': 'http://txw1958.blog.163.com/blog/static/188725046200861865221832/'}
{'head': '''小职员''','url': 'http://txw1958.blog.163.com/blog/static/188725046200861792821185/'}
{'head': '''15条人生箴言''','url': 'http://txw1958.blog.163.com/blog/static/18872504620086972538957/'}
{'head': '''人性暗箱''','url': 'http://txw1958.blog.163.com/blog/static/18872504620086774530773/'}
{'head': '''瓷器中的哲理''','url': 'http://txw1958.blog.163.com/blog/static/188725046200853085344605/'}
{'head': '''世界的最后一夜''','url': 'http://txw1958.blog.163.com/blog/static/188725046200852510839412/'}
{'head': '''成功是优秀的副产品''','url': 'http://txw1958.blog.163.com/blog/static/188725046200851542924474/'}
{'head': '''灵魂的在场''','url': 'http://txw1958.blog.163.com/blog/static/188725046200851541830355/'}
{'head': '''生死之间''','url': 'http://txw1958.blog.163.com/blog/static/18872504620085153593237/'}
{'head': '''诅咒是一座牢房''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084299852363/'}
{'head': '''人到何时最清醒''','url': 'http://txw1958.blog.163.com/blog/static/188725046200842873142722/'}
{'head': '''四十岁的心情''','url': 'http://txw1958.blog.163.com/blog/static/188725046200842372527468/'}
{'head': '''换个视角''','url': 'http://txw1958.blog.163.com/blog/static/188725046200842074336487/'}
{'head': '''13亿人的哀悼''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084198179228/'}
{'head': '''亲爱的宝贝,如果你能活着,一定要记住我爱你''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008419880523/'}
{'head': '''花钱的事''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084148843231/'}
{'head': '''假如生活把你欺骗''','url': 'http://txw1958.blog.163.com/blog/static/188725046200841282843151/'}
{'head': '''为母亲祈祷''','url': 'http://txw1958.blog.163.com/blog/static/188725046200841195812614/'}
{'head': '''跨越百年的美丽''','url': 'http://txw1958.blog.163.com/blog/static/188725046200841195141557/'}
{'head': '''正确表达你的爱''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084973830759/'}
{'head': '''陋室王侯''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008489359394/'}
{'head': '''沉默的大多数''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008457107348/'}
{'head': '''一天之后,已成往事''','url': 'http://txw1958.blog.163.com/blog/static/18872504620083299402384/'}
{'head': '''人生之不可管理''','url': 'http://txw1958.blog.163.com/blog/static/188725046200832895119848/'}
{'head': '''你最后悔什么?''','url': 'http://txw1958.blog.163.com/blog/static/188725046200832611246367/'}
{'head': '''无怨的青春''','url': 'http://txw1958.blog.163.com/blog/static/188725046200832105949684/'}
{'head': '''“路径依赖”原理''','url': 'http://txw1958.blog.163.com/blog/static/18872504620082287141465/'}
{'head': '''热爱生命''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008212112631238/'}
{'head': '''一个人都没有''','url': 'http://txw1958.blog.163.com/blog/static/188725046200812282614377/'}
{'head': '''光和影的游戏''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008120942233/'}
{'head': '''值得的生活''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811635251604/'}
{'head': '''除了股票人生还有许多重要事情''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811634847472/'}
{'head': '''爱''','url': 'http://txw1958.blog.163.com/blog/static/18872504620078157223842/'}
{'head': '''自我解放 告别“衰世” (三)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772584925619/'}
{'head': '''自我解放 告别“衰世” (二)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772584851298/'}
{'head': '''自我解放 告别“衰世” (一)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772584754334/'}
{'head': '''翠湖心影''','url': 'http://txw1958.blog.163.com/blog/static/18872504620077301651483/'}
{'head': '''爱与孤独''','url': 'http://txw1958.blog.163.com/blog/static/1887250462007720337262/'}
{'head': '''无用之用''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772003150/'}
{'head': '''一只特立独行的猪''','url': 'http://txw1958.blog.163.com/blog/static/188725046200771115049618/'}
{'head': '''小石潭记''','url': 'http://txw1958.blog.163.com/blog/static/18872504620076702313706/'}
{'head': '''小重山''','url': 'http://txw1958.blog.163.com/blog/static/1887250462007133383614/'}
{'head': '''云南雪''','url': 'http://txw1958.blog.163.com/blog/static/18872504620061122111947773/'}
{'head': '''我与地坛''','url': 'http://txw1958.blog.163.com/blog/static/1887250462006112210598127/'}

待解决问题:

1. 保存到json中,仍然是unicode,无法为中文。

2. 从首页开始,得指

scrapy技术进阶-URL路径依赖的更多相关文章

  1. 爬虫系列3:scrapy技术进阶(xpath、rules、shell等)

    本文主要介绍与scrapy应用紧密相关的关键技术,不求很深入,但求能够提取要点.内容包括: 1.xpath选择器:选择页面中想要的内容 2.rules规则:定义爬虫要爬取的域 3.scrapy she ...

  2. 爬虫系列4:scrapy技术进阶之多页面爬取

    多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...

  3. Scala 深入浅出实战经典 第52讲:Scala中路径依赖代码实战详解

    王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...

  4. 服务端技术进阶(六)Ant和Maven的作用是什么?两者之间功能、特点有哪些区别?

    服务端技术进阶(六)Ant和Maven的作用是什么?两者之间功能.特点有哪些区别? Ant和Maven都是基于Java的构建(build)工具.理论上来说,有些类似于(Unix)C中的make ,但没 ...

  5. 双倍NB!字节跳动资深研发花7天肝出的这份286页“Flutter技术进阶”

    前言 截至目前,字节跳动有很多业务落地了 Flutter 技术方案,包括今日头条.西瓜视频.皮皮虾等 20 多个业务在使用 Flutter 开发,有纯 Flutter 工程,也有 Flutter 与 ...

  6. 【LabVIEW技巧】路径依赖解除方法

    前言 LabVIEW程序开发,让我们的程序设计变的简单容易,但是设计过程中也不乏大量的重复性工作,其中最让人头痛的莫过于依赖冲突问题. 事实上,只要你对文件进行了修改或者移动,必不可少的依赖冲突就会产 ...

  7. django url路径与模板中样式相对路径的问题

    static目录下有css和js及image等文件夹,里面放置网站的一些静态文件,static位于网站根目录下,django中配置静态文件这个就细说,网上都有,昨天在添加新内容时发现一个问题,我的ur ...

  8. 第52讲:Scala中路径依赖代码实战详解

    今天学习了scala中的路径依赖,来看一下实战代码 class Outer{  private val x = 10  class Inner{    private val y = x +10  } ...

  9. paip.解决中文url路径的问题图片文件不能显示

    paip.解决中文url路径的问题图片文件不能显示 #现状..中文url路径 图片文件不能显示 <img src="img/QQ截图20140401175433.jpg" w ...

随机推荐

  1. 解读AFNetworking中Demo的MVC

    Demo的下载地址:AFNetworking下载 打开Demo: 现实的功能.就是一个简易的微博timeline界面: 项目预览: 用到的第三方:AFNetworking 和 UIKit+AFNetw ...

  2. 8大排序算法图文讲解 分类: B10_计算机基础 2014-08-18 15:36 243人阅读 评论(0) 收藏

    排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存. 常见的内部排序算法有:插入排序.希尔排序. ...

  3. php中usort自定义排序如何使用

    php中usort自定义排序如何使用 一.总结 一句话总结:多写一个规则函数,而这个函数的写法和普通函数一样,调用的时候规则函数用函数名的字符串. 1.用户自定义规则函数有哪三个? usort — 使 ...

  4. php输出文件,数组

    file_put_contents('C://zll.txt',var_export($data,true));//输出数组 file_put_contents('C://zll.txt','你好啊' ...

  5. [Grid Layout] Describe a grid layout using grid-template-areas

    We can describe the nature of a grid in an ‘ASCII-art’ way with grid-template-areas. Let’s see how t ...

  6. [Javascript] Format console.log with CSS and String Template Tags

    The Chrome console allows you to format messages using CSS properties. This lesson walks you through ...

  7. 最好用的中文速查表(Bash,Gdb,VIM,Nano)

    最好用的中文速查表(Cheatsheet) 当年学习 Linux 时就是靠着一张常用命令小卡片,敲啥命令忘记了,经常拿起来看看,后来知道这玩意儿叫做速查表(Cheatsheet),于是开始有意识收集和 ...

  8. Linux中特别要注意用户与文件权限的问题

    1.在使用Linux中,肯定会涉及不同用户的切换,但是如果不合理切换的话,会造成很多应用启动不了,所以这时候要多多使用ll看一下文件目录的权限问题,因为如果习惯用root启动程序,然后切换普通用户继续 ...

  9. 虚拟机的ip网络设置的选择

    首先看一下vm的这几个设置 通过截图可以基本看到几个网络设置的区别,具体体现在虚拟机装好以后,网络设置会多出两个适配器,不同模式会分配不同区段的ip,需要固定时主要区段要求 所以总结一下 1.桥连,适 ...

  10. 一起学Python:多线程-共享全局变量

    多线程-共享全局变量 from threading import Thread import time g_num = 100 def work1(): global g_num for i in r ...