转载请标明出处: http://blog.csdn.net/forezp/article/details/70198541 本文出自方志朋的博客 今天一时兴起,想用python爬爬自己的博客,通过数据聚合,制作高逼格的云图(对词汇出现频率视觉上的展示),看看最近我到底写了啥文章. 一.直接上几张我的博客数据的云图 1.1 爬取文章的标题的聚合 1.2 爬取文章的摘要的聚合 1.3 爬取文章的标题+摘要的聚合 我最近写了SpringCloud系列教程,还有一些微服务架构方面,从云图上看,基本吻合.…
Python爬虫简单实现CSDN博客文章标题列表 操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据 封装接口函数,实现函数调用. 1.分析接口 打开Chrome浏览器,开启开发者工具(F12快捷键). 在浏览器中输入CSDN网址 : https://blog.csdn.net ,看`` 根据分析,提取到了AJAX调用接口如下: curl 'https://blog.csdn.net/api/articles?type=new&category=home' -H 'authority:…
代码 # -*- coding: utf-8 -*- """ ------------------------------------------------- File Name: getCnblogs Description : Author : 神秘藏宝室 date: 2017-09-21 ------------------------------------------------- Change Activity: 2017-09-21: ------------…
博客地址:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html 爬第一页博文 #-*-coding:utf--*- import re #导入正则表达式模块 import urllib #导入urllib库 url= response = html = response.read() #print(html) #这里可以将爬取到的html输出到终端 pattern = re.compile('<a title=.*?href=(.*?…
python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ # 根据URL获取内容并解码为UTF-8 def getHtml(url): page = urllib.request.urlopen(url) html = page.read() html = html.decode('UTF-8') return html # 解析返回的html def getArtical(html, results):…
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够 保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点也是大同小异. 为了解析抓取的网页.用到了第三方模块,BeautifulSoup,这个模块对于解析html文件很实用,当然也能够自己使用正則表達式去解析,可是比較麻烦. 因为csdn站点的robots.txt文件里显示禁止不论什么爬虫,所以必须把爬虫伪装成浏览器.并且不能频繁抓取.得sleep一会再…
爬虫+jsoup轻松爬博客 最近的开发任务主要是爬虫爬新闻信息,这里主要用到技术就是jsoup,jsoup 是一款 Java的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过 DOM,CSS以及类似于jQuery的操作方法来取出和操作数据.这篇文章就讲通过jsoup爬虫的实际案例,下一篇再讲jsoup的具体文档. 主要爬虫对象就以我之前写的一篇博客:[java提高]---java反射机制 主要爬区的信息有 (1)该文章的标题 (2)该文章的二类标题…
这几天有django和python做了一个多用户博客系统(可选择模板) 没完成,先分享下 断断续续2周时间吧,用django做了一个多用户博客系统,现在还没有做完,做分享下,以后等完善了再慢慢说 做的时候房展了博客园的部分功能,百度空间和新浪博客等,实现主要功能有 用户注册.登录,博客的发表.修改,文章分类的管理. 在文章发表里面用的是百度的ueditor,目前仅仅是用它来编辑,没有图片的上传等其他高级功能 在文章分类里面,要在数据库里面有一条记录 id为1,名称为未分类 用来做为所有用户的未分…
一.下载: 1.官网下载python3.0系列(https://www.python.org/) 2.下载后图标为: 二.安装: Window下: 1.安装路径: 默认安装路径:C:\python35 2.配置环境变量: [右键计算机]–>[属性]–>[高级系统设置]–>[高级]–>[环境变量]–>[在第二个内容框中找到 变量名为Path 的一行,双击] –> [Python安装目录追加到变值值中,用 : 隔开] 如:原来的值;C:\python35,切记前面有分号 L…
各位云原生搬砖师 and PPT 架构师,你们有没有想过像写文章一样方便地写代码呢? 怎样才能像写文章一样写代码? 理想的需求应该是可以在线编写.调试函数,不用重启服务,随时随地在 Web 上查看函数的运行日志,无需连接服务器,无需折腾数据库.对象存储.Nginx 等,可以随时随地上线应用,招之即来,挥之即去,随手发布! 这时候懂王上线了,好家伙,这不就是 Serverless 嘛,Serverless 的愿景是用户只需专注开发意图,编写函数代码,并上传到代码仓库,其他的东西不需要关心,Serv…
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他的csdn首页如下:http://blog.csdn.net/guolin_blog,首页如图: 你需要掌握的技术有:java se,正则表达式,js dom编程思想,jsoup,此外还需要http协议的一些知识.其中其他技术点可能你以前就掌握了,只差一个jsoup了,这个哥们是干嘛使的呢?我用一句话来说,就…
概述 通过自己写的博客后台代码.思路,来与武sir的代码进行一个差异化的比较,记录之间的差距,改善以后写代码的思路 博客后台这个项目,对之前Django学习的各个知识点都有涉及到,非常重要 用户登录验证 数据库表: from django.db import models # 除了主键其他默认可以为空 # max_length在CharField中必填 class UserInfo(models.Model): """ 用户表 """ nid =…
上一篇我们说了如何搭建简易博客网站,下面我们来进行详细解答.本文没有特定顺序,请结合上一篇和源代码参照学习. 相关源代码和解析请参看:https://github.com/Cheng0829/mysite /mysite/manage.py(Django项目里面的工具,通过它可以调用django shell和数据库等) /mysite/mysite/settings.py(包含了项目的默认设置,包括数据库信息,调试标志以及其他一些工作的变量) /mysite/mysite/urls.py(负责把…
由于csdn各种django blog博文都有或多或少的bug,所以我决定自己写一篇,先附上教程,详解在另一篇博文里,为了便于大家复制粘贴,本文代码尽量不使用图片. 源代码及解析文章请在我的github账户:https://github.com/Cheng0829/mysite自行下载. 首先,肯定要安装django,可以在cmd命令行输入: D:/>pip install django 接下来,就开始在构建博客了,在命令行输入 D:/>django-admin startproject my…
这次又更新了一大部分功能,这次以app的形式来开发. 增加博客分类功能:博客关注.推荐功能(ajax实现) 增加二级频道功能 更多功能看截图及源码,现在还不完善,大家先将就着看.如果大家有哪些功能觉的不好或者要增加可以留言. 同时已经在github上面开放了,有兴趣的可以一起参与. github:https://github.com/djangochina/UUBlog 源码加上图片超过10M了,没法上传,可加群里面下载python.django学习交流1000人超级群:109674169 用的…
编辑人员注释:本文章由 Windows Azure 网站团队的项目经理 Sunitha Muthukrishna 撰写. 根据您编写的应用程序,Windows Azure 网站上的基本Python 堆栈可能完全满足您的需求,也可能不包括您的应用程序所需的所有模块或库. 不用担心,在此博客文章中,我将详细介绍使用Virtualenv 和适用于 Visual Studio 的Python 工具为您的应用程序创建 Python 环境的步骤.与此同时,我还将介绍如何将基于 Django 的站点发布到 W…
我们的博客侧边栏有四项内容:最新文章.归档.分类和标签云. 这些内容相对比较固定,且在各个页面都会显示,如果像文章列表或者文章详情一样,从视图函数中获取然后传递给模板,则每个页面对应的视图函数里都要写一段获取这些内容的代码,这会导致很多重复代码. 更好的解决方案:自定义一个模板标签,然后在每个页面的模板导入自定义的模板标签即可,下面整理出自定义标签的流程: 1 创建自定义模板的文件夹 在blog/…
上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地 爬取博客园博客 爬取思路: 1.首先找到需要爬取的博客园地址 2.解析博客园地址 # coding:utf-8 import requests from lxml import etree # 博客园地址 url = 'http://www.cnblogs.com/qican/' headers = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1; W…
要执行下面程序,需要安装Beautiful Soup和requests,具体安装方法请见:https://www.cnblogs.com/xiandedanteng/p/8668492.html # 分析自己的博客 https://www.cnblogs.com/xiandedanteng/p/?page=XX,看每个月发帖量是多少 from bs4 import BeautifulSoup import requests import re user_agent='Mozilla/4.0 (c…
希希敬敬对的 Alpha阶段测试报告 随笔链接地址 https://www.cnblogs.com/xiaoyoushang/p/10078826.html   Alpha版本发布说明 随笔链接地址      https://www.cnblogs.com/dyls/p/10078940.html?tdsourcetag=s_pcqq_aiomsg “希希敬敬对”团队成员简介 龙江腾(队长)团队PM 精通C语言,熟悉单片机开发,嵌入式软件开发.熟悉软件项目的一般开发流程,有良好的编程风格,代码模…
又过了一周,把代码整个的优化和完善了一下,也把TBlog更名为UUBlog.这次基本是把上次的整个更新了一下具体的功能大家可以下载后自己看看说一下主要的变化增加了频道表.博客表. 功能方面主要有增加频道功能.评论功能.用户侧边栏自定义模板功能.发布文章可选择投放频道.用户头像上传功能.项目目录方面也修改了很多.现在还不完善,大家先将就着看.如果大家有哪些功能觉的不好或者要增加可以留言.先看看截图,这次首页界面上面稍稍的美化了一下,另外把默认模板也美化了一下目录结构 首页a 源码下载:http:/…
博客搬家到自己的网站了www.54kaikai.com欢迎访问.…
Python爬虫开发与项目实战从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算.大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应用,进而介绍如何设计自己的爬虫应用.主要内容分为基础篇.中级篇.深入篇,基础篇包括Python编程基础.Web前端基础.HTML基础知识.基础爬虫设计.强化爬虫技术等.中级篇包括数据存储.动态网站抓取.协议分析.Scrapy爬虫框架分析及实战案例等.高级篇包括增量式爬虫.分布式爬虫.人性化爬虫等框架…
输出 用print()在括号中加上字符串,就可以向屏幕上输出指定的文字.比如输出'hello, world',用代码实现如下: >>> print('hello, world') print()函数也可以接受多个字符串,用逗号“,”隔开,就可以连成一串输出: >>> print('The quick brown fox', 'jumps over', 'the lazy dog') The quick brown fox jumps over the lazy dog…
上次讲解了一下各py文件的内容,但比较乱,所以这次整理了一个顺序版. 源代码请在http://github/Cheng0829/mysite自行下载 mysite: db.sqlite3:数据库文件.在cmd输入python manage.py migrate连接数据库时生成(migrate:迁移). manage.py:在cmd输入django-admin startprojectmysite创建django项目时,manage.py会被自动生成在项目根目录下.用以对django项目实现命令行…
这一篇我们来讲解setting.py,具体内容以注释形式写入到下面的setting.py代码中,篇幅所限已把官方所给英文注释删除. 全部源代码和详解请参看http://github.com/Cheng0829/mysite import os #Python 使用os.path模块中的对象和方法,处理目录.该模块提供大量用于路径判断.切分.连接及遍历的方法. BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__))…
Python绘制曲面和曲面对应的等高线图: https://blog.csdn.net/weixin_40198632/article/details/78570679 python实现三维拟合 https://blog.csdn.net/changye777/article/details/78437491 python中删除某个元素的3种方法 https://www.cnblogs.com/huangbiquan/articles/7740894.html…
yagmail 实现发邮件 yagmail 可以简单的来实现自动发邮件功能. 安装 pip install yagmail 简单例子 import yagmail #链接邮箱服务器 yag = yagmail.SMTP( user=", host='smtp.126.com') # 邮箱正文 contents = ['This is the body, and here is just text http://somedomain/image.png', 'You can find an aud…
1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn首页文章列表 http://blog.csdn.net/ 3.分析网站文章列表代码: 4.实现抓取代码: __author__ = 'Administrator' import urllib.request import re from bs4 import BeautifulSoup ######################################################## # # 抓…
用户代理池 用户代理池就是将不同的用户代理组建成为一个池子,随后随机调用. 作用:每次访问代表使用的浏览器不一样 import urllib.request import re import random uapools=[ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.3…