Python 并行计算的那点事1(The Python Concurrency Story) 英文原文:https://powerfulpython.com/blog/python-concurrency-story-pt1/ 本文:https://www.cnblogs.com/popapa/p/python_concurrency.html 采集日期:2021-05-02 以编写软件为业有一件事很不错,就是能让人保持谦卑.我一度以为自己很聪明,并对此有点洋洋自得.直到开始每天写代码的日子,才…
关注微信公众号:FocusBI 查看更多文章:加QQ群:808774277 获取学习资料和一起探讨问题. <商业智能教程>pdf下载地址 链接:https://pan.baidu.com/s/1f9VdZUXztwylkOdFLbcmWw 密码:2r4v 在为企业实施商业智能时,大部分都是使用内部数据建模和可视化:以前极少企业有爬虫工程师来为企业准备外部数据,最近一年来Python爬虫异常火爆,企业也开始招爬虫工程师为企业丰富数据来源. 我使用Python 抓取过一些网站数据,如:美团.点评.…
技术背景 在之前的博客中我们介绍过concurrent等python多进程任务的方案,而之所以我们又在考虑MPI等方案来实现python并行计算的原因,其实是将python的计算任务与并行计算的任务调度分层实现.在concurrent和multiprocessing等方案中,我们的python计算任务和调度任务是一体化的,而且还有一个比较大的限制是没办法跨节点操作的,这对于任务与环境的定制化程度要求是比较高的.而MPI的方案在设计初期就考虑到了多节点之间通信的问题,而这种分层式的任务调度解决方案…
PEP 324 -- subprocess 新的进程模块(subprocess - New process module) 英文原文:https://www.python.org/dev/peps/pep-0324/ 采集日期:2021-05-13 PEP: 324 Title: subprocess - New process module Version: $Revision$ Author: Peter Astrand astrand@lysator.liu.se Status: Fina…
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿 环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先来分析.地址:https://www.qiushibaike.com 一般像这种都是文本的话,查看源代码就可以看到内容了. 已经可以看到都是在一个class 为content 的div里面,这样就很简单了,直接上正则表达式来匹配就好了. <div.*?class="content"&…
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scrapy.http.response.html import HtmlResponse from scrapy.selector.unified import SelectorList class QsbkSpiderSpider(scrapy.Spider): name = 'qsbk_spider'…
一.进程和线程 原文链接:https://zhuanlan.zhihu.com/p/356220352 进程是分配资源的最小单位,线程是系统调度的最小单位.当应用程序运行时最少会开启一个进程,此时计算机会为这个进程开辟独立的内存空间,不同的进程享有不同的空间,而一个CPU在同一时刻只能够运行一个进程,其他进程处于等待状态. 一个进程内部包括一个或者多个线程,这些线程共享此进程的内存空间与资源.相当于把一个任务又细分成若干个子任务,每个线程对应一个子任务. 二.多进程和多线程 对于一个CPU来说,…
import urllib import urllib.request from bs4 import BeautifulSoup """     1.抓取糗事百科所有纯文本段子     2.保存的本地文件 """ class QiuShi():     def __init__(self):         user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'        …
前言 跟着一个有强迫症的老板干活是一件极其幸福的事情(你懂的).最近碰到一个问题,简单的说就是对一个对象做出部分修改后仍然返回此对象,于是我就写了一个方法,老板看了之后只有一句话:不雅观,改成直接对此对象调用此方法.我脑海里千万个不情愿,然而没有办法,不得不低头,精通C#.Java.Scala等多种语言HelloWorld的我,一想便知这是扩展方法.于是开始Google之,看似简单的问题,其实里面也有一些细节需要注意,在此记录之. Level 1 原理很简单,将方法的第一个对象改成self(se…
字符串编码在python里是经常会遇到的问题,特别是写文件或是网络传输调用某些函数的时候. 现在来看看python中的unicode编码和utf-8编码 字符串编码的历史 计算机只能处理数字,文本转换为数字才能处理. 计算机中8个bit作为一个字节,所以一个字节能表示最大的数字为255 计算机是美国人发明的,一个字节就可以表示所有的英文字符了,所以ACSII(一个字节)编码就成为美国人的标准编码 但是中文里远远不止255个汉字,这时用ASCII来处理中文是明显不够用的,所以我国制定了GB2312…
1 首先看下要抓取的页面 这是糗事百科里面的糗图页面,每一页里面有很多的图片,我们要做的就是把这些图片抓取下来. 2 分析网页源代码 发现源代码里面的每张图是这样储存的,所以决定使用正则匹配出图片的url,然后下载下来. 3 编写程序 import requests import re import os def main(): url = 'https://www.qiushibaike.com/pic/page/{}/' ua_headers = { "User-Agent":'M…
TimelineJS 是用于绘制时间轴的 Javascript 开源脚本,目前是 TimelineJS3 版.参阅 https://github.com/NUKnightLab/TimelineJS3. 原文:https://timeline.knightlab.com/docs/json-format.html 译文:http://www.cnblogs.com/popapa/p/timelinejs_data.html 采集日期:2018-5-29 TimelineJS JSON 数据格式…
10 Minutes to pandas 英文原文:https://pandas.pydata.org/pandas-docs/stable/10min.html 版本:pandas 0.23.4 采集日期:2019-01-16 注:10分钟只够看完,囫囵吞枣. 参阅:10分钟学pandas 本文是对 pandas 的简短介绍,主要面向新用户.更加复杂的用法可以在 Cookbook 中查看. 按惯例导入语句可如下所示: In [1]: import pandas as pd In [2]: im…
FFMS2 又称 FFmpegSource2,参阅 https://github.com/FFMS/ffms2. 原文:https://github.com/FFMS/ffms2/blob/master/doc/ffms2-api.md 译文:http://www.cnblogs.com/popapa/p/ffms2api.html 采集日期:2018-3-17 FFmpegSource2(FFMS2)是 Libav/FFmpeg 的封装库,并且增加了一些组件来解决 libavformat 格式…
原文:https://github.com/FFMS/ffms2 译文:http://www.cnblogs.com/popapa/p/ffms2.html 采集日期:2018-3-18 FFmpegSource 常被称为 FFMS 或 FFMS2,是一种跨平台的 FFmpeg 封装库.有了它,你就可以简单地实现:"打开并解压多媒体文件就是了,实现细节不用我操心".大多数情况下,你还能用它精确访问到每一帧数据,再也不必经常受困于苍白无力的 FFmpeg API 文档了. 虽然 FFMS…
工作中需要对tensorflow 的一个predict结果加速,利用python中的线程池 def getPPLs(tester,datas): for line in datas: tester(line) tester = run_epoch.rescore(session, test_lm, data, test_data, eval_op=None, test=True)listDatas=splitList(test_data,16)#16 是线程的数量 threadsPool=[]…
最近公司由于业务的扩展.技术的延伸需要招一批有能力的小伙伴加入,而我有幸担任"技术面试官"的角色前前后后面试了不下50多位候选人,如同见证了50多位前端开发者的经历一样,在面试的过程中也让我获益匪浅,特此记录. 本文目录: 属于什么级别/应该掌握哪一些技能? 面试中的一些事 我们在面试需要注意什么? 一: 属于什么级别/应该掌握哪一些技能? 本次的招聘对于级别没有特殊的限制,所以在初,中,高级分别设立三种不同的标准来考察候选人是否真的适合公司的开发工作. 1. 初级前端开发工程师: 1…
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代码如下: 环境:Python2.79 #coding: utf-8 import urllib2 import urllib import re import os #糗百成人版抓取图片 class QBAdult: #类初始化 def __init__(self): self.baseURL =…
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ='http://www.qiushibaike.com/hot/page/'+str(page) #第一页URL headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/…
参考链接:http://python.jobbole.com/81351/#comment-93968 主要参考自伯乐在线的内容,但是该链接博客下的源码部分的正则表达式部分应该是有问题,试了好几次,没试成功.后来在下面的评论中看到有个使用BeautifulSoup的童鞋,试了试,感觉BeautifulSoup用起来确实很便捷. # -*- coding:utf-8 -*- ''' Author:LeonWen ''' import urllib import urllib2 # import r…
学习python的目标:年后可以找一份不错的维护工作. 2019.11.4日是第一天开始学习python,从开始安装python3.6版本和pycharm开始.安装python版本非常顺利的就完成了,在完成了pycharm的安装后,可以正常运行,但是一直会弹框让重新安装,具体弹框如下: 一开始也不知道是怎么回事,经历了Modif\Repair发现问题依然存在,也在学习群请教了大家,但是问题一直未能解决,最后我将所有的软件都重新进行了卸载重装,发现还是未解决问题.后来通过在网上进行查询,查询了几篇…
题目: 已知列表list=["pYTHON","iS",eASY],要求使用列表生成式实现,生成一个新的列表,要求将大写字母转换为小写字母,小写字母转换为大写字母. swapcase介绍: 作用:Python swapcase()方法用于对字符串的大小字母进行转换. 用法:swapcase()语法:str.swapcase() 返回值:返回大小字母转换后生成的新字符串. list=["pYTHON","iS","eA…
本爬虫任务: 爬虫糗事百科网站(https://www.qiushibaike.com/)--段子版块中所有的[段子].[投票数].[神回复]等内容 步骤: 通过翻页寻找url规律,构造url列表 查看审查元素,发现网页内容均在elements中,可以直接请求 通过xpath提取需要的内容 保存数据 逻辑: 构造外层url列表并进行遍历 对外层url请求访问,获得响应 提取内层url列表 遍历内层url 对内层url请求访问,获取响应 提取需要的数据(段子.投票数.神回复) 保存 代码: 1 i…
首先你要了解一下Python之禅,一行代码输出"The Zen of Python": python -c "import this""""The Zen of Python, by Tim PetersBeautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is better than co…
定义:本质是函数,为其他函数添加附加功能原则:1.不能修改被装饰的函数的源代码         2.不能修改被装饰的函数的调用方式知识储备:       1.函数即“变量”       2.高阶函数   a:把一个函数名当作实参传给另外一个函数(在不修改被装饰函数源代码的情况下为其添加功能)   b:返回值中包含函数名(不修改函数的调用方式)       3.嵌套函数       高阶函数+嵌套函数=>装饰器 第一步:最简单的函数,准备附加额外功能 ? 1 2 3 4 5 6 7 8 # -*-…
解决问题: 有一个固定长度的1维矩阵,将这个矩阵的取样点进行扩充和减少 功能函数: def discrete_scale(data, num): import numpy as np import copy """ :param data: 原始一维矩阵数据 :param num: 设定的样本长度 :return d1: 目标矩阵输出 """ len = data.shape[0] # 原始数据长度 if len < num: # 样本扩展…
 字号 scrapy [TOC] 开始 scrapy安装 首先手动安装windows版本的Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted pip install Twisted-18.4.0-cp36-cp36m-win_amd64.whl 安装scrapy pip install -i https://pypi.douban.com/simple/ scrapy windows系统额外需要安装pypiwin32 pip i…
丑事百科爬虫 import re import requests def parse_page(url): headers = { 'User-Agent':'user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36' } respone = requests.get(url,headers) # print(r…
英文原文:https://github.com/OWASP/CheatSheetSeries/blob/master/cheatsheets/Session_Management_Cheat_Sheet.md 采集日期:2019-07-17 注:Session 尽量保持原文,有时表意时用"会话". 简介(Introduction) Web 身份认证.Session 管理和访问控制:(Web Authentication, Session Management, and Access C…
Daphile 安装手册(Daphile Installation) 英文原文:https://www.daphile.com/download/DaphileInstallation.pdf 采集日期:2021-01-01 快速入门指南(Quick start guide) 下载 Daphile ISO 文件 用 USBWriter 或其他类似软件将此 ISO 文件写入 USB 闪存盘 从 USB 闪存盘将 Daphile PC 启动起来 通过 Web 浏览器访问 Daphile PC 请用…