python 培训之爬虫

1. 输入文件为

fufang_list.txt

yaofang_a    aaiwan    阿艾丸

yaofang_a    aaiwulingsan    阿艾五苓散

yaofang_a    acaitang    阿菜汤

yaofang_a    afurongjiu    阿芙蓉酒

yaofang_a    aqietuoyao    阿伽陀药

yaofang_a    aweichubisan    阿魏搐鼻散

yaofang_a    aweigao    阿魏膏

yaofang_a    aweigaoyao    阿魏膏药

yaofang_a    aweihuapigao    阿魏化痞膏

yaofang_a    aweihuapisan    阿魏化痞散

yaofang_a    aweijikuaiwan    阿魏积块丸

yaofang_a    aweileiwansan    阿魏雷丸散

yaofang_a    aweilizhongwan    阿魏理中丸

yaofang_a    aweiliangjiangwan    阿魏良姜丸

yaofang_a    aweiruanjiansan    阿魏软坚散

yaofang_a    aweisan    阿魏散

yaofang_a    aweishexiangsan    阿魏麝香散

yaofang_a    aweitongjingwan    阿魏通经丸

yaofang_a    aweiwan    阿魏丸

yaofang_a    aweiwanlinggao    阿魏万灵膏

2. 爬虫脚本

get_tcmdata.py

#!/usr/bin/python

#coding:utf8

from __future__ import print_function

import click

import urllib2

import re

from bs4 import BeautifulSoup

import sys

reload(sys)

import socket

sys.setdefaultencoding("utf8")

socket.setdefaulttimeout(20)

base_url = "http://www.zysj.com.cn/zhongyaofang/{}.html"

headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

@click.command()

@click.argument('input1')

@click.option("--pos",'-pos')

def query_tcm_info(input1,pos):

    """

    the script will ignore the previous pos lines

    """

    zhongyaofang_list = open(input1)

    pos = int(pos)

    num = 0

    if pos:

        for i in range(0,pos):

            zhongyaofang_list.readline()

    num = num + pos

    for zhongyaofang_info in zhongyaofang_list:

        num = num +1

        zhongyaofang_info_list = zhongyaofang_info.strip("\n").split("\t")

        url_id = "/".join(zhongyaofang_info_list[0:2])

        file_out = "_".join(zhongyaofang_info_list[0:2])

        file_out_name = "_".join([file_out,str(num)])

        output_file = open(file_out_name+".txt","w")

        query_url = base_url.format(url_id)

        req = urllib2.Request(query_url,headers = headers)

        content = urllib2.urlopen(req,timeout=20).read()

        soup = BeautifulSoup(content)

        words = soup.getText()

        output_file.write(words)

if __name__ == "__main__":

    query_tcm_info()

3. 运行脚本命令

python get_tcmdata.py fufang_list.txt --pos 0

4. 简单百度爬虫

#!/usr/bin/python

#coding:utf8

from __future__ import print_function

import sys

reload(sys)

sys.setdefaultencoding("utf8")

import urllib2

request = urllib2.Request(url)

request.add_data('a',"")

request.add_heder('User-Agent',"Mozilla/5.0")

response = urllib2.urlopen(request)

cont = response.read()

print(cont)

m = requests.post("http://www.megabionet.org/tcmid/ingredientsearch/?name=adonitol")

m.url

python 培训之爬虫的更多相关文章

智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...
老王Python培训视频教程（价值500元）【基础进阶项目篇 – 完整版】
老王Python培训视频教程(价值500元)[基础进阶项目篇 – 完整版] 教学大纲python基础篇1-25课时1.虚拟机安装ubuntu开发环境,第一个程序:hello python! (配置开发 ...
测试开发Python培训：实现屌丝的图片收藏愿望（小插曲）
测试开发Python培训:实现屌丝的图片收藏愿望(小插曲) 男学员在学习python的自动化过程中对于爬虫很感兴趣,有些学员就想能收藏一些图片,供自己欣赏.作为讲师只能是满足愿望,帮助大家实现对美的追 ...
测试开发Python培训：抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
曾Python培训讲师-2年Python开发无包装简历-20191217-可公开
目录个人介绍技能介绍项目经历自我评价简历非完整版,需要完整版看下述信息,禁止任何一切私人用途.转发我生日是27号,那就27元一份,有需求的来购买!只会涨价不会降价,大概卖10份涨1元:曾P ...
Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...

随机推荐

Windows8.1画热度图 - 坑
想要的效果如上是silverlight版本.原理是设定一个调色板,为256的渐变色(存在一个png文件中,宽度为256,高度为1),然后针对要处理的距离矩阵图形,取图片中每个像素的Alpha值作为索 ...
golang: 把sql结果集以json格式输出
func getJSON(sqlString string) (string, error) { stmt, err := db.Prepare(sqlString) if err != nil { ...
git--- 拉取代码
redis的主从复制配置
redis的主从复制配置一. 原理 Redis的主从复制功能非常强大,一个master可以拥有多个slave,而一个slave又可以拥有多个slave,如此下去,形成了强大的多级服务器集群架 ...
献给那些每次调试时都要启动很多WEB项目的苦逼程序猿
当一个解决方案包含多个WEB项目的时候,只要按F5调试,其它用不着的WEB项目也会自动添加到托盘里.很多新手都不知道如何解决这个问题,我也是刚知道. 在网上找了很多资料看到有2种解决方法: 1.把WE ...
Oracle之物化视图
来源于:http://www.cnblogs.com/Ronger/archive/2012/03/28/2420962.html 近期根据项目业务需要对oracle的物化视图有所接触,在网上搜寻关于 ...
Java 接口中常量的思考
接口中不允许方法的实现,而抽象类是允许方法实现的及定义变量的,因此我们可以看出接口是比抽象类更高层次的抽象.如果接口可以定义变量,但是接口中的方法又都是抽象的,在接口中无法通过行为(例如set()方法 ...
[转]扩展RBAC用户角色权限设计方案
原文地址:http://www.iteye.com/topic/930648 RBAC(Role-Based Access Control,基于角色的访问控制),就是用户通过角色与权限进行关联.简单地 ...
hdu 4612 强连通
题意:有一些联通的地方,如果2点间只有一条路径,这样的边叫做桥,现在让你添加一个桥,使最后的桥最少,问最少的桥使多少? 先求一次强连通分量,然后图就分成了几个块,将这几个块看做点,求出总共有多少条重建 ...
js学习笔记8----定时器
1.setInterval 和 setTimeout:定时器语法:setInterval(函数名,时间间隔); 如:setInterval(fn(),1000); //表示每隔1秒执 ...

python 培训之爬虫

python 培训之爬虫的更多相关文章

随机推荐

热门专题