美国在研新药_读取单个PDF

sklearn实战-乳腺癌细胞数据挖掘（博主亲自录制视频）

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

QQ：231469242

读取下载美国在研新药PDF内数据：unii，分子式，分子重量，药品名，who，编码，。。。。

PDF无逻辑规则，不能百分之百提取，只能部分提取

几个默认字段为空


# -*- coding: utf-8 -*-

"""

io.open() is the preferred, higher-level interface to file I/O. It wraps the OS-level file descriptor in an object that you can use to access the file in a Pythonic manner.

os.open() is just a wrapper for the lower-level POSIX syscall. It takes less symbolic (and more POSIX-y) arguments, and returns the file descriptor (a number) that represents the opened file. It does not return a file object; the returned value will not have read() or write() methods.

"""

import re

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

# pip3 install pdfminer3k

from io import StringIO

from io import open

#pdf文件名

pdfFilename="atesidorsen sodium.pdf"

#文件名前缀

frontName="usan/2016/"

#商标文件名

trademark_filename="trademarks.txt"

#赞助商文件名

sponsor_filename="sponsor.txt"

#读取PDF数据

def readPDF(pdfFile):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)

    device.close()

    content = retstr.getvalue()

    retstr.close()

    return content

#规范PDF数据

def Format(str1):

    list2=[]

    #分割成列表

    list1=str1.split("\n")

    for i in list1:

        #if i=="/n":

        if i=='' or i==' 'or i=='  ':

            continue

        list2.append(i)

    return list2

#提取me_usan，药品名

def Get_me_usan(the_list_data):

    return the_list_data[0]    

#提取me_therapeutic

def Get_me_therapeutic(the_list_data):

    for i in the_list_data:

        if "Treatment of" in i:

            return i

#提取me_chemical1 分子式1

def Get_me_chemical1(the_list_data):

    for i in the_list_data:

        if "1. " in i:

            return i

    return ""

#提取me_chemical2 分子式2

def Get_me_chemical2(the_list_data):

    for i in the_list_data:

        if "2. " in i:

            return i

    return ""   

#匹配分子式

def Re_formula(str1):

    #匹配正在表达式

    re_formula=re.compile(r'C(\d)+H(\d)+')

    mo1=re_formula.search(str1)

    if mo1!=None:

        return True

    return False

#提取me_mo_formula，特征包含碳氢CH元素

def Get_me_mo_formula(the_list_data):

    for i in the_list_data:

        #转换为大写

        i=i.upper()

        value=Re_formula(i)

        if value==True:

            return i

    return ""

#提取分子质量me_mo_weight，如果出现MOLECULAR WEIGHT，且下一个值是数字或浮点数，就提取下一个值

def Get_me_mo_weight(the_list_data):

    for count in range(len(the_list_data)):

        #如果出现MOLECULAR WEIGHT，则提取下一个值

        if 'MOLECULAR WEIGHT' in the_list_data[count]:

            value=the_list_data[count+1]

            if type(eval(value)) == int or type(eval(value)) == float:

                return value

    return ""

#从trademarks.txt搜索数据

def Get_txt_contents(filename):

    file=open(filename)

    content=file.readlines()

    content1=[i.replace("\n","") for i in content]

    return content1

#提取me_trademark，从trademarks.txt搜索数据

def Get_me_trademark(the_list_data):

    for i in the_list_data:

        i=i.strip(" ")

        for k in list_trademarks:

            if k in i:

                return i

    return ""

#提取me_sponsor，从sponsor.txt搜索数据

def Get_me_sponsor(the_list_data):

    for i in the_list_data:

        i=i.strip(" ")

        for k in list_sponsors:

            if k in i:

                return i

    return ""    

#匹配CAS正则表达式

def Re_CAS(str1):

    re_CAS=re.compile(r'(\d)+-(\d)+-(\d)+')

    mo1=re_CAS.search(str1)

    if mo1!=None:

        return True

    return False

#提取CAS

def Get_CAS(the_list_data):

    for i in the_list_data:

        value=Re_CAS(i)

        if value==True:

            return i

    return ""

#匹配WHO正则表达式

def Re_WHO(str1):

    re_WHO=re.compile(r'(\d)+')

    mo1=re_WHO.search(str1)

    if mo1!=None:

        return True

    return False

#提取WHO

def Get_WHO(the_list_data):

    for count in range(len(the_list_data)):

        #如果出现MOLECULAR WEIGHT，则提取下一个值

        if 'WHO NUMBER' in the_list_data[count]:

            value=the_list_data[count+1]

            if type(eval(value)) == int:

                return value

    return ""

#匹配UNII正则表达式

def Re_UNII(str1):

    #{10}表示出现10次

    re_UNII=re.compile(r'[A-Za-z0-9]{10}')

    mo1=re_UNII.search(str1)

    if mo1!=None:

        return True

    return False

#提取UNII

def Get_UNII(the_list_data):

    for count in range(len(the_list_data)):

        #如果出现MOLECULAR WEIGHT，则提取下一个值

        if 'UNII' in the_list_data[count]:

            value=the_list_data[count+1]

            if Re_UNII(value)==True:

                return value

    return ""

#获取me_down数据

def Get_me_down(the_list_data):

    name=frontName+pdfFilename

    return name

pdfFile = open(pdfFilename, 'rb')

outputString = readPDF(pdfFile)

list_data=Format(outputString)

me_source=2016

#提取me_usan，药品名

me_usan=Get_me_usan(list_data)

#提取me_therapeutic 治疗疾病

me_therapeutic=Get_me_therapeutic(list_data)

#提取me_therapeutic

me_chemical1=Get_me_chemical1(list_data)

#提取me_chemical2 分子式2

me_chemical2=Get_me_chemical2(list_data)

#提取me_mo_formula，特征包含碳氢CH元素

me_mo_formula=Get_me_mo_formula(list_data)

#提取分子质量me_mo_weight

me_mo_weight=Get_me_mo_weight(list_data)

#商标名数据库

list_trademarks=Get_txt_contents(trademark_filename)

#提取商标名

me_trademark=Get_me_trademark(list_data)

#赞助商数据库

list_sponsors=Get_txt_contents(sponsor_filename)

#提取赞助商，新公司则找不到

me_sponsor=Get_me_sponsor(list_data)

#提取CAS

me_CAS=Get_CAS(list_data)

#提取WHO

me_WHO=Get_WHO(list_data)

#提取UNII

me_UNII=Get_UNII(list_data)

#获取me_down

me_down=Get_me_down(list_data)

#me_bianma数据默认为空

me_bianma=""

#me_ylbm数据默认为空

me_ylbm=""

python风控评分卡建模和风控常识

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

美国在研新药_读取单个PDF的更多相关文章

rsyslog 读取单个文件测试
rsyslog 测试(rsyslog 必须yum 安装uat-web02:/root# rpm -qa | grep rsyslog rsyslog-8.21.0-1.el6.x86_64) //读取 ...
python读取单个文件操作
python读取单个文件,参考<笨方法学python>的第15节. 运行方式是采用:python python文件名要读取的文件名代码中 script, filename = argv ...
Python打印到屏幕_读取键盘输入
Python打印到屏幕_读取键盘输入: print( ): 打印输出括号中的值 print("hello") # hello strs = 'hello' print(" ...
单个pdf提取测试
# -*- coding: utf-8 -*- """ Created on Wed Feb 3 09:32:22 2016 pdf单个文件提取测试 @author: A ...
java读取txt/pdf/xls/xlsx/doc/docx/ppt/pptx
环境准备txt利用common-iopdf利用pdfbox剩下的用POI关于POI,读取xls没啥特别的,主要是读取doc和ppt,需要下载poi源代码,然后将poi-src-3.7-20101029 ...
day11_单元测试_读取yaml文件中的用例,自动获取多个yaml文件内容执行生成报告
一.使用.yaml格式的文件直接可以存放字典类型数据,如下图,其中如果有-下一行有缩进代表这是个list,截图中是整体是一个list,其中有两部分,第二部分又包含另外一个list 二.单元测试:开发自 ...
python文件_读取
1.文件的读取和显示方法1: f=open(r'G:\2.txt') print f.read() f.close() 方法2: try: t=open(r'G:\2.txt') print t.r ...
php_常用操作_读取文件_数据库操作
作为php新手 ,把经常用到的phpcode,做个备份 1: 文件处理 //读取配置启动是指定文件 $filepath=$argv[1]; if(null==$filepath){ echo&quo ...
js_ajax模拟form表单提交_多文件上传_支持单个删除
需求场景: 用一个input type="file"按钮上传多张图片,可多次上传,可单独删除,最后使用ajax模拟form表单提交功能提交到指定方法中: 问题:由于只有一个file ...

随机推荐

如何用Github版本控制非Github库
Git的图形化客户端有很多,不同的人可能习惯用不同的客户端.本人更习惯于Github的客户端,因为上Github比较多,同步代码到Github用官方的客户端是最方便的,所以也就更习惯于使用Github ...
Unix&Linux技术文章目录(2015-12-22更新)
Unix & Linux 方面的博客整理.归纳分类,要坚持不懈的学习Unix &Linux,加油!技术需要累积和沉淀.更需要锲而不舍的精神.持之以恒的毅力!借此下面名句勉励自己! 书上 ...
[MySQL Reference Manual] 18 复制
18 复制 18 复制 18.1 复制配置 18.1.1 基于Binary Log的数据库复制配置 18.1.2 配置基于Binary log的复制 18.1.2.1 设置复制master的配置 18 ...
nginx 网站搭建
nginx目录详解默认nginx做了nginx配置文件的备份 #查看nginx配置文件去掉#号的内容,并且追加到nginx.conf.tmp egrep -v "#|^$" ng ...
java中可定制的序列化过程 writeObject与readObject
来源于:[http://bluepopopo.iteye.com/blog/486548] 什么是writeObject 和readObject?可定制的序列化过程这篇文章很直接,简单易懂.尝试着翻 ...
Chrome 扩展机制
据说,今年9月份开始,谷歌将在Chrome浏览器中全面禁用NPAPI插件,Chrome 45以后将无法再加载NPAPI插件,并推出了一种新的机制:扩展. 其实,如果把浏览器看作一块画布的话,NPAPI ...
安装Appium-windows
安装Appium-windows JDK 安装JDK后设置环境变量,把环境变量添加到你的系统PATH变量中. 变量: JAVA_HOME 值: C:\Program Files (x86)\Java ...
基于pcDuino-V2的无线视频智能小车 - UBUNTU系统上的gtk编程
详细的代码已经上传到git网站:https://github.com/qq2216691777/pcduino_smartcar
[LeetCode] Wiggle Sort 摆动排序
Given an unsorted array nums, reorder it in-place such that nums[0] <= nums[1] >= nums[2] < ...
【经验之谈】Git使用之TortoiseGit配置VS详解
前言上一篇<[经验之谈]Git使用之Windows环境下配置>: 安装配置和使用后记关于vs中使用git网上的教程大家也可以找到,我当时配置的时候也是按照网上找的教程一步一步来的, ...

美国在研新药_读取单个PDF

sklearn实战-乳腺癌细胞数据挖掘（博主亲自录制视频）

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

python风控评分卡建模和风控常识

美国在研新药_读取单个PDF的更多相关文章

随机推荐

热门专题