转载:http://www.xuebuyuan.com/583071.html

python处理html的table标签

2012年01月06日 ⁄ 综合 ⁄ 共 5279字 ⁄ 字号    ⁄ 评论关闭
 
import sys
import csv
import urllib2 import BeautifulSoup #page = urllib2.urlopen(sys.argv[1]).read()
soup = BeautifulSoup.BeautifulSoup(open(sys.argv[1]).read())
csvout = csv.writer(sys.stdout) for table in soup.findAll('table'):
print "<table border='1'>"
#print '#'
#print '# Table'
#print '# Fields: ' + ','.join([tr.text for tr in table.findAll('th')])
for row in table.findAll('tr'):
print "<tr>"
#csvout.writerow([tr.text for tr in row.findAll('td')])
for tr in row.findAll('td'):
print "<td>"
print tr.text.encode("utf-8")
print "</td>"
print "</tr>"
print "</table>"
break
#!/bin/bash

#process.h

basedir=$(dirname $1)

echo $basedir

#echo \<head\>\<meta http-equiv=\"Content-Type\" content=\"text/html\; charset=UTF-8\" /\>\</head\> >> $basedir/baobei.html

prodname=$(grep -o '<title id="id_title">.*</title>' $1 | cut -d \> -f 2 | cut -d \< -f 1)

prodname=$(echo $prodname | cut -d _ -f 1)

price=$(grep -o '<span class="s1">[0-9]*</span>' $1 | cut -d \> -f 2 | cut -d \< -f 1)

echo \<table\>                > $basedir/baobei.html

echo  \<tr\>                 >> $basedir/baobei.html
echo \<td\>Name\</td\> >> $basedir/baobei.html
echo \<td\>$prodname\</td\> >> $basedir/baobei.html
echo \</tr\> >> $basedir/baobei.html echo \<tr\> >> $basedir/baobei.html
echo \<td\>Price\</td\> >> $basedir/baobei.html
echo \<td\>$price\</td\> >> $basedir/baobei.html
echo \</tr\> >> $basedir/baobei.html python ./printtab.py $1 >> $basedir/baobei.html echo \</table\> >> $basedir/baobei.html imgsrc=$(head -n 1 $basedir/imglist)
if test y$imgsrc = y; then
rm -rf $basedir/baobei.html && exit;
fi
echo \<img src=\'$imgsrc\'/\> >> $basedir/baobei.html cat $basedir/baobei.html | tr -d '\n' | tr -d '"' > $basedir/baobei.html.tmp
mv $basedir/baobei.html.tmp $basedir/baobei.html
#!/bn/bash

#process2.sh

basedir=$(dirname $1)

name=$(grep  -o "<td>Name</td><td>.*</td>" $1   | cut -d \> -f 4 | cut -d \< -f 1 )

if  test "x$name" = "x" ; then
exit ;
fi price=$(grep -o "<td>Price</td><td>.*</td>" $1 | cut -d \> -f 4 | cut -d \< -f 1 ) if test "x$price" = "x" ; then
exit;
fi if test "x$class" = "x"
then
class=$(grep -o "<td>产品类型</td><td>.*</td>" $1 | cut -d \> -f 4 | cut -d \< -f 1 )
fi if test "x$class" = "x"
then
class=$(grep -o "<td>设备类型</td><td>.*</td>" $1 | cut -d \> -f 4 | cut -d \< -f 1 )
fi if test "x$class" = "x"
then
class=$(grep -o "<td>打印针数</td><td>.*</td>" $1 | cut -d \> -f 4 | cut -d \< -f 1 )
fi if test "x$class" = "x"
then
class="条形码打印机"
fi if $( echo $class | grep --quiet '票据' )
then
class="536187477"
elif $( echo $class | grep --quiet '发票' )
then
class="536187477"
elif $( echo $class | grep --quiet '票证' )
then
class="536187477"
elif $( echo $class | grep --quiet '存折' )
then
class="536187477" ##################################################################
elif $( echo $class | grep --quiet '针' )
then
class="536187477" ##################################################################
elif $( echo $class | grep --quiet '灯泡' )
then
class="536187479"
elif $( echo $class | grep --quiet 'UHE' )
then
class="536187479"
elif $( echo $class | grep --quiet 'UHP' )
then
class="536187479"
elif $( echo $class | grep --quiet 'HSCR' )
then
class="536187479" ###############################################################
elif $( echo $class | grep --quiet '条形码打印机' )
then
class="536187480" ##################################################################
elif $( echo $class | grep --quiet '证卡打印' )
then
class="536187483" ##################################################################
elif $( echo $class | grep --quiet '条码' )
then
class="536187481" elif $( echo $class | grep --quiet '扫描' )
then
class="536187481" elif $( echo $class | grep --quiet '阅读' )
then
class="536187481" elif $( echo $class | grep --quiet '采集' )
then
class="536187481" elif $( echo $class | grep --quiet '手持' )
then
class="536187481" elif $( echo $class | grep --quiet '数据终端' )
then
class="536187481" ##################################################################
elif $( echo $class | grep --quiet '激光' )
then
class="536187484" ##################################################################
elif $( echo $class | grep --quiet '喷墨' )
then
class="536187486" ##################################################################
elif $( echo $class | grep --quiet '复印' )
then
class="536187615" ##################################################################
elif $( echo $class | grep --quiet '一体机' )
then
class="536187485" ##################################################################
elif $( echo $class | grep --quiet '硒鼓' )
then
class="536187616" elif $( echo $class | grep --quiet '墨盒' )
then
class="536187616"
else
class="536187616"
fi ################################################################
imagepath=$(find $basedir -type f -iname "*.jpg")
if test "x$imagepath" = "x"; then
exit ;
fi
image=$(md5sum $imagepath | cut -d ' ' -f 1)
cp -rf $imagepath $basedir/../../template/$image.tbi
################################################################
desc=$(cat $1)
################################################################ echo -e \"$name\""\t"110514"\t"\",$class,\""\t"1"\t"\"上海\""\t"\"上海\""\t"\"b\""\t"$price"\t"0.000000"\t"1"\t"7"\t"2"\t"0.000000"\t"0.000000"\t"0.000000"\t""\t""\t"1"\t"1"\t"0"\t"1"\t"1"\t"0"\t"\"2012-10-16 13:09:48\""\t""\t"\"$desc\""\t""\t"\"20000:31140\;20196:3228846\;29969:107401\;30681:32998\;31468:102250\;31479:92188\;3415558:27513\;3415563:21959\;3415571:21959\;3415581:10122\;3415609:22041\;7884463:75957615\;14319244:80897641\;14319250:123483713\;14791484:10285019\;\""\t""\t""\t"0"\t"0"\t"\"2012-10-16 13:37:51\""\t"100"\t""\t"0"\t"\"$image:0:0:\|\;\""\t"\"\""\t"\"\""\t"\",\""\t"\",\""\t"\"\""\t"\"\""\t"0"\t"\"15758222730\""\t"15758222730
 classtable = {
17 "536187477" : "票据打印机" ,
18 "536187478" : "针式打印机" ,
19 "536187479" : "投影灯泡" ,
20 "536187480" : "条形码打印机" ,
21 "536187481" : "条码设备" ,
22 "536187483" : "证卡打印机" ,
23 "536187484" : "激光打印机" ,
24 "536187485" : "多功能一体机" ,
25 "536187486" : "喷墨打印机" ,
26 "536187615" : "复印复合机" ,
27 "536187616" : "硒鼓" ,
28 }

python处理html的table标签的更多相关文章

  1. python 之 前端开发(form标签、单选框、多选框、file上传文件、按钮、label标签、下拉列表、textarea标签、fieldset标签、table标签)

    11.25 form标签 <!DOCTYPE html> <html lang="en"> <head> <meta charset=&q ...

  2. img、列表和table标签

    一.img图片 <body> <a href="https://www.fmtxt.com"> <img src="images/1.jpg ...

  3. ol,ul,dl,table标签的基本语法

    ol,ul,dl,table标签的基本语法 有序列表: 无序列表:                                  自定义列表: <ol> <ul> < ...

  4. HTML——表格table标签,tr或者td

    表格定义和用法 <tr> 标签定义 HTML 表格中的行. tr 元素包含一个或多个 th 或 td 元素. HTML 与 XHTML 之间的差异 在 HTML 4.01 中,tr 元素的 ...

  5. table标签

    table标签使我们最常用的的标签,在使用table标签时我们要注意一些其属性,早期我们经常使用table标签对其进行页面布局但是现在我们基本不再使用,由此可见table标签也是非常强大的一个工具. ...

  6. dl标签和table标签

    dl标签定义了一个定义列表 <html> <body> <h2>一个定义列表:</h2> <dl>   <dt>计算机</ ...

  7. PHP自学4——通过函数将数组数据输出到html的Table标签中(使用函数的例子)

    这一节其实说实话并没有什么干货,不过为了防止PO主的懒癌的复发,还是坚持放一点东西,即使是内容和长度都令人发指.这一节通过一个函数来实现将数组中的内容输出html的Table标签当中显示. 函数文件— ...

  8. PHP自学3——在html的<table>标签中显示用户提交表单

    为了更好地显示用户提交表单,本节将在上一节的基础上将读取的用户表单显示在html的<table>标签中,这一节将用到和数组有关的知识. 本节代码将从外部文件(.txt文件)中读取信息于指定 ...

  9. display:table标签来自动改变列宽 改变的同时table的整体宽度跟随变化

    发现公司里的所有分页功能都是通过display:talbe来实现的,但是用户最近说要让表格列宽可以拖动:所有我就寻找了好多的办法:网上找了很多的资料,但是都不是我要的效果因为他们都是列宽不改变要不就是 ...

随机推荐

  1. 《深入浅出WPF》笔记四

    1.WPF资源分布:数据库.资源文件.WPF对象资源.变量2.每个WPF的界面都具有一个名为Resources的属性,其类型为ResourceDictionary,以键值对的形式存储资源.3.检索资源 ...

  2. git之tag

    参考:git命令之git tag 给当前分支打标签 1.git tag //查看已有标签 2.创建本地标签 git tag tag_name  //创建标签  git tag -a v0.1.2 -m ...

  3. 开关WIFI脚本

    title wifi管理color A@echo on@echo ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~@echo 1.启用并设定虚拟WiFi网卡;@echo 2.开启无线网络; ...

  4. CentOS 6.5安装Apache

    1.Apache的特点 功能强大.配置简单.速度快.应用广泛.性能稳定可靠,并可做代理服务器或负载均衡来使用 2.Apache的应用场合 使用Apache运行静态HTML网页.图片(处理静态小文件能力 ...

  5. gc是什么,什么时候需要gc

    Java是由C++发展来的. 它摈弃了C++中一些繁琐容易出错的东西.其中有一条就是这个GC. 写C/C++程序,程序员定义了一个变量,就是在内存中开辟了一段相应的空间来存值.内存再大也是有限的,所以 ...

  6. tomcat JNDI 设置

    一.在Spring配置文件中的配置   <bean id="dataSource" class="org.springframework.jndi.JndiObje ...

  7. Maven生命周期和插件机制

    Maven中的一个非常重要的概念是生命周期和插件,这篇文章重点介绍下Maven的生命周期. Maven的生命周期是抽象的,具体的功能是有具体的插件来完成的,Maven有相当多的功能插件,以至于Mave ...

  8. Win7平台下React-Native开发之Android项目打包发布流程

    一.bundle文件 React-Native开发步骤中,有一个步骤是使用命令 react-native start 去启动一个基于Node.js的服务,名字为packager.这个packager的 ...

  9. Tomcat7优化配置

    导读 Tomcat在使用的过程中会遇到很多报错,有些是程序的报错,但还有一部分是tomcat本身的报错,我们可以通过优化tomcat的初始配置来提高tomcat的性能.Tomcat的优化主要体现在两方 ...

  10. html5的触摸事件

    1.触摸事件有哪些 touchstart,touchmove,touchend 2.分别什么时候触发 touchstart事件:当手指触摸屏幕时候触发,即使已经有一个手指放在屏幕上也会触发. touc ...