alfresco install in linux, and integrated with tesseract ocr

本文描述在Linux系统上安装Alfresco的步骤：

1. 下载安装文件:alfresco-community-5.0.d-installer-linux-x64.bin

2. 增加执行权限并执行：

chmod +x alfresco-community-5.0.d-installer-linux-x64.bin

./alfresco-community-5.0.d-installer-linux-x64.bin

3. 选择安装过程中语言:

   Please select the installation language

   [1] English - English

   [2] French - Français

   [3] Spanish - Español

   [4] Italian - Italiano

   [5] German - Deutsch

   [6] Japanese - 日本語

   Please choose an option [1] :

4. 输入安装目录

   Installation folder

   Please choose a folder to install Alfresco Community (Evaluation Use Only)

   Select a folder [/opt/alfresco-5.0.d]:

5. 输入管理员(admin)的密码

   Admin Password

   Please give a password to use for the Alfresco administrator account.

   Admin Password: :

6. 重复密码,输入Y,继续安装

7. 安装提示，继续安装，直到完成

8. 访问:

http://127.0.0.1:8080/share

Create a file extension, named ocr-transform-context.xml into /tomcat/shared/classes/alfresco/extenssion with the following content:
```
<?xml version='1.0' encoding='UTF-8'?>
```

    <!DOCTYPE beans PUBLIC '-//SPRING//DTD BEAN//EN''http://www.springframework.org/dtd/spring-beans.dtd'>

 

    <beans>

        <bean id="transformer.worker.ocr.tiff"class="org.alfresco.repo.content.transform.RuntimeExecutableContentTransformerWorker">

 

            <property name="mimetypeService">

                <ref bean="mimetypeService"/>

            </property>

 

              <property name="checkCommand">

                 <bean class="org.alfresco.util.exec.RuntimeExec">

                    <property name="commandsAndArguments">

                        <map>

                            <entry key=".*">

                                <list>

    <!--<value>tesseract</value>-->

                                    <value>/opt/alfresco/ocr</value>

                                </list>

                            </entry>

                        </map>

                    </property>

                    <property name="errorCodes">

                       <value>2</value>

                    </property>

                 </bean>

              </property>

 

              <property name="transformCommand">

                 <bean class="org.alfresco.util.exec.RuntimeExec">

                    <property name="commandsAndArguments">

                        <map>

                            <entry key=".*">

                                <list>

    <!--<value>tesseract</value>

                                    <value>${source}</value>

                                    <value>${target}</value>

                                    <value>-l</value>

                                    <value>eng</value>-->

                                    <value>/opt/alfresco/ocr</value>

                                    <value>${source}</value>

                                    <value>${target}</value>

                                </list>

                            </entry>

                        </map>

                    </property>

                    <property name="errorCodes">

                       <value>1,2</value>

                    </property>

                 </bean>

              </property>

 

              <property name="explicitTransformations">

                 <list>

                    <bean class="org.alfresco.repo.content.transform.ExplictTransformationDetails">

                        <property name="sourceMimetype"><value>image/tiff</value></property>

                        <property name="targetMimetype"><value>text/plain</value></property>

                    </bean>

</list>
</property>

</bean>

<bean id="transformer.ocr.tiff"class="org.alfresco.repo.content.transform.ProxyContentTransformer" parent="baseContentTransformer">

            <property name="worker">

                <ref bean="transformer.worker.ocr.tiff"/>

            </property>

        </bean>

    </beans>

Create a bash file, named "ocr" and put into the alfresco root directory. And put it into /opt/alfresco.

    #!/bin/bash

    # save arguments to variables

    SOURCE=$1

    TARGET=$2

    TMPDIR=/tmp

    FILENAME=`basename $SOURCE`

    OCRFILE=$FILENAME.tif

    # to see what happens

    #echo "from $SOURCE to $TARGET" >>/tmp/ocrtransform.log

    cp -f $SOURCE $TMPDIR/$OCRFILE

    # call tesseract and redirect output to $TARGET

    tesseract $TMPDIR/$OCRFILE ${TARGET%\.*} -l eng

    rm -f $TMPDIR/$OCRFILE

alfresco install in linux, and integrated with tesseract ocr的更多相关文章

[VirtualBox] - Install Oracle Linux 7 on Oracle VirtualBox
I'll start coding with JEE soon. Product environment adopts Oracle + WebLogic in Linux, technology a ...
如何处理错误消息Please install the Linux kernel header files
Please install the Linux kernel "header" files matching the current kernel 当我启动minilkube时遇 ...
Tesseract OCR使用介绍
#Tesseract OCR使用介绍 ##目录[TOC] ##下载地址及介绍官网介绍:http://code.google.com/p/tesseract-ocr/wiki/TrainingTess ...
Tesseract Ocr引擎
Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...
Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...
tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
Tesseract——OCR图像识别入门篇
Tesseract——OCR图像识别入门篇最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
Docker install in Linux
install command sudo yum install -y yum-utils device-mapper-persistent-data lvm2 sudo yum-config-man ...

随机推荐

Java基础知识系列——String
最近晚上没有什么事(主要是不加班有单身),就复习了一下Java的基础知识.我复习Java基础知识主要是依据Java API和The Java™ Tutorials. 今天是第一篇,复习了一下Strin ...
神经网络（python源代码）
神经网络的逻辑应该都是熟知的了,在这里想说明一下交叉验证交叉验证方法: 看图大概就能理解了,大致就是先将数据集分成K份,对这K份中每一份都取不一样的比例数据进行训练和测试.得出K个误差,将这K个误差 ...
Chrome 自动填充的表单是淡黄色的背景，有方法自定义吗
input:-webkit-autofill { -webkit-box-shadow: 0 0 0px 1000px white inset; }
ubuntu 15 安装cuda，开启GPU加速
1 首先要开启GPU加速就要安装cuda.安装cuda,首先要安装英伟达的驱动.ubuntu有自带的开源驱动,首先要禁用nouveau.这儿要注意,虚拟机不能安装ubuntu驱动.VMWare下显卡只 ...
[问题]数据库MySQL和Navicat的乱码问题
计算机中存储字符需要使用编码集,早期有ASCII集,但是随着技术的发展,ASCII集不能满足需求,出现了越来越多的字符,比如中文字符等.后来又发展出了Unicode.GB2312.utf8等字符集.字 ...
【Debian】非法关机后无法联网 connect: network is unreachable
某一天,突然发现无法ssh登录虚拟机内的debian系统,一直认为是ssh的问题,然后无意间ping了ping百度,发现原来是debian系统没有联网....囧首先,是虚拟机的网络设置检查. 打开V ...
在linux中添加ftp用户，并设置相应的权限
在linux中添加ftp用户,并设置相应的权限,操作步骤如下: 1.环境:ftp为vsftp.被限制用户名为test.被限制路径为/home/test 2.建用户:在root用户下: useradd ...
iazq更新网址
[版本:1.1] [介绍:哈哈(ಡωಡ)hiahiahia 新版软件试试去和哥哥刚放学噢噢噢天然呆翡翠城] [链接:http://info.3g.qq.com/g/s?aid=index&g_ ...
Docker-3:Data Volume
Sometimes, applications need to share access to data or persist data after a container is deleted. ...
Linux CPAN Perl 模块安装
当我们想使用某些Perl模块的时候,很可能会遇到当前系统不存在这个模块的情况,这时我们可以通过使用CPAN来对相应的模块进行获取,下面就介绍一下CPAN的使用方法.首先,我们可以用perl -e 'u ...

alfresco install in linux, and integrated with tesseract ocr

alfresco install in linux, and integrated with tesseract ocr的更多相关文章

随机推荐

热门专题