使用XPDF将PDF转换为HTML的实现步骤

1、下载xpdf最新版本,地址:http://www.foolabs.com/xpdf/download.html
我下载的是xpdf-3.02pl2-win32.zip
2、下载中文支持包
我下载的是xpdf-chinese-simplified.tar.gz
3、下载pdftohtml支持包
地址:http://sourceforge.net/projects/pdftohtml/
我下载的是:pdftohtml-0.39-win32.tar.gz
4、解压调试
1) 先将xpdf-3.02pl2-win32.zip解压,解压后的内容可根据需要进行删减,如果只需要转换为txt格式,其他的
exe文件可以删除,只保留pdftotext.exe,以此类推;
2) 然后将xpdf-chinese-simplified.tar.gz解压到刚才xpdf-3.02pl2-win32.zip的解压目录;
3) 将pdftohtml-0.39-win32.tar.gz解压,pdftohtml.exe解压到xpdf-3.02pl2-win32.zip的解压目录;
4) 目录结构:
+---[X:/xpdf]
|-------各种转换用到的exe文件
|
|-------xpdfrc
|
+------[X:/xpdf/xpdf-chinese-simplified]
|
http://www.javaeye.com/forums 1.6 Word/Excel/PDF文件转换成HTML整理
|
+-------很多转换时需要用到的字符文件
xpdfrc:此文件是用来声明转换字符集对应路径的文件
5) 修改xpdfrc文件(文件原名为sample-xpdfrc)
修改文件内容为:
#----- begin Chinese Simplified support package
cidToUnicode Adobe-GB1 xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 xpdf-chinese-simplified/CMap
toUnicodeDir xpdf-chinese-simplified/CMap
fontDir C:/WINDOWS/Fonts
displayCIDFontTT Adobe-GB1 C:/WINDOWS/Fonts/simhei.ttf
#----- end Chinese Simplified support package
6) 创建bat文件pdftohtml.bat(放置的路径不能包含空格)
内容为:
@echo off
set folderPath=%1
set filePath=%2
cd /d %folderPath%
pdftohtml -enc GBK %filePath%
exit
http://www.javaeye.com/forums 1.6 Word/Excel/PDF文件转换成HTML整理
7) 创建类
public class ConvertPdf
{
private static String INPUT_PATH;
private static String PROJECT_PATH;
public static void convertToHtml(String file, String project)
{
INPUT_PATH = file;
PROJECT_PATH = project;
if(checkContentType()==0)
{
toHtml();
}
}
private static int checkContentType()
{
String type = INPUT_PATH.substring(INPUT_PATH.lastIndexOf(".") + 1, INPUT_PATH.length())
.toLowerCase();
if (type.equals("pdf"))
return 0;
else
return 9;
}
private static void toHtml()
{
if(new File(INPUT_PATH).isFile())
{
try
{
String cmd = "cmd /c start X://pdftohtml.bat /"" + PROJECT_PATH + "/" http://www.javaeye.com/forums 1.6 Word/Excel/PDF文件转换成HTML整理
Runtime.getRuntime().exec(cmd);
}
catch (IOException e)
{
e.printStackTrace();
}
}
}
}
String cmd = "....";此处代码是调用创建的bat文件进行转换
8) 测试转换
public static void main(String[] args)
{
ConvertPdf.convertToHtml("C://test.pdf", "X://xpdf");
}

(0)

相关推荐

  • pdf转cad的操作步骤

    现在越来越的小伙伴开始使用cad软件了,在设计和制图的时候cad软件可以派上很大的用场的.可是要如何才可以将pdf转换为cad呢?pdf转换为cad的正确步骤是怎么样的呢? 操作方法 01 需要在电脑 ...

  • pdf文档如何转换成Word文档 使用iSkysoft PDF Editor将PDF转换为Word的方法

    iSkysoft PDF Editor是一款功能强大的PDF工具,软件为用户提供了PDF编辑.PDF转换.PDF创建.PDF合并等多种强大的功能,为用户提供了完善的PDF解决方案,而用户在处理PDF时 ...

  • 怎么通过金山pdf软件将文件的格式由pdf转换为ppt

    金山pdf作为一个高效的办公工具,可以将文件的格式在pdf与其他格式之间相互转化.接下来就由小编告诉大家将pdf格式文档转换为ppt的方法.具体如下:1. 第一步,打开浏览器搜索金山PDF,并进行下载 ...

  • 怎么通过金山pdf软件将文件的格式由pdf转换为纯文本

    金山pdf作为一个高效的办公工具,可以将文件的格式在pdf与其他格式之间相互转化.接下来就由小编来告诉大家怎么将pdf格式文档转换为纯文本文档.具体如下:1.第一步,打开浏览器搜索金山PDF,将安装包 ...

  • 如何把pdf转换为word文档

    将pdf文件转为word是常会遇到的一个操作,因为word文档的内容易用编辑,使用起来也方便.所以很多人会将pdf文档转为word格式,虽然方法有很多,但是通过不同途径转换出来的结果也是会有不同,与原 ...

  • pdf转换为Excel文档

    很多时候我们在网上下载的文档是pdf格式的,那么想在里面编辑就很麻烦了!很快你会想到如果他是Excel文档格式的该多好啊!那么现在小编就向大家提供一个简单的方法!把pdf文档转换为Excel格式! 操 ...

  • 如何免费完整地把 PDF 转换为 Word?

    在实际工作中,我们常常会遇到pdf格式的文件,对于这样的文件我们必须将其转换为word格式文件,才能对其进行编辑操作,下面我们就来看看如何将PDF转换为word的吧. 操作方法 01 我们在桌面上双击 ...

  • 如何把PDF转换为CAD?

    经常使用CAD的朋友都知道,CAD文件是有局限性的.为什么这么说呢,因为支持CAD文件的软件并不多.一般想查看CAD文件和对CAD文件进行编辑,要用到特定的CAD文件.下面小编介绍一种不用CAD软件就 ...

  • 如何将pdf转换成jpg pdf转jpg的详细步骤

    PDF文件不管是在Windows,Unix还是在苹果公司的Mac  OS操作系统中都是通用的.这一性能使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式.但是,有时候有的人又想 ...