PDF文本内容提取到TXT文件-叶海峰
Access软件网QQ交流学习群(群号码198465573),欢迎您的加入!
首页 >技术文章> Access数据库-模块/函数/VBA


PDF文本内容提取到TXT文件

发表时间:2011/10/8 9:40:10 评论(5) 浏览(12149)  评论 | 加入收藏 | 复制
   
摘 要:提取PDF文件的文本内容,并可以设定需要提取的页码翻页,生成为TXT文件
正 文:

点击下载此附件

 

      提取PDF文件的文本内容,需要引用Acrobat库,Acrobat7.0,9.0测试通过,大部分代码在网上收集回来,并非原创,如运行过程中出现ActiveX部件不能创建对象的提示,则有可能是Acrobat库引用失败,请重新安装完整版的Acrobat

 

Sub PdfToTxT()
    Dim MyPdf  As AcroPDDoc
    Dim MyPageHilite As AcroHiliteList
    Dim PageSelect As AcroPDTextSelect
    Dim i      As Integer
    Dim pdfdata As String
    Dim OpenResult, HiliteResult
    Dim pagenumber As Integer
    Dim myPDFPage As AcroPDPage
    Open "c:\1.txt" For Output As #1
    Set MyPdf = CreateObject("acroexch.pddoc")
    OpenResult = MyPdf.Open("c:\2007年半年报摘要.pdf")
    For pagenumber = 0 To MyPdf.GetNumPages - 1
        Set myPDFPage = MyPdf.AcquirePage(pagenumber)
        Set MyPageHilite = CreateObject("acroexch.hilitelist")
        HiliteResult = MyPageHilite.Add(0, 9000)
        Set PageSelect = myPDFPage.CreatePageHilite(MyPageHilite)
        For i = 0 To PageSelect.GetNumText - 1
            pdfdata = pdfdata & PageSelect.GetText(i)
        Next
        Print #1, pdfdata
        pdfdata = ""
        Set myPDFPage = Nothing
        Set MyPageHilite = Nothing
        Set PageSelect = Nothing
    Next
    Set MyPdf = Nothing
    Close #1
End Sub

 

点击图片查看大图


Access软件网交流QQ群(群号:198465573)
 
 相关文章
从身份证号中提取相关信息  【H  2010/1/7】
EXCEL提取数字类函数  【欢乐小爪  2011/9/25】
Excel带有分割符号数据的提取示例  【收藏示例  2011/10/31】
【杂草中找到药材】提取文本中的电话号码  【纵云梯  2012/5/15】
提取文本内算式 动画  【欢乐小爪  2012/12/21】
常见问答
技术分类
相关资源
文章搜索
关于作者

叶海峰

文章分类

文章存档

友情链接