0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用pdf解析可以用來讀取PDF文件中字符串文本,圖片數(shù)據(jù)

jqYd_gh_7579151 ? 2018-02-03 15:59 ? 次閱讀

pdf解析可以用來讀取PDF文件中字符串文本,圖片數(shù)據(jù)。Apache PDFbox是一個(gè)開源的、基于Java的、支持PDF文檔生成的工具庫,它可以用于創(chuàng)建新的PDF文檔,修改現(xiàn)有的PDF文檔,還可以從PDF文檔中提取所需的內(nèi)容。Apache PDFBox還包含了數(shù)個(gè)命令行工具。

Apache PDFBox主要有以下特征:

PDF讀取、創(chuàng)建、打印、轉(zhuǎn)換、驗(yàn)證、合并分割等特征。

(1) 讀取文本數(shù)據(jù)

讀取文本并沒有特別需要說明的地方,就是獲取PDF文本起始頁,結(jié)束頁,通過getText函數(shù)直接獲取PDF的所有文本。

(2) 獲取PDF的中圖片

使用pdf解析可以用來讀取PDF文件中字符串文本,圖片數(shù)據(jù)

將獲取的PDF中圖片對(duì)象保存到另一個(gè)PDF中

此方法可以取出源PDF中圖片對(duì)象PDImageXObject,然后可以對(duì)該對(duì)象進(jìn)行相關(guān)處理,本代碼實(shí)現(xiàn)了將提取出來的每一個(gè)圖片對(duì)象,插入到一個(gè)空白的PDF文檔中。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7026

    瀏覽量

    89024
  • 字符串
    +關(guān)注

    關(guān)注

    1

    文章

    579

    瀏覽量

    20513
  • PDF
    PDF
    +關(guān)注

    關(guān)注

    1

    文章

    168

    瀏覽量

    33698

原文標(biāo)題:PDF解析思路

文章出處:【微信號(hào):gh_757915171cb5,微信公眾號(hào):FPGA自學(xué)筆記】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    labview字符串操作和文件IO課件

    情況下,往磁盤上存儲(chǔ)的數(shù)字型數(shù)據(jù)也要求是字符串格式。文件作用:在磁盤上保存數(shù)據(jù)、文檔、程序、表格、圖片等。常用
    發(fā)表于 03-09 13:50

    怎么把圖片jpg轉(zhuǎn)換成pdf文件

    `  當(dāng)大家想在文章插圖的時(shí)候,往往都會(huì)在網(wǎng)上下載很多的圖片,但日積月累儲(chǔ)存的圖片越來越多,根本就不知道想要的圖片哪一張,這該怎么辦呢,其實(shí)只需要把
    發(fā)表于 10-26 15:49

    實(shí)例解析Java字符串內(nèi)存管理方法

    應(yīng)用服務(wù)器運(yùn)行過程,約40%的活躍堆空間被用來保存字符串數(shù)據(jù)[2]。 通過對(duì)Java字符串
    發(fā)表于 10-27 10:20 ?1次下載
    實(shí)例<b class='flag-5'>解析</b>Java<b class='flag-5'>字符串</b>內(nèi)存管理方法

    strings命令:用于打印文件可打印字符串

    ? 1.命令簡(jiǎn)介 strings 命令是二進(jìn)制工具集 GNU Binutils 的一員,用于打印文件可打印字符串文件可以
    的頭像 發(fā)表于 02-02 13:53 ?3028次閱讀
    strings命令:用于打印<b class='flag-5'>文件</b><b class='flag-5'>中</b>可打印<b class='flag-5'>字符串</b>

    strtok拆分字符串

    大家好,我是驚覺,今天聊聊字符串。字符串的使用場(chǎng)景非常之多,人機(jī)交互和雙機(jī)通信都會(huì)用到。比如:通過串口向單片機(jī)發(fā)送指令,以執(zhí)行操作或配置參數(shù)。單片機(jī)讀取傳感器數(shù)據(jù)
    發(fā)表于 01-13 15:46 ?8次下載
    strtok拆分<b class='flag-5'>字符串</b>

    python的數(shù)字與字符串相互轉(zhuǎn)換

    經(jīng)常在處理文本時(shí),比如memory初始化文件,或者解析log數(shù)據(jù)做運(yùn)算時(shí),會(huì)用到字符串轉(zhuǎn)數(shù)字
    的頭像 發(fā)表于 03-29 15:05 ?3926次閱讀
    python的數(shù)字與<b class='flag-5'>字符串</b>相互轉(zhuǎn)換

    C語言總結(jié)_字符串全方位練習(xí)

    C語言字符串全方位練習(xí),涉及知識(shí)點(diǎn):字符串解析、大小寫判斷、字符串插入、字符串刪除、字符串排序、
    的頭像 發(fā)表于 08-14 09:41 ?1502次閱讀

    C語言-字符串處理

    字符串在C語言里使用非常多,因?yàn)楹芏?b class='flag-5'>數(shù)據(jù)處理都是文本,也就是字符串,特別是設(shè)備交互、web網(wǎng)頁交互返回的幾乎都是文本數(shù)據(jù)。 這篇文章就介紹
    的頭像 發(fā)表于 08-14 10:05 ?1760次閱讀

    淺析python字符串模式匹配

    python字符串可以通過re模塊的模式匹配來處理文本
    的頭像 發(fā)表于 02-23 15:04 ?2330次閱讀

    字符串的相關(guān)知識(shí)

    TCL 數(shù)據(jù)類型只有一種:字符串。這些字符串可以是字母、數(shù)字、布爾值、標(biāo)點(diǎn)符號(hào)等特殊字符的組
    的頭像 發(fā)表于 03-29 11:41 ?1152次閱讀

    python文件讀取

    . 讀取文件末尾,會(huì)返回空字符串 readline() : 讀取一行內(nèi)容作為結(jié)果返回 讀取文件
    的頭像 發(fā)表于 06-21 17:23 ?1328次閱讀
    python<b class='flag-5'>文件</b>的<b class='flag-5'>讀取</b>

    mysql字符串包含某個(gè)字符串

    將詳盡、詳實(shí)、細(xì)致地探討MySQL字符串包含的實(shí)現(xiàn)方法。 在MySQL,可以通過使用內(nèi)建函數(shù)和通配符來實(shí)現(xiàn)字符串包含的操作。下面將詳細(xì)介
    的頭像 發(fā)表于 11-16 14:52 ?3821次閱讀

    linux搜索文件里的字符串

    在Linux系統(tǒng),我們可以使用各種方法來搜索文件字符串。在本文中,我將為您詳細(xì)介紹幾種常用的方法和工具。讓我們開始吧! grep命令
    的頭像 發(fā)表于 11-23 10:20 ?1539次閱讀

    c語言字符串定義

    C語言是一種強(qiáng)大而廣泛使用的編程語言,字符串是其中一個(gè)非常重要的概念。在C語言中,字符串是由一系列字符組成的數(shù)組,它可以表示文本、數(shù)字等各種
    的頭像 發(fā)表于 11-24 10:02 ?1952次閱讀

    labview掃描字符串怎么用

    LabVIEW是一種圖形化編程語言,用于開發(fā)控制、測(cè)量和監(jiān)控系統(tǒng)。雖然它主要用于工程和科學(xué)領(lǐng)域,但也可以用于處理文本字符串。 在LabVIEW,
    的頭像 發(fā)表于 12-26 16:58 ?1995次閱讀