歡迎光臨
每天分享高質量文章

Textricator:讓資料提取變得簡單 | Linux 中國

這個新的開源工具可以從 PDF 檔案中提取複雜的資料,而無需程式設計技能。
— Stephen Byrne


致謝
編譯自 | 
https://opensource.com/article/18/7/textricator
 
 作者 | Stephen Byrne
 譯者 | geekpi 共計翻譯:773 篇 貢獻時間:1743 天

這個新的開源工具可以從 PDF 檔案中提取複雜的資料,而無需程式設計技能。

你可能知道這種感覺:你請求得到資料並得到積極的響應,只打開電子郵件併發現一大堆附加的 PDF。資料——中斷。

我們理解你的挫敗感,併為此做了一些事情:讓我們介紹下 Textricator[1],這是我們的第一個開源產品。

我們是 “Measures for Justice”(MFJ),一個刑事司法研究和透明度組織。我們的使命是為整個司法系統從逮捕到定罪後提供資料透明度。我們透過制定一系列多達 32 項指標來實現這一標的,涵蓋每個縣的整個刑事司法系統。我們以多種方式獲取資料 —— 當然,所有這些都是合法的 —— 雖然許多州和縣機構都掌握資料,可以為我們提供 CSV 格式的高質量格式化資料,但這些資料通常捆綁在軟體中,沒有簡單的方法可以提取。PDF 報告是他們能提供的最佳報告。

開發者 Joe Hale 和 Stephen Byrne 在過去兩年中一直在開發 Textricator,它用來提取數萬頁資料供我們內部使用。Textricator 可以處理幾乎任何基於文字的 PDF 格式 —— 不僅僅是表格,還包括複雜的報表,其中包含從 Crystal Reports 等工具生成的文字和細節部分。只需告訴 Textricator 你要收集的欄位的屬性,它就會整理檔案,收集並寫出你的記錄。

不是軟體工程師?Textricator 不需要程式設計技巧。相反,使用者描述 PDF 的結構,Textricator 處理其餘部分。大多數使用者透過命令列執行它。但是,你可以使用基於瀏覽器的 GUI。

我們評估了其他很好的開源解決方案,如 Tabula[2],但它們無法處理我們需要抓取的一些 PDF 的結構。技術總監 Andrew Branch 說:“Textricator 既靈活又強大,縮短了我們花費大量時間處理大型資料集的時間。”

在 MFJ,我們致力於透明度和知識共享,其中包括向任何人提供我們的軟體,特別是那些試圖公開自由共享資料的人。Textricator 可以在 GitHub[3] 上找到,併在 GNU Affero 通用公共許可證第 3 版[4]下釋出。

你可以在我們的免費線上資料門戶[5]上檢視我們的工作成果,包括透過 Textricator 處理的資料。Textricator 是我們流程的重要組成部分,我們希望民間技術機構和政府組織都可以使用這個新工具解鎖更多資料。

如果你使用 Textricator,請告訴我們它如何幫助你解決資料問題。想要改進嗎?提交一個拉取請求。


via: https://opensource.com/article/18/7/textricator

作者:Stephen Byrne[7] 選題:lujun9972 譯者:geekpi 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出

贊(0)

分享創造快樂