歡迎光臨
每天分享高質量文章

我用Python做了一份PDF報告!!!

來自:大鄧和他的Python(微訊號:DaDengAndHisPython)

Pandas非常善於處理大規模資料,支援將結果匯出到CSV,Excel,HTML,json等檔案中。 如果您想將 多種資訊(excel、圖片等)組合 到一個檔案中,那麼事情變得更加困難。今天我們介紹如何將excel更好看的輸出到pdf中,然後使用Jinja模板和WeasyPrint 再將其轉換為獨立的PDF檔案。

操作流程

使用Pandas將資料輸出到Excel檔案中的多個工作表或者用DataFrames建立多個Excel檔案非常方便。 但是,如果您想將 多種資訊(excel、圖片等)組合 輸出到一個檔案中,那麼直接從Pandas進行操作的方法並不多。 幸運的是,萬能的python大法有很多選項可以幫助我們。

在本文中,我將採用以下流程來建立多頁PDF檔案。

工具

我決定使用HTML作為模板語言,因為它可能是生成結構化資料最便捷的方法,支援各種格式資料(如圖片、excel表)。我也認為每個人都知道(或可以弄清楚)足夠的HTML知識來生成一個簡單的報告。

這個工作流程中最困難的部分是弄清楚如何將HTML呈現為PDF。我覺得還沒有最佳的解決方案,但我選擇了 WeasyPrint ,因為它仍然在積極維護,我發現我可以相對容易地使它工作。作為替代方案,我過去使用過xhtml2pdf,它的效果也很好,遺憾的是該庫缺乏檔案說明,但它已存在一段時間,並且確實可以從HTML生成PDF。

資料

如上所述,我們將使用之前文章中的相同資料集。 為了使這一切成為一個獨立的文章,下麵是我如何匯入資料,做描述性統計,及並生成關於CPU和軟體銷售的 資料透視表 

匯入模組,並讀入銷售渠道資訊。

import pandas as pddf = pd.read_excel('salesfunnel.xlsx')
df.head()

對資料做透視表

sales_report = pd.pivot_table(df, index=["Manager", "Rep", "Product"],                               values=["Price", "Quantity"],                              aggfunc=[np.sum, np.mean],                               fill_value=0)

sales_report.head()

模板

DataFrame擁有to_html()的方法,可以將dataframe資料轉化為含有HTML格式的字串。

但是隨著您的報告變得越來越複雜或您選擇將Jinja模板用於您的網路應用,jinja的這些功能將為您提供良好的服務。Jinja的另一個不錯的功能是它包含多個內建過濾器,這些過濾器允許我們以Pandas中難以做到的方式格式化我們的一些資料。

為了在我們的應用程式中使用Jinja,我們需要做三件事:

1. 建立一個模板2. 將變數新增到模板背景關係中3. 將模板渲染為HTML

這是一個非常簡單的模板,我們稱之為myreport.html:



<html>
<head lang="en">    <meta charset="UTF-8">    <title>{{ title }}
    title>
head>
<body>    <h2>Sales Funnel Report - Nationalh2>     {{ national_pivot_table }}
body>
html>

上面html程式碼中擁有 {{title}} 和 {{national_pivot_table }} 這兩個關鍵詞。這兩個關鍵詞用來接收需要渲染的資料,比如圖片物件、dataframe物件等。

要填充這些變數,我們需要建立一個Jinja環境並獲取我們的模板物件:

from jinja2 import Environment, FileSystemLoader

env = Environment(loader=FileSystemLoader('.'))

template = env.get_template('myreport.html')

在上面的示例中,我假設模板位於當前目錄中,但您可以將完整路徑放到模板位置。

另一個關鍵元件是 env 的建立。 這個變數是我們將資料(或物件)填充給模板的方式。 我們建立了一個名為 template_var 的字典,其中包含我們想要傳遞給模板的所有變數。

請註意變數的名稱如何與我們的模板匹配。即名稱要與myreport.html中的{{}}夾住的關鍵詞一樣。

template_vars = {"title" : "Sales Funnel Report - National",                 "national_pivot_table": sales_report.to_html()}

最後一步是將 template_vars 渲染到html模板中,並輸出為html字串,最終我們將使用該html字串來生成pdf報告。 

html_out = template.render(template_vars)

為簡潔起見,我不會顯示完整的HTML,但您應該明白這一點。

生成pdf

pdf報告的生成部分相當簡單,這裡用到weasyprint庫

from weasyprint import HTML
HTML(string=html_out).write_pdf("report.pdf")

但是開啟的pdf樣式很簡單,白底黑字並不美觀。之所以這樣是因為我們沒有使用自定義樣式表css,但是咱們不熟悉css,有一種簡單的辦法就是用成熟的css,這裡我用的typography.css 作為填充表格時的樣式表。這個css的優點有:

1. 相對較小且易於理解2. 可以在PDF引擎中執行而不會丟擲錯誤和警告3. 能讓表格表格看起來很美觀

讓我們嘗試使用我們更新的樣式表重新渲染它:

HTML(string=html_out).write_pdf('beautiful_report.pdf', stylesheets=["typography.css"])

添加了一個stylesheets引數就讓輸出結果瞬間變得高階大氣上檔次。關註Python程式設計,後臺回覆“0031”即可得到本專案程式碼。

    贊(0)

    分享創造快樂