哈佛把十億篇美國報紙文章通通電子化啦！

postman · 2023年09月03日13:46

事件

作者（ 鄭紹鈺 ）臉書分享：

我們在哈佛的實驗室，最近釋出了一個全新的「十億級」的文字資料集，原始文本來自1780-1960年美國公有領域的歷史報紙。

透過我們開發的各種深度學習工具，我們提供了超高精準度的電子化文字（已經OCRed），所以這是已經結構並電子化的文字資料集！

重點是------我們 開源釋出這資料到Hugging Face 上，以利全世界的人都可以利用！

說明

這計劃的原始影像資料來自美國國會圖書館的Chronicling America檔案庫，我們利用深度學習工具，先是識別了約2,000萬份報紙掃描檔上的11.4億個內容塊，接下來針對標題、文章、作者署名和相關圖片說明。

經由我們特殊的「高效率字母識別模型（EfficientOCR）」來處理成電腦可識別的文字（aka 新細明體或 Times New Roman)。該資料集包含了 4.38 億份已經被賦予結構的報紙文本。

我們也把所有的 Pipeline 開源到 GitHub。我們還創建了開源 Package - LayoutParser 和 EfficientOCR，以幫助研究者可以用上類似的流程來電子化自己有興趣的文本。

這份資料可以協助研究者理解過去美國的歷史變遷，比方說，我們便利用了客製化的Constrasively Trained Contexulized Embeddings，偵測出來了美國歷年來最流行的新聞題目，我們也利用了 Supervised Topic Classifier，從這些新聞資料整理出了許多重要的變數，可以用作未來經濟研究的迴歸分析。

總結

我們釋出了一個十億集的文字資料，是可以用來理解美國過去百年發展最好的資料。
我們釋出了相關的流程跟套件。如果你有想要親自電子化的文檔，也可以從我們的開源工具進一步發展出自己的Pipeline。
一切都是免費跟開源的。
幫老闆感謝一下金主：Harvard Data Science Initiative, Catalyst, and Griffin Fund and MS Azure

資料來源

鄭紹鈺臉書

Hugging Face

GitHub

arXiv

ChrisWei · 2023年09月05日13:10

真棒的 Model~