哈佛把十億篇美國報紙文章通通電子化啦!

事件

作者( 鄭紹鈺 )臉書分享:

我們在哈佛的實驗室,最近釋出了一個全新的「十億級」的文字資料集,原始文本來自1780-1960年美國公有領域的歷史報紙。

透過我們開發的各種深度學習工具,我們提供了超高精準度的電子化文字(已經OCRed),所以這是已經結構並電子化的文字資料集!

重點是------我們 開源釋出這資料到Hugging Face 上,以利全世界的人都可以利用!


說明

這計劃的原始影像資料來自美國國會圖書館的Chronicling America檔案庫,我們利用深度學習工具,先是識別了約2,000萬份報紙掃描檔上的11.4億個內容塊,接下來針對標題、文章、作者署名和相關圖片說明。

經由我們特殊的「高效率字母識別模型(EfficientOCR)」來處理成電腦可識別的文字(aka 新細明體或 Times New Roman)。該資料集包含了 4.38 億份已經被賦予結構的報紙文本。

我們也把所有的 Pipeline 開源到 GitHub。我們還創建了開源 Package - LayoutParser 和 EfficientOCR,以幫助研究者可以用上類似的流程來電子化自己有興趣的文本。

這份資料可以協助研究者理解過去美國的歷史變遷,比方說,我們便利用了客製化的Constrasively Trained Contexulized Embeddings,偵測出來了美國歷年來最流行的新聞題目,我們也利用了 Supervised Topic Classifier,從這些新聞資料整理出了許多重要的變數,可以用作未來經濟研究的迴歸分析


總結

  1. 我們釋出了一個十億集的文字資料,是可以用來理解美國過去百年發展最好的資料。

  2. 我們釋出了相關的流程跟套件。如果你有想要親自電子化的文檔,也可以從我們的開源工具進一步發展出自己的Pipeline。

  3. 一切都是免費跟開源的。

  4. 幫老闆感謝一下金主:Harvard Data Science Initiative, Catalyst, and Griffin Fund and MS Azure


資料來源

鄭紹鈺 臉書

Hugging Face

GitHub

arXiv

真棒的 Model~