摘要:在人工智能領域,會議論文是證明研究人員學術水平的重要一環。 是否存在一些「技巧」可以提高論文被大會接收的機率? 人工智能是否可以幫助我們? 近日,來自卡耐基梅隆大學(CMU)研究者們收集了上萬篇
AI頂級會
在人工智能領域,會議論文是證明研究人員學術水平的重要一環。 是否存在一些「技巧」可以提高論文被大會接收的機率? 人工智能是否可以幫助我們? 近日,來自卡耐基梅隆大學(CMU)研究者們收集了上萬篇
AI 頂級會議的接收/被拒論文,並使用機器學習工具進行分析,獲得了一些有趣的結果。 最後,當然……這一研究的論文已經被即將在 6 月 1
日於美國舉行的自然語言處理頂會 NAACL 2018 接收。
項目地址:https://github.com/allenai/PeerRead
簡介
權威的科學會議利用同行評審來決定要將哪些論文列入其期刊或會議記錄。 雖然這一過程似乎對科學出版物至關重要,但其往往也飽受爭議。 意識到同行評審的重要影響,一些研究人員研究了這一過程中的各個方面,包括一致性、偏差、作者回應和一般評審質量
(Greaves 等,2006;Greaves 等,2011;De Silva and Vance, 2017)。 例如,NIPS 2014
會議的組織者將 10%
的會議提交論文分配給兩組不同的審查人員,以衡量同行評審過程的一致性,並觀察到兩個委員會對超過四分之一的論文接受/拒絕決定意見不一樣
(Langford and Guzdial, 2015)。
儘管已經有了這些努力,但是關於同行評審的定量研究還是有限的,很大程度上是由於只有很少的人能夠接觸到一個學術活動的同行評審(例如期刊編輯和程序主席)。 本文的目的是通過首次引入一個用於研究目的的同行評審公共數據集:
PeerRead,來降低科學界研究同行評審的障礙。
在此論文中,我們使用三種策略來構建數據集:
( i ) 與會議主席、會議管理系統協作,允許作者和評審人分別選擇其論文草稿和同行評審。 ( ii )
抓取公開的同行評審,並用數字評分對文本評審進行標註,如「清晰度」和「影響」。 (iii) 對與重要會議提交日期一致的 arXiv
提交論文進行編目,並在以後的會議記錄中檢查是否出現類似論文。 總的來說,該數據集由 14700 篇論文草稿和相應的「接受/拒稿」決定組成,其中
3000 篇論文包含專家撰寫的 10700 條文本評論。 此外,我們將定期發布 PeerRead,為每年新的學術活動增加更多的內容。
PeerRead
數據集可以以多種方式使用。 對同行評審的定量分析可以提供見解,幫助更好地理解 (且可能改進)
評審過程的各種細微差別。 例如,在該論文的第三部分中,我們分析了總體推薦分數與單個方面分數 (例如清晰度、影響和原創性)
之間的相關性,並量化了口頭演示推薦評論與海報推薦評論有何不同。 其他的樣本可能包括匹配評論分數與作者,以揭示性別或國籍偏差。 從教學角度來看,PeerRead
數據集還為經驗不足的作者和首次審稿人提供了不同的同行評審實例。
表
1: PeerRead 數據集。 Asp. 代表評審是否具有特定方面的得分(例如清晰度)。 注意,ICLR 包括由標註者給出的不同方面的得分(詳見
2.4 部分)。 Acc/Rej 一列表示接受/拒絕的論文比例。 需要注意,NIPS 僅僅提供了被接受的論文的評審意見。
作為一個自然語言處理資源,同行評審是個有趣的挑戰,無論是從語義情感分析領域還是文本生成領域,前者前者預測被評審論文的不同屬性,例如清晰度和原創性,後者則是在給定 一篇論文的情況下,自動地生成它的評審意見。 在被以足夠高的質量解決時,這種類型的
NLP 任務也許會在評審過程中幫助審稿人、區域主席以及程序主席,例如,通過為某些論文投稿減少所需的審稿人數量。
在第四部分中,我們基於這個數據集引入了兩個新的
NLP 任務:(i) 預測一篇論文是否會被某個學術會議接受,(ii)預測論文在某些方面的數字得分。 我們的結果顯示:在 PeerRead
的四個不同部分中,與大多數全部拒絕(reject-all) 基線相比,我們能夠以誤差減小 6–21%de
的結果預測「接受/拒稿」決策結果。 由於我們使用的基線模型相當簡單,因此有足夠的空間來開發更強的模型以做出更好的預測。
論文接受分類
論文接受分類是一個二分類任務:給定一篇論文草稿,預測在一組預定的學術會議中它將會被接受還是拒稿。
模型:
我們訓練一個二值分類器來為一篇論文預測「接受/拒稿」的概率,也就是:P(accept=True |
paper)。 我們用不同類型的分類器做了實驗:logistic 回歸、使用線性核或者 RBF 核的
SVM、隨機森林、最近鄰、決策樹、多層感知機、AdaBoost
以及樸素貝葉斯。 我們使用了人工設計的特徵,而不是神經網絡模型,因為人工特徵易於解釋。
表 5: 接受分類的測試準確率。 在所有的案例中,我們的最佳模型超越了大多數分類器。
我們使用了 22 個粗略的特徵,例如標題長度,專門的術語(例如「深度」和「神經」)是否出現在摘要中,以及稀疏和密集的詞彙特徵。
實驗設置:我們使用
PeerRead 數據集中的 ICLR 2017 和 arXiv 部分來做實驗。 我們為每一個 arXiv 類別訓練了獨立的模型:例如
cs.cl,cs.lg,以及 cs.ai。 我們的所有模型都使用 python 的 sklearn 實現 (Pedregosa et al.,
2011)。 我們考慮了支持向量機和 logistic 回歸的不同正則化參數(所有超參數的詳細描述參見附錄
A.1)。 我們使用了標準的測試拆分,並且在訓練集上使用了 5 重交叉驗證。
結果:
表 5 展示了我們在論文接受準確率上的測試準確率。 在所有的例子中,我們的最佳模型都以大於 22%
的誤差率優勢超過大部分分類器。 不過,由於我們的模型在評價給定論文所做工作的質量方面缺乏成熟性,所以這可能意味著我們定義的一些特徵與某些強有力的論文,或者有偏差的審稿人的判斷相關。
我們對數據集中的
ICLR 和 arXiv 部分進行了控制變量研究。 為了簡化分析,我們為 arXiv 中的三種類別訓練了一個模型。 表 6
展示了當我們移除了其中的一個特徵的時候,最佳模型的測試中準確率的絕對下降。 該表顯示,一些特徵對分類決策有著很大的貢獻:例如增加一個附錄,大量的定理或公式,引文前的文本的平均長度,本文提交前五年內發表的論文數量,ICLR
的論文摘要中是否包含「最先進的技術(state of the art)」,或者 arXiv
的摘要中是否包含術語「神經(neural)」,以及標題的長度。
表 6: 當我們從完整的模型中僅僅移除一個特徵的時候,論文接收預測任務的絕對準確率的差別。
圖中具有較大負差別的特徵更加顯著,研究人員僅僅顯示了每個部分最顯著的
6 個特徵。 分別是:num_X:即 X
的數量(例如定理或者公式),avg_len_ref:引用前的文本平均長度,附錄:文章是否包含附錄,abstractX:摘要是否包含術語
X,num_uniq_words:唯一單詞的數量,num_refmentions:提及的參考文獻的數量,以及
#recent_refs:近五年內發表的參考文獻的數量。
圖 1:PeerRead 測試集上預測任務的均方差(RMSE, 越小越好):左側– ACL 2017,右側:ICLR 2017。
結論
我們的實驗表明,論文的某些屬性與較高的接收率正相關,例如包含附錄。 我們希望其他研究人員能夠發現新的我們還沒有在這個數據集中的同行評審中探索到的機會。 一個具體的例子就是,研究接受/拒絕的決定是否反映了對作者的人口偏見 (例如國籍) 將是有意義的。
論文:一個同行評審數據集(PeerRead):集合、洞見以及自然語言處理應用
論文鏈接:https://arxiv.org/abs/1804.09635
同行評審是科學文獻出版過程中的重要組成部分。 在本研究中,我們提出了第一個可用於研究目的的科學文獻同行評審公共數據集
( PeerRead v1 ),該數據集為研究這一重要的現象提供了機會。 該數據集由 1 萬 4 千 700 份論文草稿,以及包括
ACL、NIPS 和 ICLR 在內的頂級學術活動對應的接受/拒稿決定組成。 數據集還包括專家為論文子集撰寫的 1 萬零 700
份文本同行評審。 我們描述了數據收集過程,並提供了在同行評審中觀察到的有趣現象。 我們在此基礎上提出了兩個新穎的 NLP
任務,並給出了簡單的基線模型。 在第一個任務中,我們展示了簡單的模型可以預測一篇論文是否被接受,與大多數基線模型相比,誤差減少了 21
%。 在第二個任務中,我們預測了評審方面的數值分數,結果表明,對於諸如「原創性」和「影響」的高方差方面,簡單模型可以優於平均基線。
版權聲明
本文僅代表作者觀點,不代表百度立場。
本文係作者授權百度百家發表,未經許可,不得轉載。