隨著大流行的爆發(fā),未達到最低閱讀水平的兒童數(shù)量呈指數(shù)增長。這推動了預測文本可讀性的研究,因為在設備上閱讀已經(jīng)取代了傳統(tǒng)形式。評估閱讀交互關(guān)于讀者如何滾動閱讀文本的潛力可以深入了解閱讀特定文本時的理解水平。這種參數(shù)評估對于為低水平讀者和新語言學習者設計教育應用程序很重要。
谷歌在 CoNLL 2021 上的演講提供了 518 名參與者的調(diào)查結(jié)果,以調(diào)查滾動行為與文本可讀性之間的關(guān)系。通過開源數(shù)據(jù)集,研究表明,根據(jù)文本級別,讀者與文本的交互方式存在很大差異。這些措施可用于預測文本可讀性、影響閱讀交互的讀者背景以及增加文本難度的因素。
該研究最具挑戰(zhàn)性的方面之一是分析哪些滾動行為受文本復雜性的影響最大。在閱讀多個文本的每個參與者和閱讀相同文本的多個參與者的多個測量點上使用線性混合效應模型。該模型得出結(jié)論,讀者交互的差異取決于文本的復雜性,而忽略了其他隨機效應。當添加速度、加速度和回歸作為機器學習算法的輸入時,支持向量機會根據(jù)讀者的滾動模式預測文本是高級的還是初級的。分析模型準確性的指標是使用 f-score 完成的,1.0 反映了完美的分類準確性。使用交互特征預測可讀性的 f 分數(shù)的初始結(jié)果為 0。
為了提高可讀性模型, 更多交互功能包括在內(nèi),這將該模型的 f 分數(shù)從 0.84 提高到 0.88。除此之外,該模型可以通過使用將 f 分數(shù)提高到 0.96 的詞匯特征來顯著優(yōu)于系統(tǒng)。但重要的是要真正詢問參與者對他們所讀內(nèi)容的理解程度。滾動行為的交互特征表示為高維向量,并且使用 t 分布的隨機鄰居嵌入繪制每個參與者的數(shù)據(jù)。t-SNE 是一種可視化高維數(shù)據(jù)的統(tǒng)計方法。該圖顯示了二維滾動交互的 t-SNE 投影。圖上的顏色表示可以評估的理解分數(shù)。
在統(tǒng)計模型之后,研究延伸到了解不同受眾之間的閱讀互動。比較是在平均滾動速度和讀者的第一語言之間進行的。可以清楚地看到,速度分布隨著觀眾的熟練程度和第一語言而變化。由此得出結(jié)論,第一語言和熟練程度可以影響受眾的閱讀行為。直方圖上的線條顯示了每組的趨勢。較高的平均滾動速度表明較快的閱讀時間,這意味著復雜的文本對應于高級讀者較慢??的滾動速度,這與初學者在表面上與文本交互時較高的滾動速度相關(guān)。
這標志著第一項研究表明閱讀交互(滾動行為)可用于預測文本可讀性。
審核編輯:郭婷
-
機器學習
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132845
發(fā)布評論請先 登錄
相關(guān)推薦
評論