從個體到群體:腦信號眾包讓情感分類性能持續提升的研究
瀏覽次數:261 發布日期:2025-11-7
來源:本站 僅供參考,謝絕轉載,否則責任自負
從個體到群體:腦信號眾包讓情感分類性能持續提升
引言/背景介紹
情感維度被認為是用戶體驗不可或缺的一部分。基于媒體內容引發的情緒對其進行標簽標注,是個性化內容推薦、有害信息規避等下游任務的核心支撐。理解建模和個性化這種體驗的一個關鍵方面是計算系統推斷數字信息可能引起的情感狀態的能力,并通過情感注釋將其與內容聯系起來。情感注釋的解決方案主要依靠手動注釋和基于內容分析,用戶可以標記他們的情感體驗。然而此方法僅適用于小場景(如社交媒體內個性化標注),用戶需主動交互,無法大規模擴展;且過分依賴文本 NLP 或圖像計算機視覺提取特征,僅關注內容本身,忽略人類對同一內容的差異化情感反應。
來自芬蘭赫爾辛基大學Tuukka Ruotsalo團隊在《IEEE Transactions on Affective Computing》發表了題為“Crowdsourcing Affective Annotations Via fNIRS-BCI”的研究性文章,本研究提出了一種通過在體驗時監控人類情感來隱含地獲得情感反應的方法(fNIRS-BCI 眾包情感標注方法)。通過功能性近紅外光譜(fNIRS)監測群體腦信號,被動獲取自然情感反應,聚合多用戶 “噪聲信號” 形成共識標注。
文章信息
研究方法
被試
31 名志愿者(本科生 / 研究生),排除 4 名數據波動異常者(仍納入機器學習分析);平均年齡31.4 歲(21-52 歲,SD=7.76);性別分布:15 男、11 女、5 非二元性別;視力正常 / 矯正正常,無精神疾病(無診斷、未服藥)。
實驗方法
刺激從國際情感圖片系統(IAPS)中取樣,按“效價(低 / 高)× 喚醒度(低 / 高)”分為 4 類:低效價 - 低喚醒度(LVLA)、低效價 - 高效價(LVHA)、高效價 - 低喚醒度(HVLA)、高效價 - 高喚醒度(HVHA)如圖1所示,從每個象限,參與者觀看隨機選擇的10張單獨的圖像。
使用Artinis Brite-24 fNIRS裝置記錄光密度數據,采集頻率為50HZ(如圖2)。參與者閱讀知情同意書并佩戴 fNIRS 設備,獲得了1分鐘的靜息狀態測量。正式實驗包含2個區塊,每區塊 20個試次,總試次 40次,每個試次都通過指導用戶仔細查看隨后呈現的圖像并自由地與其內容相關聯來開始。每個試次流程如下:
(1)指令:提示參與者仔細觀看圖像并自由聯想;
(2)基線:注視屏幕中央十字4秒(用于數據基線校正);
(3)刺激:呈現 14 秒實驗圖像;
(4)間隔:至少 0.1 秒的空白試次間間隔期內,將該試次的特定信息與生物信號數據進行同步
整個實驗大約需要45分鐘才能完成。
圖1. 位于效價和喚醒量表上的四個類別中刺激樣本的分布和示例。藍色為低價高喚醒(LVHA),綠色為高價高喚醒(HVHA),橙色為低價低喚醒(LVLA),紅色為高價低喚醒(HVLA)。示例圖像下面是它們的標簽和眾包圖像特定分類精度,N=8
圖2. fNIRS通道和二極管放置。該分析僅使用了用灰色圓圈突出顯示的通道,這些區域分為前部(A)和后部(P)額葉區域,并且每個半球通道分為外側(L)、中央(C)和內側(M)
數據準備
使用Artinis Brite-24 fNIRS裝置記錄光密度數據,采集頻率為50HZ(如圖2),首先采集1分鐘的靜息狀態。正式實驗包含2個區塊,每區塊 20個試次,總試次 40次,每個試次都通過指導用戶仔細查看隨后呈現的圖像并自由地與其內容相關聯來開始。對預處理后的HbO信號進行特征提取,將 12 秒刺激后 HbO 信號劃分為 3 個不重疊窗口,計算每個窗口的均值,最終每個 epoch 生成 72 維特征(24 通道 ×3 窗口)。
個體模型訓練
眾包模型的基礎是個體情感預測模型,需確保每個參與者的腦信號能有效映射到情感類別。實驗采用帶收縮正則化的線性判別分析(SLDA)模型,設置5類分類任務(直接分類/效價任務/喚醒度任務/高效喚醒度效價任務/低效喚醒度效價任務)對模型進行訓練,采用分層 k 折交叉驗證,構建每個參與者的模型對每個 epoch 輸出類別概率分布。
眾包聚合策略設計
眾包模型的核心在于通過合理聚合個體預測降低噪聲,提升整體精度。其步驟如下:
(1) 數據篩選:剔除有效參與者數 < 8 的圖片,最終保留 98 張圖片(平均每圖 11 個參與者數據),確保眾包聚合有足夠樣本支撐;
(2) 聚合邏輯:模擬 “逐步增加人群規模” 的過程,驗證人群大小對預測精度的影響,人群規模 N 取值 1-8;對每張圖片,從其對應的參與者池中放回抽樣,逐步增加參與者數量(從N=1迭代至8);采用軟投票,即對每個類別,計算當前人群中所有參與者預測概率的均值,選擇均值最大的類別作為眾包預測結果。
(3) 穩定性驗證:每張圖片重復上述抽樣 - 聚合過程 100 次,生成 100 組不同人群組合的預測結果,避免單次抽樣的隨機性干擾,最終獲得 98×100×8 組眾包預測數據(圖片數 × 重復次數 × 人群規模)。
性能驗證
通過統計分析驗證眾包模型的預測性能及人群規模的影響。構建隨機模型,將情感標簽隨機置換后訓練 SLDA 模型,作為性能基準。使用分類準確率、F1分數和統計顯著性對模型的性能進行驗證。
主要結果
神經成像效應(fNIRS 信號與情感的關聯)
該研究神經成像效應分析采用重復測量方差分析,以效價、喚醒度、半球及額葉區域為自變量,氧合血紅蛋白(HbO)和去氧血紅蛋白(HbR)濃度變化為因變量。圖 3 結果顯示:
HbO 信號核心效應:效價主效應顯著,低效價(低愉悅度)條件下 HbO 反應更負(F (1,26)=8.88,p=0.006);同時存在兩個顯著交互效應 ——“效價 × 半球 × 額葉區域” 及 “效價 × 額葉區域 × 喚醒度”,其中高喚醒度條件下,額葉前部的低效價與高效價反應差異更為突出。
HbR 信號核心效應:僅 “效價 × 半球 × 額葉區域” 交互效應顯著,表現為左額葉后部區域在低效價條件下 HbR 濃度升高更顯著(即 “反應更積極”)。
探索性分析結果:HbO 信號在左內側后額葉和右前外側額葉的情感反應最為明顯;效價對腦活動的調控作用強于喚醒度,且該差異主要體現在高喚醒度刺激條件下。
圖3. 情感刺激下fNIRS氧合血紅蛋白(HbO)反應。從上到下4行分別為:喚醒度效應:高喚醒度刺激與低喚醒度刺激的對比(HA-LA);效價效應:高效價刺激與低效價刺激的對比(HV-LV);高喚醒度條件下的效價效應:高喚醒度 - 高效價刺激與高喚醒度 - 低效價刺激的對比(HVHA-LVHA);低喚醒度條件下的效價效應:低喚醒度 - 高效價刺激與低喚醒度 - 低效價刺激的對比(HVLA-LVLA)
分類性能
個體模型性能(圖4):各任務平均準確率如下:4 類情感分類(LVLA/LVHA/HVLA/HVHA)為 0.40±0.02;二分類任務:效價分類(低/高)為 0.59±0.01,喚醒度分類(低/高)為 0.56±0.02;條件性分類任務:高喚醒度效價分類為 0.67±0.02,低喚醒度效價分類為 0.57±0.02。
經 100 次置換檢驗驗證,所有任務的個體模型準確率均顯著高于隨機模型(p=0.01),表明單參與者的 fNIRS 腦信號可有效解碼情感維度。
圖4. 4類預測任務中每個參與者的模型精度
眾包模型性能
該研究眾包模型以帶收縮正則化的線性判別分析(SLDA)為基礎,對 98 張 IAPS 圖像,通過帶放回抽樣構建 N=1-8 人群體,軟投票聚合預測(每圖重復 100 次)。結果顯示:所有任務準確率隨 N 增加顯著線性提升(β_N 均正,p<0.01),N=8 時最優,4 類分類 0.48、效價 0.67、喚醒度 0.63、高喚醒度效價 0.78、低喚醒度效價 0.63,F11趨勢一致;高喚醒度效價分類最優,LVHA 類圖像準確率 0.62,高喚醒度圖像準確率顯著高于低喚醒度(Mann-Whitney U=1515.5,p<0.05)。100 次置換檢驗表明模型準確率顯著高于隨機(p=0.01),Wilcoxon 檢驗顯示群體規模差異越大性能差異越顯著,眾包可抵消個體噪聲,提升標注可靠性(圖5、圖6和表1)。
注1: F1 分數是兼顧精確率(Precision) 和召回率(Recall) 的綜合評價指標,取值范圍為 0-1,分數越接近 1 表示模型分類性能越優。精確率:模型預測為某類的結果中,實際屬于該類的比例(避免 “誤判”);召回率:實際屬于某類的樣本中,被模型成功預測為該類的比例(避免 “漏判”)
圖5. 左上:作為人群規模函數的完整4類(低/高效價、低/高喚醒)的分類準確性。右上:具有不同人群規模的模型之間差異的統計顯著性(Benjamini-Hochberg調整)。中間行:高/低效價(左)和高/低喚醒(右)的分類精度。下圖:低喚醒效價(左)和高喚醒效價(右)的分類準確度。所有結果都顯示準確性是人群規模的函數。橙色線顯示了用隨機排列的標簽訓練的控制模型性能。誤差線表示準確度分數的標準偏差
圖6. 增加人群規模的效價分類中目標標簽的眾包預測分布(左上N=1,右上N=2,左下N=4,右下N=8)。預測概率隨著人群規模的增加而收斂
表1. 每項任務不同N的準確性和F1分數。所有預測任務的數據集幾乎是平衡的
在該研究的眾包情感分類實驗中,不同情感類別與圖像內容的分類準確率呈現出顯著差異。從類別差異來看,低效能 - 高喚醒度(LVHA)類圖像(如血腥、傷害類圖像)的平均分類準確率最高,達到 0.62,這一數值顯著高于其他三類圖像,其中高效能 - 高喚醒度(HVHA)類與低效能 - 低喚醒度(LVLA)類圖像準確率均為 0.45,高效能 - 低喚醒度(HVLA)類圖像準確率最低,僅為 0.38;進一步對比喚醒度維度發現,高喚醒度圖像整體準確率(0.62)顯著高于低喚醒度圖像。從內容差異來看,圖像標簽與分類準確率密切相關,標簽指向明確且能引發強烈情緒反應的圖像,如標注為 “血腥”(準確率 0.72)、“傷害”(準確率 0.68)以及 “暴力威脅”(準確率 0.55-0.56)的圖像,分類準確率普遍較高;而標簽含義模糊、難以明確界定情感傾向的圖像(如 “和平”,準確率 0.22),或標簽所對應內容可能橫跨多個情感類別的圖像(如 “動物”,準確率 0.33),分類準確率則明顯偏低。
結論與展望
本研究首次驗證了功能性近紅外光譜腦機接口(fNIRS-BCI)在眾包場景下用于情感標注的可行性,額葉 fNIRS 信號能有效攜帶情感信息(如效價與左內側后葉、右額外側葉活動相關),無需用戶額外身心交互,即可通過監測自然情感反應解碼圖像的效價與喚醒度維度。眾包模型分類性能隨參與者數量增加顯著線性提升,群體規模越小提升越明顯,僅需 8 名參與者即可實現較優效果 —4 類情感分類準確率達 0.48(隨機基準 0.25),高喚醒度效價分類準確率達 0.78(隨機基準 0.5),且預測概率分布隨群體規模擴大趨于穩定,證明眾包可有效抵消個體腦信號噪聲。未來可以對硬件進行優化,探索更少發射器 - 接收器的 fNIRS 設備,降低成本與使用門檻;嘗試表示學習、對比學習與數據增強,提升情感信號區分度;構建跨參與者統一模型,減少個體模型訓練成本。在真實場景(如網頁瀏覽、視頻觀看)中采集數據,驗證方法實用性;使用更貼近日常的刺激材料(如新聞圖像、短視頻)。
原文信息鏈接
Ruotsalo T, Mäkelä K, Spapé M. Crowdsourcing Affective Annotations Via fNIRS-BCI[J]. IEEE Transactions on Affective Computing, 2024, 15(1): 297-308.
DOI:10.1109/TAFFC.2023.3273916
作者及單位介紹
該文章的作者為Tuukka Ruotsalo、Kalle Mäkelä和Michiel Spapé。其中,Tuukka Ruotsalo就職于赫爾辛基大學計算機科學系,Kalle Mäkelä就職于赫爾辛基大學,Michiel Spapé就職于芬蘭赫爾辛基大學心理學和言語治療系。
關于維拓啟創
維拓啟創(北京)信息技術有限公司成立于2006年,是一家專注于腦科學、康復工程、人因工程、心理學、體育科學等領域的科研解決方案供應商。公司與國內外多所大學、研究機構、企業長期保持合作關系,致力于將優質的產品、先進的技術和服務帶給各個領域的科研工作者,為用戶提供有競爭力的方案和服務,協助用戶的科研工作,持續提升使用體驗。
相關產品
