法国研究人员发布 14,636 叶光谱数据集,推进葡萄致命病害的早期检测工作

2025年 12月 17日

2020-2024 年的开放数据旨在促进霞多丽葡萄园的自动识别,支持全球精准农业的努力

法国研究人员发布了一个全面的多年光谱数据集,旨在改进霞多丽葡萄园葡萄黄化病的检测。该数据集涵盖 2020 年至 2024 年,是在普卢梅科克(Plumecoq)的香槟委员会(Comité Champagne)实验基地和邻近地块收集的。它包括葡萄叶片的 14,636 个光谱,代表五个等级:健康、黄化(包括 Flavescence dorée 和 Bois noir)、卷叶病、埃斯卡病和变色。

葡萄黄化病是一组由植原体引起的病害,对全世界的葡萄园都构成了重大威胁。在欧洲,黄化病(FD)和黑斑病(BN)最为严重。这些病害会导致严重的症状,如叶片黄化和卷曲、嫩枝木质化不良、葡萄成熟不完全以及葡萄藤最终死亡。由于强制检疫措施和重新种植受影响葡萄藤的需要,对经济的影响很大。及早发现至关重要,因为受感染的葡萄树在出现明显症状前至少有一年的时间可以传播疾病。

霞多丽特别容易感染这些病害。霞多丽的症状往往与其他病症相似,如卷叶病(一种病毒性疾病)、埃斯卡病(一种真菌性木质病害),以及与营养缺乏或环境压力有关的各种变色。这种重叠使目测诊断变得困难和费力。要区分 FD 和 BN,通常需要进行 PCR 等实验室检测,但这些检测对于大规模葡萄园监测并不实用。

为了应对这些挑战,研究团队在每年 9 月或 10 月的采收期收集叶片光谱数据。叶片样本来自实验基地内的六个区域和邻近的一个采用不同管理方法的葡萄园。每株植物的叶片都取自顶端(顶部)和中间(中部)位置。样品被迅速运送到实验室,在实验室中使用带接触探头的 LabSpec® 4i ASD 光谱仪记录光谱。这种设置可在 350 纳米到 2500 纳米的波长范围内进行高分辨率测量。

该数据集捕捉了不同气候条件和植物检疫处理的年份之间的变化。例如,2020 年的叶片非常健康;2021 年降雨量大,处理后的残留物清晰可见;2022 年炎热干燥,叶片上出现褐色斑点;2023 年出现白粉病;2024 年出现霜霉病,导致叶片焦枯。

数据的初步分析包括对光谱进行 L2 归一化,以校正幅度差异,同时保留其形状。平均光谱显示,某些波长(尤其是 550 nm、730 nm、1400 nm、1900 nm 和 2200 nm 附近的波长)可能有助于区分等级。不过,黄化病、埃斯卡病和卷叶病在光谱上仍有很大的相似性。

主成分分析(PCA)用于降低数据的维度,以实现可视化和进一步分析。前三个主成分约占数据集总方差的 88%。PC1 受与含水量和细胞结构有关的波长的影响最大;PC2 捕获了与叶绿素等色素有关的变化;PC3 则突出了更微妙的变化,这些变化可能对检测早期症状或局部变色非常重要。

尽管有这些发现,但 PCA 预测结果显示不同类别之间存在相当大的重叠,这证明仅根据线性光谱特征很难区分不同类别。这突出表明需要更先进的算法或特征选择方法来提高分类的准确性。

完整的数据集可通过 Recherche Data Gouv 存储库公开获取(DOI: 10.57745/KPNOJL)。该数据集不仅包括光谱测量结果,还包括年份、区域、叶片位置和类别标签等元数据。为了支持可重现性和进一步研究,GitHub 上提供了 Jupyter Notebook 中的 Python 代码(https://github.com/zsr1997/Scientific-Data)。该代码允许用户访问、可视化和分析数据。

该数据集的发布有望加速利用光谱分析自动检测葡萄病害方法的研究。通过提供数年来在不同环境条件下收集的数据,该数据集为开发对年度变化或当地葡萄园实践不太敏感的模型奠定了坚实的基础。

展望未来,研究人员计划通过添加在受控条件下从相同地点采集的多光谱图像来扩展这一资源。将空间信息与光谱数据相结合,可以捕捉叶片的生化变化及其在植物上的空间分布,从而进一步改进病害检测模型。

这一举措反映了人们对精准农业工具的兴趣与日俱增,这些工具可以帮助葡萄园管理者比传统的目测检查更早、更准确地发现病害。通过开放数据和分析工具,全世界的研究人员都能为开发可扩展的解决方案做出贡献,从而保护葡萄园免受破坏性病害(如多丽花和黑布尔)的侵袭。