自然语言处理中的数据增强 ——基于长短文本分类器的文本生成方法

ISSN:2705-0998(P)

EISSN:2705-0513(O)

语言:中文

作者
杨磊鑫
文章摘要
本研究提出了一种复杂的基于生成的文本数据增强方法,旨在提升低数据量环境下自然语言处理(NLP)任务的性能。我们的方法结合使用新的语言模式,以增加语法多样性,并通过特定转换手段人工制造训练数据,从而改进分类器性能。本文采用了两种子方法,分别针对长文本和短文本任务,以保持标签质量的同时提高数据的创新性。研究结果表明,相比无增强基线和其他数据增强技术,我们的方法能够显著提高准确率和F1分数,特别是在数据稀缺的场景下。此外,本研究还从实证、实践和理论多个角度评估了方法的适用性,并讨论了其在不同类型数据集上的成功应用。
文章关键词
文本数据增强;深度学习;自然语言处理
参考文献
[1] 周治.基于自然语言处理的社交媒体情感分析在公益慈善中的应用[J].科技传播,2024,16(01):1-4. [2] 张小川,陈盼盼,邢欣来等.一种建立在 GPT-2 模型上的数据增强方法[J/OL].智能系统学报,1-8[2024-03-02]. [3] 龚倩.自然语言处理技术在特检文本中的应用前景分析[J].西部特种设备,2023,6(06):49-52. [4] 苗育华,李格格,线岩团.融合标签关联的隐空间数据增强多标签文本分类方法[J].现代电子技术,2023,46(24):159-164. [5] 桂韬,奚志恒,郑锐等.基于深度学习的自然语言处理鲁棒性研究综述[J].计算机学报,2024,47(01):90-112. [6] 崔振新,张卓言.基于文本增强的民航安全信息自动分类[J].中国民航大学学报,2022,40(03):47-53+64. [7] Howard J,Ruder S.Universal language model fine-tuning for text classification[J].arXiv preprint arXiv:1801.06146,2018. [8] Wei J,Zou K.Eda:Easy data augmentation techniques for boosting performance on text classification tasks[J].arXiv preprint arXiv:1901.11196,2019. [9] Longpre S,Wang Y,DuBois C.How effective is task-agnostic data augmentation for pretrained transformers?[J].arXiv preprint arXiv:2010.01764,2020.
Full Text:
DOI