文档理解-layoutxlm-layoutlmv3

本文围绕layoutxlm和layoutlmv3模型开展文档理解实验。指出这两个模型较敏感、不稳定,对lr要求在2e - 5至5e - 5。与BERT - base相比新增image - embedding和bbox位置embedding,更适配表单理解类NLP任务。在实际文档分类任务中,其效果不如bert - base,还给出了源码及参考链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文档理解-layoutxlm-layoutlmv3-实验

一、总结-summary

  • layoutxlm/layoutlmv3模型比较敏感, 不怎么稳定, 尤其是对lr很敏感, 2e-5至5e-5;
  • layoutxlm/layoutlmv3与BERT-base等相比, 相当于新增image-embedding, bbox的四个位置embedding;
  • 个人感觉比较适配表单理解类任务(xfusd), 不怎么适合目标检测等其他细粒度的任务, 更多的还是偏向于NLP任务, image-embedding聊胜于无;
  • 在自己的一个实际文档分类任务中, bert-base的f1都有95%左右, layoutxlm精调结果才90%左右(还很不稳定), 或许是因为(ocr不一样?);
  • (?)使用yolo系列 + bert自己融合或许还比layoutlm系列效果要好, 尤其是细粒度的文档任务;
  • 源码地址为:https://github.com/yongzhuo/layoutlmv3-layoutxlm-chinese

二、layoutxlm-embedding-简单使用


  python tet_embedding.py
  

三、layoutxlm文档分类-简单使用


划分数据集(已完成): python tet_corpus_split.py
训练: python tet_train.py
预测: python tet_pred.py

纯bert-base对比
训练: python tet_bert_train.py
预测: python tet_bert_pred.py

四、环境要求与安装

详见README_env.md

五、reference

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值