微调 TrOCR – 训练 TrOCR 识别弯曲文本 - 代码天地

微调 TrOCR – 训练 TrOCR 识别弯曲文本

企业开发 2023-09-12 05:36:29 阅读次数: 0

TrOCR（基于 Transformer 的光学字符识别）模型是性能最佳的 OCR 模型之一。在我们之前的文章中，我们分析了它们在单行打印和手写文本上的表现。然而，与任何其他深度学习模型一样，它们也有其局限性。TrOCR 在处理开箱即用的弯曲文本时表现不佳。本文将通过在弯曲文本数据集上微调 TrOCR 模型，使 TrOCR 系列更进一步。

图 1. 微调 TrOCR

从上一篇文章中我们知道TrOCR无法识别弯曲和垂直图像上的文本。这些图像是 SCUT-CTW1500 数据集的一部分。我们将在此数据集上训练 TrOCR 模型，并再次运行推理来分析结果。这将使我们全面了解针对不同用例可以将 TrOCR 模型的边界拓展到什么程度。

我们将使用 Hugging Face Trainer API 来训练模型。要完成整个过程，必须遵循以下步骤：

猜你喜欢

转载自blog.csdn.net/tianqiquan/article/details/132787887

微调 TrOCR – 训练 TrOCR 识别弯曲文本

TrOCR – 基于 Transformer 的 OCR 入门

TrOCR – 基于 Transformer 的 OCR 入门指南

预训练与微调的区别

EMA训练微调

训练过程--fineturn微调

keras 模型微调与迁移训练

chatgpt的模型训练和微调

微调预训练的 NLP 模型

Pytorch使用BERT预训练模型微调文本分类，IMDb电影评论数据集

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[文本问答]

使用预训练语言模型进行文本生成的常用微调策略

【动手学深度学习Pycharm实现9】微调：通过预训练实现热狗识别

NLP中的语言模型预训练&微调

使用训练好的caffemodel进行微调

CNN基础三：预训练模型的微调

Bert模型预训练和微调

使用huggingface微调预训练模型

微调预训练模型huggingface，transformers

[迁移学习]预训练和微调

训练自己的ChatGPT-OpenAI 微调模型

resnet预训练模型以及微调

pytorch识别CIFAR10：训练ResNet-34（微调网络，准确率提升到85%）

paddleocr文本识别模型的训练

特征层次分析、视觉特征语义探索（微调+预训练）

基于GoogLeNet的不同花分类微调训练案例

深度学习中预训练和微调的个人理解

18.6使用官方的slim训练模型并finetune微调

YOLACT/YOLACT++安装测试与微调训练

预训练(pre-training/trained)与微调(fine-tuning)

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)