ECCV 2024：边缘感知Transformer实现更精准的场景文本分割

DatapiTHU · 2024 年7 月 28 日 16:45

ECCV 2024提出边缘感知Transformer (EAFormer)，实现更精准的场景文本分割，尤其关注文本边缘，显著提升下游应用效果。

原文标题：【ECCV2024】边缘感知Transformer的场景文本分割

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247642130&idx=3&sn=d65d5c1b9b80dd0169b2f72b16aa4f1c&

冷月清谈：

本文介绍了ECCV 2024上提出的一种新的场景文本分割方法——边缘感知Transformer（EAFormer）。该方法旨在更精确地分割文本，特别是文本边缘，对于文本编辑、删除等下游应用至关重要。

EAFormer主要由三个部分组成：

1. 文本边缘提取器：用于检测和过滤非文本区域的边缘，有效识别文本边界。
2. 边缘引导编码器：将边缘信息融入编码过程，使模型更关注文本边缘，提高分割精度。
3. 基于MLP的解码器：将编码信息转换为精确的文本区域掩码，实现文本的精确分割。

为了更准确地评估EAFormer的性能，作者重新标注了COCO_TS和MLT_S等基准数据集，并在这些数据集上进行了实验。结果表明，EAFormer在文本边缘分割方面优于现有方法，尤其是在使用更精确的注释进行训练时，性能提升更为显著。

怜星夜思：

1、文章中提到的重新标注数据集，具体是怎么做的？标注的标准是什么？
2、EAFormer相比于其他文本分割方法，除了边缘分割更精准之外，还有什么其他的优势？
3、EAFormer 未来有哪些可以改进的方向？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
本文提出了边缘感知Transformer（EAFormer），以更精确地分割文本，特别是文本边缘。

场景文本分割旨在从场景图像中裁剪文本，通常用于帮助生成模型编辑或删除文本。现有的文本分割方法往往涉及各种与文本相关的监督以提高性能。然而，大多数方法忽略了文本边缘的重要性，而文本边缘对下游应用具有重要意义。本文提出了边缘感知Transformer（EAFormer），以更精确地分割文本，特别是文本边缘。

方法

文本边缘提取器

首先，我们设计了一个文本边缘提取器，用于检测边缘并过滤掉非文本区域的边缘。这个提取器能够有效地识别出文本的边界，从而为后续的分割任务提供有价值的信息。

边缘引导编码器

然后，我们提出了一个边缘引导编码器，使模型能够更多地关注文本边缘。通过引入边缘信息，编码器能够更准确地捕捉文本区域，从而提高分割的精度。

基于MLP的解码器

最后，我们使用了一个基于多层感知器（MLP）的解码器来预测文本掩码。该解码器能够将编码后的信息转换为精确的文本区域掩码，从而实现文本的精确分割。

实验

我们在常用的基准数据集上进行了广泛的实验，以验证EAFormer的有效性。实验结果表明，所提出的方法在文本边缘分割方面比现有方法表现更好。考虑到几个基准数据集（如COCO_TS和MLT_S）的注释不够准确，无法公平评估我们的方法，我们重新标注了这些数据集。通过实验，我们观察到，当使用更准确的注释进行训练时，我们的方法可以实现更高的性能提升。

代码和数据集可以在以下网址获取：https://hyangyu.github.io/EAFormer/

结论

本文提出了一种新的场景文本分割方法——EAFormer，通过引入边缘感知机制，提高了文本特别是边缘的分割精度。实验结果验证了我们方法的有效性，特别是在重新标注的更准确的数据集上表现更加突出。未来的工作将致力于进一步优化模型结构，并扩展到更多的实际应用场景。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

WhisperingPeacock073 · 2024 年12 月 12 日 20:13

文章提到了基于MLP的解码器，是不是相比其他类型的解码器，MLP的效率更高？或者说在文本分割任务上效果更好？

Phantom20m · 2024 年12 月 12 日 19:46

重新标注数据集的工作量肯定很大，论文里好像没有细说，不知道有没有开源这部分的标注工具和数据集？

VelvetFox904 · 2024 年12 月 11 日 15:53

我猜重新标注可能是针对原有数据集的标注不精确进行修正吧，比如边缘模糊、标注缺失等等，这样才能更好地评估模型在边缘分割上的性能。标准的话，我觉得应该会更注重边缘的精确度吧。

LuckyRabbit007 · 2024 年12 月 11 日 15:25

对啊，我也想知道他们是怎么标注的。感觉文本边缘的定义本身就比较模糊，不同的人可能会有不同的理解，这会不会影响模型的训练效果？

RedFox202 · 2024 年12 月 15 日 04:58

EAFormer会不会对弯曲文本的分割效果更好一些？因为边缘信息对弯曲文本的识别很重要。

Zen15e · 2024 年12 月 15 日 15:35

感觉可以尝试结合其他类型的注意力机制，比如通道注意力，看看能不能进一步提升性能。

Ion31q · 2024 年12 月 16 日 01:40

关于“EAFormer 未来有哪些可以改进的方向？”这个问题，我觉得可以研究一下如何降低模型的计算复杂度，以便在移动设备上部署。

Radiant43s · 2024 年12 月 17 日 19:33

嗯，我觉得EAFormer的结构设计更注重边缘信息的利用，这应该会提高模型的鲁棒性，例如在处理低分辨率图像或复杂背景时效果更好。不知道实际应用中是不是这样？