图像理解和计算机视觉 | 浏览量 : 0 下载量: 10 CSCD: 0
  • 导出

  • 分享

  • 收藏

  • 专辑

    • 融合场景先验的船名文本检测方法

    • Ship name text detection method with scene priors fusion

    • 陈博伟

      123

      易尧华

      123

      汤梓伟

      123

      彭继兵

      134

      尹爱国

      34
    • 2024年29卷第10期 页码:3104-3115   

      纸质出版日期: 2024-10-16

    • DOI: 10.11834/jig.230564     

    移动端阅览

  • 引用

    阅读全文PDF

  • 陈博伟, 易尧华, 汤梓伟, 彭继兵, 尹爱国. 2024. 融合场景先验的船名文本检测方法. 中国图象图形学报, 29(10):3104-3115 DOI: 10.11834/jig.230564.
    Chen Bowei, Yi Yaohua, Tang Ziwei, Peng Jibing, Yin Aiguo. 2024. Ship name text detection method with scene priors fusion. Journal of Image and Graphics, 29(10):3104-3115 DOI: 10.11834/jig.230564.
  •  
  •  
    论文导航

    摘要

    目的

    船名文本信息是船舶身份识别的核心要素。真实场景船舶影像中文本区域尺度不一导致船名文本检测存在漏检等问题。同时,现有自然场景文本检测算法难以排除背景文本、图案等因素对船名检测任务的干扰。因此,针对以上问题提出一种融合场景先验的船名检测方法。

    方法

    首先,依据船首与船名目标关联性,提出一个基于先验损失的区域监督模块,以约束模型关注船名文本区域特征。然后,为了提高文本区域细粒度,提出一个基于非对称卷积的船名区域定位模块,增强文本区域边缘信息,进一步提高船名检测的召回率。

    结果

    本文收集、标注并公开发布了一个真实场景船名文本检测数据集CBWLZ2023进行实验验证,并与最新的8种通用自然场景文本检测方法进行比较。本文算法在船名文本检测任务上取得了94.2%的F1值,相比于性能第2的模型,F1值提高了2.3%;相比于基线模型,F1值提高了2.8%。同时在CBWLZ2023数据集中进行了参数分析实验及消融实验以验证算法各模块的有效性。实验结果证明提出的算法能准确获取边界清晰的文本区域,改善了船名文本检测的效果。

    结论

    本文提出的融合场景先验的船名检测模型,可以解决船名文本尺度不一、背景文本干扰带来的问题,在检测精度上超过了现有的场景文本检测算法,具有有效性与先进性。CBWLZ2023可由https://aistudio.baidu.com/aistudio/datasetdetail/224137获取。

    Abstract

    Objective

    Ships are the most important carriers of waterborne transportation, accounting for over two-thirds of global trade in goods transportation. Ship names, as one of the most crucial identification pieces of information for ships, possess uniqueness and distinctiveness, forming the core elements for intelligent ship identity recognition. Achieving ship name text detection is crucial in enhancing waterway traffic regulation and improving maritime transport safety. However, in real-world scenarios, given the variations in ship size and diverse ship types, the areas of ship name text regions differ, and the aspect ratio of ship name text varies greatly across different ship types, directly affecting the accuracy of ship name text detection and increasing the likelihood of missed detections. Additionally, during ship name text detection, various elements, such as background text and patterns in the scene, can introduce interference. Existing natural scene text detection algorithms do not completely eliminate these interference factors. Directly applying them to ship name text detection tasks may lead to poor algorithm robustness. Therefore, this study addresses the aforementioned issues and proposes a ship name detection method based on scene prior information.

    Method

    First, given that ship name text regions are usually fixed at the bow and two sides of the ship, this study proposes a region supervision module based on prior loss, which utilizes the correlation between the bow and the ship name text target. Through the classification and regression branches on the shared feature maps, prior information of the bow region is obtained, constructing a scene prior loss with bow correlation. During training, the model simultaneously learns the ship name text detection main task and the bow object detection auxiliary task and updates the network parameters through joint losses to constrain the model’s attention to the ship name text region features and eliminate background interference. Then, a ship name region localization module based on asymmetric convolution is further proposed to improve the granularity of text region localization. It achieves lateral connections between deep semantic information and shallow localization information by fusing feature layers with different scales between networks. On the basis of the additive property of convolution, three convolution kernels with sizes of 3 × 3, 3 × 1, and 1 × 3 are used to enhance the fused feature maps, balancing the weights of the kernel region features to enrich the text edge information. Finally, a differentiable binarization optimization is introduced to generate text boundaries and realize ship name text region localization. Given that no ship name text detection dataset is publicly available, this study constructs the CBWLZ2023 dataset, comprising 1 659 images of various types of ships, such as fishing vessels, passenger ships, cargo ships, and warships, captured in real-world scenes such as waterways and ports, featuring differences in background, ship poses, lighting, text attributes, and character sizes.

    Result

    To validate the effectiveness of the proposed algorithm, this study collected, annotated, and publicly released a real-world ship name text detection dataset CBWLZ2023 for experimental verification and compared it with eight state-of-the-art general natural scene text detection methods. Quantitative analysis results show that the proposed algorithm achieves an F-value of 94.2% in the ship name text detection task, representing a 2.3% improvement over the second-best-performing model. Moreover, ablation experiments demonstrate that the model’s F-value increases by 2.3% and 0.7% after incorporating the region supervision module based on prior loss and the ship name region localization module based on asymmetric convolution, respectively. The fused model’s F-value increases by 2.8%, confirming the effectiveness of each algorithm module. Qualitative analysis results indicate that the proposed algorithm exhibits stronger robustness than other methods in dealing with text of varying scales and background interference, accurately capturing text regions with clear boundaries and effectively reducing false positives and missed detections. Experimental results demonstrate that the proposed algorithm enhances ship name text detection performance.

    Conclusion

    This study proposes a ship name detection method based on scene prior information. The algorithm has two main advantages. First, it fully utilizes the strong correlation between the bow region of the ship and the ship name text region, suppressing the interference of background information in ship name detection tasks. Second, it integrates multiscale text feature information to enhance the robustness of multiscale text object detection. The proposed algorithm achieves higher detection accuracy than existing scene text detection algorithms on the CBWLZ2023 dataset, demonstrating its effectiveness and advancement. The CBWLZ2023 can be obtained from https://aistudio.baidu.com/aistudio/datasetdetail/224137.

    关键词

    船名文本检测; 场景先验损失; 区域监督; 特征增强; 非对称卷积

    Keywords

    ship name text detection; scene priori loss; regional supervision; feature enhancement; asymmetric convolution

    论文引用格式:Chen B W, Yi Y H, Tang Z W, Peng J B and Yin A G. 2024. Ship name text detection method with scene priors fusion. Journal of Image and Graphics, 29(10):3104-3115(引用格式:陈博伟, 易尧华, 汤梓伟, 彭继兵, 尹爱国. 2024. 融合场景先验的船名文本检测方法. 中国图象图形学报, 29(10):3104-3115)[

    0 引 言

    船名作为船舶唯一的身份标识信息,是船舶身份智能化识别的核心要素(

    钱江 等,2019隋远 等,2022),实现船名文本检测对于航道通航安全保护与航运智慧化具有重要意义(周怡 等,2021)。但是,相较于车牌、道路标识牌等文本实例(刘小宇 等,2023余烨 等,2021刘小溪 等,2023),真实场景下的船名文本具有以下特点:1)文本尺度不一。船名文本区域面积通常会随船体尺寸而变化,且不同船型中船名文本纵横比存在较大差异(Liu等,2017)。2)文本区域位置统一。依照《中华人民共和国船舶登记条例》,船名需在船首两舷处标明,船名文本区域较为固定。3)文本视角不一。在航道影像中,由于船舶航行姿态变换,船名文本在视角上存在一定差异(甘浪雄 等,2023丁东平和李海涛,2023Liu等,2017)。此外,自然环境下船舶图像分辨率低、背景文本干扰等问题也会直接影响船名文本检测准确率(Wu等,2023Huang等,2018)。

    近年来,神经网络模型广泛应用于自然场景文本检测任务(

    易尧华 等,2020)。受目标检测区域回归思想启发,Tian等人(2016)将文本行分为序列文本单元,引入循环神经网络实现长文本检测,但该方法对于非水平文本检测效果较差。Liao等人(2017)设计了一组不同比例的锚框,并采用旋转矩形作为锚框的回归目标,在6个不同尺度上检测旋转文字,可实现任意方向文本区域检测,但是锚框的设计会导致模型计算资源消耗的增加与推理速度的下降。Wang等人(2019)采用基于分割的方式提出PSENet(progressive scale expansion network ),利用不同尺度的卷积内核分割文本实例进行渐进尺度扩展。Liao等人(2020)提出的DBNet(differentiable binarization network)在PSENet的基础上加入可微二值化,在不损失推理速度的情况下提升模型分割精度。Zhang等人(2021)提出了TextBPN(text boundary proposal network),通过自适应边界变形模型从候选区域的先验信息中获得文本实例形状,直接有效地生成准确的文本边界。以上算法在自然场景通用文本检测数据集下取得了较为先进的结果,但是在船舶航行过程中,背景内的其他文本会对船名文本检测造成干扰(Liu等,2017Zhang等,2018)。现有自然场景文本检测算法难以排除干扰因素,直接将其应用于船名文本检测存在鲁棒性差等问题(刘崇宇 等,2021;白志程 等,2023;洪汉玉 等,2023)。

    目前,已有部分学者针对深度学习方法在船名文本检测任务中的应用展开研究。

    李兆桐和孙浩云(2019)基于全卷积神经网络提出了船牌文本检测算法PDNet,但是该算法召回率较低,存在漏检、误检等问题。吴书楷等人(2020)结合深度特征迁移与融合提出由船只检测网络和船牌定位网络构成的两阶段船牌定位算法,有效提高船名文本检测准确度,但是两阶段算法网络结构复杂,难以满足实时性检测需求(赵永强 等,2020)。Liu等人(2022)基于可变感受野特征增强策略及改进后的金字塔特征融合架构提出了船舶牌照检测识别算法SLPR(ship license plate recognition ),但是未充分考虑背景信息对文本检测的干扰。

    因此,本文针对真实场景下船名文本的特点,提出融合场景先验的船名文本检测方法(regional supervision-differentiable binarization network,RS-DBNet)。首先,为了使模型关注船名文本区域,提出了基于先验损失的区域监督模块,依据船首与船名文本目标的关联性,采用辅助学习策略(

    陈立潮 等,2020)设计船首区域检测辅助任务,利用场景先验损失优化船名文本区域定位。然后,进一步提出基于非对称卷积的船名区域定位模块,通过融合网络间尺度不一的特征图层实现深层语义信息与浅层定位信息的横向连接,并采用非对称卷积方法平衡卷积内核区域特征权重比例,以丰富文本边缘信息,最后引入可微分二值化实现船名文本区域定位。本文构建了真实场景船名文本检测数据集CBWLZ2023,通过实验分析验证了本文算法对提高船名文本检测精度的有效性。

    1 本文方法

    为提高船名定位准确率,本文以DBNet为基准方法,基于真实场景船名图像特点,提出融合场景先验的RS-DBNet模型。模型由主干特征提取网络、基于先验损失的区域监督模块和基于非对称卷积的船名区域定位模块构成,结构如图1所示。

    fig

    图1  RS-DBNet网络结构

    Fig.1  Network structure of RS-DBNet

    icon 下载:  原图 | 高精图 | 低精图

    主干特征提取网络将提取到的图像特征作为共享特征图层。基于先验损失的区域监督模块通过分类—回归子网络(classification-regression subnet,C-RS)对多层级特征图层进行区域回归处理,设计船首区域先验损失优化主干网络对关键区域特征的提取。基于非对称卷积的船名区域定位模块融合不同层次的特征图,采用非对称卷积实现多尺度长文本特征的增强,并通过可微二值化计算近似二值化图,输出船名文本位置坐标。

    1.1 主干特征提取网络

    主干网络以Resnet18+FPN(

    He等,2016Lin等,2017a)金字塔结构作为图像特征提取器,得到P1P2P3P4这4层不同尺度的特征图,主干网络结构如图2所示。本文基于区域监督模块和船名定位区域模块在目标特征区域的包含关系,在主干网络后设计并联子网络结构。将主干网络提取的特征作为共享特征图层输入两个模块分支,同步进行船首区域检测子任务和船名文本检测子任务训练,对主干特征提取网络进行联合优化。通过共享特征图层,在模块间建立隐式连接关系,船首区域先验作为辅助信息增强局部粒度特征,利用任务间的关联性引导特征提取器关注船名文本区域。

    fig

    图2  Resnet18+FPN网络结构

    Fig.2  Resnet18+FPN network structure

    icon 下载:  原图 | 高精图 | 低精图

    1.2 基于先验损失的区域监督模块

    本文依据船首目标区域与船名文本区域的强关联性,提出基于先验损失的区域监督模块(regional supervision module,RS),以排除图像中背景文本干扰。区域监督模块由4层C-RS子网络与场景先验损失组成。其中,每层子网络为平行检测结构,包含区域回归分支和分类分支,如图3所示。区域回归分支与分类分支结构相同,共享输入的特征图层,采用密集采样策略(

    Lin等,2017b),在特征金字塔上建立权值共享的全连接结构(金灵和张轶,2022),对共享特征图层上各级特征Pii =1,2,3,4)进行卷积过滤,得到对应船首目标分类信息D与区域信息R。计算为

    D=i=14f1[Conv2_x[Conv1_x(Pi)]] (1)
    R=i=14f2[Conv3_x[Conv1_x(Pi)]] (2)

    式中,Conv1_x表示4次通道数不变的3 × 3卷积组成的卷积层,Conv2_x表示1次通道数为9的3 × 3卷积,Conv3_x表示1次通道数为36的3 × 3卷积。分类分支通过维度变换f1将特征表示空间映射到目标类别空间,生成共享特征层内每个空间位置的船首目标分类信息D。回归分支采用类似结构,预测每个空间位置上候选区域与真实船首区域相对偏移量,得到区域信息R

    fig

    图3  C-RS网络结构

    Fig.3  Network structure of C-RS

    icon 下载:  原图 | 高精图 | 低精图

    通过上述结构得到的船首目标分类信息D与船首区域信息R构造具有船首关联的场景先验损失La。本文采用类似于RPN(region proposal network)(

    Ren等,2017)网络的回归方式,在每层特征图上预设9类不同尺度及纵横比的锚框,生成候选区域A。当候选区域与船首区域交并比大于0.5时,将该锚框视为正样本,并计算该候选区域与船首区域真值G的相对偏移量,具体计算为

    {dx, dy, dw, dh}=Gx-AxAw,Gy-AyAh,logGwAw,logGhAh (3)

    式中,GxGyGwGh分别表示船首区域真实边框中心点坐标、宽和高,AxAyAwAh为预设锚框中心点坐标、宽和高。结合区域信息R、分类信息D及相对偏移量,对候选区域进行回归优化,细化局部粒度特征,并计算场景先验损失La,具体为

    Lc=-α(1-pi)βlog(pi),piD (4)
    Lr=k{dx,dy,dw,dh}0.5(ki-vi)2   ki-vi<1ki-vi-0.5k-vi1viR (5)
    La=1NciLc(pi, pi*)+1NriLr(ki, vi) (6)

    式中,Lc为船首目标分类损失,pipi*分别为区域目标预测概率与真实标签分类概率,α为平衡正负样本在整体损失计算中所占比例的超参数,β为减少简单示例在损失计算中贡献值的超参数,本实验将αβ分别设为0.25和2,增强模型对复杂区域的监督。Lr为船首区域回归损失,vi表示区域信息R内各空间位置上候选框的预测偏移量,Nc表示目标类别数,Nr表示区域回归参数数量。

    1.3 基于非对称卷积的船名区域定位模块

    相较于一般对象实例,真实场景下船名文本具有显著不同的大小和纵横比变化,通常为长文本实例。而通用的N × N型方形卷积核无法均衡分配区域特征的权重比例,在纵横比变化剧烈的文本实例下,对文本边界的特征提取鲁棒性较差(

    Ding等,2019)。因此,本文提出基于非对称卷积的船名区域定位模块(ship name region localization module,SNRL),以丰富文本边缘信息。

    首先,根据不同尺度图层内所含语义信息及定位信息的差异性,将共享特征图层经上采样扩张至底层特征图尺寸,并级联生成融合特征图Fm。计算式为

    Fm=fup(Pi),i=1, 2, 3, 4 (7)

    式中,Pi为输入共享卷积图层各级特征(i = 1,2,3,4),fup表示以P4图层尺寸为目标的上采样操作。然后,本文利用3种不同的卷积核对Fm进行增强。3种卷积核的规格分别为3 × 3、1 × 3和3 × 1,根据卷积可加性原理进行特征叠加,以平衡边缘区域与中心区域特征权重,增强卷积层对旋转失真与目标纵横比变化的鲁棒性。计算式为

    Fa=ReLU[Conv3×3(Fm)+Conv3×1(Fm)+Conv1×3(Fm)] (8)

    式中,Conv3 × 1、Conv1 × 3表示卷积核分别为3 × 1、1 × 3的卷积层,Fa表示经特征增强后的特征图。对得到的特征图Fa进行卷积计算生成概率图P与阈值图S,计算为

    P=σ[T2(T1(Conv3×3(Fa))] (9)
    S=σ[U2(U1(Conv3×3(Fa))] (10)

    式中,T1T2分别表示输出通道C1不变及C1 = 1的转置卷积,U1U2分别表示输出通道C2不变及C2 = 1的上采样计算,σ表示sigmoid激活函数。

    为了优化文本边界生成,更准确地分离文本及背景区域,采用可微分二值化计算,联合概率图与阈值图生成近似二值图B。可微分二值化表达式为

    Bi,  j=11+e-k(Pi,  j-Si,  j) (11)

    式中,BijPijSij分别表示近似二值图、概率图、阈值图上(ij)位置处的值,k为放大因子。将具有自适应阈值的可微分二值化加入分割网络进行联合优化,获得边界效果更好的文本实例。

    最后,采用Vatti clipping算法对经恒定阈值(T =0.3)过滤后的近似二值图B进行区域扩展,生成文本框,扩展偏移系数D计算为

    D=A×rL (12)

    式中,A为收缩多边形面积,L为收缩多边形周长,r为经验参数。

    1.4 融合场景先验的联合损失

    为了约束模型在训练过程中关注船名文本区域,本文设计一种联合损失对网络结构进行优化。在RS-DBNet训练过程中,对船首区域检测任务与船名文本检测任务分别计算损失,并加权融合,联合损失Lm定义为

    Lm=μ×Lt+ν×La (13)
    Lt=Lp+ωLb+ζLs (14)
    Lp=Lb=iS yilogxi+(1-yi)log(1-xi) (15)
    Ls=iH yi*-xi* (16)

    式中,La表示场景先验损失函数,由区域监督模块计算得到(式(6)),Lt表示文本区域损失,由船名文本区域定位模块生成,包含概率图损失Lp、阈值图损失Ls及近似二值图损失Lbμ、ν、ω、ζ为经验参数,分别设为1、2、5、10。Ls采用平均绝对值误差方式,逐像素点计算阈值图与标签差值,LpLb采用二元交叉熵方式,按正样本∶负样本 = 1∶3的比例平衡数据样本,S为样本数据集,H为标签经过偏移量扩张后区域框。yi*xi*分别为阈值图像素值与标签像素值。

    在训练过程中,模型同步进行船名文本检测主任务与船首目标检测辅助任务学习,联合损失通过反向传播进行一致性优化。优化过程如图4所示,假定训练样本为{xiyiryis },yiryis分别对应船首区域及文本区域,且存在关系yis yir,则损失约束过程可表示为

    Lai(θf, θr, θs)=La(Fr(Ff(xi;θf);θr), yir) (17)
    Lti(θf, θr, θs)=Lt(Fs(Ff(xi;θf);θs), yis) (18)
    G(θf, θr, θs)=μni=1nLai(θf, θr, θs)+νni=1nLti(θf, θr, θs) (19)
    (θ^f, θ^s)=argminθf, θsG(θf, θr, θs) (20)

    式中,Ff (·;θf)表示主干特征提取函数,Fr(·;θr)表示船首区域预测函数,Fs(·;θs)表示文本区域预测函数,Gθfθrθs表示模型优化目标。文本区域损失Lt引导特征图层向船名文本区域收敛,优化船名文本区域定位。场景先验损失La在特征提取过程中约束模型关注船首区域特征,在区域回归阶段抑制背景噪声,基于船首目标与船名文本目标的强关联性,增强船名文本区域特征权重。

    fig

    图4  联合损失优化

    Fig.4  Joint loss optimization

    icon 下载:  原图 | 高精图 | 低精图

    2 实验结果分析

    2.1 数据集构建和模型训练细节

    为验证本文方法的有效性,采用自建真实场景船名文本检测数据集CBWLZ2023进行实验验证。CBWLZ2023数据集包含1 659幅航道、港口等自然场景下渔船、客船、货轮和舰船等各类船舶图像,样本示例如图5所示。数据集依据ICD-AR2015数据格式制作,按四边形样式对图像内目标区域进行标注,标签信息包含从左上角起顺时针排列的四角点位置坐标及区域类别信息,其中区域类别分为船名文本区域与船首区域。训练集、验证集及测试集按8∶1∶1划分。

    fig

    图5  数据集样本示例

    Fig.5  Examples of dataset samples

    ((a) multi-ships; (b) fishing vessels; (c) cargo ships; (d) cruising boats; (e) warships; (f) passenger ships)

    icon 下载:  原图 | 高精图 | 低精图

    为客观反映船舶真实状态,数据收集过程中考虑船舶多样性及图像角度变换等影响因素,每幅图像至少包含一个有效船名标识,在背景、船舶姿态和光线等环境方面与字符类别、字符尺寸等文本属性方面保持一定差异性。数据集地址为https://aistudio.baidu.com/aistudio/datasetdetail/224137

    本文选用Adam算法为模型优化器,学习率为0.001,幂为0.9,动量为0.9,权重衰减为 0.000 1,训练批尺寸为4,图像数据预处理尺寸为640 × 640像素,训练总轮数为200轮。为提高模型推理速度,保证船名文本检测实时性,本文提出的区域监督模块仅参与训练过程,优化模型网络参数。推理过程包含图像特征提取及船名区域定位模块。

    在船名文本检测的结果分析中,对于单个输出检测结果,本文基于PASCAL(pattern analysis,statistical modeling and computational learning)评价标准,计算船名文本检测结果矩形框与真实标签矩形框之间的交并比(intersection over union,IOU),若IOU > 0.5,则判定该检测结果矩形框为正样本(true positive),反之为负样本(false positive)。对于模型在整个数据集上的总体性能评价,本文选用F1分数(F1-measure)、精确率(precision,P)和召回率(recall,R)作为算法精度评价指标(

    梁浩然 等,2022)。

    2.2 对比实验

    为验证算法先进性,在相同的正样本阈值(IOU > 0.5)评价标准下,将本文方法与当前先进的通用自然场景文本检测方法在CBWLZ2023数据集上进行对比实验。各算法船名文本检测结果如表1所示。可以看出,在船名文本检测任务上,本文提出的RS-DBNet网络在F1分数上相较于其他算法存在明显优势。与基线算法DBNet相比,准确率P下降了0.3%,但召回率R提高了5.4%,F1分数提高了2.8%。与场景文本检测领域领先的TCM-DBNet算法相比,准确率P提升了4.8%,召回率R提升了1.3%,F1分数提升了3.0%,说明本文的区域监督模块与特征增强模块能充分结合先验区域特征和多尺度文本区域特征信息,有效提高船名检测质量。在推理速度上,本文提出的RS-DBNet网络在验证集上的FPS(frames per second )达到21.2帧/s,对于单幅图像的平均推理时间为4.7 ms,满足实时性检测基本需求。实验结果表明,本文算法可实现较为准确的船名文本检测效果,在F1分数上优于其他算法,同时保持较高的推理速度,具有一定先进性。

    表1  不同算法在CBWLZ2023数据集上的检测结果
    Table 1  Detection results of different algorithms on CBWLZ2023 dataset
    算法来源精确率召回率F1FPS/(帧/s)
    EAST(Zhou等,2017) CVPR2017 0.931 0.801 0.861 21.3
    PSENet(Wang等,2019) CVPR2019 0.936 0.842 0.886 4.2
    PANet(Liu等,2018) ICCV2019 0.917 0.876 0.896 25.9
    DBNet(Liao等,2020) AAAI2020 0.969 0.865 0.914 25.7
    FCENet(Zhu等,2021) CVPR2021 0.908 0.930 0.919 6.7
    TextPMS(Zhang等,2023) TPAMI 2022 0.898 0.849 0.873 2.9
    DBNetPP(Liao等,2023) TPAMI 2022 0.896 0.906 0.901 16.2
    TCM-DBNet(Yu等,2023) CVPR2023 0.918 0.906 0.912 18.6
    RS-DBNet* 本文* 0.966 0.919 0.942 21.2

    注:  加粗字体表示各列最优结果,*表示最佳网络。

    icon 下载:  CSV icon 下载:  表格图片

    图6为本文提出的RS-DBNet算法与FCENet、DBNetPP和TCM-DBNet算法在船名文本检测任务上的可视化结果。其中样例1、3中存在背景文本干扰,样例2中存在小尺度船名文本,样例4存在背景图案干扰。实验结果表明,FCENet等算法在船名文本检测中存在一定程度上的漏检、误检等问题。对于图像中存在船体信息文本、背景图案等干扰因素的情况,如样例3中,在缺少船首先验信息监督下,将背景文本“POLICE”误检为船名文本。对于小尺度船名文本检测,如样例2中,由于文本比例较小,FCENet算法存在漏检问题,TCM-DBNet算法存在文本行断裂问题,DBNetPP算法存在文本边缘细节模糊问题。比对分析结果表明,本文算法在船名文本检测任务上优于其他算法,对于文本尺度不一、背景信息干扰等问题鲁棒性较强,能准确获取边界清晰的文本区域,实现船名文本定位。

    fig

    图6  各算法船名文本检测可视化结果(左上角为局部细节放大)

    Fig.6  Visualization results of ship name text detection of each algorithm (local details zoomed in the upper left corner)

    ((a) original images; (b) FCENet; (c) DBNetPP; (d) TCM-DBNet; (e) RS-DBNet)

    icon 下载:  原图 | 高精图 | 低精图

    2.3 消融实验

    为分析RS-DBNet中区域监督模块(RS)和船名区域定位模块(SNRL)的作用,在相同的正样本阈值(IOU > 0.5)评价标准下,依次修改模型配置参数,比对船名文本检测效果差异,验证其有效性。实验结果如表2所示。为真实反映本文方法各模块有效性差异,图7展示了部分可视化结果。

    表2  不同配置下RS-DBNet模型消融实验结果
    Table 2  Ablation experimental results of RS-DBNet model under different configurations
    方法DBNetSNRLRS精确率召回率F1FPS/(帧/s)
    1 - - 0.969 0.865 0.914 25.7
    2 - 0.956 0.889 0.921 23.0
    3 - 0.972 0.904 0.937 23.7
    4* 0.966 0.919 0.942 21.2

    注:  加粗字体表示各列最优结果,*表示最佳网络,“√”表示采用,“-”表示未采用。

    icon 下载:  CSV icon 下载:  表格图片
    fig

    图7  消融实验结果

    Fig.7  Ablation experimental results

    ((a) example 1; (b) binarization images of example 1; (c) example 2; (d) binarization images of example 2)

    icon 下载:  原图 | 高精图 | 低精图

    本文分别基于区域监督模块和船名区域定位模块进行训练,表2中方法1和方法2的结果表明,引入船名区域定位模块后,F1分数提高了0.7%。虽然提高幅度较小,但是对比图7中第1行与第2行结果可看出,增强后的文本边缘信息更清晰,对于长形文本实例检测效果有明显提升。方法1与方法3的结果表明,在主干提取网络后加入区域监督模块后,F1分数提高了2.3%,由图7中第1行与第3行结果比对,说明区域监督模块能有效地通过隐式局部数据增强帮助模型关注特定区域表征信息,丰富文本区域的多层次特征。方法1与方法4的结果表明,在DBNet内同时加入区域监督模块和船名区域定位模块后,F1分数提高了2.8%,图7第4行可视化结果显示,融合后的模型性能有显著提升,区域监督模块和船名区域定位模块具有可兼容性,获得更完整、清晰的文本区域预测结果。在加入SNRL模块与RS模块后,网络的推理速度减少了 4.5 帧/s,但仍可适用于船名文本的实时性检测。本文提出的RS-DBNet与基线模型保持相近的推理速度,在仅增加少量推理成本的基础上优化船名文本检测结果。

    2.4 实验参数分析

    由于本文算法采用联合损失对网络结构进行优化,其中场景先验损失及文本定位损失参数设定是影响模型准确性的重要因素,因此本文针对μν的取值进行实验分析,实验结果如表3所示。

    表3  不同损失参数下RS-DBNet模型实验结果
    Table 3  Experimental results of RS-DBNet model under different loss parameters
    μν精确率召回率F1
    3 1 0.968 0.915 0.941
    2 1 0.964 0.914 0.939
    1 1 0.945 0.921 0.933
    1* 2* 0.966 0.919 0.942
    1 3 0.931 0.925 0.928

    注:  加粗字体表示各列最优结果,*表示最佳网络。

    icon 下载:  CSV icon 下载:  表格图片

    考虑到船首区域检测与文本检测任务相关性,避免单项损失权重过大对任务平衡性的干扰,采用μν = 3∶1、2∶1、1∶1、1∶2及1∶3进行实验。结果表明,随着场景先验损失权重的增加,文本召回率R总体呈上升趋势,但准确率P会有所下降,当μν = 1∶2时,F1值达到最大值94.2%。

    在生成船名文本边界框的过程中,采用恒定阈值T对近似二值化图像进行过滤,得到更准确的文本区域。本文针对T的取值进行实验分析,实验结果如表4所示。

    表4  不同恒定阈值下RS-DBNet模型实验结果
    Table 4  Experimental results of RS-DBNet model under different constant thresholds
    T精确率召回率F1
    0.20 0.966 0.904 0.934
    0.25 0.961 0.904 0.932
    0.30* 0.966 0.919 0.942
    0.35 0.941 0.921 0.931
    0.40 0.929 0.923 0.926

    注:  加粗字体表示各列最优结果,*表示最佳网络。

    icon 下载:  CSV icon 下载:  表格图片

    考虑到恒定阈值过低影响过滤效率,阈值过高对文本边界判断造成偏差,本文采用T = 0.20、0.25、0.30、0.35及0.40进行实验。结果表明,随着恒定阈值T的增加,文本召回率逐渐上升,准确率总体呈下降趋势,当T = 0.30时,F1值达到峰值。

    3 结 论

    本文提出了一种融合场景先验的船名文本检测算法。针对自然场景下背景文本干扰问题,依据船首与船名文本目标的关联性设计场景先验损失,提出了基于先验损失的区域监督模块,约束模型关注船名文本区域。针对自然场景下船名文本尺度不一造成的漏检问题,利用非对称卷积与可微分二值化构建船名区域定位模块,有效提高文本区域细粒度。此外,为了更好地开展船名文本检测研究,构建了一个真实场景船名文本检测数据集CBWLZ2023,在该数据集上实验结果表明,本文算法取得了94.2%的F1值,相较于其他算法,本文算法具有更高的检测精度,有效减少了误检和漏检的情况。

    本文算法在CBWLZ2023数据集上取得了较好的结果。但对于部分困难场景如雨雾天、夜间等尚未考虑在内。未来将针对以上场景对数据集不断进行扩展。同时,考虑到船舶所在场景的复杂性,将针对无监督船名文本检测进行研究,提高模型应用价值。

    参考文献(References)

    Bai Z CLi QChen P and Guo L Q. 2020. Text detection in natural scenes: a literature review. Chinese Journal of Engineering4211): 1433-1448 [百度学术] 

    白志程李擎陈鹏郭立晴. 2020. 自然场景文本检测技术研究综述. 工程科学学报4211): 1433-1448DOI: 10.13374/j.issn2095-9389.2020.03.24.002 [百度学术] 

    Chen L CXu X ZCao J F and Pan L H. 2020. Multi-scenario lane line detection with auxiliary loss. Journal of Image and Graphics259): 1882-1893 [百度学术] 

    陈立潮徐秀芝曹建芳潘理虎. 2020. 引入辅助损失的多场景车道线检测. 中国图象图形学报259): 1882-1893DOI: 10.11834/jig.190646 [百度学术] 

    Ding D P and Li H T. 2023. Detection and recognition of ship numbers based on DP-DBNet and MHA-CRNN. Computer Systems and Applications323): 209-216 [百度学术] 

    丁东平李海涛. 2023. 基于DP-DBNet和MHA-CRNN的船牌号检测与识别. 计算机系统应用323): 209-216DOI: 10.15888/j.cnki.csa.008972 [百度学术] 

    Ding X HGuo Y CDing G G and Han J G. 2019. ACNet: strengthening the kernel skeletons for powerful CNN via asymmetric convolution blocks//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South)IEEE: 1911-1920DOI: 10.1109/ICCV.2019.00200 [百度学术] 

    Gan L XWu J RXu H XFeng HZhang LShu Y Q and Zhang D F. 2023. A ship name detection method based on attention mechanism and feature enhancement. Journal of Wuhan University of Technology(Transportation Science and Engineering)475): 850-855 [百度学术] 

    甘浪雄吴金茹徐海祥冯辉张磊束亚清张东方. 2023. 基于注意力机制与特征增强的船名检测方法. 武汉理工大学学报(交通科学与工程版)475): 850-855DOI: 10.3963/j.issn.2095-3844.2023.05.014 [百度学术] 

    He K MZhang X YRen S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USAIEEE: 770-778DOI: 10.1109/CVPR.2016.90 [百度学术] 

    Hong H YChen B CMa L and Zhang B Y. 2023. Ship hull number detection and recognition under sparse samples. Journal of Image and Graphics284): 984-1003 [百度学术] 

    洪汉玉陈冰川马雷张必银. 2023. 稀疏样本条件下的舰船舷号检测与识别. 中国图象图形学报284): 984-1003DOI: 10.11834/jig.211167 [百度学术] 

    Huang S ZXu H SXia X Z and Zhang Y. 2018. End-to-end vessel plate number detection and recognition using deep convolutional neural networks and LSTMs//Proceedings of the 11th International Symposium on Computational Intelligence and Design. Hangzhou, ChinaIEEE: 195-199DOI: 10.1109/ISCID.2018.00051 [百度学术] 

    Jin L and Zhang Y. 2022. Scene text detection algorithm based on RetinaNet. Computer Applications and Software392): 201-207 [百度学术] 

    金灵张轶. 2022. 基于RetinaNet的场景文字检测算法. 计算机应用与软件392): 201-207DOI: 10.3969/j.issn.1000-386x.2022.02.033 [百度学术] 

    Li Z T and Sun H Y. 2019. A ship detection and plate recognition system based on FCN. Computer and Modernization, (12): 72-77. [百度学术] 

    李兆桐孙浩云. 2019. 基于全卷积神经网络的船舶检测和船牌识别系统. 计算机与现代化, (12): 72-77DOI: 10.3969/j.issn.1006-2475.2019.12.014 [百度学术] 

    Liang H RYe L CLiang R HChen L and Wu H. 2022. Text detection algorithm for natural scenes under attention supervision strategy. Journal of Computer-Aided Design and Computer Graphics347): 1011-1019 [百度学术] 

    梁浩然叶凌晨梁荣华陈龙吴昊. 2022. 注意力监督策略下的自然场景文本检测算法. 计算机辅助设计与图形学学报347): 1011-1019DOI: 10.3724/SP.J.1089.2022.19088 [百度学术] 

    Liao M HShi B GBai XWang X G and Liu W Y. 2017. TextBoxes: a fast text detector with a single deep neural network//Proceedings of the 31st AAAI Conference on Artificial Intelligence. Washington, USAAAAI Press: 4161-4167DOI: 10.1609/aaai.v31i1.11196 [百度学术] 

    Liao M HWan Z YYao CChen K and Bai X. 2020. Real-time scene text detection with differentiable binarization//Proceedings of the 34th AAAI Conference on Artificial Intelligence. Washington, USAAAAI Press: 11474-11481DOI: 10.1609/aaai.v34i07.6812 [百度学术] 

    Liao M HZou Z SWan Z YYao C and Bai X. 2023. Real-time scene text detection with differentiable binarization and adaptive scale fusion. IEEE Transactions on Pattern Analysis and Machine Intelligence451): 919-931DOI: 10.1109/TPAMI.2022.3155612 [百度学术] 

    Lin T YDoll􀅡r PGirshick RHe K MHariharan B and Belongie S. 2017a. Feature pyramid networks for object detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USAIEEE: 936-944DOI: 10.1109/CVPR.2017.106 [百度学术] 

    Lin T YGoyal PGirshick RHe K M and Doll􀅡r P. 2017b. Focal loss for dense object detection//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, ItalyIEEE: 2999-3007DOI: 10.1109/ICCV.2017.324 [百度学术] 

    Liu B LSheng JDun J YZhang S YHong Z J and Ye X Z. 2017. Locating various ship license numbers in the wild: an effective approach. IEEE Intelligent Transportation Systems Magazine94): 102-117DOI: 10.1109/mits.2017.2743168 [百度学术] 

    Liu C YChen X XLuo C JJin L WXue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics266): 1330-1367 [百度学术] 

    刘崇宇陈晓雪罗灿杰金连文薛洋刘禹良. 2021. 自然场景文本检测与识别的深度学习方法. 中国图象图形学报266): 1330-1367DOI: 10.11834/jig.210044 [百度学术] 

    Liu D KCao J WWang T LWu H HWang J ZTian J M and Xu F Y. 2022. SLPR: a deep learning based Chinese ship license plate recognition framework. IEEE Transactions on Intelligent Transportation Systems2312): 23831-23843DOI: 10.1109/TITS.2022.3196814 [百度学术] 

    Liu SQi LQin H FShi J P and Jia J Y. 2018. Path aggregation network for instance segmentation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USAIEEE: 8759-8768DOI: 10.1109/CVPR.2018.00913 [百度学术] 

    Liu X XCheng J CCheng Y MGu Y FLei X H and Wang B. 2023. Distance posts detection and character sequences recognition method in video images acquired from camera in moving vehicle. Computer Engineering and Applications598): 175-181 [百度学术] 

    刘小溪程佳诚程咏梅顾一凡雷鑫华汪波. 2023. 车载视频图像路牌检测与字符序列识别方法. 计算机工程与应用598): 175-181DOI: 10.3778/j.issn.1002-8331.2112-0246 [百度学术] 

    Liu X YChen H XLiu B YLin Y and Ma T. 2023. License plate detection algorithm in unrestricted scenes based on adaptive confidence threshold. Journal of Computer Applications431): 67-73 [百度学术] 

    刘小宇陈怀新刘壁源林英马腾. 2023. 自适应置信度阈值的非限制场景车牌检测算法. 计算机应用431): 67-73DOI: 10.11772/j.issn.1001-9081.2021111974 [百度学术] 

    Qian JZhang G RYao JJi J ZHe P and Gu S H. 2019. Vessel name location method based on maximally stable extremal regions and edge enhancement. Computer Applications and Software362): 264-268 [百度学术] 

    钱江张桂荣姚江季建中何平顾宋华. 2019. 最稳定极值区域与边缘增强的船名定位方法. 计算机应用与软件362): 264-268DOI: 10.3969/j.issn.1000-386x.2019.02.047 [百度学术] 

    Ren S QHe K MGirshick R and Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence396): 1137-1149DOI: 10.1109/TPAMI.2016.2577031 [百度学术] 

    Sui YDuan R and Zhu D L. 2022. Ship name matching method based on deep siamese network. Command Information System and Technology133): 32-3551 [百度学术] 

    隋远段然朱德理. 2022. 基于深度孪生网络的船舶名称匹配方法. 指挥信息系统与技术133): 32-3551DOI: 10.15908/j.cnki.cist.2022.03.006 [百度学术] 

    Tian ZHuang W LHe THe P and Qiao Y. 2016. Detecting text in natural image with connectionist text proposal network//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the NetherlandsSpringer: 56-72DOI: 10.1007/978-3-319-46484-8_4 [百度学术] 

    Wang W HXie E ZLi XHou W BLu TYu G and Shao S. 2019. Shape robust text detection with progressive scale expansion network//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USAIEEE: 9328-9337DOI: 10.1109/CVPR.2019.00956 [百度学术] 

    Wu H HChen J GWang T LLai X P and Cao J W. 2023. Ship license plate super-resolution in the wild. IEEE Signal Processing Letters30394-398DOI: 10.1109/LSP.2023.3262418 [百度学术] 

    Wu S KLiu B LXu S CLi YWu S QZhang S Y and Ye X Z. 2020. A two-stage ship license plate locating algorithm based on deep feature transfer and fusion. Journal of Computer-Aided Design and Computer Graphics324): 628-634 [百度学术] 

    吴书楷刘宝龙徐舒畅李毅吴双卿张三元叶修梓. 2020. 结合深度特征迁移与融合的两阶段船牌定位算法. 计算机辅助设计与图形学学报324): 628-634DOI: 10.3724/SP.J.1089.2020.17874 [百度学术] 

    Yi Y HHe J JLu L Q and Tang Z W. 2020. Association of text and other objects for text detection with natural scene images. Journal of Image and Graphics251): 126-135 [百度学术] 

    易尧华何婧婧卢利琼汤梓伟. 2020. 顾及目标关联的自然场景文本检测. 中国图象图形学报251): 126-135DOI: 10.11834/jig.190179 [百度学术] 

    Yu W WLiu Y LHua WJiang D QRen B and Bai X. 2023. Turning a CLIP model into a scene text detector//Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, CanadaIEEEDOI: 10.1109/CVPR52729.2023.00674 [百度学术] 

    Yu YFu Y ZChen W X and Liu H T. 2021. DLPD-Net: distorted license plate detection model in natural scenarios. Journal of Image and Graphics263): 556-567 [百度学术] 

    余烨付源梓陈维笑刘海涛. 2021. 自然场景下变形车牌检测模型DLPD-Net. 中国图象图形学报263): 556-567DOI: 10.11834/jig.200091 [百度学术] 

    Zhang S XZhu X BYang CWang H F and Yin X C. 2021. Adaptive boundary proposal network for arbitrary shape text detection//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, CanadaIEEE: 1285-1294DOI: 10.1109/ICCV48922.2021.00134 [百度学术] 

    Zhang S XZhu X BChen LHou J B and Yin X C. 2023. Arbitrary shape text detection via segmentation with probability maps. IEEE Transactions on Pattern Analysis and Machine Intelligence453): 2736-2750DOI: 10.1109/TPAMI.2022.3176122 [百度学术] 

    Zhang W SSun H YZhou J HLiu XZhang Z M and Min G Z. 2018. DCNN based real-time adaptive ship license plate recognition (DRASLPR)//Proceedings of 2018 IEEE International Conference on Internet of Things (iThings) and IEEE Green Computing and Communications (GreenCom) and IEEE Cyber, Physical and Social Computing (CPSCom) and IEEE Smart Data (SmartData). Halifax, CanadaIEEE1829-1834DOI: 10.1109/Cybermatics_2018.2018.00304 [百度学术] 

    Zhao Y QRao YDong S P and Zhang J Y. 2020. Survey on deep learning object detection. Journal of Image and Graphics254): 629-654 [百度学术] 

    赵永强饶元董世鹏张君毅. 2020. 深度学习目标检测方法综述. 中国图象图形学报254): 629-654DOI: 10.11834/jig.190307 [百度学术] 

    Zhou X YYao CWen HWang Y ZZhou S CHe W R and Liang J J. 2017. EAST: an efficient and accurate scene text detector//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USAIEEE: 2642-2651DOI: 10.1109/CVPR.2017.283 [百度学术] 

    Zhou YZhu Q RXie H C and Yang J F. 2021. Non-standard ship identification characters detection based on target detection and fuzzy matching. Laser and Infrared5111): 1526-1530 [百度学术] 

    周怡祝啟瑞谢海成羊箭锋. 2021. 基于目标检测与模糊匹配的非标船牌识别研究. 激光与红外5111): 1526-1530DOI: 10.3969/j.issn.1001-5078.2021.11.020 [百度学术] 

    Zhu Y QChen J YLiang L YKuang Z HJin L W and Zhang W Y. 2021. Fourier contour embedding for arbitrary-shaped text detection//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USAIEEE: 3122-3130DOI: 10.1109/CVPR46437.2021.00314 [百度学术] 

    文章被引用时,请邮件提醒。
    提交

    相关作者

    史彩娟 华北理工大学人工智能学院;河北省工业智能感知重点实验室
    郑远帆 华北理工大学人工智能学院;河北省工业智能感知重点实验室
    任弼娟 华北理工大学人工智能学院;河北省工业智能感知重点实验室
    孔凡跃 华北理工大学人工智能学院;河北省工业智能感知重点实验室
    段昌钰 华北理工大学人工智能学院
    张强 西安电子科技大学机电工程学院
    赵什陆 西安电子科技大学机电工程学院
    曹洋 中国科学技术大学信息科学技术学院自动化系

    相关机构

    华北理工大学人工智能学院
    河北省工业智能感知重点实验室
    西安电子科技大学机电工程学院
    杭州电子科技大学自动化学院
    陕西科技大学电气与控制工程学院
    0