Skip to content

Latest commit

 

History

History
25 lines (13 loc) · 915 Bytes

2023_“达观杯”智能文档版面分析算法竞赛.md

File metadata and controls

25 lines (13 loc) · 915 Bytes

比赛地址

(pr稿地址)https://mp.weixin.qq.com/s/3WCo-J8bYcsP8dOnV8pc3w

(比赛地址)https://challenge.datacastle.cn/v3/cmptDetail.html?id=824

比赛内容

给定图片格式的PDF文档进行版面分析,支持的格式包括:文本,标题,图像,图像标题,表格,表格标题,目录,页眉,页脚,公式,脚注。

数据介绍

初赛(A榜)训练集包含3000张左右的图片和对应的版面分析标注以及OCR标注;

初赛(A榜)测试集包含1000张左右的图片和对应的OCR标注。

复赛(B榜)测试集包含1000张左右的图片和对应的OCR标注。

其中,OCR标注为通过OCR服务获得的图片中的文字位置和文字内容,未经过人工清洗。

版面分析标注参照COCO数据集,为json格式

数据下载

【repo作者有数据备份,如有需要,可自行联系】