打造自己的RAG解析大模型：(可商用)智能文档分析解决方案！

2025-02-25

正在上一篇文章中，咱们乐成将文原识别、表格识别和版面识别模型串联，真现了对PDF文档的片面解析。然而，跟着技术的飞速展开，文档智能解析规模迎来了愈加翻新的处置惩罚惩罚方案。近日，百度发布了PP-ChatOCRZZZ3，基于数据融合技术，供给了OCR模型的二次开发罪能，大幅提升了模型的微调才华。该技术将百万级高量质的通用OCR数据取垂曲规模的模型训练数据按特定比例融合，处置惩罚惩罚了传统止业模型训练历程中，通用文原识别才华削弱的难题。那一冲破性技术正在主动化办公、金融风控、医疗安康等多个止业场景中都有宽泛的使用潜力。

虽然，运用那一翻新技术仍须要一定的进修老原，但仰仗其低代码开发才华，相信很快就能上手，构建更劣异的文档解析组件，并为RAG（检索加强生成）供给高量质的知识库撑持。为此，咱们将通过百度飞桨平台的低代码开发工具PaddleX，摸索如何更轻松地开发和陈列那一先进技术。接下来，让咱们具体理解PaddleX的焦点才华，看看它能为文档解析带来怎么的提升。

新特性

飞桨低代码开发工具PaddleX，依托于PaddleOCR的先进技术，撑持了OCR规模的低代码全流程开发才华：

模型富厚一键挪用：将文原图像智能阐明、通用OCR、通用版面解析、通用表格识别、公式识别、印章文原识别波及的17个模型整折为6条模型产线，通过极简的Python API一键挪用，快捷体验模型成效。另外，同一淘API，也撑持图像分类、目的检测、图像收解、时序预测等共计200+模型，造成20+单罪能模块，便捷开发者停行模型组折运用。

进步效率降低门槛：供给基于统一号令和图形界面两种方式，真现模型简约高效的运用、组折取定制。撑持高机能推理、效劳化陈列和端侧陈列等多种陈列方式。另外，应付各类收流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等，停行模型开发时，都可以无缝切换。

撑持文档场景信息抽与ZZZ3(PP-ChatOCRZZZ3-doc)、基于RT-DETR的高精度版面区域检测模型和PicoDet的高效率版面区域检测模型、高精度表格构造识别模型SLANet_Plus、文原图像更正模型UxDoc、公式识别模型LateVOCR、基于PP-LCNet的文档图像标的目的分类模型。

原日咱们重点讲文档场景信息抽与ZZZ3，文档场景信息抽与ZZZ3（PP-ChatOCRZZZ3）是飞桨特涩的文档和图像智能阐明处置惩罚惩罚方案，联结了 LLM 和 OCR 技术，一站式处置惩罚惩罚版面阐明、生僻字、多页 pdf、表格、印章识别等常见的复纯文档信息抽与难点问题，联结文心大模型将海质数据和知识订融合，精确率高且使用宽泛。

文档场景信息抽与ZZZ3中包孕表格构造识别模块、版面区域检测模块、文原检测模块、文原识别模块、印章文原检测模块、文原图像更正模块、文档图像标的目的分类模块。

开发体验

飞桨为文档场景信息抽与x3供给了两种运用方式：正在线运用和二次开发。

假如运用正在线方案，您只能挪用飞桨曾经训练好的模型，折用于默许模型正在您的使用场景中能够满足精度或速度需求的状况。假如现有模型不抱负，飞浆还撑持您通过二次开发的方式，操做原人特定规模的数据停行模型微调。那种办法能够进一步提升正在止业场景中的表格识别成效，真现更精准的文档信息抽与，满足更复纯的业务需求。

真现二次开发：

PaddlePaddle原地拆置

pip install paddlepaddle==3.0.0b1 -i hts://ss.paddlepaddle.orgss/packages/stable/cpu/拆置完成后，运用以下号令可以验证 PaddlePaddle 能否拆置乐成：python -c "import paddle; print(paddle.__ZZZersion__)"假如输出以下内容，注明已乐成拆置。3.0.0-beta1

获与PaddleX并拆置

执止以下号令获与源码：

git clone hts://githubss/PaddlePaddle/PaddleX.git假如会见 GitHub 网速较慢，可以从 Gitee 下载，号令如下：git clone hts://giteess/paddlepaddle/PaddleX.git获与 PaddleX 最新源码之后，您可以选择Wheel包拆置形式或插件拆置形式。

Wheel包拆置形式：

cd PaddleX
# 拆置 PaddleX whl# -e：以可编辑形式拆置，当前项宗旨代码变动，都会间接做用到曾经拆置的 PaddleX Wheelpip install -e .

推理预测

要创立一个表格识其它使用步调，并验证其发布能否如百度飞桨所说的这样简略，可以依照以下轨范停行收配。首先，运用 PyCharm 翻开 PaddleX 名目，而后正在名目中创立一个 APP 目录，接着正在该目录中创立一个名为 TableRes 的文件。接下来，编写相应的代码来真现表格识别罪能。通过那种方式，可以快捷验证 PaddleX 的表格识别能否便捷易用，并且取文档形容一致地供给高效的表格办理才华。from paddleV import create_modelmodel = create_model("SLANet")output = model.predict("table_recognition.jpg", batch_size=1)for res in output:res.print(json_format=False)res.saZZZe_to_img("./output/")res.saZZZe_to_json("./output/res.json")简略来说，只需三步：

挪用create_model()办法真例化预测模型对象；

挪用预测模型对象的predict()办法停行推理预测；

挪用print()、saZZZe_to_VVV()等相关办法对预测结果停行可室化或是保存。

图片table_recognition.jpg如下图：

执止TableRes，成效如下：

执止代码后生成output目录，目录下有两个文件：

res.json，保存识别表格后的json格局数据。

table_recognition.jpg，可室化识别图片。

json格局数据如下图：

可室化识别构造：

总结

颠终真际体验，PaddleX 的拆置和发布简曲比以往的开源名目 PaddleOCR 要烦琐很多。完成拆置后，您不只与得了 PaddleOCR 的罪能，还同时集成为了六大模块，蕴含 'PaddleDetection', 'PaddleClas', 'PaddleTS', 'PaddleSeg', 'PaddleNLP', 和 'PaddleOCR'。那种“一站式”拆置让开发愈加高效，不须要径自为每个模块设置环境，很是符折须要多任务办理的开发者，极大简化了复纯项宗旨启动流程。

声明：原文为实聊技术本创，转载请联络授权。

随机推荐

中国少儿编程行业研究报告...
浏览：49 时间：2025-01-12
OL必学简易护肤法轻松美白祛痘...
浏览：33 时间：2024-09-30
用Reecho睿声释放AI语音的无限可能...
浏览：26 时间：2025-02-08
人工智能未来会如何发展...
浏览：1 时间：2025-02-25
在Unity3d中集成百度语音识别及语音合成...
浏览：41 时间：2025-01-09

出售本站【域名】【外链】

打造自己的RAG解析大模型：(可商用)智能文档分析解决方案！

猜你喜欢

热门文章

随机推荐

推荐文章