【AI大模型展】实在智能TARS大模型 ——百亿级参数、可商业落地的垂直大模型

AI大模型展实在智能 TARS大模型

实在智能 | 2023-10-30 20:46

【数据猿导读】该AI大模型由实在智能投递并参与数据猿与上海大数据联盟联合推出的《2023中国数据智能产业AI大模型先锋企业》榜单/奖项”评选。

TARS大模型是实在智能基于在自然语言处理（NLP）领域深厚的技术积累和落地经验，面向垂直行业领域推出的自主训练的类ChatGPT大语言模型（Large LanguageModel, LLM），该模型于年初进行筹备，6月底正式开始内测，目前正式投入商业运营。TARS大模型在千亿级高质量Tokens上进行了充分训练，完整复现Pretrain、SFT和RLHF三个阶段，可提供百亿级参数，具备“效果可用、成本可控、定制化训练、私有化部署”等强大落地商用能力。

TARS行业垂直大模型目前有1.1B和7B两个版本，具备垂直领域的知识问题和语义理解能力，能够作为基础能力供应用方调用，嵌入到其已有的产品结构中，例如问答系统等；也可以作为单独的能力提供服务，支持私有化部署。

应用场景/使用群体

实在智能TARS大模型是一款“自研、有效、安全、可信任、可落地”的大模型。除垂直领域本身的应用外，还结合机器人流程自动化（RPA）推出TARS-RPA-Agent及结合智能文档审阅产品（IDP）推出新一代文档审阅产品ChatIDP。

TARS-RPA-Agent是结合了实在智能TARS大模型的RPA新产品，能够支持以问答的方式生成RPA流程和代码，从而减小RPA的使用者在开发RPA流程时的成本，提高产品的使用体验。新一代的ChatRPA平台面向零基础或者轻基础的RPA用户或开发者，根据应用方的需要可以支持以SaaS的方式调用大模型的能力生成RPA流程或代码，或者私有化部署到本地以提供支持（私有化部署的推理成本如实在智能TARS大模型所要求）。

ChatIDP是结合了实在智能TARS大模型的IDP新产品，是在底层将传统的自然语言模型替换为实在TARS模型后推出的全新智能文档审核产品；支持以交互的形式进行文档的识别、比对、抽取、审核和分析等，能够为企业的法务、财务、合规等部门提供更加智能、更加方便的文档审阅和管理工具，大幅减少相关人员花在文档检查和信息提取上的时间，提高工作效率。根据需要可以支持以SaaS的方式调用大模型的能力进行长篇文档的理解和抽取，或者私有化部署到本地以提供支持，私有化部署的推理成本如实在智能TARS大模型所要求。

产品功能

实在智能TARS大模型功能亮点

1、流程自动生成

● 准确理解用户意图，生成行动计划流程模块

● 实现所说即所得的RPA流程自动生成

● 支持根据用户描述和提示，生成代码组件

● 结合智能屏幕语义理解技术实现组件属性填充

AI大模型展_实在智能_TARS大模型-1

2、人机对话问答

● 垂直行业上更准确、更强大的语义理解能力

● 更自然的多轮交互，提升对话类产品的智能感

● 支持快速接入和配置用于不同平台的对话机器人

● 能够方便地与用户的历史知识库进行整合

AI大模型展_实在智能_TARS大模型-2

3、智能文档理解

● 全面提升针对文档的关键内容抽取和审核能力

● 实现“你问我答”的全新文档处理体验

● 更智能、更精准的历史文档检索

AI大模型展_实在智能_TARS大模型-3

产品优势

实在TARS基于垂直行业的千亿级高质量Tokens上进行训练，完整复现、改进了大型语言模型训练的Pre-train、SFT和RLHF三个阶段并在语言理解、指令跟随等方面取得良好效果。此外，TARS大模型为了追求更高安全标准，进一步集成如不当言论判别等多项NLP前沿技术，帮助企业在数字化、智能化的转型浪潮中快人一步。

1、灵活部署：私有化部署、调用灵活

● 全面支持私有化部署

● 支持多种部署、调用方式

● 模型管理和监控工具配套完善

2、行业定制训练：行业定制、模型调优

● 针对垂直领域效果领先

● 根据不同行业、场景定制调优

● 垂直领域和通用领域能力兼具

3、安全可靠：全国产、信息安全过滤

● 不当言论判别、有害信息筛除

● 支持自定义配置模型过滤范围

● 私有化部署确保信息安全

4、完整落地方案：可落地硬件需求优化

● 模型量化技术有效降低模型需求

● 现有Chatbot无缝集成调用LLM

● 支持其他产品快速集成嵌入

技术说明

实在智能TARS大模型采用的技术路线是在开源基座模型的基础上，遵照GPT系列（尤其是InstructGPT）和其他基座模型如BLOOM、LLaMA、GLM等的训练思路来对大模型三个阶段，即：预训练、指令微调、人工反馈强化学习进行各项技术的设计和准备；包括数据处理、模型设计、训练策略制定等。

总体来说，实在TARS模型的亮点和创新点主要体现在以下四个方面：

1、TARS大模型在垂直领域进行了充分的训练和完整的复现，对大模型常见的三个阶段都进行本地化复现和针对性优化；同时总计收集、处理、标注和投入超过一千亿个语料Tokens，使得模型能够充分理解垂直领域的语义内容和表述方式；在技术上除了复现三个阶段外，尤其对人类反馈强化学习阶段，解决了垂直领域中的数据标注困难、模型训练困难等问题，综合采用RPA技术做高效、持续、7X24小时的数据收集；采用多种数据去重和处理方式；采用自研的Rank排序标注平台等进行人类反馈强化学习阶段的数据标注；同时在技术层面优化了强化学习的训练框架，对齐部分算子操作，使得强化学习模型的训练过程更加快速。

2、TARS大模型除了在垂直领域有更加出色表现之外，在模型的可控性和安全性等层面也做了大量的工作，包括创新地利用最新的生成结果控制技术，训练了一个不当言论判别和过滤模型，来辅助大模型对生成结果的安全性、无害性和无偏性进行提升；实在TARS配套的不当言论判别和过滤模型区别于一般的文本判别模型，是结合在整个TARS大模型之中，并采用联合训练的方式进行优化，最终解决模型输出结果往往存在不当言论、有害信息的问题。

3、TARS大模型支持私有化部署和高效的模型推理，结合模型量化技术使得模型在推理时所占用的显存空间等降低，从而使得最终应用方能够以降低的软硬件成本使用TARS模型的能力，进行直接调用或下游集成；解决了大模型的落地难、落地贵等问题，可以支持较低成本配置的情况下，运行实在TARS垂直领域模型。

4、实在智能TARS大模型在其他方面的创新还包括研究大模型和向量数据库的结合，大模型在大段文本的输入支持等方面的工作。

服务客户

目前实在智能已联合湘财证券推出了金融领域垂直大模型，已开始在智能客服、智能投顾等场景落地应用；8月在行业内首次推出类AutoGPT式的Agent数字员工，实现高效的人机协同。10月，实在智能TARS大模型入选中国信通院2023高质量数字化转型产品及服务全景图AI大模型领域。

关于企业

·实在智能

实在智能是一家通过自研AGI大模型和Agent等超自动化技术，领跑人机协同时代的人工智能科技公司。作为中国AI准独角兽和RPA行业头部企业，超自动化解决方案提供商，实在智能结合国产全自研的AI技术与RPA产品，助力政府企业实现数字化改革和转型升级。

公司旗下全线产品全面支持国产信创，广泛兼容、适配行业主流的国产芯片、国产数据库、国产服务器及操作系统。“实在RPA数字员工”已在各大央企、国企及政府的国产信创系统中稳定运行数百万小时。

公司总部位于杭州，拥有数百人研发队伍，是国家高新技术企业。目前已通过全球软件成熟度最高级别认证CMMI-5，拥有近60项发明专利及数百项软件著作权等自主知识产权。在北京、上海、广州、深圳、成都、南京、济南及日本东京等地设有子公司和办事处，为国内外客户提供一站式服务。已服务包含金融、制造、运营商、电商、烟草、能源、交通等领域为代表的1500+客户。

实在智能曾先后获得中国工程院陈纯院士、国内顶级VC君联资本、松禾资本、赛智伯乐、光云科技（688365）、英特尔等国内外多家知名投资机构与上市公司的数亿元投资。

★以上由实在智能投递申报的项目案例，最终将会角逐由数据猿与上海大数据联盟联合推出的《2023中国数据智能产业AI大模型先锋企业》榜单/奖项。

该榜单奖项最终将于11月14日以下活动中进行榜单的首发与奖项的颁发，欢迎报名莅临现场

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。