܄

【AI大模型展】实在智能TARS大模型 ——百亿级参数、可商业落地的垂直大模型

【数据猿导读】 该AI大模型由实在智能投递并参与数据猿与上海大数据联盟联合推出的《2023中国数据智能产业AI大模型先锋企业》榜单/奖项”评选。

【AI大模型展】实在智能TARS大模型 ——百亿级参数、可商业落地的垂直大模型

TARS大模型是实在智能基于在自然语言处理(NLP)领域深厚的技术积累和落地经验,面向垂直行业领域推出的自主训练的类ChatGPT大语言模型(Large LanguageModel, LLM),该模型于年初进行筹备,6月底正式开始内测,目前正式投入商业运营。TARS大模型在千亿级高质量Tokens上进行了充分训练,完整复现Pretrain、SFT和RLHF三个阶段,可提供百亿级参数,具备“效果可用、成本可控、定制化训练、私有化部署”等强大落地商用能力。

TARS行业垂直大模型目前有1.1B和7B两个版本,具备垂直领域的知识问题和语义理解能力,能够作为基础能力供应用方调用,嵌入到其已有的产品结构中,例如问答系统等;也可以作为单独的能力提供服务,支持私有化部署。

应用场景/使用群体

实在智能TARS大模型是一款“自研、有效、安全、可信任、可落地”的大模型。除垂直领域本身的应用外,还结合机器人流程自动化(RPA)推出TARS-RPA-Agent及结合智能文档审阅产品(IDP)推出新一代文档审阅产品ChatIDP。

TARS-RPA-Agent是结合了实在智能TARS大模型的RPA新产品,能够支持以问答的方式生成RPA流程和代码,从而减小RPA的使用者在开发RPA流程时的成本,提高产品的使用体验。新一代的ChatRPA平台面向零基础或者轻基础的RPA用户或开发者,根据应用方的需要可以支持以SaaS的方式调用大模型的能力生成RPA流程或代码,或者私有化部署到本地以提供支持(私有化部署的推理成本如实在智能TARS大模型所要求)。

ChatIDP是结合了实在智能TARS大模型的IDP新产品,是在底层将传统的自然语言模型替换为实在TARS模型后推出的全新智能文档审核产品;支持以交互的形式进行文档的识别、比对、抽取、审核和分析等,能够为企业的法务、财务、合规等部门提供更加智能、更加方便的文档审阅和管理工具,大幅减少相关人员花在文档检查和信息提取上的时间,提高工作效率。根据需要可以支持以SaaS的方式调用大模型的能力进行长篇文档的理解和抽取,或者私有化部署到本地以提供支持,私有化部署的推理成本如实在智能TARS大模型所要求。

产品功能

实在智能TARS大模型功能亮点

1、流程自动生成

● 准确理解用户意图,生成行动计划流程模块

● 实现所说即所得的RPA流程自动生成

● 支持根据用户描述和提示,生成代码组件

● 结合智能屏幕语义理解技术实现组件属性填充

AI大模型展_实在智能_TARS大模型-1

2、人机对话问答

● 垂直行业上更准确、更强大的语义理解能力

● 更自然的多轮交互,提升对话类产品的智能感

● 支持快速接入和配置用于不同平台的对话机器人

● 能够方便地与用户的历史知识库进行整合

AI大模型展_实在智能_TARS大模型-2

3、智能文档理解

● 全面提升针对文档的关键内容抽取和审核能力

● 实现“你问我答”的全新文档处理体验

● 实现“你问我答”的全新文档处理体验

● 更智能、更精准的历史文档检索

AI大模型展_实在智能_TARS大模型-3

产品优势

实在TARS基于垂直行业的千亿级高质量Tokens上进行训练,完整复现、改进了大型语言模型训练的Pre-train、SFT和RLHF三个阶段并在语言理解、指令跟随等方面取得良好效果。此外,TARS大模型为了追求更高安全标准,进一步集成如不当言论判别等多项NLP前沿技术,帮助企业在数字化、智能化的转型浪潮中快人一步。

1、灵活部署:私有化部署、调用灵活

● 全面支持私有化部署

● 支持多种部署、调用方式

● 模型管理和监控工具配套完善

2、行业定制训练:行业定制、模型调优

● 针对垂直领域效果领先

● 根据不同行业、场景定制调优

● 垂直领域和通用领域能力兼具

3、安全可靠:全国产、信息安全过滤

● 不当言论判别、有害信息筛除

● 支持自定义配置模型过滤范围

● 私有化部署确保信息安全

4、完整落地方案:可落地 硬件需求优化

● 模型量化技术有效降低模型需求

● 现有Chatbot无缝集成调用LLM

● 支持其他产品快速集成嵌入

技术说明

实在智能TARS大模型采用的技术路线是在开源基座模型的基础上,遵照GPT系列(尤其是InstructGPT)和其他基座模型如BLOOM、LLaMA、GLM等的训练思路来对大模型三个阶段,即:预训练、指令微调、人工反馈强化学习进行各项技术的设计和准备;包括数据处理、模型设计、训练策略制定等。

总体来说,实在TARS模型的亮点和创新点主要体现在以下四个方面:

1、TARS大模型在垂直领域进行了充分的训练和完整的复现,对大模型常见的三个阶段都进行本地化复现和针对性优化;同时总计收集、处理、标注和投入超过一千亿个语料Tokens,使得模型能够充分理解垂直领域的语义内容和表述方式;在技术上除了复现三个阶段外,尤其对人类反馈强化学习阶段,解决了垂直领域中的数据标注困难、模型训练困难等问题,综合采用RPA技术做高效、持续、7X24小时的数据收集;采用多种数据去重和处理方式;采用自研的Rank排序标注平台等进行人类反馈强化学习阶段的数据标注;同时在技术层面优化了强化学习的训练框架,对齐部分算子操作,使得强化学习模型的训练过程更加快速。

2、TARS大模型除了在垂直领域有更加出色表现之外,在模型的可控性和安全性等层面也做了大量的工作,包括创新地利用最新的生成结果控制技术,训练了一个不当言论判别和过滤模型,来辅助大模型对生成结果的安全性、无害性和无偏性进行提升;实在TARS配套的不当言论判别和过滤模型区别于一般的文本判别模型,是结合在整个TARS大模型之中,并采用联合训练的方式进行优化,最终解决模型输出结果往往存在不当言论、有害信息的问题。

3、TARS大模型支持私有化部署和高效的模型推理,结合模型量化技术使得模型在推理时所占用的显存空间等降低,从而使得最终应用方能够以降低的软硬件成本使用TARS模型的能力,进行直接调用或下游集成;解决了大模型的落地难、落地贵等问题,可以支持较低成本配置的情况下,运行实在TARS垂直领域模型。

4、实在智能TARS大模型在其他方面的创新还包括研究大模型和向量数据库的结合,大模型在大段文本的输入支持等方面的工作。

服务客户

目前实在智能已联合湘财证券推出了金融领域垂直大模型,已开始在智能客服、智能投顾等场景落地应用;8月在行业内首次推出类AutoGPT式的Agent数字员工,实现高效的人机协同。10月,实在智能TARS大模型入选中国信通院2023高质量数字化转型产品及服务全景图AI大模型领域。

关于企业

·实在智能

实在智能是一家通过自研AGI大模型和Agent等超自动化技术,领跑人机协同时代的人工智能科技公司。作为中国AI准独角兽和RPA行业头部企业,超自动化解决方案提供商,实在智能结合国产全自研的AI技术与RPA产品,助力政府企业实现数字化改革和转型升级。

公司旗下全线产品全面支持国产信创,广泛兼容、适配行业主流的国产芯片、国产数据库、国产服务器及操作系统。“实在RPA数字员工”已在各大央企、国企及政府的国产信创系统中稳定运行数百万小时。

公司总部位于杭州,拥有数百人研发队伍,是国家高新技术企业。目前已通过全球软件成熟度最高级别认证CMMI-5,拥有近60项发明专利及数百项软件著作权等自主知识产权。在北京、上海、广州、深圳、成都、南京、济南及日本东京等地设有子公司和办事处,为国内外客户提供一站式服务。已服务包含金融、制造、运营商、电商、烟草、能源、交通等领域为代表的1500+客户。

实在智能曾先后获得中国工程院陈纯院士、国内顶级VC君联资本、松禾资本、赛智伯乐、光云科技(688365)、英特尔等国内外多家知名投资机构与上市公司的数亿元投资。

以上由实在智能投递申报的项目案例,最终将会角逐由数据猿与上海大数据联盟联合推出的《2023中国数据智能产业AI大模型先锋企业》榜单/奖项

该榜单奖项最终将于11月14日以下活动中进行榜单的首发与奖项的颁发,欢迎报名莅临现场


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

我要评论

数据猿微信公众号
2023第七届上海AI大会暨医药和医疗创新峰会
2023深圳物联网展
人工智能博览会
FMW2023全球闪存峰值
2023世界农业科技创新大会暨世界农业科技博览会
返回顶部