【公益案例展】科大讯飞——用人工智能建设美好世界,赋能教育公平、医疗普惠与无障碍社会
数据猿 | 2025-08-29 23:53
【数据猿导读】 该项目案例由科大讯飞投递并参与数智猿×数据猿×上海大数据联盟共同推出的#技术向善·榜样的力量#《2025中国数智产业最具社会责任感企业》榜单/奖项评选。

科大讯飞案例
该项目案例由科大讯飞投递并参与数智猿×数据猿×上海大数据联盟共同推出的#技术向善·榜样的力量#《2025中国数智产业最具社会责任感企业》榜单/奖项评选。
我国在教育、医疗、残障服务等领域存在显著资源不均问题:城乡教育资源分配失衡,偏远地区优质师资匮乏;基层医疗机构诊疗能力薄弱,漏诊误诊风险较高;8500万残障人士面临沟通、生活及就业壁垒。
响应国家“教育数字化战略行动”“健康中国”“无障碍环境建设” 等政策,科大讯飞秉持 “让科技有温度” 理念,将26年积累的AI技术转化为解决社会刚需的工具。从推动教育公平到助力基层医疗,从保护方言文化到科技助残,始终以 “顶天立地” 战略为指引,让AI技术穿透资源壁垒,从源头技术自主创新,到落地解决民生问题,以惠及更多弱势群体。
时间周期:
开始时间:1999年
截止时间:至今仍在服务中
应用场景
AI+教育
深耕细作21年,讯飞智慧教育解决方案已覆盖全国83个区域、5万所学校,1.3 亿师生,助力教师提升备课效率(教学设计效率提升56%+、课件制作效率提升64%+),为学生提供个性化学习支持。
星火智能批阅机在260多所学校试点,实现作业高效批改;大学生AI助教案例入选教育部 “人工智能+高等教育” 典型案例。
AI+医疗
讯飞星火医疗大模型V2.5国际版正式发布,它是业界唯一基于全国产算力训练的医疗大模型,支持香港通用的「两文三语」交互。在心血管内科、儿科、呼吸内科等专科的核心临床诊疗场景中,大模型的综合诊疗能力达三甲医院主治医师水平,尤其在完整性、实用性、可读性等关键维度上显著优于人类医生。基于这一强大模型底座,讯飞晓医APP全新升级,支持四大慢性病(高血压、糖尿病、高血脂、高尿酸)深度管理,能整合多渠道健康数据,提供系统性风险评估和个性化健康建议。
基于此,讯飞晓医下载量突破2400万,已经为用户提供了超过1.4亿次健康咨询,好评率98%。
智医助理目前已覆盖全国692个区县超73000个基层医疗机构,提供超10亿次AI辅助诊断。
AI+公益
2019年起发起 “听见AI的声音” 公益行动,听障人士通过“听见AI的声音” 行动获得超2亿分钟免费转写服务;讯飞智能助听器服务逾11万名用户,支持AI场景识别与智能验配;“三声有幸” AI公益计划孵化3.8万无障碍应用,服务1404万视听障人士,日服务超5000万次;2024年与中国残联共建通用人工智能助残联合实验室,持续服务至今。
面临挑战
技术适配性挑战:教育领域需适配全国多版本教材,通过星火大模型领域微调实现地方教材内容匹配;基层医疗场景需应对复杂病例数据,依托医学知识图谱提升辅诊准确性;助残领域需兼容方言与听障群体语音特征,通过采集170 万条方言语音数据优化识别模型。
用户接受度门槛:乡村教师对AI工具熟练度低,通过简化操作界面(如语音指令替代复杂点击)及120场+培训提升使用能力;残障群体对技术存在信任顾虑,联合残联开展线下培训,覆盖3万余人次。
公益可持续平衡:助残及教育公益项目需控制成本,通过“政府补贴+企业让利” 模式降低学校及残障群体负担;建立长效运维机制,如远程技术支持团队保障基层医疗设备持续运行。
技术开发过程
语言是大模型的基础,随着大模型在全球范围的风靡与延展,大模型多语言能力的重要性和实用度也备受关注。不久前,科大讯飞星火X1大模型全面升级,多语言能力覆盖130+语种;基于星火X1底座的语音同传大模型在翻译效果、实时响应、语音听感、专业精深等方面大幅跃升。在大模型的多语言能力上,讯飞基于多年深耕多语言相关的语音识别、合成、同传、机器翻译等技术,正在探寻与实践一条全新路径。我们将分享目前在讯飞星火大模型多语言技术上的心得、成果与趋势研判,希望有更多人参与到多语言大模型及应用的构建当中,真正实现“给世界提供第二种选择”。
目前,大模型在中英文上已经达到了很好的效果;但客观来说,在多语言上的效果还有待进步。大模型为多语言技术带来的机遇大模型为多语言技术发展带来了全新的机遇,挖掘出巨大的需求潜力:
多语言大模型为“一带一路”国家战略、人机交互等重大需求提供关键支撑;
国际AI巨头纷纷加码多语言大模型研发,通用大模型正在从中英文向多语言拓展;
少数国家研发仅支持本国语言的大模型,但仍处于起步阶段(如越南、印尼等研发了面向本国语言的大模型)。
同时,大模型还能更好解决当前多语言技术遇到的难题:
不同的语言在语法结构、词汇语义方面存在巨大的差异,现有的模型泛化不足,很难在不同语言上形成泛化推广的能力;
相较于中英文等主要语种具有海量数据的情况,很多小语种的语言分析研究、专家知识积累不足,导致训练数据稀缺;
多语言技术在实际应用中除了文本翻译,还会结合语音翻译、图片翻译等环节,中间造成的延续性级联误差扩散,都会影响多语种识别效果,导致最终翻译结果错误。
科大讯飞在多语言技术上拥有深厚的积淀。例如2008-2015年之间,我们先后在语音合成、语音评测、语音识别等领域首次超过人类或人类专家水平,此后在机器翻译、机器阅读理解和常识推理等方向上持续突破,并且承担了语音及语言信息处理国家工程研究中心、国家新一代人工智能开放创新平台、认知智能全国重点实验室等平台,这些都为之后星火大模型的多语言技术研发奠定了坚实的基础。
讯飞星火多语言大模型2024年10月,在发布讯飞星火4.0 Turbo版本的同时,我们首发了星火多语言大模型,首批支持中英之外的俄、日、阿、韩、法、西、葡、德8个重点语种,在汽车、家电、办公、翻译等行业任务场景应用效果优秀;同时对外开放给开发者和行业伙伴接入使用。此后,我们持续迭代多语言大模型的能力水平,并不断拓展至更多语种。2025年7月,全新升级的讯飞星火X1大模型可支持超过130种语言的通用问答,能完成日常问答、数学答题、文本生成和翻译等任务,重点语种的效果上超过GPT-4.1,让无障碍跨语言交流更进一步。
星火X1多语言能力展示在多语言大模型的构建过程中,面对不同语种效果不均衡、低资源语种效果不佳、单模型多语言能力建模引发语种互相干扰等问题,我们提出了基于跨语言语义空间对齐的多语言路由建模技术:在共享模型底层参数的技术之上,多语种数据输入后,在编码模块实现底层多语言语义对齐,在顶层编码模块加入多语种路由模块;这种基于语种专家路由的多语言大模型架构,能够实现不同语言之间个性化信息的精准建模,大幅提升了模型的多语言理解和生成能力。
讯飞星火语音大模型的多语言技术:科大讯飞在2024年1月也正式推出了星火语音大模型,首批37个主流语种的语音识别效果超过OpenAI Whisper V3,多语种语音合成方面则实现了首批40个语种平均MOS分绝对提升0.25,拟人度超83%;在2024年10月,星火语音大模型的多语种多方言免切换语音识别能力,首次全部覆盖了全国地级市共202种方言。星火语音大模型与多语言技术同样紧密结合:语音识别我们提出了语音属性解耦表征、多语种多任务联合建模等创新算法,目前已实现了语音大模型对100个语种的语音识别。针对语音多维属性耦合性强,无法显示与下游任务建立信息映射关系等难题,我们提出了结合语音属性解耦预训练的语音大模型,通过构建不同信息维度、不同颗粒度的信息码本作为预训练的层级训练目标,并围绕多语种多任务进行联合建模,更好地实现了预训练任务与下游任务在信息维度上的关联。这样不仅使语音识别效果提升30%-50%,也实现了202种方言的免切换使用。
语音合成我们提出了三阶段层次化语音建模框架,它包含:
多语种前端统一建模;
多尺度多层级的粗粒度建模,表征语音及音色信息;
非自回归模型建模细粒度信息,表征音色及音质的细节。
在这一框架下,语音大模型支持发音内容和音色特征可控分离,目前实现了55个语种的语音合成,其中超30个语种效果达到国际领跑或并跑水平。
讯飞星火图文识别大模型的多语言技术2024年4月,我们正式发布了星火图文识别大模型,能够处理非常复杂的版面分析,结合篇章的语义和文字理解能力进一步提升,覆盖更多专用领域的特殊专业符号。
针对不同语种的文字建模和编码不一致的问题,我们提出了兼具语种特性和编码统一的跨语种联合建模方法:
对于有偏旁部首结构的语种,按照偏旁部首建模,有效地解决了长尾字符出现频率较低的问题——如中文、韩文、日语、泰语;
对于字符形态变化较大的语种,按照子词建模,确保子词下的字符形态是统一且稳定的,显著减少了建模的歧义——如阿拉伯语、维语;
对于字符形态稳定的语种,直接按照普通字符进行建模——如英语、俄语;
我们还提出将上述建模单元按照UC码进行统一编码并拆分成两个字节,从而保证多语种建模的字典统一性,也避免了传统多语种统一建模引发的字典过大问题。
目前,星火图文识别大模型在中、英、日、韩等14个使用人口最多的语种中,图文识别准确率处于业界一流水平。
讯飞星火大模型多语言技术的下一步?
未来,我们将会沿着这几个方向持续研发:
进行跨模态数据构建,实现语音和文本多模数据的共建和共享;
增强跨语言建模能力,打造融合跨语言知识迁移能力的多语言通用大模型,通过跨语言语义空间对齐方案、跨语言知识密集型数据合成方案和通用多语种强化学习机制,来提升多语言通用和推理能力。
建设原生多语种语音大模型底座,对语音、文本、多语种进行同时建模,提高多场景多语种混合下的实用效果。
“从技术中来,到产品中去”。目前,讯飞星火大模型多语言相关技术已应用在多款C端智能软硬件产品当中,例如讯飞翻译机、会议耳机、讯飞听见、办公本等,能够解决不同场景下用户跨语言交流障碍,覆盖办公、旅游、政务等领域。讯飞多语言技术不仅为“中国智造”产品出海提供有力支撑,实现手机、汽车、家电等语音人机交互方式的全面升级;也通过讯飞开放平台为国内外开发者提供全栈式服务,吸引越来越多的海外开发者和技术专家与我们共建星火生态。
不论是北京2022年冬奥会和冬残奥会上各国参与者之间“无缝”对话,还是布达佩斯2023年世界田径锦标赛上能听会说的吉祥物Youhuu,以及联合国中法建交60周年活动上流动的中法跨语言字幕……多语种技术使得我们正在走向一个信息沟通高效、无障碍的新纪元。
我们将以“技术赋能”和“生态共建”双轮驱动,携手全球伙伴共建开放平台、共享技术成果和应用场景,希望用“中国智慧”助力不同文化背景的国家弥合智能鸿沟,构建更加包容、普惠的全球人工智能生态。
应用效果/社会价值
教育领域:
智慧教育产品服务1.3亿师生,教师备课时间缩短至原来的37.5%(从4小时/课时到1.5小时),星火智慧黑板获2024世界数字教育大会技术创新奖,7个高校AI助教案例入选教育部典型案例。
医疗领域:
“智医助理”是全球首个且是唯一一个通过国家执业医师资格考试(综合笔试)的智能解决方案。今天,智医助理已在全国31个省份的692个区县实现常态化应用,累计提供超10亿次AI辅诊建议,规范病历超3.8亿次,经智医助理系统提醒而修正诊断的有价值病历超174万例。“讯飞星火已经可以在一个又一个的三甲医院,和最顶尖的医生相互学习、切磋,甚至超过了一些专业医生。健康中国的梦想,在AI驱动下,正一步步照进现实。”
助残领域:
2019年起,科大讯飞联合中国聋协、中国残疾人艺术团联合发起了“听见AI的声音”关爱听障人士公益行动,讯飞听见app已累计为听障群体提供超2亿分钟免费转写服务。此外,讯飞“三声有幸”AI公益计划吸引了3.6万公益开发者,开发出4万多个针对残疾人的无障碍应用,服务超过1500万视听障人士;“三声有幸” 计划服务1404万视听障人士,获评 “全国残疾人工作先进集体”;方言保护计划收录170万条方言语音,助力文化传承。
文化领域:
用AI赋能文化创新、积极传播正能量也是科大讯飞积极探索的领域。今年,由科大讯飞主创、安徽省委网信办选送的《AI+非遗:当昆曲木偶戏遇见虚拟歌手Luya》获评“正能量网络传播AI精品案例”;由科大讯飞主创、广东省委网信办报送的《听见,看见:汉字里的中国文化展》获评“网络正能量音视频优秀案例”。此外,科大讯飞还凭借在文化科技融合领域的创新实践与贡献入选“2025·全国文化企业30强”。
社会影响:技术方案被纳入多省教育、医疗试点政策,成为“技术向善” 的标杆实践。
关于企业
科大讯飞
科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,一直从事智能语音、计算机视觉、自然语言处理、认知智能等人工智能核心技术研究并保持国际前沿水平。科大讯飞积极推动人工智能源头核心技术研发和产业化落地,致力于“解放生产力、释放想象力,用人工智能建设美好世界”。
作为推动中国人工智能技术自主创新的重要力量,科大讯飞承建了中国唯一的认知智能全国重点实验室和语音及语言信息处理国家工程研究中心,同时是中国语音产业联盟理事长单位、中科院人工智能产学研创新联盟理事长单位、长三角人工智能产业链联盟理事长单位。2024年,科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目获得2023年度国家科学技术进步奖一等奖。
科大讯飞坚持“平台+赛道”的发展战略。基于人工智能核心技术,科大讯飞多年来持续赋能教育、医疗、金融、汽车、城市、运营商、工业等行业赛道并取得广泛成效,持续助力民生和产业高质量发展。
来源:数据猿
我要评论
不容错过的资讯
大家都在搜
