原标题:垂直领域ChatGPT——“曹植”来了!张江小巨人的AI大语言模型即将诞生
今年3月,达观数据公布正在开发曹植系统,这是一个专注于金融、政务、制造等垂直领域的大语言模型,也是国内为数不多的垂直GPT大模型。
作为国家级专精特新“小巨人”企业,达观数据获得了一系列知名投资机构的认可。去年3月,达观数据对外公布获得5.8亿元的C轮融资。本次投资方包括中信、招商、广发和中信建投在内的四家中国头部券商,以及知名投资机构深创投、弘卓资本、襄禾资本、尚珹资本、众麟资本、联想之星和阳光保险集团。
近日,张通社走进位于张江浦东软件园的达观数据,与CTO纪达麒进行了一场深入聊天,了解到这款立足垂直领域的曹植系统是如何在张江产生的。
达观数据联合创始人CTO纪达麒
01
和中国字打了十几年交道的程序员
电梯上到5楼,门一开就进入达观数据的办公区。映入眼帘的是一堵高3米,长10米的深灰色企业文化墙。上面是有关中国文字及AI发展的历史知识,白色与金色的文字相间,印着“中国字的发展历史”“语言文字的知识”“现代文字的编码与处理”等信息。
达观数据的文化墙
达观数据的创始团队都是与中国文字打过十几年交道的程序老兵,他们都深耕于自然语言处理领域(Natural Language Processing,简称NLP),CTO纪达麒就是其中一位。
时间倒退回13年前,从北京邮电大学硕士毕业后,纪达麒进入位于张江的盛大创新院,正巧加入达观数据创始人陈运文的团队,为盛大集团提供文本挖掘与处理服务。
当时,盛大集团旗下的盛大文学有着很多网络文学作者,他们需要每天连载小说,并且当天写完,当天12点就要发表。这让负责人工审核的编辑承受着巨大的压力,几乎天天加班到深夜,尤其碰到涉黄涉政问题的时候。既然NLP具备自动化文本处理的能力,纪达麒就与同事运用这项技术,花了一年多时间,开发出一套协助编辑审稿的系统,还堵上了90%以上的审查漏洞。
此后,纪达麒加入盛大文学,统筹负责技术工作,多年的工作经历让他深刻地意识到NLP不仅能解决审稿问题,而且能在文字识别、分析、生成等领域大有可为,有着更广阔的商业价值。
2015年,看到盛大创新院的老同事们纷纷创办了UCloud、七牛云、亮风台等知名企业,纪达麒很受触动。于是,他、陈运文和其余几位同事放弃了待遇优渥的高管待遇,在张江创办了达观数据,干的是他们非常擅长的NLP文本智能处理领域。
02
深挖办公文档的应用场景
创办之初,纪达麒和团队一起,从最熟悉的领域入手,为不少互联网客户开发资讯推荐系统。随着项目经验不断累积,越来越多的互联网圈外的客户开始找上门来,他们需要达观数据为自己的APP平台开发一套推荐系统。
达观数据的展示大厅
从互联网拓宽至更广泛行业,纪达麒和来自银行、政务、制造等行业的客户进行了广泛的交流。他逐渐发现NLP技术在办公文档方面有着很强的应用前景,它能够帮助白领们高效地完成重复而繁重的文档处理工作。
比如,他发现公司上市的高管调查就是一个典型的应用场景。证监会要求查阅董事、监事和高管的3年银行流水,而其中每一位人士的银行对账单,叠在桌上都能有10cm高。如果投行员工进行人工审核,那么核对和分析数据所耗费的时间和人力不可想象,错漏之处时有发生。
对此,纪达麒和研发团队运用知识图谱、文字识别等技术开发出一套IDP智能文档审阅系统,并不断迭代升级产品。
在技术方面,为降低训练模型成本,他们率先运用零样本学习算法,避免标注学习样本带来的额外成本;为克服印刷不清晰、印章遮挡、表格线残缺等扫描问题,他们创新了版面还原的文字识别算法。
从技术到产品,还要跨越理解客户需要的鸿沟。对此,达观数据还聘请数十名行业专家,充当客户与程序员之间的“翻译员”,让团队成员更好地了解需求,实现需求。“我们要去理解客户需要,然后转化为应用场景,进而翻译为技术问题,最后实现相关的功能模块。”纪达麒表示。
鉴于本身的技术和业务实力,达观数据2021年还被授予国家级专精特新“小巨人”称号,以及中国AI最高奖吴文俊科学技术奖。
从一家客户到另一家客户,从一个项目到下一个项目,达观数据的项目经验越来越丰富,而且技术迭代也不断加速。目前,它已经服务了银行、保险、制造、政务等行业的100多位大客户,覆盖了数百个文档处理场景。
项目经验的积累,就意味着对行业的理解更加深刻,而且还能积累大量的行业数据。这不仅构成达观数据的独特技术壁垒,并且还为开发大语言模型:曹植系统,打下基础。
03
不做通用大模型,就做垂直行业的Chat GPT
NLP被誉为AI皇冠上的明珠,而处于AI圈子的人都知道,2017年谷歌发表的那篇论文《Attention is all you need》开启了NLP的新篇章。那篇论文提出了NLP的两个技术路线,一条是关于“理解”方向,另一条关于“生成”方向。
与所有AI企业一样,达观数据一开始选择了第一条技术路线,“2017年,包括谷歌在内的科技巨头都采用第一条路线,并认为第二条路线难以实现”。可是,情况的转变就发生在2022年末,Chat GPT3.5引爆网络,“人们才发现第二条路可以实现,而且更有前景。”
结合企业的优势禀赋和未来发展,达观数据投入到紧锣密鼓的大语言模型(Large Language Model,简称LLM)开发工作中,并将这LLM起名为曹植系统,而纪达麒则是该项目总负责人。不同于Chat GPT4为代表的通用LLM,曹植系统专注于金融、政务、制造等行业,只为这些特定垂直行业提供LLM服务。
达观研发的曹植系统
由于长期为金融、政务、制造等行业的客户服务,并且经过8年多运营,达观数据已经积累了垂直领域的大量数据,这为它训练垂直LLM提供了充分数据资源。
同时,“曹植系统的参数规模可以缩小到Chat GPT3的十分之一”纪达麒表示。参数更小相当于算力需求更小,那么算力成本也就越小。结合精准数据和低算力成本,曹植系统反而可以达成更好的效果。
一般而言,训练ChatGPT需要数千张价值万元的顶级GPU同时运行,才能训练完毕,非常昂贵。相较之下,参数更少的曹植系统仅需要数百张,甚至数十张GPU就能达成训练目标。
因此,曹植系统可以用来生成垂直领域的专业内容,比如法律文书、红头文件和研究报告。纪达麟举了个券商研报的案例,“生成券商研报对于Chat GPT4来说是困难的,生成结果可能是乱七八糟的,而对于曹植系统来说,这件事情可能并不困难。”
更重要的是,企业采用曹植系统,能够更加容易地进行私有化部署。众所周知,专利、合同、客户等数据属于商业机密,放到公共服务器会有隐私泄露风险。为了保护隐私,企业更需要进行本地的私有化部署。“曹植系统所需的参数少,私有化部署需要的显卡资源就少,因此,相比通用大模型,曹植系统有着明显的成本优势。”
总之,在垂直行业内,曹植系统或许能完胜ChatGPT。
04
大语言模型的未来
对于大语言模型的未来,纪达麒表示,AI大模型领域会出现三种角色,第一种是通用大模型,包括OpenAI的chat GPT、百度的文心一言;第二种是垂直类大模型,就像达观数据的曹植系统;第三种是上层应用模型,它们没有规模庞大的参数,而是借用通用大模型和垂直大模型,并进行改进,从而完善特定产品。
对于达观数据的未来,纪达麒表示一定会做两件事:
其一,不断打磨垂直领域大模型,让它拥有更好的性能和效果,“我们预计今年6月底正式推出曹植系统。”
其二,达观数据会根据实际的办公应用场景,把大模型设计成一个个解决办公痛点的产品,打破目前单一的对话式产品形态,更好地提升日常办公的效率。同时,大模型还能赋能原有产品,让已有产品的效能再上一个台阶。
谈到曹植系统的名字由来,纪达麒表示它其实来自一个典故,“曹植七步成诗,我们想让大语言模型和曹植一样,才思敏捷,知识渊博,‘培养’出人工智能版的‘曹植’来。”返回搜狐,查看更多
责任编辑: