“我是一个由OpenAI训练的大型语言模型。我旨在帮助人们解答问题和提供信息。由于我是一个计算机程序,所以不会感知或者思考,只能通过已有的数据来回答问题。如果您有任何问题,请随时告诉我。”
这是炙手可热的ChatGPT的自我介绍。这款由美国 AI 公司 OpenAI发布的通用型对话系统,自从2022年11月30日问世,便以强大的文字处理和人机交互功能,迅速在社交圈走红。与此同时,商业巨头也纷纷投入布局,为后续商业化和应用落地打开广阔空间。
近期,开源证券计算机团队发布行业深度报告《ChatGPT 不断突破,AI 驶入快车道》,通过深度介绍ChatGPT技术、产业、政策以及国内外巨头布局版图,带您把握ChatGPT的相关投资机会。
ChatGPT:AIGC现象级应用,商业化落地打开成长空间
—
ChatGPT是AIGC领域现象级应用。ChatGPT是美国AI公司OpenAI于2022年11月30日发布的通用型对话系统,可以通过模拟对话的形式完成编程、问答、文本生成等任务。ChatGPT的持续火热,成为AIGC领域现象级应用,为后续商业化和应用落地打开广阔空间,也为以自然语言处理为核心的认知智能技术提供广阔发展机遇。
ChatGPT是OpenAI于2022年11月30日发布的通用型对话系统
资料来源:OpenAI官网
ChatGPT在多项测试中超过人类。2022年,包括ChatGPT在内的许多大模型的测试表现已经超出人类。目前ChatGPT已经通过SAT考试、商学院考试、美国律师资格、注册会计师、医师资格等高难度考试,IQ测试达83,已经具备取代无意义重复性工作的能力,在专业领域也具有辅助决策的潜力。
大型语言模型在多项测试中已经超过人类
资料来源:LifeArchitect.ai网站
ChatGPT上线后热度持续提升,已超过TikTok成为活跃用户增长最快的产品。ChatGPT发布一周用户数就突破100万人,月访问量达2100万人次。目前ChatGPT尚未披露具体的日活用户数,根据ARK数据,截至2023年1月,预计ChatGPT全球日活用户超过1000万人。
ChatGPT日活用户超过1000万人
资料来源:ARK网站
ChatGPT商业化已经落地,未来成长空间广阔。面向B端,ChatGPT可以开放接口对外输出服务,如与微软Bing的结合;面向C端,2023年2月,ChatGPT已推出收费的Plus版本,月度费用为20美元/月, 并表示未来或将探索价格更低的订阅方案、2B的商业方案以及数据包等选项。根据OpenAI预测,2023年将实现收入2亿美元,2024年将超过10亿美元,未来成长空间广阔。
ChatGPT已推出收费的Plus版本
资料来源:ChatGPT官网
大模型+大数据+高算力,ChatGPT不断突破
—
1、预训练大模型:GPT大模型多次迭代,训练结果持续优化
ChatGPT是以Transformer为基础的预训练模型。GPT的全称为Generative Pre-Trained Transformer,即生成式预训练Transfomer模型。预训练模型是指通过挖掘利用大规模无标注数据,学习数据中的知识与规律,然后针对特定任务,通过微调、手工调参等阶段,进入到可以大规模、可复制的大工业落地阶段。
ChatGPT是以Transformer为基础的预训练模型
资料来源:AI大模型公众号
GPT大模型经过多次迭代,参数量大幅提升。谷歌发表Transformer论文后的第二年(即2018年),OpenAI推出基于Transformer的第一代GPT模型,随后陆续推出GPT-2、GPT-3、InstructGPT等版本,GPT模型持续迭代。
ChatGPT由GPT-3微调而来,模型更小,专注于聊天场景。对比来看,GPT-3是一种大型通用语言模型,可以处理各种语言处理任务,ChatGPT 是一个较小的专用模型,专为聊天应用程序设计。ChatGPT通过RLHF优化训练结果。ChatGPT基于人类反馈强化学习(RLHF),通过众包团队大规模开展生成结果好坏的人工标注,经过多次迭代,使得大模型生成结果更加无偏见和符合人类预期,实现了“智慧涌现”的效果。
2、数据:数据量提升显著优化大模型表现
ChatGPT数据主要来自Common Crawl、新闻、帖子、书籍及各种网页。Common Crawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。英文维基百科全部内容包含约30亿tokens,仅占到训练数据量的3%。
ChatGPT数据主要来自Common Crawl、新闻、帖子、书籍及各种网页
数据来源:维基百科、开源证券研究所
ChatGPT的优秀表现得益于预训练数据量大幅提升。GPT-3和GPT-2采用了相同的架构,在模型上没有大幅修改,仅用更多的数据量、参数量去进行训练。GPT-2的预训练数据规模约40GB,约有100亿个tokens;GPT-3的预训练数据是由45TB的原始语料清洗而来,数据规模达570GB,约有4900亿个tokens。GPT-2模型参数量为15亿,GPT-3参数量为1750亿。由于容量和参数量的的大幅提升,GPT-3的准确性也得到大幅提升,已经可以生成高质量文本,让人难以确定是否是人写的。
GPT-3预训练数据量大幅提升
数据来源:维基百科、开源证券研究所
ChatGPT局限:(1)ChatGPT的知识有限。ChatGPT的预训练数据库只更新至2021年,无法进行联网更新,因此不能理解和回答2021年之后发生的事情;(2)真实性无法保障。ChatGPT的部分训练是基于从互联网上搜集的数据,因此它的输出结果经常受到偏见和不准确信息的影响,无法保证真实性。
ChatGPT预训练数据仅更新至2021年
资料来源:OpenAI官网、开源证券研究所
3、算力:微软是独家云计算供应商,预计每月成本近千万美元
微软AzureAI是ChatGPT独家云计算供应商。根据Open AI于2018年的统计,自2012年以来,AI训练任务所运用的算力每3.43个月就会翻倍,算力需求每年长10倍。ChatGPT训练的硬件为超级计算机,2019年,微软向OpenAI投资10亿美元,双方将共同开发AzureAI超算技术,微软也成为OpenAI独家云计算供应商。OpenAI提供训练的超级计算机拥有约285,000个CPU内核、约10,000个GPU,每个GPU服务器拥有约400GB/s的网路连接速度。
预计ChatGPT每月成本约为900万美元。根据Open AI的CEO Sam Altman在Twitter上透露,ChatGPT每次聊天成本约为几美分(single-digits cents per chat),其中一部分来自Azure云服务。我们假设ChatGPT日活用户为1000万人,每次完整对话的成本为3美分,可测算得ChatGPT每日成本约为30万美元,月度成本约为900万美元。
ChatGPT每次聊天成本约为几美分
资料来源:Twitter
技术、产业、政策共振,AIGC迎加速发展
—
AI技术持续突破创新,引领AIGC产业发展。
(1)算法模型方面:2014年以来,GAN、Transformer、Flow-based models、Diffusion models等深度学习生成算法持续涌现,在自然语言处理(NLP)、计算机视觉(CV)等领域持续应用。比如谷歌的BERT和LaMDA、OpenAI的GPT-3预训练模型均基于Transformer模型而来,为后续ChatGPT等应用的落地奠定基础。
AI技术持续突破创新,引领AIGC产业发展
资料来源:腾讯研究院
(2)预训练模型方面:2018年,谷歌推出自然语言预训练模型BERT,AI进入预训练大模型时代。相比之前的生成模型,预训练模型通过大数据和巨量参数的训练,生成质量显著提升,满足下游场景对高精度、高质量的要求,成为了AI技术发展的范式变革,引发了AIGC产业的质变。在自然语言处理领域,大模型的自然语言理解能力超越了人类,并且体现出了超强的通用AI能力。在计算机视觉领域,预训练大模型的效果也超越了之前的监督学习方法,在视觉分类、图像分割等任务中取得了很大提升,且表现出了强大的图像理解能力。
预训练模型通过大数据和巨量参数的训练,生成质量显著提升
资料来源:AI大模型公众号
(3)多模态技术方面:多模态技术是指将图像、声音、文字等多类型内容融合学习,比如将“人”这一文本与人的图片联系在一起。从单模态向多模态的发展,丰富了AIGC的内容,使AIGC应用更具有通用性,在视觉问答、视觉推理等任务中取得了非常好的效果。比如OpenAI DALL-E和百度的文心ERNIE ViLG,根据用户输入的文字即可生成出图片。
预训练大模型从单模态向多模态的发展
资料来源:AI大模型公众号
AIGC产业生态持续完善,已经进入产业落地的关键期。AIGC产业链包括底层的芯片和数据服务支撑、基础算法平台以及下游的行业应用。
AIGC产业生态持续完善
资料来源:IDC官网
(1)基础算法平台方面,预训练大模型需要高成本和技术投入,具有较高的技术门槛,行业参与者主要为头部科技企业和科研机构等,以及一些垂直场景的公司。
(2)下游的行业应用方面,大模型的落地痛点在于成本高昂的通用大模型与下游垂直应用场景需求的不匹配。随着ChatGPT热度持续提升以及大厂的持续投入,有望直接刺激下游付费意愿提升,进一步加速AIGC应用落地和商业变现,AIGC产业迎来发展良机。
政策支持落地,AIGC有望迎来加速发展。2月13日,北京市经信局表示:“支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。支持人工智能优势企业在自动驾驶、智能制造、智慧城市等优势领域开展创新应用,全面构筑人工智能场景创新高地”。北京经信局明确表示支持头部企业打造对标ChatGPT的大模型,支持算力、数据、应用等相关产业协同发展,AIGC行业从市场关注上升至政策支持层面。
预计2030年AIGC市场规模将达1100亿美元。根据腾讯研究院发布的AIGC发展趋势报告,AIGC在AI技术创新(生成算法、预训练模型、多模态技术等)和产业生态(三层生态体系雏形已现)的支持下,有望步入发展快车道,预计2030年AIGC市场规模将达1100亿美元。
巨头积极布局,产业落地加速
—
1、微软:产品全线整合ChatGPT,想象空间广阔
微软与OpenAI持续深度合作,是其独家云服务供应商。2023年1月,微软Azure OpenAI服务对外发布,企业客户可以申请访问OpenAI旗下GPT-3.5、Codex和DALL·E2模型。
微软与OpenAI持续深度合作
资料来源:微软官网
微软计划将ChatGPT整合进所有产品。2023年2月2日,微软宣布旗下所有产品将全线整合ChatGPT,进一步加大与ChatGPT合作。2023年2月7日,微软推出引入ChatGPT技术的搜索引擎New Bing和浏览器Edge。新Bing搜索栏升级为“向我提问吧”的对话框,用户提出问题后,搜索引擎可以自动抓取关键内容并生成回答。
微软ChatGPT版Bing,可以自动抓取关键内容并生成回答
资料来源:Bing
ChatGPT与搜索结合可改善搜索体验。ChatGPT的对话模式对于用户更有吸引力,由于训练数据有限,同时真实性也无法得到保障,尚不具备替代搜索引擎的能力。ChatGPT与搜索结合,则可以结合搜索和聊天的有点,大幅改善搜索体验。
2022年12月Google、Bing在搜索领域的市场份额分别为84.08%、8.95%
资料来源:Statista
2、谷歌:推出对标产品Bard,或将与微软正面竞争
2018年,谷歌推出自然语言预训练模型BERT。BERT(Bidirectional Encoder Representations from Transformers)和ChatGPT同样以Transformers为基础模型,BERT采用双向编码器表示技术,在理解上下文方面有更好的表现。数据方面,BERT训练数据采用了开源语料BooksCropus以及英文维基百科数据,共有约33亿个词。参数方面,基础版本(base)参数量为1.1亿,大号版本(large)参数量达3.4亿。训练方面,大号版本BERT一次训练需要16个TPU集群(约64TPU)训练5天。
谷歌已将BERT模型用于改善搜索。BERT 模型可以借助某个单词前后的词来考虑其所处的完整语境,应用于搜索引擎后,更好的理解用户搜索意图。
2023年2月,谷歌推出对标ChatGPT的对话机器人Bard。根据谷歌介绍,Bard是由LaMDA提供支持的全新实验性对话谷歌AI服务,寻求将世界知识的广度与谷歌大型语言模型的力量、智慧和创造力相结合。它利用来自网络的信息提供最新、高质量的回复。
2023年2月,谷歌推出对标ChatGPT的对话机器人Bard
资料来源:谷歌官网
Bard基于谷歌LaMDA模型,表现已接近人类水平。LaMDA同样以transformer模型为基础,预训练数据库由1.56万亿个单词的文档和对话构成,参数量最高达1370亿,是GPT-3的7.8倍。根据谷歌的测试,经过微调后,LaMDA已经在多个维度接近人类水平。目前谷歌聊天机器人Bard仍处于内测阶段,尚未对外开放。
Bard基于谷歌LaMDA模型,表现已接近人类水平
资料来源:谷歌官网
未来谷歌AI技术将率先应用于搜索业务。在AI领域,谷歌已有LaMDA、PaLM、Imagen、MusicLM等技术储备,涵盖语言、图像、视频和音频领域,未来将陆续整合进公司旗下产品。
3、百度:AI领域全栈布局,文心一言生态持续扩大
百度是国内最有实力推出对标ChatGPT产品的厂商之一。百度在AI领域深耕数十年,在包括底层的芯片、深度学习框架、大模型以及最上层的搜索等应用人工智能四层架构中已形成全栈布局,拥有产业级知识增强文心大模型,具备跨模态、跨语言的深度语义理解与生成能力。
(1)芯片:百度自研AI芯片昆仑芯2单卡算力达128TFLOPS。(2)深度学习框架:百度飞桨是国内规模第一的深度学习框架和赋能平台。(3)大模型:百度在大模型领域积累深厚,已发布4类基础通用大模型以及11个行业大模型。
百度已发布4个基础通用大模型以及11个行业大模型
资料来源:百度飞桨官网
(4)产品和应用:文心ERNIE大模型已在百度百余个产品中应用。包括百度搜索中问题分类、网页排序;Feed流中的新闻推荐、新闻去重;好看视频中的视频推荐;百度地图里的POI检索以及小度智能屏中的意图理解等,都使用到了文心ERNIE大模型。百度已文心一格(AI作画)、文心百中(产业搜索)产品落地。文心一格是AI艺术与辅助创作平台,输入关键词即可生成画作,降低内容生产成本。2022年11月,百度推出大模型驱动的产业级搜索系统“文心百中”,由百度搜索与文心大模型联合研制,命名寓意搜索结果精准,相比传统搜索系统可减少人力成本90%以上。
百度推出AI作画产品“文心一格”
资料来源:百度飞桨公众号
百度即将推出对标ChatGPT 的AI聊天机器人“文心一言”。文心一言预计将建立在全球最大中文单体预训练模型ERNIE 3.0 Titan之上。ERNIE 3.0 Titan已在60多项的NLP任务上取得了世界领先,在SuperGLUE和GLUE都超过了人类排名第一的水平。
ERNIE具备业界领先的复杂知识推理能力
资料来源:AI大模型公众号
“文心一言”生态圈持续扩大。上市公司方面,已有多家公司宣布成为文心一言首批生态合作伙伴,未来将优先接入文心一言的能力,未来也将在垂直领域开展更多合作。
“文心一言”生态圈持续扩大
资料来源:各公司官网、开源证券研究所
4、国内其他巨头也纷纷布局,产业落地加速
2023年2月以来,国内巨头纷纷布局AIGC产业。京东宣布推出产业版“ChatJD”,应用路线图包括一个平台、两个领域(零售和金融)、五个应用(内容生成、人机对话、用户意图理解、信息抽取、情感分类)。阿里类ChatGPT产品目前也处于内测阶段,会与钉钉产品结合。国内具有丰富应用场景和数据积累,破局之路在于产业链的协同,随着国内巨头的纷纷投入,有望带动AIGC相关产业链加速发展。
京东:宣布推出产业版“ChatJD”。ChatJD将以“125”计划作为落地应用路线图,包含一个平台、两个领域、五个应用。1个平台指ChatJD智能人机对话平台,即自然语言处理中理解和生成任务的对话平台,预计参数量达千亿级。
京东宣布推出产业版“ChatJD”
资料来源:京东云公众号
阿里:阿里类ChatGPT产品目前也处于内测阶段。阿里巴巴通义大模型系列已在超过200个场景中提供服务,实现了2%~10%的应用效果提升,典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。
阿里多模态大模型M6参数规模达10万亿
资料来源:阿里公众号
腾讯:专项研究有序推进。腾讯目前在AI 大模型、机器学习算法以及NLP等领域拥有技术储备,并表示在ChatGPT相关方向上已有布局,专项研究也在有序推进中。
科大讯飞:5月将推出AI学习机产品。目前,在认知智能领域,公司已陆续开源了6大类、超过40个通用领域的系列中文预训练语言模型,成为业界最广泛流行的中文预训练模型系列之一。公司表示Al学习机、讯飞听见等将成为公司类ChatGPT技术率先落地的产品,将于2023年5月发布。
科大讯飞已开源了6大类、超过40个通用领域的中文预训练语言模型
资料来源:科大讯飞公众号
投资建议
—
国内具有丰富应用场景和数据积累,随着巨头的纷纷投入,有望带动AIGC相关产业链加速发展,建议积极关注。(1)算法和场景领域受益标的包括科大讯飞、三六零、拓尔思、金山办公、福昕软件、同花顺、万兴科技、格灵深瞳、云从科技,(2)数据领域受益标的包括海天瑞声,(3)算力及芯片领域受益标的包括浪潮信息、中科曙光、寒武纪、景嘉微。
受益标的盈利预测和估值
数据来源:Wind、开源证券研究所(科大讯飞、三六零、拓尔思、福昕软件、同花顺、浪潮信息、中科曙光盈利预测来自开源证券研究所,万兴科技、格灵深瞳、云从科技、海天瑞声、寒武纪、景嘉微盈利预测来自Wind一致预期)
风险提示:技术发展不及预期;商业落地不及预期;政策支持不及预期。
研报发布机构:开源证券研究所
研报首次发布时间:2023.02.22
分析师:陈宝健 证书编号:S0790520080001
联系人:闫 宁 证书编号:S0790121050038
《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向开源证券客户中的金融机构专业投资者,请勿对本资料进行任何形式的转发行为。若您并非开源证券客户中的金融机构专业投资者,为保证服务质量、控制投资风险,请勿订阅、接收或使用本订阅号中的信息。本资料难以设置访问权限,若给您造成不便,还请见谅!感谢您给予的理解和配合。若有任何疑问,请与我们联系。
免责声明
开源证券股份有限公司是经中国证监会批准设立的证券经营机构,具备证券投资咨询业务资格。
本报告仅供开源证券股份有限公司(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而视其为客户。本报告是发送给开源证券客户的,属于商业秘密材料,只有开源证券客户才能参考或使用,如接收人并非开源证券客户,请及时退回并删除。
本报告是基于本公司认为可靠的已公开信息,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他金融工具的邀请或向人做出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突,不应视本报告为做出投资决策的唯一因素。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。若本报告的接收人非本公司的客户,应在基于本报告做出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。
本报告可能附带其它网站的地址或超级链接,对于可能涉及的开源证券网站以外的地址或超级链接,开源证券不对其内容负责。本报告提供这些地址或超级链接的目的纯粹是为了客户使用方便,链接网站的内容不构成本报告的任何部分,客户需自行承担浏览这些网站的费用或风险。
开源证券在法律允许的情况下可参与、投资或持有本报告涉及的证券或进行证券交易,或向本报告涉及的公司提供或争取提供包括投资银行业务在内的服务或业务支持。开源证券可能与本报告涉及的公司之间存在业务关系,并无需事先或在获得业务关系后通知客户。
本报告的版权归本公司所有。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。
长按识别二维码关注我们
开源证券研究所