AI革命——chatGPT贡献生产力
肖涵,Jina AI 创始人兼 CEO。2018年 - 2020 年,肖涵在腾讯 AI Lab 负责基于深度学习搜索项目研发,也是腾讯开源办公室成员。2019 年肖涵作为 LF 开源基金会董事成员,对内大力推动腾讯开源协同技术文化,对外积极构建腾讯在国际开源社区的合作,并一手促成腾讯加入 TODO 基金会。肖涵 2014-2018 年在德国 Zalando 公司担任高*级研究员。2014 年获得德国慕尼黑工业大学计算机博士学位。肖涵是德中人工智能协会的创办人和主*席,也是 Mindspore 技术委员会成员。
Jina AI 专注于人人可用的多模态数据平台,利用云原生、MLOps 和 LMOps 让每个企业和开发者都能享受到好的搜索和生成技术。累计获得来自GGV、云启资本、SAP等中美投资机构的 3750 万美元融资。公司自 2020 年成立以来连续两年登榜 CB Insights 全球 Al 百强榜单,荣登 Forbes DACH AI 30 2020。
Jina Al 推崇工程师文化,拥抱开源。公司总部位于德国柏林,在中国和美国均设有办公室。团队成员来自于微软、谷歌、腾讯、Adobe 等科技公司,覆盖超全球 10+ 国家。
Q:生成式、感知式、决策式的AI的核心关系?未来AI的发展趋势?
AI范式主要分为决策式AI和生成式AI,感知式AI目前不常用。2010年开始国内的互联网企业开始布局相关产业,推出了简单的模型:推荐系统、搜索优化、垃圾邮件的分类等;2018年出现了生成式对抗网络(Generative Adversal Network, GAN),即Deepfake,随后遇到疫情行业进入低迷;ChatGPT的出现意味着语言生成模型、多模态的生成式模型将会越来越多,今年C端会出现很多新品、B端也会出现二次开发平台,在学术圈以及OpenAI的推动下,生成式AI势必进一步发展。
决策式AI更多是基于已有内容、利用AI规则进行内容分类、推荐、过滤、提取等,其范围非常广。从2010-2020年决策式AI在语音识别、人脸识别等领域广泛运用。
生成式AI恰好相反,可基于文字生产图片、音乐、视频等,自2020年后逐步兴起。早年(2014年)的生成式AI较为简单,生产16×16像素的黑白照片;2018年逐渐有所发展,2020年OpenAI推出代DALL·E;2021年推出第二代DALL·E,实现文本到图片的跨模态;2022年Stability AI推出stable Diffusion,融资1亿美元;2022年11月30号ChatGPT发布,使得较多博士论文因为过于简单,直接失去作用。
Q:单模态和多模态AI优劣势对比?多模态发展的核心驱动因素?
在2020年之前,AI的商业化主要依托于单模态实现,并且单模态的应用场景较多,单模态AI的输入和输出都是同一模态,如图片分类和人脸识别等。虽然 2020 年以前存在部分跨模态的应用(如语音识别等),但大多数仍为单模态的应用。
然而,随着互联网数据类型和数据量不断丰富,从文本到视频的转变已经实现,越来越多的需求需要实现搜索、索引和生成数据,多模态发展的核心因素主要是数据和技术的不断发展。自从2014年的贝叶斯,到2015年深度学习逐渐成为主导,2016年TensorFlow推出并成为个大规模开发者使用的深度学习框架,其参数规模、计算能力和模型容量也在不断提升,这些因素都推动了多模态的发展。
Q:如何看待互联网头部公司与高校中大模型的优劣势?
国内的技术路线本身不会有较大的差异。大规模语言模型相当于一个数据库,问题在于如何有效地储存海量的数据,ChatGPT并未专门针对中国用户进行优化,其数据相对均衡。这对于汉语环境中的未来的商业化落地是一种利好,因为只需往模型中灌输中文,因此其质量可能更高。未来大厂推出产品时,其将会聚焦于仅中文,将大模型变为专项垂直领域的小模型。
大规模语言模型的特点是庞大。2023年“Reinforcement learning 强化学习”将成为遍地开花的技术,而“in-context learning (ICL)”上下文学习技术是机器学习中技术,当模型大到一定程度的时,模型自然而然地会具备一定的推理、新任务调教等技能;模型越大,该能力越强。谷歌的Bert模型并未运用prompt engineer。
Q:当前国内AIGC相关企业的商业化模式相对模糊,如何看待其发展?
2022年stable Diffusion诞生后出现大量的AIGC企业。Jina AI 基于 ChatGPT 研发的一个具有批判性思维的 AI 辅助决策工具 Rationale.jina.ai。仅一个月 MAU 已达 10w,并且已有付费用户和稳定订阅。因此个人认为2023年To C将会有较快的发展。
AIGC领域的创业并非需要人数庞大的团队,对于汉语圈而言大的障碍是否是能有一个稳定的高质量中文GPT,其将会激活一大批下游的产研。
Q:如何看待未来下游应用的广泛性?会从角度颠覆内容产出?
大规模语言模型是金子,而ChatGPT像铲子。ChatGPT能够将大模型技术直接应用于产品中,从而提升用户的生产效率。部分产品已经在准备商业化,个人认为个consumer product可以是类似Notion等。
用户关注ChatGPT能够为日常工作和生活中的痛点带来什么效果,然而目前 ChatGPT 的输出需要大量的前期沟通。如果能够确定好前期的 Prompt,则有望将 ChatGPT 逐渐推进产品化的方向
这也就是为什么我们推出了一款用 AI 全面优化 Prompt 的新产品「美提示词」,用魔法来打败魔法。当你输入提示词后,它就会输出优化后的「美提示词」,并让你预览优化前后的模型输出。目前文本模型支持 ChatGPT、GPT 4、GPT 3 的提示词优化,还支持图像模型 Stable Diffusion、DALL·E 、Midjounery、Lexica 等等,Promptperfect 能够帮助你在各种大语言模型找到好的提示词。
产品体验链接:promptperfect.jina.ai
Q:当前人们主动获取信息的主要途径是搜索,而 ChatGPT 可能使得问答更加高效精准。如何看待 ChatGPT 对于搜索的影响?在您看来,搜索的未来是什么?
我在12月15号写了一篇长文章,名称是《 SEO已死,LLM永生》。
在讲搜索之前,先讲一下SEO产业。人们会为了提高网站的排名尽量去写文章, 将文章中要推荐的产品尽量铺外链,写一些相关性文章,使得这些外链后指向产品主页,这样用户在搜索某个关键词的时候,产品有非常大的机会能靠前显示。这基本上是现在搜索引擎的一些做法。通过分析用户的输入和每天爬取的网页,去判断其中的相关性,并判断整个网页的权重,对所指向的外链和内链综合给出排名。
ChatGPT 刚出现的时候,很多人觉得太方便了,原来做内容生成,需要自己去构建外链文章,需要自己写,或是雇人写,现在直接用 ChatGPT 生成。比如:我要推荐一个手机,就让 ChatGPT 总结出这部手机的十大优点,市场上的竞品,都可以几秒钟之内生成一段相对可读的文章。从搜索引擎的角度来讲,它区分不出来文章是人写的还是机器写的,反正都抓取过来,判断一下相关性,这中间存在一个信息差,SEO 的从业者就利用信息差去实现自动化。
但实际上 ChatGPT 大的一个问题就在于:可以把它想象成一个数据库,它通过大规模的语言模型,将所有人类的知识,笔头上、书本上的一些知识存储起来,再以某种概率形式返还给你,所以它给出的结果就相当于数据库中的存储与读取,只不过它的数据库是一个概率性的数据库,并不是直接返回你一个确定性的结果,有可能是通过差值产生的。
基于这种原理,其实可以把 ChatGPT 想象成一个搜索引擎,它和搜索引擎有很多相似性:搜索引擎是将所有网上的数据去爬取,根据用户的输入去判断相关性,返回 top rank 的结果,比如排名前10、前 20。GPT 也是将所有的人类书写的东西索引起来,存储在几百亿的参数模型下,用户在输入时,它激活这些神经网络,把相应的数据返还给用户。从本身的原理上来讲,抽象地看,这两者大致是相同的。
为什么 ChatGPT 要比 Google 的用户体验更好?因为 ChatGPT 是以一种人机对话的形式来返还给用户,并且返还的时候,它不返前 20 的,就返还排名*第*一的,这时候的用户体感就非常好。在做搜索引擎时,可能要翻好几页、好几十页去找一个结果,ChatGPT 直接返还给你个结果,告诉你这个就是你想要的答案,所以又会节省非常多的时间。
这其中就引出一个问题:如果未来的搜索都是以 ChatGPT 的形式存在,这时候想做 SEO,该怎么做?SEO 通过不断地写文章、不断构建外链,能够让搜索引擎给出用户想要的排名,但 ChatGPT 可能会给出商家不想要的结果,这时候从商业上考量,未来大规模语言模型可能需要通过上下文学习、产生特定的输出。
Q:ChatGPT 未来创造超额收益是否是可预见性的?大概需要的时间?
是否能够把 ChatGPT 创造的东西进行变现。个人认为:,ChatGPT大规模语言模型永远不会有创造力;第二,基于差值产生的内容有一定的价值,能够取代很多人工输出的内容。但真正能够推动历史发展的东西,是不会创造出来的,仅会根据人类历史而不断地做平均,随后返回平均的结果。指望大规模语言模型带来真正的创造力是不可能的、
从某种意义上而言,ChatGPT的内容生产存在一定的局限性,若未来网络上的东西均为ChatGPT产出,势必对社会结构产生影响。
日常生活中的内容是能够被ChatGPT取代的,其涉及到内容变现,此时无需创作者,仅需进一步依托于ChatGPT进行降本即可,提升其边际收益。从现在开始,我们应学会如何同时接受人类产生的信息和机器产生的信息。
相关文章