因为手上没有GPT4.0和文心一言的权限,所以昨晚看了好几个相关的对比测试直播。其中有一个是把GPT3.5、4.0和文心一言放在一起测试,问的问题也都比较刁钻,比方说写高考作文、续写出师表、孙悟空如果穿越回三国会发生什么、用四川话讲个故事之类。
整个看下来,我的感受大概是:
文心一言差不多相当于小学低年级水平,大概能明白问题字面的意思,然后根据自己的知识库和理解来回答,不太会思考提问者的真实意图是啥。写作文的特点是就事论事,缺乏展开和联想。连续提问的时候通常只能针对最近一个回答,而无法把这些问题都结合起来。你很难和他聊开来,基本也只能一问一答,回答质量比较随机,正好赶上他懂的就不错,否则就鸡同鸭讲。
GPT3.5大概类似于小学高年级水平,已经开始试图思考提问者的真实意图,能和你聊起来。虽然很多回答也不那么靠谱,但基本都能和问题沾上边。如果你不故意去误导的话,大部分问题还是能命中靶点。写的作文中规中矩,虽然还很古板但已经能有一定展开和联想。
但总体看文心一言和GPT3.5本质上应该是同一个层次上的产品,也都没有超出我对人工智能的预期。基本上他们都还只是一个比较好用的搜索引擎,写出来的东西能看出明显的模仿痕迹,或者说是一种相对比较高明的抄袭。
以一个前程序员的直觉,我相信只要给度娘足够的时间和算力,文心一言大概率能够进化到类似于GPT3.5的水平。
这可能也是为何虽然盘中百度跌了很多,但晚上美股反弹的原因。市场可能认识到文心一言还可以,有进化的余地。
但GPT4.0,超我预期。
就我个人感觉,他已经具备了一个初中生甚至高中生的理解能力,写出来的作文也绝对优于高考的平均水准,写出来的代码反正比大部分大学生都强。我当了这些年大学老师,如果来参加我的考试,GPT4.0的表现应该能超过90%的学生。
那为何我还认为他只具备中学生的理解能力?
因为考试这玩意儿,主要考察的还是记忆和归纳,正好是AI的特长。
而人类智慧最重要的特质则是演绎、推理和想象,这方面AI还比较弱。
举例来说,写文章的高水平是“情理之中,意料之外”,情理之中是归纳,意料之外是演绎。截至目前,GPT4.0的表现依然是“情理之中,意料之中”,反正暂时还看不到有帮我写公众号的可能性。
但是,即便只是擅长记忆和归纳,也已经足够在工作中发挥巨大的作用。
因为人类社会大部分工作都是归纳性的,今天和昨天一样,昨天和前天一样,只有少部分工作是探索性的。
即便你是一个不混日子的科学家,也要经常填一大堆表格、写一堆汇报材料、填写非常复杂的发票报销材料、费心去填材料去申请资助。往少里说,至少也要占50%以上时间。未来AI估计能把这些事大部分都给处理了。
但我一点也不认为未来大家都能省事了。
举个简单例子,我刚工作那阵报销还是件非常简单的事,所有发票往报销单上一贴,算个总额就行了。
后来变复杂了些,发票要分类,不同种类的要分开,也还行。
再往后更复杂,比方说差旅报销,一趟行程都要贴在一起,需要耐心整理。
总之经过N次迭代后,现在整个报销制度非常复杂,基本每张发票后面都要有一个论证其合理性的说明,按流程还需要事前事后若干审批签字。特别是餐饮发票,吃顿人均30的快餐都要攒齐一篇时间、地点、人物、事件四要素的小作文。最佳方案只能是不吃或者自掏腰包...
据说excel表格刚发明的时候,人类惊呼未来办公太轻松了,但随即老板们立刻就想出各种办法来抵消技术带来的效率进步。随着excel表格的普及,行政人员的数量不仅没有减少,而且还更多了。
虽然ai能做很多事,但人类总是能想出更多的办法来消耗掉这些算力。
我对此深信不疑。
周末就叨叨那么多,行情还不错就省一顿鸡汤,正经夜报周日晚见。