01
几百条读者留言,怎么才能快速归类整理
今年4月份,我们为即将出版的新书《Python自动化办公应用大全-ChatGPT版》做了一次封面评选活动。在活动中,给出了A\B\C一共3个封面方案,请大家投票和留言。
这次活动收到了830张投票,464条留言。
在投票结果中,A和B封面的投票数非常接近,占到了总票数的78%。
这下让出版社和作者团队也犯了难,不知如何选择。
从统计角度看,此次投票只能算是抽样,而且因为不清楚到底是哪些小伙伴参与了投票,所以不能知道抽样数据是否符合目标整体特征。
所以,投票数据只能是参考数据之一。
比投票数据更有价值的是大家的留言,不少小伙伴通过留言,从客观和主观两方面对不同封面发表了明确的见解。
参见:《Python自动化办公应用大全-ChatGPT版》封面评选
在这样的情况下,如果能把所有留言进行整理、归纳,就可以帮助我们更准确的了解小伙伴的看法,从而辅助决策。
几百条留言已经导出到Excel里面了,用肉眼看一遍并不慢。
可惜人脑的内存有限,很容易看了后面忘了前面,或者漏掉重要内容,甚至看错内容。
从一大堆留言这样的纯文本数据中获取有价值的信息,这就是“文本挖掘”,是数据分析的一项内容。
还记得Kevin上次演示的分析Excel函数的文章吗?
那是娱乐版的文本挖掘。
实际上,如果真的要进行文本挖掘,首要先进行分词。
也就是把一大段话合理地分拆成一个一个的词语。
中文博大精深又言简意赅,分词不是件简单的任务。
分词以后,就可以进行词频统计、逻辑关联或者其他统计与分析。
然后生成词云图什么的,了解重点关键词,关键词之间的关系是什么。
但这些都不符合我们现在的需要,因为我们需要更高级的挖掘——语义理解。
这个工作,目前是AI的强项。
02
使用嵌入式ChatGPT应用分析留言
于是,我们基于ChatGPT 3.5自定义了一个嵌入式应用。
把我们的留言数据上传成为专用数据集,然后请ChatGPT来帮我们分析。
为啥不直接使用ChatGPT官网的ChatGPT 4.0呢?
不是不想,主要是因为ChatGPT官网不支持上传文件。
而且默认的token只有4K,也就是上下文关联的内容长度差不多2000字而已,这对于我们的本次分析是远远不够的。
就算我们分N次把所有的留言都粘贴给ChatGPT,它也记不住。
而实战中,可以通过API调用ChatGPT,最大支持32K。
介绍这些背景给大家,主要是想说,不是学会几句Prompt就可以发挥ChatGPT的所有能力了,真正的实战应用需要你学会更多的方式来使用它,如果会写代码去调用ChatGPT那就无敌了。
一切配置妥当,我们开始提问:
01
Kevin:
你是一名资深的图书出版社营销编辑,为了准备一本新书《Python自动化办公应用大全-ChatGPT版》上市,你在社交媒体上发起了一次关于该图书封面的讨论,提供了3组图书封面(分别编号为A\B\C)。你收获了很多潜在读者关于封面的留言,下面你需要根据具体提问来从留言中分析出有价值的信息。
注意,读者的留言中,可能会用第一、第二、第三分别代表A、B、C封面。
第1个问题:请罗列出在读者眼中,A\B\C三种封面的主要特点,优点以及缺点。
AI Copilot:
- 特点:鲜明、舒服、符合简约的潮流、有科技风格
- 优点:对比明显、让人印象深刻、吸引眼球、符合当下的审美趋势
- 缺点:可能过于简约,缺乏细节和层次感
- 优点:细看带有科技感、颜色单一、给人沉稳感、符合编程书的经典款式
- 缺点:颜色单一、不够出挑、可能缺乏吸引眼球的亮点
C封面:
- 优点:有魔法书的感觉、有皇家范儿、给人神秘感
- 缺点:可能过于复杂、不够简约、可能不符合目标读者的审美趋势
02
Kevin:
AI Copilot:
03
Kevin:
AI Copilot:
04
Kevin:
AI Copilot:
通过以上的提问和回答,ChatGPT帮助我们归纳和总结了留言中的意见,而且给出了专业建议。
这也为A封面的最后胜出,投出了重要的一票。
所以,正如大家看到的,最后的结果就是:
如果说标准款的ChatGPT只是一个普通神仙,那么使用微调或嵌入技术的ChatGPT应用就是带着高级法宝的大罗金仙。
未来,人人都可能需要调教出自己的专属AI助手。
那么,懂一些代码知识是很必要的。
目前市面上所有的大语言模型都支持用Python调用,这给予了Python这种编程语言面向未来的能力。
未来的办公,极有可能是各种带AI的软件+个性化AI总管来帮助个人完成任务,有编程基础的人,肯定能比其他人更方便的定义出对脾气又强大的AI总管。你说呢?