一名开发人员通过开发AutoQuizzer对大型语言模型(LLM)进行了测试.
AutoQuizzer是一款根据网页上的文本创建测验的工具.
该应用程序由Stefano Fiorucci开发--他的日常工作是为企业人工智能机构Deepset担任软件工程师--代码可以在GitHub上找到.
Fiorucci还提供了一个拥抱面孔上的AutoQuizzer版本.
使用这款应用很容易:输入一个URL,点击“生成测验”,然后准备在由该模型创建的多项选择题中测试自己对页面内容的解释.
该系统尝试每页生成五个问题.
在我们的测试中,只需要一两秒钟就可以创建一个测验,用户可以自己完成或交回人工智能系统回答.
当应用程序自己进行测验时,你可以选择强制它进入“闭卷考试”模式,在这种模式下,该模型只依赖于页面主题、问题和任何它接受过训练的信息来挑选答案.
或者,AI可以被允许考虑关于网页主题的前三个谷歌搜索结果.
在任何一种模式下,人工智能代码都需要几秒钟的时间才能得出答案.
Fiorucci向The Register解释说,创建AutoQuizzer实际上很简单,因为构建它的组件已经可以用了.
该应用程序使用Deepset的开源框架HayStack从指定的页面中提取文本,并通过Groq的免费推理API将其传递给Meta的Llama-3-8B-Indict LLM.
大羊驼神经网络被提示分析文本,并根据JSON格式的内容生成一个测验,供网络应用程序显示,用户或大羊驼本身都可以回答.
菲奥鲁奇指出,也可以使用其他更强大的LLMS,但他使用Llama-3-8B作为AutoQuizzer是有具体原因的.
也许最重要的是,该模型相对较小且速度较快,可以通过Groq的API免费使用,这使得基于网络的免费演示成为可能.
我试过微软的Phi-3-mini,因为它在基准测试中有非常好的性能,尽管它的体积很小:它的参数不到40亿.
与LLAMA-3相比,它不能生成有效的JSON,测验问题有时太容易或制作得太差,“Fiorucci说.
任何想要用另一个LLM制作自己版本的AutoQuizzer的人,比如更强大、更大的模型,都可以这样做.
Fiorucci说,Llama-3可以与GPT家族的成员交换.
为了遵守免费Groq API的规则,AutoQuizzer只会将网页的前4000个字符发送到LLM进行分析.
Fiorucci告诉The Register,骆驼3-8B在处理维基百科等来源的文章方面比在新闻文章上更好.
尽管如此,字数限制更可能是维基百科页面的一个问题,这是不方便的:新闻报道往往将最重要的信息放在开头,而维基百科条目的结构不是这样的,而是以摘要开头.
在注册中心的测试中,AutoQuizzer通常会提供像样的问题和合适的答案.
几乎每一个问题都有四个基本的答案选项--只有一个问题提供了“以上所有”选项--而且所有问题都是围绕主题的.
它甚至可以从一篇非英语文章中生成英文问题,尽管这对LLM来说并不理想,而且可能会引入错误.
当我们让Llama-3-8B回答它生成的测验时,如果允许访问谷歌结果,它通常会正确回答五个问题中的三到四个--这不是一半的糟糕,但嗯,这是作弊.
此外,考虑到这些类型的语言模型的文本完成性质,人们可能会期望LLM能够回答自己的问题.
我们确实发现了一些怪癖.
一些问题有重复或非常相似的答案选择,或者答案没有完全解决问题.
该工具也可能错过它被要求考虑的内容的要点.
这篇关于微软向中国员工提供搬迁机会的文章促使人工智能发问:“为什么会增加根据文章,中国对电动汽车征收经济特区关税?正确的答案是:“由于美国总统乔·拜登的决定.
”这是正确的,但与AutoQuizzer被要求考虑的文本无关.
然而,对于Fiorucci来说,AutoQuizzer的目的并不是以一种独特的方式测试LLMS或提供某种实际用例.
“AutoQuizzer是一项努力的一部分,目的是展示你可以多么轻松地使用HayStack制作演示和生产软件,”他解释道,他指的是他雇主的框架Natch.
“HayStack是一个强大的开源框架,用于构建基于大型语言模型的应用程序.
”他承认,“在目前的形式下,AutoQuizzer是一个业余爱好项目,”他指出,“它可以变成一个库或CLI应用程序.
”它也可能成为在教育或娱乐领域创造类似的、更精致的工具的灵感.
“考虑到其输出的质量,Llama-3-8B可能不是用于教育或学术领域这样的应用的合适工具,尽管也许更强大或更未来的模型会更有用.
事实上,一些程序员可能已经在努力改进AutoQuizzer-GitHub的六个分支.