这个测试很快就结束,随着测试结果的出炉,在一旁用来比对的数据也开始显得非常渺小。
这个测试分为了许多项的分数,有中文理解能力测试,数学逻辑正确测试,还有英语理解能力测试。
其中美丽国的Goal-AI-4o在此款测试软件中得分并没有多少。
因为这个软件采用的是非常严苛的算法。
一些测试用例的答案都必须偏人性化思考才能取得答案。
这才造就了任何一款AI测试得分比较低的缘故。
他国的AI基本上每一项能力的测评基本上只有50分左右。
而且美丽国的AI中文理解能力在这款软件之中得分也是偏低,只有30多分。
而林宇上传的这款AI在其他模型的面前就凭着得分的直条统计图。
就像一座大山一样,稳稳压着它们。
只见界面上写着。
得分(本次结果已经联网上传):
中文理解能力测试100分,数学逻辑正确测试100分,还有英语理解能力测试98分。
林宇不清楚为何英语理解能力为什么会差两分,可能是题目统计的缘故。
随后他接着再测试两遍。
发现程序到现在为止分数依旧是如此。
就算平均分三次都是同样的分数得出来的也就是原来的分数。
只有英语理解能力有略微的差异,不过平均得出来的也是98.5分。
他看着破天AI的后台界面,想到降级后的AI。
这都能直接横扫其他公司开发的AI,原来AI的本体到底是有多强啊。
而此时,在美丽国AI测评协会之中。
一位身穿西服的黄皮肤的小伙子坐在办公室中不断端详着桌面的报告。
在别人一眼看去就知道他是亚裔。
这位正是我们龙国公费外派出去留学之后不回来的人士之一刘能。
他看着桌面上的特殊报告也是皱起眉头来。
“这是我们软件的BUG?”
他喃喃说道,自己的心中也拿不定主意,随即立刻拿着报告给自己的上司发过去。
发送过去之后,自己又开始端详起来。
“连续三次都是得一百分???只有英语才有波动98.5分?”
很快,他就想到一个可怕的事实。
因为在AI测试的过程之中。
多次的测试,每一次测试的分数定然是不相同的。