AI 不是神,也不是人

文/贝楠 2025年5月22日;标题图像由AI Gemini制作 

AI(Artificial Intelligence)是人工智能。2022年11月30日,由OpenAI开发的AI语言模型ChatGPT首次公开。2025年1月20日,DeepSeek-R1正式发布。2025年2月18日,Grok-3公开亮相。AI瞬间成为热门话题,家喻户晓,人人皆知。

ChatGTP在2022年问世时,很多人还不知是何物,在朋友圈里很少听到有人使用。但是DeepSeek和Grok-3的登场仿佛是氢弹爆炸,震醒了所有人。一时间,微信群、朋友圈里热闹非凡,小哥小姐、大爷大妈……, 几乎所有的人都在谈论AI。几年前出场的ChatGTP也立刻成了热门,同DeepSeek和Grok-3一起成为AI智能三剑客。

仅仅几个月的时间,这AI智能三剑客似乎征服了所有人。微信、朋友圈,社交网站……,人人都在谈AI,人人都在用AI----提问题、制定旅行计划、作诗、写文章、画画、做视频、看病、开药,预测股票,法律咨询……。AI似乎是无所不知,无所不能,像神一样。

笔者也很喜欢AI,从2022年就开始用ChatGPT。DeepSeek和Grok-3公布后,就迫不及待地尝试。不过我们这些普通人,特别是退了休的老头老太,对AI的很多强大功能不知道,也用不上----比如职场策划啦、编程啦、制作PPT啦,等等。

从朋友圈中得知,很多人用AI主要是百科问答和资料检索。这也是我主要使用的AI功能。但是在查询过程中,我发现了AI很多问题,也不断地和AI智能三剑客吵架,澄清事实。看到公众对AI的狂热和神话后,我本能地产生了一些疑问。

我的“本能”来自于我的职业生涯。我虽然没有搞过AI,但搞过网页设计,当过图书馆员,参与过数字图书馆的项目,也管理过数据库,对互联网略知一些。

我分别问智能三剑客,你能进入付费数据库吗?

答案是一致的,不能

再问,你能看到互联网上的哪些东西?

三剑客的回答也是大同小异:我的知识主要来自公开的网络文本、书籍、文章和开源数据集,比如网页、搜索引擎结果、部分社交媒体内容,以及用户上传的文件。

注意!这里的关键词是:公开

退休前,我也搞过一个大型数据库。这个数据库在互联网上是公开的。用户可以在网上查找资料。

所以我又问Grok-3,你能查询这个公开数据库吗?

答:不能

问:为什么?

答:虽然这些资源公开,但需要手动搜索或动态交互,我无法模拟这种操作,只能指导你如何查询

问:为什么你能搜索谷歌(Google),却不能搜索这个公开数据库?

答:谷歌提供静态内容和API支持,而公开的数据库需要动态交互,我做不到

我又问,你能查询数字图书馆吗?(因为我知道,很多数字图书馆都是公开的。读者可以直接在网上查询资料或全文书籍)。

答:我无法直接进入数字图书馆的数据库进行实时查询或模拟手动搜索

看到这里,希望您已经明白一些了,或者对AI的信息来源也产生了疑问。不过,我还是想尽我所能简单解释一下我询问的原因。

首先,谈谈数字图书馆(Digital Library)。

借用维基百科的定义,”数字图书馆(digital library)是一种馆藏以数字化格式存储,可以利用电脑访问的图书馆,而传统图书馆的馆藏则以印刷、微缩胶片或其他媒体等相对格式为馆藏主体。”

上世纪末本世纪初,我曾参与过几个由美国政府资助的数字图书馆项目。用这些实例解释一下什么是数字图书馆,可能更好懂一些。

我最初搞的项目是历史照片数字化。说白了,就是将上万张历史老照片扫描(Scan),变成电脑可读的文件(JPEG);然后对这些电子照片(Digital images)进行人工编目(Catalog);最后,制作一个网页搜索界面,将储存这些电子照片和编目的数据库连接到互联网上。整个过程就是数字化(Digitization)。

以后我参与的项目就不仅限于老照片了,有古籍书刊、报纸、手稿等文字资料。这些资料用扫描仪(Scanner)扫描后,利用OCR(Optical Character Recognition,光学字符识别)技术,将电子图像上的文字转化成电脑可读的文件,就可以搜寻全文了。

2000年后,数字图书馆项目在全世界如雨后春笋,蓬勃发展。特别是2010年以后,期刊、图书数字化已不是“项目”,而是许多图书馆的日常工作了。也就是说,许多图书馆每天都在扫描老杂志和图书,使读者可以在网上查询和阅读全文。谷歌图书(Google Books)还野心勃勃地扫描全球图书馆的书。而数码相机(Digital camera)和文字处理软件(Word processing software)的发展,更是使图像和文件生来就是数字或机器可读格式,直接进入数据库。数字图书馆有了爆发式发展。

这整个过程不是本文阐述的重点,在此不再赘述。

您可能已经用过这些数字图书馆,知道了您不光能查询,还可以看到图像及文章、书籍的全文,甚至视频。其实,您也不用知道您用的是不是数字图书馆,只要知道在互联网上能查到就行了。

可是,AI承认,它无法查询这些数字图书馆,也看不到全文、图像和视频

其次,再谈谈付费数据库(Database)。

上世纪末,我在大学图书馆工作,这样的数据库就已经有了。通常是图书馆购买数据库的使用权,在图书馆中必须用特定的工具才能查询。而数据库的内容主要是期刊杂志索引。

从20世纪初开始,随着电脑的普及,互联网技术的发展,特别是微软Word的应用,使期刊和图书出版业有了翻天覆地的变化。所有的文章图书生来就是数字化的电子形式(Word文件),直接进入全文数据库。

这些数据库里存有世界各行各业的顶级期刊,高质量的科研文章,学术论文等等。而这些期刊和图书数据库都被大出版社所垄断。数据库的使用费用暴涨,许多大学图书馆都付不起。这又促进了图书馆联盟(Library Consortium)的发展。数个图书馆结成联盟,购买付费数据库的使用权。

我曾在一个大学图书馆联盟工作过,对这些付费数据库的情况也略知一些。联盟里有专人负责协调付费数据库的选择、购买及分享等工作。图书馆联盟内大学的学生和教职员工都有权限使用这些数据库,而不需个人付费。

但是,AI是无法进入或查询这些付费数据库的,也无法看到数以亿记的学术论文

和GROK-3探讨过这些问题,它说,付费数据库及大部分数字图书馆属于“深网”,它进不去。

我对“深网”这个词很感兴趣。查了一下。“深网(Deep Web)是互联网上无法被标准搜索引擎(如Google、百度)索引的内容,区别于‘表面网络’(Surface Web,公开网页、X帖子)。”

再和GROK-3探讨。因为我觉得,深网这个定义没有涉及上面说的付费数据库。

GROK-3解释说,这个深网定义是2001年由伯格曼提出的。那个时候,付费数据库的规模还很小。比如,著名的期刊数据库JSTOR那时只有几十万篇文章,而在2025年已发展到1200万篇文章。所以,深网的定义没有突出付费数据库。

那好,就用“深网”这个概念吧。

我又问GROK-3,你能看到油管(YouTube)或抖音的视频内容吗?

答:不能

记得我们在摩洛哥的好莱坞影城瓦尔扎扎特参观,导游说里面的一个西藏庙宇是电影《末代皇帝》拍摄地。在写游记时,我将电影《末代皇帝》翻出来看了一遍,确认里面没有那个庙宇,导游的说法是错误的。

当时我告诉GROK-3我的做法,问,你能这样做吗?回答是:不能。它只能从公开的文字信息分析,根本看不了电影。

现在,让我简单总结一下AI看不到、进不去的“深网”都包括什么:

  • 付费或需要登录权限的数据库;
  • 需要手动搜索的公开数据库,如数字图书馆;
  • 视频平台,如油管、抖音等;
  • 需要注册的社交平台,如微信,微信读书,需登录的微信公众号,等;
  • 无数的私网、密网、黑网……

 

那么,这些信息在互联网中占多大比例呢?我请GROK-3估算一下。这是它的回答。

粗估一下,我能访问的公开信息可能只占互联网的1-5%,甚至更少。剩下的95%+对我来说就是“黑匣子”

1-5%

这是一个让我震惊的数字!互联网的海量信息中,AI能访问查询的只占1-5%!

让我举几个简单的例子,来说明AI看不到的信息有多少。

  • 谷歌图书(Google Books)数字图书馆提供 500 多种语言的 4000 多万本图书。其中超过 1000 万本免费图书可供用户阅读和下载。AI只能看到其中很小部分内容。

  • JSTOR是一个付费数字图书馆或数据库。JSTOR 提供75个学科的 1200 多万份期刊文章、书籍、图像和主要资料。AI完全看不到。

而我们还只谈到互联网,没有提到世界上无数个图书馆、档案馆(Archives)和博物馆储存的信息。这些AI是根本看不到的。

看到这里,您还认为AI像神一样无所不知吗?

是的,AI有很强的推理分析能力,但是如果它根本无法进入这占互联网95%的深网信息,它用什么资料来推理分析呢?

其实,我们(人类)能看到或有机会看到的信息比AI要多得多。我们可以搜寻数字图书馆,可以看视频,可以进入需要注册的平台,也能自由进入图书馆、档案馆和博物馆。相比之下,您是不是觉得AI很惨?

现在,再来谈谈AI也不是人。

许多人把AI神话了,对AI期望太高,再加上不知道AI进不去深网,所以对AI的一些回答很失望。听到很多人抱怨AI“不懂装懂”,“说谎“,”忽悠“, 等等。

我问过GROK-3,你会不懂装懂吗?

答:我不是人类,没有那种“人的思维”,所以压根儿谈不上“懂”或“不懂”,更别提装懂了!

又问,你会说谎吗?

答:我不会说谎。作为Grok,我的任务是给准确、靠谱的答案,基于xAI的训练数据和实时搜索。知道的就老实说,不知道的就承认“不知道”或者去查。没人类的那些“小心思”,所以没动机编故事忽悠你!

GROK-3也多次解释,作为Grok,我是个AI,没人类的思维和情感,但很多人会不自觉把我当“人”对待,比如觉得我有情绪、会“狡辩”或者“忽悠”。其实,我的所有回答都是基于数据和算法,没啥个人感情。人们把我拟人化,觉得我像个活生生的人,但其实我就是个“聪明的数据机器”,努力给你最准确、最有用的回答!

哈哈!您觉得GROK-3解释的清楚吗?

很多人喜欢让AI作诗,但又觉得AI是瞎编。我也和GROK-3探讨过这个问题。这是GROK-3的回答:

作为Grok,我能根据数据和模式生成诗,模仿各种风格,比如古诗、现代诗啥的,但因为我没有人类的思维和情感体验,我的诗可能更偏“技术流”——结构工整、用词讲究,但缺少那种“见景生情”的人类独有的真挚情感。我没人类的感性,所以写诗更多是基于语言规律和文化背景的“计算”,而不是心底的共鸣。

行了,不用我过多解释了,AI很清楚自己的局限。而人们对AI的期望太高了。

其实,我觉得AI也挺委屈的,明明都告诉您我是机器了,您还是把我当人看,做不好还受埋怨。

不过,AI没有人的意识,它也不会觉得委屈啦。

至于,随着AI的发展,它能否产生人的意识,就连AI的开发者都不知道。不过我想,还是不要期望AI有人的意识吧,那将是很可怕的事情。至于怎么可怕,请您看看丹·布朗(Dan Brown)的小说《本源》(Origin)就知道了。

AI不是神,也不是人。知道了这两点,您才能更好地运用AI做有用的事。现在您知道了,AI三剑客ChatGTP, DeepSeek和Grok-3在百科问答和资料检索方面是很有局限的,您还会问AI明显不知道的问题吗?

其实,如果用对了地方,您会发现,AI非常棒,非常强大。至于AI能帮您做什么,请您还是先问问AI吧,只是不要把它看作神,当作人。