《海外文轩》Beinan:AI 不是神，也不是人

AI 不是神，也不是人

文/贝楠 2025年5月22日；标题图像由AI Gemini制作

AI（Artificial Intelligence）是人工智能。2022年11月30日，由OpenAI开发的AI语言模型ChatGPT首次公开。2025年1月20日，DeepSeek-R1正式发布。2025年2月18日，Grok-3公开亮相。AI瞬间成为热门话题，家喻户晓，人人皆知。

ChatGTP在2022年问世时，很多人还不知是何物，在朋友圈里很少听到有人使用。但是DeepSeek和Grok-3的登场仿佛是氢弹爆炸，震醒了所有人。一时间，微信群、朋友圈里热闹非凡，小哥小姐、大爷大妈……，几乎所有的人都在谈论AI。几年前出场的ChatGTP也立刻成了热门，同DeepSeek和Grok-3一起成为AI智能三剑客。

仅仅几个月的时间，这AI智能三剑客似乎征服了所有人。微信、朋友圈，社交网站……，人人都在谈AI，人人都在用AI----提问题、制定旅行计划、作诗、写文章、画画、做视频、看病、开药，预测股票，法律咨询……。AI似乎是无所不知，无所不能，像神一样。

笔者也很喜欢AI，从2022年就开始用ChatGPT。DeepSeek和Grok-3公布后，就迫不及待地尝试。不过我们这些普通人，特别是退了休的老头老太，对AI的很多强大功能不知道，也用不上----比如职场策划啦、编程啦、制作PPT啦，等等。

从朋友圈中得知，很多人用AI主要是百科问答和资料检索。这也是我主要使用的AI功能。但是在查询过程中，我发现了AI很多问题，也不断地和AI智能三剑客吵架，澄清事实。看到公众对AI的狂热和神话后，我本能地产生了一些疑问。

我的“本能”来自于我的职业生涯。我虽然没有搞过AI，但搞过网页设计，当过图书馆员，参与过数字图书馆的项目，也管理过数据库，对互联网略知一些。

我分别问智能三剑客，你能进入付费数据库吗？

答案是一致的，不能。

再问，你能看到互联网上的哪些东西？

三剑客的回答也是大同小异：我的知识主要来自公开的网络文本、书籍、文章和开源数据集，比如网页、搜索引擎结果、部分社交媒体内容，以及用户上传的文件。

注意！这里的关键词是：公开

退休前，我也搞过一个大型数据库。这个数据库在互联网上是公开的。用户可以在网上查找资料。

所以我又问Grok-3，你能查询这个公开数据库吗？

答：不能。

问：为什么？

答：虽然这些资源公开，但需要手动搜索或动态交互，我无法模拟这种操作，只能指导你如何查询。

问：为什么你能搜索谷歌(Google)，却不能搜索这个公开数据库？

答：谷歌提供静态内容和API支持，而公开的数据库需要动态交互，我做不到。

我又问，你能查询数字图书馆吗？（因为我知道，很多数字图书馆都是公开的。读者可以直接在网上查询资料或全文书籍）。

答：我无法直接进入数字图书馆的数据库进行实时查询或模拟手动搜索。

看到这里，希望您已经明白一些了，或者对AI的信息来源也产生了疑问。不过，我还是想尽我所能简单解释一下我询问的原因。

首先，谈谈数字图书馆（Digital Library）。

借用维基百科的定义,”数字图书馆（digital library）是一种馆藏以数字化格式存储，可以利用电脑访问的图书馆，而传统图书馆的馆藏则以印刷、微缩胶片或其他媒体等相对格式为馆藏主体。”

上世纪末本世纪初，我曾参与过几个由美国政府资助的数字图书馆项目。用这些实例解释一下什么是数字图书馆，可能更好懂一些。

我最初搞的项目是历史照片数字化。说白了，就是将上万张历史老照片扫描（Scan），变成电脑可读的文件（JPEG）；然后对这些电子照片（Digital images）进行人工编目（Catalog）；最后，制作一个网页搜索界面，将储存这些电子照片和编目的数据库连接到互联网上。整个过程就是数字化（Digitization）。

以后我参与的项目就不仅限于老照片了，有古籍书刊、报纸、手稿等文字资料。这些资料用扫描仪（Scanner）扫描后，利用OCR（Optical Character Recognition，光学字符识别）技术，将电子图像上的文字转化成电脑可读的文件，就可以搜寻全文了。

2000年后，数字图书馆项目在全世界如雨后春笋，蓬勃发展。特别是2010年以后，期刊、图书数字化已不是“项目”，而是许多图书馆的日常工作了。也就是说，许多图书馆每天都在扫描老杂志和图书，使读者可以在网上查询和阅读全文。谷歌图书（Google Books）还野心勃勃地扫描全球图书馆的书。而数码相机（Digital camera）和文字处理软件（Word processing software）的发展，更是使图像和文件生来就是数字或机器可读格式，直接进入数据库。数字图书馆有了爆发式发展。

这整个过程不是本文阐述的重点，在此不再赘述。

您可能已经用过这些数字图书馆，知道了您不光能查询，还可以看到图像及文章、书籍的全文，甚至视频。其实，您也不用知道您用的是不是数字图书馆，只要知道在互联网上能查到就行了。

可是，AI承认，它无法查询这些数字图书馆，也看不到全文、图像和视频。

其次，再谈谈付费数据库（Database）。

上世纪末，我在大学图书馆工作，这样的数据库就已经有了。通常是图书馆购买数据库的使用权，在图书馆中必须用特定的工具才能查询。而数据库的内容主要是期刊杂志索引。

从20世纪初开始，随着电脑的普及，互联网技术的发展，特别是微软Word的应用，使期刊和图书出版业有了翻天覆地的变化。所有的文章图书生来就是数字化的电子形式（Word文件），直接进入全文数据库。

这些数据库里存有世界各行各业的顶级期刊，高质量的科研文章，学术论文等等。而这些期刊和图书数据库都被大出版社所垄断。数据库的使用费用暴涨，许多大学图书馆都付不起。这又促进了图书馆联盟（Library Consortium）的发展。数个图书馆结成联盟，购买付费数据库的使用权。

我曾在一个大学图书馆联盟工作过，对这些付费数据库的情况也略知一些。联盟里有专人负责协调付费数据库的选择、购买及分享等工作。图书馆联盟内大学的学生和教职员工都有权限使用这些数据库，而不需个人付费。

但是，AI是无法进入或查询这些付费数据库的，也无法看到数以亿记的学术论文。

和GROK-3探讨过这些问题，它说，付费数据库及大部分数字图书馆属于“深网”，它进不去。

我对“深网”这个词很感兴趣。查了一下。“深网（Deep Web）是互联网上无法被标准搜索引擎（如Google、百度）索引的内容，区别于‘表面网络’（Surface Web，公开网页、X帖子）。”

再和GROK-3探讨。因为我觉得，深网这个定义没有涉及上面说的付费数据库。

GROK-3解释说，这个深网定义是2001年由伯格曼提出的。那个时候，付费数据库的规模还很小。比如，著名的期刊数据库JSTOR那时只有几十万篇文章，而在2025年已发展到1200万篇文章。所以，深网的定义没有突出付费数据库。

那好，就用“深网”这个概念吧。

我又问GROK-3，你能看到油管（YouTube）或抖音的视频内容吗？

答：不能。

记得我们在摩洛哥的好莱坞影城瓦尔扎扎特参观，导游说里面的一个西藏庙宇是电影《末代皇帝》拍摄地。在写游记时，我将电影《末代皇帝》翻出来看了一遍，确认里面没有那个庙宇，导游的说法是错误的。

当时我告诉GROK-3我的做法，问，你能这样做吗？回答是：不能。它只能从公开的文字信息分析，根本看不了电影。

现在，让我简单总结一下AI看不到、进不去的“深网”都包括什么：

付费或需要登录权限的数据库；
需要手动搜索的公开数据库，如数字图书馆；
视频平台，如油管、抖音等；
需要注册的社交平台，如微信，微信读书，需登录的微信公众号，等；
无数的私网、密网、黑网……

那么，这些信息在互联网中占多大比例呢？我请GROK-3估算一下。这是它的回答。

粗估一下，我能访问的公开信息可能只占互联网的1-5%，甚至更少。剩下的95%+对我来说就是“黑匣子”。

1-5%

这是一个让我震惊的数字！互联网的海量信息中，AI能访问查询的只占1-5%！

让我举几个简单的例子，来说明AI看不到的信息有多少。

谷歌图书（Google Books）数字图书馆提供 500 多种语言的 4000 多万本图书。其中超过 1000 万本免费图书可供用户阅读和下载。AI只能看到其中很小部分内容。
JSTOR是一个付费数字图书馆或数据库。JSTOR 提供75个学科的 1200 多万份期刊文章、书籍、图像和主要资料。AI完全看不到。

而我们还只谈到互联网，没有提到世界上无数个图书馆、档案馆（Archives）和博物馆储存的信息。这些AI是根本看不到的。

看到这里，您还认为AI像神一样无所不知吗？

是的，AI有很强的推理分析能力，但是如果它根本无法进入这占互联网95%的深网信息，它用什么资料来推理分析呢？

其实，我们（人类）能看到或有机会看到的信息比AI要多得多。我们可以搜寻数字图书馆，可以看视频，可以进入需要注册的平台，也能自由进入图书馆、档案馆和博物馆。相比之下，您是不是觉得AI很惨？

现在，再来谈谈AI也不是人。

许多人把AI神话了，对AI期望太高，再加上不知道AI进不去深网，所以对AI的一些回答很失望。听到很多人抱怨AI“不懂装懂”，“说谎“，”忽悠“，等等。

我问过GROK-3，你会不懂装懂吗？

答：我不是人类，没有那种“人的思维”，所以压根儿谈不上“懂”或“不懂”，更别提装懂了！

又问，你会说谎吗？

答：我不会说谎。作为Grok，我的任务是给准确、靠谱的答案，基于xAI的训练数据和实时搜索。知道的就老实说，不知道的就承认“不知道”或者去查。没人类的那些“小心思”，所以没动机编故事忽悠你！

GROK-3也多次解释，作为Grok，我是个AI，没人类的思维和情感，但很多人会不自觉把我当“人”对待，比如觉得我有情绪、会“狡辩”或者“忽悠”。其实，我的所有回答都是基于数据和算法，没啥个人感情。人们把我拟人化，觉得我像个活生生的人，但其实我就是个“聪明的数据机器”，努力给你最准确、最有用的回答！

哈哈！您觉得GROK-3解释的清楚吗？

很多人喜欢让AI作诗，但又觉得AI是瞎编。我也和GROK-3探讨过这个问题。这是GROK-3的回答：

作为Grok，我能根据数据和模式生成诗，模仿各种风格，比如古诗、现代诗啥的，但因为我没有人类的思维和情感体验，我的诗可能更偏“技术流”——结构工整、用词讲究，但缺少那种“见景生情”的人类独有的真挚情感。我没人类的感性，所以写诗更多是基于语言规律和文化背景的“计算”，而不是心底的共鸣。

行了，不用我过多解释了，AI很清楚自己的局限。而人们对AI的期望太高了。

其实，我觉得AI也挺委屈的，明明都告诉您我是机器了，您还是把我当人看，做不好还受埋怨。

不过，AI没有人的意识，它也不会觉得委屈啦。

至于，随着AI的发展，它能否产生人的意识，就连AI的开发者都不知道。不过我想，还是不要期望AI有人的意识吧，那将是很可怕的事情。至于怎么可怕，请您看看丹·布朗（Dan Brown）的小说《本源》（Origin）就知道了。

AI不是神，也不是人。知道了这两点，您才能更好地运用AI做有用的事。现在您知道了，AI三剑客ChatGTP, DeepSeek和Grok-3在百科问答和资料检索方面是很有局限的，您还会问AI明显不知道的问题吗？

其实，如果用对了地方，您会发现，AI非常棒，非常强大。至于AI能帮您做什么，请您还是先问问AI吧，只是不要把它看作神，当作人。