What Even Is AI? (I Took a Break & Had to Relearn Everything)

三个月前,我休了个长假。走之前,AI的世界我还挺懂的:写过 TensorFlow 模型,调过 BERT 参,用过 Copilot 1.0,知道 GPT-4 是什么。

休假回来,我发现我跟世界脱节了。

大家都在说什么:
- "RAG 怎么搞?"
- "LoRA 怎么调?"
- "Agent 怎么做?"
- "多模态 RAG 落地有没有坑?"
- "Mamba 是不是要替代 Transformer?"

我当时的反应:这些缩写都是什么玩意儿?我才离开三个月,AI界就翻天覆地了?

休假前我觉得我懂AI,休假后我发现我什么都不懂。我花了两周重新学习,终于追上了进度。这篇文章是我的学习笔记,也是我对"现在的AI到底是什么"这个问题的回答。

我记忆中的AI

我最早接触AI是在2015年。那时候的AI是这样的:
- 主要是机器学习,尤其是监督学习
- 主流模型是卷积神经网络(CNN)做图像,循环神经网络(RNN)做文本
- 训练模型要几十万行代码,数据要清理几个月
- 效果一般,只能做特定任务,比如图像分类、语音识别
- 普通人用不上,只有大厂在搞

2020年Transformer出来的时候,我也研究过。知道它是基于注意力机制,知道它解决了长文本的问题,知道GPT-1、GPT-2是大语言模型的雏形,但那时候觉得它还是个玩具。

2023年GPT-3.5出来的时候,我觉得它是个好用的聊天机器人,写代码和文案的辅助工具。我还写过文章说:"GPT只是个辅助工具,替代不了程序员。"

直到我休假回来,我才发现我错了。现在的AI已经不是我以前认知的AI了

现在的AI到底是什么?

我重新学习后,对现在的AI的定义是:基于大语言模型(LLM)的通用智能系统,可以理解自然语言、生成内容、完成复杂任务,甚至可以自主行动(Agent)

这个定义太抽象。我拆解成三个维度说清楚。

维度一:从"专用工具"到"通用操作系统"

以前的AI是专用的:图像识别AI只能识别图像,语音识别AI只能识别语音,翻译AI只能翻译。

现在的LLM是通用的:
- 可以写代码
- 可以写文案
- 可以做数据分析
- 可以生成图像和视频
- 可以控制智能家居
- 可以调度其他工具(比如调用API、访问数据库)

它就像一个操作系统:你可以在上面运行各种"应用"(Prompt、Agent、RAG系统),完成各种任务。

举个真实的例子:我现在用AI做的事情:
1. 写代码(90%的CRUD代码AI帮我写)
2. 写技术博客(这篇博客就是AI帮我打初稿,我再修改)
3. 做数据分析(给它CSV文件,它帮我做可视化和分析报告)
4. 做PPT(我给它文字内容,它帮我生成完整的PPT文件)
5. 管理我的日程和邮件(AI帮我筛选重要邮件,生成日程摘要)

这些以前需要5个不同的工具完成,现在一个AI就能搞定。这是通用AI的力量

维度二:从"黑箱模型"到"可编程的智能体"

以前的AI模型是黑箱:你给它输入,它给你输出,你很难干预它的行为。

现在的LLM是可编程的。你可以通过Prompt来控制它的行为,通过工具调用让它跟外部系统交互,通过记忆让它记住上下文。

这是一个最简单的Agent的实现(Python代码):

from openai import OpenAI

client = OpenAI()

class SimpleAgent:
    def __init__(self, name, system_prompt):
        self.name = name
        self.system_prompt = system_prompt
        self.memory = []  # 记忆,记录历史对话

    def think(self, user_input):
        # 把历史记忆和新的用户输入拼在一起
        messages = [
            {"role": "system", "content": self.system_prompt}
        ] + self.memory + [
            {"role": "user", "content": user_input}
        ]

        # 调用LLM思考下一步做什么
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=messages,
            tools=[
                {
                    "type": "function",
                    "function": {
                        "name": "search_web",
                        "description": "搜索网页获取最新信息",
                        "parameters": {
                            "type": "object",
                            "properties": {
                                "query": {
                                    "type": "string",
                                    "description": "搜索关键词"
                                }
                            },
                            "required": ["query"]
                        }
                    }
                },
                {
                    "type": "function",
                    "function": {
                        "name": "send_email",
                        "description": "发送邮件给指定收件人",
                        "parameters": {
                            "type": "object",
                            "properties": {
                                "to": {
                                    "type": "string",
                                    "description": "收件人邮箱地址"
                                },
                                "subject": {
                                    "type": "string",
                                    "description": "邮件主题"
                                },
                                "content": {
                                    "type": "string",
                                    "description": "邮件内容"
                                }
                            },
                            "required": ["to", "subject", "content"]
                        }
                    }
                }
            ]
        )

        # 记录到记忆
        self.memory.append({"role": "user", "content": user_input})
        self.memory.append({"role": "assistant", "content": response.choices[0].message.content})

        # 如果需要调用工具,就调用工具
        if response.choices[0].message.tool_calls:
            for tool_call in response.choices[0].message.tool_calls:
                function_name = tool_call.function.name
                arguments = eval(tool_call.function.arguments)

                if function_name == "search_web":
                    result = self.search_web(arguments["query"])
                elif function_name == "send_email":
                    result = self.send_email(**arguments)

                # 把工具调用的结果再返回给LLM,让它继续思考
                messages.append({
                    "role": "tool",
                    "tool_call_id": tool_call.id,
                    "name": function_name,
                    "content": result
                })

                response = client.chat.completions.create(
                    model="gpt-4o",
                    messages=messages
                )

                self.memory.append({"role": "assistant", "content": response.choices[0].message.content})

        return response.choices[0].message.content

    def search_web(self, query):
        # 调用搜索引擎API获取结果
        return f"搜索 '{query}' 的结果:..."

    def send_email(self, to, subject, content):
        # 调用邮件发送API
        return f"已发送邮件给 {to},主题:{subject}"

# 使用Agent
agent = SimpleAgent(
    name="我的助手",
    system_prompt="你是我的个人助手,可以帮我搜索信息和发送邮件。回答要简洁准确。"
)

response = agent.think("帮我搜索一下2026年5月的AI行业新闻,然后把摘要发送给xxx@example.com")
print(response)

这个简单的Agent可以做什么?
1. 理解用户的需求:既要搜索新闻,又要发送邮件
2. 决定第一步先调用搜索引擎获取新闻
3. 处理搜索结果,生成摘要
4. 调用邮件发送API,把摘要发给指定邮箱
5. 最后给用户返回结果

整个过程不需要人干预,Agent自主完成

这就是现在的AI:不是只能聊天的机器人,而是可以自主完成复杂任务的智能体。

维度三:从"昂贵的玩具"到"平价的生产力工具"

以前训练一个AI模型要几百万美元,只有大厂能玩得起。
现在微调一个7B参数的开源LLM只需要几百美元,甚至可以在自己的电脑上运行。

我上周花了 200 美元在云服务器上微调了一个垂直领域的LLM,效果比通用模型好 30%,完全可以商用。这在以前想都不敢想。

现在的AI已经不是只有大厂才能玩的玩具,是每个开发者都能用上的平价生产力工具。

我重新学习AI的踩坑经历

休假回来重新学习AI,我踩了不少坑,也学到了不少东西。

坑一:"RAG是什么?听起来很厉害的样子"

RAG全称是Retrieval Augmented Generation(检索增强生成)。简单说就是:
1. 你先把私有的文档(比如公司的知识库)切成片段,存在向量数据库里
2. 用户提问的时候,先在向量数据库里检索相关的片段
3. 把问题和相关片段一起给LLM,让LLM基于私有文档回答问题

我刚学RAG的时候,以为它是个很复杂的技术。后来我自己搭了一个RAG系统,才发现它其实很简单。

这是一个最简单的RAG实现,只需要几十行代码:

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.text_splitter import CharacterTextSplitter
from langchain.chains import RetrievalQA

# 1. 加载文档
loader = TextLoader("公司知识库.txt")
documents = loader.load()

# 2. 把文档切成小片段
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 3. 把片段转换成向量,存在向量数据库里
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
db = Chroma.from_documents(texts, embeddings)

# 4. 创建检索器
retriever = db.as_retriever(search_kwargs={"k": 3})

# 5. 创建RAG问答链
qa = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(model="gpt-4o-mini"),
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=True
)

# 6. 提问
result = qa.invoke({"query": "公司的年假制度是什么?"})
print(result["result"])

这就是RAG的全部逻辑:把私有文档变成向量,提问时检索相关片段,让LLM基于片段回答。它解决了LLM没有私有知识的问题。

坑二:"LoRA又是什么?怎么所有人都在说LoRA?"

LoRA全称是Low-Rank Adaptation(低秩自适应)。它是一种微调大模型的技术,可以让你用很少的计算资源微调一个大语言模型。

以前微调一个7B参数的模型需要几十GB的显存,几万美元的算力。现在用LoRA,16GB显存的消费级显卡就能做到,成本只要几百美元。

我之前微调垂直领域模型,就是用的LoRA技术。只需要微调模型里很小一部分参数,就能达到跟全量微调差不多的效果,成本只有原来的1%。

LoRA的出现,让大模型从大厂专属变成了普通人也玩得起的工具。这是AI平民化的关键一步

坑三:"Agent是什么?是聊天机器人吗?"

Agent是AI代理。简单说就是:能自主理解目标、制定计划、调用工具、完成任务的AI系统。

不是聊天机器人。聊天机器人是被动回答问题,Agent是主动完成任务。

我现在每天都用Agent帮我做这些事情:
1. 每天早上自动帮我搜索行业新闻,生成摘要,发到我的企业微信
2. 自动监控服务器日志,发现异常自动报警,甚至自动修复简单的问题
3. 自动整理我每天的工作记录,生成周报草稿,我只要改改就能用

这些Agent不需要我干预,每天自动运行,帮我节省了大量时间。

我以前觉得Agent是科幻电影里的东西,现在我每天都在用。

现在的AI生态全景图

我花了一周时间整理了现在的AI生态,大概可以分成四层:

第一层:基础模型层

  • 闭源模型:GPT-4o、Claude 3 Opus、Gemini Advanced
  • 开源模型:Llama 3、Qwen 2、Mistral 3、Phi 3
  • 多模态模型:能同时处理文本、图像、视频、音频的模型

第二层:工具层

  • 框架:LangChain、LlamaIndex、AutoGPT
  • 向量数据库:Pinecone、Chroma、Weaviate
  • 微调工具:LoRA、QLoRA、PEFT
  • 提示工程工具:PromptFlow、LangSmith

第三层:应用层

  • 开发工具:GitHub Copilot、Claude Code、Cursor
  • 内容生成:Midjourney、Sora、Runway ML
  • 企业应用:RAG系统、客服机器人、智能办公
  • 垂直领域应用:医疗AI、法律AI、教育AI

第四层:社会层

  • AI伦理、安全、监管
  • 新的工作模式(人+AI协作)
  • AI时代的教育、就业、社会结构变化

你不需要懂每一层,但至少要知道AI已经不是一个单独的技术,它已经变成了一个完整的生态系统。

我的观点:现在的AI到底是什么?

重新学习了两周后,我对AI的认知完全变了。我现在的观点是:

观点一:AI是新的电力

100多年前电力出现的时候,很多人觉得它只是个"更好的煤油灯"。但实际上电力重构了整个社会,催生了无数新行业、新职业。

现在的AI就是新的电力。它不会只是一个"更好的聊天机器人",它会重构我们工作、生活、学习的方方面面。

观点二:AI是新的操作系统

就像Windows、macOS、Linux是电脑的操作系统一样,LLM会成为新的智能操作系统。
- 硬件层:GPU、TPU、AI芯片
- 系统层:大语言模型(LLM)
- 应用层:基于LLM的各种Agent、应用、服务

未来你用的所有软件,都会内置AI,都会被LLM驱动。就像现在的所有软件都跑在操作系统上一样。

观点三:AI是新的协作伙伴

以前程序员的协作伙伴是其他程序员。现在程序员的协作伙伴是AI。
- 写代码:AI帮你写CRUD,你只负责设计和debug
- 写文档:AI帮你写初稿,你只负责修改和补充
- 查问题:AI帮你搜资料,总结解决方案,你只负责判断对不对
- 做设计:AI帮你出多个方案,你只负责选择和优化

我现在的工作模式已经变成了:我提需求,AI做执行,我做判断。我的工作效率提升了至少3倍。

给开发者的建议:怎么跟上AI的速度?

很多程序员跟我说:"AI发展太快了,我根本跟不上,很焦虑。"

我分享我自己的学习方法,亲测有效:

建议一:不要焦虑,先动手用起来

你不需要先弄懂所有技术原理再用AI,先把AI用在你的工作流里,让它帮你提高效率,用着用着你就懂了。

你不需要懂Transformer的数学原理,不需要懂LoRA是怎么实现的,你只需要知道:
- 什么场景下可以用AI帮你提高效率
- 怎么写Prompt让AI帮你干活
- 怎么用现成的工具(比如Copilot、Claude Code)帮你写代码

建议二:从"用"到"懂",分层学习

你不需要成为AI专家,但至少要懂基础的概念:
1. 第一层:会用AI工具(ChatGPT、Copilot、Claude)
2. 第二层:会写Prompt,知道怎么跟AI沟通
3. 第三层:懂基础的AI概念(LLM、RAG、Agent、LoRA),知道它们是干什么的,能解决什么问题
4. 第四层(可选):会微调模型、开发AI应用、做AI系统架构

大部分开发者只要学到第三层就够了,足够你在未来的AI时代不被淘汰。

建议三:不要跟风追热点,聚焦解决实际问题

现在AI圈热点很多:今天Mamba,明天Sora,后天GPT-5。你永远追不完。

不要跟风追热点,要聚焦解决你自己遇到的实际问题
- 你公司有大量文档,员工查资料不方便?学RAG,搭个企业知识库。
- 你每天要写大量重复的CRUD代码?学怎么写Prompt,让AI帮你写。
- 你做电商,要写大量商品描述?学微调,用你的商品数据微调一个专属的文案生成模型。

解决实际问题,比懂多少热点概念重要得多

最后总结

三个月前我休假的时候,觉得AI只是个辅助工具。三个月后我重新学习,发现AI已经变成了一个通用的生产力系统,一个新的操作系统,一个新的协作伙伴。

我以前觉得"AI会替代程序员"是危言耸听,现在我觉得:AI不会替代程序员,但会用AI的程序员会替代不会用AI的程序员

现在的AI到底是什么?
它不是玩具,不是科幻电影里的天网,不是只会聊天的机器人。
它是新的电力,是新的操作系统,是新的协作伙伴。
它是我们这个时代最强大的生产力工具。

不要害怕它,不要拒绝它,去拥抱它,去用它。
它会帮你做得更多,做得更好。


你觉得现在的AI是什么?欢迎在评论区分享你的观点。