What Even Is AI? (I Took a Break & Had to Relearn Everything)
三个月前,我休了个长假。走之前,AI的世界我还挺懂的:写过 TensorFlow 模型,调过 BERT 参,用过 Copilot 1.0,知道 GPT-4 是什么。
休假回来,我发现我跟世界脱节了。
大家都在说什么:
- "RAG 怎么搞?"
- "LoRA 怎么调?"
- "Agent 怎么做?"
- "多模态 RAG 落地有没有坑?"
- "Mamba 是不是要替代 Transformer?"
我当时的反应:这些缩写都是什么玩意儿?我才离开三个月,AI界就翻天覆地了?
休假前我觉得我懂AI,休假后我发现我什么都不懂。我花了两周重新学习,终于追上了进度。这篇文章是我的学习笔记,也是我对"现在的AI到底是什么"这个问题的回答。
我记忆中的AI
我最早接触AI是在2015年。那时候的AI是这样的:
- 主要是机器学习,尤其是监督学习
- 主流模型是卷积神经网络(CNN)做图像,循环神经网络(RNN)做文本
- 训练模型要几十万行代码,数据要清理几个月
- 效果一般,只能做特定任务,比如图像分类、语音识别
- 普通人用不上,只有大厂在搞
2020年Transformer出来的时候,我也研究过。知道它是基于注意力机制,知道它解决了长文本的问题,知道GPT-1、GPT-2是大语言模型的雏形,但那时候觉得它还是个玩具。
2023年GPT-3.5出来的时候,我觉得它是个好用的聊天机器人,写代码和文案的辅助工具。我还写过文章说:"GPT只是个辅助工具,替代不了程序员。"
直到我休假回来,我才发现我错了。现在的AI已经不是我以前认知的AI了。
现在的AI到底是什么?
我重新学习后,对现在的AI的定义是:基于大语言模型(LLM)的通用智能系统,可以理解自然语言、生成内容、完成复杂任务,甚至可以自主行动(Agent)。
这个定义太抽象。我拆解成三个维度说清楚。
维度一:从"专用工具"到"通用操作系统"
以前的AI是专用的:图像识别AI只能识别图像,语音识别AI只能识别语音,翻译AI只能翻译。
现在的LLM是通用的:
- 可以写代码
- 可以写文案
- 可以做数据分析
- 可以生成图像和视频
- 可以控制智能家居
- 可以调度其他工具(比如调用API、访问数据库)
它就像一个操作系统:你可以在上面运行各种"应用"(Prompt、Agent、RAG系统),完成各种任务。
举个真实的例子:我现在用AI做的事情:
1. 写代码(90%的CRUD代码AI帮我写)
2. 写技术博客(这篇博客就是AI帮我打初稿,我再修改)
3. 做数据分析(给它CSV文件,它帮我做可视化和分析报告)
4. 做PPT(我给它文字内容,它帮我生成完整的PPT文件)
5. 管理我的日程和邮件(AI帮我筛选重要邮件,生成日程摘要)
这些以前需要5个不同的工具完成,现在一个AI就能搞定。这是通用AI的力量。
维度二:从"黑箱模型"到"可编程的智能体"
以前的AI模型是黑箱:你给它输入,它给你输出,你很难干预它的行为。
现在的LLM是可编程的。你可以通过Prompt来控制它的行为,通过工具调用让它跟外部系统交互,通过记忆让它记住上下文。
这是一个最简单的Agent的实现(Python代码):
from openai import OpenAI
client = OpenAI()
class SimpleAgent:
def __init__(self, name, system_prompt):
self.name = name
self.system_prompt = system_prompt
self.memory = [] # 记忆,记录历史对话
def think(self, user_input):
# 把历史记忆和新的用户输入拼在一起
messages = [
{"role": "system", "content": self.system_prompt}
] + self.memory + [
{"role": "user", "content": user_input}
]
# 调用LLM思考下一步做什么
response = client.chat.completions.create(
model="gpt-4o",
messages=messages,
tools=[
{
"type": "function",
"function": {
"name": "search_web",
"description": "搜索网页获取最新信息",
"parameters": {
"type": "object",
"properties": {
"query": {
"type": "string",
"description": "搜索关键词"
}
},
"required": ["query"]
}
}
},
{
"type": "function",
"function": {
"name": "send_email",
"description": "发送邮件给指定收件人",
"parameters": {
"type": "object",
"properties": {
"to": {
"type": "string",
"description": "收件人邮箱地址"
},
"subject": {
"type": "string",
"description": "邮件主题"
},
"content": {
"type": "string",
"description": "邮件内容"
}
},
"required": ["to", "subject", "content"]
}
}
}
]
)
# 记录到记忆
self.memory.append({"role": "user", "content": user_input})
self.memory.append({"role": "assistant", "content": response.choices[0].message.content})
# 如果需要调用工具,就调用工具
if response.choices[0].message.tool_calls:
for tool_call in response.choices[0].message.tool_calls:
function_name = tool_call.function.name
arguments = eval(tool_call.function.arguments)
if function_name == "search_web":
result = self.search_web(arguments["query"])
elif function_name == "send_email":
result = self.send_email(**arguments)
# 把工具调用的结果再返回给LLM,让它继续思考
messages.append({
"role": "tool",
"tool_call_id": tool_call.id,
"name": function_name,
"content": result
})
response = client.chat.completions.create(
model="gpt-4o",
messages=messages
)
self.memory.append({"role": "assistant", "content": response.choices[0].message.content})
return response.choices[0].message.content
def search_web(self, query):
# 调用搜索引擎API获取结果
return f"搜索 '{query}' 的结果:..."
def send_email(self, to, subject, content):
# 调用邮件发送API
return f"已发送邮件给 {to},主题:{subject}"
# 使用Agent
agent = SimpleAgent(
name="我的助手",
system_prompt="你是我的个人助手,可以帮我搜索信息和发送邮件。回答要简洁准确。"
)
response = agent.think("帮我搜索一下2026年5月的AI行业新闻,然后把摘要发送给xxx@example.com")
print(response)
这个简单的Agent可以做什么?
1. 理解用户的需求:既要搜索新闻,又要发送邮件
2. 决定第一步先调用搜索引擎获取新闻
3. 处理搜索结果,生成摘要
4. 调用邮件发送API,把摘要发给指定邮箱
5. 最后给用户返回结果
整个过程不需要人干预,Agent自主完成。
这就是现在的AI:不是只能聊天的机器人,而是可以自主完成复杂任务的智能体。
维度三:从"昂贵的玩具"到"平价的生产力工具"
以前训练一个AI模型要几百万美元,只有大厂能玩得起。
现在微调一个7B参数的开源LLM只需要几百美元,甚至可以在自己的电脑上运行。
我上周花了 200 美元在云服务器上微调了一个垂直领域的LLM,效果比通用模型好 30%,完全可以商用。这在以前想都不敢想。
现在的AI已经不是只有大厂才能玩的玩具,是每个开发者都能用上的平价生产力工具。
我重新学习AI的踩坑经历
休假回来重新学习AI,我踩了不少坑,也学到了不少东西。
坑一:"RAG是什么?听起来很厉害的样子"
RAG全称是Retrieval Augmented Generation(检索增强生成)。简单说就是:
1. 你先把私有的文档(比如公司的知识库)切成片段,存在向量数据库里
2. 用户提问的时候,先在向量数据库里检索相关的片段
3. 把问题和相关片段一起给LLM,让LLM基于私有文档回答问题
我刚学RAG的时候,以为它是个很复杂的技术。后来我自己搭了一个RAG系统,才发现它其实很简单。
这是一个最简单的RAG实现,只需要几十行代码:
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.text_splitter import CharacterTextSplitter
from langchain.chains import RetrievalQA
# 1. 加载文档
loader = TextLoader("公司知识库.txt")
documents = loader.load()
# 2. 把文档切成小片段
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
# 3. 把片段转换成向量,存在向量数据库里
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
db = Chroma.from_documents(texts, embeddings)
# 4. 创建检索器
retriever = db.as_retriever(search_kwargs={"k": 3})
# 5. 创建RAG问答链
qa = RetrievalQA.from_chain_type(
llm=ChatOpenAI(model="gpt-4o-mini"),
chain_type="stuff",
retriever=retriever,
return_source_documents=True
)
# 6. 提问
result = qa.invoke({"query": "公司的年假制度是什么?"})
print(result["result"])
这就是RAG的全部逻辑:把私有文档变成向量,提问时检索相关片段,让LLM基于片段回答。它解决了LLM没有私有知识的问题。
坑二:"LoRA又是什么?怎么所有人都在说LoRA?"
LoRA全称是Low-Rank Adaptation(低秩自适应)。它是一种微调大模型的技术,可以让你用很少的计算资源微调一个大语言模型。
以前微调一个7B参数的模型需要几十GB的显存,几万美元的算力。现在用LoRA,16GB显存的消费级显卡就能做到,成本只要几百美元。
我之前微调垂直领域模型,就是用的LoRA技术。只需要微调模型里很小一部分参数,就能达到跟全量微调差不多的效果,成本只有原来的1%。
LoRA的出现,让大模型从大厂专属变成了普通人也玩得起的工具。这是AI平民化的关键一步。
坑三:"Agent是什么?是聊天机器人吗?"
Agent是AI代理。简单说就是:能自主理解目标、制定计划、调用工具、完成任务的AI系统。
不是聊天机器人。聊天机器人是被动回答问题,Agent是主动完成任务。
我现在每天都用Agent帮我做这些事情:
1. 每天早上自动帮我搜索行业新闻,生成摘要,发到我的企业微信
2. 自动监控服务器日志,发现异常自动报警,甚至自动修复简单的问题
3. 自动整理我每天的工作记录,生成周报草稿,我只要改改就能用
这些Agent不需要我干预,每天自动运行,帮我节省了大量时间。
我以前觉得Agent是科幻电影里的东西,现在我每天都在用。
现在的AI生态全景图
我花了一周时间整理了现在的AI生态,大概可以分成四层:
第一层:基础模型层
- 闭源模型:GPT-4o、Claude 3 Opus、Gemini Advanced
- 开源模型:Llama 3、Qwen 2、Mistral 3、Phi 3
- 多模态模型:能同时处理文本、图像、视频、音频的模型
第二层:工具层
- 框架:LangChain、LlamaIndex、AutoGPT
- 向量数据库:Pinecone、Chroma、Weaviate
- 微调工具:LoRA、QLoRA、PEFT
- 提示工程工具:PromptFlow、LangSmith
第三层:应用层
- 开发工具:GitHub Copilot、Claude Code、Cursor
- 内容生成:Midjourney、Sora、Runway ML
- 企业应用:RAG系统、客服机器人、智能办公
- 垂直领域应用:医疗AI、法律AI、教育AI
第四层:社会层
- AI伦理、安全、监管
- 新的工作模式(人+AI协作)
- AI时代的教育、就业、社会结构变化
你不需要懂每一层,但至少要知道AI已经不是一个单独的技术,它已经变成了一个完整的生态系统。
我的观点:现在的AI到底是什么?
重新学习了两周后,我对AI的认知完全变了。我现在的观点是:
观点一:AI是新的电力
100多年前电力出现的时候,很多人觉得它只是个"更好的煤油灯"。但实际上电力重构了整个社会,催生了无数新行业、新职业。
现在的AI就是新的电力。它不会只是一个"更好的聊天机器人",它会重构我们工作、生活、学习的方方面面。
观点二:AI是新的操作系统
就像Windows、macOS、Linux是电脑的操作系统一样,LLM会成为新的智能操作系统。
- 硬件层:GPU、TPU、AI芯片
- 系统层:大语言模型(LLM)
- 应用层:基于LLM的各种Agent、应用、服务
未来你用的所有软件,都会内置AI,都会被LLM驱动。就像现在的所有软件都跑在操作系统上一样。
观点三:AI是新的协作伙伴
以前程序员的协作伙伴是其他程序员。现在程序员的协作伙伴是AI。
- 写代码:AI帮你写CRUD,你只负责设计和debug
- 写文档:AI帮你写初稿,你只负责修改和补充
- 查问题:AI帮你搜资料,总结解决方案,你只负责判断对不对
- 做设计:AI帮你出多个方案,你只负责选择和优化
我现在的工作模式已经变成了:我提需求,AI做执行,我做判断。我的工作效率提升了至少3倍。
给开发者的建议:怎么跟上AI的速度?
很多程序员跟我说:"AI发展太快了,我根本跟不上,很焦虑。"
我分享我自己的学习方法,亲测有效:
建议一:不要焦虑,先动手用起来
你不需要先弄懂所有技术原理再用AI,先把AI用在你的工作流里,让它帮你提高效率,用着用着你就懂了。
你不需要懂Transformer的数学原理,不需要懂LoRA是怎么实现的,你只需要知道:
- 什么场景下可以用AI帮你提高效率
- 怎么写Prompt让AI帮你干活
- 怎么用现成的工具(比如Copilot、Claude Code)帮你写代码
建议二:从"用"到"懂",分层学习
你不需要成为AI专家,但至少要懂基础的概念:
1. 第一层:会用AI工具(ChatGPT、Copilot、Claude)
2. 第二层:会写Prompt,知道怎么跟AI沟通
3. 第三层:懂基础的AI概念(LLM、RAG、Agent、LoRA),知道它们是干什么的,能解决什么问题
4. 第四层(可选):会微调模型、开发AI应用、做AI系统架构
大部分开发者只要学到第三层就够了,足够你在未来的AI时代不被淘汰。
建议三:不要跟风追热点,聚焦解决实际问题
现在AI圈热点很多:今天Mamba,明天Sora,后天GPT-5。你永远追不完。
不要跟风追热点,要聚焦解决你自己遇到的实际问题。
- 你公司有大量文档,员工查资料不方便?学RAG,搭个企业知识库。
- 你每天要写大量重复的CRUD代码?学怎么写Prompt,让AI帮你写。
- 你做电商,要写大量商品描述?学微调,用你的商品数据微调一个专属的文案生成模型。
解决实际问题,比懂多少热点概念重要得多。
最后总结
三个月前我休假的时候,觉得AI只是个辅助工具。三个月后我重新学习,发现AI已经变成了一个通用的生产力系统,一个新的操作系统,一个新的协作伙伴。
我以前觉得"AI会替代程序员"是危言耸听,现在我觉得:AI不会替代程序员,但会用AI的程序员会替代不会用AI的程序员。
现在的AI到底是什么?
它不是玩具,不是科幻电影里的天网,不是只会聊天的机器人。
它是新的电力,是新的操作系统,是新的协作伙伴。
它是我们这个时代最强大的生产力工具。
不要害怕它,不要拒绝它,去拥抱它,去用它。
它会帮你做得更多,做得更好。
你觉得现在的AI是什么?欢迎在评论区分享你的观点。