简评Gemini 3的编程能力

AI大模型编程能力的评估，是个见仁见智的体系。

之前在《对AI编程能力的一点看法》一文中写过，编程能力大体可以分为两部分。一是有明确边界的问题，比如写一个排序算法，属于非常纯粹的对一系列数据的操作，没什么歧义。这样的题即便让大模型反复做上多次，得到的结果一致性也比较强，容易得出评分。

但工程问题不同。即便一个工程问题可以划分成多个小任务，但每个小任务可能还是没有标准答案。那么AI在解决这些小任务时作出的不同选择，在我看来就是“品味”的不同。“品味”虽然没有标准答案，也相对主观，但优劣从人的角度还是可以看出来。

前文《智谱 vs MiniMax》测试了两者的编程能力，二者都是通过兼容方式接入Claude Code，结论应该算是比较准确。因为这种方式其实是二者分别在Claude Code这个“项目经理”的指挥下做事，只要两次测试Claude Code在分析问题的过程中没有出现大的幻觉，其余的能力体现出来的就是干活的大模型完成任务的能力。

Gemini 3最近算是横空出世，从数据看是屠榜的存在，风头一时无两。但正如开篇所说，AI大模型编程能力的评估没有标准答案，高分低能的例子并不少见，只有亲自测试才知道是不是适合自己。我也简单做了两个测试来看看其编程能力。

第一个测试用的是测试智谱和MiniMax一样的题目：实现一个用户管理界面。经过一系列的提示，Gemini最终交出了与智谱差不多的答卷。其答题过程的整体表现比MiniMax要强，但在一些决策上感觉稍逊于Claude+智谱的搭档，从最终代码风格和质量来说，后者更合我的胃口。

第二个测试是实现一个跨平台的MAUI记事本计算器，像下面这样。

不得不说，测试结果差异还真不小。总体需求如下：

实现一个与Parsify和NotepadCalculator.com类似的记事本计算器，支持四则运算和阶乘。
自动保存和恢复所有计算公式。
支持亮、暗、自适应主题切换。
Windows下自动保存和恢复窗口状态。
支持把中文字符的逗号、句号、括号识别为英文的相应符号。

这5个需求是一个接一个依次给出的。

需求1，智谱使用了一左一右两个Editor控件，左边的用于输入，右边的设置为“只读”用于显示结果，符合我自己实现的第一选择。Gemini在左边也用了Editor来输入，但右边则用数据模版显示结果。这个非常糟糕的设计选择首先导致输入和输出不能一行一行对齐，因为控件大小不一样；其次右边没法选择文字并复制。我说结果不能复制，Gemini加上了点击某一行自动复制的功能；我说输入和输出没有对齐，它进行了像素级调整（错误的方法），但还是对不齐。最后我只好明确让它把右边换成只读的Editor控件。

需求2，从结果上说都没问题，但实现相去甚远。Gemini在每个字符输入的时候都会触发保存和计算，而且所有代码混在同一个方法里，质量可以说非常非常业余。智谱不仅创建了一个单独的服务类来处理保存，还把保存和计算分成两个方法，并且保存逻辑增加了1秒延迟的处理，这样一来1秒内产生的多次输入只会触发一次保存——毕竟是涉及I/O的耗时操作。

需求3，在MAUI平台下主题切换是原生支持的功能，没想到实现上差异还是不小。Gemini只是在点击菜单的代码中调用系统方法切换主题。智谱不仅创建了单独的主题类使得代码更干净，还自动保存和恢复上次使用的主题，界面在亮暗主题下都有很好的显示结果，Gemini生成的界面在亮色主题下边框看不见了。

需求4其实只对桌面操作系统有意义。从结果上说Gemini更好，智谱的实现主窗口会先短暂地显示默认状态然后才调整到上次保存的状态。但实现上看也许智谱更好。为什么呢？智谱理解了这个需求的含义，所以把恢复窗口状态的代码放在Windows平台特有的代码段中，而那段代码是在窗口加载了以后才执行，稍微晚了一点所以导致闪烁。Gemini没有区分平台，直接在窗口创建以后就恢复窗口状态，所以没有短暂地闪烁。但恢复窗口这个操作对移动设备来说其实是多余的，从这个角度来说智谱的处理更准确，而且只需稍加提示即可避免闪烁。

需求5从结果上说二者都完成了，不过实现细节完全不同。Gemini把中缀表达式字符串解析为后缀表达式后计算结果，基本上手搓了一遍《数据结构》课本上的表达式计算；智谱则简单处理了阶乘表达式后直接调用了.NET中的一个库函数进行计算。

可以看出，需求1-3都是Gemini完败，Gemini对需求4的处理不够准确但误打误撞结果更好，需求5各有千秋。

一直说智谱，但其实是智谱在Claude Code的指挥下做事，所以上面的测试从根本上说其实是Gemini 3和Claude Code之间的编程能力对比，仅就这两个测试来说Claude Code是毫无疑问的胜方，至于智谱和Gemini之间执行力的对比缺乏足够的数据支撑，很难下结论。

其实这个结果并不让人感到意外。每个大模型深耕的领域并不相同，Claude Code之所以是公认的编程最强不是没有原因的。它并不在多模态上下功夫，也很少有人把Claude Code当搜索引擎跟它聊天。从本文两个测试可以看出Claude Code的强大在于其对软件需求提示词的理解和计划能力，它充当了优秀项目经理的角色，所以也有底气开放第三方大模型的兼容接口，因为兼容大模型只是充当了干苦力的角色，对需求的分析和总体设计还是由Claude Code完成。

Gemini对标的是OpenAI的GPT，是要做多模态全功能模型，所以只要指标霸榜就足以让普通人知道其强大。但值得注意的那些指标几乎没有这种看似没有标准答案但其实容易区分优劣的主观编程基准测试，因为成本高昂而且没法量化。所以Gemini 3在编程能力上没有下足够的功夫也情有可原，不是说Google不行，也许只是暂时没当做高优先级任务去做。

最后的题外话，简单对比聊天模式下的Gemini、ChatGPT和DeepSeek，GPT 5总体给人的感觉是“我最强，我说的都对”，它常常会直接说某某方法“最好”、“最优”，尽管实际情况有时候并非如此。Gemini和DeepSeek措辞比较中正平和，更谦虚，符合我的个人偏好。

简评Gemini 3的编程能力

简评Gemini 3的编程能力

FEATURED TAGS

FRIENDS