不到24小时,明星数量就突破了1400个。
最近,很多人担心人工智能会取代他们的工作。
上个月在AI圈爆红的“第一AI程序员”Devin,通过利用大模型能力掌握了全栈技能。他只需要人类给出自然语言指令就可以自动完成复杂的代码任务。
Devin 展示的能力令人惊叹,但这个工具来自一家走闭源路线的初创公司,现在只有少数获得内测槽位的人可以使用它。
周二,普林斯顿大学NLP 小组的研究人员发布了SWE-agent ——,这是AI 程序员的开源版本,不到一天的时间就获得了数千个GitHub star。
SWE-agent 是一个用于自主解决GitHub 存储库中问题的新系统。它在SWE 基准上达到了与Devin 相似的准确度,平均耗时93 秒。
项目网站:https://swe-agent.com/GitHub:https://github.com/princeton-nlp/SWE-agent 原则上,SWE-agent 可以通过将大型模型(例如GPT-4)转换为软件工程代理来修复现实世界的问题。 GitHub 存储库中的错误和问题。
在完整的SWE-bench 测试集上,SWE-agent 解决了12.29% 的问题,实现了SOTA 性能。
为了在开发过程中提供自动化,SWE-agent 通过与专用终端交互来工作,该终端可以打开、搜索文件内容、使用自动语法检查、编辑特定行以及编写和执行测试。
该项目的开发人员精心设计了UI界面,并在GitHub上进行了介绍。
代理计算机接口(ACI)
研究团队设计了一种简单的以大型模型(LM)为中心的命令和反馈格式,使大型模型能够更轻松地浏览存储库、查看、编辑和执行代码文件,这被称为代理计算机接口(ACI)。 )。研究团队还构建了一个SWE 代理存储库,以便轻松迭代存储库级编码代理的ACI 设计。
就像语言模型需要良好的提示工程一样,良好的ACI 设计将在使用代理时带来更好的结果。没有经过良好调整的ACI 的基线代理的性能比SWE 代理差得多。
SWE-agent 包含研究团队在设计代理-计算机界面时发现非常有用的功能,包括:
1. 添加一个linter,该linter 在发出编辑命令时运行,如果代码语法不正确,则不会让编辑命令通过。
2. 为代理提供专用文件查看器。研究团队发现,该文件查看器每轮仅显示100 行时效果最佳,并且文件编辑器具有用于上下滚动以及在文件内执行搜索的命令。
3. 为代理提供专门构建的目录范围字符串搜索命令。研究团队发现,该工具简洁地列出匹配项—— 非常重要,只需列出至少有一个匹配项的每个文件。研究表明,向模型显示更多有关每场比赛的背景信息会让模型过于混乱。
4. 当命令的输出为空时,返回一条消息:“您的命令运行成功,但没有产生任何输出。”
未来发表的论文将详细介绍更多信息。
安装与使用
要使用SWE-agent,您必须首先设置以下条件:
1、本地安装Docker并启动Docker;
2、安装Miniconda,使用conda env create -fenvironment.yml创建swe-agent环境;
3、使用conda activate swe-agent进行激活;
4. 运行./setup.sh创建swe-agent docker镜像;
5.在此存储库根目录下创建keys.cfg文件,并填写以下内容:
OPENAI_API_KEY: '如果使用OpenAI 模型,则此处为OpenAI API 密钥(可选)'
ANTHROPIC_API_KEY: '如果使用人择模型,则此处为人择API 密钥(可选)'
GITHUB_TOKEN: 'GitHub 令牌位于此处(必需)'
SWE-agent 管道包含两个步骤:
步骤1:SWE-agent接收输入的GitHub问题并返回尝试修复它的拉取请求;步骤2:评估拉取请求以验证它确实解决了问题(目前仅适用于基准测试中的SWE 基准问题)。如果您想在整个SWE-bench 上运行和评估,最简单的方法是使用x86 机器。
python run.py --model_name gpt4 \
--data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml
python run.py --model_name gpt4 \
--per_instance_cost_limit 2.00 \
--config_file ./config/default.yaml
如果您想从SWE-bench 运行单个问题,可以使用--instance_filter:
标题:AI程序员开源版来了:GPT4加持,能力堪比Devin,一天1.4k Stars
链接:https://yyuanw.com/news/sypc/19444.html
版权:文章转载自网络,如有侵权,请联系删除!
用户评论
哇塞,开源版GPT4加持的AI程序员,感觉要颠覆行业了!
有12位网友表示赞同!
一天1.4k Stars,这热度有点猛啊!
有11位网友表示赞同!
开源版来了,终于可以自己试试AI写代码了!
有17位网友表示赞同!
GPT4加持,期待它能帮我写出更简洁高效的代码!
有16位网友表示赞同!
AI程序员开源版,对传统程序员来说是机遇还是挑战呢?
有18位网友表示赞同!
Devin是谁?看来这个AI程序员确实厉害!
有15位网友表示赞同!
开源版来了,终于可以自己动手研究学习了!
有10位网友表示赞同!
感觉未来的程序员都离不开AI了!
有9位网友表示赞同!
这速度简直惊人,一天1.4k Stars!
有20位网友表示赞同!
希望能有更多开发者加入开源项目!
有7位网友表示赞同!
这个开源版AI程序员,让我看到了未来编程的无限可能!
有8位网友表示赞同!
开源版意味着更多人可以参与开发,期待它越来越强大!
有11位网友表示赞同!
GPT4加持,这个AI程序员真的很强大!
有17位网友表示赞同!
一天1.4k Stars,看来大家对这个项目都很期待!
有5位网友表示赞同!
这个开源版AI程序员,或许会改变我们写代码的方式!
有6位网友表示赞同!
感觉这个AI程序员简直是程序员的福音!
有6位网友表示赞同!
开源版来了,可以试试用AI帮我写代码了!
有18位网友表示赞同!
Devin是谁?他的代码能力值得期待!
有7位网友表示赞同!
期待这个项目能够越来越完善,为开发者带来更多帮助!
有20位网友表示赞同!
这个开源版AI程序员,或许会掀起一场编程领域的革命!
有14位网友表示赞同!