第三财经网 2024-11-18 22:46 842
巴比特讯,10 月 24 日,《时代》杂志发布“2023 年最佳发明”榜单,涵盖了如人工智能、绿色能源和可持续发展等重点领域。据悉,此次评选的标准包括独创性、效率、影响力等,共计 200 项突破性发明(以及 50 项特别奖发明)入选,这些发明正在改变我们的生活、工作、娱乐方式,以及对可能事物的思考。
以下是 AI 领域 14 项入选发明的简介:
1. 跳出框框自由编辑:Adobe Photoshop Generative Expand 和 Generative Fill
Adobe 通过在全球最受欢迎的图像编辑器 Photoshop 中内置人工智能技术,让数百万人掌握了强大的 AI 功能。在 Adobe 的 AI 图像生成器 Firefly 的支持下,Photoshop 现在包含了“生成扩展”(Generative Expand)和“生成填充”(Generative Fill)功能。前者允许用户在照片的边界之外无缝填充想象的内容。后者只需输入一些简单的文字,就能在现有图像中添加或删除内容。这两种功能都不需要专业技术。Adobe 数字媒体高级副总裁 Ashley Still 说:这些选项使“客户能够以想象的速度将他们的愿景变为现实”。
2. 改变游戏规则的聊天机器人:OpenAI GPT-4
OpenAI 的 GPT-4 自 3 月份发布以来已有 8 个月,而它仍然是公众可以使用的最强大的聊天机器人。其前身 ChatGPT 的表现仅优于 10% 参加律师资格考试的学生,而 GPT-4 的表现则超过了 90%。它擅长语言推理,能把复杂的概念分解成简单的语言,甚至能解释一个笑话为什么好笑。今年 9 月,OpenAI 开始推出通过语音与模型互动以及使用图像作为输入的功能。更新后的 GPT-4 V 在为视障人士提供工具的组织 Be My Eyes 中进行了测试,可以用自然语言口头描述图片内容。
3. 别出心裁的电影剪辑:Runway Gen-2
Runway 是一家由谷歌支持的初创公司,其视觉特效工具曾被用于制作奥斯卡获奖影片《Everything Everywhere All At Once》中令人匪夷所思的画面。6 月,Runway 推出了 Gen-2 模型。新版本允许任何人通过文字提示、图片或其他视频生成完整的视频。Runway 联合创始人兼首席执行官 Cristóbal Valenzuela 将这项新技术比作 200 年前照相机的发明。他说:“人工智能是一种新型照相机,它将永远重塑讲故事的方式,并带来完全生成的完整故事片。”
4. 人工智能鉴定真伪:Alitheon FeaturePrint
解决价值数万亿美元的假冒商品问题的方法可能很简单,只需将手机的摄像头对准手表或手提包,然后让智能软件确定其真伪即可。FeaturePrint 是一种光学人工智能技术,它首先能“看到”实物微小的表面细节,并将其“指纹化”为独特的数学标识。然后,只需点击一下按钮,它就能告诉你一件物品的真假。Alitheon 首席执行官 Roei Ganzarski 说:“不需要贴纸、标签或标记。客户之一是 Argor-Heraeus,该公司为各国银行生产金条。”
5. 天空之眼:Dedrone 全城无人机探测
无人机既能带来破坏,也能带来益处。Dedrone 的全城无人机探测产品可在某一地理区域周围投掷虚拟防护罩,如果无人机进入指定空域,可在数秒内向执法部门发出警告。Dedrone 跟踪无人机发出的专有混合信号,包括无线电频率、ADS-B 数据(也用于飞机)和 RemoteID 信标,以确定入侵位置。公司首席营销官 Mary-Lou Smulders 将其比作无人机的空中交通管制系统,这在此前所没有的。客户包括 Con Edison,该公司正在用它来保护自己的基础设施;巴塞罗那的警察部队;以及数量不详的机场。
6. 翻译大师:Meta SeamlessM4T
Meta 公司将其 SeamlessM4 T 人工智能模型比作《银河系漫游指南》中的万能语言翻译器巴别鱼(Babel Fish)。该公司的软件能够从语音或文本中理解近 100 种语言,并能以语音到语音、文本到文本、语音到文本或文本到语音等多种形式实时翻译这些语言。据 Meta 公司称,除了可处理的语言远多于前代产品外,该系统的效率更高,出错率更低,甚至可以破译同一句子中混合在一起的多种语言。Meta 已将该模型开源,这意味着全世界的研究人员都可以使用其代码。
7. 惊人的模仿:So-VITS-SVC
8. AI 消防员:AlertCalifornia 和 Cal Fire AI 野火探测器
在野火蔓延之前对其进行检测是目前困扰世界许多地区的一项挑战。加州大学圣迭戈分校的公共安全项目 AlertCalifornia 正在利用人工智能提供帮助。该项目与加州消防局(Cal Fire)合作,训练人工智能从遍布全州森林的 1050 多个摄像头网络中检测烟雾和其他早期火灾迹象。系统一旦发现异常,就会通过短信向当地消防部门发出警报。在最初的两个月里,该系统在接到任何报警电话之前就正确识别出了 77 起火灾。AlertCalifornia 的联合首席调查员 Falco Kuester 说:“这个(系统)最大的成功案例就是那些你从未听说过的火灾。”
9. 轻松创建音乐:Stable Audio
Stable Audio 由 Stability AI 公司创建,它利用人工智能的生成能力,只需几个简单的文字提示,就能生成几乎任何你想要的声音或歌曲。(例如,输入 "ambient techno, drum machine, peaceful, instrumental",就能生成一首轻松的新时代音乐,放在时髦的休息室里也毫不突兀)。该模型是在一个库存音频网站的数据集上训练出来的(所以都是合法的),其中包含 80 多万个音频文件,总计 2 万小时,可用于专业和业余项目。
10. 动物保护者:TrailGuard AI
在印度和非洲的部分地区,偷猎仍然是大象和大型猫科动物灭绝的最大威胁,即使在保护区内也是如此。美国环保组织 Resolve 创建的人工智能踪迹保护系统(TrailGuard AI)利用英特尔(Intel)技术驱动的微型摄像头来监控濒危物种和发现偷猎者。该系统利用手机或远距离无线电信号,在短短 30 秒内就能将图像传送到当局的手机上。TrailGuard 定制的人工智能模型经过训练后,不仅能侦测人类,还能侦测从老虎到鬣狗等任何感兴趣的物种。该技术在东非的测试阶段逮捕了 30 多名偷猎者,目前正在老虎密集的印度中部进行大规模测试。
11. 画出你的想象:OpenAI Dall-E 3
当 OpenAI 在去年 11 月向全世界发布 ChatGPT 时,它彻底改变了人工智能的格局。该公司希望 DALL-E 3(其人工智能图像生成器的全新改进版)也能产生同样的影响。DALL-E 3 的发明者、OpenAI 的 Aditya Ramesh 说,以前的图像生成器需要学习一门新的技术语言,包括在字符串中添加减号和数字,才能获得最佳效果。而 DALL-E 3 则不同,它可以折叠到 ChatGPT 中,这样用户就可以输入会话命令,获得符合其描述的图像。
12. 听好了:古腾堡计划开放式有声读物合集
古腾堡计划(Project Gutenberg)是历史最悠久的数字图书馆,成立于 1971 年,旨在让人们更容易获得电子图书。但首席执行官 Greg Newby 说,它“既不擅长创建,也不擅长传播”。因此,微软和麻省理工学院联手制作了“开放式有声读物合集”,利用文本到语音技术将 5000 本图书转化为免费的合成旁白有声读物,现在可在 Spotify 上下载。推动该项目的软件也免费发布。
13. 节拍:AudioShake
当最伟大的摇滚乐队之一最近达成协议,在广告中使用其 1970 年代的热门歌曲时,其成员欣喜若狂。但有一个问题:广告制作人只想要乐器,而乐队拥有的只是最终的混音。因此,摇滚乐队的团队联系了 AudioShake,该公司的人工智能程序可以隔离预先录制的音频元素,将其分解为各个组成部分。“我们使音频具有交互性和可编辑性,并能够推动这些真正实用的用途,帮助艺术家赚钱,”联合创始人兼首席执行官 Jessica Powell 说。
14. 反思智能手机:Humane Ai Pin
创办 Humane 的两位前苹果公司高管设想了一个无屏幕的未来,Ai Pin 就是他们迈出的第一步。一旦轻巧的 Humane Ai Pin 通过磁力吸附在你的衣服上,它就会成为你的人工智能个人助理。该设备结合使用专有软件和 OpenAI 的 GPT,让您可以完成各种操作,从提出复杂的问题到拨打电话和发送短信,所有这些都只需你一声令下即可完成。同时,内置摄像头可以识别事物并提供上下文信息,例如食物的卡路里估值。每当 Pin 的摄像头、麦克风或输入传感器处于激活状态时,一个名为“信任灯”的显著隐私指示灯就会亮起,以确保周围的人都知道它在监听或录音。如果你需要视觉效果,一个微型投影仪会将它们直接投射到你伸出的手掌上。这款产品计划于 11 月 9 日推出。
注:Humane 投资者包括《时代》周刊的联合主席和所有者 Marc Benioff 和 Lynne Benioff 夫妇
热门文章