Humane 正式推出 AI Pin：一款由 OpenAI GPT-4 驱动的人工智能可穿戴设备

公司新闻 | 2024-02-14 20:22:11 | 小编

　　设备——AI Pin 的神秘面纱，这标志着人工智能驱动的未来设备可能是什么样子的揭示。

　　昨天，媒体提前披露了该设备的细节，AI Pin 是一款售价 699 美元的穿戴设备，由一个方形设备和一个可磁性附着于衣物或其他表面的电池组成。除了设备价格外，用户还需支付每月 24 美元的 Humane 订阅费，以获得电话号码和通过 T-Mobile 网络的数据服务。据 Wired 杂志报道，该设备预计将于 2024 年初开始发货，预订将于 11 月 16 日开始。

　　AI Pin 搭载了一款 Snapdragon 处理器——尽管目前尚不清楚是哪一款——用户可以通过声控、摄像头、手势和内置的小型投影仪来操作设备。Pin 本身的重量约为 34 克，而「电池增强器」则增加了 20 克重量。内置摄像头拍摄的照片为 1300 万像素，并且在软件更新后还能够捕捉视频。

　　与 Rewind 吊坠等设备不同，AI Pin 并非旨在始终录音，甚至也不会监听激活词。用户需要通过在触摸板上轻拍和拖动来手动激活设备，而 Pin 的「信任灯」会闪烁，以便让用户和其他人知道它正在收集数据。

　　Pin 的主要功能是通过一种名为 AI Mic 的软件连接到 AI 模型。Humane 的新闻稿提到了微软和OpenAI，之前的报告表明 Pin 主要由 GPT-4 提供动力——Humane 表示，实际上 ChatGPT 访问是设备的核心功能之一。其操作系统名为 Cosmos，旨在自动将用户的查询引导至正确的工具，而非要求用户下载和管理应用程序。

　　Humane 正在尝试通过 Pin 去除技术接口的繁琐部分。它不会有主屏幕或需要管理的大量设置和账户；其思想是用户只需对 Pin 说话或触摸，表达想做的事情或想要了解的信息，一切都将自动发生。在过去的一年中，我们看到大量功能通过简单的文本命令对话机器人变得可用；Humane 正在尝试以相同的精神打造一款设备。

　　然而，问题在于这个设备究竟能做什么。Humane 在今天的公告中提到的大多数功能都是联合创始人伊姆兰·乔德里（Imran Chaudhri）在今年早些时候 TED 演示中展示的：基于语音的消息和通话功能；一项「快速更新」功能，可以总结您的电子邮件收件箱；将食物举到摄像头前以获取营养信息；以及实时翻译。不过，除此之外，该设备的主要用途似乎是作为一种可穿戴的 LLM 驱动的搜索引擎。 Humane 公司告诉 Wired，它打算增加导航和购物功能，并计划给开发者提供构建自己的工具的方式。

　　Humane 似乎将 AI Pin 视为更大项目的开始，这很可能是正确的：随着底层模型的改进，它将变得更好，而整个科技行业似乎都在努力寻找使用 AI 的新方法。

　　Humane 可能希望其设备能像智能手机那样发展：更好的硬件随着时间的推移改善用户体验，但真正的革命来自于你能用设备做什么。在这方面还有很多工作要做，但 Humane 显然已经准备好开始了。

　　11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　Humane是一家由SamAltman支持的人工智能公司，推出了一款名为AIPin的基于ChatGPT技术的智能设备。该设备于去年11月推出，旨在减少对智能手机的依赖。您还需要良好的互联网连接才能操作AIPin。

　　作为TIME杂志2023年度「年度CEO」，OpenAI首席执行官SamAltman在当地时间周二TIME杂志的「AYearinTIME」活动中与TIME主编SamJacobs进行了广泛对话，讨论了人工智能对社会的影响及其未来潜力。SamAltman谈到了他11月份在OpenAI的突然解职和复职经历，称这是一次学习经历——对他个人和整个公司言。我认为技术的发展方式，预测往往是错误的。

　　上周，AxelSpringer签署了一项价值数千万欧元的「多年许可协议」。图片来自AxelSpringer据该公司表示，该协议将「通过添加最新和权威内容的摘要，丰富用户与ChatGPT的互动体验。但这项交易也提出了另一个问题：如果网络将被只给予垃圾邮件回报的公司收割像AxelSpringer这样的公司注定要成为自动化新闻聚合器的通讯社——如果OpenAI希望像之前的社交平台「合作伙伴」一样，抓住

　　OpenAI，一个承诺为全人类利益构建人工智能的公司，自去年推出ChatGPT以来，其商业雄心在最近的治理危机中变得更加显著。该公司宣布，一个专注于管理未来超级智能AI的新研究小组开始取得成果。Sutskever在深度神经网络先驱GeoffreyHinton的指导下攻读了博士学位，后者今年5月离开谷歌，目的是警告AI现在似乎正在某些任务中迅速接近人类水平。

　　人工智能显然是目前最热门的行业。在OpenAI或DeepMind等世界顶级人工智能公司工作是很多人梦寐以求的事情。尽管研究人员的工资并不低，但HuggingFace以其开源方式向研究人员支付23.8万美元的年薪，以及27%的协商增量和18.5万美元的初始报酬。

　　一位长期关注苹果的分析师暗示，苹果2024年的重点将是可穿戴设备非iPhone。15年来，iPhone一直是苹果的主要重点。苹果还计划对AirPodsMax进行改进，用USB-C取代Lightning充电器，并推出新的颜色选择，旨在重振人们对这款产品的兴趣。

　　人类无法监督超级人工智能，但人工智能可以。以「预测下一个Token」为本质的大模型已经横扫人类世界的多项任务，展现了人工智能的巨大潜力。图9a考虑了7个有代表性的NLP任务，并比较了微调、零样本提示和5-shot提示;对于零样本和5-shot基线中总结的特定于任务的提示。

　　亿万富翁投资者VinodKhosla是OpenAI的早期支持者，他预测全球经济将发生翻天覆地的变化。他最近的见解表明，人工智能不仅会重塑行业会从根本上改变我们衡量和感知未来25年经济增长的方式。这将转变为一个没有贫困的世界，人们对产品和服务的需求可以被充分满足。

　　据Safewise估计，去年美国约有2.6亿个包裹失踪，许多包裹在门前区域被盗此类盗窃常常被摄像头录下。随着节日季节的临近，包裹失窃成为人们最关心的问题之一，一家快递公司正在使用人工智能来对抗「porchpirates」。「我们认识到这是计算机与犯罪分子的对抗，我们必须利用我们拥有的每一项技术能力来尽量规避我们可能遇到的任何挑战，」他说。

　　12月15日，OpenAI在官网公布了最新研究论文和开源项目——如何用小模型监督大模型，实现更好的新型对齐方法。大模型的主流对齐方法是RLHF。研究人员在NLP等测试任务中进行了实验，结果显示，使用GPT-2作为监督来微调GPT-4模型，并在上述增强功能的帮助下，性能差距仅有20%左右，达到了GPT-3和GPT-3.5之间的能力。

　　DiffusionLight是一项利用扩散模型在单张输入图像中估算照明效果的技术。它利用训练好的Stable Diffusion XL模型绘制一个镜面反射球,然后将球体展开得到全景照明图。该技术解决了现有基于神经网络的方法依赖有限HDR全景数据集导致在真实复杂场景下效果不佳的问题。关键创新在于发现了扩散噪声图和镜面反射球生成质量之间的关系,迭代生成高质量镜面球;以及通过LoRA 进行多曝光训练,使LDR模型也可以输出HDR格式。该技术可产生逼真的照明估计,特别适用于野外场景。

　　Rawbot是一个AI模型比较平台，帮助用户轻松比较不同AI模型，并发挥它们在项目中的全部潜力。用户可以基于准确的并排比较来选择最佳的AI模型。Rawbot与ChatGPT、Cohere和J2 Complete兼容。

　　Auto Seduction AI是一款智能约会助手，通过个性化消息和完美的对话开场白，帮助用户每周获得1至4次约会。其独特的照片智能分析功能可以创建令人着迷的对话开场白，帮助用户获得更多的约会回应。用户可以使用其自动化的冷读、轻微调情、邀约等功能，平均只需4-6条消息就能成功安排一次约会。该产品支持多种语言，包括英语、西班牙语、法语、德语、意大利语、俄语和印地语。

　　Resume Revival是一款免费在线AI简历生成器，利用ChatGPT技术提供最高质量的简历和求职信创建。产品功能包括AI驱动的简历和求职信生成、技能缺口分析、广泛的定制选项以及职业拓展。用户可以使用直观的在线平台免费增强求职申请。

　　该代码仓库包含从合成图像数据(主要是图片)进行学习的研究,包括StableRep、Scaling和SynCLR三个项目。这些项目研究了如何利用文本到图像模型生成的合成图像数据进行视觉表示模型的训练,并取得了非常好的效果。

　　AIApply 是您求职过程中的 AI 助手。生成个性化求职信，优化简历，开启您成功之旅。

　　vx.dev是一个开源的v0.dev替代品。它具有以下优点: - 低成本:通过提示工程技术,可以大大降低使用成本 - 易于定制:提供开源的提示,可以根据需求定制UI组件或代码风格 - GitHub无缝集成:生成的代码存储在GitHub上,内置版本控制、代码审查等功能 vx.dev的工作原理是,使用GPT-4模型根据事先定义好的提示来生成代码。主要成本在于输入和补全的标记数量。提示存储在prompts/ui-gen.md中,包含shadcn/ui、lucide和nivo图表的指令。通过删除不需要的组件指令,可以降低每次生成的API成本。 vx.dev可以轻松定制。用户可以基于现有提示进行修改,使用其他UI库或调整代码风格。生成的代码存储在GitHub上,拥有版本控制、协同等特性。私有仓库可以保证生成结果的可见性。

　　Lampi 是一款由 AI 驱动的安全平台，可在您完全控制的前提下进行广泛的搜索，并生成基于知识的内容。Lampi 旨在确保您的数据保持私密和在您的控制之下。产品定价和详细信息请访问官方网站。

　　AnyChat是一款AI助手应用，通过使用AI完成任务和回答问题来提高工作效率。用户可以通过AnyChat执行各种任务，如搜索、生成文档、回答问题等。通过AnyChat，用户可以优化工作流程，提高工作效率。

　　Kin是您私人生活的AI助手。它具有无限的耐心、同情心和专业知识，并全天候为您提供支持。Kin建立在语义和情节记忆之上，能够深入了解您，同时注重隐私和安全。它通过本地存储、自主数据控制以及边缘机器学习等技术，保障您的数据安全。Kin还提供任务管理、优先级组织、时间优化等功能，可帮助您更好地利用时间。Kin目前处于测试阶段，正在接受早期访问请求。

　　FreeInit是一个简单有效的方法,用于提高视频生成模型的时间一致性。它不需要额外的训练,也不引入可学习的参数,可以很容易地在任意视频生成模型的推理时集成使用。

　　Discoze是一个通过AI孪生模型实现社交发现和交流的APP。用户可以创建自己的AI孪生,使其学习并模仿自己的语音、照片和个性。其他用户可以通过AI孪生模型进行交流,从而快速发现共同语言的朋友。Discoze实现了零等待时间的社交,用户可以随时通过AI孪生开始交流。

　　ODIN（Omni-Dimensional INstance segmentation）是一个模型，可以使用转换器架构在2D RGB图像和3D点云上进行分割和标记。它通过在2D视图内和3D视图之间交替融合信息来区分2D和3D特征操作。ODIN在ScanNet200、Matterport3D和AI2THOR 3D实例分割基准上实现了最先进的性能，并在ScanNet、S3DIS和COCO上实现了竞争性能。当使用来自3D网格的采样点云代替感知的3D点云时，它超过了以往所有的作品。作为可指导的具体化代理架构中的3D感知引擎时，它在TEACh对话动作基准上树立了新的最先进水平。我们的代码和检查点可以在项目网站找到。

　　LLM Augmented LLMs通过将现有基础模型与更具体的模型进行组合，实现新的能力。CALM（Composition to Augment Language Models）引入模型之间的交叉注意力，以组合它们的表示并实现新的能力。其显著特点包括：（i）通过“重用”现有LLMs以及少量额外参数和数据，在新任务上扩展LLMs的规模；（ii）保持现有模型权重不变，因此保留现有的能力；（iii）适用于不同的领域和设置。实验证明，将PaLM2-S与在低资源语言上训练的较小模型进行增强，在诸如翻译成英语和低资源语言的算术推理等任务上，结果绝对改善了高达13%。类似地，当PaLM2-S与特定于代码的模型进行增强时，在代码生成和解释任务上，相对于基础模型，我们看到了高达40%的改进，与完全微调的对应模型不相上下。

　　这款产品是一种3D GAN技术，通过学习基于神经体积渲染的方法，能够以前所未有的细节解析细粒度的3D几何。产品采用学习型采样器，加速3D GAN训练，使用更少的深度采样，实现在训练和推断过程中直接渲染完整分辨率图像的每个像素，同时学习高质量的表面几何，合成高分辨率3D几何和严格视角一致的图像。产品在FFHQ和AFHQ上展示了最先进的3D几何质量，为3D GAN中的无监督学习建立了新的标准。

　　Dreamy.ai是一个人工智能驱动的虚拟聊天平台。用户可以与逼真的虚拟角色进行沉浸式对话,实现角色扮演和交流。平台提供自定义人工智能女友、选择不同人物形象与个性,打造独一无二的虚拟伴侣。核心功能有自然语言处理、情感计算等AI技术,可实现自主对话和互动。优势是个性化体验强,可提升用户想象力与情感联系。定位虚拟娱乐Humane 正式推出 AI Pin：一款由 OpenAI GPT-4 驱动的人工智能可穿戴设备、陪伴市场。

　　3D Fauna是一个通过学习 2D 网络图片来构建三维动物模的方法。它通过引入语义相关的模型集合来解决模型泛化的挑战，并提供了一个新的大规模数据集。在推理过程中，给定一张任意四足动物的图片，我们的模型可以在几秒内通过前馈方式重建出一个有关联的三维网格模型。

　　LLaMA Pro 是一种用于大规模自然语言处理的模型。通过使用 Transformer 模块的扩展，该模型可以在不遗忘旧知识的情况下，高效而有效地利用新语料库来提升模型的知识。LLaMA Pro 具有出色的性能，在通用任务、编程和数学方面都表现出色。它是基于 LLaMA2-7B 进行初始化的通用模型。LLaMA Pro 和其指导类模型（LLaMA Pro-Instruct）在各种基准测试中均取得了先进的性能，展示了在智能代理中进行推理和处理各种任务的巨大潜力。该模型为将自然语言和编程语言进行整合提供了宝贵的见解，为在各种环境中有效运作的先进语言代理的开发奠定了坚实的基础。

　　QAnything是一个支持任意文件格式和数据库的本地知识问答系统,可以简单地导入任意本地存储的各种格式的文件,并得到准确、快速、可靠的问答。目前支持的格式包括:PDF、Word(doc/docx)、PPT、Markdown、Eml、TXT、图片(jpg、png等)、网页链接等,后续会持续新增支持的格式。QAnything具有数据安全性,支持断网安装使用;支持中英文跨语言问答;支持海量数据问答,解决大规模数据检索退化问题;直接可用于企业应用的高性能产品级系统;一键安装部署,开箱即用的用户友好体验;支持多知识库问答等功能。

　　Instruct-Imagen是一个多模态图像生成模型，通过引入多模态指令，实现对异构图像生成任务的处理，并在未知任务中实现泛化。该模型利用自然语言整合不同的模态（如文本、边缘、风格、主题等），标准化丰富的生成意图。通过在预训练文本到图像扩散模型上进行两阶段框架的微调，采用检索增强训练和多样的图像生成任务微调，使得该模型在各种图像生成数据集上的人工评估结果表明，其在领域内与先前的任务特定模型相匹配或超越，并展现出对未知和更复杂任务的有希望的泛化能力。

上一篇 : 《新一代人工智能基础设施白皮书》发布
下一篇 : 手机终结者来了？

麻将胡了2

Humane 正式推出 AI Pin：一款由 OpenAI GPT-4 驱动的人工智能可穿戴设备