• 小母狗 文爱

萝莉 操 开源版《Her》来了,技艺请问已公开!大神Karpathy:它很有个性

发布日期:2024-09-21 21:52    点击次数:115

大神 Karpathy 大力推选萝莉 操,开源版「Her」Moshi 再引关怀! (Moshi)的秉性额外意思意思,它会眨眼停止断续续,未必会莫名其妙千里默…… 就像底下这么,一位小哥在和 Moshi 聊天时,Moshi 化身打工东谈主,精神景色十分妍丽(doge)。 (一直向小哥怀恨压力大,导致小哥完好意思插不进话) 据了解,Moshi 是一款端到端及时音频模子, 不仅发布后东谈主东谈主免费可玩,而且就在刚刚,Kyutai 将 Moshi 的代码、技艺请问来了个大公开。 这波属实惊喜了,当初

  • 萝莉 操 开源版《Her》来了,技艺请问已公开!大神Karpathy:它很有个性

    大神 Karpathy 大力推选萝莉 操,开源版「Her」Moshi 再引关怀!

    (Moshi)的秉性额外意思意思,它会眨眼停止断续续,未必会莫名其妙千里默……

    就像底下这么,一位小哥在和 Moshi 聊天时,Moshi 化身打工东谈主,精神景色十分妍丽(doge)。

    (一直向小哥怀恨压力大,导致小哥完好意思插不进话)

    据了解,Moshi 是一款端到端及时音频模子,

    不仅发布后东谈主东谈主免费可玩,而且就在刚刚,Kyutai 将 Moshi 的代码、技艺请问来了个大公开。

    这波属实惊喜了,当初抢先试玩的谷歌 DeepMind 征询员、ViT 作家 Lucas Beyer 闻声赶来:

    (刚好)我最近就思知谈这个问题

    开源工程师 Sebastian Rojo 原地启动勤学花样。

    是时候学起来了!

    诚然,一直慢腾腾的 OpenAI 再次被"当众处刑"。(其高档话语花样 7 月底上线后,仍只面向小部分东谈主盛开)

    惊东谈主的!当我们仍在恭候 OpenAI 的高档语音花样时,东谈主们不错运转使用 Moshi 并进行构建。

    Moshi 技艺细节大公开

    话未几说,先来开个箱,望望 Kyutai 此次放出了哪些东西。

    一份长篇技艺请问。揭露 Moshi 模子背后细节、权重、代码;

    GitHub 官方仓库;

    日韩成人av电影

    HuggingFace 模子库;

    领先来看模子。Kyutai 此次发布了3 个模子,折柳是 Moshiko、Moshika,以及 Mimi 流语音编解码器。

    Moshi 的参数大要为7.69B,Moshiko/ka 是 Moshi 对合成数据进行微调后的变体,分为男女两个声息。

    让它们自行对话, be like:

    不错看出,它们都能在一台 MacBook 上运行,且据先容,这些模子在 L4 GPU 上完毕了约 200 毫秒的延迟。

    至于变体的内存需求,bf16、8 位和 4 位精度,对应的内存折柳为 16GB、8GB 和 4GB VRAM。

    另外,Moshi 使用了一个名为 Mimi 的流式神经音频编解码器,或者惩办24 kHz音频(以 1.1kbps 的速率将 24 kHz 音频压缩至 12.5Hz),而况撑合手多种预历练模子。

    Mimi 受 SpeechTokenizer 启发,通过蒸馏技艺都集建模语义和声学信息,而况通过抵挡性历练擢升了性能,特意用来和诳言语模子协同使命。

    其次,从官方公布的技艺细节来看,Moshi 技俩主要由三个组件组成:

    Helium 话语模子(领有 70 亿参数并在 2.1 万亿 tokens 上进行历练)

    Mimi 神经音频编解码器(或者建模语义和声学信息)

    一种新的多流架构(或者在单独的频谈上折柳对用户和 Moshi 的音频进行建模)

    张开来说,Moshi 团队对 Helium 进行了增强,秉承了 RQ-Transformer 变体架构,这使得 Helium 或者在不增多序列长度的情况下建模语义和声学标志的端倪结构。

    官方自称,他们对生成音频的主要孝顺是多流建模技艺(multi-stream modeling)。

    或者在每个时分步中堆叠 Moshi 和用户的 tokens,以模拟全双工对话的动态,包括叠加、反向通谈和中断等。

    还包括内心独白技艺(Inner Monologue),它进一步提高了生谚语音的质地,通过瞻望时分对都的文正本增强 Moshi 的智能性,同期保合手与流媒体的兼容性。

    此外,"内心独白"的一个延迟是:通过鼎新音频和文本标志的延迟,Moshi 或者完毕流式 TTS 和 ASR 功能。

    在大边界音频预历练后,官方应用我方的模子创建了20k 小时的合成对话数据,用于评估 Moshi 在质地、音频话语建模和白话问答方面的发扬,以及进行了安全和量化分析。

    评估成果深远,Moshi 在性能上优于之前发布的模子。

    OpenAI 版「Her」仍未盛开

    目击 Moshi 此次来了个大公开,一众网友又纷纷思起了 OpenAI。

    本年 7 月底,OpenAI高档语音花样面向部分 plus 用户上线,一些试玩例子也随之流出……

    比如让 ChatGPT 启齿讲华文,这浓浓的「歪果仁」口音是若何回事。

    再比如让它来段急口令,围不雅网友笑 cry 了。

    一番试玩下来,网友们期待值拉满。

    筹商词,OpenAI 的四肢委果有亿点慢了,其时曾缠绵秋季时让统共 plus 用户都能用上高档语音花样。

    筹商词于今莫得更多音问,筹商话题的及时页面下,随地可见一派怀恨。

    致使于 Moshi 发布后,再次有网友簸弄:

    开源老是得手!

    不外也有爆料称,OpenAI 可能会在9 月 24 日发布高档语音花样。

    一周之后我们见分晓!

    技艺请问:

    https://kyutai.org/Moshi.pdf

    GitHub 官方仓库:

    https://github.com/kyutai-labs/moshi

    HuggingFace 模子库:

    https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

    参考相接:

    [ 1 ] https://x.com/karpathy/status/1836476796738670918

    [ 2 ] https://x.com/kyutai_labs/status/1836427396959932492萝莉 操



相关资讯

  • 女同 视频 真我GT7 Pro真机外不雅策划公开:确立专属火星救助配色

    ZAKER 科技 10 月 25 日音问,realme 真我官方公布了行将发布的新旗舰真我 GT7 Pro 外不雅照,此次现身的是名为"火星救助"的配色女同 视频,以红色为主。 日韩成人av电影 机身策划方面,真我 GT 7 Pro 取舍了低温感航空铝中框,天地视窗 Deco,AG 工艺玻璃背板。...

  • 乱伦故事 《模拟农场25》最新资讯公开先容农作物、舆图、农机等新因素的最新预报片

    世嘉股份有限公司通知乱伦故事,现已发布《Farming Simulator 25 25(模拟农场2525)》的“绝顶预报片”。片中先容了本作新增的农作物、舆图、农机等新因素。本作将于 PlayStation®5/XboxSeries X|S/PC(Steam/Epic Games Store/Windows)/MAC 平台发售。 ■现已发布包含遍及新因素的“...