首页
论坛
外包
下载
专栏
专栏首页
- 通信技术
- 显示光电
- 单片机
- 测试测量
- 智能硬件
- 汽车电子
- 消费电子
- 工业控制
- 医疗电子
- 电路图
- 物联网
- 模拟
- 专访
- 电源
- 芯闻号
- 嵌入式
- 技术学院
- 公众号精选
- 厂商动态
- 新基建
- 中国芯
Datasheet
公开课
更多

阅读

21ic专访

编辑视点

专题

会展

高端访谈

新基建

技术

通信技术

显示光电

单片机

测试测量

智能硬件

汽车电子

消费电子

工业控制

医疗电子

开发板

物联网

模拟

电源

嵌入式

资讯

新品

应用

技术专访

基础知识

中国芯

互动

论坛

外包

招聘

课程

公开课

在线研讨会

TI在线培训

资源

下载

电路图

Datasheet

在线计算器

开发板试用

厂商

登录|注册

21ic电子技术开发论坛 › 开发板专区 › 其它 › 聆思CSK6大模型多模态语音交互开源SDK介绍

发新帖

我要提问

聆思CSK6大模型多模态语音交互开源SDK介绍

1476|0

手机看帖

扫描二维码
随时随地手机跟帖

电梯直达

跳转到指定楼层

楼主

初级技术员

楼主 | 2024-6-13 15:59 | 只看该作者 |只看大图回帖奖励

回帖奖励

|倒序浏览 |阅读模式

大模型, sdk, Zephyr RTOS, 大模型开发板, 聆思csk6

聆思CSK6大模型多模态SDK除了支持语音交互之外，还支持图像方面的交互，包括对图像的识别以及图片生成。用户可以通过语音交互、摄像头拍照作为交互入口，实现与大模型的多模态交互。

SDK主要包含以下功能：

●语音交互：支持按键录音或唤醒后通过语音与大模型进行对话

●拍照识图：支持通过摄像头拍摄图像并上传给大模型进行识别，支持依据识图内容进行提问

●图片生成：支持通过语音交互描述画面内容，令大模型生成图片并显示至套件屏幕上

语音交互模式支持的语音交互模式

多模态SDK支持三种交互方式，其特点如下：

模式	唤醒方式	交互方式
按键交互	按下屏幕麦克风图标或开发板K3按键	按住按键说话，松开提交
语音唤醒(单轮)	唤醒词 “小美小美”	听到提示音 “在呢” 后进行提问，每次提问均需要唤醒
语音唤醒(多轮)	唤醒词 “小美小美”	听到提示音 “在呢” 后进行提问，可持续对话，当超过20秒无语音输入时自动结束本次交互

语音交互模式的切换

在待机页面，下滑可调出下滑菜单，点击下滑菜单中的设置图标，可进行配置页面。

选中对应的模式后，点击左上角即可回到待机页面并生效。

按键交互模式

设置成按键交互(按键唤醒)模式下，按住屏幕上的麦克风按钮或开发板上的K3按键，即进入录音状态，松开按键则结束录音并提交。

语音唤醒模式

当设置为语音唤醒(单轮)或语音唤醒(多轮)，可通过唤醒词 —— “小美小美” 对设备进行唤醒，当听到 “在呢” 的提示音后，即可正常进行语音输入。

退出对话

在使用过程中，点击左上角即可结束本轮对话回到待机页面，此操作会同步清除本次对话的上下文信息。

拍照识图

在待机页，点击拍照按钮即可进入取景页面，对准要拍照的物体，点击右侧中间的拍照键完成抓拍，确认画面抓拍正常后（无晃动模糊的情况），点击右侧的 √ 进行提交识别。

文生图

在设备进入语音交互状态后，可以通过带有绘画意图的提示词让大模型进行作画，比如：

●“画一只熊猫”（结果看下方图片附件）

SDK资源下载

语音视觉大模型开发板 SDK：https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/

DEMO固件下载：https://docs2.listenai.com/x/UzjbjIAxw

开发板.png (1.05 MB )

开发板.png

熊猫.png (313.46 KB )

画一只熊猫

画一只熊猫

聆思CSK6开发板大模型多模态开源SDK介绍.pdf

664.78 KB

评论回复赏

共1人点赞

相关帖子

发新帖

我要提问

ListenAI

19 主题	20 帖子	0 粉丝

关闭 热门推荐

扫码关注
21ic 官方微信
扫码关注
嵌入式微处理器
扫码关注
21ic项目外包
扫码关注
21ic视频号
扫码关注
21ic抖音号

本站介绍 | 申请友情链接 | 欢迎投稿 | 隐私声明 | 广告业务 | 网站地图 | 联系我们 | 诚聘英才 | 论坛帮助

京ICP备11013301号

京公网安备 11010802024343号

快速回复 在线客服 返回列表 返回顶部