新聞中心

2024年服貿(mào)會(huì)：當(dāng)大語言模型解鎖“看見”和“說話”的能力

2024-09-19 09:50:20 來源：中國(guó)貿(mào)易報(bào)

9月12日至9月16日，2024年中國(guó)國(guó)際服務(wù)貿(mào)易交易會(huì)（服貿(mào)會(huì)）在國(guó)家會(huì)議中心和首鋼園區(qū)盛大舉辦，本屆服貿(mào)會(huì)的主題是“全球服務(wù)，互惠共享”。在北京首鋼會(huì)展中心2號(hào)館，智譜展示了多款最新產(chǎn)品，包括旗下清言App近期重磅推出的“視頻通話”功能、清影AI生成視頻功能，以及大模型開放平臺(tái)bigmodel.cn等，諸多AI黑科技亮相引發(fā)廣泛關(guān)注。

清言作為首批上線的C端大模型產(chǎn)品，過去一年中以文字和語音形式與用戶互動(dòng)。如今，清言迎來重大升級(jí)，解鎖了“眼睛”，這是全球首個(gè)面向大眾用戶開放的視頻通話功能，讓用戶體驗(yàn)到目前最前沿的AI/大模型技術(shù)，正式進(jìn)入視頻通話時(shí)代。

清言視頻通話功能跨越文本、音頻和視頻三大模態(tài)，具備實(shí)時(shí)推理能力。用戶可以打開攝像頭，通過視頻通話窗口與清言交流，清言不僅能“看”到用戶畫面，還能聽懂指令并準(zhǔn)確執(zhí)行。即使用戶頻繁打斷，清言也能迅速反應(yīng)，帶來如同真人視頻通話的流暢體驗(yàn)。另外可以用右下角小畫筆在畫面上劃重點(diǎn)，清言可以知道你著重讓它看的地方是哪。

當(dāng)大語言模型解鎖了“看見”和“說話”的能力，AI在學(xué)習(xí)和生活中的應(yīng)用更廣泛了，英語翻譯、教學(xué)，導(dǎo)游，為視障人士提供識(shí)別環(huán)境的幫助等等。

最近一段時(shí)間以來，智譜動(dòng)作頻頻：在 KDD 上發(fā)布了升級(jí)版基座大模型GLM-4-Plus，以及CogView-3-Plus 和 CogVLM 在內(nèi)的多模態(tài)模型，展示智譜對(duì)圖像、視頻等更多模態(tài)方面的研究進(jìn)展。同時(shí)，類 GPT-4o 的視頻通話功能在 C 端產(chǎn)品智譜清言上線。7 月，智譜生視頻功能清影 Ying 上線智譜清言，并很快將其背后的生視頻模型 CogVideoX 開源。

分享到微信