🎉 親愛的廣場小夥伴們,福利不停,精彩不斷!目前廣場上這些熱門發帖贏獎活動火熱進行中,發帖越多,獎勵越多,快來 GET 你的專屬好禮吧!🚀
1️⃣ #TokenOfLove# |廣場音樂節打 CALL
爲偶像打 CALL,Gate 廣場送你直達 Token of Love!泫雅、SUECO、DJ KAKA、CLICK#15 —— 你最想 pick 誰?現在在廣場帶上 歌手名字 + TokenOfLove 標籤發帖應援,就有機會贏取 20 張音樂節門票。
詳情 👉 https://www.gate.com/post/status/13214134
2️⃣ #GateTravel旅行分享官# |曬旅程贏好禮
廣場家人們注意啦,Gate Travel 已經上線。帶話題發帖,分享你的 Gate Travel 旅行體驗、心願清單、使用攻略或趣味見聞,就有機會獲得旅行露營套裝、速乾套裝、國際米蘭旅行小夜燈等好禮!
詳情 👉 https://www.gate.com/post/status/13172887
3️⃣ #内容挖矿# |發帖還能賺錢
廣場長期活動進行中,最高可享 10% 手續費返佣!發布優質內容,如行情解析、交易觀點等,吸引更多用戶點讚和評論。若用戶在互動後 180 分鍾內完成現貨或合約交易,你將獲得最高 10% 的手續費返佣!
詳情 👉 https://www.gate.
大模型掀40萬token長文本競賽 推動專業領域落地應用
大模型公司掀起長文本技術競賽,40萬token只是開始
4000到40萬token,大模型正在以驚人的速度不斷提升長文本處理能力。
長文本能力似乎已成爲大模型廠商的新"標配"。國外方面,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文輸入長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將上下文長度提升到10萬token。LongLLaMA則將上下文長度擴展到25.6萬token甚至更多。
國內方面,大模型初創公司月之暗面推出的智能助手Kimi Chat支持輸入20萬漢字,約合40萬token。港中文賈佳亞團隊聯合MIT發布的LongLoRA技術可將7B模型的文本長度拓展到10萬token,70B模型拓展到3.2萬token。
目前,國內外已有一大批頂級大模型技術公司和研究機構將上下文長度拓展作爲升級重點。這些公司大多獲得了資本市場的青睞,如OpenAI斬獲近120億美元投資,Anthropic估值有望達到300億美元,月之暗面成立半年就完成兩輪近20億元融資。
大模型公司如此重視長文本技術,上下文長度擴大100倍意味着什麼?表面上看是輸入文本長度和閱讀能力的提升。更深層次來看,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用落地。
然而,大模型可處理的上下文長度並不是關鍵,更重要的是模型對上下文內容的利用。目前國內外對文本長度的探索還遠未達到"臨界點",40萬token可能只是開始。
月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,才造成了許多應用落地的困境。長文本技術可以解決大模型初期被詬病的一些問題,增強某些功能,同時也是進一步推進產業和應用落地的關鍵技術。這標志着大模型發展進入了從LLM到Long LLM的新階段。
長文本技術爲大模型帶來了一系列新的功能升級,如超長文本信息提取與分析、復雜代碼生成、長對話場景下的角色扮演等。這些功能顯示出大模型正朝着專業化、個性化、深度化的方向發展,有望成爲撬動產業落地的新抓手。
然而,長文本技術也面臨着"不可能三角"困境:文本越長,越難聚集充分注意力;注意力限制下,短文本難以完整解讀復雜信息;處理長文本需要大量算力,提高成本。這主要源於大多數模型基於的Transformer結構中的自注意力機制,其計算量會隨上下文長度呈平方級增長。
目前主要有三種解決方案:借助外部工具輔助處理、優化自注意力機制計算、利用模型優化方法。未來大模型廠商需要在文本長短、注意力和算力三者之間尋求最佳平衡點,以處理足夠信息的同時兼顧注意力計算和算力成本限制。