隨着AI應用深入各行各業,如何準確評估模型性能與提升用戶信任成了當下亟待解決的難題。傳統評測多依賴集中化機制,既難以覆蓋多樣化場景,也無法反映真實用戶偏好;與此同時,模型“幻覺”問題頻出,用戶在選擇時常陷入信息繭房。
在這一背景下,Yupp作爲一家新晉平台,憑藉其獨特的衆包模式和激勵機制,正試圖重塑AI模型的發現、比較與使用方式,並爲AI評估領域帶來一場範式變革。本文將深入剖析Yupp的核心機制、技術亮點、團隊背景及其對AI生態的潛在影響。
Yupp立足於解決AI領域長期存在的評估難題,致力於構建一個“去信任”(trustless)的AI反饋市場——讓多元化的用戶反饋在區塊鏈和加密經濟激勵的保障下自由流通,從而形成一個可擴展、公平且透明的模型評估層。通過對高質量人工標注數據的激勵分發,Yupp可以及時捕捉真實用戶在不同場景下的需求和偏好,幫助AI開發者以迭代的方式優化模型性能。
該項目由Pankaj Gupta(聯合創始人兼CEO)和Gilad Mishne(聯合創始人兼AI負責人)於2024年6月創立,首席科學家Jimmy Lin(滑鐵盧大學教授)亦參與核心團隊。三人早在2010年於Twitter共事,曾打造並優化大規模推薦與搜索系統,後在Google和Coinbase積累了豐富經驗。
因去中心化、數據價值透明化的願景能夠切中AI廠商對可信評估和用戶參與的雙重訴求,以及得益於核心團隊的豐富履歷,Yupp贏得了科技行業知名人士和頂級風投的高度認可。
上周,Yupp宣布完成3300萬美元種子輪融資,A16z合夥人Chris Dixon領投,其他投資方還包括Google首席科學家Jeff Dean、Twitter聯合創始人Biz Stone、Pinterest聯合創始人Evan Sharp、Perplexity CEO Aravind Srinivas、斯坦福大學Dan Boneh、Chris Re、Nick McKeown和Balaji Prabhakar等45位知名天使及企業高管,以及Coinbase Ventures。
作爲一個中心化的AI評估平台,Yupp秉持“人人共享的AI(Every AI for everyone)”理念,讓用戶輕鬆發現、比較並使用最新的AI模型。與傳統單一響應不同,Yupp針對每個提示同時返回兩個(乃至更多)模型的答案,形成一個“AI議會”。這種設計不僅滿足了用戶對多樣化選擇的需求,更能有效甄別模型可能出現的“幻覺”,幫助用戶通過對比做出更明智的決策。正如Yupp CEO Pankaj Gupta所言,並排輸出對於關注生成錯誤的用戶尤爲有益,因爲他們可以借此交叉驗證結果。
平台現已支持逾500款AI模型,涵蓋文本與圖像生成領域,包括ChatGPT、Claude、Gemini、DeepSeek、Grok、Llama等知名模型,以及衆多新興模型。爲進一步優化體驗,Yupp還推出了“QuickTake”功能,可將冗長回復提煉爲一條簡潔的推文。
此外,Yupp高度重視用戶隱私:所有聊天記錄默認私密,除非用戶主動公開;即使公開分享,也不透漏任何個人信息。用戶可隨時控制分享內容及範圍。
Yupp將免費使用與用戶反饋結合,通過“Yupp積分”系統衡量模型使用情況。新用戶註冊秒獲5000積分,後續可通過對模型回復打分、選擇偏好並闡述理由來賺取更多積分。反饋質量越高,獎勵越豐厚,確保用戶可持續免費使用包括Claude Opus 4或OpenAI o3等高端模型。平台承諾,積分只增不減,且當前所有模型皆能免費體驗。
在每次提問後,用戶會獲得兩份模型回答,並通過反饋贏取“數字刮刮卡”,獎勵0~250不等的Yupp積分。每1000積分可兌換1美元,用戶每日最高可提現10美元、月度最高50美元。積分支持兌換美元、歐元等20餘種貨幣,合作夥伴包括Stripe、PayPal、Coinbase。同時,平台集成了Base Ethernet L2和Solana穩定幣,爲全球用戶提供即時、免手續費的獎勵。
正如Pankaj Gupta所說,用戶產生的高質量反饋對於AI公司的模型微調與強化學習價值遠超獎勵本身。雖然用戶月度收益或僅相當於幾杯咖啡,但這些付費標注數據對AI迭代至關重要。
爲激勵更多人參與,Yupp還設立推薦獎勵:推薦人獲5000積分,被推薦人獲1000積分;目前新註冊用戶可獲5000積分,被推薦人額外獲得2500積分。
針對現有排行榜透明度不足、公平性欠缺、評估數據獲取不均等問題,Yupp推出了測試版AI排行榜和“Yupp VIBE (Vibe Intelligence Benchmark) Score”評分系統。該系統匯聚全球用戶在自然交互中產生的偏好數據,力求提供穩健且可信賴的評估結果。
Yupp的評估原則包括:
平台不僅收集二元偏好,還鼓勵用戶指出回復的優缺點(如“切中要害”、“速度快”、“風格佳”等),並根據用戶的年齡、教育、職業等信息進行分羣分析,展現不同羣體的偏好差異。
在技術層面,Yupp正在探索利用區塊鏈、密碼學原語及零知識證明等技術,確保評估過程的公正、透明和可驗證。同時,平台已與專業AI數據提供商合作,通過檔案驗證和多層質量檢測校準評分員,清除惡意數據。
近期榜單已更新,展示了GPT‑4.5 Preview、Claude Opus 4、Claude Sonnet 4等模型的VIBE得分及其勝率、不喜歡率、速度、延遲、上下文窗口和成本指標。
Yupp於2025年6月13日正式上線,前期進行了六個月內部測試。自上線以來,產品持續迭代:
Yupp的使命是“賦能人類塑造AI的未來”。Pankaj Gupta認爲,AI發展需要每個人的參與與貢獻。通過多視角AI回應和用戶反饋,Yupp不僅助力用戶更好決策,也爲AI進化提供源源不斷的動力。
值得一提的是,Yupp的主要競爭對手之一是開放AI模型評測平台LMArena(網址:https://lmarena.ai/), 該網站在AI業內人士中非常受歡迎,但該平台目前正處於商業化探索階段,並沒有借用區塊鏈技術對用戶參與提供直接的物質獎勵或積分激勵機制。
總的來說,Yupp以衆包模式、激勵機制與真實用戶偏好驅動的評估系統,開闢了AI評估的新路徑。它不僅爲用戶提供免費、多樣的AI互動體驗,更將用戶反饋轉化爲高價值訓練數據,推動模型持續優化。憑藉經驗豐富的團隊和頂級資本加持,Yupp有望在未來AI生態中扮演關鍵角色,實現“人人皆享AI,人人塑造AI”的願景。
然而,對於剛剛上線的Yupp而言,如何在大規模用戶參與下,持續確保數據質量、抵御潛在的作弊行爲,以及在商業化與用戶激勵之間取得平衡,仍將是其未來發展中需要不斷探索和優化的方向。
隨着AI應用深入各行各業,如何準確評估模型性能與提升用戶信任成了當下亟待解決的難題。傳統評測多依賴集中化機制,既難以覆蓋多樣化場景,也無法反映真實用戶偏好;與此同時,模型“幻覺”問題頻出,用戶在選擇時常陷入信息繭房。
在這一背景下,Yupp作爲一家新晉平台,憑藉其獨特的衆包模式和激勵機制,正試圖重塑AI模型的發現、比較與使用方式,並爲AI評估領域帶來一場範式變革。本文將深入剖析Yupp的核心機制、技術亮點、團隊背景及其對AI生態的潛在影響。
Yupp立足於解決AI領域長期存在的評估難題,致力於構建一個“去信任”(trustless)的AI反饋市場——讓多元化的用戶反饋在區塊鏈和加密經濟激勵的保障下自由流通,從而形成一個可擴展、公平且透明的模型評估層。通過對高質量人工標注數據的激勵分發,Yupp可以及時捕捉真實用戶在不同場景下的需求和偏好,幫助AI開發者以迭代的方式優化模型性能。
該項目由Pankaj Gupta(聯合創始人兼CEO)和Gilad Mishne(聯合創始人兼AI負責人)於2024年6月創立,首席科學家Jimmy Lin(滑鐵盧大學教授)亦參與核心團隊。三人早在2010年於Twitter共事,曾打造並優化大規模推薦與搜索系統,後在Google和Coinbase積累了豐富經驗。
因去中心化、數據價值透明化的願景能夠切中AI廠商對可信評估和用戶參與的雙重訴求,以及得益於核心團隊的豐富履歷,Yupp贏得了科技行業知名人士和頂級風投的高度認可。
上周,Yupp宣布完成3300萬美元種子輪融資,A16z合夥人Chris Dixon領投,其他投資方還包括Google首席科學家Jeff Dean、Twitter聯合創始人Biz Stone、Pinterest聯合創始人Evan Sharp、Perplexity CEO Aravind Srinivas、斯坦福大學Dan Boneh、Chris Re、Nick McKeown和Balaji Prabhakar等45位知名天使及企業高管,以及Coinbase Ventures。
作爲一個中心化的AI評估平台,Yupp秉持“人人共享的AI(Every AI for everyone)”理念,讓用戶輕鬆發現、比較並使用最新的AI模型。與傳統單一響應不同,Yupp針對每個提示同時返回兩個(乃至更多)模型的答案,形成一個“AI議會”。這種設計不僅滿足了用戶對多樣化選擇的需求,更能有效甄別模型可能出現的“幻覺”,幫助用戶通過對比做出更明智的決策。正如Yupp CEO Pankaj Gupta所言,並排輸出對於關注生成錯誤的用戶尤爲有益,因爲他們可以借此交叉驗證結果。
平台現已支持逾500款AI模型,涵蓋文本與圖像生成領域,包括ChatGPT、Claude、Gemini、DeepSeek、Grok、Llama等知名模型,以及衆多新興模型。爲進一步優化體驗,Yupp還推出了“QuickTake”功能,可將冗長回復提煉爲一條簡潔的推文。
此外,Yupp高度重視用戶隱私:所有聊天記錄默認私密,除非用戶主動公開;即使公開分享,也不透漏任何個人信息。用戶可隨時控制分享內容及範圍。
Yupp將免費使用與用戶反饋結合,通過“Yupp積分”系統衡量模型使用情況。新用戶註冊秒獲5000積分,後續可通過對模型回復打分、選擇偏好並闡述理由來賺取更多積分。反饋質量越高,獎勵越豐厚,確保用戶可持續免費使用包括Claude Opus 4或OpenAI o3等高端模型。平台承諾,積分只增不減,且當前所有模型皆能免費體驗。
在每次提問後,用戶會獲得兩份模型回答,並通過反饋贏取“數字刮刮卡”,獎勵0~250不等的Yupp積分。每1000積分可兌換1美元,用戶每日最高可提現10美元、月度最高50美元。積分支持兌換美元、歐元等20餘種貨幣,合作夥伴包括Stripe、PayPal、Coinbase。同時,平台集成了Base Ethernet L2和Solana穩定幣,爲全球用戶提供即時、免手續費的獎勵。
正如Pankaj Gupta所說,用戶產生的高質量反饋對於AI公司的模型微調與強化學習價值遠超獎勵本身。雖然用戶月度收益或僅相當於幾杯咖啡,但這些付費標注數據對AI迭代至關重要。
爲激勵更多人參與,Yupp還設立推薦獎勵:推薦人獲5000積分,被推薦人獲1000積分;目前新註冊用戶可獲5000積分,被推薦人額外獲得2500積分。
針對現有排行榜透明度不足、公平性欠缺、評估數據獲取不均等問題,Yupp推出了測試版AI排行榜和“Yupp VIBE (Vibe Intelligence Benchmark) Score”評分系統。該系統匯聚全球用戶在自然交互中產生的偏好數據,力求提供穩健且可信賴的評估結果。
Yupp的評估原則包括:
平台不僅收集二元偏好,還鼓勵用戶指出回復的優缺點(如“切中要害”、“速度快”、“風格佳”等),並根據用戶的年齡、教育、職業等信息進行分羣分析,展現不同羣體的偏好差異。
在技術層面,Yupp正在探索利用區塊鏈、密碼學原語及零知識證明等技術,確保評估過程的公正、透明和可驗證。同時,平台已與專業AI數據提供商合作,通過檔案驗證和多層質量檢測校準評分員,清除惡意數據。
近期榜單已更新,展示了GPT‑4.5 Preview、Claude Opus 4、Claude Sonnet 4等模型的VIBE得分及其勝率、不喜歡率、速度、延遲、上下文窗口和成本指標。
Yupp於2025年6月13日正式上線,前期進行了六個月內部測試。自上線以來,產品持續迭代:
Yupp的使命是“賦能人類塑造AI的未來”。Pankaj Gupta認爲,AI發展需要每個人的參與與貢獻。通過多視角AI回應和用戶反饋,Yupp不僅助力用戶更好決策,也爲AI進化提供源源不斷的動力。
值得一提的是,Yupp的主要競爭對手之一是開放AI模型評測平台LMArena(網址:https://lmarena.ai/), 該網站在AI業內人士中非常受歡迎,但該平台目前正處於商業化探索階段,並沒有借用區塊鏈技術對用戶參與提供直接的物質獎勵或積分激勵機制。
總的來說,Yupp以衆包模式、激勵機制與真實用戶偏好驅動的評估系統,開闢了AI評估的新路徑。它不僅爲用戶提供免費、多樣的AI互動體驗,更將用戶反饋轉化爲高價值訓練數據,推動模型持續優化。憑藉經驗豐富的團隊和頂級資本加持,Yupp有望在未來AI生態中扮演關鍵角色,實現“人人皆享AI,人人塑造AI”的願景。
然而,對於剛剛上線的Yupp而言,如何在大規模用戶參與下,持續確保數據質量、抵御潛在的作弊行爲,以及在商業化與用戶激勵之間取得平衡,仍將是其未來發展中需要不斷探索和優化的方向。