✈️ Gate 廣場【Gate Travel 旅行分享官召集令】
廣場家人們注意啦!Gate Travel 已經上線~ 機票+酒店一站式預訂,還能用加密貨幣直接付款 💸
所以說,你的錢包和你的旅行夢終於可以談戀愛了 😎 💕
現在廣場開啓 #GateTravel旅行分享官# 活動,邀你來秀旅行靈感 & 使用體驗!💡
🌴 參與方式:
1️⃣ 在【廣場】帶話題 #Gate Travel 旅行分享官# 發帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小島 or 網紅打卡點都行)
講講用 Gate Travel 訂票/訂酒店的奇妙體驗
放放省錢/使用攻略,讓大家省到笑出聲
或者直接寫一篇輕鬆的 Gate Travel 旅行小故事
📦 獎勵安排,走起:
🏆 優秀分享官(1 名):Gate 旅行露營套裝
🎖️ 熱門分享官(3 名):Gate 旅行速乾套裝
🎉 幸運參與獎(5 名):Gate 國際米蘭旅行小夜燈
*海外用戶 旅行露營套裝 以 $100 合約體驗券,旅行速乾套裝 以 $50 合約體驗券折算,國際米蘭旅行小夜燈以 $30合約體驗券折算。
📌 優質內容將有機會得到官方帳號轉發翻牌提升社區曝光!
📌 帖文將綜合互動量、內容豐富度和創意評分。禁止小號刷貼,原創分享更容易脫穎而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
LLaMA都在用的開源數據集慘遭下架:包含近20萬本書,對標OpenAI數據集
原文來源:量子位
開源數據集因侵權問題,慘遭下架。
如LLaMA、GPT-J等,都用它訓練過。
如今,託管了它3年的網站,一夜之間刪除了所有相關內容。
這就是Books3,一個由將近20萬本圖書組成的數據集,大小將近37GB。
現在該平台上的Books3網頁鏈接已經“404”。
數據集的最初開發者無奈表示,Books3的下架是開源圈的一場悲劇。
**Books3是什麼? **
Books3在2020年發布,由AI開發者Shawn Presser上傳,被收錄在Eleuther AI的開源數據集Pile中。
它總計包含197000本書,包含來自盜版網站Bibliotik的所有書籍,意在對標OpenAI的數據集,但主打開源。
這也是Books3名字的來源之處——
GPT-3發布後,官方披露其訓練數據集中15%的內容來自兩個名為“Books1”、“Books2”的電子圖書語料庫,不過具體內容一直沒有被透露。
比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等,都用上了Books3.
要知道,圖書數據一直是大模型預訓練中核心的語料素材,它能為模型輸出高質量長文本提供參考。
很多AI巨頭使用的圖書數據集都是不開源,甚至是非常神秘的。比如Books1/2,關於其來源、規模的了解,更多都是各界猜測。
為了更方便獲取,Books3被放到了The Eye上託管。這是一個可以存檔信息、提取公開數據的平台。
而這一次慘遭下架,說的也是這一平台。
丹麥反盜版組織權利聯盟向The Eye提出了下架請求,並且通過了。
不過好消息是,Books3並沒有完全消失,還是有其他辦法獲取的。
Wayback Machine上還有備份,或者可以從Torrent客戶端下載。
作者老哥在推特上給出了多個方法。
“沒有Books3就沒法做自己的ChatGPT”
實際上,對於這次下架風波,數據集作者老哥有很多話想說。
他談到,想要做出像ChatGPT一樣的模型,唯一的方法就是創建像Books3這樣的數據集。
在作者看來,ChatGPT就像是90年代的個人網站一樣,任何人都能做是很關鍵的。
不過由於Books3很大一部分數據來自於盜版網站,所以作者也表示,希望之後能有人做出來比Books3更好的數據集,不僅提升數據質量,而且尊重書籍版權。
一個多月以前,兩位全職作者以未經允許擅自將作品用來訓練ChatGPT,起訴了OpenAI。
而之所以會發生這種情況,很有可能是OpenAI的數據集Books2從影子圖書館(盜版網站)中獲取了大量數據。
所以也有聲音調侃說,AI不僅帶來了新的技術突破,也給反盜版組織帶來了新任務。
參考鏈接: [1] [2] [3] [4]