🎉 亲爱的广场小伙伴们,福利不停,精彩不断!目前广场上这些热门发帖赢奖活动火热进行中,发帖越多,奖励越多,快来 GET 你的专属好礼吧!🚀
🆘 #Gate 2025年中社区盛典# |广场十强内容达人评选
决战时刻到!距离【2025年中社区盛典】广场达人评选只剩 1 天,你喜爱的达人,就差你这一票冲进 C 位!在广场发帖、点赞、评论就能攒助力值,帮 Ta 上榜的同时,你自己还能抽大奖!iPhone 16 Pro Max、金牛雕塑、潮流套装、合约体验券 等你抱走!
详情 👉 https://www.gate.com/activities/community-vote
1️⃣ #晒出我的Alpha积分# |晒出 Alpha 积分&收益
Alpha 积分党集合!带话题晒出你的 Alpha 积分图、空投中奖图,即可瓜分 $200 Alpha 代币盲盒,积分最高直接抱走 $100!分享攒分秘籍 / 兑换经验,中奖率直线上升!
详情 👉 https://www.gate.com/post/status/12763074
2️⃣ #ETH百万矿王争霸赛# |ETH 链上挖矿晒收益
矿工集结!带话题晒出你的 Gate ETH 链上挖矿收益图,瓜分 $400 晒图奖池,收益榜第一独享 $200!谁才是真 ETH 矿王?开晒见分晓!
详情 👉 https://www.gate.com/pos
GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭
编辑:桃子 好困
来源:新智元
**导读:**就在刚刚,OpenAI推出了GPTBot——一个可以自动从整个互联网抓取数据的网络爬虫。 得到的这些数据则会被用来训练像GPT-4和GPT-5这样的AI模型!
前段时间,抓取平台用户数据风波,Reddit网友吵翻了天。
今天,OpenAI推出了一个网络爬虫工具GPTBot,能够自动抓取网站的数据。
如何使用?
OpenAI在发布的文档中表示,网络爬虫将过滤删除需要付费强访问的来源,同时也会删除个人身份信息(PII)或违反其政策的文本。
GPTBot抓取的数据,被用来训练GPT-4或GPT-5,能够提升未来人工智能系统的准确性和能力。
可通过以下代码识别该工具:
User agent token: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +
禁止GPTBot访问
另一方面,你也可以通过将GPTBot添加到站点robots. txt,来禁止其访问网站。
这意味着,网站所有者必须自愿采取措施,禁止OpenAI对自己的网站访问,不将自己的数据用来训练。
User-agent: GPTBotDisallow: /
自定义GPTBot访问
你还可以通过以下代码,来控制GPTBot对网站部分内容的访问。
User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/
IP出口
对于OpenAI的爬虫,将从OpenAI网站上记录的IP地址块调用网站。
网友热议
OpenAI此举引发了网友对用于训练AI模型的网络爬虫的道德问题的讨论。
「OpenAI甚至没有适度引用。它是在制作衍生作品,却没有引用,从而掩盖了它的事实。」
参考资料: