当前位置: 首页> 科技资讯 >Meta部署新一代网络爬虫,全力为AI模型采集海量数据

Meta部署新一代网络爬虫,全力为AI模型采集海量数据

时间:2025-01-14 00:16:24

编辑:波波资源网

阅读:3

近日,Meta公司悄然部署了一款新型网络爬虫,该爬虫默默地穿梭于互联网的各个角落,大规模地搜集数据,旨在为公司的 AI 模型提供更为丰富与多样的学习材料。

Meta部署新一代网络爬虫,全力为AI模型采集海量数据

这一举动不仅彰显了 Meta 在加强AI实力上的决心,也反映了行业对于大数据驱动型人工智能发展的持续重视与投入。

Meta 新网络爬虫机器人 Meta External Agent 于上月推出,类似于 OpenAI 的 GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示,Meta 确实在 7 月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但 Meta 至今还没有公开宣布其新爬虫机器人。

Meta 的 Llama 是最大的 llm 之一,虽然该公司没有透露最新版本的模型 Llama 3 使用的训练数据,但其初始版本的模型使用了由 Common Crawl 等其他来源收集的大型数据集。

今年早些时候,Meta 的联合创始人、首席执行官马克·扎克伯格 (Mark Zuckerberg) 在一次财报电话会议上曾吹嘘说,公司的社交平台已经积累了一套用于人工智能训练的数据集,甚至“超过了 Common Crawl”。

新爬虫的存在表明 Meta 庞大的数据库可能已经不够用了,因为该公司继续致力于更新 Llama 和扩展 Meta AI,通常需要新的和高质量的培训数据来不断改进功能。

来自 Dark Visitors 的数据显示,全球近 25% 的最受欢迎的网站现在已屏蔽了 GPTBot,但只有 2% 的网站屏蔽了 Meta 的新爬虫机器人。

Meta年终巨献:Llama 3.3 AI模型开源,700亿参数性能惊艳

近日消息,科技界迎来了一场重磅盛宴,Meta 公司正式发布了其年度压轴 AI 大模型——Llama 3.3。这款全新的 AI 模型拥有 700 亿参数,尽管参数规模相较之前的 Llama 3.1 缩小了不少,但在性能方面却实现了惊人的提升,足以与拥有 4050 亿参数的 Llama 3.1 媲美

Meta年终巨献:Llama 3.3 AI模型开源,700亿参数性能惊艳

Meta 强调 Llama 3.3 模型效率更高、成本更低,可以在标准工作站上运行,降低运营成本的同时,提供高质量文本 AI 解决方案。

Llama 3.3 模型重点优化了多语言支持,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语 8 种语言。

在架构方面,Llama 3.3 是一款自回归(auto-regressive)语言模型,使用优化的 transformer 架构,其微调版本使用了监督式微调(SFT)和基于人类反馈的强化学习(RLHF),让其与人类对有用性和安全性的偏好保持一致。

Llama 3.3 上下文长度为 128K,支持多种工具使用格式,可与外部工具和服务集成,扩展模型的功能。

安全方面,Meta 采用数据过滤、模型微调和系统级安全防护等措施,以降低模型滥用的风险;此外 Meta 鼓励开发者在部署 Llama 3.3 时采取必要的安全措施,例如 Llama Guard 3、Prompt Guard 和 Code Shield,以确保模型的负责任使用。

本文导航
最新上架

联系方式:boosccom@163.com

版权所有2023 boosc.com AII版权所有备案号 渝ICP备20008086号-38 渝公网安备50010702506211号