当前位置：首页> 科技资讯 >Meta部署新一代网络爬虫，全力为AI模型采集海量数据

Meta部署新一代网络爬虫，全力为AI模型采集海量数据

时间：2025-01-14 00:16:24

编辑：波波资源网

阅读：7

近日，Meta公司悄然部署了一款新型网络爬虫，该爬虫默默地穿梭于互联网的各个角落，大规模地搜集数据，旨在为公司的 AI 模型提供更为丰富与多样的学习材料。

这一举动不仅彰显了 Meta 在加强AI实力上的决心，也反映了行业对于大数据驱动型人工智能发展的持续重视与投入。

Meta 新网络爬虫机器人 Meta External Agent 于上月推出，类似于 OpenAI 的 GPTBot，可以抓取网络上的人工智能训练数据，例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示，Meta 确实在 7 月底更新了一个面向开发者的公司网站，其中一个标签显示了新爬虫的存在，但 Meta 至今还没有公开宣布其新爬虫机器人。

Meta 的 Llama 是最大的 llm 之一，虽然该公司没有透露最新版本的模型 Llama 3 使用的训练数据，但其初始版本的模型使用了由 Common Crawl 等其他来源收集的大型数据集。

今年早些时候，Meta 的联合创始人、首席执行官马克·扎克伯格 (Mark Zuckerberg) 在一次财报电话会议上曾吹嘘说，公司的社交平台已经积累了一套用于人工智能训练的数据集，甚至“超过了 Common Crawl”。

新爬虫的存在表明 Meta 庞大的数据库可能已经不够用了，因为该公司继续致力于更新 Llama 和扩展 Meta AI，通常需要新的和高质量的培训数据来不断改进功能。

来自 Dark Visitors 的数据显示，全球近 25% 的最受欢迎的网站现在已屏蔽了 GPTBot，但只有 2% 的网站屏蔽了 Meta 的新爬虫机器人。

近日消息，科技界迎来了一场重磅盛宴，Meta 公司正式发布了其年度压轴 AI 大模型——Llama 3.3。这款全新的 AI 模型拥有 700 亿参数，尽管参数规模相较之前的 Llama 3.1 缩小了不少，但在性能方面却实现了惊人的提升，足以与拥有 4050 亿参数的 Llama 3.1 媲美。

Meta年终巨献：Llama 3.3 AI模型开源，700亿参数性能惊艳

Meta 强调 Llama 3.3 模型效率更高、成本更低，可以在标准工作站上运行，降低运营成本的同时，提供高质量文本 AI 解决方案。

Llama 3.3 模型重点优化了多语言支持，支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语 8 种语言。

在架构方面，Llama 3.3 是一款自回归（auto-regressive）语言模型，使用优化的 transformer 架构，其微调版本使用了监督式微调（SFT）和基于人类反馈的强化学习（RLHF），让其与人类对有用性和安全性的偏好保持一致。

Llama 3.3 上下文长度为 128K，支持多种工具使用格式，可与外部工具和服务集成，扩展模型的功能。

安全方面，Meta 采用数据过滤、模型微调和系统级安全防护等措施，以降低模型滥用的风险；此外 Meta 鼓励开发者在部署 Llama 3.3 时采取必要的安全措施，例如 Llama Guard 3、Prompt Guard 和 Code Shield，以确保模型的负责任使用。

本文导航

热点文章

最新合集