Job Description

搜索与数据工程实习生（AI大模型方向）

北京

社招

实习

职位描述

1、参与互联网公开数据的采集、清洗、解析和结构化处理，建设高质量知识库与训练数据集；
2、负责网页、文档、PDF等多种数据源的数据抓取与解析，持续提升数据覆盖率与更新时效；
3、参与分布式爬虫系统建设，优化采集链路的稳定性、扩展性和运行效率；
4、参与网站反爬机制分析与采集策略优化，包括动态页面解析、请求特征分析、访问频率控制等；
5、参与代理池、任务调度、异常监控等基础能力建设，提升大规模数据采集成功率；
6、参与搜索检索系统建设，包括索引构建、检索优化、数据更新等工作；
7、参与大模型RAG（检索增强生成）系统的数据建设与效果优化；
8、协助开展搜索质量评估、数据标注和效果分析工作，持续提升知识检索质量。

职位要求

1、本科及以上学历在读，计算机、软件工程、人工智能等相关专业；
2、熟练掌握 Python，具备良好的编码能力和工程实践能力；
3、熟悉 HTTP/HTTPS、Cookie、Session、Ajax、REST API 等网络基础知识；
4、熟悉 HTML、XPath、CSS Selector、正则表达式等网页解析技术；
5、熟悉 Linux 环境和常用开发工具；
6、了解搜索引擎、知识库、大模型应用等相关技术；
7、具备较强的问题分析能力和自主学习能力。
加分项
熟悉 Scrapy、Playwright、Selenium、BeautifulSoup 等采集框架；
有反爬对抗、动态网页采集、分布式爬虫等项目经验；
熟悉 Elasticsearch、OpenSearch 等搜索引擎；
了解向量检索、Embedding、Milvus、Faiss等技术；
熟悉 Redis、Kafka、MySQL、MongoDB 等中间件或数据库；
有开源项目贡献、技术博客或竞赛经历。
技术关键词
Python｜Scrapy｜Playwright｜Selenium｜分布式爬虫｜反爬对抗｜代理池｜Elasticsearch｜RAG｜知识库｜向量检索｜Redis｜Kafka
你将获得
参与大模型核心知识库与搜索系统建设；
接触海量互联网数据采集与搜索技术实践；
学习RAG、知识库、向量检索等前沿AI技术；
与搜索、数据、算法团队深度协作，了解大模型产品研发全流程。

投递

About 百川智能

Industry

Unknown

Company Size

Unknown

Headquarters

Unknown

Year Founded

Unknown

Website

baichuan-ai.com

Social Media