搜索与数据工程实习生(AI大模型方向)
职位描述
1、参与互联网公开数据的采集、清洗、解析和结构化处理,建设高质量知识库与训练数据集;
2、负责网页、文档、PDF等多种数据源的数据抓取与解析,持续提升数据覆盖率与更新时效;
3、参与分布式爬虫系统建设,优化采集链路的稳定性、扩展性和运行效率;
4、参与网站反爬机制分析与采集策略优化,包括动态页面解析、请求特征分析、访问频率控制等;
5、参与代理池、任务调度、异常监控等基础能力建设,提升大规模数据采集成功率;
6、参与搜索检索系统建设,包括索引构建、检索优化、数据更新等工作;
7、参与大模型RAG(检索增强生成)系统的数据建设与效果优化;
8、协助开展搜索质量评估、数据标注和效果分析工作,持续提升知识检索质量。
职位要求
1、本科及以上学历在读,计算机、软件工程、人工智能等相关专业;
2、熟练掌握 Python,具备良好的编码能力和工程实践能力;
3、熟悉 HTTP/HTTPS、Cookie、Session、Ajax、REST API 等网络基础知识;
4、熟悉 HTML、XPath、CSS Selector、正则表达式等网页解析技术;
5、熟悉 Linux 环境和常用开发工具;
6、了解搜索引擎、知识库、大模型应用等相关技术;
7、具备较强的问题分析能力和自主学习能力。
加分项
熟悉 Scrapy、Playwright、Selenium、BeautifulSoup 等采集框架;
有反爬对抗、动态网页采集、分布式爬虫等项目经验;
熟悉 Elasticsearch、OpenSearch 等搜索引擎;
了解向量检索、Embedding、Milvus、Faiss等技术;
熟悉 Redis、Kafka、MySQL、MongoDB 等中间件或数据库;
有开源项目贡献、技术博客或竞赛经历。
技术关键词
Python|Scrapy|Playwright|Selenium|分布式爬虫|反爬对抗|代理池|Elasticsearch|RAG|知识库|向量检索|Redis|Kafka
你将获得
参与大模型核心知识库与搜索系统建设;
接触海量互联网数据采集与搜索技术实践;
学习RAG、知识库、向量检索等前沿AI技术;
与搜索、数据、算法团队深度协作,了解大模型产品研发全流程。
投递