2023年11月29日下午,beat中国在线体育开展了“学习日活动”,由我院何静老师主讲了题为《传统数据采集方法VS新兴数据采集方法》的博雅讲座。讲座在图书馆西配楼305举办,采取线上线下相结合的方式,来自清华大学和内蒙古工业大学的教师及我院师生共计40余人参加。
本次讲座围绕“演示讲解数据采集工具的实际操作、比较传统与新兴数据采集方法优劣、探索数据采集领域的未来发展方向”三个目标展开。何静老师指出本次分享中介绍的数据采集知识应用广泛,除新闻传播学外,凡涉及数据抓取的学科都可以使用。数据采集中四种常见的数据获取工具,分别是“八爪鱼、WebScraper、火车头和神箭手”,其本身是现代采集工具,但随着人工智能的发展,数据采集也必然走向化繁为简的趋势。
何静老师通过现场数据采集演示,师生们了解了这些工具如何帮助非技术背景的用户轻松实现网页数据的抓取。并以“北京航空航天法学新闻网”为例,现场演示了如何用火车采集器进行数据采集,并详细介绍了数据采集规则的设置方法。
何静老师在总结中提到付费用户较为适合后羿和八爪鱼采集器,只是前者较为适合海外数据采集,后者更适配国内数据。WebScraper难度稍高,但对使用者也较为友好。火车头则适合需采集范围更广的数据采集,但需要在更大范围内进行数据适配的采集者。在有了ChatGPT之后,利用大语言模型进行数据采集变得更为方便。使用大语言模型进行数据应用时,无论是数据可视化、网络爬虫、生成不同格式文件、Debug助手,还是文本分析相关应用,均可使用自然交互语言,跨越专业程序员中介,直接输出自身的需求。
在讲座下半场,何静老师分享了如何在理解和生成自然语言方面,提供创新的数据分析和提取方法,为用户提供更高的灵活性。使用ChatGPT进行数据采集时,只有使用更为规范的prompt与ChatGPT交互,才能有效实现数据采集目标。但使用过程中,也不可避免的会随机出现乱码的情况,但此时只需让ChatGPT重新给出UTF-8的代码即可。在采集过程中,会遇到各种各样的问题,只需逐步迭代prompt即可,也可在采集完成时,让ChatGPT总结所有的prompt,即可方便分享与后续使用。但何静老师也指出,在数据采集方面,也不必每次都向ChatGPT求助,现阶段其性价比仍有待提升。
在主讲内容结束后的讨论环节,何静老师与提问的老师和同学进行了深入的交流与讨论,并邀请提问者现场与ChatGPT进行交互,进一步解答操作中的具体疑问。
图/文 李帅 冯元柳