10.5 总结

10.5 总结

本章节介绍了在网络世界里获取信息最简单的方法——搜索,同时介绍了利用Python编程定制获取信息的基础知识。

10.5.1 实用搜索引擎指令

常用的搜索引擎指令有:(1)双引号 “”,其作用为完全匹配搜索;(2)逻辑符AND,其作用是逻辑与;(3)逻辑符 - (减号),其作用是搜索不包含减号后面的词的页面;(4)site,其作用是限定站内搜索;(5)filetype,其作用是指定文件类型;(6)inurl,其作用是在网页的url地址中搜索,注意一次只能搜索一个关键词;(7)intitle,其作用是在网页所显示的标题中进行查找,一次只能搜索一个关键词;(8)设定时间范围。相较于通过高级搜索功能进行检索,使用相关指令是更为有效率的方法。除了上述8种常见的指令,搜索引擎还提供了其他更为丰富的指令以满足不同的搜索效果,如有需要可以查看搜索引擎的相关文档进一步学习。

10.5.2 网络数据编程基础

随着网络的普及,人们在网络世界里创造了海量的数据信息,如何有效地获取这些信息并加以利用成为当下研究人员必须解决的问题。通过编写程序,向计算机发出指令,完成指定信息的搜集是一种高效的办法。实现这一效果的程序语言很多,本节向大家介绍了目前最为流行且功能强大、易于使用的工具Python,并就初次使用中可能出现的问题做了说明。然后我们介绍了有关Python的基本知识:(1)赋值与调用;(2)缩进;(3)数据类型,它包括字符串、整型、浮点数、元组、列表、字典,还有我们没有提及但却实际会使用到的一种类型——布尔值;(4)if分支结构;(5)比较运算符。我们还用专门的篇幅介绍了逻辑流程图的作用以及Python的函数:内置函数与自定义函数。这些名词、概念与语法将会有效地帮助我们在下一节中学会逐渐地写出一个属于自己的网络爬虫脚本来。