手把手教你使用Python打造一款简易搜索引擎

liftword5个月前 (01-26)技术文章45

来源:Python爬虫与数据挖掘

作者:Python进阶者

1、前言

相信大家在知识共享的这个年代一定在网上下载了很多的文件保存以供日后有时间学习吧,毕竟硬盘空间也比较有限,下面我们就来说说我们要做的这个项目,就是搜索盘搜里的资源然后进行下载。

2、项目目标

实现搜索自己想要的文件,并且下载文件。

3、项目准备

使用sublime text 3 开发。因为此次我们需要用到交互式来完成操作,所以需要在sublime text 3 下载一个sublimeREPL插件来进行辅助开发。

4、项目实现

(1)打开盘搜,并随意打开一个链接,如下图所示:

(2)然后可以看到这个画面,如下图所示。

(3)此时这个网页地址为:

http://www.pansou.com/?q=成化十四年

由此可以看出它是一个get请求。于是requests.get搞起来,这样我们就实现了第一步,搜索。于是,可以这样写代码:

import requests 
def down(content):
 ?content=input('请输入要下载的文件名')
 ?rep=requests.get('http://www.pansou.com/?q='+str(content))
 ?rep.encoding='utf-8'

(4)这样就得到了上个页面中的网页源代码,我们通过搜索相关关键字发现竟然搜不到:

(5)那么这是怎么回事?原来这是因为ajax异步加载导致的部分关键代码显示不出来。这可就犯难了,换句话说这就触及到我的知识点盲区了。

因为小编并未学过前端,只知道有ajax这回事,哪里知道这个问题怎么产生怎么解决了。不过不用怕,还好小编有一个大绝招,那就是找接口。我找呀找,终于被我找到了,哎,功夫不负苦心人。如图所示:

(6)发现这是个json格式的所以我们现在可以将他进行读取,如图:

(7)不容易啊,json的坑很多,于是决定用字典。哈哈哈哈,果然适合自己的才是最香的。

找到了这些东西我们就可以把他们提取出来啦,这样我们就提取出了第一页的所有结果,要想提取第二页的结果只需将p的结果改为2即可。

最终的结果,如图:

(8)接下来我们强化下程序,让他具有交互功能,供用户选择。

(9)但是我们了解到callback一般都是可变的函数,所以真正能用上的就只有两个参数,q和p,于是:

这样就完成了指定页面的文件浏览。

下载的话也比较简单,直接将链接复制到浏览器中即可,这样就完成了一个最简单的搜索引擎了。

5、小结

(1)不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。

(2)本文基于Python网络爬虫,利用爬虫库,打造了一款简易的Python搜索引擎。

(3)实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。

相关文章

利用Python开发App实战(python开发app工具)

我很早之前就想开发一款app玩玩,无奈对java不够熟悉,之前也没有开发app的经验,因此一直耽搁了。最近想到尝试用python开发一款app,google搜索了一番后,发现确实有路可寻,目前也有了一...

用Python编程需要什么软件?(python需要什么软件来编写)

Python是一门适合新手入门的编程语言,现在有不少程序员业余时间也在学习Python,找到好用的工具会大大提高学习效率,使工作效率多倍速提升。今天,播妞就介绍一些Python编程软件供大家参考!Py...

干货,Python竟然可以用Kivy编写和打包安卓APP

请大家多多点赞,关注和分享在上一篇文章中,我们介绍了在 Python 中使用 BeeWare 框架编写图形程序并将其打包为安卓的apk文件程序。爆强!直接把 Python 编写的图形程序打包为安卓 A...

2021年度创业公司的15个最佳Web App创意

编辑导语:2021年,迎合大多数人需求的、符合实际的创意就能够真正地占有市场。创意无疑是一把钥匙,打开了消费者的心门。本文总结了15个具有潜力的科技创业想法,囊括了许多领域,希望能够给你带来一些灵感和...

QPython,一个在手机上运行Python的神器

QPython 是一个在 Android 设备上运行 Python 的脚本引擎。它可以让您的 Android 设备运行 Python 脚本和项目。它包含 Python 解释器、控制台、编辑器和适用于...

小白都能看得懂的Python软件安装教程和配置,很详细,值得收藏

所谓工欲善其事必先利其器,在学习python这门编程语言的前提首先就先下载安装配置好各种解释器,工具。一般常用的工具比如有VSCode,pycharm,anaconda等,这三款工具是使用最多的。下面...