[python] python抓取有道词典并格式化输出的程序

费死劲了。。。。

终于做完了这个

但是还有瑕疵,有的地方不能完全输出清楚,格式有点问题。


说下思路吧,首先抓取有道词典网页版的html源代码,然后用BeautifulSoup去分析和格式化输出

分析和自学了了两天的html语言之后终于找到了需要那部分内容的tag,我喜欢科林斯词典,所以抓取了id=‘collinsResult’的数据

然后其中就遇到一个问题,<b>  </b>这个加粗的格式把词跟句断开了

就像这样:

The

<b> world </b>

is your own oyster.

然后最开始输出的时候虽然可以把加粗的那个tag去掉,但是还是保留了空行。所以我后来向干脆就把这个tag直接去掉

于是用了replace()这个函数

接下来的思路就是输出有用信息,我大概分成了四类,第一是整句(包括英文例句、中文翻译、中文例句),第二是整句加其他(英文解释后面有汉语)

第三类是带有“→”这个符号的东西,这个听特殊的,第四类是词性,音标(词性全是大写字母,音标由/ /来标记)。所以对第一类第二类用了正则表达式,能够匹配的就打印出来。

第三类用搜索,第四类直接判断大小写或者用正则。

然后要说编码的问题。由于中文标点不能用正则表达式去查找,只能手动搜索,就是查找最后一个字符是否匹配标点。很笨的用了无数判别式去分析,暂时想不到好办法(才疏学浅。。。非CS专业)

然后过程中出现了unicode和其他编码不匹配的情况,查找后发现中文标点这个字符串这个对象的类型为str而不是unicode,于是又转。这样才成功了



                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值