语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)

   日期:2024-11-07    作者:caijiyuan 移动:http://qyn41e.riyuangf.com/mobile/quote/654.html

准备:wikipedia-parallel-titles项目(老师给的

语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)

          This document describes how to use these tools to build a parallel corpus (for a specific language pair) based on article titles across languages in Wikipedia.

          本文档描述了如何使用这些工具基于维基百科中不同语言的文章标题构建并行语料库(针对特定的语言对)。

首先第一步

  1. 确定自己选的小语种的 639-1码, 例如 日语的 639-1码为 “ja”
  2. 把 “ja” 与单词 “wiki”拼接得到 “jawiki”

然后访问 http://dumps.wikimedia.org/jawiki ,如图

可到” https://en.wikipedia.org/wiki/List_of_ISO_639-2_codes” 上查看自己选的小语种的639-1码

 

3.选择 “201903XX” 或 “latest” ,进去下载以 “-page.sql.gz” 和 “-langlinks.sql.gz” 结尾的两个压缩包

4.提取并行标题语料:运行该脚本命令

 

并出现如图

1: 下载下来的两个.gz压缩包需和 build-corpus.sh 脚本在同一个路径下

2: 若执行了脚本后 titles.txt 什么都没有并出现如图所示

 

解决方法: 打开scripts目录下的 extract.pl 、utf8-normalize.sh 这两个文件,把其中的

“iconv -f utf8 -t utf8 –c” 语句 修改为 “iconv -f utf-8 -t utf-8 –c” (其他地方的”utf8”不用改

4:生成 titles.txt 可能需要几分钟,请耐心等待。

 

 

出来是这个样子的。

步骤二

把语料放到谷歌翻译上并下载其朗读语音

 

https://blog.csdn.net/qq_40224992/article/details/88546823

参考的是这篇文章,不过也需要作些修改。(感谢作者,不然就要动用按键精灵了

日语的

说一下这个url如何找,谷歌浏览器

谷歌翻译,在左侧输入日语,点击进入检查(F12,再点击发音那个按钮

 

右侧那个链接就是了。

最后mp3(女声

到此,感觉这个项目sese的有没有。。。

总结:别再犯list[]01的错误

总结:别再犯list[]01的错误

总结:别再犯list[]01的错误

第一个下标是0

第一个下标是0

第一个下标是0

还有,文件夹要先创。

 

 


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号