搜故事,从300万个故事到海量知识百科的华丽转变!

只需单击三次 让中文GPT

时间:2014-01-05

项目地址:https: github com imcaspar gpt2mlColab 演示地址:https: colab research google com github imcaspar gpt2ml blob master pretrainedmod

提示:本文共有 1624 个字,阅读大概需要 4 分钟。

机器之心报道

机器之心编辑部

想要 GPT-2 生成中文故事,听听它对各种主题的看法?你可以试试这个中文预训练 GPT-2 项目,它开源了预训练结果与 Colab Demo 演示,只需要单击三次,我们就能生成定制的中文故事。

项目地址:https://github.com/imcaspar/gpt2-mlColab 演示地址:https://colab.research.google.com/github/imcaspar/gpt2-ml/blob/master/pretrained_model_demo.ipynb

既然昨天才过完双十一,那么我们先看看这个预训练模型能生成什么样的故事。如下是我们给定前提「双十一」,中文 GPT-2 生成的第一个样本:

Sample, 1 of 10双十一,不只是剁手的节日,更是买买买的狂欢节!10 月 13 日,中国小象开启的全新一年的跨境爆款系列商品双十一的正式来袭,围绕电商双十一的购物理念及战略重点,阿里巴巴、天猫联合打造的潮流趋势支付,正式登陆双十一狂欢夜。潮流界、时尚界盛事的参与者,统统化身成为电商促销的传播者和领导者,时尚界的人们以身作则,走在时尚前线,年轻时尚女性,正用最新的鲜美,向消费者传递快乐与创意。不止双十一,很多行业的大事件会在这个季节火热登场,不只是女性用户,还有男性用户。那么,在这些品牌高调露面的时刻,我们又该如何大玩不同的新玩法?如何抓住双十一的流量红利和品牌曝光点?

首先,形式是核心。网购、预售、快递都是消费者在双十一这个大战场上所接触最多的环节,而品牌商们喜欢的是大玩点创新、玩点新意。其次,先有用户的需求,才能够靠作品的特色获得市场的重视。小象电商的用户就是普通人,所以他们的需求就是需要一个包包,一条围巾,要么想各种创意。

这个生成样本说得头头是道,很难看出来它完全是由模型生成的,甚至样本给出了一个微信号,我们查了后估计该微信号与文本是没什么关系的。

既然样本效果这么好,它肯定需要很多中文语料。项目表明,该 15 亿参数量的 GPT-2 中文预训练模型在 15GB 的纯文本上进行训练,一共迭代了 10 万步。这 15GB 的纯文本主要选自 THUCNews 与 nlp_chinese_corpus,它们会做一系列的数据清理。

THUCNews:http://thuctc.thunlp.org/#中文文本分类数据集THUCNewsnlp_chinese_corpus:https://github.com/brightmart/nlp_chinese_corpus

此外,项目作者还简化整理了 GPT-2 训练代码,移植了 Bert Tokenizer 以添加多语言支持。因为移植了 Bert Tokenizer,所以模型输出结果很容易与基于 BERT 的模型进行整合。

项目作者开放的预训练模型是在 TPU Pod v3-256 上复现的 15 亿参数 GPT2,这也是 GitHub 上第一个支持大规模 TPU 训练的中文 GPT-2 项目。

本项目的训练脚本:https://github.com/imcaspar/gpt2-ml/tree/master/train

极简易用的 Colab 演示

非常吸引人的是,该项目提供了一个非常容易使用的 Colab 项目,只需简单地单击三次,我们就能使用 Colab 体验 GPT-2 续写整段文本的能力。演示地址在文章前面已经提供了,这里主要展示机器之心尝试的效果。

下图是我们尝试使用的结果,简单而言分可以为三步:首先从 GitHub 下载源代码;其次从 Google Drive 下载预训练模型,这里需要获得授权,也非常简单;最后,调用 Colab 的硬件进行推断就行了。

我们可以看到,中文 GPT-2 大部分生成结果,上下文还是非常合理的。如果你也想试一试效果,那就快来试一试吧,没有任何 ML 基础也能看到模型的真实效果。

看到此处说明本文对你还是有帮助的,关于“只需单击三次 让中文GPT”留言是大家的经验之谈相信也会对你有益,推荐继续阅读下面的相关内容,与本文相关度极高!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
京东副总裁何晓冬:GPT

京东副总裁何晓冬:GPT

2016-06-05 #小故事

1小时生成无限玩法GPT

1小时生成无限玩法GPT

场景,玩家,游戏,对话,剧情,动作,算法,茹茹,故事,角色,强化学习,数字娱乐,内容,动态,团队,定义,文本,智能,流程,可以使用,参数,人物,人类,传统,引擎,方向,核心,模型,深度,策略

2016-10-17 #长篇故事

一个续写故事达到人类水平的AI OpenAI大规模无监督语言模型GPT

一个续写故事达到人类水平的AI OpenAI大规模无监督语言模型GPT

模型,U.S.,文本,训练,人类,结果,能力,研究,任务,数据,独角兽,人员们,事件,时候,语料,领域,语言模型,科技,内容,动物,句子,文章,核能,评论,质量,页面,合作,雷锋网,文本生成,科学家们

2009-03-10 #故事会

我的世界故事模式怎么设置中文 设置中文多图

我的世界故事模式怎么设置中文 设置中文多图

故事模式,中文,游戏,我的世界,本地文件,官方,中文字幕,中文版,小伙伴,属性,方法,文本,文件,开始游戏,来说说,游戏目录,右键

2008-07-21 #短篇故事

《王国之心3》公布中文最终预告 支持繁体中文字幕与日语语音

《王国之心3》公布中文最终预告 支持繁体中文字幕与日语语音

王国之心,键位,迪士尼,不一样,中文版,中文,个人,字幕,卡通画,剧情,人物,开头,故事,感觉,游戏,武技,繁体中文,玩家,真心,系统,视频,英文,自定义,美版,结果,英语,角色,陆战队,主要原因,了一定

2009-04-24 #短篇故事

英语故事带中文要短 带中文

英语故事带中文要短 带中文

父亲,孩子,爸爸,醉酒,小儿,很感兴趣,年龄,警察,问题,回家,什么事,两个警察,只有一个,回答说,如果我,把他们,那么我

2015-03-06 #故事阅读

简短的英语小故事 要中文 一个简短易懂的英语小故事 要中文!要英文 也要中文

简短的英语小故事 要中文 一个简短易懂的英语小故事 要中文!要英文 也要中文

电影世界,汤姆,伦敦,伟人,年幼,小男孩,时候,面包,一个小男孩,漫步在,他的名字,可是他,著名人物,身无分文

2020-05-18 #短篇故事

英语小故事有中文有中文!作业帮

英语小故事有中文有中文!作业帮

2020-08-16 #故事会在线阅读