• 首页
  • 如何处理黑平台不出款
  • 黑平台怎么追回资金
  • 平台被黑不出款怎么办
  • 联系我们
  • 开通VIP发文章免审核

{{userData.name}}

个人中心
后台
{{item.count}}
{{textHint.loading}}
  • {{data.name}}({{data.count}}){{data.name}}
写文章
当前位置:首页-如何处理黑平台不出款-正文

关键词抽取模型

专业出黑 专业出黑 如何处理黑平台不出款1年前0027.52M0
关键词抽取模型常见的算法有TF-IDF、TextRank等,本文仅在这里对这两种方法作原理的简单介绍。1 TF-IDF算法 TF-IDF(term frequency-

关键词抽取模型常见的算法有TF-IDF、等,本文仅在这里对这两种方法作原理的简单介绍。

1 TF-IDF算法

TF-IDF(term - ) :一种用于资讯检索于资讯探勘的常用加权技术。是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数呈正比地增加,但同时也会随着它在语料库中出现的频率呈反比地下降。

1.1 TF-IDF原理

主要思想:如果某个词或短语在一篇文章中出现的频率(Term ,TF)高,并且在其他的文章出现得少,即反文档频率( ,IDF)低,则认为此词或短语具有很好的类别区分能力,适合用来分类。

具体计算公式:

其中,

:指词i对文档j的重要程度;

:指词i在文档j中出现的次数占比。计算公式如:

其中,

指词i在文档j中出现的次数,

指文档j中所有词出现的次数之和;

:指词i的你文档频率,是指总文档数与词i所在文档数目之比,其计算公式如:

其中,

为文档总书目,

表示包含词

的文档数目。

1.2 实例及计算步骤

文档1:程序员从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统程序员和项目经理四大类。

文档2:现在网络流行上把那程序员称为“程序猿”,女程序员称为“程序媛”。目前从事IT技术行业的大多数为男性,女性多数从事其他(如:会计、行政、人力资源等)种类的工作,在IT技术里女程序员是很受欢迎的,因此人们爱称女程序员为“程序媛”。

以上述两个文档,介绍TF-IDF的计算思路:

:对文档进行分词,将词语以空格分隔存储在一起,并对每一句话存储为一行;

:统计文档中词语出现的次数,可以以dict存储(如:{key:value}:{'程序员':5}),及文档的词语总数目;

:对指定词语i统计其出现在文档中的数目,可以以dict存储(如:程序员出现在文档1和文档2中,记为{'程序员':2});

:计算

,根据

的公式进行计算;

:计算

,根据公式计算。

1.3 TF-IDF优缺点

优点:TF-IDF的思想对于具有代表性的词语(词语出现在一类文档中,该词语具备代表性)能够很好地表示;

缺点:TF-IDF对于一些在文本中出现频率高但同样具有代表性的词语不能很好表示。例如:

1)鲜花多少钱?2)百合花多少钱?3)水仙花多少钱?4)苹果多少钱?5)橘子多少钱?

如果按照TF-IDF算法,对于5个文档,鲜花、百合花、水仙花、苹果、橘子这些主体词会成为关键词,但从语句的总体来看,它们又都属于询问价格的类型,所以“多少钱”应该成为关键词。

改进:基于TF-IDF的计算法提出的改进方法是,将多个短文本整理为一个文本,这样既可以增加TF值,又可以增加IDF值。

2 算法

TF-IDF对于多段文本的关键词提取非常有效,但是对于单篇或者文档分割较少的文本则表现的不是很好,下面介绍用于解决这一情况。

是一种基于图排序的算法。其基本思想来源于的算法,通过把文本切分为若干组成单元(单词或者短语或者句子)并建立图模型(所谓这样的图模型,例如:今天阳光明媚,天清气爽,适合出游。所以今天去公园吧。这句话的图模型可以是:今天--阳光--明媚--天清气爽--适合--出游--所以--(折回前面的“今天”)--去--公园--吧),利用投票机制对文本中的重要程度成分进行排序(就前面的例子来说:“今天”的重要程度会比较高),仅利用单篇文档本身的信息即可实现关键词提取、做文摘。

2.1 原理

利用投票的原理,让每一个单词给它的邻居(也即窗口)投赞成票,票的权重取决于自己的票数。所以如上所述,它是一个图排序模型,我们假设每一个词是一个顶点(),那么所有的词就构成了一个网络,在这个网络里面每一个顶点会指向其他顶点的边,也会由其他顶点指向自己的边。通过计算每个顶点所连接的指向自己的顶点的权重和,最终得到该顶点的权重值。

初始值确定:因为目标的权重取决于自身的权重(通过计算每个顶点所连接的指向自己的顶点的权重和),所以这里的初始值为非0的值。

这里引入了阻尼系数的概念。在图模型中,该参数表示从某一个指定的顶点,到任意一个其他顶点的概率。所以具体公式如下:

其中,

:表示阻尼系数,一般设置为0.85(为经验值);

:表示图中的任一节点;

:表示指向顶点

的所有顶点集合;

:表示由顶点

连接出去的所有顶点集合;

:表示顶点

和

的连接权重;

:表示顶点

的最终排序权重。

2.2 实例及算法步骤

文档1:程序员从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统程序员和项目经理四大类。

是一个图排序模型,因此我们需要构建一个图模型。如下是具体的思路步骤:

:对文本进行切分为字或词形式。

:对切分好的字或词构建图模型,也即构建一个字或词与字或词的连接矩阵;选择用滑动窗口的方式对每个单词取邻居:假设,我们取一个长度为k的滑动窗口,则

等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边;在这个邻居上面构成图,可以计算出每个单词节点的重要性。

:权重计算;1) 设定最大迭代次数,并依次进行逐步迭代;

2) 按照连出矩阵,对每一个单词节点更新其排序权重;

3) 对于连出到自身或者连出为空的单词节点不进行计算,因为这部分节点在图中属于孤立点,所以只要求保持其初始值即可;

4) 对于连出的其他词的单词节点,则按照公式,逐步更新其排序权重;

5) 同时根据前后两次迭代之间单词的权重变化值,来判断是否提前结束循环过程。

2.3 缺点

算法对于一段文本中多次出现的词,赋予更大的权重,因为它连出的节点会更多,所以当各个节点的初始权重一致的时候,则最终出现次数多的词权重会更大。这样会使类似于“的”、"你、我、他"等常用词,会出现比较大的误差,因为这些词一般没有什么特别的含义,仅仅是一个连接词或指代词。对于这种情况,可以在对文本进行切分时,去掉里面的停用词或其他符合一定规则的词语。

3 基于语义的统计语言模型

如:1)鲜花多少钱?2)百合花多少钱?3)水仙花多少钱?

在上述的3个语句中,如果希望提取的关键词更符合主题分布,那么应该是“鲜花”or“多少钱”。这里介绍LDA( )的关键词提取算法。

其中,

1)

为主题k中的词汇概率分布,

为第m篇文档的主题概率分布,

和

服从分布,

和

作为多项式分布的参数分别用于生成主题和单词;

2)

和

分别为

和

的分布参数,

反映了文档集中隐含主题之间的相对强弱,

为所有隐含主题自身的概率分布;

3) K为主题数目;

4) M为文档集中文档数目;

5)

为第m篇文档的词的总数;

6)

和

分别为第m篇文档中第n个单词和其他隐含主题。

3.1 LDA原理

LDA模型中,包含词、主题、文档三层结构。该模型认为一篇文档的生成过程是:先挑选主题,再为每个主题挑选若干词语;最终由这些词语就组成了一篇文章。所以主题对于文章是服从多项分布的,同时单词对于主题也是服从多项分布。基于这样的理论,我们可以知道,如果一个单词w对于主题t非常重要,而主题t对于文章d有非常重要,那么单词w对于文章d就很重要,并在同主题的词

里面,单词w的权重也会较大。

根据上述,需要计算两个概率:单词对于主题的概率和主题对于文章的概率。我们这里采用Gibbs采样法来进行概率的计算。具体公式如下:

1)主题

下各个词

的权重计算公式:

其中

:表示单词集合中任一单词;

:表示主题集合中任一主题;

:表示在主题为k时,单词i出现的概率,简记为

;

:表示语料库中单词i被赋予主题k的次数;

:表示词汇表的大小;

:表示超参数;

2)文档

下各个词

的权重计算公式:

其中,

:表示文档集合中任一文档;

:表示主题集合中任一主题;

:表示在文档为m时,主题k出现的概率,简记为

;

:表示语料库中文档m中单词被赋予主题k的次数;

K:表示主题的数量;

:表示超参数;

3)指定文档下某主题出现的概率,以及制定主题下、某单词出现的概率计算:

基于上述公式,我们可以计算出单词i对于文档m的主题重要性。但是由于在LDA主题概率模型中,所有的词汇都会以一定的概率出现在每个主题,所以这样会导致最终计算的单词对于文档的主题重要性值区分度受影响。为避免这种情况,一般会将单词相对于主题概率小于一定阈值的概率置为0(也可根据实际情况设定).

3.2 LDA实现思路

LDA实现大致思路:1)对文本进行分词并去除非重要性词语,采用正向过滤的方法,即选定特定词性的词。

2)在得到候选表后,对语料库进行Gibbs采样,得到单词-主题,文档-主题的分布统计矩阵;

参考资料:《自然语言处理技术入门与实践》

相关文章

  • 被平台黑了不能取款怎么办 移动被拉进黑名单怎么办?

    被平台黑了不能取款怎么办 移动被拉进黑名单怎么办?

    补交欠费就可以解除黑名单了。一、注意事项:我们自己在日常要注意用卡,自己手头上有不用的卡号时记得进行销户,不然会进入运营商的黑名单。…
    专业出黑 专业出黑 如何处理黑平台不出款1年前0027.52M0
  • 被黑了提款出不 惊天大案:他冒充周总理签字,骗取中国人民银行20万元现金

    被黑了提款出不 惊天大案:他冒充周总理签字,骗取中国人民银行20万元现金

    诈骗犯王倬1960年3月18日黄昏时分,一个身穿灰色呢大衣,瘦高个儿,瘦长脸,肤色黄黑的中年男子出现在北京西交民巷的中国人民银行总行行长办公室。…
    专业出黑 专业出黑 如何处理黑平台不出款1年前0029.09M0
  • 黑毛痣能取吗 黑毛痣恶化概率较低为什么医生还是建议及时采取治疗措施

    黑毛痣能取吗 黑毛痣恶化概率较低为什么医生还是建议及时采取治疗措施

    黑毛痣恶化概率较低为什么医生还是建议及时采取治疗措施…
    专业出黑 专业出黑 如何处理黑平台不出款1年前0021.11M0
  • 被平台黑了不能取款怎么办 被平台黑专门帮人出款 . 到底该如何时候

    被平台黑了不能取款怎么办 被平台黑专门帮人出款 . 到底该如何时候

    藏分,通过藏分的技术把账号的分数隐藏起来,然后会批次出款是现在在网上黑平台被黑解决的最好的办法,现在掌…
    专业出黑 专业出黑 如何处理黑平台不出款1年前0025.74M0
  • 网上被黑不给取款解决方法 被黑网站不给提款解决方法有哪些.如何出

    网上被黑不给取款解决方法 被黑网站不给提款解决方法有哪些.如何出

    提要网上黑网上提示出款通道维护不给提款怎么办,,被黑的原因:第一是盈利多,盈利超过本金很多倍。小编将《被黑网站不给提款解决方法有哪些》的相关知识…
    专业出黑 专业出黑 如何处理黑平台不出款1年前0021.89M0
  • 网上通道维护提不了款怎么办 我在网上被黑客服不给出款--平台输了钱怎么办

    网上通道维护提不了款怎么办 我在网上被黑客服不给出款--平台输了钱怎么办

    1、文章核心阅读在黑网通道维护好几天了不能提现怎么办。作者把《我在网上被黑客服不给出款》的相关知识,送给你们,本篇文章给大家谈谈,多个方面为读者…
    专业出黑 专业出黑 如何处理黑平台不出款11个月前0018.84M0
  • 被黑平台不给提款的解决方法 曝光:“星钻科技”已经跑路,亏损者还是赶紧报警维权吧

    被黑平台不给提款的解决方法 曝光:“星钻科技”已经跑路,亏损者还是赶紧报警维权吧

    前言:继内蒙、北京、上海、深圳地方金融监督管理局发布了对交易所之类的公告后,中国证监会北京监管局在12月27日…
    专业出黑 专业出黑 如何处理黑平台不出款1年前0018.54M0
  • 平台上借不到钱怎么办 贷款30余万借给亲戚,多次催款未果且影响信用……该怎么办?

    平台上借不到钱怎么办 贷款30余万借给亲戚,多次催款未果且影响信用……该怎么办?

    王某手上没有现金,便将信用卡借给刘某使用,同时从自己名下的花呗、借呗、微粒贷等多个平台,多次借款30余万元,并转借给刘某使用。…
    专业出黑 专业出黑 如何处理黑平台不出款1年前0019.13M0
  • 平台赢了不给取款 杀手级应用即将到来?当德州扑克遇见Web3

    平台赢了不给取款 杀手级应用即将到来?当德州扑克遇见Web3

    引入语Call(跟码)、Raise(提码)、Double(加倍)、ALLIN(梭哈)……当玩家振奋地喊出一个个词汇时,一场精彩绝伦又险象环生的…
    专业出黑 专业出黑 如何处理黑平台不出款10个月前0015.78M0
  • 怀疑男朋友出轨怎么查开宾馆** 如何发现另一半出轨?

    怀疑男朋友出轨怎么查开宾馆** 如何发现另一半出轨?

    导言(办公室)旁边的老陈用胳膊捅捅我,示意我看门外的患者和她先生。-咋了?那不是咱们的9床病人吗?-是啊,你看旁边那个男的。-那不是她老公吗?有…
    专业出黑 专业出黑 如何处理黑平台不出款1年前0022.88M0
  • 网上赢钱被黑不给提款怎么办可以拿回 在网上平台赢钱出现提示通道维护取款失败

    网上赢钱被黑不给提款怎么办可以拿回 在网上平台赢钱出现提示通道维护取款失败

    1、内容核心阅读网络惘投出现正规的出黑哪里有怎么才能挽回损失虚假的惘投平台模式其实严格的组织框架,多级的管理,注意服务器都是设置在国外,然后在国…
    专业出黑 专业出黑 如何处理黑平台不出款9个月前0022.98M0
  • 不给取款怎么解决 “套路升级”LoveYouAPP受骗不给取款提现,不正规!老师诱导入金提现受阻怎么办?

    不给取款怎么解决 “套路升级”LoveYouAPP受骗不给取款提现,不正规!老师诱导入金提现受阻怎么办?

    希望本文的读者能够及时采取措施减少损失;请及时与提供解决方案的团队联系,如果您想追回丢失的资产,请务必仔细阅读以下内容。(一)解决办法:…
    专业出黑 专业出黑 如何处理黑平台不出款9个月前0014.99M0

最新文章

  • 小投资摆地摊赚做什么好 摆地摊卖什么最赚钱而且很受欢迎
  • 快速注册chatgpt 中小AI企业,正在远离“牌桌”
  • 小投资摆地摊赚做什么好 2024年,不打工,做四个本小利大生意!!!
  • 云从科技chatgpt 倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实
  • 快速注册chatgpt 文心一言全面免费,最新版本实测!网友:AI 普惠的时代来临了
  • 男性勃起用什么 男人阴茎勃起无力吃什么药好
  • 女方婚书回帖 八旬老人街头写婚书:传统技艺绽放新光彩
  • 自己在网上怎么挣钱 个低成本副业:一部手机即可做,业余时间月入 5000 + 挺可行
  • ai人工智能 下载 国内常用免费AI工具介绍(6.3)——通义APP的“AI生视频”
  • 女方婚书回帖 结婚不用户口本,父母拦不住,离婚却被卡死?
  • chatgpt创始人是俄国人吗 OpenAI创始人Altman离经叛道,16岁出柜,19岁斯坦福辍学
  • wps接入chatgpt chatgpt如何接入wps
  • 网上赢了钱提不了现怎么解决 在平台营前检测
  • 草根如何创业 “创业摆渡人”
  • chatgpt4.0功能解读 ChatGPT-4都逆天升级了,我们还要继续培养“小镇做题家”吗??
  • 可以提款到qq的赚钱游戏 清远男子听信网友可以快速赚钱,没想到前几次真的赚到了……
  • chatgpt4.0功能解读 ChatGPT4.0使用2个月心得:没有想象的那么好!
  • 365赢30万不让提款 注单异常不给提款怎么解决
  • 利用chatgpt进行高考志愿填报 ChatGPT、高考志愿……朱民在达沃斯上跟潮新闻记者聊了这些关键词

没有相关内容

Copyright © 2022-至今 被平台黑了取不了款怎么出黑•现在最火的免费发帖推广平台网站 陕ICP备2023010157号
43 次查询在 1.028 秒, 使用 41.41MB 内存