累计发病率 R语言累计发病率图

转载

mob64ca1414c613 2023-11-14 10:48:43

文章标签 累计发病率 R语言数据库数据数据结构 文章分类 R语言后端开发

累计发病率 R语言累计发病率图_数据

我们上一张已经讲过如何把提取的数据随机分组，今天来讲讲怎么使用SEER数据库计算发病率趋势，在这之前，我们先来看一篇例文，

题目：Incidence, Prognostic Factors and Survival Outcome in Patients With Primary Hepatic Lymphoma

累计发病率 R语言累计发病率图_累计发病率 R语言_02

累计发病率 R语言累计发病率图_数据结构_03

作者计算了1983-2015发病率年度百分比变化和发病率走势图，使得发病率走势一目了然，是个加分项。我们今天来讲讲怎么像文章一样从SEER数据库提取发病率数据，并做出发病率走势图。

首先打开SEERStat软件输入账号连上数据库

累计发病率 R语言累计发病率图_数据_04

然后点击左上角这个符号

累计发病率 R语言累计发病率图_累计发病率 R语言_05

然后会打开一个新的有统计的界面

累计发病率 R语言累计发病率图_数据_06

点击statisc

累计发病率 R语言累计发病率图_数据结构_07

然后在新界面选择第4个

累计发病率 R语言累计发病率图_数据库_08

然后点击selection

累计发病率 R语言累计发病率图_数据结构_09

这个界面我们需要对年龄、性别和疾病诊断设定

累计发病率 R语言累计发病率图_数据库_10

我们这次是想比较男女发病率有什么不同，就不使用乳腺癌发病率了，因为乳腺癌发病率肯定是女性高啊，我们这次使用肝癌发病率

累计发病率 R语言累计发病率图_数据_11

Table这里要加入性别

累计发病率 R语言累计发病率图_数据结构_12

最后点击闪电图标就可以了，得到数据如下图，1975-2017的APC也给出来了，我们要把它导出整理一下

累计发病率 R语言累计发病率图_数据_13

整理后得到如下结果就可以进行分析了

累计发病率 R语言累计发病率图_数据结构_14

我们先导入我们需要的R包，ggplot2，splines，rms，stringr，然后我们把数据导入R并查看数据

library(ggplot2)
library(splines)
library(rms)
library(stringr)
be<-read.csv("E:/r/test/fabinglv2.csv",sep=',',header=TRUE)
names(be)

累计发病率 R语言累计发病率图_数据结构_15

累计发病率 R语言累计发病率图_数据结构_16

“all.year” 和"all.Rate"代表肝癌的年份和发病率，

“year”、“sex”、“Rate” 表示分组的年份、性别和发病率

我们先绘制散点图查看数据结构

ggplot(be, aes(be$all.year, be$all.Rate) )+geom_point()#绘制散点图

累计发病率 R语言累计发病率图_数据结构_17

这个图形看起来不像直线关系，我们来模型拟合一下，在这之前还要处理一下年份的数据结构，因为它不是数字类型的，分析不了

be$all.year<-str_extract(be$all.year, "\\d+")#把年龄里面的数字提取出来
be$year<-str_extract(be$year, "\\d+")#把年龄里面的数字提取出来
be$year<-as.numeric(be$year)
be$all.year<-as.numeric(be$all.year)
be$sex<-as.factor(be$sex)
##把它们转成数字类型后就可以分析了
model.spline <- lm(be$all.year ~ rcs(be$all.year))#建立样条回归
summary(model.spline)
##P值小于0.05，可以确定是非线性关系了

累计发病率 R语言累计发病率图_数据_18

开始绘制图形，先绘制总发病率的

ggplot(be, aes(be$all.year, be$all.Rate)) +  
  geom_point()+geom_line()+
  stat_smooth(method = lm, formula = y ~ rcs(x,5))

累计发病率 R语言累计发病率图_数据_19

可以美化一下

ggplot(be, aes(be$all.year, be$all.Rate)) +  
  geom_point(shape=21,size=4,col="black",fill="black")+geom_line(linetype=1,size=1)+
  stat_smooth(method = lm, formula = y ~ rcs(x,5)) ##对图形美化

累计发病率 R语言累计发病率图_数据结构_20

分别绘制男女的肝癌发病率

ggplot(be, aes(be$year, be$Rate,group=sex)) +  
  geom_point()+geom_line()+
  stat_smooth(method = lm, formula = y ~ rcs(x,5))

累计发病率 R语言累计发病率图_累计发病率 R语言_21

可以再美化一下

累计发病率 R语言累计发病率图_累计发病率 R语言_22

图形做完了，几乎和上面论文的图一模一样，甚至还要美观一点。我们这里1是男性，2是女性，可以看出男性的肝癌发病率要明显的高。

本内容讲到这里，SCI论文需要的结果我们已经全部做出来了，您有心的话已经完全可以自己使用SEER数据库做一篇自己的文章了，还等什么呢？

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python 解析xml的类 python 解析xml文件

下一篇：android升级后权限丢失安卓6.0权限

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

累计发病率 R语言 累计发病率图

累计发病率 R语言 累计发病率图

51CTO博客

累计发病率 R语言累计发病率图

累计发病率 R语言累计发病率图