Project2——论文查重系统(PPCS)
发布时间 2023-09-19 15:37:32作者: Antonio_ice_room
github项目地址
作业要求
需求
|
|
| 语言 |
Java |
| 目标 |
对输入的两个文件进行查重 |
| 输出 |
命令行显示,并存入文件 |
| 要求 |
输出浮点型结果 |
算法流程
1.文本处理
使用空格分隔文本,并切换成小写
2.获取特征向量
并用分隔后得到的单词,组成词频向量
3.计算余弦相似度
用两个向量的点积除以二者的范数之积来计算余弦相似度
优缺点:
速度快,代码简单,但无法联系上下文,无法真正地对比语义信息。
PSP表格
|
| PSP2.1 |
Personal Software Process Stages |
预估耗时(分钟) |
实际耗时(分钟 |
| Planning |
计划 |
5 |
5 |
| Estimate |
估计这个任务需要多少时间 |
3 |
1 |
| Development |
开发 |
- |
- |
| Analysis |
需求分析 (包括学习新技术) |
- |
- |
| Design Spec |
生成设计文档 |
- |
- |
| Design Review |
设计复审 |
- |
- |
| Coding Standard |
代码规范 (为目前的开发制定合适的规范) |
- |
- |
| Design |
具体设计 |
10 |
5 |
| Coding |
具体编码 |
20 |
20 |
| Code Review |
代码复审 |
- |
- |
| Test |
测试(自我测试,修改代码,提交修改) |
20 |
15 |
| Reporting |
报告 |
30 |
25 |
| Test Repor |
测试报告 |
- |
- |
| Size Measurement |
计算工作量 |
- |
- |
| Postmortem & Process Improvement Plan |
事后总结, 并提出过程改进计划 |
- |
- |
|
合计 |
88 |
71 |